Søren in Norwegen

Archive for the ‘Allgemein’ Category

Die Silur-Hypothese (ii): Ein Dilemma

Ich habe diese Miniserie nicht vergessen. Ich war nur so beschaeftigt mit anderen interessanten Sachen.
Wieauchimmer, beim letzten Mal erwaehnte ich, dass Schmidt, G. A. und Frank, A. in „The Silurian hypothesis: would it be possible to detect an industrial civilization in the geological record?“ im International Journal of Astrobiology, 18(2), 2018, pp. 142–150 ebenso wie ich zu dem Schluss kommen, dass es unwahrscheinlich ist, dass kuenstliche Artefakte (vulgo: Werkzeuge oder Haeuser) oder Fossilien als Zeugen einer Zivilisation von vor vielen Millionen Jahren herhalten kønnten.

Das heiszt aber nicht, dass eine solche Zivilisation keine Spuren hinterlaeszt. Denn …

[…] it is already clear that our human efforts will impact the geologic record being laid down today […].

Und „geologic record“ bedeutet, dass das auch in vielen Millionen Jahren noch messbar sein wird … wenn auch mit einem kleinen Signal. Aber dazu komme ich heute noch nicht. Heute geht es vielmehr darum, dass man bei laenger bestehenden Zivilisationen ein grøszeres Signal in den (geologischen) Daten erwarten wuerde. Aber …

[…] the longer a civilization lasts, the more sustainable its practices would need to have become in order to survive.

Was ja voll logisch ist und nicht weiter erklaert werden muss. Leider (nicht allgemein, sondern nur in diesem Zusammenhang) gilt auch, dass je nachhaltiger eine Zivilisation ist, umso kleiner deren „globaler Fuszabdruck“ wird. Lokal ist das nur bedingt gueltig, aber lokale Veraenderungen bleiben unbemerkt weil diese nicht gefunden werden oder kønnten einfach nur geologische Kuriositaeten sein. Am besten ist etwas das sich ueber die ganze Erde verbreitet (*hust*), aber wegen obiger Feststellung …

[…] might [the footprint of civilization] be self-limiting on a relatively short timescale.

Das bedeutet dann, dass in besagten stratigrafische Aufzeichnung …

[…] the Anthropocene will likely only appear as a section a few cm thick […].

Aber ein Ass haben zukuenftige Forscher dennoch im Aermel, denn dieses Signal …

[…] [will] appear almost instantaneously in the record.

Na das ist doch was womit man arbeiten kann. Dazu mehr in den naechsten Beitraeagen.

Zum Abschluss sei noch gesagt, dass die Autoren sich nur auf die Diskussion von Dingen beschraenken, von denen sie wissen dass diese bereits einen Einfluss auf die stratigrafische Aufzeichnung haben und wie das Signal dieser Dinge in etlichen Millionen Jahren aussehen wuerde. Coruscant Szenarios werden also nicht betrachtet.

Posted by Tentacel on 2023-04-05 at 13:37 under Allgemein.
Comment on this post.

Let’s talk about … Krebs – L: Keine unnøtige Sorge vor bestimmten Angstmachern

Heute ein Diagramm, welches so nicht (mehr oder weniger) direkt aus der Tabelle zu bekommen ist. Hier sind …

… die drei haeufigsten Krebsarten per Alltagsgruppe (wie immer: die Zahlen sind NUR fuer norwegische Maenner im Jahre 2020).
An den Balken kann man ablesen, wie viel Prozent aller Krebsfaelle in einer Altersgruppe zu einer bestimmen Krebsart gehørten. Die drei haeufigsten Arten sind farbkodiert und alle anderen im weiszen Abschnitt eines Balkens zusammengefasst. Ueber jedem Balken ist die Anzahl der totalen Krebsfaelle in der gegebenen Altersgruppe wiedergegeben.

Auf den ersten Blick sieht das ja furchterregend aus! Warum ist das aber (schon wieder) ein positiv zu interpretierendes Diagramm und wie passt das mit dem Titel dieses Beitrags zusammen?
Das ist einfach zu erklaeren und liegt darin begruendet, dass man nie vor unkonkreten Dingen Angst, sondern nur vor solchen Sachen, denen man einen Namen geben kann. Hier meine ich damit, dass man sich bspw. als junger Mann mit 15 Jahren Sorgen um Hodenkrebs macht, weil man das irgendwo gehørt hat. Das ist eine menschliche und sehr verstaendliche Reaktion. Aber besagter junger Mann sorgt sich dann nicht im selben Masze ueber all die anderen potentiellen Krebsarten, die man auch bekommen kønnte. Dies trotz der Tatsache, dass es sogar wahrscheinlicher ist, dass man an denen, und nicht an Hodenkrebs, erkrankt.

Worauf ich hinaus will: man sollte spezifische, einem „bekannte“ Krebsarten im selben Lichte sehen wie alle Krebsarten von denen man noch nix gehørt hat. An Letzteren zu erkranken ist wahrscheinlicher, aber vor denen hat man keine Angst. Warum sollte man also Angst haben vor einer spezifischen Krebsart.
Hinzu kommt hier auch wieder, dass die Chance ueberhaupt an Krebs zu erkranken (noch dazu an einer bestimmten Art), ziemlich klein ist. In meiner Altersgruppe sind mehr als 150-tausend Maenner und weniger als 250 Maenner haben ueberhaupt Krebs bekommen. Meine Sorge vor Darmkrebs sollte ich also entsprechend (deutlich) zurueckschrauben.

Was das NICHT bedeutet: das bedeutet NICHT, dass man sich ueberhaupt keine Gedanken mehr macht und deshalb nicht zu den Vorsorgeuntersuchung geht. Egal wie klein die Chancen auch sind, wenn man spezifische Krebsarten betrachtet (also wenn einem sozusagen ALLE Krebsarten bekannt sind), dann ist die Chance die Haeufigste zu bekommen (per definitionem) am grøszten. Und das ist der Punkt an dem Vorsorgeuntersuchungen ansetzen.

Das Diagramm ist auch auf verschiedene andere Arten voll spannend, aber die Erkundung des Informationsgehalts ueberlasse ich euch, meinen lieben Leserinnen und Lesern, als Hausaufgabe :) .

Posted by Tentacel on 2023-04-03 at 13:37 under Allgemein.
Comment on this post.

o.O … Fortschritt!!!

Vor einer Weile erhielt ich einen neuen Laptop und sogleich machte ich das was man halt so macht: ich schraubte den auf, …

… denn ich wollte schauen ob ich einfach die Festplatte meines alten Laptops reinstecken kønnte. Kann ich nicht, denn die 500 GB Festplatte ist der duenne „Streifen“ links neben der Bueroklammer!

Krass! Damals (vor nur sehr wenigen Jahren!) als ich mit dem Studium anfing, kaufte ich eine 20 GB Festplatte und die war echt grosz. Ich erinnere mich noch wie ich erstaunt fragte ob ich ueberhaupt so viel Speicherplatz brauche. Die Antwort war: Keine Sorge die kriegst du schon voll“. Wieauchimmer, das war noch ein richtiger Klotz und 25 davon neben oder aufeinander gestellt haetten signifikant mehr Platz weggenommen als dieser Streifen.

Da kann ich nur sagen: Wir leben ja wohl mal voll in der Zukunft! Cool wa!

Posted by Tentacel on 2023-04-02 at 13:37 under Allgemein.
Comment on this post.

Bzgl. des Unsinns, dass leibliche Kinder einen Teil der Eltern weitertragen – Teil 4: nix mehr uebrig

Ich gebe zu, dass ich mich in letzter Zeit mehr um Kevin Bacon und Krebs gekuemmert habe und diese Miniserie etwas kurz gekommen ist.
Wieauchimmer, heute geht es um ein Kernkonzept bzgl. dessen was ich eigtl. mit dieser Miniserie ausdruecken will: wieviele Gene „muessen“ von einem eigtl. in den Kindern sein, damit diese einen Teil von mir weitertragen? Eine Frage, welche direkt aus dem Bild im allerersten Beitrag folgt.

Ich befuerchte die meisten Menschen denken (wenn ueberhaupt) nur eine Generation weit:

Die Gene der Eltern finden sich je zur Haelfte im Kind wieder. Wenn ich dran glauben wuerde, kønnte ich da ja noch mitgehen, dass das Kind „etwas“ von den Eltern „weitertraegt“. … Aber die Groszeltern haben das doch auch schon gedacht und uebertragen das (irre) Konzept des „Weitertragens“ von Wasauchimmer auf die Enkel. Nur … da ist dann viel weniger von den Genen uebrig:

Nun nehme man mal an, dass die Eltern der Eltern sich nicht ausstehen kønnen? „Hat“ das Kind dann „mehr“ von den Groszeltern muetterlicherseits oder vaeterlicherseits? Und kønnen besagte Omas und Opas sich da drauf einigen?

Wenn man noch eine Generation weiter zurueck geht wird’s etwas unuebersichtlich:

Mhmmmmm … … …

Der Mensch hat ungefaehr 50-tausend Gene. Davon tragen weniger als die Haelfte ueberhaupt zum Phaenotyp bei (in wissenschaftlicher Sprache: weniger als die Haelfte unserer Gene druecken Proteine aus) … bzw. kann man sogar sagen, dass viel viel viel weniger davon zu dem beitragen was man als Mensch verstehen wuerde. Es braucht naemlich urst krass viele Gene die Zeug machen nur damit die Zelle ueberhaupt funktioniert und das traegt dann weder zur Persønlichkeit, noch den zerebralen Faehigkeiten oder den Muskeln eines Menschen bei.

Aber fuer eine _sehr_ konservative Abschaetzung lasse ich einen Menschen mit diesen 50-tausend Genen starten und sage, dass diese auch alle Ausdruck dessen sind was von diesem Menschen weitergetragen werden kønnte. Das Kind hat dann schon nur noch 25.000 davon, die Enkel nur noch 12.500, die Urenkel nur noch 6.300. Es ist leicht zu sehen ab wann nix mehr vom urspruenglichen Menschen uebrig ist: nach 16 Generationen ist weniger als 1 Gen uebrig.
Wenn man annimmt, dass es von einer Generation zur naechsten ca. 30 Jahre dauert, so ist nach ca. 500 Jahren nichts mehr da was weitergetragen werden kønnte.

In Wahrheit geht das VIEL schneller, denn es vergeht weniger Zeit zwischen den Generationen UND es gibt VIIIIIEEEEEL weniger Gene die das Menschsein, geschweige denn das Individuum-sein ausdruecken. Ich denke, dass die Corgis der Queen das gut ausdruecken, denn Susan ist 14 Generationen von Willow entfernt und das geschah alles innerhalb der Lebenszeit eines Menschen.
Und alle Versuche das durch Inzucht zu verlangsamen sind spektakulaer fehlgeschlagen.

Aber egal wie lange das „Verduennen der Gene“ auch braucht bis nix mehr uebrig ist, im Grunde fuehrt auch hier wieder alles darauf zurueck, dass das Konzept, dass Kinder etwas von den Eltern weitertragen, vølliger Irrsinn ist. Menschlich ist das verstaendlich, aber wenn mein N-mal-Urenkel nix mehr von „mir“ hat, warum sollte dann mein N-minus-eins-mal-Urenkel was von „mir“ gehabt haben und so weiter bis zum Kind. Das ist einfache Induktion. Oder man muss erklaeren warum das „etwas“ pløtzlich weg ist und wo das dann hin ist. Aber dann bewegt man sich nicht mehr auf dem Gebiet der Wissenschaft. Das ist auch sehr menschlich, aber da kenn ich mich nicht aus.
Genug fuer heute, aber mit Genen geht’s auch beim naechsten Mal weiter.

Posted by Tentacel on 2023-03-31 at 13:37 under Allgemein.
Comment on this post.

Let’s talk about … Krebs – K: Noch mehr gute Nachrichten

Waehrend ich die Information in den Diagrammen der vorangehenden Artikel als positiv interpretiere, so gebe ich zu, dass insb. der Graf des (korrigierten) kumulativen Risikos doch etwas furchteinfløszend aussieht. Das liegt natuerlich daran, dass dieser ab ca. 55 Jahren so schnell hoch geht und dann ueber 60 % erreicht in der letzten Altersgruppe. Deswegen zeige ich heute den dazugehørenden Grafen bzgl. der Mortalitaet … … … jaja, ich weisz, es ist etwas kurios „Sterblichkeit“ und „gute Nachrichten“ zusammen zu packen … aber wenn man die Ergebisse sieht, dann ist das sinnvoll:

Wie immer gelten diese Zahlen nur fuer Maenner in Norwegen, die Datenpunkte sind per Altersgruppe und fuer alle Krebsarten zusammen. Ebenso gilt auch hier wieder, dass die Striche zwischen besagten Punkten nicht als Zwischenwerte anzusehen sind, sondern als visuelle Hilfen um dem Verlauf besser folgen zu kønnen.

In den vorangehenden Beitraegen habe ich nur von der Inzidenz geredet, also wie oft Krebs ueberhaupt auftritt, ohne diesen Begriff zu verwenden. Nun muss ich aber damit anfangen, weil ich hier zwei Crude Rates (per 100.000 Menschen) vergleiche; naemlich fuer die besagte Inzidenz (schwarz im Diagramm) und die Mortalitaet (rot im Diagramm). Der Verlauf der Letzteren folgt dem Verlauf der Ersteren, bleibt aber immer darunter. Das war zu erwarten und ist noch nicht die gute Nachricht.

Die gute Nachricht ist die blaue Kurve, deren Werte an der rechten Ordinate abzulesen sind. Konkret stellt diese das Verhaeltnis der jeweiligen Crude Rate der Inzidenz und Mortalitaet dar und drueck im Wesentlichen aus, dass Krebs erstaunlich gut heilbar ist! Ich hatte das frueher schonmal ganz kurz anklingen lassen, bin aber nicht weiter drauf eingegangen.
Wie schon erwaehnt, liegt fuer Maenner in meinem Alter die jaehrliche Wahrscheinlichkeit Krebs zu bekommen bei nur 0.138 % und die Mortalitaet sogar nur bei 0.023 %. Das heiszt also, dass nur 1 von 6 Maennern die in meinem Alter mit Krebs diagnostiziert werden, auch daran stirbt. Das ist immer noch nicht toll, aber doch weit entfernt vom „Todesurteil Krebs“, welches man bei einer solchen Diagnose im Hinterkopf hat.

Natuerlich wird das Verhaeltnis mit zunehmendem Alter kleiner. Aber 10 Jahre spaeter ist es immer noch bei 5:1; und nochmals 10 bzw. 20 Jahre spaeter ist es immer noch besser als 4:1 bzw. 3:1.
In noch aelteren Altersgruppen kann man die Daten zwar noch auf diese Weise diskutieren, aber ab hier muss man bedenken, dass derart alte Maenner zwar mglw. Krebs haben, aber dann an was ganz anderem sterben. Das wuerde die Mortalitaet kuenstlich nach unten treiben.

Beim altersgruppenspezifischen und kumulativen Risiko sieht die Situation im Wesentlichen genauso aus. Deswegen diskutiere ich das nicht weiter.

Zum Abschluss møchte ich noch erwaehnen, dass diese Zahlen eine Zusammenfassung aller Krebsarten darstellen. Die Prognose ist fuer manche (zum Glueck seltene) Krebsarten nicht ganz so gut. Aber ich will die gute Laune nicht verderben und beende den Artikel an dieser Stelle.

Posted by Tentacel on 2023-03-29 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – XXXVIII – I’ll be back

Obligatorischer Videoschnipsel.

Neben den in den letzten zwei Beitraegen diskutierten Aussteigern gibt es auch das entgegengesetzte Phaenomen: Seiten die nach dem Abbruch der Kette von Selbstzitierungen dann auf einem høheren Linklevel pløtzlich wieder neue Selbstreferenzen aufweisen.
Bevor ich naeher darauf eingehe, muss ich zunaechst zwei Sachen nochmals explizit sagen. Zum Einen, sind bei den Daten mit denen die Entwicklungsparameter bestimmt wurden weder Aussteiger noch reaktivierte Seiten dabei. Sobald fuer eine Seite die Kette von Selbstreferenzen abgebrochen ist, wurde besagte Seite nicht weiter beruecksichtigt bei den erwaehnten Daten.
Zum Anderen kønnen (so wie bei den Aussteigern) auch hier wieder Doppelzaehlungen auftreten. Eine Kette an Selbstreferenzen kann mehrfach abbrechen und reaktiviert werden. Aber wie bei den den Aussteigern denke ich nicht, dass diese all zu sehr ins Gewicht fallen.

Zunaechst ist zu sagen, dass es zahlenmaeszig erstaunlich viele Reaktivierungen gibt:

Ab LL₁₁ dann sogar mehr als Aussteiger und bei spaeteren Linkleveln bis zu einer Grøszenordnung mehr. Aber die absoluten Zahlen sind dann schon nur noch im Bereich von hundert oder weniger Seiten.

Mhmm … was mache ich denn nun mit diesen Daten? Ist ja auch ein bisschen peinlich, denn die letzten Mal wollte ich zu viel simulierte Seiten los werden und nun sollen die wieder dazu kommen? … Mist … ich komme wohl nicht drumrum mir das mal genauer anzuschauen. Mir sind die vielen Verteilungen aber langsam ueber, weswegen ich das heute mal ‚wieder als Heatmaps darstelle. Es gibt zwei Aspekte von Interesse: wie lang eine reaktivierte Kette wird und wieviele Seiten im Durchschnitt dazu kommen … pro Linklevel natuerlich.
Ich vermute aber, dass Reaktivierungen in der Mehrzahl „Blips“ sind, also wenn eine Seite eher aus „Versehen“ noch ein Mal (und nur ein Mal) zitiert wird. Diese Vermutung wird durch die Daten bestaetigt:

Zwei Dinge sind zu beachten. Zum Einen geht die Skala fuer das Linklevel erst bei 2 los. Auf LL₁ kann nix reaktiviert werden, weil ja (von Artefakten abgesehen) keine Seite auf LL₀ Selbstreferenzen haben kann. Das bedeutet, dass der frueheste Ausstieg auf LL₁ und die frueheste Reaktivierung auf LL₂ stattfinden kann.
Zum Anderen ist die Farbskala logarithmisch … also die Farbskala an sich ist natuerlich linear, aber praesentiert logarithmische Werte.

Wie man sieht, ist die Aussage mit den „Blips“ bereits hier zu 50 % bestaetigt. Dies aeuszert sich in dem roten Bereich in der linken unteren Ecke. Es werden zwar ganz viele Seiten reaktiviert (im Maximum fast 500-tausend) die Laenge der reaktivierten Kette ist aber nur eins.
Irgendwie war das zu erwarten. Auf LL₂ bis so ca. LL₅ sind die Seiten thematisch noch relativ nah und aufgrund der totalen Anzahl an zur Verfuegung stehenden Seiten kann dann doch nochmal die eine oder andere Selbstreferenz auftreten.

Dem schlieszt sich ein schmales gruenes Band an welches fuer Seiten mit „mittellangen“ Ketten steht. Hier kommt aber die Logarithmushaftigkeit der Farbskale ins Spiel, denn „gruen“ bedeutet, dass es sich dabei nur noch um hunderte, bis høchstens ein paar wenige tausende Seiten handelt. Auf das gruene Band folgt ein relativ breiter blauer Bereich an laengeren Ketten. Davon gibt es dann aber meist nur eine einzige Seite die derart reaktiviert wird.

Die Anzahl der durchschnittlichen Selbstreferenzen die dazu kamen hat mich etwas ueberrascht:

Der Durchschnitt berechnete sich auf die folgende Weise. Fuer jede Seite mit einer gegebenen (reaktivierten) Kettenlaenge sind alle in dieser Kette enthaltenen Selbstreferenzen aufsummiert worden. Am Ende wurde dieser Wert durch die Anzahl der relevanten Seiten und besagte Kettenlaenge dividiert. Das ist also zwei Mal „durchgeschnitten“.

Die Ueberraschung liegt nun darin, dass die durchschnittlich dazukommende Anzahl an Selbstreferenzen unabhaengig von der Kettenlaenge ungefaehr Eins betraegt. Mit Ausnahme der nicht-blauen Punkte am linken Rand; aber dazu komme ich gleich.
Eigentlich ist das nicht komplett ueberraschend. Fuer relativ kurze Ketten hatte ich das erwartet und das waeren dann die fehlenden 50 % fuer die Bestaetigung der Aussage mit den „Blips“. Also das ist gut.
Seiten die lange reaktivierte Ketten (also die separaten Punkte ueber dem „blauen Feld“) aufweisen, haette ich aber zunaechst erwartet, dass es sich dabei um wichtige Seiten handelt und die einen entsprechend (viel?) høheren Durchschnitt an Selbstreferenzen aufweisen.
Ein Beispiel waere der oberste Datenpunkt bei LL₁₄. Diese Seite weist eine Kette auf die ueber 43 weitere Linklevel geht. Aber jedes Mal wird die Seite nur ein einziges Mal zitiert. Ich vermute, dass es sich hierbei auch wieder um eine Art von Artefakt handelt.

Wenn ich aber laenger drueber nachdenke, dann passt diese Ueberraschung nicht mit den „Blips“ zusammen. Warum sollte die Kette an Selbstreferenzen fuer eine wichtige Seite abbrechen und dann stark weitergehen? Da scheint es durchaus sinnvoller zu sein, dass ein paar wenige Seiten oftmals hintereinander „blipsen“. Rein statistisch gesehen wuerde ich das bei fast 6 Millionen Seiten durchaus fuer møglich halten.

Der nicht-blaue Streifen am linken Rand hingegen drueckt diese Vermutung dann doch aus. Aus der ersten Heatmap sehen wir, dass die nicht-blauen Punkte durch relativ wenige Seiten zustande kommen. Es ist durchaus leicht vorstellbar, dass spaeter (relativ) vielzitierte Seiten auf LL₁ keine Selbstzitate haben. Einfach weil die Anzahl der dort „verfuegbaren Seiten“ welche die Ursprungsseite zitieren kønnen stark begrenzt ist. Und dann geht’s halt los mit der Kette auf LL₂ oder LL₃.
Der rote Punkt an sich kommt durch nur 10 Seiten zustande. Da braeuchte nur eine einzige mit vielen Selbstzitaten auf LL₂ dabei sein und das wuerde einen hohen Durchschnittswert ergeben.
Ein anderes Beispiel sind die zwei gruenen Datenpunkte darueber. Die kommen jeweils durch nur eine Seite zustande auf die das Vermutete dann wohl zutrifft.
Der Rest des nicht-blauen Bereichs ist im Wesentlichen eine Variation dessen, dass hier relativ wenige Seiten zum Signal beitragen und deswegen schon eine Ausnahme den Durchschnitt stark verschieben kann.

Lange Rede kurzer Sinn: Reaktivierungen spielen an sich nur fuer kleine Werte von Selbstzitierungen ein Rolle. Das kann in der totalen Anzahl an Selbstreferenzen pro Linklevel durchaus einen signifikanten Beitrag zur Folge haben aber nicht in der Gesamtheit der Datenpunkte der einzelnen Verteilungen.
Das ist natuerlich gut, denn die ich versuchte ja eigentlich Seiten los zu werden, weil ich insgesamt zu viele simuliere. Andererseits kønnte es durchaus sein, dass bei mittelhohen Linklevel solche Reaktivierungen zum Signal im „Schwanz“ beitragen..

So, das soll genug sein fuer heute. Beim naechsten Mal schauen wir mal kurz auf die Ausreiszer und dann sollte es das endlich gewesen sein mit den Selbstreferenzen.

Posted by Tentacel on 2023-03-23 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – XXXVII – Gesprengte Ketten (2)

Zum Ende des letzten Beitrags zeigte ich (an drei Beispielen), fuer wieviele Seiten die Kette an Selbstreferenzen abbricht. Dies in Abhaengigkeit vom Linklevel und von der Anzahl der Selbstreferenzen. Ich erwaehnte auch, dass man diese Information nutzen kann um die Diskrepanzen zwischen Simulation und Messung (auf Seiten der Simulation) zu reduzieren (oder zumindest zu erklaeren).

Wie ebenso beim letzten Mal erwaehnt, so muesste man, um das ordentlich zu machen, den (mehr oder weniger) allgemeingueltigen Zusammenhang zwischen Anzahl der „Aussteiger“, Linklevel und Anzahl der Selbstreferenzen in Form einer Funktion ermitteln … was mir zu viel Arbeit ist. Da ich nur mal schauen will, wie gut diese einfache Korrektur funktioniert, werde ich hier einen hybriden Ansatz verfolgen, bei der ich Simulationsresultate und Beobachtungen „vermischen“ werde. Fuer eine richtige Simulation kann man das natuerlich nicht so machen.
Das Ganze werde ich auch nicht allgemein machen sondern an einem sehr konkreten Beispiel: die Diskrepanz zwischen Simulation und Messung auf LL₇ fuer Seiten die auf LL₇ 10 Selbstreferenzen haben. Ihr meine lieben Leserinnen und Leser seid sicher schlau genug das verallgemeinernte Prinzip dahinter zu erkennen.

Zur Erinnerung nochmals der Vergleich zwischen Simulation und Messung (linkes Diagramm) und auszerdem die Anzahl der Aussteiger in Abhaengigkeit von der Anzahl der Selbstreferenzen fuer LL₄ bis LL₆.

Los geht’s mit der simplen Beobachtung, dass die simulierte Anzahl Seiten auf LL₇ mit 10 Selbstreferenzen gleich 3428 ist waehrend der „gemessene“ Wert nur 967 betraegt. Das ist eine Diskrepanz von 2461.

Der simulierte Wert ergibt sich aus der simulierten Entwicklung des Systems, welche mit diesem maechtigen Gesetz beschrieben wurde:

Von hier aus muessen wir rueckwaerts rechnen um heraus zu finden, welche Seiten auf LL₆ zu Seiten mit 10 Selbstreferenzen auf LL₇ gefuehrt haben. Wenn man das tut erfaehrt man, dass auf LL₆ Seiten mit 17, 18, 19 und 20 Selbstreferenzen anteilsmaeszig zu Seiten mit 10 Selbstreferenzen auf LL₇ gefuehrt haben.
Wie bitte? Wie kønnen denn 4 verschiedenartige Seiten zu nur einem Wert fuehren? Die Antwort darin, dass die Anzahl an Selbstreferenzen nur ganzzahlig sein kann und erklaert warum das Wørt „anteilszmaeszig“ im obigen Satz wichtig ist. Ein Beispiel macht das Ganze etwas anschaulicher.

Eine Seite mit 17 Selbstreferenzen auf LL₆ hat nach dieser Formel 9.129 Selbstreferenzen auf LL₇. Kønnte man ja erstmal denken, dass das leicht auf 9 abzurunden ist. Aber wie beim letzten Mal explizit erwaehnt, wird mit der Entwicklungsgleichung nur der Durchschnitt der Selbstreferenzen auf dem naechsten Linklevel berechnet. Nun habe ich aber mehr als eine Seite mit 17 Selbstreferenzen auf LL₆ und wenn ich das Ergebniss fuer alle auf 9 abrunde, dann stimmt das nicht mehr mit der Formel ueberein.
Deswegen habe ich mich entschieden, dass (fuer diesen Fall, was aber repraesentativ ist fuer den allgemeinen Fall) 12.9 % (also der Anteil nach dem Komma) aller Seiten mit 17 Selbstreferenzen auf LL₆ zehn Selbstreferenzen (also eine mehr) auf LL₇ haben wird. Damit stimmt der Durchschnitt wieder.
Von den Seiten mit 18, 19 bzw. 20 Selbstreferenzen auf LL₆ tragen jeweils 61.0 %, 91.0 % bzw. 43 % zu Seiten mit zehn Selbstreferenzen auf LL₇ bei.

Das war die erste Sache. Nun muessen wir im rechten Diagramm nachschauen, wie viel Seiten mit 17 (bzw. 18, 19 oder 20) Selbstreferenzen auf LL₆ es in Echt niemals bis LL₇ schaffen (die ich aber in der Simulation „mitschleife“). Das sind 130 (bzw. 100, 104 und 76) Seiten. Davon darf ich fuer den ganz konkreten Fall hier natuerlich nur den Anteil beruecksichtigen, der dem obigen Anteil entspricht. Das heiszt ich kann vom simulierten Wert von 3428 Selbstreferenzen nur 205 (= 17 + 61 + 94 + 33) Seiten abziehen.

Zwischenbemerkung: den Wert kann man einfach abziehen, denn die Anzahl der Aussteiger muss NICHT korrigiert werden bezueglich der Aussteiger auf frueheren Linkleveln. Das liegt daran, weil die „experimentellen“ Daten bzgl. der Aussteiger pro Linklevel natuerlich _nur_ anhand der „Ueberlebenden“ ermittelt wurden. In der Messung werden schlieszlich keine Seiten „mitgezogen“ die da nicht sein sollten.
Auch wenn es hier nichts ausmacht, so ist es wichtig solche Sachen zu diskutieren, denn da kann man u.U. schnell in eine „Falle“ tappen.

Das war aber nur der erste (Rueckwaerts)Schritt und muss fuer den Uebergang von LL₆ zu LL₅ und dann nochmal von LL₅ zu LL₄ wiederholt werden. Dabei erweitert sich der Bereich der beitragenden Seiten zunaechst auf alle Seiten mit 32 bis 42 Selbstreferenzen auf LL₅ und dann noch mehr auf alle Seiten mit 67 bis 95 Selbstreferenzen auf LL₄.
Die Summe der aussteigenden Seiten betraegt 199 auf LL₅ und 82 auf LL₄. Die letzte Zahl wird trotz des erweiterten Bereichs beitragender Seiten kleiner, weil die Anzahl der aussteigenden Seiten mit wachsender Anzahl an Selbstreferenzen so schnell abnimmt. Das ist auch der Grund, warum in (!) diesem Fall der Schritt zu LL₃ (dem Ausgangszustand) nicht gemacht werden muss, denn das faellt nicht mehr signifikant ins Gewicht. Aber Vorsicht! Betrachtet man Seiten mit deutlich weniger als 10 Selbstreferenzen auf LL₇ so gilt das im Allgemeinen nicht!
Summa summarum verringert sich durch diese Korrektur die Diskrepanz zwischen gemessenen und simulierten Werten auf 1975.

1975 hørt sich erstmal immer noch voll viel an, aber das entspricht ca. 20 % des unkorrigierten Wertes. Das ist aber eigentlich ziemlich gut, denn eine „Erklaerungskraft“ von 20 % mit einer solch einfachen Erklaerung ist im Allgemeinen nicht zu erwarten. Das miss inbesondere mit Hinblick auf die Einfachheit des Modells gesehen werden und dass wir wissen, dass die Entwicklungsparameter eigentlich NICHT konstant sind, dadurch ein groszer „Fehlerbeitrag“ von Anfang an zu erwarten ist.

Dies alles ist uebrigens warum ich beim letzten Mal schrieb:

[d]as waere sogar eine Korrektur mit „langfristiger“ Wirkung.

Aber was ist nun mit den restlichen 80 % Diskrepanz? Eine weitere relativ simple Korrektur ist der Grund warum ich (auch) beim letzten Mal sagte:

Der ziemlich grosze Unterschied […] zwischen Median und Mittelwert wird beim naechsten Beitrag nochmal wichtig.

Ich merke nun, dass ich damit stark uebertrieb, denn ich werde das hier nicht im Detail erlaeutern. Aber kurz gesagt wuerde ich vermuten, dass der Gebrauch des Medians anstelle des Mittelwerts zur Ermittlung der Entwicklungsparameter, zu (in der Summe) weniger Selbstreferenzen im jeweils naechsten Schritt fuehren wuerde. Eine solche Korrektur wird vermutlich einen weiteren nicht zu vernachlaessigenden Beitrag leisten. Mein Bauchgefuehl sagt mir so nochmal 20 %
Noch besser waere natuerlich, wenn man eine Verteilung um den Mittelwert (oder Median) nehmen wuerde. Beide Sachen sind leicht einzusehen, aber ich habe keine Lust mehr das alles nochmal zu machen.

Aber selbst damit wuerde ich nur ca. 50 % der Diskrepanz erklaeren kønnen. Der Rest ist halt so und liegt (wieder) an der Einfachheit des Modells und dass die Entwicklungsparameter in Wirklichkeit nicht konstant sind.

Puuh … genug fuer heute und im Wesentlichen genug zur Simulation an sich. Ich denke, dass die Selbige hinreichend erfolgreich war … hab ja auch genuegend Zeit damit verbracht.
Beim naechsten Mal werde ich die Simulation zwar nochmal kurz erwaehnen aber nur als Ueberleitung um mir mal anzuschauen wie es aussieht, wenn ausgestiegene Seiten nochmal „zurueck kommen“.

Posted by Tentacel on 2023-03-19 at 13:37 under Allgemein.
Comment on this post.

Revisited: The Stars My Destination

Mit Blick auf den Titel des letzten Beitrags ist dieser hier ein bisschen witzig, denn in diesem Buch geht es unter anderem auch darum, dass die Ketten der Menschheit (in vielfacher Hinsicht) gesprengt werden.

Wiedereinmal gilt, dass ich so ziemlich alles was in dem Buch passiert vergessen hatte und mich im Wesentlichen nur noch an das Gefuehl erinnerte, dass es ein groszartiges Lesevergnuegen war.
Von der Geschichte an sich hatte ich nur noch zwei „Fetzen“ in meinem Kopf: dass der Protagonist im Weltraum gestrandet war und dass Menschen teleportieren kønnen. Das war natuerlich irgendwie gut, denn dadurch war das Noachmaldurchlesen fast wie ein Zumerstenmallesen.

Das Buch wird zu den wichtigsten und einflussreichsten Science Fiction Buechern gezaehlt. Und nun kann ich nicht anders und muss sagen, dass die Lobpreisungen zu Recht erfolgen. Dieses Buch nahm in den 50’er Jahren ein paar wichtige und bestimmende Elemente der Science Fiction vorweg, deren Kapazitaeten erst Jahrzehnte spaeter entdeckt und voll entwickelt wurden. Am sichtbarsten sind dabei Dinge die heutzutage vor allem mit Cyberpunk in Verbindung gebracht werden.
Zwei andere Sachen sind die Erzaehl- und Entwicklungsstruktur der Geschichte und Charaktere. Fuer den modernen Leser scheint das alles mittlerweile „etwas altmodisch“, eben weil diese Herangehensweise an das Erzaehlen von Zukunftsgeschichten (im weitesten Sinne) in moderner Science Fiction Literatur oft gebraucht wird. Aber vor bald 70 Jahren war dem mitnichten so und dieses Buch stand am Anfang einer allgemein (und nicht nur im Speziellen) intelligenteren Art von Science Fiction.

Ansonsten hatte ich es beim ersten Mal innerhalb von zwei Tagen durchgelesen und es fesselte mich auch beim zweiten Mal und ich war auch jetzt wieder nach ein paar wenigen Tagen fertig.

Der dtsch. Titel dieses Buches ist uebrigens bekloppt:

Andererseits wurde es frueher sowohl im Englischen als auch in dtsch. Auflagen unter dem Titel „Tiger! Tiger!“ publiziert. Das ist nicht weniger bekloppt.

Definitiv eine Leseempfehlung, aber mit dem „Haftungsausschluss“, dass man es beim Lesen geschichtlich einordnen sollte (siehe oben), wenn man die Grøsze dieses Buches zumindest „aus dem Augenwinkel“ miterleben will.

Ach ja, einer der wichtigeren Nebencharaktere meiner Lieblings-Sci-Fi-TV-Serie ist nach dem Autor benannt. Das war einer der Hauptgruende, warum ich ueberhaupt erst auf das Buch aufmerksam wurde.

Posted by Tentacel on 2023-03-17 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – XXXVII – Gesprengte Ketten (1)

Bei der Simulation hat man gesehen, dass diese systematisch zu zu hohen Werte fuehrt. Zum Einen lag das daran, dass die Parameter besagter Entwicklung konstant gehalten wurden. Die Entwicklungsparameter wiederum entsprechen der Regressionsgeraden und diese ist im Wesentlichen der Mittelwert zu einer gegebenen Anzahl an Selbstreferenzen. Das ist nicht falsch und funktioniert, wie beim letzten Mal diskutiert, im Mittel gar nicht so schlecht. Aber dieser Mittelwert entsteht aus einem „Blob“ an Datenpunkten.
Oder anders an einem Beispiel: in der Simulation wird fuer jede Seite die auf LL₄ zehn Selbstzitierungen hat berechnet, dass diese den Schritt zu LL₅ macht und dort dann oben erwaehnten Mittelwert an Selbstzitierungen annimmt. Hier treffen also zwei Dinge zusammen: jede einzelne Seite macht zwingend (!) den Schritt zum naechsten Linklevel und jede Seite hat dort die gleiche Anzahl an Selbstzitaten.

In Wahrheit sieht die Verteilung der Selbstzitate auf LL₅ fuer alle Seiten die auf LL₄ zehn Selbstreferenzen hat aber so aus:

(Korrektur 2025-04-22: Die Abszisse muss „Anzahl Selbstreferenzen“ anstatt „Linklevel“ als Beschriftung haben!)

Das ist also eine Verteilung um den Mittelwert (aber keine Normalverteilung). Der (nicht aus den gewaehlten Entwicklungsparametern sondern hier genau berechnete) Mittelwert fuer 10 Selbstreferenzen auf LL₄ fuehrt zu einem Wert von ca. 3 Selbstreferenzen auf LL₅ und „ueberhøht“ somit das „mittlere Verhalten“ einer Seite. Letzteres deswegen weil, wie man am obigen Diagramm sieht, dass die Haelfte dieser Seiten zwei oder weniger Selbstreferenzen auf LL₅ haben. Der ziemlich grosze Unterschied (hier 50 %!) zwischen Median und Mittelwert wird beim naechsten Beitrag nochmal wichtig.
Eigentllich muesste man diese Verteilung in die Simulation einbauen. Aber dafuer muesste man fuer jedes Linklevel und fuer jede Anzahl an Selbstreferenzen diese Verteilung ermitteln, analysieren und dann modellieren fuer die Simulation. Ersteres ist an sich gar nicht so schwer, denn das kann automatisiert werden. Zweiteres ginge prinzipiell auch noch. Die Betonung liegt auf „prinzipiell“, denn dabei handelt es sich sicherlich um Tausende von Verteilungen. Desweiteren nehme ich an, dass die aus der Analyse herausfallenden Parameter signifikant streuen. Womit man wieder in der gleichen Situation wie bei der Bestimmung der letztlich benutzten Entwicklungsparamter ist und dann mglw. doch wieder nur alles (unzureichend?) vereinfachen muesste. Deswegen spare ich mir das lieber gleich.

Eine andere Sache die bereits erwaehnt wurde ist aber viel einfacher zu korrigieren: Seiten deren Kette an Selbstreferenzen gebrochen ist, die also null Selbstreferenzen auf dem naechsten Linklevel haben, kønnen „rausfliegen“. Das waere sogar eine Korrektur mit „langfristiger“ Wirkung. Nicht nur tragen solche „ausgestiegenen“ Seiten faelschlicherweise zum Signal auf dem naechsten Linklevel bei, sondern auch bei den Linkleveln die danach kommen. Wie man am obigen Diagramm sieht, kann es sich mitunter um eine signifikante Menge an „Aussteigern“ handeln und deren Bezug auf eine sich erhøhende Diskrepanz zwischen gemessenen und simulierten Werten ist leicht einzusehen.

Deswegen habe ich hier im linken Diagramm mal aufgetragen, wie viele Seiten pro Linklevel aussteigen:

Das sind ja insbesondere auf den ersten Linkleveln ganz schøn viele! Selbst unter dem Aspekt, dass es mich bis LL₃ nicht kuemmert, denn die bis dahin ausgestiegenen Seiten wurden in der Praeparierung des Ausgangszustands beruecksichtigt.
Nun ist aber die Anzahl der aussteigenden Seiten nicht nur vom Linklevel sondern auch von der Anzahl der Selbstreferenzen auf diesem Linklevel abhaengig. Dieser Sachverhalt ist an drei Beispielen im rechten Diagramm gezeigt. Wie zu erwarten war, steigen (deutlich) mehr Seiten mit wenigen Selbstreferenzen auf einem gegebenen Linklevel auf, als solche mit vielen Selbstreferenzen. Aber wenn man diese Information pro Linklevel hat, dann kann man sich an eine Korrektur machen.
Dazu komme ich aber erst beim naechsten Mal.

Ach so, eine letzte Sache noch. Bei diesen Grafen kann (und soll) Doppelzaehlung auftreten.
Ein Beispiel: Wenn fuer eine Seite die Kette von Selbstreferenzen auf LL₃ abbricht, so steigt diese auf LL₃ aus. Man nehme nun an, dass auf LL₅ und LL₆ (aber nicht danach) jeweils eine weitere Selbstreferenz auftritt. Dann hat man eine neue Kette, die auch wieder abbricht. Somit steigt diese Seite zwei Mal aus und wird entsprechend doppelt gezaehlt.
Aber ich nehme an, dass diese Mehrfachaussteiger insgesamt nicht sehr zahlreich sind und deshalb nicht all zu sehr ins Gewicht fallen werden. Der Grund liegt darin, dass man sich thematisch immer schneller von der Ursprungsseite entfernt und es sehr schnell unwahrscheindlich wird eine Selbstreferenz zu erhalten (und somit neue Ketten aufzubauen).
Mit einer Ausnahme: sehr fruehe Linklevel und wenn es sich nur im eine (reaktivierte) Selbstreferenz handelt. Aber diese sind bei der Korrektur der Simulation nicht all zu sehr von Interesse, denn zum Einen ist der Ausgangszustand fuer die Simulation erst bei LL₃ und dass die Simulation ein Problem mit zu vielen einfachen Selbstreferenzen hat ist bekannt und an entsprechender Stelle bereits diskutiert worden.

Posted by Tentacel on 2023-03-13 at 13:37 under Allgemein.
Comment on this post.

Let’s talk about … Krebs – J: Nicht geschummelt

Zum letzten Mal wollte ich noch kurz zwei Dinge anfuehren. Zum Einen, dass das unkorrigierte kumulative Risiko angibt, wie hoch die Wahrscheinlichkeit ist, dass ich Krebs in irgendeiner (!) Altersgruppe bis zur gegebenen bekomme unter der (kuriosen) Lage, dass man hierbei davon ausgeht, dass man in KEINER der vorhergehenden Altersgruppen mit Krebs diagnostiziert werden kann, denn dann haette man es ja gar nicht bis dahin geschafft. Wie gesagt ist das sinnvoll, wenn man nur die altersgruppenspezifische kumulative Rate angibt (die Wahrscheinlichkeiten also nicht aufaddiert). Das korrigierte kumulative Risiko umgeht das, indem dort „erlaubt“ wird, dass man auch in vorhergehenden Altersgruppen Krebs bekommen kann. Ich hatte das trotzdem alles aufgeschrieben, weil der Unterschied zwischen diesen beiden Grøszen erst bei alten Altersgruppen relevant wird, das unkorrigierte kumulative Risiko aber etwas leichter zu verstehen ist.
Zum Zweiten werden auch beim korrigierten kumulativen Risiko keine anderen Todesarten in Betracht gezogen! Auch wenn ich beim letzten Mal oft „ueberleben (bis zur gegebenen Altersgruppe)“ schreibe, so ist damit nur gemeint, dass man keinen Krebs bekommt. Das tut aber nix zur Sache, denn andere Todesursachen veraendern Zaehler und Nenner fuer die Crude Rate proportional. Dies selbst dann wenn ein Mensch mit einer anderen Todesursache spaeter im Leben Krebs bekommen haette. Der Grund liegt darin, weil Letzteres nur mit einer bestimmten Wahrscheinlichkeit passiert und man viele Menschen mit eine andere Todesursache haben muss, bevor einer dabei ist, der Krebs bekommen haette. Der Zaehler wird dann also bswp. um einen kleiner, aber der Nenner um bspw. 500.

Aber eigentlich wollte ich heute ueber etwas anderes schreiben, naemlich wie ich auf die Zahlen fuer die Altersgruppen 74-79, 80-84 und 85+ komme. Diese sind in der Tabelle naemlich gar nicht abrufbar, weil das grøszte untere Alterslimit 70 Jahre betraegt. Ich bekomme also nur die zusammengefassten (!) Daten fuer alle Maenner zwischen 70-79 Jahren, 70-84 Jahren und 70-85+ Jahren.
Lange Rede kurzer Sinn: ich habe alle Zahlen ganz einfach ausgerechnet und den Prozess erklaere ich heute … damit man mir da kein schummeln unterstellen kann.

Zur Berechnung der Crude Rate braucht man die Anzahl der Krebsfaelle und die Anzahl der Personen in einer Altersgruppe.
Die altersgruppenspezifischen Krebsfaelle sind easypeasy, indem man schrittweise rueckwaerts rechnet. Aus der Tabelle bekommt man die Anzahl der Krebsfaelle fuer Altersintervall 70-85+ und fuer Altersintervall 70-84. Zieht man Letzteres von Ersterem ab, so hat man die Zahlen fuer die Altersgruppe 85+. Mit entsprechend modifizierten Altersgrenzen bekommt man die Anzahl der Krebsfaelle fuer die anderen beiden Altersgruppen.

Fuer die Anzahl der Personen in den Altersgruppen muss man etwas mehr machen, aber letztlich ist’s nur ein schrittweises vorwaerts rechnen.
Die Crude Rate fuer die Altersgruppe 70-74 ist noch angegeben und damit kann ich dann die Anzahl der Maenner in besagter Altersgruppe ausrechnen.
Die Anzahl der Maenner in Altersgruppe 74-79 ergibt sich, wenn man diese einfache Formel umstellt:

Der Wert fuer die linke Seite der Gleichung findet sich in der Tabelle; dito bzgl. des Zaehlers und den ersten Summanden haben wir ja im vorhergehenden Schritt ausgerechnet.
Fuer die nachfolgenden Altersgruppen erweitert man die entsprechenden Altersintervalle fuer die Crude Rate und die Anzahl der Krebsfaelle. Auszerdem muss man natuerlich weitere Summanden in den Zaehler packen, welche die (schrittweise ausgerechneten) Anzahl der Maenner der vorherhgehenden Altersgruppen repraesentieren.

Wenn alle Zahlen bekannt sind, kann die altersgruppenspezifische Crude Rate (und alles andere) ausgerechnet werden.

Posted by Tentacel on 2023-03-11 at 13:37 under Allgemein.
Comment on this post.