Archive for the ‘Allgemein’ Category

Weil zu viel abzuhandeln ist, knuepfe ich ohne viel Aufhebens direkt an das beim letzten Mal Besprochene an:

Pro Datensatz gilt das Folgende. Zunaechst wurde auf der Abzsisse abgetragen, wie viele Selbstreferenzen eine Seite auf einem gegebenen Linklevel i hat. Dann wurde fuer die selbe Seite geschaut, wieviele Selbstreferenzen diese auf dem naechsten Linklevel i + 1 hat. Dieser Wert wurde hier nicht abgetragen. Vielmehr bildete ich den Mittelwert der Selbstreferenzen auf Linklevel i + 1 fuer fuer _alle_ Seiten  die genausoviele Selbstrefenzen auf Linklevel i aufweisen wie die oben einzeln betrachtete Seite. Dieser Mittelwert ist auf der Ordinate abgetragen und ich diskutierte das beim letzten Mal genauer.

Dabei ist zu beachten, dass Seiten die auf einem Linklevel _keine_ Selbstreferenzen haben, NICHT weiter betrachtet wurden; ich behandle solche Seiten also als ob die bei diesem Linklevel „ausgestiegen“ sind. Dies gilt auch dann, wenn eine solche Seite auf einem høheren Linklevel wieder Selbstreferenzen aufweist. Eine eventuelle „Reaktivierung“ wird als irrelevant angenommen; empirisch ist das durchaus berechtigt, da es meist doch nur eine Selbstreferenz auf hohen Linkleveln gibt. Im Wesentlichen sieht man in diesem Diagrammen also nur Seiten, welche durchgehende „Ketten“ von Selbstreferenzen aufweisen.
In einem spaeteren Beitrag schau ich mir mal an, wie sich diese „Ausstiege“ und eventuelle „Reaktivierungen“ verhalten.

Damit hab ich gleich abgehandelt, warum im Wesentlichen ab LL22 nix mehr zu sehen ist (und so weit geh ich auch nur deswegen, damit das konsistent mit dem hier Gezeigten ist). Es gibt nur wenige Seiten, die so lange durchgehende Ketten von Selbstreferenzen aufweisen.
Dennoch ist zu sehen, dass der beim letzten Mal erkannte Zusammenhang bzgl. der Anzahl der Selbstreferenzen offensichtlich fuer mehr als nur einen Linklevelschritt gilt. Und abgesehen von LL1 zu LL2 (die roten Punkte im ersten Diagramm); scheint dieser bei doppellogarithmischer Darstellung linear zu sein (was auch bereits beim letzten Mal zu sehen war).

Desweiteren sieht es so aus, als ob die Anstiege dieser Kurven (auch wenn es diskrete Punkte sind nennt man das so … denke ich) immer ungefaehr gleich sind … mhmm … wenn ich hier Pi mal Daumen schaue, dann scheint es so zu sein, dass ich von einem Linklevel zum naechsten so ganz grob ungefaehr 50 mal weniger Selbstreferenzen habe … interessant … das muss ich mal genauer auswerten.

Damit die lineare Regression schick aussieht, entfernte ich hierfuer an den Enden Punkte, behielt aber alle anderen Ausreiszer drin. Diesmal geh ich einen anderen Weg und mache zunaechst eine lineare Regression um dann alle Punkte zu entfernen, die mehr als einen festgelegten maximalen Wert von der Regressionsgeraden entfernt liegen (in Richtung der Ordinate). Den Prozess wiederhole ich so lange, bis keine Punkte mehr entfernt werden muessen.

Das Ergebnisse bzgl. des Anstiegs und absoluten Glieds der Regressionsgeraden ist hier zu sehen (auszer fuer den Schritt von LL1 zu LL2) und …

… øhm … ich sag jetzt mal mehrdeutig.

Ich habe da zwar Regressionsgeraden rein gelegt, aber wichtige Punkte fallen mit dieser Geraden ueberhaupt nicht zusammen. Wichtige Punkte sind die bis ungefaehr LL6 / LL7, wo die Ausgangsdaten noch gut genug sind. Deswegen wuerde ich sagen, dass eine lineare Regression der Parameter der linearen Regressionen ueber die Datensaetze der obigen Diagramme die falsche Herangehensweise ist.
Nun kønnte ich da natuerlich eine Funktion durchpacken, welche diese Daten am Besten anpasst. Die Wahl einer Funktion sollte einen Zusammenhang mit einem plausiblen Mechanismus haben. Lineare, Potenz- und Exponentialfunktionen werden dafuer gern genommen. Dies weil sich so viel im Universum danach verhaelt und es meist durchaus plausibel ist erstmal anzunehmen, dass ein neues System sich auch danach verhaelt. Aber bei den Fehlerbalken kønnte ich irgendwas nehmen und das kønnte stimmen oder nicht.

Deswegen mache ich im Weiteren das, was man in solchen Faellen, wo man nicht weiter weisz, oft macht: ich versuche das (zukuenftige) Modell so einfach wie møglich zu halten. Das bedeutet dass ich einfach sage, dass sich alle obigen Kurven mittels linearer Gleichungen mit gleich bleibenden Regressionsparametern (gut genug) beschreiben lassen.
Den Anstieg setze ich dabei (nicht ganz so willkuerlich) fest auf 0.9. Dieser Wert ist im Wesentlichen nur aus den ersten sieben Punkten gewonnen (wo die Datenlage noch gut ist). Es ist ein Kompromiss der versucht einzubeziehen, dass der Anstieg zunaechst grøszer oder nahe eins ist, aber ja doch auch spaetere Daten erklaeren muss.
Fuer den Wert des absoluten Glieds habe ich den Mittelwert aller Punkte genommen (ca. -0.1469). Das fuehlt sich genauso richtig an wie irgend einen anderen Wert, beschreibt aber den Anfang wieder besser als andere Werte.

Somit weisz ich, wie sich das System von einem zum naechsten Linklevel entwickelt. Der Rest sollte nur vom Ausgangszustand abhaengig sein. Damit sollte ich beim naechsten Mal zur eigentlichen Simulation kommen kønnen und kann dann hoffentlich die erfolgreiche Berechnung der Verteilung der Selbstreferenzen pro Linklevel zeigen, wenn man nur die Verteilung dieser Grøsze im Anfangszustand kennt :)

Die letzte Spalte in der bekannten Tabelle ist das kumulierte Risiko. Gleich zu Anfang ein Achtung: Das ist in Prozent und NICHT per 100.000 (Einwohner).

Intuitiv ist das einfach zu verstehen: diese Zahl ist die Wahrscheinlichkeit innerhalb einer gewaehlten Zeitspanne an (einem gegebenen) Krebs zu erkranken. In Wahrheit ist’s aber nicht ganz so einfach und ich muss etwas ausholen.
Zunaechst ist wichtig, was ich zur Crude Rate sagte:

[…] die Crude Rate ist die _jaehrliche_ Chance an (einem gegebenen Krebs) zu erkranken, wenn man sich in einer gegebenen Altersgruppe befindet.

Eine Altersgruppe geht ueber fuenf Jahre und somit kommt man fuer jede Altergruppe zur kumulativen Rate (Achtung: Rate ist NICHT Risiko!) indem man die Crude Rate einfach mit fuenf multipliziert. Geht man ueber mehrere Altersgruppen, addiert man die kumulativen Raten einfach auf.
Das ist auch noch intuitiv und fuer junge Menschen sind die Werte fuer die kumulative Rate und das kumulative Risiko im Wesentlichen gleich. Fuer mittelalte Menschen (so ab 50) werden Diskrepanzen bemerkbar, aber man kann bis ungefaehr zum durchschnittlichen Lebensalter gehen und sagen, dass man diese beiden Werten noch gleich interpretieren kann, weil die Abweichung nicht all zu grosz wird. Danach sollte man das nicht mehr tun.

Der Grund, dass es zu grøszer werdenden Abweichungen kommt, liegt zum Einen wieder darin, dass man eigentlich die „person-years at risks“ nehmen muss. Darauf gehe ich auch diesmal wieder nicht weiter ein.
Zum Zweiten geht man bei der Rate immer davon aus, dass man eine Population von 100.000 Leuten hat. Oder anders: konkurrierende Todesursachen werden nicht in Betracht gezogen und somit gilt das nur fuer Leute die es ueberhaupt bis in die Altersgruppe schaffen. In der Realitaet ist die kumulative Rate eine UEBERabschaetzung, denn von den 100.000 Leuten sind ja schon ein paar verstorben. Somit ist die tatsaechliche Anzahl von Krebsfaellen etwas kleiner, einfach weil es nicht mehr so viele Leute gibt, die Krebs bekommen kønnen.

Bei der Berechnung des wahreren kumulativen Risikos wird (durchaus plausibel) angenommen, dass die Anzahl der betrachteten Menschen exponentiell abnimmt. Das alles kann man in den informativen ersten Abschnitten des Artikels „What is the lifetime risk of developing cancer?: the effect of adjusting for multiple primaries“ von Sasieni, P. D. et al. im British Journal of Cancer 150 (3), 2011, pp. 460–465 nachlesen. Dort findet man dann auch noch Methoden welche die Abschaetzung des Risikos weiter verbessern. Diese Verbesserungen beinhalten bspw. die Benutzung sogenannter „Life Tables“ (die bereits an anderer Stelle erwaehnt und benutzt wurden) um besser abzuschaetzen, wie viele Menschen einer gegebenen Kohorte, wenn sie eine gegebene Altersgruppe erreichen, (mehr oder weniger) tatsaechlich noch am Leben sind. Auszerdem kann man auch noch in Betracht ziehen, dass Leute mehrfach Krebs bekommen kønnen. All dies reduziert das wahre(re) kumulative Risiko, aber dafuer braucht man noch viel mehr Daten als ich (oder die Tabelle) zur Verfuegung habe.

Worauf ich hinaus will: das tatsaechliche kumulative Risiko ist (insb. fuer alte Altersgruppen) kleiner, weil die Leute an anderen Sachen als Krebs sterben. Im Artikel von Schouten, L. J. et al. mit dem Titel „Cancer incidence: life table risk versus cumulative risk.“ im Journal of Epidemiology and Community Health, 48 (6), 1994, pp. 596–600 gibt es ein paar sehr schøne und leicht zu verstehende Graphen bezueglich dieses Sachverhalts.

Fuer meine Zwecke ist das aber im Wesentlichen irrelevant. Zum Ersten habe ich die Zahlen mal rueckwaerts gerechnet und in der Tabelle sind alle kumulativen Risiken nur einfach korrigiert; also nur unter der Annahme, dass die Menschenzahl exponentiell abnimmt. Dies sowohl fuer das kumultive Risiko ab Geburt, als auch innerhalb der einzelnen Altersgruppen.
Zum Zweiten will ich ja ueberleben, also eben NICHT zu dem Teil gehøren, der zur „exponentiell abnehmenden Menschenzahl“ fuehrt. Unter dieser Voraussetzung ist sogar die (høhere) kumulative Rate (also einfach nur fuenf mal die Crude Rate) richtig.
Das Zweite ist dann (wieder) der bereits erwaehnte Unterschied zwischen Zahlen die richtig sind fuer ganzheitliche Betrachtungen und Zahlen die richtig sind fuer individuelle Betrachtungen … statistische Aussagen und Zahlen in den richtigen Zusammenhang zu setzen und richtig zu interpretieren kann manchmal ganz schøn knifflig sein.

Was ich die letzten Male schrieb ist eine Beschreibung eines Phaenomens (die Selbstreferenzen), wenn man das Gesamtsystem in verschiedenen Schritten der Entwicklung betrachtet. Dabei wird vøllig auszer Acht gelassen, _wie_ das System dahin gekommen ist. Wenn man Letzteres wuesste, dann muesste man nur einen Zustand (also bspw. LL1) messen und kønnte dann simulieren, wie sich das System zu den naechsten Schritten hin entwickelt.

Fuer ein Analogon aus der Physik nehme man an, dass ich eine Box mit einem heiszen Gas habe. Die individuellen Verteilungen der Selbstreferenzen pro Linklevel kønnten dann der Geschwindigkeitsverteilung der Gasteilchen zu unterschiedlichen Zeitpunkten waehrend des Abkuehlens entsprechen. Natuerlich nicht in Echt, denn das waere eine Maxwell-Boltzmann Verteilung; aber es geht mir ja nur darum, dass die Teilchen unterschiedliche Geschwindigkeiten haben, welche einer bekannten Verteilung folgen. Bisher habe ich die „Geschwindigkeitsverteilungen“ nur gemessen und ausgewertet. Es wuerde unheimlich viel Arbeit sparen, wenn man aber die „Geschwindigkeitsverteilung“ nur zu einem Zeitpunkt misst und dann berechnet wie diese zu einem spaeteren Zeitpunkt aussieht?

Diese Idee einer Simulation von gewissen Aspekten des Linknetzwerkes aus einem Ausgangszustand schwirrt schon eine ganze Weile in meinem Kopf herum. Bisher habe ich aber keinen Zugang dazu gefunden.
Bei den Selbstreferenzen ging mir nun aber das folgende Licht auf: wenn eine Seite viele Selbstreferenzen auf einem Linklevel hat, so ist das eine „populaere“ Seite und diese sollte auf dem naechsten Linklevel auch viele Selbstreferenzen haben. Klingt erstmal logisch, nicht wahr.
Diese Idee erweiterte ich auf alle Seiten (also auch die mit wenigen Selbstreferenzen) und dachte mir, dass es einen allgemeinen Zusammenhang zwischen den Selbstreferenzen von einem Linklevel zum naechsten geben kønnte. Und wenn man diesen Zusammenhang kennt, dann braeuchte man nur einen „Ausgangszustand messen“ und kønnte daraus alles berechnen.
Oder anders im Bilde des obigen Analogons (und hier kommt das „atomistische“ herein): wenn ich die Geschwindigkeit eines Teilchens kenne und weisz wie sich diese entwickelt, dann kann ich bei Kenntniss der Geschwindigkeit aller Teilchen im Ausgangszustand besagte Simulation durchfuehren und muesste nix weiter messen.

Um das durchfuehren zu kønnen, muss ich aber zunaechst ein ganzes Stueckchen Vorarbeit leisten. Der erste Punkt auf der Agenda ist herauszufinden, ob es eine Abhaengigkeit der Selbstreferenzen auf einem Linklevel vom vorhergehenden Linklevel gibt. Wenn man sich die Daten diesbezueglich anschaut, dann sieht das (am Beispiel des Schrittes von LL3 zu LL4) so aus:

Aha! Na das sieht doch tatsaechlich so aus, als ob es hier (wie oben vermutet) eine Tendenz gibt. Ist nur doof, das es in dem schwarzen Blob eine Variation ueber zum Teil vier Grøszenordnungen gibt … aber Moment mal … einen schwarze Blob gab’s doch schon mal … und Mittelwertbildung offenbarte eine ganz wunderbaren Information, welche sich in dem Blob versteckte. Na dann:

AHA! Der Eindruck, dass es da einen Zusammenhang gibt taeuschte nicht und zum jetzigen Zeitpunkt ist es auch nicht mehr ueberraschend, dass dieser linear ist (bei doppellogarithmischer Darstellung).

Wie schon damals liegen die Mittelwerte ziemlich eindeutig auf einer Linie fuer (relativ) kleine Werte auf der Abszisse (hier bis ca. 400 Selbstreferenzen). Dies liegt natuerlich darin, weil ich aus vielen Datenpunkten (die bspw. alle 23 Selbstreferenzen haben), jeweils nur einen Mittelwert „mache“.
Fuer høhere Werte und hingegen streut das alles zum Teil betraechtlich. Der Grund liegt darin, dass ich da dann nur wenige Datenpunkte habe; bei ganz hohen Abzsissenwerten oft nur einen Einzigen (wenn im Diagramm die roten „Mittelwertquadrate“ genau ueber einem schwarzen „Rohdatenkreis“ liegen). Das wiederum kann den Mittelwert ganz massiv beeintraechtigen und zu den zu beobachtenden starken Schwankungen fuehren. Wichtig ist aber, dass die Punkte dennoch (im Mittel) weiterhin dem linearen Zusammenhang zu folgen scheinen.

Das soll reichen genug sein fuer heute. Beim naechsten Mal all dies fuer alle Linklevel (fuer die es sich lohnt das mal auszuwerten)

Auch heute arbeite ich weiter mit dieser Tabelle.

Die beim letzten Mal betrachteten altersspezifischen (!) Crude Rates sind fuer mich als Individuum von Interesse. Ich gehøre nunmal zu einer ganz konkreten Altersgruppe und besagte Crude Rates geben an, wie wahrscheinlich es ist, dass ich an (einem bestimmten) Krebs erkranken werde. Das hilft mir die Situation besser einzuschaetzen und bestimmte Masznahmen zu treffen (oder auch nicht); zur Erinnerung: Letzteres war der Ursprung dieser Miniserie.

Trotz dieser groszen Nuetzlichkeit fuer Individuen sind Crude Rates deutlich weniger nuetzlich fuer eine Gesundheitspolitik. Letztere muss naemlich festlegen, wie viele Mittel fuer bestimmte Krankheiten auszugeben sind und es gibt deutlich mehr als nur Krebs. Aber nicht nur das, eine Gesundheitspolitik muss auch fuer die gesamte Bevølkerung gemacht werden, egal ob jung oder alt (oder mittendrin so wie ich). Und es gibt mehr juengere als aeltere Leute.

Hier kann ich das Beispiel vom letzten Mal weiterfuehren. Dort hatten junge Maenner (alle 1,752,661 Maenner bis 50 Jahre, 65.3 % aller Maenner) eine Crude Rate von ca. 74 und alte Maenner (alle 932,412 Maenner ueber 50 Jahre, 34.7 % aller Maenner) von fast 1900.
Fuer eine Gesundheitspolitk ziehe ich 100.000 Maenner zufaellig. Das bedeutet, dass ich mehr junge als alte Maenner ziehe, die Bevølkerungsstruktur muss also in Betracht gezogen werden. Das ist ganz einfach, denn man muss dafuer einfach nur die Crude Rates mit der Prozentzahl der Maenner die dieser unterliegen multiplizieren und dann beide Werte addieren: 74 x 65.3 % + 1900 x 34.7 % = 707.
Fuer alle praktischen Zwecke kann man nun sagen, dass dies die altersstandardisierte Rate (ASR in der Tabelle) fuer die gesamte Bevølkerung ist. Wenn man dann die oben erwaehnten Abweichungen in Betracht zieht, dann ist der Wert von 707 praktisch gleich dem Tabellenwert von 688. Letzteres erhaelt man, wenn man den Altersregler in besagter Tabelle von 0 bis 85+ (also ueber alle Altergruppen) gehen laeszt.

Ich waere aber nicht ich, wenn ich das einfach so stehen lassen wuerde. Denn eigentlich muss man nicht die Anzahl der Maenner in einer Altersgruppe in Betracht ziehen, sondern die Anzahl der (altersgruppenspezifischen) „person-years at risk“. So wird das in der Tabelle und auch im Cancer Incidence in Five Continents Vol. XI-Report gemacht (S. 127 f.). Bender, A. P. et al erklaeren diese Methode im Detail in ihrem Artikel mit dem Titel „A standard person-years approach to estimating lifetime cancer risk.“ … *hust* … in Cancer Causes & Control, 3 (1), 1992, pp. 69–75 … ich gebe zu, dass ich den nur ganz kurz ueberflogen habe um ein grundlegendes, aber sicher kein tiefgreifendes Verstaendniss fuer den Sachverhalt zu bekommen.

Worauf ich hinaus will ist das Folgende: die Abweichungen zwischen der obigen vereinfachten und der richtigeren Berechnung sind fuer junge Altersgruppen nicht signifikant, fuer mittlere Altersgruppen klein und akzeptabel (so bis ca. 70 Jahre) und erst fuer alte Altersgruppen grosz. Grob (und sehr stark vereinfachend) gesagt liegt der Grund darin, dass ein Mensch der in der Mitte der Altersgruppe stirbt, nur halb so viele Jahre zu den „person-years at risk“ beitraegt und es sterben viel mehr alte Menschen in der „Mitte“ der Altersgruppe als junge Menschen.

Wieauchimmer, die obige, vereinfachte Berechnung ist deutlich anschaulicher und der Fehler in den relevanten Altergruppen vernachlaessigbar. In dieser Miniserie werde ich die altersstandardisierte Rate ohnehin nicht nutzen und wenn doch, so ist fuer alles was ich in dieser Miniserie sagen werde diese Berechnung hinreichend. Weil man aber ueberall darauf trifft, dachte ich, dass es wichtig ist zumindest kurz mal darauf einzugehen.

Beim letzten Mal hatte ich auch versprochen, dass ich verraten werde, wieso in der Tabelle „ASR (World)“ steht. Weil diese „weltweite“, altersstandardisierte Rate praktisch ueberall auftaucht sei dies kurz erklaert (zum Glueck ist das ganz einfach): fuer gesundheitspolitische Entscheidungen (und insb. in so dicken, weltumspannenden Reports (ich hab’s nachgeschlagen, das ist tatsaechlich ein erlaubter Plural von Report) wie dem Cancer Incidence in Five Continents Vol. XI) ist es wichtig zu sehen, wo man im Verhaeltniss zu Welt steht. Deswegen wird nicht auf die landeseigenen „person-years at risk“ standardisiert sondern auf eine weltweite Referenzbevølkerung. Wie diese aussieht kann man in Tabelle 7.1 in besagtem, dickem Report auf Seite 128 sehen.

Und damit soll es endlich genug sein fuer heute.

Als junger Mensch erlebte ich in den Medien sowohl das Buhei als auch die Glorie des Baus und dann der Erøffnung des Eurotunnels. Meiner Meinung nach zu Recht wird dieser von der American Society of Civil Engineers als eines der (neuen) sieben (ingenieurstechnischen) Weltwunder angesehen.
Wieauchimmer, seit nun 30 Jahren wollte ich da mal durchfahren … man kann durchaus sagen, dass das ein Kindheitstraum war und dieser wurde im Sommer 2022 endlich verwirklicht.

Ich bin reich und fahre deswegen 1. Klasse im Zug. Nun kann man aber den sozialen Hintergrund nicht einfach so ablegen und deswegen war ich positiv ueberrascht, als ich in der 1. Klasse im Eurostar auf einmal Essen serviert bekam ohne dafuer extra bezahlen zu muessen:

Ich gebe zu, dass es so schmeckte wie es aussieht … dennoch fuehlten der junge Mann der mit mir reiste und ich uns piekfein :) .

Zur Erinnerung an die Erfuellung des Kindertraums fand sich (ganz zufaellig natuerlich) eines der schicken Weinglaeser (oben links im Bild zu sehen) in meinem Gepaeck wieder und ueberlebte sogar das viele Herumgefahre in England (und ganz kurz Wales und Schottland) und die Heimreise.

Zum Abschluss kann ich es total empfehlen mit dem Zug direkt aus Dtschl. nach London zu fahren. Wenn man alles zusammenrechnet (also aus der Haustuer raus bis zur Ankunft im Hotel), dann ist das nicht teurer als fliegen (mglw. sogar billiger) und wenn man nicht in Reichweite eines Flughafens wohnt, dann dauert die Reise auch nicht viel laenger. Der grosze Vorteil liegt aber darin, dass man mehrere Grøszenordnungen weniger Stress hat.

Schwupps … so schnell macht sich _noch_ eine neue Miniserie auf.
Der Grund ist, dass ich im letzten Jahr angefangen habe ein paar Buecher (und viele Comics) nochmal zu lesen, deren erste Lektuere 10, 15 oder gar (mehr als) 20 Jahre zurueck liegt.
Bei den Buechern lese ich nur solche nochmal, die einen herausragenden Eindruck hinterlassen haben. Oder wo ich das Gefuehl habe, dass ich die nochmal lesen sollte, weil ich die beim ersten Mal mlgw. nicht so richtig verstanden habe und sich das irgendwie wichtig anfuehlt. Bei den Comics lese ich alles nochmal. Nicht weil die so gut sind (obwohl viele es durchaus sind), sondern aus nostalgischen Gruenden.
Man beachte den Gebrauch des Plurals, woraus die Miniserie folgt.

Beim nochmaligen Lesen mache ich mir natuerlich Gedanken und wenn die es meiner Meinung nach wert sind aufgeschrieben zu werden, dann wird daraus ein kurzer Artikel … bzw. bei den Comics møchte ich gerne Cover zeigen … und dann denke ich mir dazu eben auch noch Text aus.

Los geht’s mit dem ganz fantastischen (ein wiederkehrendes Thema) Die Hyperion-Gesaenge von Dan Simmons. Die gesamte Serie umfasst vier Buecher (und ein paar Kurzgeschichten), aber ich meine damit nur die ersten Beiden, welche ich in einer Gesamtausgabe habe:

Ich las die Buecher zum ersten Mal nach meinem Studium (aber bevor es nach Norwegen ging) und habe sie „verschlungen“ und als definitiv (und zu Recht) zu den wichtigen Buechern des Sci-Fi-Genres zu zaehlenden empfunden; Letzteres wird ein zweites, wiederkehrendes Thema in dieser Miniserie.

Kurioserweise ist dieses Gefuehl, dass ich etwas Ueberragendes gelesen habe, so ziemlich das Einzige was ich noch von dem Buch wusste. Von der Story wusste ich im Wesentlichen nur noch, dass ein paar Reisende zu irgendwelchen Ruinen unterwegs sind … dies ist dann ein Drittes wiederkehrendes Thema — dass ich den Inhalt der gelesenen Buecher vergessen habe (das ist aber mitnichten schlimm, denn dadurch kann ich das alles nochmal als (fast) neu erleben … toll wa).
Beim zweiten Lesen wurde dieses Gefuehl zum Glueck bestaetigt.

Die Hyperion-Gesaenge erschienen um 1990 und standen damit an einem Scheidepunkt der Sci-Fi. Die meisten „alten Meister“ hatten seit Jahren nix mehr produziert, welches in der Bedeutung ihren frueheren Werken auch nur nahe kam. Klar, dank William Gibson gab es seit ein paar Jahren Cyberpunk, aber das war nun auch schon etabliert. Gesehen aus dem Jahre 2023 gab es 1990 aber „neue“ (oder auch „moderne“ oder „zeitgenøssische“) Sci-Fi a la Ted Chiang, Liu Cixin oder (bedingt) China Mieville natuerlich noch nicht (bzw. steckte deren Entstehung erst in den ganz fruehen Anfaengen und war laengst noch nicht abzusehen). Nun wollte man aber dennoch etwas haben was den Sci-Fi-Epen besagter „alter Meister“ entspricht … und dann kamen (durchaus unerwartet) diese zwei Buecher und „belebten“ die (man kønnte sagen: „eher traditionelle“) Sci-Fi wieder :) .

Die Buecher sind natuerlich so toll, weil die Geschichte(n) spannend sind. Das liegt aber nicht nur an dem Erzaehlten an sich, sondern auch wie diese sich zusammenfuegen und die Charaktere darin agieren. Hinzu kommt all das Gesagte mit Bezug auf das „Hintergrunduniversum“.
Im ersten Teil (eigtl. im ersten Buch, aber die sind bei mir ja zu einer Ausgabe zusammengefasst, weswegen ich „erster Teil“ sage) gibt es zwar gewaltige Brueche in den Geschichten besagter Charaktere (zum Teil wird das Genre komplett veraendert, wenn auch innerhalb der Sci-Fi bleibend), aber der „Fluss“ ist ganz hervorragend und traegt gewaltig zur „Tollheit“ bei. Dies sowohl intern (also innerhalb besagter Geschichten) als auch extern (also das Hintergrunduniversum betreffend).
Und dann ist da noch die Sprache … also das „wie es geschrieben ist“. Manche Autoren haben es echt drauf und zumindest in diesem Buch zaehlt Dan Simmons zu diesen Autoren; auch in der dtsch. Uebersetzung.

Lang Rede kurzer Sinn: wer sich fuer Sci-Fi interessiert sollte es unbedingt lesen; fuer Leute dich sich nicht fuer Sci-Fi interessieren ist es immer noch lohnenswert, eben weil es so gut ist (insb. der erste Teil).

Die Fortsetzung(en) habe ich nicht als so herausragend in Erinnerung und deswegen auch (erstmal) nicht vor nochmal zu lesen.

Beim letzten Mal landete ich bei dieser Tabelle, welche abgeschaetzte Zahlen enthaelt bezueglich wieviele Menschen in Norwegen in 2020 an gegebenen Krebsarten erkrankt (bzw. gestorben sind). Ich vertraue der Abschaetzung nicht nur deswegen, weil das von einer (meiner Meinung nach) vertrauenswuerdigen Quelle kommt, sondern weil ich das rueckwaerts gerechnet und mit echten Zahlen aus frueheren Jahren verglichen habe. Fuer Norwegen sind die Abschaetzungen plausibel, ich kann das nicht fuer andere Laender sagen, wuerde aber ohne Bauchschmerzen das Vertrauen auf diese erweitern.

Ebenso: im Weiteren (nicht nur hier, sondern auch in folgenden Artikeln) kuemmere ich mich nur um 50 % der Bevølkerung (die Maenner), nur um die norwegischen Zahlen und bespreche nur die Zahlen fuer 2020 (wichtig fuer wenn das hier in 20 Jahren jemand liest und die Tabelle die Werte fuer 2040 enthaelt).
Die Frauen lasse ich auszen vor, weil ich ein Mann bin und die ganze Sache hier ja ueberhaupt erst mit einer ganz konkreten Frage mich betreffend los ging. Die Unterscheidung ist wichtig, denn die Zahlen sind (leicht, aber signifikant) unterschiedlich fuer Maenner und Frauen. Nicht nur kann eine Frau keinen Prostatakrebs bekommen, sondern ist bspw. die Chance dass ein Mann Magenkrebs bekommt doppelt so hoch.
Dass ich Norwegen nehme ist weniger eindeutig, habe ich doch einen signifikaten Teil meines Lebens in Dtschl. verbracht. Allerdings unterscheiden sich die Zahlen zwischen diesen beiden Laendern nicht all zu stark.

Wieauchimmer, in der oben erwaehnten Tabelle bin ich nicht so richtig an den krebsspezifischen, totalen Zahlen interessiert. Ich will also nicht wissen wieviele Leute (einen bestimmten) Krebs bekommen haben, sondern vielmher wie viele von 100.000 zufaellig ausgewaehlten Menschen dieses Schicksal ereilte. Das ist (in ganz kurz) die Crude Rate. Ueber alle norwegischen Maenner aller Altersgruppen betrachtet sind das 688. Das ist aber irrefuehrend und ich erklaere an einem Beispiel warum.
Fuer das Beispiel stelle man man den Altersschieber zunaechst zwischen 0 und 49 (Jahre). Man erhalt 1289 Krebsfaelle. Nun stelle man den Schieber zwischen 50 und 85+ (Jahre) und erhaelt 17.573 Krebserkrankungen. Das statistischen Zentralbuero Norwegens hilft mir mit diesem Artikel (Figur 5) weiter, bezueglich der Anzahl der Maenner in diesen Gruppen. In 2020 befanden sich der ersten Gruppe 1,752,661 Maenner und in der zweiten Gruppe 932,412 Maenner. Mit entsprechenden, altersgruppenspezifischen Crude Rates von ca. 74 und fast 1900. (Achtung: die Zahlen in der Tabelle weichen etwas ab, weil dort das Wachstum der Bevølkerung etwas ander abgeschaetzt wurde. Die Abweichungen bewegen sich im Rahmen von ca. 2 %, ein erwart- und verschmerzbarer Fehler.)

Die letzten beiden Zahlen sind betraechtlich anders als die obige Crude Rate von 688. Das ist natuerlich voll logisch, Krebs ist auf Gesamtbevølkerungsniveau gesehen im Wesentlichen eine Alterskrankheit. Das erklaert nicht nur mein (verstaerktes) Interesse an dem Thema sondern auch warum die Crude Rate so viel kleiner fuer die juengeren und so viel grøszer fuer die aelteren Maenner ist.
Die zweite Altergruppe ist immer noch viel zu unspezifisch in meiner ganz spezifischen Situation, denn ich bin zur Zeit des Schreibens dieser Artikel 42 Jahre. Deswegen werde ich in spaeteren Artikeln 5-Jahres-Altersintervalle betrachten und mit den altersspezifischen Crude Rates arbeiten.

Ein letztes Achtung: die Crude Rate ist die _jaehrliche_ Chance an (einem gegebenen Krebs) zu erkranken, wenn man sich in einer gegebenen Altersgruppe befindet. Das ist beim kumulativen Risiko wichtig und deswegen komme ich darauf nochmal zurueck, wenn ich die naeher betrachte.

Fuer heute soll das reichen. Beim naechsten Mal gehe ich kurz auf die altersstandardisierte Rate (ASR) ein und warum da im Tabellenkopf ein „World“ hinter steht.

Beim letzten Mal zeigte ich, dass sich die linklevelabhaengigen, individuellen Verteilungen der Selbstreferenzen bei doppellogarithmischer Darstellung mittels linearer Funktionen beschreiben lassen und dass der Anstieg der dazugehørenden (Regressions)Geraden zu nimmt. Nun wird es total spannend, denn ich werte heute die linklevelabhaengigen Parameter dieser linearen Funktionen aus.

Aber zunaechst zur Erinnerung: in den Diagrammen des letzten Beitrags stellte ich den Logarithmus eines Funktionswertes f(x) in Abhaengigkeit vom Logarithmus der Argumente x dar und erhalte eine Gerade. Die Formel fuer die Gerade sieht also so aus …

… mit dem Anstieg A und dem absoluten Glied B. Letzteres ist im Wesentlichen dafuer verantwortlich, wie grosz das Integral unter der Kurve wird, da dieser Parameter besagte Kurve nach oben oder unten schiebt.
Obige Gleichung ist aequivalent zu einem maechtigen Gesetz …

… und deswegen entspricht der Anstieg der Geraden in der doppellogarithmischen Darstellung dem Exponenten des Potenzgesetzes. Cool wa!

Soweit zur Wiederholung … nun schauen wir uns mal die Linklevelabhaengigkeit der Regressionsparameter in diesem høchst spannenden Diagramm an:

URST Cool wa! Jetzt hab ich schon zwei voll krasse Ergebnisse (hier ist das Erste) die ich so nicht erwartet haette. Krass deswegen, weil das hier auf zugrundeliegende Mechanismen hinweist, die ganz natuerlich in diesem Netzwerk entstanden sind. Aber genug der Schwaermerei darob solch schøner Resultate ich sollte erstmal sagen warum das so urst cool ist.

Sowohl die Linklevelabhaengigkeit des Ansteigs als auch des absoluten Glieds lassen sich am besten mittels einer Exponentialfunktion beschreiben. Diese hat im ersten Fall eine Zerfallskonstante von -7.76 und im zweiten Fall von +7.67 … … … Wait! What? … *nochmal kontrollier* … .oO(ja, das stimmt alles).

Die Wahl einer Exponentialfunktion zur Beschreibung der Daten kann natuerlich diskutiert werden. Aber weil ich nicht die geringste Ahnung habe, was oben erwaehnte Mechanismen sein kønnten, gehe ich erstmal von einfachen Dingen aus, was in diesem Fall zur Wahl einer Exponentialfunktion fuehrte.
Das sich das Vorzeichen zwischen den beiden Werte aendert liegt in der Natur der Sache. Der absolute Wert des Anstiegs der Geraden wird ja grøszer. Deswegen muss die Zerfallskonstante negativ sein, denn der Exponent eines exponentiellen Zerfalls enthaelt von sich aus ein Minus eins und das muss kompensiert werden. Das aendert nix an dem Gesagten. Wuerde man die Daten des einen Parameters an der Abzsisse spiegeln, waere das Vorzeichen beider Exponenten gleich.

Beide Zerfallskonstanten liegen (vom Vorzeichen abgesehen) total nah beieinander. Das weist darauf hin, dass die Linklevelabhaengigkeit beider Grøszen ein und dem selben Mechanismus zu Grunde liegen.

Es hatte einen Grund, warum ich beim letzten Mal dies schrieb:

[…] wenn die Werte der Datenpunkte der Grafen durch die Anzahl aller Wikipediaseiten geteilt wird, so erhaelt man die Wahrscheinlichkeit wie oft eine Seite so und so viele Zitate […] pro Linklevel erhaelt.
Das Integral ueber alle Daten und alle Linklevel ergibt […] die durchschnittliche Wahrscheinlichkeit ueberhaupt eine Selbstreferenz zu erhalten.

Wenn man in diesem Bild bleibt, so ist das absolute Glied obiger linearer Gleichung ein Ausdruck dessen was in dem zweiten Satz des Zitats steht. Je weiter fortgeschritten man im Linknetzwerk einer Seite ist, desto unwahrscheinlicher ist es eine Selbstreferenz zu erhalten … siehe der kleiner werdende Flaecheninhalt unter den beim letzten Mal gezeigten Grafen.
Ist es sinnvoll, dass diese Grøsze exponentiell abnimmt … mhmm … mein Bauchgefuehl sagt mir: durchaus.

Die Zunahme des (Betrags des) Anstiegs der Regressionsgeraden besagter Grafen sagt im Wesentlichen das Folgende aus: je weiter fortgeschritten man im Linknetzwerk einer Seite ist, desto unwahrscheinlicher ist es _mehr_ als eine Selbstreferenz zu erhalten.
Ist es sinnvoll, dass diese Grøsze exponentiell abnimmt … mhmm … mein Bauchgefuehl sagt mir auch hierbei: durchaus.

In beiden Faellen kommt das „durchaus“ meines Bauchgefuehls daher, dass høhere Linklevel bedeuten, dass sich die dort auftretenden Seiten thematisch mehr und mehr von der Ursprungsseite entfernen. Warum sollte Selbige also zitiert werden? Und diese Entfernung vom Ursprungsthema ist eben wirklich urst schnell … da kann ich auf den allererste Beitrag dieser Maxiserie verweisen, in dem ich erwaehne, dass es nur drei Schritte zwischen Trondheim und Kevin Bacon gibt … ich wuesste wirklich nicht, was diese beiden miteinander zu tun haben kønnten.
Wieauchimmer, dieser „Abstand“ nimmt im Bild des Linklevels zwar schrittweise (also linear) zu, aber der „thematische (!) Abstand“ dann wohl exponentiell. Das „urst schnell“ von weiter oben drueckt sich in dem hohen absoluten Wert der Zerfallskonstante aus … ein Exponent von (fast) 8 ist gigantisch! Mir ist kein einziges Naturgesetz mit einem so hohen Exponenten bekannt.

Eine weitere „Veranschaulichung“ des Gesagten sind die vielen Gespraeche, wo man „vom Hundertsten ins Tausendste kommt“ … weil es sich hierbei um einen Sprung um eine Grøszenordnung handelt, kann dieses Sprichwort durchaus als ein Ausdurck obiger Zustaende gesehen werden.
Somit entspricht die Zerfallskonstante dieser Parameter also in etwa wie stark sich die Themen der Seiten auf einem Linklevel vom Thema der Ursprungsseite entfernen. Das ist voll cool (!!!) denn damit gibt es einen mathematischen Ausdruck fuer ein sprachlich / psychologisch / soziales Phaenomen. Ich haette nicht gedacht, dass ich das ganz konkret und quantifizierbar in den Daten finden wuerde.

Das soll genug sein fuer heute. Zum Abschluss sei nur noch das Folgende erwaehnt: die Fehlerbalken der einzelnen Punkte kommen aus den Fehlern der Regressionsparameter (wie beim vorletzten Mal erwaehnt). Der Fehlerbereich der exponentiellen Funktion ist davon natuerlich unabhaengig.

Nachtrag:
Im obigen Bild ist mir ein Fehler unterlaufen. Das ist aber nicht so schlimm und aendert gar nichts an dem was ich schrieb und es handelt sich dabei um das Folgende. In der Formel am Anfang benutze ich den Logarithmus zur Basis 10. Dies deswegen, weil Diagramme wie beim letzten Mal logarithmische Skalen zur Basis 10 benutzen. Die Werte fuer das hier dargestellte Diagramm berechnete ich aber mit dem natuerlichen Logarithmus.
Fuer den Anstieg macht das ueberhaupt keinen Unterschied, der ist der Selbe, egal welche Basis man benutzt. Aber das absolute Glied ist bei Letzterem selbstverstaendlich grøszer als wenn die Basis 10 benutzt werden wuerde. Genaugenommen um einen (konstanten!) Faktor 2.30258 grøszer, welcher natuerlich das Reziproke des Logarithmus zur Basis 10 der Eulerschen Zahl ist. Mathematisch folgt das zwangslaeufig, denn letztlich muessen beide Formen die selben Daten beschreiben. Zur Kontrolle habe ich dennoch nochmals alle linearen Regressionen ausgefuehrt und kann sagen, dass dieser Faktor „experimentell“ bestaetigt wird … bis auf ein paar wenige Werte am Anfang und am Ende fuer die das aber plusminus innerhalb vertretbarer Grenzen auch gilt.
Weil es sich hierbei um einen konstanten Faktor handelt bleibt dann auch die Zerfallskonstante der Anpassung der Werte fuer B die Gleiche. Mit den gegebenen Datenpunkte erhalte ich einen Wert fuer Selbige von +7.22. Die Diskrepanz ergibt sich sich durch die „paar wenige[n] Werte am Anfang und am Ende“. Wenn ich diese kuenstlich „begradige“ so verschwindet die Diskrepanz ohne dass sich an der Position der Punkte im Diagramm grosz was aendert.
Mit den gegebenen Daten (und insb. aller Limitierungen die diese mit sich bringen) kann ich deswegen trotz des (relativ geringen) Unterschieds der Werte (welchen ich getrost in den so oft erwaehnten „10%-Fehler“ packen kann) weiterhin ohne schlechtes Gewissen vertreten, dass die Zerfallskonstanten fuer A und B im Wesentlichen gleich sind.

Nach dem letzten Beitrag kann ich heute ohne viel Aufhebens gleich zu den Daten kommen:

Whoa! … (wie so oft) passiert ja ganz schøn viel hier … darum der Reihe nach. Wir sehen die selben Diagramme wie beim letzten Mal, nur fuer høhere Linklevel, mit den Regressionsgeraden welche den linearen Teil der jeweiligen, linklevelspezifischen Daten gut (genug) beschreiben.

Im linken, oberen Bild sehen wir die Daten fuer LL2 bis LL9 (kurze Anmerkung: die Daten fuer LL2 und LL3 sind sich so aehnlich, dass sich Erstere hinter Letzteren „verstecken“; entsprechend sind diese zwei Regressionsgeraden auch so aehnlich, dass ich hier sage, dass diese gleich sind). Wie beim letzten Mal bereits erwaehnt, nimmt die „Signalstaerke“  mit zunehmendem Linklevel ab. Das ist aber etwas, was wir schon aus dem allerersten Diagramm zu den Selbstreferenzen wissen.
Nichtsdestotrotz scheinen die Regressionsgeraden hier alle parallel zu liegen. Die Betonung liegt auf „scheinen“, denn dies ist nicht der Fall. Das sieht man aber in diesem Diagramm nicht so gut, weil der Unterschied in den Anstiegen nicht sehr grosz ist.

Besser ist dies im rechten oberen Bild zu sehen, in dem die Daten von LL10 bis LL19 dargestellt sind. Weil die Datenpunkte dichter beisammen liegen erkennt man viel besser, dass Betrag des Anstiegs der Regressionsgeraden zu nimmt mit høheren Linkleveln.

Im linken unteren Bild sieht man den Uebergang in das Regime in dem die Datenlage nicht mehr gut genug ist. Bis LL22 getraue ich mich noch die Daten mittels linearer Regressions zu analysieren. Danach ginge das prinzipiell auch noch, aber da habe ich dann allermeistens nur noch zwei Datenpunkte (oder noch spaeter nur noch einen) pro Linklevel und durch zwei Punkte kann man eine eindeutige Gerade legen. Die Parameter dieser Gerade sind dann aber auch komplett abhaengig von der Position besagter Punkte im Diagramm. Da ich mich hier ohnehin nur noch kurz ueber dem „Rauschen“ befinde wuerden besagte Parameter dann auch (mehr oder weniger) wild streuen und es waere wenig sinnvoll diese zu interpretieren. Eben dieses „wilde streuen“ wird ja zum Teil massiv „geglaettet“ durch lineare Regression.

Wieauchimmer, im rechten unteren Bild ist dann definitiv der „Endzustand“ erreicht, der das eben Beschriebene eindeutig klar macht.

Ich zeige die Diagramme vor allem aus Transparenzgruenden damit ihr, meine lieben Leserinnen und Leser, sieht wie das „in Echt“ aussieht und wo die beim naechsten Mal besprochenen Sachen eigtl. herkommen.

Zum Abschluss sei das Folgende gesagt (denn es ist wichtig zum Verstaendnis der Daten beim naechsten Mal): wenn die Werte der Datenpunkte der Grafen durch die Anzahl aller Wikipediaseiten geteilt wird, so erhaelt man die Wahrscheinlichkeit wie oft eine Seite so und so viele Zitate (z.b. 23) pro Linklevel erhaelt.
Das Integral ueber alle derart normierten Daten und alle Linklevel ergibt die rechte Kurve des ganz am Anfang der Besprechung der Selbstreferenzen gezeigten Bildes — die durchschnittliche Wahrscheinlichkeit ueberhaupt eine Selbstreferenz zu erhalten.

Beim naechsten Mal komme ich zum eigentlich Spannenden: der nun schon so oft erwaehnten Regressionsgeraden. Urspruenglich war das hier mit drin, aber die Ergebnisse sind so toll, dass diese einen eigenenBeitrag verdient haben.

Øhm … æhm … wegen des Themas einer anderen, z.Z. laufenden Miniserie, ist es mir fast ein bisschen unangenehm, dass das heutige Argument auch um Krebs geht und wie wir (indivudell und als Gesellschaft) den nicht als Teil des Kørpers wahrhaben wollen und wie das dann auf das hinaus laeuft, um was es mir mit dieser Serie geht … aber eben nur fast und deswegen schreib ich mal drauflos.
Ich gebe zu, dass mir das hier dargelegte Argument selbst nicht ganz ausgegoren vorkommt … aber ich komm nicht weiter mit meinen Gedanken und im groszen und Ganzen halte ich das durchaus fuer in das Thema passend … selbst wenn mir nicht komplett klar ist wie oder wo es passt.

Wieauchimmer, wenn man Krebs hat, dann wird im Allgemeinen gesagt, dass man gegen den „kaempft“. Dies auf eine Art und Weise, die definitiv NICHT das Immunsystem meint (wie bspw. bei der Grippe). Geht ja auch gar nicht, denn dieses funktioniert ja gerade nicht gegen den Krebs.

Wie aber kann man gegen sich selber kaempfen? … Kaempfen beinhaltet doch, dass man etwas besiegen kann … aber man besiegt sich ja nicht selbst, wenn man vom Krebs geheilt wird.

In meiner kleinen Welt, die nur wenig beruehrt ist von einer echten Ausbildung in der Psyche des Menschen, kann ich mir das nur so vorstellen, dass der Krebs vom Selbst exkludiert wird. Diese Teile werden nicht als zum Selbst gehørend wahr genommen und deswegen kann man die „besiegen“.
Das einzige Mal, dass ich eine andere Darstellung las war im Buch „Døden, skal vi danse?“ (dtsch.: „Tod, ich bitte zum Tanz“) des Arztes Per Fugelli. Dieser hat sich viele Jahre seines Lebens mit dem Tod und wie wir (individuell und als Gesellschaft) damit umgehen auf professioneller Ebene beschaeftigt. Letztlich fuehrte es dazu, dass er seinen Krebs zwar weiterhin psychologisch „abspaltet“ aber dennoch als Teil von sich selbst wahr nimmt, den er eben gerade NICHT durch einen Kampf los wird.

Worum es mir im grøszeren Zusammenhang nun geht ist der folgende Sachverhalt. Krebszellen sind uns viel aehnlicher als ein Kind es jemals sein kønnte. Erstere werden als „nicht meine und das sollen auch nicht meine sein“ angesehen obwohl diese Teil des eigenen Kørpers sind, mit nur ein paar veraenderten Genen (meist noch nicht mal komplett veraendert, so weit ich das verstanden habe). Bei Kindern hingegen wird im Allgemeinen von Eltern oft genug das angenommen, was im Titel dieser Miniserie steht und das obwohl 50 % des Genoms von wem ganz Anderem sind.

Das ist natuerlich ein Widerspruch, es sei denn, dass es gar nicht um die Gene geht. Aber die Gene sind das Einzige, was ein Kind physisch von den Eltern „hat“ (auch wenn superhoher Stress (bspw. durch Misshandlungen durch besagte Eltern) auch nach der Geburt (via DNA-Methylierung) noch die DNA veraendern kann … der  Einfachheit halber lasse ich solche Effekte bei meinen Betrachtungen auszen vor). Wenn es nun aber nicht um die Gene geht, dann lande ich entweder wieder bei dem beim letzten Mal Gesagten (Machtausuebung) oder, dass das ganze Konzept ein unertraeglicher Unsinn ist.

Das muss reichen fuer heute … alles was ich noch dazu schreiben kønnte, waere gedankliches vor und zurueck bewegen. Das mache ich zwar oft genug, lasse es aber an der Stelle sein und hoffe, dass ihr, meine lieben Leserinnen und Leser schon so’n Gefuehl dafuer habt, was ich sagen will.