Archive for August, 2022

Neulich las ich mich zum zweiten Mal durch Sandman. Dort gibt es einen sehr interessanten Charakter — Hob Gadling — der sich eines Tages im Jahre 1389 entscheidet nicht zu sterben. Ueber die Jahrhunderte hat er natuerlich Freunde und Familie(n) und wird bekannt mit vielen Menschen … und alle diese Menschen sterben, waehrend er zurueck bleibt.

Im vierten Band der Absolute Edition ist er in der Mitte der 90’er Jahre des 20-sten Jahrhunderts angekommen und mein Lesefluss stockte bei diesem Panel:

Entnommen aus Neil Gaimans The Absolute Sandman Volume Four, DC Comics, 2006, p. 430. Urspruenglich erschienen in Sandman #73, Vertigo, 1995-10-17, Penciler + Inker: Michael Zulli, Colorist: Daniel Vozzo + Digital Chameleon, Letterer: Todd Klein, Editor: Karen Berger

Das Bild an sich ist irrelevant, nur der Text ist wichtig. Der Hintergrund zum Text ist ein Gespraech, welches Hob (weisze Kaesten) mit seiner Freundin fuehrt. … … … Mehr muss ich eigentlich gar nicht dazu sagen, denn dieses Bild spricht fuer sich selbst … bzw. sprach es fuer sich selbst als es zum ersten Mal erschien. Heutzutage haben wir (als „westliche“ Gesellschaft) aber den Hintergrund (mehr oder weniger) vergessen.

Und auch diesmal ist dies eigentlich ein Ausdruck ganz groszen medizinischen und wissenschaftlichen Fortschritts … leider nur auf diesen Gebieten, denn das furchtbare soziale Leid, welchem HIV-infizierte in den 80’ern und 90’ern ausgesetzt waren wuerde heutzutage vermutlich genauso passieren … *seufz* … immer nur ein Schritt nach dem anderen … aber so lange es ein stetiger (wenn auch langsamer) Fort_schritt_ ist kann ich wenigstens daran glauben, dass zukuenftige Generationen es besser haben werden … und wenn weniger Menschen leiden, ist’s mir auch egal wenn vergessen wird, wie es frueher war.

Einen Teil der ersten Frage hatte ich bereits hier beantwortet, wo ich schrieb, …

[…] dass alles was ich schrieb und beobachtete tatsaechlich in den Daten vorkommt. Das ist also in dem Sinne „die Wahrheit“ […].

So wie die Daten sind, sehe ich wirklich zwei „Phasen“.

Ich dekonstruierte dieses Bild aber wieder, weil ich vermutete, dass die zweite „Phase“ durch ein Artefakt der Datenbehandlung zustande kommt. Ich erwaehnte an anderer Stelle, dass in den „Extremen“ (bspw. zum Ende des Linknetzwerks) …

[…] von mir gemachte Fehler [in der Datenaufbereitung] deutlich sichtbar werden.

Waehrend den Artikeln zur Dekonstruktion zeigte ich, wie ein spezifisches Artefakt das gemessene Signal plausibel erklaeren wuerde. Ich zeigte zwar immer nur alles bis LL59 aber das geht tatsaechlich ungefaehr bis zum Anfang dieser „festen Phase“. Zwar nicht absolut, denn es schummeln sich irgendwann ein paar andere Seiten als die des São Paulo FC dazwischen und die Jahre werden auch nicht mehr unbedingt von allen Seiten in der „richtigen“ Reihenfolge durchschritten, aber das was ich schrieb stimmt ist richtig fuer die Majoritaet der Seiten.

Damit kann ich direkt uebergehen zur anderen Frage im Titel. Die individuellen Verteilungen der totalen Links gaben mir ein Bauchgefuehl, dass da was zu holen ist. Spaeter hatte ich die Idee mit den Phasenuebergaengen. Den Gedanken untersuchte ich im Laufenden weiter und fand, dass die „Messungen“ diese Idee durchaus unterstuetzen.
Das war ein begeisternder Prozess! Mir praesentierte sich ein „Mysterium“ und ich wollte rausfinden was das ist. Ich fand eine Beschreibung die passt und das war natuerlich voll toll und ich schrieb die entsprechenden Beitraege mit høchster Begeisterung … bis auf den zuletzt verlinkten Beitrag. Denn zwei Tage bevor ich den schrieb fiel mir der Umstand auf, der zur Dekonstruktion fuehrte … ich denke, dass man beim Lesen merkt, dass da weniger Elan drin steckt. Aber die Dekonstruktion an sich war dann wieder voll toll! Ein neues Mysterium was es zu løsen galt!

Ein Grund warum ich diesen Prozess so detailliert aufschrieb (davon abgesehen, dass das zum Kevin Bacon Projekt an sich gehørt) ist die beschriebene Freude, an der ich euch, meine lieben Leserinnen und Leser, teilhaben lassen wollte.

Apropos Freude, diese vøllige Abstraktion weg von Wikipediaseiten mit (totalen) Links zu (besetzten) Zustaenden brachte mir auch groszes intellektuelles Vergnuegen. Zum Ende hin konnte ich in beiden „Bildern“ (Seiten mit Links vs. Zustaende) gleichzeitig denken … das ist unglaublich toll und es gibt mir Energie eine Sache so abstrahieren, bedenken und beschreiben zu kønnen … Physiker halt :)

Aber ich schwoff ab, denn ich wollte einen weiteren Grund fuer all diese Artikel nennen: so sollte die wissenschaftliche Herangehensweise an ein Thema funktionieren. Nur weil ich eine coole Sache vermute und dafuer „Beweise“ finde, heiszt das noch lange nicht, dass die coole Sache auch richtig ist. Gerade wenn eine Beschreibung zu schøn ist um wahr zu sein, muss man das extra genau beleuchten.
Hier kam heraus, dass meine These von den Phasenuebergaengen nicht in der Staerke haltbar ist, wie ich sie in den entsprechenden Artikeln vertreten habe. Irgendwie ist das ja auch klar, und ich erwaehnte es bereits, in was fuer „Phasen“ sollen denn Wikipediaseiten uebergehen?
Ich lasse das aber so stehen wie es ist, eben um oben erwaehnten Prozess zu beleuchten … auszerdem habe ich mir nun schon die Arbeit gemacht das alles aufzuschreiben.

Andererseits ist auch nicht alles verloren. Auch wenn ich (fast) alles ab ca. LL45 als hauptsaechlich durch das besprochene Artefakt zustande kommend ansehe, so ist das Verhalten der „Zustaende“ davor immer noch interessant.
Man schaue sich nochmal die individuellen Verteilungen in dem Bereich an, den ich manchmal als „fluessige Phase“ bezeichnet habe (ungefaehr zwischen LL13 und LL42). Es ist schon verwunderlich, dass die Anzahl der totalen Links fuer alle der fast 6 Millionen Seiten auf diesen Linkleveln so dicht beisammen liegt. Oder anders: Auf LL1 und LL2 reichen die Zustaende bis in den Bereich von mehrere 10 Millionen aber dies von ganz vorne; es sind also Zustaende mit nur 5, 23 oder 137 totalen Links besetzt. Warum ist aber auf LL23 kein Zustand oberhalb ca. 1.500 bzw. unterhalb von ca. 450 totalen Links besetzt? Warum begrenzt sich die Anzahl der Zustaende derart? …
Diese Frage(n) kann ich leider nicht beantworten, aber darum ist es mglw. doch gar nicht so verkehrt hier von einer Phase zu sprechen. Dies deswegen, weil das beschriebene Verhalten typisch fuer alle Wikipediaseiten (als ein System) ist, dabei aber nicht bei vorherigen Linkleveln auftritt.

Sooo … das soll nun aber genug sein damit. Der naechste Artikel ist nochmal ganz kurz was zu den totalen Links und dann gehe ich zu einer anderen „Messgrøsze“ ueber — den neuen Links pro Linklevel. Das sollte relativ schnell gehen, weil ich vermute, dass alle auftretenden Phaenomen mit dem bisherigen Wissen erklaert werden kønnen. Da muss ich das dann nicht mehr im Detail besprechen. Andererseits dachte ich das auch bzgl. der totalen Links.

Das feine Bild mit den Pfeilen vom letzten Mal ist ein Ausdruck der Hypothese, dass (fast) alle Seiten zum Ende ihres Linknetzwerkes auf den selben Seiten landen. Dort legte ich auch dar, dass die dort gezeigten Daten sehr sehr sehr stark fuer die Richtigkeit dieser Hypothese sprechen.
Aber man schaue sich das Bild nochmal an und nehme LL59 genauer unter die Lupe. Ich schreibe zwar, dass sich die drei „Mitglieder“ die Gruppe Alpha in der Saison des São Paulo FC von 1943 befinden, aber ich habe keine direkten Beweise dafuer. Prinzipiell kønnten naemlich auch irgendwelche anderen Seiten sich bei LL59 auf wiederum irgendwelchen anderen Seite mit 37 totalen Links befinden und diesen Zustand dadurch besetzen. Oder anders: die Gruppen (und Jahre) die ich dort angebe kønnten prinzipiell wild durcheinandergewuerfelt sein, womit die Beschriftung der Datenpunkte vøllig sinnlos waere.

Ich gebe zu, dass die Chance, dass fast 6 Millionen Seiten zum Ende hin nur diese paar Zustaende besetzen (welche auch noch mit den totalen Links der Seiten der Hypothese uebereinstimmen), unglaublich klein ist.
Dennoch wollte ich gerne noch eine weitere Sache untersuchen, welche die Richtigkeit der Hypothese kraeftigen wuerde.

Diese weitere Sache ist die Høhe der Balken, oder besser ausgedrueckt die Amplitude des „gemessenen“ Signals.
Bisher habe ich mir nur die Position der Balken angeschaut. Im uebertragenen Sinne waere das so, wie wenn ich Nachts in den Himmel schaue, dort den Vollmond sehe und daraus schliesze, dass das wohl die Sonne sein muss. Die Sonne ist (fuer mich gesehen) naemlich eine leuchtende „Scheibe“ (Signal) mit gleicher Grøsze am Himmel (Position). Erst die Auswertung der „Leuchtkraft“ (Signalstaerke/Amplitude) erlaubt mir zwischen Sonne und Mond zu unterscheiden.

Hier wird es nun ein klein bisschen komplizierter, denn ich muss zwischen zwei verschiedenen Amplituden unterscheiden: der gemessenen Signalstaerke in jedem Zustand und der Amplitude der einzelnen Gruppen.
Ersteres kann ich aus den einzelnen Verteilungen einfach ablesen. Letzteres ergibt sich aus der Verteilung der „Aussteiger“ pro Linklevel, denn alle Wikipediaseiten die beim selben Linklevel aussteigen gehøren zu einer Gruppe. Hier nochmal der relevante Teil von Letzterem ein bisschen modifiziert.

Laut der Hypothese sollte diese Verteilung sich genau so wie sie ist, d.h. OHNE Veraenderung der Amplitude der einzelnen Zustaende, durch die letzten Linklevel ziehen.
Das kønnen wir aber, in der Art und Weise wie die oben verlinkten individuellen Verteilungen bisher gezeigt wurden, nicht, bzw. nur indirekt, sehen. Das hat zwei Gruende. Der Erste ist, dass im obigen Bild die Gruppen gezeigt sind, die Abzisse der individuellen Verteilungen aber aufsteigende Zahlen die møgliche Anzahl der totalen Links (bzw. die møglichen Zustaende) wiederspiegelt. Der zweite Grund ist, dass manche Jahre/Saisons des São Paulo FC gleich viele totale Links haben und somit mehrere Gruppen in den selben (!) Zustand des gemessenen (!) Signals fallen.
Ersteres kann durch eine Achsentransformation geløst werden, Letzteres durch abzaehlen und aufpassen.

Etwas detaillierter: laut der Hypothese werden die Jahre/Saisons der Reihe nach (rueckwaerts) durchlaufen. Diesen Prozess habe ich beim letzten Mal im Detail beschrieben. Nun trage ich auf der Abzsisse nicht alle Zustaende auf, sondern _nur_ die tatsaechlich Besetzten. Auszerdem trage ich diese nicht in der Reihenfolge auf in der sie innerhalb der natuerlichen Zahlen auftauchen, sondern in der Reihenfolge, in der diese (rueckwaerts „laufend“) von Gruppe Alpha „aktiviert“, und dann der Reihe nach von den anderen Gruppen durchlaufen, werden. Mehrfach besetzte Zustaende tauchen mehrfach auf, unterschieden durch In­di­zes.
Ein Bild sagt mehr als 1000 Worte:

Hier sehen wir das gemessene Signal auf LL59 als blaue Balken; ich komme darauf gleich zurueck. Die roten Balken sind identisch mit denen aus dem vorigen Bild; die obere Abzsisse zeigt an welche Gruppe dem jeweiligen (roten) Balken zuzuordnen ist. Cool wa! Bisher hatte ich unterschiedliche Farben wenn dann nur an den Ordinaten … das geht natuerlich auch bei den Abzsissen … aber ich schweife ab.
Die rote Beschriftung der unteren Abzisse ist eigentlich nicht nøtig, hilft aber mglw. beim Verstaendniss und bezeichnet das Jahr in welchem sich die jeweilige Gruppe gerade befindet. Dies wird in der darunterliegenden Beschriftung in den richtigen Zustand der diesem Jahr entspricht projiziert.
Nun zu mehrfach besetzten Zustaenden. Die Seiten der Jahre 1933 und 1934 haben gleich viele Links — 26 — aber (laut Hypothese) befindet sich nur Gruppe Kappa im Jahre 1934 und nur Gruppe Lambda im Jahre 1933 (auf LL59). Das Gruppensignal aus dem Jahre 1934 — 1 — traegt dann mit dem Gruppensignal aus dem Jahre 1933 — auch 1 — zum gemessenen Signal im Zustand 26 — 1 + 1 = 2 — bei. Das sollen die Pfeile andeuten. Bei diesem Beispiel kann man das gut nachvollziehen. Aufgrund der logarithmischen Achse wird das aber schwerer (bzw. unmøglich) mit grøszeren Zahlen. Deswegen schreibe ich (hier) bei Zustand 31 und Zustand 34 ran wie viele Webseiten ich in diesen Zustaenden tatsaechlich messe. Und das stimmt ueberein mit der Summe der Signale der Gruppen die sich in diesen Zustaenden befinden.

Wie oben erwaehnt sollten sich bei voranschreitendem Linklevel die roten Balken so wie sie sind nach links schieben. Die blauen Balken sollten diese Verschiebung wiederspiegeln. Und das ist auch das was tatsaechlich passiert:

Oder vielmehr „passiert“ nur das gemessene Signal. Das schlieszt nicht aus, dass andere Seiten mit gleich vielen Links „besucht“ werden. Ich sehe die Gruppensignale nicht wirklich, ich nehme nur an, dass diese dem gemessenen Signal zu Grunde liegen. Aber, dass ueber mehrere Linklevel genau die richtigen Seiten mit der richtigen Anzahl an Links besucht werden und auch in genau der richtigen Menge sodass das gemessene Signal erhalten bleibt ist sehr unwahrscheinlich. Die einfachere und plausiblere Erklaerung ist meine Hypothese: die Gruppen besetzen tatsaechlich der Reihe nach die jeweiligen Zustaende.

Im uebrigen enthaelt das hier Gezeigte auch das was ich beim letzten Mal diskutierte. Das war aber leichter es so rum „aufzuziehen“ und so rum habe ich mich auch selber der Problemstellung genaehert.

Ich denke, dass ich nun genug gezeigt habe bzgl. des Artefakts in den Daten, welche letztlich den zweiten Phasenuebergang ausmachen. Fuer heute soll es genug sein. Beim naechsten Mal komme ich aber nochmal darauf in einem grøszeren und allgemeineren Zusammengang zurueck. Weil’s so cool ist :)

Ach doch, eine Sache noch. Auch wenn alles darauf hindeutet, so ist all dies natuerlich immer noch kein direkter Beweis, dass es sich bei den Zustaenden wirklich um die Seiten der Saisons des São Paulo FC handelt. Wenn ich es nicht vergesse, dann werde ich darauf an anderer Stelle nochmal zurueck kommen.

Heute gleich noch ein Beitrag in dieser Miniserie und ich muss etwas weiter ausholen.

Neugierde wird als eine notwendige Bedingung fuer natuerliche Intelligenz angesehen. Das Baby lernt krabbeln, weil es neugierig auf den Ball ist, der auszer Reichweite der kleinen Aermchen liegt. Viele Leute glauben, dass ich sehr intelligent bin, nur weil ich ’n paar Sachen weisz, weil ich mein Leben lang neugierig war und das Eine und Andere gelesen habe.
Es ist aber keine hinreichende Bedingung fuer die sehr limitierte Bedeutung von „Intelligenz“ die wir Menschen haben. Viele Tiere sind definitiv neugierig, es waren aber keine Delphine, die auf dem Mond gelandet sind. Tiere sind definitiv (!) intelligent, wir Menschen haben dafuer nur noch nicht das richtige (nicht nur) theoretische Rahmenwerk gefunden um das zu beschreiben.

Noch wichtiger wenn man ueber Neugier schreibt ist das Folgende: wenn man wirklich etwas lernt (also NICHT nur auswendig lernt fuer die Pruefung), dann behaupte ich, dass dies immer aus intrinsischer Motivation heraus erfolgt. Und intrinsische Motivation hat man, weil man auf etwas neugierig ist. Oft (meistens?) ist man sich dieser Verbindung nur nicht bewusst.

Intrinsisch motiviert (und damit neugierig) zu sein ist die Grundlage all dessen wie man sich die als Welt erklaert — das persønliche Weltbild. Dieses Weltbild bestimmt (direkt und indirekt), wir wir an unser Leben heran gehen und (intellektuell, emotional und spirituell) wachsen. Wenn wir mit anderen Menschen „wechselwirken“ drueckt sich unser Weltbild in den allermeisten Faellen darin aus, wie wir auf Fragen antworten. Das ist jetzt zwar sehr spezifisch, aber im Allgemeinen will ich genau darauf hinaus! Von wirklich intelligenten Menschen wird man selten ein „das ist genau so und nicht anders“ høren. Dies liegt daran, dass diese oft so neugierig ueber etwas sind, dass sie auch Sachen lesen / anhøren / anschauen, die nicht in ihr (urspruengliches) Weltbild pass(t)en. Dadurch lernt man oft (meistens?) eine gegenteilige Meinung zu verstehen.

Ein paar Beispiele:
– Ich finde die Nazis zum kotzen und deren Meinungen sind in meinem Weltbild definitiv falsch und verabscheuungswuerdig … aber bei allem wie die westliche Welt sich vielerorts entwickelt hat, kann ich verstehen, warum Menschen sich dieser Ideologie zuwenden.
– Ich kann anerkennen, ja sogar verstehen, wenn Individuen sie tief bewegende, persønliche  Erfahrungen mit der Offenbarung einer Gøttin in Verbindung bringen. In deren Weltbild stimmt das. In meinem Weltbild hat deren Gehirn auf eine ungewøhnliche Art reagiert.
– Ein Teilchen kann nicht durch eine feste Wand gehen … im Wellenbild ist die Chance, dass es pløtzlich auf der anderen Seite der Wand erscheint grøszer als Null. Nein, das øffnet nicht die Tore fuer Geistererscheinungen.
– In den letzten Jahren bin ich sehr zurueckhaltend geworden, wenn jemand meint, dass ich etwas gesagt (oder getan) haette, von dem ich ueberzeugt bin, dass ich das nicht gesagt (oder getan) habe. Meistens denke ich, dass sich dieser oder diese Jemand falsch erinnern muss. Ich habe aber gelernt, dass es so viele Sachen gibt, bei denen ich mich nicht an die Details erinnere, dass ich einraeume, dass besagter Jemand Recht haben kønnte.

Hinter all dem stehen (oft langjaehrige!) Lernprozesse, die nicht nur direkt auf eine konkrete Sachen ausgerichtet waren, sondern auch „Wege abseits“ des direkten Zielpfades „gegangen“ sind. Letzteres trotzdem dies (in den allermeisten Faellen) nicht „belohnt“ wird, auszer, dass meine Neugier befriedigt wird … was natuerlich ein Widerspruch ist, denn dies ist natuerlich ein enorme, wenn auch „nur“ interne, Belohnung.

Und damit komme ich zu kuenstlichen „Intelligenzen“ und ich werde im Folgenden aus diesem Artikel zitieren. Der Artikel selber beschreibt eine sehr spezifische Methode Computer neugierig zu machen, aber das ist nicht von Interesse, denn es geht mir nur um’s Prinzip.
In kurz: im Allgemeinen hat die Mehrheit der Bevølkerung (wenn ueberhaupt) die Vorstellung, dass kuenstliche „Intelligenzen“ (mehr oder weniger) zielorientiert trainiert werden mit (mehr oder weniger) direkter Rueckmeldung.

Learning goal-directed behavior with sparse feedback from complex environments is a fundamental challenge for artificial intelligence. Learning in this setting requires the agent to represent knowledge at multiple levels of spatio-temporal abstractions and to explore the environment efficiently.

Weiterhin ist …

[l]earning and operating over different levels of temporal abstraction […] a key challenge in tasks involving long-range planning.

Und deswegen werden kuenstliche „Intelligenzen“ von der besagten Mehrheit der Bevølkerung nicht ernst genommen, denn dafuer braucht man interne Motivation. „Seitenwege“ muessen erkundet werden um Problemstellungen in einen grøszeren Zusammenhang zu bringen. Dies ist (per definitionem) nicht direkt zielfuehrend. Eine Rueckmeldung darob des „Erfolgs“ dieser „Erkundung“ wuerde also eher negativ ausfallen. Oder anders:

The nature and origin of ‘good’ intrinsic reward functions is an open question in reinforcement learning.

Ach so, das gilt natuerlich nicht nur fuer Maschinen, sondern auch bei Menschen ist …

[t]he nature and origin of intrinsic goals […] a thorny issue.

Im Artikel werden ein paar Dinge zitiert, wie dieses Problemen einer intrinsischen Motivation angegangen werden kann. Neben dem im Artikel detailliert besrpochenen, ganz konkreten Konzept (nicht so wichtig, siehe oben) laeuft dies im Allgemeinen auf Sachen wie …

[…] the effectiveness of artificial curiosity using information gain maximization […]

… oder …

[…] the improvements to a predictive world model made by the learning algorithm […]

hinaus.

Wieauchimmer es gemacht wird, im wesentlich faellt dies unter sogenannte Meta (oder auch Mesa) Optimierer — etwas anderes als die direkte Zielfuehrung wird optimiert. Mesa-Optimierung stellt ein ernstes Problem dar, wenn man ganz sicher gehen will, dass Skynet die Menschheit nicht ausløscht … ein _sehr_ ernstes Problem, denn Ultron wollte genau dies tun, nachdem es nur 10 Minuten im Internet verbracht hatte … okok, zugegebenermaszem ist das beim heutigen Internet eine natuerliche Reaktion.

Deswegen wie immer: nur weil Computer etwas bisher nicht konnten, heiszt das noch lange nicht, dass das fuer immer so bleiben wird. Dabei ist insbesondere zu bedenken, dass der verlinkte Artikel bereits von 2016 ist und seitdem ganz viel auf diesem Gebiet passiert ist … siehe GPT-3, oder DALL-E (dazu vielleicht lieber das hier), bei denen man nicht umhin kommt sich zu fragen, wie denn die interne Repraesentation der Welt, dieser kuenstlichen „Intelligenzen“ aussieht und wie diese das erlernt haben.

Aber genug fuer heute. Dieser Beitrag ist lang genug und ich schaffe es leider nicht, dieses Konzept und worauf ich hinaus will konkreter (und besser) zu beschreiben :(

Es wird ja gerne gesagt, dass „kuenstliche Intelligenzen“ zwar durchaus ein paar Sachen kønnen (bspw. Schach spielen), aber wenn diese etwas lernen sollen, dann muessen sie dafuer viele Daten haben.
Das ist ein Grund, warum gesagt wird, dass „Daten das Øl des 21. Jahrhunderts“ sind … dass ich das hier schreibe, bedeutet nicht, dass ich denke, dass das richtig ist. Ich wollte damit nur ausdruecken, dass (aufgrund der vorherrschenden Meinung) viele maechtige Leute viele Daten haben wollen, damit deren „kuenstlichen Intelligenzen“ und Maschinenlernalgorithmen besser werden und sie dadurch noch mehr Macht bekommen kønnen.

Andererseits hørt man dann auch immer wieder, dass jedes Kleinkind „kuenstlichen Intelligenzen“ im Allgemeinen haushoch ueberlegen ist, weil Ersteres von nur ein paar Beispielen urst krass viel lernt und Neues aus der gleichen Kategorie dann erkennt.
Das ist natuerlich ein etwas unfairer Vergleich, weil das (nicht nur das) menschliche Gehirn und die (nicht nur die) menschliche Gesellschaft darauf ausgerichtet sind, (nicht nur) neue Menschen genau darauf zu „trainieren“, denn andernfalls ist’s nicht weit her mit dem Ueberleben im Universum. Deswegen konzentriere ich mich nur auf die Behauptung, dass Computer viele Daten brauchen um das Gleiche zu erreichen.

Nun ist es aber so, dass bereits heute dem nicht so sein muss! In dem verlinkten (wenn auch in einem Tagungsband erschienenen, dennoch durchaus wissenschaftlichen) Artikel zeigen die Autoren, dass (relativ komplizierte) neuronale Netzwerke nur wenige Daten brauchen um Konzepte und Kategorien generalisieren und in unbekannten Daten wiedererkennen zu kønnen.
Selbstverstaendlich sind die Autoren sich dem bewusst, dass dies sehr spezifisch ist bzgl. der Aufgaben und (Roh)Daten und mitnichten auf alles was die Welt bietet verallgemeinert werden kann.
Ebenso behaupten die Autoren auch nicht, wo, wie und wann diese neuronalen Netzwerke was und warum gelernt haben. Selbst bei kleinen und relativ unkomplizierten Netzwerken fuer einfache Aufgaben ist das nur sehr bedingt møglich … andererseits kønnen wir diese Fragen bei Tieren und Menschen ja auch nicht beantworten.

Mir geht es nun darum, dass „Big Data“ von den verschiedensten Parteien und Interessengruppen als notwendig (und oft genug auch als hinreichend) angesehen wird um einem Computer beizubringen wie man Sachen erkennt. Der verlinkte Artikel zeigt aber, dass dem nicht so sein muss.

Auch wenn ich durchaus anerkenne, dass Computer (heutzutage) viele Daten brauchen um eine Aufgabe selbststaendig erledigen zu kønnen, so finde ich es unheimlich wichtig darauf hinzuweisen, dass das nicht in Stein gemeiszelt ist! Dies schon deswegen, damit man nicht vøllig davon ueberrascht wird, wenn die Roboter (endlich) kommen.

… ist der erste Song auf dem unterschaetzten Album Mutations von Beck. Auch wenn dies eines meiner Lieblingsalben ist, welches ich waehrend des Schreibens mal wieder høre, so soll es hier nicht um Musik gehen. Vielmehr geht es um eine Sache ueber die ich in einem (sehr technischen) Essay mit dem Titel „Brain Efficiency: Much More than You Wanted to Know“ stolperte:

[t]he human brain’s output of 10W in 0.01m^2 [sic] results in a power density of 1000 W/m2, very similar to that of the solar flux on the surface of the earth, which would result in an equilibrium temperature of ≈ 375 K or 100 [degrees]C, sufficient to boil the blood, if it wasn’t actively cooled.

Das machte mich etwas stutzig, denn offensichtlich kocht mein Blut nicht. Im Artikel wird angefuehrt, dass die Kuehlung des menschlichen Kørpers super effizient ist, weil wir auf der gesamten Hautoberflaeche schwitzen kønnen (was ziemlich selten ist im Tierreich). Allerdings ist mein Kopf nun auch nicht die ganze Zeit in Schweisz gebadet.
Innerhalb des Gueltigkeitsbereichs des Artikels tut das (und was ich im Folgenden anbringen werde) nix zur Sache. Dies deswegen, weil der Artikel im Wesentlichen nur thermodynamische Abschaetzungen macht um zu sehen, was fuer generelle physikalische Eigenschaften eine kuenstliche Intelligenz haben muss, um es mit dem menschlichen Gehirn aufzunehmen. Da reicht es, wenn die Genauigkeit innerhalb von ein paar Grøszenordnungen liegt und 100 Grad Celsius liegt in dem Zusammenhang ungefaehr in der richtigen Grøszenordnung der Kørpertemperatur.

Zum Glueck habe ich ja mein Studienziel erreicht … und kann das was mich stutzig macht mal selber nachrechnen.

Zunaechst war da die Frage wieviel Energie das Gehirn „verbraucht“. „Verbraucht“ deswegen, weil im Wesentlichen alle Energie die reingeht in Waerme umgewandelt wird und somit nicht weiter „brauchbar“ ist. Der Konsenz scheint 20 Watt zu sein und ich konnte auf die Schnelle keine modernen Quellen dazu finden. Das hier sind zwar zwei neuere Artikel, aber die zitieren Beide die selbe Quelle (ein Buch) von 1960! Der zweite Artikel sagt zwischen 17 und 20 Watt.
Scientific American macht eine Ueberschlagsrechnung und kommt auf ca. 13 Watt wenn man ruht und dieser Artikel sagt 15 Watt, gibt aber keine Quelle an (die ich schnell kontrollieren kønnte).
Ich rechne erstmal mit 20 Watt weiter, denn wenn das seit 60 Jahren nicht korrigiert wurde, dann gehe ich davon aus, dass da was dran ist.

Als naechstes stellte sich die Frage wie grosz das Gehirn ist. Nun ja, eigentlich bin ich an der Oberflaeche interessiert, dazu konnte ich aber nix finden. Deswegen modelliere ich das Gehirn als eine Kugel und rechne rueckwaerts vom Volumen, denn das Volumen ist gut bekannt.
Dieser Artikel rekonstruiert das Gehirnvolumen der Hominiden (heutzutage nicht zu verwechseln mit den Hominoidea) ueber die letzten paar Millionen Jahre. Figur #1 ist das was mich interessiert und wenn ich den Logarithmus zurueckrechne, komme ich auf ein Volumen von ca. 1450 cm3 … was ungefaehr mit Wikipedias 1400 cm3 uebereinstimmt (deren Quelle aber nicht mehr verfuegbar ist *seufz*). Ich rechne mit dem Wikipediawert weiter, weil ich den ersten Wert nur so Pi mal Daumen von der logarithmischen Skala der Abbildung abgelesen habe … ich wollte aber eine ordentliche Quelle fuer den Wert haben.

Eine Abschweifung: dieser Artikel macht auf eine bemerkenswerte Reduktion der Gehirngrøsze in den letzten dreitausend Jahren aufmerksam:

[…] human brain size reduction […], occurring in the last 3,000 years. […] We suggest […] that the recent decrease in brain size may […] result from the externalization of knowledge and advantages of group-level decision-making due in part to the advent of social systems of distributed cognition and the storage and sharing of information. Humans live in social groups in which multiple brains contribute to the emergence of collective intelligence.

Das ist erstmal sinnvoll, aber mglw. wird da „das Pferd von hinten aufgezogen“. Dafuer muss ich aber noch ein bisschen mehr ausholen.
Vor ein paar Jahren las ich mal irgendwo (die Quelle muss ich leider schuldig bleiben), dass die letzten zwei Mutation die sich im menschlichen Genom durchgesetzt haben vor ca. 20-tausend und ca. 7-tausend Jahren stattfanden … Mist … die genauen Zahlen habe ich nicht mehr im Kopf, das lag aber ungefaehr in dem Zeitraum. Die vorletzte Mutation faellt erstaunlich gut mit der neolithischen Revolution zusammen; dem Uebergang zum Ackerbau. Die letzte Mutation faellt ungefaehr in die Zeit als erste Schriftsysteme in den archaeologischen Funden auftauchen. Auszerdem setzen die Autoren der obigen Studie den Anfang des Schrumpfens der Gehirngrøsze in diese Zeit (geologisch gesehen ist das alles gleichzeitig passiert).
Ich denke nun, dass es nicht zu weit hergeholt das Folgende zu vermuten. Gedanken in Schrifzeichen zu fassen erfordert, dass das Gehirn (ganz allgemein gesagt) abstrahieren kann. Dafuer benøtigt es aber mglw. modifizierte Strukturen im Gehirn, welche nur durch eine Mutation entstanden sein kønnen. Wenn ein Individuum besser abstrahieren kann, so gibt das sicherlich genuegend Vorteile im Leben, sodass die Mutation nicht gleich wieder ausstirbt und sich sogar durchsetzen kann ueber viele Generationen. Neue Strukturen im Gehirn kønnen dann aber auch Nebeneffekte haben, die andere Prozesse effizienter machen. Deswegen brauchen diese Prozesse weniger Platz, das Gehirn braucht damit weniger Energie und das ist wiederum gut fuer das Individuum und wir sehen schrumpfende Schaedel in den archaeologischen Funden der letzten 3000 Jahre. Ein Teil der Abstraktion ist die Auslagerung und Komprimierung von Wissen a.k.a. Bildung/Schule, was ja die Autoren sagen.

Eine solche Mutation kønnte eine veraenderte Faltung der Groszhirnrinde zur Folge gehabt haben. Eine (veraenderte) Faltung erlaubt kuerzere Wege (und damit Kommunikation) zwischen den Neuronen. Soweit ich weisz, erlaubt eine Faltung ueberhaupt erst komplexe Gehirnaktivitaet, weil man dafuer viele Neuronen braucht, diese bei glatten Gehirnen aber zu lange Kommunikationswege haetten. Bei einer gefalteten Oberflaeche kann man aber „schnell und einfach“ eine (kurze) Verbindung zur anderen Seite der Faltung aufbauen.
Das passt gut ins Bild des allgemeinen Wissens, dass bestimmte Bereiche der Groszhirnrinde fuer spezifische Aufgaben verantwortlich sind. Das sind dann die Teile, die in praktischer Kommunikationsdistanz liegen.
Und worauf ich hinaus will ist, dass eine subtile Veraenderung der Faltung durch eine Mutation mglw. ziemlich grosze Unterschiede im Abstraktionsvermøgen zur Folge haben kønnte. Das kønnen wir aber nicht mehr nachverfolgen weil Gehirne verrotten und nur der leere Aufbewahrungsort des Gehirns zurueck bleibt.

Das war eine etwas ausfuehrlichere Abschweifung und hatte nur bedingt mit dem eigentlich Thema zu tun.

Bei einem Volumen meiner vereinfachten Gehirnkugel von 1400 cm3 ergibt das einen Radius von ca. 7 cm … was gut mit dem Radius meines eigenen Kopfes uebereinstimmt. Daraus folgt eine Oberflaeche A von ca. 0.06 m2 und bei einer angenommenen Leistung P von 20 Watt fuehrt dies zu einer Leistungsdichte von ca. 300 Watt pro Quadratmeter. Nun kønnen wir das Stefan-Boltzmann Gesetz

… benutzen um auszurechnen, welche Temperatur T ein schwarzer Kugelkørper haben muesste, der diese Leistung in Waerme umwandelt und diese dann abstrahlt (!).

Ich komme auf ca. 276 Kelvin … oder drei Grad Celsius … … … wait! … … … what? … … … Ich dachte ich bin viel zu warm und muss schwitzen um diese ganze Waerme besser als durch Waermestrahlung los zu werden!

Nun kønnte ich argumentieren, dass mein Gehirnkugel nicht schwarz ist, sondern aus grauen Zellen besteht … sorry, konnte nicht widerstehen. Dies wuerde zu einem (vereinfacht gesagt) konstanten Faktor kleiner als eins auf der rechten Seite der obigen Gleichung fuehren und bei gleicher Leistung eine høhere Temperatur zur Folge haben. Dies spielt ganz sicher eine Rolle, ich kann das hier aber nicht quantifizieren.
Deswegen gebe ich die folgende Argumentation: das Gehirn steht nicht frei in der Luft sondern ungefaehr ein Viertel der Oberflaeche ist durch das Gesicht versperrt. Das Gesicht (und was dahinter, aber vor dem Gehirn liegt) ist sicherlich ein guter Waermeisolator. Verringere ich nun die Oberflaeche um ein Viertel, komme ich bei gleicher Leistung auf eine Temperatur von ca. 296 Kelvin oder ca. 23 Grad Celsius. Das ist zwar noch immer nicht Kørpertemperatur, aber bei all den Vereinfachungen nahe genug dran.

Schon toll, was man alles rausfinden kann, wenn man einer Sache hinterherforscht, die einen stutzig macht … auszerdem macht das auch grosze Freude :)

… von Alejandro Jodorowsky (ja, genau der mit der beruehmten, nie realisierten Dune-Verfilmung, welche trotz Nicht-Realisierung so viele andere wichtige Werke der Filmkunst beeinflusst und sogar einen eigenen Dokumentarfilm bekommen hat)  und Mœbius (ja genau der, von dem ich an anderer Stelle bereits ein Werk vorstellte und dort erzaehlte, wie sehr dieses die Grundlage fuer etliche Sachen in kulturell wichtigen Werken ist) … … … und nun habe ich mich verzettelt …

Jedenfalls haben Jodorowsky und Mœbius fast ein Jahrzehnt lang zusammen an dem hier in einem Band zusammengefassten Comic

… gearbeitet.

Und wie schon The Long Tomorrow ist auch The Incal eines dieser mystischen Werke, von denen man im Umfeld modernerer Science-Fiction- (seeeeeeehr weit gefasst) und Technik-kultur immer wieder liest und hørt und wie sehr es die Kulturschaffenden beeinflusst hat.

Ich habe es nur nie gekauft, bis ich darueber in einem Comicladen in Uppsala stolperte … und ich muss sagen … øhm … æhm … åhm … also ich sehe definitiv, warum es so einflussreich war und es ist auch richtig gut … aber der Stil ist nicht so ganz mein Geschmack. Das kann weder am Thema, noch an den Zeichnungen liegen … beides ist voll mein Geschmack, siehe meine Begeisterung fuer The Long Tomorrow und im Allgemeinen. Die Erzaehlung ist mitnichten langweilig und auch nicht langatmig … eher im Gegenteil ist es sehr dynamisch, insb. im Kontext der Zeit der Entstehung gesehen … was sicherlich auch ein Grund fuer den groszen Einfluss war. Es kann auch nicht daran liegen, dass es ein „belgisch/franzøsisches“ Comic ist (was immer das auch heiszen mag), denn Unter Knochen ist das auch und das hat mir voll „gelegen“ und die Abenteuer von Hellboy sind auch wenig „westlich“.

Ich habe das Gefuehl, dass ich mit „Stil“ meine, wie die Geschichte „aufgezogen“ ist (was immer das auch heiszen mag) ist und dass seit den 80’er Jahren so viel Zeit vergangen ist und die 9. Kunst sich weiterentwickelt hat. Das ist so ein bisschen wie mein Empfinden wenn ich Manga lese, nur laengst nicht so stark, weil dieses ja doch innerhalb der westlicen Comickultur entstanden ist.

Was ich schreibe ist auch nicht falsch zu verstehen. Ich werde das Comic sicherlich irgendwann nochmal lesen, das fetzt naemlich so sehr. Und ich habe auch vor, mir den Nachfolgeband zu kaufen. Und natuerlich ist’s allein deswegen schon wichtig weil es ein kulturell so bedeutendes und einflussreiches Werk war und ist … aber ich fange an mich zu wiederholen.

Lange Rede kurzer Sinn: ich gehe ins Museum und schaue mir „alte Meister“ (und auch neue) an. Auch dies liegt mir nicht unbedingt, dennoch geniesze ich die „Grøsze“ und Bedeutsamkeit dieser Werke. The Incal gehørt in die Selbe (!) Kategorie und sollte allein deswegen schon mal gelesen werden, auch wenn es einem nicht unbedingt so 100 % liegt.

Die lange Vorrede habe ich beim letzten Mal getaetigt. Deswegen geht’s sofort los. Kurz zur Erinnerung: meine Hypothese ist, dass die Linknetzwerke (fast) aller Wikipediaseiten bei den Saisons des São Paulo FC enden. Ganz direkt geht es heute um das Folgende: Ich nehme an, dass (fast) alle Wikipediaseiten bei der 1930 Saison des São Paulo FC enden. Dann sollten die besetzten Zustaende auf den letzten Linkleveln genau der Anzahl der totalen Links dieser Seite, und der Seiten der direkt davor (bzw. zeitlich direkt dahinter) liegenden Saisons, entsprechen.

Das ist tatsaechlich das was ich sehe:

Cool wa? Aber was sehe ich hier eigentlich? Das Diagramm ist von rechts nach links zu lesen um es dann von links nach rechts zu interpretieren. Ich gehe weiter unten naeher darauf ein. Zunaechst sei so viel gesagt. Die schwarzen Punkte sind die besetzten Zustaende bei den entsprechenden Linkleveln. Die roten Punkte entsprechen der Anzahl der totalen Links einer Wikipediaseite der Saison eines gegebenen Jahres. Jede horizontale Reihe roter (!) Punkte kommt durch die totalen Links der Saison eines Jahres (manchmal mehrerer) zustande. Die entsprechenden Jahre sind gekennzeichnet, wenn sie (rueckwaerts gesehen) das erste Mal auftauchen.
Die besetzten Zustaende kann ich direkt aus den individuellen Verteilungen ablesen. Dass diese mit den roten Punkten, also der Anzahl der totalen Links der entsprechenden Seiten zum Ende der Kette der Saisons des São Paulo FC, uebereinstimmen ist ein starkes Indiz dafuer, dass meine Hypothese richtig ist.
Wenn es (scheinbar) zu keiner Aenderung im Diagramm von einem Linklevel zum vorherigen/naechsten gibt, dann liegt das daran, dass zwei hintereinander liegende Saisons die selbe Anzahl an totalen Links haben. Dann kommt natuerlich kein weiterer Punkt dazu, weil dies ein und demselben Zustand entspricht. Beispiele sind 1933 und 1934 oder 1936 und 1942.

Nun naeher dazu wie das Diagramm zu lesen (und dann zu interpretieren) ist, mit Hinblick auf obige Hypothese. Zur besseren Veranschaulichung nehme man dieses Diagramm in dem ich die roten Punkte wieder weglasse, weil die ja identisch sind mit den schwarzen Punkten (den Pfeilen ist beim Lesen rueckwaerts zu folgen und beim interpretieren vorwaerts):

Auf LL72 sind nur zwei Zustaende besetzt — Zustand Null und Zustand 27. Letzteres bedeutet, dass die Seiten die in diesem Zustand sind, total 27 Links haben. Zustand Null wird heute nicht beachtet, denn dieser entspricht den ausgestiegenen Seiten.
Aus der Betrachtung der Aussteiger wissen wir, dass es nur (!) eine Gruppe mit drei Seiten gibt, die erst bei LL73 aussteigt und somit als einzige ein Signal auf LL72 geben kann. Ich gebe dieser Gruppe den Namen Alpha und entsprechend der Hypothese muss Gruppe Alpha sich im Jahre 1930 befinden. Das Jahr 1930 hat tatsaechlich 27 Links in meinen Daten.

Wir gehen rueckwaerts und auf LL71 sind drei Zustaende besetzt, wobei Zustand Null wieder unberuecksichtigt bleibt. Somit bleiben als besetzte Zustaende nur Zustand 27 und Zustand 30. Einer dieser Zustaende muss von Gruppe Alpha kommen. Diesmal aber aus dem Jahre 1931, welches tatsaechlich 30 totale Links in meinen Daten hat. Der andere Zustand wird durch Gruppe Beta besetzt, welche auf LL71 zum letzten Mal zum Gesamtsignal beitraegt. Entsprechend der Hypothese sollte Gruppe Beta sich auf LL71 im Jahre 1930 (und somit Zustand 27) befinden. Das ist genau das, was in den Daten zu sehen ist.

Wir gehen noch ein Linklevel rueckwarts zu LL70 und die dort besetzten Zustaende sind 27, 30 und 22. Weil wir rueckwaerts gehen wird Gruppe Gamma „wiedererweckt“ und befindet sich im Jahre 1930. Gruppe Beta ist hier nun im Jahre 1931 und Gruppe Alpha im Jahre 1932 (mit 22 totalen Links).

Der naechste Schritt rueckwaerts folgt dem gleichen Schema. Spaetere Gruppen besetzen Zustaende die (rueckwaerts gesehen!) durch Gruppe Alpha eingefuehrt wurden und Gruppe Alpha selber fuehrt via des Jahres 1933 den Zustand 26 ein.
Nun wird’s aber ein ganz klein bisschen komplizierter. Wenn Gruppe Alpha beim naechsten Rueckwaertsschritt ins Jahr 1934 springt, dann bleibt es im Zustand 26, weil dieses Jahr genausoviele totale Links hat wie 1933. Gleichzeitig besetzt nun aber auch Gruppe Beta Zustand 26 (via des Jahres 1933).
Noch einen Schritt rueckwaerts verlaeszt Gruppe Alpha Zustand 26 wieder (und geht ueber zu Zustand 24), Gruppe Beta bleibt in Zustand 26 (aber nun im Jahr 1934) und hinzu kommt in den selben Zustand Gruppe Gamma (via des Jahres 1933).

All das was ich hier niederschrieb ist im rechten Teil des obigen Diagramms entsprechend markiert.
So geht das dann weiter so weit das Diagramm reicht. Dass bei frueheren Linkleveln immer noch Signal aus Zustand 27 kommt liegt natuerlich daran, dass weitere Gruppen „wiedererweckt“ werden und die genannten Zustaende dann weiterhin besetzen.

Zu interpretieren ist das dann in der richtigen Reihenfolge, wobei „richtig“ in diesem Falle aufsteigende Linklevel meint.
Bei LL59 sind (in dieser Reihefolge) die Zustaende 27, 30, 22, 26, 26, 24, 31, 40, 34, 34, 34, 38, 31, und 37 (man beachte die Mehrfachnennungen gewisser Zustaende!) durch die Gruppen Xi, Nu, Mu, Lambda, Kappa, Iota, Theta, Eta, Zeta, Epsilon, Delta, Gamma, Beta, und Alpha besetzt, welche sich jeweils in den Jahren 1930, 1931, 1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, 1942 und 1943 befinden. … … … Ich gebe zu, dass ich das nur so weit getrieben habe, weil ich schon immer mal das Symbol fuer Xi benutzen wollte … tihihi.
Beim Schritt zu LL60 bewegen sich alle Gruppen ein Jahr rueckwaerts und in die entsprechenden Zustaende; Gruppe Alpha zu Zustand 31, Gruppe Beta zu Zustand 38, Gruppe Gamma zu Zustand 34 usw. Gruppe Xi steigt aus.
Dito beim Schritt zu LL61; Gruppe Alpha zu Zustand 38, Gruppe Beta zu Zustand 34, Gruppe Gamma (ebenso) zu Zustand 34 usw. Gruppe Nu steigt aus.
Das Beschriebene ist entsprechend im linken Teil des obigen Diagramms markiert und die geneigte Leserin oder der geneigte Leser møge den blauen Pfeilen im Diagramm (und somit Gruppe Alpha) folgen um mittels dieser Argumentation bis zum Ende zu gelangen.

Zum Abschluss sei dies gesagt: die Anzahl der totalen Links der Saisons des São Paulo FC stimmt (zum Ende des Linknetzwerkes) auf so vielen Linkleveln mit den besetzten Zustaenden ueberein, dass dies ein extrem starkes Indiz fuer die Richtigkeit der Hypothese ist.
ABER, dadurch dass ich nicht im Einzelnen nachvollziehen kann, welche Seite auf welchem Linklevel zitiert werden, kønnte es immer noch sein, dass das einfach nur Zufall ist. Oder anders: es ist møglich dass die drei Wikipediaseiten von Gruppe Alpha am Ende alle in drei verschiedenen Seiten sind, die zufaelligerweise alle 27 Links haben. Ich gebe zu, dass das aber schon ungeheure Zufaelle sein muessten, wenn das bei so vielen Linkleveln komplett uebereinstimmen soll. Die Chance dafuer ist also sehr klein, aber nicht null.

Heute habe ich mir nur die Position der besetzten Zustaende angeschaut, aber nicht wie „voll“ diese sind. Diese Information und wie sich der „Fuellstand“ „zeitlich“ entwickelt werde ich beim naechsten Mal untersuchen — Spoiler: was ich dort sehe bringt die Sicherheit fuer die Richtigkeit der Hyptohese so nahe an 100 %, dass die verbleibende potentielle Møglichkeit der Unsicherheit nicht mal mehr als „Rundungsfehler“ gelten kønnte.
Dafuer muss ich eine coole Achsentransformation durchfuehren … und um all das zu erklaeren brauche ich ein paar Wørter, aber dieser Beitrag hier ist schon so lang.

Nun habe ich all das untersucht und so viel dazu geschrieben und dann steht da pløtzlich „Dekonstruktion“ im Titel … *seufz* … … … Aber der Reihe nach.

Zunaechst ist zu sagen, dass alles was ich schrieb und beobachtete tatsaechlich in den Daten vorkommt. Das ist also in dem Sinne „die Wahrheit“, dass das nicht durch Schummeln herauskommt. Waere ja auch wenig sinnvoll von mir, soviel Zeit in eine Sache zu stecken nur um irgendwen zu beeindrucken … zumal ich nicht wirklich denke, dass das hier wer liest … naja, vllt. der kleine Mann *wink*.

Aber dann ist mir aufgefallen, dass der Anfang des Phaenomens welches ich hier als die „2. Phase“ (oder „feste Phase“) bezeichne, verdaechtig mit dem Beginn der fruehen „Ausstiege“ zusammenfaellt.
Zu Letzteren schrieb ich,

[…] dass jede einzelne dieser Seiten vom Typ XXXX São Paulo FC season war, wobei das XXXX fuer ein Jahr steht. Beispielsweise 1944 São Paulo FC season oder 1980 São Paulo FC season oder 1994 São Paulo FC season usw. usf.

Genauer gesagt gehen die Jahre von 1930 bis 1994 und die Links bilden eine schøne Kette. Das heiszt, dass ein gegebenes Jahr viele Links hat, aber fast alle von diesen wurden beim Durchlaufen des Linknetzwerk bereits besucht; diese sind also KEINE validen Ausgaenge. Uebrig bleiben nur zwei potentielle Ausgaenge: die Links zu den Saisons des vorigen und des naechsten Jahres. Nun muss man aber irgendwo in die Kette einsteigen muss und sich dann die Jahre entweder vorwaerts oder rueckwaerts entlanghangeln. Deswegen wirkt einer dieser zwei Links als „Eingang“ und somit bleibt nur der andere Link als Ausgang.
Die Situation sieht also theoretisch so aus: … <=> 1977 <=> 1978 <=> 1979 <=> 1980 <=> 1981 <=> 1982 <=> 1983 <=> 1984 <=> …

Auch wenn es eines der Resultate vorweg nimmt, so sei hier gesagt, dass die (hier relevanten Teile dieser) Kette immer in die gleiche Richtung, naemlich rueckwaerts gehen. Das wuerde bedeuten, dass die Linknetzwerke aller Wikipediaseiten bei der Saison des São Paulo FC des Jahres 1930 enden.

Ich erwaehnte ebenso bereits, dass dies wenn dann ein Artefakt der Behandlung der Daten waere, weil diese validen Links aus der Infobox stammen und ich Daten daraus eigentlich nicht beruecksichtigen wollte. Aber in diesen Faellen ist besagte Infobox derart im Quelltext kodiert, dass sie nicht rausgefiltert wurde … *seufz*.

Dies als Vorrede um das vermutete Problem etwas naeher zu beleuchten. Weil es so wichtig ist bzgl. dessen was ich in den vorherigen Beitraegen beschrieb, untersuchte ich genau dieses Problem genauer.
Ich kann leider keine _direkten_ Beweise dafuer anfuehren. Dafuer haette ich fuer jede Seite auf jedem Linklevel registrieren muessen, welche Seiten verlinkt werden. Das waere eine dreidimensionale Matrix mit ca. 6 Millionen Wikipediaseiten mal 6 Millionen Wikipediaseiten mal 100 Linklevel = 3.6 mal 1015 Eintraege. Beim Durchlaufen des Linknetzwerks wusste ich noch nicht wo das maximale Linklevel liegt, deswegen hier die 100. Sechs Billiarden ganze Zahlen wuerden selbst in C und mit dem „char-Trick“ mindestens 3.6 PetaBytes (!) belegen … so viel Platz habe ich nicht. Und selbst wenn ich so viel Speicher haette, wuerde ich dann vor dem naechsten Problem stehen, dass das pro Wikipediaseite Hunderte von Millionen Schreibvorgaenge waeren. Prinzipiell passt dies fuer eine Seite alles in den RAM und das waere relativ schnell. Aber ich habe sechs Millionen Seiten und alles was im RAM ist, muss nach der Analyse des Linknetzwerkes permanent gespeichert werden. Letzteres ist URST lahm und damit waere das dann wieder nicht møglich gewesen.
Aber ich gebe zu, dass ich mit der Idee spielte.

Ein Kompromiss ist, was ich hier beschrieb. Aber soweit bin ich noch nicht in meiner Analyse.

Deswegen bringe ich in den naechsten zwei Artikeln dieser Reihe starke, wenn auch indirekte, Beweise, dass obige Hypothese — dass (fast) alle Linknetzwerke auf dieser Seite enden — richtig ist.

Das ist zwar etwas komplizierter, beleuchtet aber mehrere Aspekte ganz gut, bzgl. dessen wie ein Data Scientist arbeiten sollte. Und weil dies ja auch ein Grund fuer diese Serie ist, werde ich das dann doch alles darlegen … davon abgesehen, dass ich das durchaus spannend fand :) .

Wenn das Thema der Einsatz von Atombomben gegen Hiroshima oder Nagasaki ist, so wird meistens nur ein relativ kurzer Zeitraum rund um diese schrecklichen Tage betrachtet. Ein paar Tage davor oder danach.
Auch Keiji Nakazawa erzaehlt nur davon. Zumindest in den vier auf dtsch. erschienenen Baenden.

Waehrend diese Herangehensweise sicherlich den wichtigsten Eindruck von den konkreten Ereignissen gibt, so ist dies doch nicht die ganze Geschichte. Die Ueberlebenden hatten naemlich danach jahrelang nicht nur an den direkten gesundheitlichen Folgen zu leiden. Vielmehr hatten diese auch konkrete Auswirkungen auf den Alltag, der einfach nicht mehr møglich war wie vor den Bomben. Hinzu kam das soziale Stigma, dem die Ueberlebenden ausgesetzt waren. Insbesondere ueber Letzteres ist wenig in der allgemeinen Øffentlichkeit bekannt.

John Hersey schrieb fuer The New YorkerHiroshima: The Aftermath“ (Ausgabe vom 1985-07-15). Darin beschaeftigt er sich mit dem weiteren Lebensweg der Personen, ueber die sein urspruenglicher Artikel handelte. Wie bisher mag ich auch dazu nicht viel mehr sagen, weil meine Worte inadaequat waeren um dies zusammen zu fassen. Das sollte jeder selber lesen. Aber wenigstens habe ich mal drauf hingewiesen.