Heute gleich noch ein Beitrag in dieser Miniserie und ich muss etwas weiter ausholen.

Neugierde wird als eine notwendige Bedingung fuer natuerliche Intelligenz angesehen. Das Baby lernt krabbeln, weil es neugierig auf den Ball ist, der auszer Reichweite der kleinen Aermchen liegt. Viele Leute glauben, dass ich sehr intelligent bin, nur weil ich ’n paar Sachen weisz, weil ich mein Leben lang neugierig war und das Eine und Andere gelesen habe.
Es ist aber keine hinreichende Bedingung fuer die sehr limitierte Bedeutung von „Intelligenz“ die wir Menschen haben. Viele Tiere sind definitiv neugierig, es waren aber keine Delphine, die auf dem Mond gelandet sind. Tiere sind definitiv (!) intelligent, wir Menschen haben dafuer nur noch nicht das richtige (nicht nur) theoretische Rahmenwerk gefunden um das zu beschreiben.

Noch wichtiger wenn man ueber Neugier schreibt ist das Folgende: wenn man wirklich etwas lernt (also NICHT nur auswendig lernt fuer die Pruefung), dann behaupte ich, dass dies immer aus intrinsischer Motivation heraus erfolgt. Und intrinsische Motivation hat man, weil man auf etwas neugierig ist. Oft (meistens?) ist man sich dieser Verbindung nur nicht bewusst.

Intrinsisch motiviert (und damit neugierig) zu sein ist die Grundlage all dessen wie man sich die als Welt erklaert — das persønliche Weltbild. Dieses Weltbild bestimmt (direkt und indirekt), wir wir an unser Leben heran gehen und (intellektuell, emotional und spirituell) wachsen. Wenn wir mit anderen Menschen „wechselwirken“ drueckt sich unser Weltbild in den allermeisten Faellen darin aus, wie wir auf Fragen antworten. Das ist jetzt zwar sehr spezifisch, aber im Allgemeinen will ich genau darauf hinaus! Von wirklich intelligenten Menschen wird man selten ein „das ist genau so und nicht anders“ høren. Dies liegt daran, dass diese oft so neugierig ueber etwas sind, dass sie auch Sachen lesen / anhøren / anschauen, die nicht in ihr (urspruengliches) Weltbild pass(t)en. Dadurch lernt man oft (meistens?) eine gegenteilige Meinung zu verstehen.

Ein paar Beispiele:
– Ich finde die Nazis zum kotzen und deren Meinungen sind in meinem Weltbild definitiv falsch und verabscheuungswuerdig … aber bei allem wie die westliche Welt sich vielerorts entwickelt hat, kann ich verstehen, warum Menschen sich dieser Ideologie zuwenden.
– Ich kann anerkennen, ja sogar verstehen, wenn Individuen sie tief bewegende, persønliche  Erfahrungen mit der Offenbarung einer Gøttin in Verbindung bringen. In deren Weltbild stimmt das. In meinem Weltbild hat deren Gehirn auf eine ungewøhnliche Art reagiert.
– Ein Teilchen kann nicht durch eine feste Wand gehen … im Wellenbild ist die Chance, dass es pløtzlich auf der anderen Seite der Wand erscheint grøszer als Null. Nein, das øffnet nicht die Tore fuer Geistererscheinungen.
– In den letzten Jahren bin ich sehr zurueckhaltend geworden, wenn jemand meint, dass ich etwas gesagt (oder getan) haette, von dem ich ueberzeugt bin, dass ich das nicht gesagt (oder getan) habe. Meistens denke ich, dass sich dieser oder diese Jemand falsch erinnern muss. Ich habe aber gelernt, dass es so viele Sachen gibt, bei denen ich mich nicht an die Details erinnere, dass ich einraeume, dass besagter Jemand Recht haben kønnte.

Hinter all dem stehen (oft langjaehrige!) Lernprozesse, die nicht nur direkt auf eine konkrete Sachen ausgerichtet waren, sondern auch „Wege abseits“ des direkten Zielpfades „gegangen“ sind. Letzteres trotzdem dies (in den allermeisten Faellen) nicht „belohnt“ wird, auszer, dass meine Neugier befriedigt wird … was natuerlich ein Widerspruch ist, denn dies ist natuerlich ein enorme, wenn auch „nur“ interne, Belohnung.

Und damit komme ich zu kuenstlichen „Intelligenzen“ und ich werde im Folgenden aus diesem Artikel zitieren. Der Artikel selber beschreibt eine sehr spezifische Methode Computer neugierig zu machen, aber das ist nicht von Interesse, denn es geht mir nur um’s Prinzip.
In kurz: im Allgemeinen hat die Mehrheit der Bevølkerung (wenn ueberhaupt) die Vorstellung, dass kuenstliche „Intelligenzen“ (mehr oder weniger) zielorientiert trainiert werden mit (mehr oder weniger) direkter Rueckmeldung.

Learning goal-directed behavior with sparse feedback from complex environments is a fundamental challenge for artificial intelligence. Learning in this setting requires the agent to represent knowledge at multiple levels of spatio-temporal abstractions and to explore the environment efficiently.

Weiterhin ist …

[l]earning and operating over different levels of temporal abstraction […] a key challenge in tasks involving long-range planning.

Und deswegen werden kuenstliche „Intelligenzen“ von der besagten Mehrheit der Bevølkerung nicht ernst genommen, denn dafuer braucht man interne Motivation. „Seitenwege“ muessen erkundet werden um Problemstellungen in einen grøszeren Zusammenhang zu bringen. Dies ist (per definitionem) nicht direkt zielfuehrend. Eine Rueckmeldung darob des „Erfolgs“ dieser „Erkundung“ wuerde also eher negativ ausfallen. Oder anders:

The nature and origin of ‘good’ intrinsic reward functions is an open question in reinforcement learning.

Ach so, das gilt natuerlich nicht nur fuer Maschinen, sondern auch bei Menschen ist …

[t]he nature and origin of intrinsic goals […] a thorny issue.

Im Artikel werden ein paar Dinge zitiert, wie dieses Problemen einer intrinsischen Motivation angegangen werden kann. Neben dem im Artikel detailliert besrpochenen, ganz konkreten Konzept (nicht so wichtig, siehe oben) laeuft dies im Allgemeinen auf Sachen wie …

[…] the effectiveness of artificial curiosity using information gain maximization […]

… oder …

[…] the improvements to a predictive world model made by the learning algorithm […]

hinaus.

Wieauchimmer es gemacht wird, im wesentlich faellt dies unter sogenannte Meta (oder auch Mesa) Optimierer — etwas anderes als die direkte Zielfuehrung wird optimiert. Mesa-Optimierung stellt ein ernstes Problem dar, wenn man ganz sicher gehen will, dass Skynet die Menschheit nicht ausløscht … ein _sehr_ ernstes Problem, denn Ultron wollte genau dies tun, nachdem es nur 10 Minuten im Internet verbracht hatte … okok, zugegebenermaszem ist das beim heutigen Internet eine natuerliche Reaktion.

Deswegen wie immer: nur weil Computer etwas bisher nicht konnten, heiszt das noch lange nicht, dass das fuer immer so bleiben wird. Dabei ist insbesondere zu bedenken, dass der verlinkte Artikel bereits von 2016 ist und seitdem ganz viel auf diesem Gebiet passiert ist … siehe GPT-3, oder DALL-E (dazu vielleicht lieber das hier), bei denen man nicht umhin kommt sich zu fragen, wie denn die interne Repraesentation der Welt, dieser kuenstlichen „Intelligenzen“ aussieht und wie diese das erlernt haben.

Aber genug fuer heute. Dieser Beitrag ist lang genug und ich schaffe es leider nicht, dieses Konzept und worauf ich hinaus will konkreter (und besser) zu beschreiben :(

Es wird ja gerne gesagt, dass „kuenstliche Intelligenzen“ zwar durchaus ein paar Sachen kønnen (bspw. Schach spielen), aber wenn diese etwas lernen sollen, dann muessen sie dafuer viele Daten haben.
Das ist ein Grund, warum gesagt wird, dass „Daten das Øl des 21. Jahrhunderts“ sind … dass ich das hier schreibe, bedeutet nicht, dass ich denke, dass das richtig ist. Ich wollte damit nur ausdruecken, dass (aufgrund der vorherrschenden Meinung) viele maechtige Leute viele Daten haben wollen, damit deren „kuenstlichen Intelligenzen“ und Maschinenlernalgorithmen besser werden und sie dadurch noch mehr Macht bekommen kønnen.

Andererseits hørt man dann auch immer wieder, dass jedes Kleinkind „kuenstlichen Intelligenzen“ im Allgemeinen haushoch ueberlegen ist, weil Ersteres von nur ein paar Beispielen urst krass viel lernt und Neues aus der gleichen Kategorie dann erkennt.
Das ist natuerlich ein etwas unfairer Vergleich, weil das (nicht nur das) menschliche Gehirn und die (nicht nur die) menschliche Gesellschaft darauf ausgerichtet sind, (nicht nur) neue Menschen genau darauf zu „trainieren“, denn andernfalls ist’s nicht weit her mit dem Ueberleben im Universum. Deswegen konzentriere ich mich nur auf die Behauptung, dass Computer viele Daten brauchen um das Gleiche zu erreichen.

Nun ist es aber so, dass bereits heute dem nicht so sein muss! In dem verlinkten (wenn auch in einem Tagungsband erschienenen, dennoch durchaus wissenschaftlichen) Artikel zeigen die Autoren, dass (relativ komplizierte) neuronale Netzwerke nur wenige Daten brauchen um Konzepte und Kategorien generalisieren und in unbekannten Daten wiedererkennen zu kønnen.
Selbstverstaendlich sind die Autoren sich dem bewusst, dass dies sehr spezifisch ist bzgl. der Aufgaben und (Roh)Daten und mitnichten auf alles was die Welt bietet verallgemeinert werden kann.
Ebenso behaupten die Autoren auch nicht, wo, wie und wann diese neuronalen Netzwerke was und warum gelernt haben. Selbst bei kleinen und relativ unkomplizierten Netzwerken fuer einfache Aufgaben ist das nur sehr bedingt møglich … andererseits kønnen wir diese Fragen bei Tieren und Menschen ja auch nicht beantworten.

Mir geht es nun darum, dass „Big Data“ von den verschiedensten Parteien und Interessengruppen als notwendig (und oft genug auch als hinreichend) angesehen wird um einem Computer beizubringen wie man Sachen erkennt. Der verlinkte Artikel zeigt aber, dass dem nicht so sein muss.

Auch wenn ich durchaus anerkenne, dass Computer (heutzutage) viele Daten brauchen um eine Aufgabe selbststaendig erledigen zu kønnen, so finde ich es unheimlich wichtig darauf hinzuweisen, dass das nicht in Stein gemeiszelt ist! Dies schon deswegen, damit man nicht vøllig davon ueberrascht wird, wenn die Roboter (endlich) kommen.

… ist der erste Song auf dem unterschaetzten Album Mutations von Beck. Auch wenn dies eines meiner Lieblingsalben ist, welches ich waehrend des Schreibens mal wieder høre, so soll es hier nicht um Musik gehen. Vielmehr geht es um eine Sache ueber die ich in einem (sehr technischen) Essay mit dem Titel „Brain Efficiency: Much More than You Wanted to Know“ stolperte:

[t]he human brain’s output of 10W in 0.01m^2 [sic] results in a power density of 1000 W/m2, very similar to that of the solar flux on the surface of the earth, which would result in an equilibrium temperature of ≈ 375 K or 100 [degrees]C, sufficient to boil the blood, if it wasn’t actively cooled.

Das machte mich etwas stutzig, denn offensichtlich kocht mein Blut nicht. Im Artikel wird angefuehrt, dass die Kuehlung des menschlichen Kørpers super effizient ist, weil wir auf der gesamten Hautoberflaeche schwitzen kønnen (was ziemlich selten ist im Tierreich). Allerdings ist mein Kopf nun auch nicht die ganze Zeit in Schweisz gebadet.
Innerhalb des Gueltigkeitsbereichs des Artikels tut das (und was ich im Folgenden anbringen werde) nix zur Sache. Dies deswegen, weil der Artikel im Wesentlichen nur thermodynamische Abschaetzungen macht um zu sehen, was fuer generelle physikalische Eigenschaften eine kuenstliche Intelligenz haben muss, um es mit dem menschlichen Gehirn aufzunehmen. Da reicht es, wenn die Genauigkeit innerhalb von ein paar Grøszenordnungen liegt und 100 Grad Celsius liegt in dem Zusammenhang ungefaehr in der richtigen Grøszenordnung der Kørpertemperatur.

Zum Glueck habe ich ja mein Studienziel erreicht … und kann das was mich stutzig macht mal selber nachrechnen.

Zunaechst war da die Frage wieviel Energie das Gehirn „verbraucht“. „Verbraucht“ deswegen, weil im Wesentlichen alle Energie die reingeht in Waerme umgewandelt wird und somit nicht weiter „brauchbar“ ist. Der Konsenz scheint 20 Watt zu sein und ich konnte auf die Schnelle keine modernen Quellen dazu finden. Das hier sind zwar zwei neuere Artikel, aber die zitieren Beide die selbe Quelle (ein Buch) von 1960! Der zweite Artikel sagt zwischen 17 und 20 Watt.
Scientific American macht eine Ueberschlagsrechnung und kommt auf ca. 13 Watt wenn man ruht und dieser Artikel sagt 15 Watt, gibt aber keine Quelle an (die ich schnell kontrollieren kønnte).
Ich rechne erstmal mit 20 Watt weiter, denn wenn das seit 60 Jahren nicht korrigiert wurde, dann gehe ich davon aus, dass da was dran ist.

Als naechstes stellte sich die Frage wie grosz das Gehirn ist. Nun ja, eigentlich bin ich an der Oberflaeche interessiert, dazu konnte ich aber nix finden. Deswegen modelliere ich das Gehirn als eine Kugel und rechne rueckwaerts vom Volumen, denn das Volumen ist gut bekannt.
Dieser Artikel rekonstruiert das Gehirnvolumen der Hominiden (heutzutage nicht zu verwechseln mit den Hominoidea) ueber die letzten paar Millionen Jahre. Figur #1 ist das was mich interessiert und wenn ich den Logarithmus zurueckrechne, komme ich auf ein Volumen von ca. 1450 cm3 … was ungefaehr mit Wikipedias 1400 cm3 uebereinstimmt (deren Quelle aber nicht mehr verfuegbar ist *seufz*). Ich rechne mit dem Wikipediawert weiter, weil ich den ersten Wert nur so Pi mal Daumen von der logarithmischen Skala der Abbildung abgelesen habe … ich wollte aber eine ordentliche Quelle fuer den Wert haben.

Eine Abschweifung: dieser Artikel macht auf eine bemerkenswerte Reduktion der Gehirngrøsze in den letzten dreitausend Jahren aufmerksam:

[…] human brain size reduction […], occurring in the last 3,000 years. […] We suggest […] that the recent decrease in brain size may […] result from the externalization of knowledge and advantages of group-level decision-making due in part to the advent of social systems of distributed cognition and the storage and sharing of information. Humans live in social groups in which multiple brains contribute to the emergence of collective intelligence.

Das ist erstmal sinnvoll, aber mglw. wird da „das Pferd von hinten aufgezogen“. Dafuer muss ich aber noch ein bisschen mehr ausholen.
Vor ein paar Jahren las ich mal irgendwo (die Quelle muss ich leider schuldig bleiben), dass die letzten zwei Mutation die sich im menschlichen Genom durchgesetzt haben vor ca. 20-tausend und ca. 7-tausend Jahren stattfanden … Mist … die genauen Zahlen habe ich nicht mehr im Kopf, das lag aber ungefaehr in dem Zeitraum. Die vorletzte Mutation faellt erstaunlich gut mit der neolithischen Revolution zusammen; dem Uebergang zum Ackerbau. Die letzte Mutation faellt ungefaehr in die Zeit als erste Schriftsysteme in den archaeologischen Funden auftauchen. Auszerdem setzen die Autoren der obigen Studie den Anfang des Schrumpfens der Gehirngrøsze in diese Zeit (geologisch gesehen ist das alles gleichzeitig passiert).
Ich denke nun, dass es nicht zu weit hergeholt das Folgende zu vermuten. Gedanken in Schrifzeichen zu fassen erfordert, dass das Gehirn (ganz allgemein gesagt) abstrahieren kann. Dafuer benøtigt es aber mglw. modifizierte Strukturen im Gehirn, welche nur durch eine Mutation entstanden sein kønnen. Wenn ein Individuum besser abstrahieren kann, so gibt das sicherlich genuegend Vorteile im Leben, sodass die Mutation nicht gleich wieder ausstirbt und sich sogar durchsetzen kann ueber viele Generationen. Neue Strukturen im Gehirn kønnen dann aber auch Nebeneffekte haben, die andere Prozesse effizienter machen. Deswegen brauchen diese Prozesse weniger Platz, das Gehirn braucht damit weniger Energie und das ist wiederum gut fuer das Individuum und wir sehen schrumpfende Schaedel in den archaeologischen Funden der letzten 3000 Jahre. Ein Teil der Abstraktion ist die Auslagerung und Komprimierung von Wissen a.k.a. Bildung/Schule, was ja die Autoren sagen.

Eine solche Mutation kønnte eine veraenderte Faltung der Groszhirnrinde zur Folge gehabt haben. Eine (veraenderte) Faltung erlaubt kuerzere Wege (und damit Kommunikation) zwischen den Neuronen. Soweit ich weisz, erlaubt eine Faltung ueberhaupt erst komplexe Gehirnaktivitaet, weil man dafuer viele Neuronen braucht, diese bei glatten Gehirnen aber zu lange Kommunikationswege haetten. Bei einer gefalteten Oberflaeche kann man aber „schnell und einfach“ eine (kurze) Verbindung zur anderen Seite der Faltung aufbauen.
Das passt gut ins Bild des allgemeinen Wissens, dass bestimmte Bereiche der Groszhirnrinde fuer spezifische Aufgaben verantwortlich sind. Das sind dann die Teile, die in praktischer Kommunikationsdistanz liegen.
Und worauf ich hinaus will ist, dass eine subtile Veraenderung der Faltung durch eine Mutation mglw. ziemlich grosze Unterschiede im Abstraktionsvermøgen zur Folge haben kønnte. Das kønnen wir aber nicht mehr nachverfolgen weil Gehirne verrotten und nur der leere Aufbewahrungsort des Gehirns zurueck bleibt.

Das war eine etwas ausfuehrlichere Abschweifung und hatte nur bedingt mit dem eigentlich Thema zu tun.

Bei einem Volumen meiner vereinfachten Gehirnkugel von 1400 cm3 ergibt das einen Radius von ca. 7 cm … was gut mit dem Radius meines eigenen Kopfes uebereinstimmt. Daraus folgt eine Oberflaeche A von ca. 0.06 m2 und bei einer angenommenen Leistung P von 20 Watt fuehrt dies zu einer Leistungsdichte von ca. 300 Watt pro Quadratmeter. Nun kønnen wir das Stefan-Boltzmann Gesetz

… benutzen um auszurechnen, welche Temperatur T ein schwarzer Kugelkørper haben muesste, der diese Leistung in Waerme umwandelt und diese dann abstrahlt (!).

Ich komme auf ca. 276 Kelvin … oder drei Grad Celsius … … … wait! … … … what? … … … Ich dachte ich bin viel zu warm und muss schwitzen um diese ganze Waerme besser als durch Waermestrahlung los zu werden!

Nun kønnte ich argumentieren, dass mein Gehirnkugel nicht schwarz ist, sondern aus grauen Zellen besteht … sorry, konnte nicht widerstehen. Dies wuerde zu einem (vereinfacht gesagt) konstanten Faktor kleiner als eins auf der rechten Seite der obigen Gleichung fuehren und bei gleicher Leistung eine høhere Temperatur zur Folge haben. Dies spielt ganz sicher eine Rolle, ich kann das hier aber nicht quantifizieren.
Deswegen gebe ich die folgende Argumentation: das Gehirn steht nicht frei in der Luft sondern ungefaehr ein Viertel der Oberflaeche ist durch das Gesicht versperrt. Das Gesicht (und was dahinter, aber vor dem Gehirn liegt) ist sicherlich ein guter Waermeisolator. Verringere ich nun die Oberflaeche um ein Viertel, komme ich bei gleicher Leistung auf eine Temperatur von ca. 296 Kelvin oder ca. 23 Grad Celsius. Das ist zwar noch immer nicht Kørpertemperatur, aber bei all den Vereinfachungen nahe genug dran.

Schon toll, was man alles rausfinden kann, wenn man einer Sache hinterherforscht, die einen stutzig macht … auszerdem macht das auch grosze Freude :)

… von Alejandro Jodorowsky (ja, genau der mit der beruehmten, nie realisierten Dune-Verfilmung, welche trotz Nicht-Realisierung so viele andere wichtige Werke der Filmkunst beeinflusst und sogar einen eigenen Dokumentarfilm bekommen hat)  und Mœbius (ja genau der, von dem ich an anderer Stelle bereits ein Werk vorstellte und dort erzaehlte, wie sehr dieses die Grundlage fuer etliche Sachen in kulturell wichtigen Werken ist) … … … und nun habe ich mich verzettelt …

Jedenfalls haben Jodorowsky und Mœbius fast ein Jahrzehnt lang zusammen an dem hier in einem Band zusammengefassten Comic

… gearbeitet.

Und wie schon The Long Tomorrow ist auch The Incal eines dieser mystischen Werke, von denen man im Umfeld modernerer Science-Fiction- (seeeeeeehr weit gefasst) und Technik-kultur immer wieder liest und hørt und wie sehr es die Kulturschaffenden beeinflusst hat.

Ich habe es nur nie gekauft, bis ich darueber in einem Comicladen in Uppsala stolperte … und ich muss sagen … øhm … æhm … åhm … also ich sehe definitiv, warum es so einflussreich war und es ist auch richtig gut … aber der Stil ist nicht so ganz mein Geschmack. Das kann weder am Thema, noch an den Zeichnungen liegen … beides ist voll mein Geschmack, siehe meine Begeisterung fuer The Long Tomorrow und im Allgemeinen. Die Erzaehlung ist mitnichten langweilig und auch nicht langatmig … eher im Gegenteil ist es sehr dynamisch, insb. im Kontext der Zeit der Entstehung gesehen … was sicherlich auch ein Grund fuer den groszen Einfluss war. Es kann auch nicht daran liegen, dass es ein „belgisch/franzøsisches“ Comic ist (was immer das auch heiszen mag), denn Unter Knochen ist das auch und das hat mir voll „gelegen“ und die Abenteuer von Hellboy sind auch wenig „westlich“.

Ich habe das Gefuehl, dass ich mit „Stil“ meine, wie die Geschichte „aufgezogen“ ist (was immer das auch heiszen mag) ist und dass seit den 80’er Jahren so viel Zeit vergangen ist und die 9. Kunst sich weiterentwickelt hat. Das ist so ein bisschen wie mein Empfinden wenn ich Manga lese, nur laengst nicht so stark, weil dieses ja doch innerhalb der westlicen Comickultur entstanden ist.

Was ich schreibe ist auch nicht falsch zu verstehen. Ich werde das Comic sicherlich irgendwann nochmal lesen, das fetzt naemlich so sehr. Und ich habe auch vor, mir den Nachfolgeband zu kaufen. Und natuerlich ist’s allein deswegen schon wichtig weil es ein kulturell so bedeutendes und einflussreiches Werk war und ist … aber ich fange an mich zu wiederholen.

Lange Rede kurzer Sinn: ich gehe ins Museum und schaue mir „alte Meister“ (und auch neue) an. Auch dies liegt mir nicht unbedingt, dennoch geniesze ich die „Grøsze“ und Bedeutsamkeit dieser Werke. The Incal gehørt in die Selbe (!) Kategorie und sollte allein deswegen schon mal gelesen werden, auch wenn es einem nicht unbedingt so 100 % liegt.

Die lange Vorrede habe ich beim letzten Mal getaetigt. Deswegen geht’s sofort los. Kurz zur Erinnerung: meine Hypothese ist, dass die Linknetzwerke (fast) aller Wikipediaseiten bei den Saisons des São Paulo FC enden. Ganz direkt geht es heute um das Folgende: Ich nehme an, dass (fast) alle Wikipediaseiten bei der 1930 Saison des São Paulo FC enden. Dann sollten die besetzten Zustaende auf den letzten Linkleveln genau der Anzahl der totalen Links dieser Seite, und der Seiten der direkt davor (bzw. zeitlich direkt dahinter) liegenden Saisons, entsprechen.

Das ist tatsaechlich das was ich sehe:

Cool wa? Aber was sehe ich hier eigentlich? Das Diagramm ist von rechts nach links zu lesen um es dann von links nach rechts zu interpretieren. Ich gehe weiter unten naeher darauf ein. Zunaechst sei so viel gesagt. Die schwarzen Punkte sind die besetzten Zustaende bei den entsprechenden Linkleveln. Die roten Punkte entsprechen der Anzahl der totalen Links einer Wikipediaseite der Saison eines gegebenen Jahres. Jede horizontale Reihe roter (!) Punkte kommt durch die totalen Links der Saison eines Jahres (manchmal mehrerer) zustande. Die entsprechenden Jahre sind gekennzeichnet, wenn sie (rueckwaerts gesehen) das erste Mal auftauchen.
Die besetzten Zustaende kann ich direkt aus den individuellen Verteilungen ablesen. Dass diese mit den roten Punkten, also der Anzahl der totalen Links der entsprechenden Seiten zum Ende der Kette der Saisons des São Paulo FC, uebereinstimmen ist ein starkes Indiz dafuer, dass meine Hypothese richtig ist.
Wenn es (scheinbar) zu keiner Aenderung im Diagramm von einem Linklevel zum vorherigen/naechsten gibt, dann liegt das daran, dass zwei hintereinander liegende Saisons die selbe Anzahl an totalen Links haben. Dann kommt natuerlich kein weiterer Punkt dazu, weil dies ein und demselben Zustand entspricht. Beispiele sind 1933 und 1934 oder 1936 und 1942.

Nun naeher dazu wie das Diagramm zu lesen (und dann zu interpretieren) ist, mit Hinblick auf obige Hypothese. Zur besseren Veranschaulichung nehme man dieses Diagramm in dem ich die roten Punkte wieder weglasse, weil die ja identisch sind mit den schwarzen Punkten (den Pfeilen ist beim Lesen rueckwaerts zu folgen und beim interpretieren vorwaerts):

Auf LL72 sind nur zwei Zustaende besetzt — Zustand Null und Zustand 27. Letzteres bedeutet, dass die Seiten die in diesem Zustand sind, total 27 Links haben. Zustand Null wird heute nicht beachtet, denn dieser entspricht den ausgestiegenen Seiten.
Aus der Betrachtung der Aussteiger wissen wir, dass es nur (!) eine Gruppe mit drei Seiten gibt, die erst bei LL73 aussteigt und somit als einzige ein Signal auf LL72 geben kann. Ich gebe dieser Gruppe den Namen Alpha und entsprechend der Hypothese muss Gruppe Alpha sich im Jahre 1930 befinden. Das Jahr 1930 hat tatsaechlich 27 Links in meinen Daten.

Wir gehen rueckwaerts und auf LL71 sind drei Zustaende besetzt, wobei Zustand Null wieder unberuecksichtigt bleibt. Somit bleiben als besetzte Zustaende nur Zustand 27 und Zustand 30. Einer dieser Zustaende muss von Gruppe Alpha kommen. Diesmal aber aus dem Jahre 1931, welches tatsaechlich 30 totale Links in meinen Daten hat. Der andere Zustand wird durch Gruppe Beta besetzt, welche auf LL71 zum letzten Mal zum Gesamtsignal beitraegt. Entsprechend der Hypothese sollte Gruppe Beta sich auf LL71 im Jahre 1930 (und somit Zustand 27) befinden. Das ist genau das, was in den Daten zu sehen ist.

Wir gehen noch ein Linklevel rueckwarts zu LL70 und die dort besetzten Zustaende sind 27, 30 und 22. Weil wir rueckwaerts gehen wird Gruppe Gamma „wiedererweckt“ und befindet sich im Jahre 1930. Gruppe Beta ist hier nun im Jahre 1931 und Gruppe Alpha im Jahre 1932 (mit 22 totalen Links).

Der naechste Schritt rueckwaerts folgt dem gleichen Schema. Spaetere Gruppen besetzen Zustaende die (rueckwaerts gesehen!) durch Gruppe Alpha eingefuehrt wurden und Gruppe Alpha selber fuehrt via des Jahres 1933 den Zustand 26 ein.
Nun wird’s aber ein ganz klein bisschen komplizierter. Wenn Gruppe Alpha beim naechsten Rueckwaertsschritt ins Jahr 1934 springt, dann bleibt es im Zustand 26, weil dieses Jahr genausoviele totale Links hat wie 1933. Gleichzeitig besetzt nun aber auch Gruppe Beta Zustand 26 (via des Jahres 1933).
Noch einen Schritt rueckwaerts verlaeszt Gruppe Alpha Zustand 26 wieder (und geht ueber zu Zustand 24), Gruppe Beta bleibt in Zustand 26 (aber nun im Jahr 1934) und hinzu kommt in den selben Zustand Gruppe Gamma (via des Jahres 1933).

All das was ich hier niederschrieb ist im rechten Teil des obigen Diagramms entsprechend markiert.
So geht das dann weiter so weit das Diagramm reicht. Dass bei frueheren Linkleveln immer noch Signal aus Zustand 27 kommt liegt natuerlich daran, dass weitere Gruppen „wiedererweckt“ werden und die genannten Zustaende dann weiterhin besetzen.

Zu interpretieren ist das dann in der richtigen Reihenfolge, wobei „richtig“ in diesem Falle aufsteigende Linklevel meint.
Bei LL59 sind (in dieser Reihefolge) die Zustaende 27, 30, 22, 26, 26, 24, 31, 40, 34, 34, 34, 38, 31, und 37 (man beachte die Mehrfachnennungen gewisser Zustaende!) durch die Gruppen Xi, Nu, Mu, Lambda, Kappa, Iota, Theta, Eta, Zeta, Epsilon, Delta, Gamma, Beta, und Alpha besetzt, welche sich jeweils in den Jahren 1930, 1931, 1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, 1942 und 1943 befinden. … … … Ich gebe zu, dass ich das nur so weit getrieben habe, weil ich schon immer mal das Symbol fuer Xi benutzen wollte … tihihi.
Beim Schritt zu LL60 bewegen sich alle Gruppen ein Jahr rueckwaerts und in die entsprechenden Zustaende; Gruppe Alpha zu Zustand 31, Gruppe Beta zu Zustand 38, Gruppe Gamma zu Zustand 34 usw. Gruppe Xi steigt aus.
Dito beim Schritt zu LL61; Gruppe Alpha zu Zustand 38, Gruppe Beta zu Zustand 34, Gruppe Gamma (ebenso) zu Zustand 34 usw. Gruppe Nu steigt aus.
Das Beschriebene ist entsprechend im linken Teil des obigen Diagramms markiert und die geneigte Leserin oder der geneigte Leser møge den blauen Pfeilen im Diagramm (und somit Gruppe Alpha) folgen um mittels dieser Argumentation bis zum Ende zu gelangen.

Zum Abschluss sei dies gesagt: die Anzahl der totalen Links der Saisons des São Paulo FC stimmt (zum Ende des Linknetzwerkes) auf so vielen Linkleveln mit den besetzten Zustaenden ueberein, dass dies ein extrem starkes Indiz fuer die Richtigkeit der Hypothese ist.
ABER, dadurch dass ich nicht im Einzelnen nachvollziehen kann, welche Seite auf welchem Linklevel zitiert werden, kønnte es immer noch sein, dass das einfach nur Zufall ist. Oder anders: es ist møglich dass die drei Wikipediaseiten von Gruppe Alpha am Ende alle in drei verschiedenen Seiten sind, die zufaelligerweise alle 27 Links haben. Ich gebe zu, dass das aber schon ungeheure Zufaelle sein muessten, wenn das bei so vielen Linkleveln komplett uebereinstimmen soll. Die Chance dafuer ist also sehr klein, aber nicht null.

Heute habe ich mir nur die Position der besetzten Zustaende angeschaut, aber nicht wie „voll“ diese sind. Diese Information und wie sich der „Fuellstand“ „zeitlich“ entwickelt werde ich beim naechsten Mal untersuchen — Spoiler: was ich dort sehe bringt die Sicherheit fuer die Richtigkeit der Hyptohese so nahe an 100 %, dass die verbleibende potentielle Møglichkeit der Unsicherheit nicht mal mehr als „Rundungsfehler“ gelten kønnte.
Dafuer muss ich eine coole Achsentransformation durchfuehren … und um all das zu erklaeren brauche ich ein paar Wørter, aber dieser Beitrag hier ist schon so lang.

Nun habe ich all das untersucht und so viel dazu geschrieben und dann steht da pløtzlich „Dekonstruktion“ im Titel … *seufz* … … … Aber der Reihe nach.

Zunaechst ist zu sagen, dass alles was ich schrieb und beobachtete tatsaechlich in den Daten vorkommt. Das ist also in dem Sinne „die Wahrheit“, dass das nicht durch Schummeln herauskommt. Waere ja auch wenig sinnvoll von mir, soviel Zeit in eine Sache zu stecken nur um irgendwen zu beeindrucken … zumal ich nicht wirklich denke, dass das hier wer liest … naja, vllt. der kleine Mann *wink*.

Aber dann ist mir aufgefallen, dass der Anfang des Phaenomens welches ich hier als die „2. Phase“ (oder „feste Phase“) bezeichne, verdaechtig mit dem Beginn der fruehen „Ausstiege“ zusammenfaellt.
Zu Letzteren schrieb ich,

[…] dass jede einzelne dieser Seiten vom Typ XXXX São Paulo FC season war, wobei das XXXX fuer ein Jahr steht. Beispielsweise 1944 São Paulo FC season oder 1980 São Paulo FC season oder 1994 São Paulo FC season usw. usf.

Genauer gesagt gehen die Jahre von 1930 bis 1994 und die Links bilden eine schøne Kette. Das heiszt, dass ein gegebenes Jahr viele Links hat, aber fast alle von diesen wurden beim Durchlaufen des Linknetzwerk bereits besucht; diese sind also KEINE validen Ausgaenge. Uebrig bleiben nur zwei potentielle Ausgaenge: die Links zu den Saisons des vorigen und des naechsten Jahres. Nun muss man aber irgendwo in die Kette einsteigen muss und sich dann die Jahre entweder vorwaerts oder rueckwaerts entlanghangeln. Deswegen wirkt einer dieser zwei Links als „Eingang“ und somit bleibt nur der andere Link als Ausgang.
Die Situation sieht also theoretisch so aus: … <=> 1977 <=> 1978 <=> 1979 <=> 1980 <=> 1981 <=> 1982 <=> 1983 <=> 1984 <=> …

Auch wenn es eines der Resultate vorweg nimmt, so sei hier gesagt, dass die (hier relevanten Teile dieser) Kette immer in die gleiche Richtung, naemlich rueckwaerts gehen. Das wuerde bedeuten, dass die Linknetzwerke aller Wikipediaseiten bei der Saison des São Paulo FC des Jahres 1930 enden.

Ich erwaehnte ebenso bereits, dass dies wenn dann ein Artefakt der Behandlung der Daten waere, weil diese validen Links aus der Infobox stammen und ich Daten daraus eigentlich nicht beruecksichtigen wollte. Aber in diesen Faellen ist besagte Infobox derart im Quelltext kodiert, dass sie nicht rausgefiltert wurde … *seufz*.

Dies als Vorrede um das vermutete Problem etwas naeher zu beleuchten. Weil es so wichtig ist bzgl. dessen was ich in den vorherigen Beitraegen beschrieb, untersuchte ich genau dieses Problem genauer.
Ich kann leider keine _direkten_ Beweise dafuer anfuehren. Dafuer haette ich fuer jede Seite auf jedem Linklevel registrieren muessen, welche Seiten verlinkt werden. Das waere eine dreidimensionale Matrix mit ca. 6 Millionen Wikipediaseiten mal 6 Millionen Wikipediaseiten mal 100 Linklevel = 3.6 mal 1015 Eintraege. Beim Durchlaufen des Linknetzwerks wusste ich noch nicht wo das maximale Linklevel liegt, deswegen hier die 100. Sechs Billiarden ganze Zahlen wuerden selbst in C und mit dem „char-Trick“ mindestens 3.6 PetaBytes (!) belegen … so viel Platz habe ich nicht. Und selbst wenn ich so viel Speicher haette, wuerde ich dann vor dem naechsten Problem stehen, dass das pro Wikipediaseite Hunderte von Millionen Schreibvorgaenge waeren. Prinzipiell passt dies fuer eine Seite alles in den RAM und das waere relativ schnell. Aber ich habe sechs Millionen Seiten und alles was im RAM ist, muss nach der Analyse des Linknetzwerkes permanent gespeichert werden. Letzteres ist URST lahm und damit waere das dann wieder nicht møglich gewesen.
Aber ich gebe zu, dass ich mit der Idee spielte.

Ein Kompromiss ist, was ich hier beschrieb. Aber soweit bin ich noch nicht in meiner Analyse.

Deswegen bringe ich in den naechsten zwei Artikeln dieser Reihe starke, wenn auch indirekte, Beweise, dass obige Hypothese — dass (fast) alle Linknetzwerke auf dieser Seite enden — richtig ist.

Das ist zwar etwas komplizierter, beleuchtet aber mehrere Aspekte ganz gut, bzgl. dessen wie ein Data Scientist arbeiten sollte. Und weil dies ja auch ein Grund fuer diese Serie ist, werde ich das dann doch alles darlegen … davon abgesehen, dass ich das durchaus spannend fand :) .

Wenn das Thema der Einsatz von Atombomben gegen Hiroshima oder Nagasaki ist, so wird meistens nur ein relativ kurzer Zeitraum rund um diese schrecklichen Tage betrachtet. Ein paar Tage davor oder danach.
Auch Keiji Nakazawa erzaehlt nur davon. Zumindest in den vier auf dtsch. erschienenen Baenden.

Waehrend diese Herangehensweise sicherlich den wichtigsten Eindruck von den konkreten Ereignissen gibt, so ist dies doch nicht die ganze Geschichte. Die Ueberlebenden hatten naemlich danach jahrelang nicht nur an den direkten gesundheitlichen Folgen zu leiden. Vielmehr hatten diese auch konkrete Auswirkungen auf den Alltag, der einfach nicht mehr møglich war wie vor den Bomben. Hinzu kam das soziale Stigma, dem die Ueberlebenden ausgesetzt waren. Insbesondere ueber Letzteres ist wenig in der allgemeinen Øffentlichkeit bekannt.

John Hersey schrieb fuer The New YorkerHiroshima: The Aftermath“ (Ausgabe vom 1985-07-15). Darin beschaeftigt er sich mit dem weiteren Lebensweg der Personen, ueber die sein urspruenglicher Artikel handelte. Wie bisher mag ich auch dazu nicht viel mehr sagen, weil meine Worte inadaequat waeren um dies zusammen zu fassen. Das sollte jeder selber lesen. Aber wenigstens habe ich mal drauf hingewiesen.

Das fand ich zu witzig, als das ich das nicht hier mal reinstellen muesste:

Gefunden auf dem Bahnhof in Sundsvall.

Trondheim hat im Winter richtig schlechte Luft. Das mag man gar nicht so glauben bei der Naehe zur Natur und zum Fjord.

Andererseits finden die Leute Holzøfen voll toll. Ist doch so gemuetlich und wenn man das Holz kauft wenn’s billig ist, dann kann es sogar die Stromkosten senken. Auszerdem ist’s klimaneutral! … Stimmt ja alles, aber der Rauch von zehntausenden Privathaushalten wird ja doch in die Umwelt geblasen.

Hinzu kommt, dass die Leute hier alle Auto fahren „muessen“ … der Kindergarten liegt doch so weit weg, oder die Arbeit, oder weil man am Ende des Tages doch schnell noch einkaufen fahren muss, oder weil Schnee und Eis das Vorankommen mittels anderer Verkehrsmittel so schwer machen … oder weil man ja irgendwie das Holz fuer den Ofen transportieren muss … *mit den Augen roll* … aber OK, individuelle Gruende versteh ich schon … ehrlich … ist im gesellschaftlichen Kollektiv nur suboptimal *seufz*. Jedenfalls haben wir also noch mehr Zeug in der Luft von den Abgasen und leider leider leider sind Dieselautos hier beliebt.
Das Probelm løst sich aber nur zu ca. 1/4 durch Elektroautos, denn im Winter brauchen die Autos Stachel an den Reifen. Wirklich nuetzlich sind die in der Stadt aber nur bei der Garageneinfahrt (etwas uebertrieben gesagt) und kurz nachdem neuer Schnee gefallen ist. Die meisten Straszen sind aber meist ziemlich gut freigeraeumt. Das soll bitte nicht missverstanden werden. Schon aus Sicherheitsgruenden sind Stacheln an den Reifen wichtig! Wenn aber Stacheln an den Reifen sind, dann nutzt das die Strasze mehr ab (wenn kein Eis drauf liegt wie in der Garageneinfahrt) und dieser (Fein)Staub wird dann schøn aufgewirbelt und steht dann in der Luft, fuer die Menschen zum einatmen.

Auszerdem kann es im Winter (oder im fruehen Fruehling) relativ kalt und trocken sein. Dann ist kein Schnee(matsch) (oder Wasser) auf den Straszen, der den erwaehnten Staub bindet und die Leute heizen mit den Holzøfen, damit die Elektroheizung nicht so dolle arbeiten muss. Wobei die Trockenheit sich viel mehr bemerkbar macht als die Kaelte (auszer wenn’s richtig kalt ist). Da kann man die Luft manchmal „schneiden“ wenn die Leute alle von der Arbeit nach Hause fahren :(
Und dann weht oft auch kein Wind, der den Staub aus der Stadt tragen kønnte … *seufz* … Smogcity … *doppelseufz*

Aber vor mittlerweile ueber einer Dekade, zur Zeit meiner ersten Doktorarbeit, meinte mein „Betreuer“ (die Anfuehrungszeichen deswegen, weil da nicht viel Betreuung (ohne Anfuehrungszeichen) war), dass das frueher noch viel schlimmer war.

Gesetze zur Verbesserung der Luftqualitaet fuehrten bei Autos zum weitverbreiteten Einsatz von Katalysatoren und effektiveren Motoren … wer haette das gedacht, dass die Groszindustrie was tut, wenn man sich nicht auf „Selbstkontrolle“ verlaeszt, sondern externe Anreize (in Form von Buszgeldern) schafft.
Bei der Stadtplanung fuehrten die Gesetze zu mehr verkehrsberuhigten (und -freien) Zonen, Verboten Kohle direkt zu verfeuern und zumindest in Norwegen dem Gebot bessere Øfen (welche Holz besser, weil vollstaendiger, verbrennen) zu verbauen.

Das passierte natuerlich nicht alles auf einmal in den 80’ern. Entsprechende Gesetze gab es schon vorher, doch oft nur lokal begrenzt (bspw. in London bereits in den 50’er). Ebenso war das nach den 80’ern nicht vorbei, sondern geht im Wesentlichen auch heute noch vor sich.

An die wirklich schlechte Luft erinnere ich mich nicht. Das war vor meiner Zeit (und weil ich auf’m Dorf aufgewachsen bin). Aber die Gesellschaft hat’s leider auch vergessen, was man nicht zuletzt daran sieht, dass man bei der Feinstaubdebatte viel zu oft hørt, dass das doch alles nicht so schlimm sei … und das wurde bei den Zigaretten auch schon gesagt und wer Beispiele aus noch frueheren Zeiten møchte, dem lege ich Marx‘ Das Kapital ans Herz.

Aber eigentlich ist dieses Vergessen mal wieder ein Ausdruck fuer den groszen Fortschritt den wir diesbezueglich gemacht haben.

Das hier wird keine richtige Fehlerbetrachtung. Aber hier sagte ich, dass ich 0.1 % aller „Ereignisse“ als Ausreiszer ansehe und diese bei den beim letzten Mal durchgefuehrten Betrachtungen nicht beruecksichtige. Die 0.1 % wuerde bei ca. 6 Millionen Wikipediaseiten bedeuten, dass (høchstens) ca. 3-tausend Seiten jeweils am Anfang und Ende der Verteilung(en) pro Linklevel wegfallen wuerden.

Ich gab zu, dass ich den konkreten Wert von 0.1 % hauptsaechlich aus aesthetischen Gruenden waehlte, dass man das Wesentliche aber auch sieht, wenn man (viel) weniger „Ereignisse“ als Ausreiszer definiert, wenn man weisz, wonach man gucken muss. Und hier ist der „Beweis“ dafuer:

In blau ist hier wieder das Ergebniss vom letzten Mal dargestellt und die rote Kurve ist das Gleiche, aber wenn man „vorne und hinten“ nur jeweils ca. 30 Ausreiszer rausschmeiszt.
Wie erwaehnt, sieht man auch dann noch alles, was ich beim letzten Mal als Resultat meiner Betrachtungen erwaehnte. Nur eben nicht mehr ganz so schøn — das erste Plateau ist kein richtiges Plateau mehr, die eigentlichen Uebergaenge sind nicht ganz so eindeutig und alles „zappelt“ mehr. Aber die entscheidenden Merkmale sind definitv noch da.

Das zweite Plateau ist in beiden Faellen beinahe identisch ist. Das liegt daran, dass ich Ausreiszer lieber dringelassen habe, wenn die Anzahl der „wegzuschneidenden“ Elemente mitten in einen Zustand fiel. Ich erklaerte das im Detail im verlinkten Beitrag. Im Falle der 0.1 % Ausreiszer zeigt dieses Diaramm, dass da (fast) alle Daten dringeblieben sind.

Ich wollte das hier mal erwaehnt wissen.