Die lange Vorrede habe ich beim letzten Mal getaetigt. Deswegen geht’s sofort los. Kurz zur Erinnerung: meine Hypothese ist, dass die Linknetzwerke (fast) aller Wikipediaseiten bei den Saisons des São Paulo FC enden. Ganz direkt geht es heute um das Folgende: Ich nehme an, dass (fast) alle Wikipediaseiten bei der 1930 Saison des São Paulo FC enden. Dann sollten die besetzten Zustaende auf den letzten Linkleveln genau der Anzahl der totalen Links dieser Seite, und der Seiten der direkt davor (bzw. zeitlich direkt dahinter) liegenden Saisons, entsprechen.

Das ist tatsaechlich das was ich sehe:

Cool wa? Aber was sehe ich hier eigentlich? Das Diagramm ist von rechts nach links zu lesen um es dann von links nach rechts zu interpretieren. Ich gehe weiter unten naeher darauf ein. Zunaechst sei so viel gesagt. Die schwarzen Punkte sind die besetzten Zustaende bei den entsprechenden Linkleveln. Die roten Punkte entsprechen der Anzahl der totalen Links einer Wikipediaseite der Saison eines gegebenen Jahres. Jede horizontale Reihe roter (!) Punkte kommt durch die totalen Links der Saison eines Jahres (manchmal mehrerer) zustande. Die entsprechenden Jahre sind gekennzeichnet, wenn sie (rueckwaerts gesehen) das erste Mal auftauchen.
Die besetzten Zustaende kann ich direkt aus den individuellen Verteilungen ablesen. Dass diese mit den roten Punkten, also der Anzahl der totalen Links der entsprechenden Seiten zum Ende der Kette der Saisons des São Paulo FC, uebereinstimmen ist ein starkes Indiz dafuer, dass meine Hypothese richtig ist.
Wenn es (scheinbar) zu keiner Aenderung im Diagramm von einem Linklevel zum vorherigen/naechsten gibt, dann liegt das daran, dass zwei hintereinander liegende Saisons die selbe Anzahl an totalen Links haben. Dann kommt natuerlich kein weiterer Punkt dazu, weil dies ein und demselben Zustand entspricht. Beispiele sind 1933 und 1934 oder 1936 und 1942.

Nun naeher dazu wie das Diagramm zu lesen (und dann zu interpretieren) ist, mit Hinblick auf obige Hypothese. Zur besseren Veranschaulichung nehme man dieses Diagramm in dem ich die roten Punkte wieder weglasse, weil die ja identisch sind mit den schwarzen Punkten (den Pfeilen ist beim Lesen rueckwaerts zu folgen und beim interpretieren vorwaerts):

Auf LL72 sind nur zwei Zustaende besetzt — Zustand Null und Zustand 27. Letzteres bedeutet, dass die Seiten die in diesem Zustand sind, total 27 Links haben. Zustand Null wird heute nicht beachtet, denn dieser entspricht den ausgestiegenen Seiten.
Aus der Betrachtung der Aussteiger wissen wir, dass es nur (!) eine Gruppe mit drei Seiten gibt, die erst bei LL73 aussteigt und somit als einzige ein Signal auf LL72 geben kann. Ich gebe dieser Gruppe den Namen Alpha und entsprechend der Hypothese muss Gruppe Alpha sich im Jahre 1930 befinden. Das Jahr 1930 hat tatsaechlich 27 Links in meinen Daten.

Wir gehen rueckwaerts und auf LL71 sind drei Zustaende besetzt, wobei Zustand Null wieder unberuecksichtigt bleibt. Somit bleiben als besetzte Zustaende nur Zustand 27 und Zustand 30. Einer dieser Zustaende muss von Gruppe Alpha kommen. Diesmal aber aus dem Jahre 1931, welches tatsaechlich 30 totale Links in meinen Daten hat. Der andere Zustand wird durch Gruppe Beta besetzt, welche auf LL71 zum letzten Mal zum Gesamtsignal beitraegt. Entsprechend der Hypothese sollte Gruppe Beta sich auf LL71 im Jahre 1930 (und somit Zustand 27) befinden. Das ist genau das, was in den Daten zu sehen ist.

Wir gehen noch ein Linklevel rueckwarts zu LL70 und die dort besetzten Zustaende sind 27, 30 und 22. Weil wir rueckwaerts gehen wird Gruppe Gamma „wiedererweckt“ und befindet sich im Jahre 1930. Gruppe Beta ist hier nun im Jahre 1931 und Gruppe Alpha im Jahre 1932 (mit 22 totalen Links).

Der naechste Schritt rueckwaerts folgt dem gleichen Schema. Spaetere Gruppen besetzen Zustaende die (rueckwaerts gesehen!) durch Gruppe Alpha eingefuehrt wurden und Gruppe Alpha selber fuehrt via des Jahres 1933 den Zustand 26 ein.
Nun wird’s aber ein ganz klein bisschen komplizierter. Wenn Gruppe Alpha beim naechsten Rueckwaertsschritt ins Jahr 1934 springt, dann bleibt es im Zustand 26, weil dieses Jahr genausoviele totale Links hat wie 1933. Gleichzeitig besetzt nun aber auch Gruppe Beta Zustand 26 (via des Jahres 1933).
Noch einen Schritt rueckwaerts verlaeszt Gruppe Alpha Zustand 26 wieder (und geht ueber zu Zustand 24), Gruppe Beta bleibt in Zustand 26 (aber nun im Jahr 1934) und hinzu kommt in den selben Zustand Gruppe Gamma (via des Jahres 1933).

All das was ich hier niederschrieb ist im rechten Teil des obigen Diagramms entsprechend markiert.
So geht das dann weiter so weit das Diagramm reicht. Dass bei frueheren Linkleveln immer noch Signal aus Zustand 27 kommt liegt natuerlich daran, dass weitere Gruppen „wiedererweckt“ werden und die genannten Zustaende dann weiterhin besetzen.

Zu interpretieren ist das dann in der richtigen Reihenfolge, wobei „richtig“ in diesem Falle aufsteigende Linklevel meint.
Bei LL59 sind (in dieser Reihefolge) die Zustaende 27, 30, 22, 26, 26, 24, 31, 40, 34, 34, 34, 38, 31, und 37 (man beachte die Mehrfachnennungen gewisser Zustaende!) durch die Gruppen Xi, Nu, Mu, Lambda, Kappa, Iota, Theta, Eta, Zeta, Epsilon, Delta, Gamma, Beta, und Alpha besetzt, welche sich jeweils in den Jahren 1930, 1931, 1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, 1942 und 1943 befinden. … … … Ich gebe zu, dass ich das nur so weit getrieben habe, weil ich schon immer mal das Symbol fuer Xi benutzen wollte … tihihi.
Beim Schritt zu LL60 bewegen sich alle Gruppen ein Jahr rueckwaerts und in die entsprechenden Zustaende; Gruppe Alpha zu Zustand 31, Gruppe Beta zu Zustand 38, Gruppe Gamma zu Zustand 34 usw. Gruppe Xi steigt aus.
Dito beim Schritt zu LL61; Gruppe Alpha zu Zustand 38, Gruppe Beta zu Zustand 34, Gruppe Gamma (ebenso) zu Zustand 34 usw. Gruppe Nu steigt aus.
Das Beschriebene ist entsprechend im linken Teil des obigen Diagramms markiert und die geneigte Leserin oder der geneigte Leser møge den blauen Pfeilen im Diagramm (und somit Gruppe Alpha) folgen um mittels dieser Argumentation bis zum Ende zu gelangen.

Zum Abschluss sei dies gesagt: die Anzahl der totalen Links der Saisons des São Paulo FC stimmt (zum Ende des Linknetzwerkes) auf so vielen Linkleveln mit den besetzten Zustaenden ueberein, dass dies ein extrem starkes Indiz fuer die Richtigkeit der Hypothese ist.
ABER, dadurch dass ich nicht im Einzelnen nachvollziehen kann, welche Seite auf welchem Linklevel zitiert werden, kønnte es immer noch sein, dass das einfach nur Zufall ist. Oder anders: es ist møglich dass die drei Wikipediaseiten von Gruppe Alpha am Ende alle in drei verschiedenen Seiten sind, die zufaelligerweise alle 27 Links haben. Ich gebe zu, dass das aber schon ungeheure Zufaelle sein muessten, wenn das bei so vielen Linkleveln komplett uebereinstimmen soll. Die Chance dafuer ist also sehr klein, aber nicht null.

Heute habe ich mir nur die Position der besetzten Zustaende angeschaut, aber nicht wie „voll“ diese sind. Diese Information und wie sich der „Fuellstand“ „zeitlich“ entwickelt werde ich beim naechsten Mal untersuchen — Spoiler: was ich dort sehe bringt die Sicherheit fuer die Richtigkeit der Hyptohese so nahe an 100 %, dass die verbleibende potentielle Møglichkeit der Unsicherheit nicht mal mehr als „Rundungsfehler“ gelten kønnte.
Dafuer muss ich eine coole Achsentransformation durchfuehren … und um all das zu erklaeren brauche ich ein paar Wørter, aber dieser Beitrag hier ist schon so lang.

Nun habe ich all das untersucht und so viel dazu geschrieben und dann steht da pløtzlich „Dekonstruktion“ im Titel … *seufz* … … … Aber der Reihe nach.

Zunaechst ist zu sagen, dass alles was ich schrieb und beobachtete tatsaechlich in den Daten vorkommt. Das ist also in dem Sinne „die Wahrheit“, dass das nicht durch Schummeln herauskommt. Waere ja auch wenig sinnvoll von mir, soviel Zeit in eine Sache zu stecken nur um irgendwen zu beeindrucken … zumal ich nicht wirklich denke, dass das hier wer liest … naja, vllt. der kleine Mann *wink*.

Aber dann ist mir aufgefallen, dass der Anfang des Phaenomens welches ich hier als die „2. Phase“ (oder „feste Phase“) bezeichne, verdaechtig mit dem Beginn der fruehen „Ausstiege“ zusammenfaellt.
Zu Letzteren schrieb ich,

[…] dass jede einzelne dieser Seiten vom Typ XXXX São Paulo FC season war, wobei das XXXX fuer ein Jahr steht. Beispielsweise 1944 São Paulo FC season oder 1980 São Paulo FC season oder 1994 São Paulo FC season usw. usf.

Genauer gesagt gehen die Jahre von 1930 bis 1994 und die Links bilden eine schøne Kette. Das heiszt, dass ein gegebenes Jahr viele Links hat, aber fast alle von diesen wurden beim Durchlaufen des Linknetzwerk bereits besucht; diese sind also KEINE validen Ausgaenge. Uebrig bleiben nur zwei potentielle Ausgaenge: die Links zu den Saisons des vorigen und des naechsten Jahres. Nun muss man aber irgendwo in die Kette einsteigen muss und sich dann die Jahre entweder vorwaerts oder rueckwaerts entlanghangeln. Deswegen wirkt einer dieser zwei Links als „Eingang“ und somit bleibt nur der andere Link als Ausgang.
Die Situation sieht also theoretisch so aus: … <=> 1977 <=> 1978 <=> 1979 <=> 1980 <=> 1981 <=> 1982 <=> 1983 <=> 1984 <=> …

Auch wenn es eines der Resultate vorweg nimmt, so sei hier gesagt, dass die (hier relevanten Teile dieser) Kette immer in die gleiche Richtung, naemlich rueckwaerts gehen. Das wuerde bedeuten, dass die Linknetzwerke aller Wikipediaseiten bei der Saison des São Paulo FC des Jahres 1930 enden.

Ich erwaehnte ebenso bereits, dass dies wenn dann ein Artefakt der Behandlung der Daten waere, weil diese validen Links aus der Infobox stammen und ich Daten daraus eigentlich nicht beruecksichtigen wollte. Aber in diesen Faellen ist besagte Infobox derart im Quelltext kodiert, dass sie nicht rausgefiltert wurde … *seufz*.

Dies als Vorrede um das vermutete Problem etwas naeher zu beleuchten. Weil es so wichtig ist bzgl. dessen was ich in den vorherigen Beitraegen beschrieb, untersuchte ich genau dieses Problem genauer.
Ich kann leider keine _direkten_ Beweise dafuer anfuehren. Dafuer haette ich fuer jede Seite auf jedem Linklevel registrieren muessen, welche Seiten verlinkt werden. Das waere eine dreidimensionale Matrix mit ca. 6 Millionen Wikipediaseiten mal 6 Millionen Wikipediaseiten mal 100 Linklevel = 3.6 mal 1015 Eintraege. Beim Durchlaufen des Linknetzwerks wusste ich noch nicht wo das maximale Linklevel liegt, deswegen hier die 100. Sechs Billiarden ganze Zahlen wuerden selbst in C und mit dem „char-Trick“ mindestens 3.6 PetaBytes (!) belegen … so viel Platz habe ich nicht. Und selbst wenn ich so viel Speicher haette, wuerde ich dann vor dem naechsten Problem stehen, dass das pro Wikipediaseite Hunderte von Millionen Schreibvorgaenge waeren. Prinzipiell passt dies fuer eine Seite alles in den RAM und das waere relativ schnell. Aber ich habe sechs Millionen Seiten und alles was im RAM ist, muss nach der Analyse des Linknetzwerkes permanent gespeichert werden. Letzteres ist URST lahm und damit waere das dann wieder nicht møglich gewesen.
Aber ich gebe zu, dass ich mit der Idee spielte.

Ein Kompromiss ist, was ich hier beschrieb. Aber soweit bin ich noch nicht in meiner Analyse.

Deswegen bringe ich in den naechsten zwei Artikeln dieser Reihe starke, wenn auch indirekte, Beweise, dass obige Hypothese — dass (fast) alle Linknetzwerke auf dieser Seite enden — richtig ist.

Das ist zwar etwas komplizierter, beleuchtet aber mehrere Aspekte ganz gut, bzgl. dessen wie ein Data Scientist arbeiten sollte. Und weil dies ja auch ein Grund fuer diese Serie ist, werde ich das dann doch alles darlegen … davon abgesehen, dass ich das durchaus spannend fand :) .

Wenn das Thema der Einsatz von Atombomben gegen Hiroshima oder Nagasaki ist, so wird meistens nur ein relativ kurzer Zeitraum rund um diese schrecklichen Tage betrachtet. Ein paar Tage davor oder danach.
Auch Keiji Nakazawa erzaehlt nur davon. Zumindest in den vier auf dtsch. erschienenen Baenden.

Waehrend diese Herangehensweise sicherlich den wichtigsten Eindruck von den konkreten Ereignissen gibt, so ist dies doch nicht die ganze Geschichte. Die Ueberlebenden hatten naemlich danach jahrelang nicht nur an den direkten gesundheitlichen Folgen zu leiden. Vielmehr hatten diese auch konkrete Auswirkungen auf den Alltag, der einfach nicht mehr møglich war wie vor den Bomben. Hinzu kam das soziale Stigma, dem die Ueberlebenden ausgesetzt waren. Insbesondere ueber Letzteres ist wenig in der allgemeinen Øffentlichkeit bekannt.

John Hersey schrieb fuer The New YorkerHiroshima: The Aftermath“ (Ausgabe vom 1985-07-15). Darin beschaeftigt er sich mit dem weiteren Lebensweg der Personen, ueber die sein urspruenglicher Artikel handelte. Wie bisher mag ich auch dazu nicht viel mehr sagen, weil meine Worte inadaequat waeren um dies zusammen zu fassen. Das sollte jeder selber lesen. Aber wenigstens habe ich mal drauf hingewiesen.

Das fand ich zu witzig, als das ich das nicht hier mal reinstellen muesste:

Gefunden auf dem Bahnhof in Sundsvall.

Trondheim hat im Winter richtig schlechte Luft. Das mag man gar nicht so glauben bei der Naehe zur Natur und zum Fjord.

Andererseits finden die Leute Holzøfen voll toll. Ist doch so gemuetlich und wenn man das Holz kauft wenn’s billig ist, dann kann es sogar die Stromkosten senken. Auszerdem ist’s klimaneutral! … Stimmt ja alles, aber der Rauch von zehntausenden Privathaushalten wird ja doch in die Umwelt geblasen.

Hinzu kommt, dass die Leute hier alle Auto fahren „muessen“ … der Kindergarten liegt doch so weit weg, oder die Arbeit, oder weil man am Ende des Tages doch schnell noch einkaufen fahren muss, oder weil Schnee und Eis das Vorankommen mittels anderer Verkehrsmittel so schwer machen … oder weil man ja irgendwie das Holz fuer den Ofen transportieren muss … *mit den Augen roll* … aber OK, individuelle Gruende versteh ich schon … ehrlich … ist im gesellschaftlichen Kollektiv nur suboptimal *seufz*. Jedenfalls haben wir also noch mehr Zeug in der Luft von den Abgasen und leider leider leider sind Dieselautos hier beliebt.
Das Probelm løst sich aber nur zu ca. 1/4 durch Elektroautos, denn im Winter brauchen die Autos Stachel an den Reifen. Wirklich nuetzlich sind die in der Stadt aber nur bei der Garageneinfahrt (etwas uebertrieben gesagt) und kurz nachdem neuer Schnee gefallen ist. Die meisten Straszen sind aber meist ziemlich gut freigeraeumt. Das soll bitte nicht missverstanden werden. Schon aus Sicherheitsgruenden sind Stacheln an den Reifen wichtig! Wenn aber Stacheln an den Reifen sind, dann nutzt das die Strasze mehr ab (wenn kein Eis drauf liegt wie in der Garageneinfahrt) und dieser (Fein)Staub wird dann schøn aufgewirbelt und steht dann in der Luft, fuer die Menschen zum einatmen.

Auszerdem kann es im Winter (oder im fruehen Fruehling) relativ kalt und trocken sein. Dann ist kein Schnee(matsch) (oder Wasser) auf den Straszen, der den erwaehnten Staub bindet und die Leute heizen mit den Holzøfen, damit die Elektroheizung nicht so dolle arbeiten muss. Wobei die Trockenheit sich viel mehr bemerkbar macht als die Kaelte (auszer wenn’s richtig kalt ist). Da kann man die Luft manchmal „schneiden“ wenn die Leute alle von der Arbeit nach Hause fahren :(
Und dann weht oft auch kein Wind, der den Staub aus der Stadt tragen kønnte … *seufz* … Smogcity … *doppelseufz*

Aber vor mittlerweile ueber einer Dekade, zur Zeit meiner ersten Doktorarbeit, meinte mein „Betreuer“ (die Anfuehrungszeichen deswegen, weil da nicht viel Betreuung (ohne Anfuehrungszeichen) war), dass das frueher noch viel schlimmer war.

Gesetze zur Verbesserung der Luftqualitaet fuehrten bei Autos zum weitverbreiteten Einsatz von Katalysatoren und effektiveren Motoren … wer haette das gedacht, dass die Groszindustrie was tut, wenn man sich nicht auf „Selbstkontrolle“ verlaeszt, sondern externe Anreize (in Form von Buszgeldern) schafft.
Bei der Stadtplanung fuehrten die Gesetze zu mehr verkehrsberuhigten (und -freien) Zonen, Verboten Kohle direkt zu verfeuern und zumindest in Norwegen dem Gebot bessere Øfen (welche Holz besser, weil vollstaendiger, verbrennen) zu verbauen.

Das passierte natuerlich nicht alles auf einmal in den 80’ern. Entsprechende Gesetze gab es schon vorher, doch oft nur lokal begrenzt (bspw. in London bereits in den 50’er). Ebenso war das nach den 80’ern nicht vorbei, sondern geht im Wesentlichen auch heute noch vor sich.

An die wirklich schlechte Luft erinnere ich mich nicht. Das war vor meiner Zeit (und weil ich auf’m Dorf aufgewachsen bin). Aber die Gesellschaft hat’s leider auch vergessen, was man nicht zuletzt daran sieht, dass man bei der Feinstaubdebatte viel zu oft hørt, dass das doch alles nicht so schlimm sei … und das wurde bei den Zigaretten auch schon gesagt und wer Beispiele aus noch frueheren Zeiten møchte, dem lege ich Marx‘ Das Kapital ans Herz.

Aber eigentlich ist dieses Vergessen mal wieder ein Ausdruck fuer den groszen Fortschritt den wir diesbezueglich gemacht haben.

Das hier wird keine richtige Fehlerbetrachtung. Aber hier sagte ich, dass ich 0.1 % aller „Ereignisse“ als Ausreiszer ansehe und diese bei den beim letzten Mal durchgefuehrten Betrachtungen nicht beruecksichtige. Die 0.1 % wuerde bei ca. 6 Millionen Wikipediaseiten bedeuten, dass (høchstens) ca. 3-tausend Seiten jeweils am Anfang und Ende der Verteilung(en) pro Linklevel wegfallen wuerden.

Ich gab zu, dass ich den konkreten Wert von 0.1 % hauptsaechlich aus aesthetischen Gruenden waehlte, dass man das Wesentliche aber auch sieht, wenn man (viel) weniger „Ereignisse“ als Ausreiszer definiert, wenn man weisz, wonach man gucken muss. Und hier ist der „Beweis“ dafuer:

In blau ist hier wieder das Ergebniss vom letzten Mal dargestellt und die rote Kurve ist das Gleiche, aber wenn man „vorne und hinten“ nur jeweils ca. 30 Ausreiszer rausschmeiszt.
Wie erwaehnt, sieht man auch dann noch alles, was ich beim letzten Mal als Resultat meiner Betrachtungen erwaehnte. Nur eben nicht mehr ganz so schøn — das erste Plateau ist kein richtiges Plateau mehr, die eigentlichen Uebergaenge sind nicht ganz so eindeutig und alles „zappelt“ mehr. Aber die entscheidenden Merkmale sind definitv noch da.

Das zweite Plateau ist in beiden Faellen beinahe identisch ist. Das liegt daran, dass ich Ausreiszer lieber dringelassen habe, wenn die Anzahl der „wegzuschneidenden“ Elemente mitten in einen Zustand fiel. Ich erklaerte das im Detail im verlinkten Beitrag. Im Falle der 0.1 % Ausreiszer zeigt dieses Diaramm, dass da (fast) alle Daten dringeblieben sind.

Ich wollte das hier mal erwaehnt wissen.

Wie beim letzten Mal gesagt, heute nun endlich:

„Butter bei die Fische“.

Und nach den langen Vorreden die letzten Male, gehe ich heute gleich in die Vollen und zeige sofort das Ergebniss (ACHTUNG: bei den hier dargestellten Daten wurden die Ausresizer rausgeschmissen, so wie beim letzten Mal diskutiert):

Cool wa! … Aber was ist hier eigentlich dargestellt?
Nun ja, das steht an der Abzsisse dran: ich habe mal geschaut, wie sich der Anteil der tatsaechlich besetzten Zustaende in Bezug zur Anzahl aller møglichen (und plausiblen) Zustaenden entwickelt.

OK, das ist leicht zu verstehen … aber was passiert hier eigentlich? … Øhm, das zu erklaeren dauert etwas laenger.
In der „Gasphase“ ganz am Anfang sind alle møglichen Zustaende auch mit mindestens einem „Partikel“ / Wikipediaseite besetzt. Waehrend des „Aufheizens“ steigt die Anzahl der _møglichen_ Zustaende stark. Beim vorletzten Mal haben wir gesehen, dass die Anzahl der tatsaechlich besetzten Zustaende auch stark ansteigt. Ersteres geht schneller als Letzteres und deswegen wird der hier dargestellte Quotient (multipliziert mit 100 um den Anteil zu erhalten) entsprechend kleiner. Das Tal zwischen LL3 und LL7 liegt daran, dass ich nur ca. 6 Millionen „Partikel“ habe. Die Konsequenzen dieser Limitierung wurde auch bereits beim vorletzten mal besprochen.
Waehrend des „Abkuehlens“ nimmt die Anzahl der møglichen Zustaende ab und das System besetzt mehr und mehr dieser _møglichen_ Zustaende, die somit _tatsaechlich besetzte_ Zustaende werden. Irgendwann sind alle „Partikel“ „kondensiert“ und (im Wesentlichen) wird jeder møgliche Zustand ab LL13 auch (von mindestens einer Seite) besetzt. Das System ist komplett von der „gasførmigen“ in die „fluessige Phase“ uebergegangen und dieser Phasenuebergang fuehrt zu einem „Plateau“ in der blauen Kurve. Dies bleibt so bis ca. LL43/44. Dann passiert etwas Interessantes: Der Anteil der besetzten Zustaende faellt sprunghaft auf 60 %. Das ist das erwaehnte pløtzliche „Gefrieren“ — ein weiterer Phasenuebergang.

Das das Signal am Ende so „zappelt“ liegt daran, dass ich hier im Bereich unterhalb von 100 Zustaenden, ab ca. LL50 sogar unterhalb von 10 Zustaenden arbeite. Da fuehren dann bspw. zwei zusaetzliche besetzte Zustand zu einem deutlichen Unterschied im Signal. Aber trotz dieser unguenstigen Voraussetzungen erkennt man dennoch eindeutig, dass die „feste Phase“ ein zweites, unabhaengiges Plateau bildet.
Umgekehrt sind diese unguenstigen Voraussetzungen auch genau der Grund warum ich meinem Bauchgefuehl echte Daten folgen lassen wollte. Denn das Gefrieren in nur ganz wenige Zustaende haette ja auch eine Art optische Taeuschung sein kønnen. Durch die logarithmische Komprimierung sehe ich naemlich gar nicht, ob bei 10-tausend totalen Links nicht vielleicht auch nur 50 % aller møglichen Zustaende besetzt sind.

Und das ist sooo krass, dass man durch „richtige“ Betrachtung der Daten den Phasenuebergang von „fluessig“ zu „fest“ (und eigentlich auch von „gasførmig“ zu „fluessig“) so klar sieht.

Ich bin aber noch nicht fertig damit, doch bevor ich weitermache zunaechst ein kurzer Einschub: normalerweise mag ich diese Art der Darstellung in einem Liniendiagramm nicht. Ich bevorzuge Punktdiagramme, denn die Linien sind ueberfluessig, gar irrefuehrend. Die Daten sitzen an bestimmten Punkten und dazwischen gibt es nix. Manchmal benutze ich diese Art der Darstellung dennoch, weil es dem Auge des Betrachters eine Art „Stuetze“ gibt, die hilft dem Verlauf besser zu folgen. Ich erwaehne dies, weil Daten oft bescheuert praesentiert werden und so viel vom Informationsinhalt unter und deswegen oft verloren geht.
Heute habe ich diese Form nicht als Stuetze fuer das Auge gewaehlt. Der Verlauf ist hier (erstmal) nicht so subtil, dass das vonnøten waere. Aber im naechsten Diagramm gibt es (mehr oder weniger) subtile Unterschiede die man besser sieht, wenn man eine Linie (anstatt von Punkten) benutzt. Damit das konsistent bleibt auch im obigen Diagramm eine Linie.

Letzteres ist auch der Grund warum die obige Linie ausnahmswiese blau ist. Die Farben rot und schwarz habe ich beim vorletzten Mal benutzt. Dort habe ich auch versprochen, dass diese Daten nochmals (in leicht modifizierter Form) auftreten werden. Nun ja, hier sind sie nun (in leicht modifizierter Form):

Die rechte Ordinate ist fuer die schwarze und die rote Kurve(n). Diese Kurven entstanden, indem ich die Anzahl der tatsaechlich besetzten (schwarz) und totalen Zustaende (rot) durch die Anzahl der (noch nicht ausgeschiedenen) Seiten dividiert habe.

Die Gruende fuer den Verlauf der Kurve wurde bereits oben (und beim letzten Mal) besprochen. Wie zu erwarten ist der Wert der Amplitude des Maximums der schwarzen Kurve ungefaehr eins (etwas kleiner, weil ca. 15 % aller Zustaende mehrfach besetzt sind) und die Anzahl der møglichen Zustaende (rote Kurve) ist ungefaehr zehn mal grøszer.
Etwas Interessantes passiert bei ca. LL23/13: hier fallen beide Kurven zusammen. Auch das war zu erwarten, denn die blaue Kurve geht bei diesem Linklevel zum ersten Plateau ueber mit einem Wert von 100 %. Das Interessante ist also nicht unerwartet.
Aus den selben Gruenden ist die Separation der beiden Kurven bei ca. LL44/45 nicht unerwartet. Nun wird’s aber interessant.

Der Grund fuer den Unterschied zwischen der roten und der schwarzen Kurve im Maximum waehrend des „gasførmigen Phase“ war, dass es einfach zu viele Zustaende gibt und diese mit der begrenzten Anzahl an „Partikeln“ nicht besetzt werden kønnen. Das ist aber bei der „festen Phase“ mitnichten der Fall! Jeder møgliche Zustand kønnte dort mehrere hundertausend Mal besetzt werden. Es sollte also keine Separation geben! Dass es diese dennoch gibt, ist natuerlich ein weiterer Hinweis darauf, dass das System der Wikipediaseiten (oder mglw. das System der Linknetzwerke) tatsaechlich „physikalisch“ zwei sehr unterschiedliche Dinge bei hohen bzw. niedrigen Linkleveln ist.
Was genau diese zwei „Dinge“ sind kann ich nicht beantworten. Denn „fluessig“ und „fest“, wie in der physikalischen Bedeutung dieser zwei Wørter, sind die Seiten ja schlieszlich nicht. Und wie eben kurz in der Klammer im vorigen Satz erwaehnt, sind es mglw. auch gar nicht die Wikipediaseiten selber, sondern deren Linknetzwerk (was ja noch einen Schritt „aetherischer“ ist).

Aber genug fuer heute. Ich bin maechtig stolz darauf, dass ich zwei Phasenuebergaenge entdeckt habe. Oder vielmehr habe ich das intuitiv in den Daten erkannt und die eigentlich spannende Information dann aus selbigen herausgekitzelt.

Trotz des Gebrauchs aehnlicher Wørter im Titel, hat dieser Beitrag nix mit dem hier zu tun.

Neulich ist mir aufgefallen, dass ich vier unterschiedliche Wørter fuer Wurst (bzw. Wuerstchen) kenne. „Wurst“ an sich aus der dtsch. Sprache, „sausage“ aus der englischen Sprache (wobei ich vermute, dass es aus dem Franzøsischen uebernommen wurde), „pølse“ aus dem Norwegischen und Daenischen und in Schweden verwirrte mich zunaechst der Gebrauch des Wortes „korv“.
Ich konnte beim besten Willen keinen gemeinsamen Wortstamm entdecken. Nicht mal zwischen der norwegisch/daenischen und der schwedischen Variante. Also setzte ich mich mal hin und schaute nach wo diese Wørter herkommen.

Zunaechst war interessant, dass alle diese Wørter aus dem Mittelalter stammen. Oder naja … das was Leute wie ich uns unter „Mittelalter“ vorstellen. Das waren schlieszlich 1000 Jahre Geschichtsschreibung, in denen sehr viel passiert ist und die in unterschiedliche Phasen (keine davon „dunkel“!) eingeteilt werden kann.
Aber ich schweife ab, denn interessant fand ich das deswegen, weil die Methode Fleisch zur Haltbarmachung zu raeuchern und in Daerme zu packen, um dieses laengere Zeit aufzubewahren, ganz sicher deutlich aelter ist als das Mittelalter. Das ist dann auch als die Hypothese fuer diesen Beitrag anzusehen: die Wørter haben was mit der Herstellung oder Lagerung von „Saecken“ mit Fleisch drin zu tun.

Ich fange mal mit der „Wurst“ an.
Der Ursprung dieses Wortes ist nicht genau bekannt, aber dessen indo-germanische Wurzel gehørt in die Wortfamilie der Aktivitaeten des Drehens, Wendens und Rollens und den Produkten solcher Aktivitaeten.
Die Wurzel „uert“ scheint eine Verbindung zum lateinischen „vertere“ oder dem sanskrit „vrt“ zu haben. Beide Wørter bedeuten Drehen/Wenden. Wenn man bedenkt, wie der Inhalt der Wurst zusammengemixt wird, sehe ich dies als ersten Hinweis an, der die Hypothese unterstuetzt.

Nun zur englischen „sausage“.
Wie vermutet gelangte es in die englische Sprache via des Franzøsischen „saussiche“. Aber der Ursprung liegt im Lateinischem „salsica“ welches wiederum von „sallere“ abstammt … und das bedeutet „salzen“.
Ein weiterer Hinweis der obige Hypothese unterstuetzt, dass die Wørter was mit der Herstellung zu tun haben.
Dies ist uebrigens der gemeinsame Ursprung aller Wurstwørter in romanischen Sprachen. Als ein weiteres Beispiel gebe ich mal das portugisische „chouriça“ an.

Nun die norwegisch/daenische „pølse“.
Wie schon bei der „Wurst“ ist der Ursprung nicht ganz klar, aber es mag verwandt sein zum niederlaendischen „peul“. Letzteres ist die Erbsenschale und es hat die gleiche Wurzel „bule“ — Beule.
Die Verbindung liegt hier also nicht beim verdrehten und gesalzenem Inhalt sondern darin wie dieser gelagert wird: in laenglichen „Saecken“, so wie Erbsen.

Und zum Abschluss die schwedische „korv“.
Wiedereinmal ist der Ursprung nicht ganz klar … das scheint ein (weiteres) gemeinsames „Thema“ zu sein. Wieauchimmer, „korv“ ist aehnlich zum islaendischen „kurfr“– (ab)geschnittenes Stueck — und dem altenglischen „cyrf“ — „to carve“, schneiden.
Der folgende Schluss ist mglw. ein bisschen weit hergeholt, aber soweit ich weisz, sind Wuerste (mehr oder weniger) kontinuierlich, oder vielmehr in ziemlich laengen Daermen, und kuerzere Stuecke werden davon abgeschnitten. Dies sehe ich somit als den vierten Hinweis, der meine Hypothese vom Anfang bzgl. der Herkunft dieser vier verschiedenen Wørter unterstuetzt.

Innerhalb dieses informellen Rahmens sind weitere Untersuchungen nicht notwendig. Ich fand es interessant, dass trotz der gleichen Sache und trotz des gleichen Kulturkreises diese vier Wørter sprachlich-technisch tatsaechlich keinen gemeinsamen Ursprung haben. Die Verbindung wird erst durch die Semantik der Wørter hergestellt — was ja meine Hypothese war.

… muessen wir uns dessen anpassen. Bzgl. dieser Anpassung hørt man bisher eigentlich nur Sachen die in den Umkreis der Barrierefreiheit fallen. Das ist natuerlich ganz wichtig, allein schon deswegen, weil der Kørper mit zunehmenden Alter weniger kann.
Bisher habe ich aber nichts bzgl. der sozialen Aspekte gehørt was ueber „alte Menschen sind oft allein“ hinaus geht. Und genau darauf will ich hinaus (das alte Menschen oft allein sind), aber unter einem anderen Blickwinkel als dem, dass das traurig ist (was es natuerlich oft ist).

Zunaechst sei das Folgende gesagt: der Umstand dass immer mehr Menschen im Alter allein sind, ist eine ganz ganz ganz grosze zivilisatorische Errungenschaft! Zum Einen bedeuet dies, dass aeltere und alte Menschen nicht mehr von ihren Kindern abhaengig sind. Das ist deswegen so gut, weil dadurch (viel) mehr Menschen mehr Freiheit haben. Zum Anderen bedeutet es auch, dass Geist und Kørper fuer die Mehrzahl der Menschen im Alter noch gut genug funktioniert, sodass man bspw. noch allein einkaufen gehen und Essen kochen kann. Letzteres ist das auch wegen des oben Gesagten møglich, eben weil mehr und mehr gesellschaftliche Institutionen (bspw. der Supermarkt, das Theater, das Fliegen etc.) barrierefrei werden.

Aber dass alte Menschen mehr und besser allein leben kønnen heiszt auch, dass man sich ueber andere Dinge als (nur) Barrerefreiheit Gedanken machen. Dieses Bild …

… drueckt das was ich sagen will meiner Meinung nach sehr gut aus. Direkte Uebersetzung: Schlag dich nieder! … tihihihi

Hierbei handelt es sich um eine Art Klappstuhl im Supermarkt. Das hat ueberhaupt nix damit zu tun, dass man den Preis besser lesen kann oder alles ebenerdig ist. Es hat aber viel damit zu tun anzuerkennen, dass aelteren Menschen, auch wenn sie autonom sind, schneller die Puste ausgehen kann. Das kommt natuerlich auch anderen Menschen zu Gute; bspw. wenn einem jungen Mann mit niedrigem Blutdruck pløtzlich schwindelig wird.

Dieser Beitrag hier soll nur einen Gedanken umreiszen der mir kam, als ich das was im Bild zu sehen ist zum ersten Mal sah. Mir fehlen die richtigen Worte um dieses Themengebiet innerhalb eines uebergeordneten Rahmens erklaeren zu kønnen. Aber ich hoffe, dass ich zumindest teilweise klarmachen konnte, worauf ich hinaus will, denn es gibt sicherlich noch viel mehr als nur dass einem die Puste ausgeht, ohne dass dies unter den Schirm der Barrierefreiheit fallen wuerde.

Das ist uebrigens auch der Grund, warum ich der Meinung bin, dass die Robotisierung nicht schnell genug voran geht. Man nehme bspw. ein Mann in seinen 70’ern an, der seine Blumen umtopfe will. Er schafft es zum Baumarkt zu gehen und Blumenerde auszusuchen. Die Saecke sind aber zu schwer um diese ueber weite Strecken zu tragen. Nun kønnte man das fuer 20 Euro extra nach Hause liefern lassen. Man kønnte aber auch ein autonomes Kleinstfahrzeug (Laenge = Breite = Høhe = 50 cm) haben mit einer Belademøglichkeit fuer mittelschweres Zeug. Dieses Fahrzeug folgt dem alten Mann nach Hause, wo er die Saecke mit Blumenerde dann nur noch abladen muss. Danach faehrt (oder geht) das Kleinstfahrzeug automatisch zurueck fuer den naechsten Auftrag.

Das soll dazu reichen, wie gesagt, ich weisz das Ganze ja selber gar nicht so richtig in Worte zu fassen.

Die beim vorletzten Mal eingefuehrte Analogie, in der Wikipediaseiten angesehen werden wie Partikel eines idealen Gases, welche bei bestimmten „Temperaturen“ (Linklevel) bestimmte Zustaende (Anzahl der totalen Links) einnehmen kønnen, hilft mir beim naechsten Mal zwei Phasenuebergaenge dingfest zu machen.
Aber weil’s so wichtig ist, møchte ich heute darueber sprechen, dass ich die Daten die ich beim letzten Mal praesentiert habe, nicht einfach so nehmen kann, wie sie sind.  Der Grund ist (wie ich beim vorletzten Mal schrieb), dass ich […]

[…] die Zustaende zwischen dem kleinsten und dem grøszten besetzten Zustand einfach abzaehle und damit dann die Anzahl aller (plausiblen) Zustaende auf einem gegebenen Linklevel erhalte.

Es gibt aber in jeder Verteilung Zustaende die so weit weg sind vom Rest der Verteilung, dass die alles „kaputt“ machen. Oder anders: durch den Abstand eines einzigen Zustands vom Rest der Gruppe entstehen so viele leere plausible Zustaende, dass die aus der Anzahl aller plausiblen Zustaenden errechnten Ergebnisse nicht mehr sinnvoll sind.

Bei richtigen Messungen nennt man sowas „Ausreiszer“ und die dtsch. Wikipedia schreibt dazu:

[…] man [spricht] von einem Ausreißer, wenn ein Messwert […] allgemein nicht den Erwartungen entspricht.

Das ist korrekt, aber etwas zu spezifisch. Denn ich habe keine Erwartungen, oder vielmehr wiesz ich nicht, was ich erwarten soll. Denn trotz der Analogie sind die Wikipediaseiten eben doch kein ideales Gas, von dem ich erwarte, dass es sich auf bestimmte Art und Weise verhaelt. Entpsrechend habe ich keinen Erwartungswert um den rum ich eine gewisse Streuung der „Messwerte“ als normal ansehe und alles was auszerhalb des Bereiches faellt falsch sein muss.

Deswegen gefaellt mir (mal wieder) besser, was die englische Wikipedia schreibt:

[…] an outlier is a data point that differs significantly from other observations.

AHA! Das ist doch mal was. Mich duenkt, die dtsch. Wikipedia wollte das so sagen, aber die spezifischen Worte die gebraucht wurden druecken das nicht aus, wenn man mal naeher drueber nachdenkt.

Das hilft mir in diesem Fall zwar weiter, ist aber _zu_ diffus um irgendwas quantifizieren zu kønnen. Wo høren die validen Beobachtungen auf und wie signifikant ist signifikant? In der Praxis ist man da oft genug bei der Streuung um den Erwartungswert zurueck. Und das ist ja auch richtig so, denn das macht die Reproduzierbarkeit aus.

Es gibt ein paar mathematische Tests fuer Ausreiszer. Leider bauen diese wieder darauf auf, dass man etwas erwartet. Also entweder verteilt sich (wieder) alles um einen (oder mehrere) Erwartungswert(e) oder, dass bei „wilden“ Verteilungen (bspw. mit mehreren Maxima oder Verteilungen die sich aus mehreren Normalverteilungen zusammen setzen etc. pp.) die mathematische Beschreibung der besagten Verteilung bekannt ist.
Die Verteilungsfunktion der Zustaende der Wikipediaseiten ist mir nicht bekannt und veraendert sich im gegebenen Fall auch von Linklevel zu Linklevel. Und was sind die Erwartungswerte, wenn sich die Zustaende ueber mehrere Grøszenordnungen erstrecken?
Im Wesentliche stehe ich vor dem „Das-sieht-ma-doch“-Problem, was sich aber mathematisch nicht klar ausdruecken laeszt. Als Beispiel zur Illustration nehme man die Verteilung der Zustaende auf LL3:

Die paar Zustaende ganz links, zwischen Werten von 7 und ca. 120 totalen Links, sind eindeutig Ausreiszer … das sieht man doch. Aber was ist mit den Werten zwischen ca. 180 und 100 totalen Links? Die sehen ja aus, als ob die schon noch dicht genug an den anderen Observationen liegen. Andererseits ist das ’ne logarithmische Achse und das ist sicher OK die als Ausreiszer zu definieren.
Mhmm … wenn ich das so sage, was ist denn dann mit den Zustanden zwischen 10-tausend und ich sag jetzt mal ca. 50-tausend totalen Links? Das Maximum der Verteilung liegt eindeutig bei ca. 10 Millionen totalen Links, das ist ganz schøn weit weg.
Und dann die Zustaende zum Ende der Verteilung! Aufgrund der logarithmischen Komprimierung sehen die zwar aus wie ganz dich am Rest, aber da gibt es bei lineraer Achse sicherlich deutlich grøszere Leerraeume als bei den ganz eindeutigen Ausreiszern ganz am Anfang. Sind Letztere dann vielleicht doch keine Ausreiszer?

Wie man sieht ist das alles nicht so einfach. In meiner zweiten Doktorarbeit habe ich mich damit professionell herumgeschlagen. Leider kann die dort entwickelte Methode der Detektierung (und Korrigierung) von Ausreiszern, wenn man nicht weisz was man erwarten soll, hier nicht angewendet werden.

Deswegen bin ich dann doch darauf zurueckgefallen, dass ich die jeweils ersten und letzten 0.05 % aller Zustaende einfach abschneide (insgesamt schlieszt das 0.1 % aller Zustaende aus).
Aber Achtung das sind Maximalwerte und in den meisten Faellen schliesze ich weniger Zustaende aus:

Der Grund ist, dass ich einen mehrfach besetzten Zustand nicht aufteile in „gut“ und „schlecht“. Alle Seiten („Partikel“) in diesem Zutand sind gleichwertig. Oder anders: sollte die Ausschlieszungsgrenze von 0.05 % in die Mitte eines mehrfach besetzten Zustandes fallen, dann werden vielmehr alle Seiten die in diesem Zustand sind als „gut“ gewertet und in den auszuwertenden Datensatz uebernommen.

Der Gebrauch des Wertes 0.1 % bedeutet, dass (bei ca. 6 Millionen Seiten) an beiden Enden im Extremfall ca. 3000 Zustaende ausgeschlossen werden.
Ich gebe zu, dass ich mich entschied 0.1 % als Kriterium bzgl. des Ausschlieszens von Ausreiszern zu nehmen, weil ich einen praktikablen Kompromiss finden musste, zwischen „aesthetischen Gruenden“ und dem Wunsch so viele Daten wie møglich hinzuzunehmen. Wobei Ersteres dominierte, weil ich bei diesem Wert die Phasen (deren Vorhandensein zwar vermutet wird, aber der Nachweis noch ausstand; bzw. in dieser Reihe noch aussteht) besser unterscheiden kann.
Man sieht aber alles bereits deutlich, wenn man nur 30 Zustaende an den Enden wegschneidet. Ja selbst wenn ich nur die 3 aeuszersten Werte ausschliesze, treten die entscheidenden Merkmale bereits sichtbar hervor. Und wenn man weisz wonach man sucht, sieht man es auch im kompletten Datensatz … aber das war ja das Problem, ich wusste zunaechst nicht so richtig wonach ich suche, wie sich das in den Daten ausdrueckt und wo das konkret ist … selbst wenn ich Vermutungen diezbezueglich hatte.

Trotz aller Rhe­to­rik bzgl. der Integritaet der Wissenschaft(ler) ist diese Herangehensweise insb. in den sog. „angewandten Wissenschaften“ sehr weit verbreitet. Daran ist erstmal nix auszusetzen, solange das ordentlich diskutiert wird und Ergebnisse nicht pløtzlich verschwinden, wenn man die Daten anders „aufbereitet“. Leider passiert Ersteres so weit ich weisz nie und Letzteres vermutlich (deutlich) øfter als uns lieb ist … *seufz*. … Und auch wenn ich oben explizit die sog. „angewandten Wissenschaften“ erwaehne, ist das im Groszen und Ganzen in allen (Teil)Gebieten der Wissenschaft so … mit ein paar Ausnahmen, wie bspw. die Hochenergiephysik oder (heutzutage) einige (viele?) groszangelegte klinische Studien, die mehr und øfter vorregistriert werden … wobei das auch nicht immer hilft, am Ende doch noch was „schick zu machen“, damit das imponierender bei der Publizierung aussieht.

Das soll genug sein fuer heute, beim naechsten Mal gibt’s dann endlich „Butter bei die Fische“.