Archive for the ‘Kevin Bacon’ Category

Hier schaute ich mir zum ersten Mal linklevelabhaengige Verteilungen einer Grøsze (in dem Fall der totalen Links) an. Ich gehe hier nicht weiter drauf ein, denn auch wenn ich da viel zu schrieb, kam am Ende nicht viel bei rum (auszer, dass das „São Paulo Artefakt“ dadurch mehr Aufmerksamkeit erhielt … aber „entdeckt“ wurde dieses schon eher).

Wieauchimmer, bei diesen vielen Histogrammen kam damals schon nix bei rum und wenn ich das als Integral betrachte …

… dann aendert sich daran wenig (Achtung: die Ordinate ist hier kein Zaehler fuer absolute Zahlen, sondern als kumulative Wahrscheinlichkeit (mit normalen Integralgrenzen) dargestellt).
Die fuenf Beispiele sind repraesentativ und selbst wenn man in den „Uebergang“ rein zoomt sieht man nix Spannendes.

Weil bei den neuen Links pro Linklevel im Wesentlichen die gleiche Situation vorliegt, schaue ich mir die dazugehørigen Verteilungen nicht nochmal als Integral an. Waere ja albern, denn das habe ich damals beim ersten „Durchgang“ auch nicht gemacht.

Und das soll’s fuer heute schon gewesen sein … ausnahmsweise ging’s schnell.

Hier schaute ich zum mir ersten Mal die Abhaengigkeit der Links einer Seite von der Anzahl der Zitate die diese erhaelt an. Es war ein „Blob“. Dann berechnete ich die durchschnittliche Anzahl an Links ueber alle Seiten die eine gegebene Anzahl an Zitaten erhalten hatten und der Blob verschwand und ich erhielt das erste wahrhaft ueberraschende Ergebniss in dieser Maxiserie: der Zusammenhang folgt auch einem maechtigen Gesetz. Besagtes Ergebnis ist in diesem Diagramm nochmals in grau wiedergegeben …

… und die (von Hand reingelegte) Regressionsgerade (lila, nicht durchgehende Linie) fuehrt zu einem Exponenten von +0.5.

Weil es „aufwaerts“ geht, muessen die Grenzen fuer das Integral invertiert werden um etwas Vernuenftiges zu erhalten (wie beim vorletzten Mal gezeigt) und besagtes Integral sind die Rechtecke in oliv. Die dazugehørige (auch von Hand reingelegte) Regressionsgerade in blau hat einen Anstieg von ca. +1.4 (eine Aenderung von ca. 5.5 Grøszenordnungen auf der Ordinate und ca. 4 Grøszenordnungen auf der Abszisse) … was ja wohl mal (beinahe) das mathematisch perfekt zu erwartende Resultat war. Das Integral bestaetigt also meine urpsruenglichen Ergebnisse … cool wa.

Bei den Rohdaten fangen die Daten zu „zappeln“ an ab ca. 500 Zitaten und haben eine ganz betraechtlich Varianz ab ca. 2000 Zitaten. Das liegt daran, weil es nicht so viele Seiten gibt, die derart viele Zitate erhalten und ich diskutierte das im damaligen Artikel.
Das Integral geht aber bis 200 Zitiaten schøn gerade weiter was natuerlich toll ist … um dann ueber nur eine halbe Grøszenordnung (also ziemlich abrupt in diesem Zusammenhang) in eine Parallele zur Abszisse ueber zu gehen. Dies fuehrte mich zunaechst dazu zu sagen, dass die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus nicht zulaessig ist.
Aber dann schaute ich mir die Rohdaten nochmal nur fuer diesen Bereich an und kam zu dem Schluss, dass das DOCH auch bei ueber 2000 Zitaten gilt. Dort waechst die Anzahl der Links im wesentlichen nach dem gleichen Potenzgesetz wie vorher. Warum zeigt sich das aber nicht in den integrierten Daten?

Nach etwas gruebeln kam ich auf die Antwort (die hier bereits erwaehnt wurde): es gibt dort nicht genuegend Daten! Im Beispiel beim vorletzten Mal wurden zunehmend mehr „Messungen“ je høher der „Messwert“ auf der Abzsisse war. (Vermutlich viel zu) Vereinfachend gesagt, befanden sich im Abschnitt 10 bis 100 auf der Abzsisse beim letzten Mal zehn Mal weniger „Messungen“ im Vergleich mit Abschnitt 100 bis 1000. Damit kann die Summe ueber letzteren Abschnitt zehn Mal grøszer werden und in einem log-log-Plot waechst das linear.
HIER aber nimmt die Anzahl der Daten mit zunehmender Anzahl Zitate ab und der „Integralansatz“ hørt auf zu funktionieren!

Die Mathematik ist hier also nicht „kaputt“ und auch die Daten sind es nicht. Vielmehr ist die Bildung der Summe der vøllig falsche Ansatz um Informationen aus den Daten mit mehr als 2000 Zitaten heraus zu bekommen. Das ist AUCH eine ganz wichtige Erkentniss.

Fuer ein Modell muesste in diesem Fall also zunaechst in Betracht gezogen werden, wie wahrscheinlich eine Seite mit einer gegebenen Anzahl Zitate ist. Fuer die Anzahl der durchschnittlichen Seiten gilt dann aber wieder das Potenzgesetz und die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus ist eben DOCH gueltig.

Etwas ganz anderes, aber sehr wichtiges: alles in Betracht ziehend sieht man hier, dass der „Integralansatz“ auch dann funktioniert, wenn die Ordinate NICHT nur eine „Abzaehlung von Ereignissen“ repraesentiert. Oder anders: bisher hatte ich nur Histogramme gezeigt, da zaehlt man auf der Ordinate wie oft eine „Messung“ mit einem bestimmten Ergebniss auftritt.
Die durchschnittliche Anzahl an Links ist aber nix was so „abgezaehlt“ werden kønnte.
Dennoch funktioniert der „Integralansatz“ und das fetzt (und ist wichtig). ABER das hier kan auf gar keinen Fall als kumulative Wahrscheinlichkeit interpretiert werden! Das ist natuerlich der Grund warum das Integral NICHT linear bis zum Ende ist, obwohl die Rohdaten das durchaus sind.

Das soll reichen fuer heute. Bisher laeuft’s ja nicht so doll mit …

[…] ich schaue mir das nicht nochmal im Detail an; das werden also Artikel mit Bildern und (meist) nicht ganz so viel Text […]

Liegt halt daran, dass …

[…] es was Neues oder Interessantes zu sehen gibt.

Fetzt ja auch, nicht wahr :) … Andererseits gehe ich ueber Dinge deren Diskussion ueber mehrere Artikel ging nur kurz nochmal rueber und beim letzten Mal habe ich sogar zwei Sachen in nur einen Beitrag gepackt … das ist ja schon was :)

Hier zeigte ich das erste Mal einen doppellogarithmischen Plot. Dabei untersuchte ich, wieviele Zitierungen eine Seite erhalten hat und erstellte davon ein Histogramm. Zu meiner (damaligen) Ueberraschung folgte das einem maechtigen Gesetz. Im linken Diagramm in diesem Bild …

… ist in grau nochmals das vormalige Resultat wiedergegeben und die gestrichelte lila Linie deutet besagtes maechtiges Gesetz an. Wie beim vorletzten Mal erwaehnt, kann die Information im „Schwanz“ nicht benutzt werden. Deswegen integrierte ich die Daten (bzw. addierte diese, woraus die Benutzung des Wortes kumulativ folgt). Bei normalen Grenzen fuer das Integral (also von x bis xmax, bzw. Anzahl Zitierungen von Interesse bis zur maximalen Anzahl Zitierungen) sind das die roten Datenpunkte.
Hier passiert nun eine Sache, die im Folgenden vermutlich øfter auftreten wird: das sieht zwar immer noch halbwegs linear aus (die blaue Linie), aber wenn man genauer hinschaut ist das doch ein bisschen gekruemmt. Das folgt also nicht komplett einem maechtigen Gesetz, aber in diesem Fall ist die Abweichung vllt. klein genug, sodass diese mglw. (stueckweise) parametrisiert werden kønnten und die allgemeine Aussage erhalten bleibt.

Ich hab beide Linien nur mit dem Auge reingelegt weil ich keine Lust mehr auf genaue Analysen habe.
Fuer die Rohdaten erhalte ich einen Anstieg von ungefaehr -2. Nach der Mathematik muesste ich dann fuer die integrierten Daten einen Anstieg von -1 erhalten. Ich „messe“ ca. -5/4. Das passt also nicht ganz genau, aber ich wuerde das als gut genug gelten lassen. Gut ist, dass der (fast) lineare Zusammenhang fuer die roten Punkte auf der Abzsisse (fast) zwei Grøszenordnungen laenger gilt.
Mit obiger Aussage bzgl. der Parametrisierung behaupte ich, dass der Prozess der „Integralisierung“ hier erfolgreich (genug) ist, auch wenn nicht alles bis auf’s letzte i-Tuepfelchen genau passt.

Ganz kurz zu den Punkten in oliv: bei denen hatte ich die Integralgrenzen „invertiert“ (also von 1 bis x). Beim letzten Mal hatte ich das nur fuer das Beispiel mit dem positiven Exponenten gezeigt. Hier fuert die „Invertierung“ der Integralgrenzen zu aehnlichen „Phaenomenen“ wie ebenda besprochen wurden. Deswegen gehe ich da nicht nochmal im Detail drauf ein; ich wollte das aber mal gezeigt haben.

Damit kann ich zum rechten Diagramm uebergehen. Die Rohdaten sind das Histogramm bzgl. der Links pro Seite und das zeigte ich hier zum ersten Mal. Ich empfehle das damalige Bild nochmals anzuschauen, denn dort benutzte ich noch ein Balkendiagramm anstatt Punkte und mit Ersterem sieht die (von Hand hereingelegte) Linie (hier nochmal reproduziert in Form der gestrichelten, lila Linie) durchaus vernuenftig aus … weil zwischen 100 und 1000 kleinere Balken im „Balkenwald“ einfach nicht sichtbar sind. Deswegen habe ich das hier Punkte benutzt und dann sieht die Linie nicht mehr ganz so vernuenftig aus.
Und tatsaechlich, wenn man zum Integral uebergeht (wieder die roten Daten), dann sieht man da doch schon eine deutliche Kruemmung. Das ist also nicht wie im linken Diagramm, wo eine gewisse „Linearitaet“ durchaus angenommen werden kønnte.

Die blaue gestrichelte Linie ist die lila Linie nur parallel nach oben verschoben. Wenn ich das so mache, kønnte ich unter Umstaenden (wieder) fuer eine (stueckweise) parametrisierte Linearitat argumentieren … beim ersten draufschauen haut das durchaus hin. … Die Mathematik stimmt dann also nicht mehr.

Das ist also eher ein „vermutlich-nicht-linear-oder-ganz-vielleicht-mit-Augen-zudruecken-stueckweise-parametrisiert-linear-aber-wenn-dann-anders-als-ein-einfacher-log-log-Plot-vermuten-lassen-wuerde“-Fall.
Das fetzt natuerlich auch, denn auch wenn das meine damalige Aussage stark veraendert, vermutlich sogar negiert, so kommt man mittels „Integralisierung“ den wahren Gegebenheiten damit doch naeher.

Das soll genug sein fuer heute. Ist ja schøn, dass gleich die ersten zwei Faelle zwischen die zwei „Kategorien“ (Bestaetigung und Falsifizierung vorherger Ergebnisse) fallen. Das erste Diagramm ist naeher an der Bestaetigung, das zweite naeher an der Falsifizierung … aber ganz so einfach ist’s natuerlich nie … was das Ganze ja ueberhaupt erst interessant macht, nicht wahr :) .

Ich bin gespannt, was das naechste Mal bringt.

Ich versprach beim letzten Mal Freude und die kann man anhand dieses Diagramms erfahren:

Und wie so oft sage ich hier zunaechst mein beruehmtes: aber der Reihe nach … tihihi.

Die grauen, als „Rohdaten“ beschriftete, Punkte sind das Resultat einer Simulation. Bei dieser unterlag die Wahrscheinlichkeit einen gegebenen, ganzzahligen (!) „Messwert“ im Intervall [1, 10k] zu erhalten einem simplen Potenzgesetz mit einem Exponent von -2.23 und keinen Vorfaktoren oder anderweitigen Konstanten.
Ich machte 100-tausend „Messungen“ und zaehlte wie oft jeder Messwert auftrat. Hier ist also in den grauen Punkten (mal wieder) ein Histogramm zu sehen und das verhaelt sich wie erwartet; eine Gerade im log-log-Plot … zumindest bis zu Messwerten von ca. 100 (ganz konkret geschah der „Schnitt“ bei 130). Auch erwartet ist der „Schwanz“ bei Messwerten ueber 100 hinaus. Mit bspw. 1000-2.23 = 2 x 10-7 ist die Wahrscheinlichkeit zwar sehr klein aber eben nicht null und bei 100k Messungen ist das nicht unplausibel den Wert 1000 ein Mal zu messen. Das ist also ECHT! Das sind KEINE Ausreiszer!

Die hohen Messwerte muss ich aber „abschneiden“, um mittels linearer Regression (lila, nicht durchgehende Kurve) den Anstieg der Geraden zu -2.2028 ermitteln zu kønnen. Das ist gar nicht mal so schlecht, bedeutete aber in diesem konkreten Fall, dass ich 133 Messwerte ignorieren muste … schade eigentlich, nicht wahr.

Aber keine Sorge, Rettung naht in Form der blauen Punkte welche so berechnet wurden:

Weil es sich hierbei um diskrete Werte handelt kann das Integral als eine einfache Summe berechnet werden. Ich werde das aber weiterhin als Integral bezeichnen (und betrachten).
Die Grenzen des Integrals sind so zu verstehen, dass der Wert desselbigen bei einem gegebenen Messwert x die Summe ueber ALLE f(x) von dem gegebenen Messwert bis zum maximalen Messwert ist.

Das kann man auch anders ausdruecken, indem man f(x) derart normiert, dass die Flaeche unter der Kurve 1 wird (der Anstieg aendert sich dadurch ja nicht). Dann kann f(x) direkt als die Wahrscheinlichkeit angesehen werden x zu messen. Das ist leicht zu verstehen, insb. wenn man in Betracht zieht was (wie oben beschrieben) bei der Simulation passiert, wenn eine „Messung“ gemacht wurde.
Bei dieser „Wahrscheinlichkeitsinterpretation“ entspricht ein Integralwert zu  einem gegebenen x der Wahrscheinlichkeit, dass eine Messung einen Wert produzieren wird der grøszer oder gleich x ist.
Diese Interpretation ist in vielen Situationen sehr hilfreich weswegen ich die hier erwaehne. Wirklich sinnvoll ist die aber nur fuer negative Exponenten (kleiner als -1).
Fuer positive Exponenten kommt man mit einer solchen Interpretation ganz schøn in die Bredouille; auch wenn die Mathematik natuerlich erhalten bleibt. Was der Grund ist, warum ich diese Interpretation eher vermeide und solche Normierungen im Weiteren nicht vornehme.

Zurueck zum Diagramm; man sieht leicht, dass ich bei den blauen Punkten auch Werte ueber 130 benutzen kann um den Anstieg selbiger zu ermitteln. Dieser betraegt -1.2486 und da es sich hierbei um das Integral handelt muss man dran denken, dass dieser um eins erniedrigt werden muss um den Exponenten zu erhalten.
Der Unterschied zum wahren (hier NICHT in Anfuehrungszeichen, da ich den exakten Exponenten fuer die Simulationen kenne) Wert betraegt fuer die „Rohdaten“ 0.0272 und fuer das Integral nur 0.0186. Letzteres ist also ca. 50% genauer. Der Unterschied hier ist aber nicht so wichtig (kann in anderen Zusammenhaengen aber wichtig werden.

Das Integral hat zwei (!) viel wichtigere Konsequenzen die weit ueber den kleineren Unterschied hinaus gehen. Zum Ersten muss ich KEINE (oder in anderen Zusammenhaengen weniger) Messwerte ausschlieszen UND zum Anderen ist der lineare Zusammenhang (hier auf der Abszisse) ueber zwei weitere Grøszenordnungen zu erkennen.
Ersteres ist selbsterklaerend und Letzteres ist krass urst gut, denn dadurch werden Ergebnisse robuster (und man kann denen dadurch noch mehr vertrauen).

In einer zweiten Simulation aenderte ich das Vorzeichen (aber nicht den Wert) des Exponenten; grosze Messwerte sind damit viel wahrscheinlicher als kleine Messwerte und das spiegelt sich in den grauen Punkten (linke Abszisse) in diesem Diagramm wider:

Der grøszte Unterschied zum ersten Diagramm ist, dass es keinen „Schwanz“ (der in diesem Fall zu kleineren Werten gehen muesste) gibt. Demnach kann ich auch keine Messwerte „ignorieren“ bei der linearen Regression (lila, nicht durchgehende Kurve) und selbige fuehrt zu einem Anstieg von +1.8832 … was ganz schøn schlecht ist.

Wenn man nun das Integral mit den Grenzen wie oben bildet, erhaelt man die schwarze Kurve (rechte Abszisse). Da passiert erstmal gar nichts und dann ganz pløtzlich passiert was sehr schnell. Das wird verstaendlich, wenn man (ausnahmsweise) die „Wahrscheinlichkeitsinterpretation“ her nimmt. Bei derartigen Grenzen besagte diese, dass der Integralwert zu einem gegebenen Messwert angibt, wie grosz die Wahrscheinlichkeit ist, diesen oder einen høheren Messwert zu erhalten. Weil hohe Messwerte sehr viel wahrscheinlicher sind als kleine Messwerte aendert sich der Integralwert zunaechst nicht stark und dann pløtzlich urst dolle.
Die schwarzen Punkte bilden sicherlich keine Gerade und diese „komische Sache“ fuehrte bei mir zu gehørigem Kopfzerbrechen … worauf ich ja aber im nicht Detail eingehen wollte. Ich sage nur so viel: die Mathematik ist hier nicht „kaputt“. Das ist nur eine der Sachen bei der kontinuierliche Mathematik die von minus Unendlich bis plus Unendlich reicht mit echten diskreten Messwerten „kollidiert“, die nicht mal bis Null (wichtig!) und sicher nicht bis Unendlich reichen. Man kann das fixen und dann wird das wieder schøn gerade, auch bei diesen Grenzen … das war zwar interessant auszuknobeln, aber wie gesagt, das soll hier nicht das Thema sein.

Anstatt das kompliziert zu machen gebe ich die viel einfachere Løsung (welche man in den blauen Punkten (auch rechte Abszisse) sieht) direkt an — „invertierte“ Integralgrenzen:

In der „Wahrscheinlichkeitsinterpretation“ wuerde das der Aussage entsprechen, dass der Integralwert zu einem gegebenen x angibt, einen Messwert _kleiner_ oder gleich x zu erhalten … aber wie erwaehnt, kann man die „Rohdaten“ bei positiven Exponenten NICHT mehr streng als Wahrscheinlichkeiten interpretieren (auszer in ganz konkreten Beispielen mit endlichen Messungen). Ich fand das nur so anschaulich, weswegen ich das erwaehne … aber das „vergesst“ ihr, meine lieben Leserinnen und Leser, ganz schnell wieder und merkt euch nur die schnelle Løsung um auch bei positiven Exponenten Geraden in log-log-Plots von Integralen zu erhalten.
Zum Glueck tritt dieser Fall zumindest bei der Analyse des Wikipedianetzwerkes nicht so haeufig auf.

Wieauchimmer, die lineare Regression des Integrals fuehrt zu einem Anstieg der blauen Punkte von +3.2282, was auch um eins reduziert werden muss und dann sehr nah am wahren Wert ist … das ist mal echt urst cool, wa!

Genug fuer heute. Beim naechsten Mal fange ich an, nochmal durch (fast) alle doppellogarithmischen Diagramme durch zu gehen. Das werden also ein paar Artikel. ABER ich schaue mir das nicht nochmal im Detail an; das werden also Artikel mit Bildern und (meist) nicht ganz so viel Text wie hier … mit der Ausnahme, wenn es was Neues oder Interessantes zu sehen gibt.

Heute geht’s mal schnell, denn ich mache nur die mathematische Einfuehrung zu dem was in den kommenden Artikeln kommt.

Hier begruendete ich, warum ich so gerne doppellogarithmische Plots zeige. Kurz zusammengefasst ist das so eine tolle Darstellungsweise, weil ich bei einem funktionalen Zusammenhang welcher einem Potenzgesetz …

… folgt, dann eine lineare Funktion …

… erhalte und der Anstieg der linearen Funktion in doppellogarithmisher Darstellung entspricht dem Exponenten in normaler Darstellung.
Das ist schon fetzig … aber beinhaltet oft auch einen subjektiven Faktor. Man muss naemlich schauen, welche im „Schwanz rumzappelnden“ Datenpunkte ignoriert werden muessen, damit die Gerade schøn passt; siehe bspw. hier, hier oder hier.

Nun beinhaltet der Schwanz aber mglw. noch Information. Ich brauchte viele Stunden mit Nachdenken, Probieren und Neuanalysiern bevor ich das Folgende wenigstens halbwegs verstanden hatte. Darauf gehe ich aber nicht naeher ein und sage kurz und knapp, dass man an besagte Information ran kommen kann, wenn man die Funktionswerte integriert.

Unter der Annahme, dass eine Grøsze sich nach einem maechtigen Gesetz verhaelt, ist das anhand eines Beispiels schnell erklaert. Mathematisch ist das sowieso ganz einfach, denn das Integral eines Potenzgesetzes …

… ist immer noch ein Potenzgesetz, nur mit einem um eins erhøhten Exponenten (und einem leicht veraenderten Vorfaktor, der interessiert hier aber nicht weiter und ich lasse den im Folgenden weg). Jaja, das ist ein unbestimmtes Integral und ich habe die Konstante weggelassen … das wird aber letztlich unten ein bestimmtes Integral, die Grenzen muessen aber diskutiert werden, und es geht doch sowieso nur um den Exponenten.

Obige Aequivalenz gilt natuerlich weiterhin …

… und das ist mal urst geil, denn unser Exponent A ist auch beim Integral der Funktionswerte unveraendert der Anstieg im log-log-Plot nur eben um eins erhøht … das absolute Glied ist anders, aber das interessiert uns meist eh nicht weiter.

Die Mathematik ist schøn (im aesthetischen Sinne) simpel und war nicht der Grund warum ich so lange brauchte das halbwegs zu verstehen. Vielmehr lag es daran, weil die Resultate aus der Anwendung besagter Mathematik auf meine bisherigen Ergebnisse nochmal interpretiert und verstanden werden mussten; Letzteres galt insb. fuer „komische“ Sachen … aber wie gesagt, darauf wollte ich nicht weiter eingehen … das passt hier nicht rein.

Warum mich das alles nun so sehr begeistert wird beim naechsten Mal ersichtlicher … *froi*.

Beim letzten Mal zeigte ich dasVerhaeltnis der totalen Links zur Linkfrequenz (per Linklevel) und …

[e]inzig von Interesse ist, dass das Maxium […] [dieses Verhaeltnisses] bei LL4 liegt, waehrend die [Verhaeltnisse der totalen Links zu den neuen Links bzw. den Selbstreferenzen] den grøszten Wert erst bei LL5 erreichen […]

Zur Erklaerung erinnere ich an die Entwicklung der totalen Links in Abhaengigkeit vom Linklevel. Das Maximum der Verteilung liegt bei LL4. Der Unterschied zum Wert bei LL5 ist aber eher klein (was wichtig ist).
In diesem Diagramm …

… sieht man nun, wie sich die drei anderen Grøszen von Interesse in Abhaengigkeit von den totalen Links entwickeln. Ich gebe zu, es ist etwas unuebersichtlich, ich gehe da aber Schritt fuer Schritt durch.

Das Folgende ist zu beachten (davon abgesehen, dass die Linien wieder nur der Visualisierung dienen, zwischen den Punkten gibt es keine Werte):
– Da die Anzahl der Selbstreferenzen (blau) so klein ist, brauchen die ihre eigene Ordinate (rechts) und die Zahlen der beiden Ordinaten unterscheiden sich um (ueber) 6 Grøszenordnungen!
– Die Zahlen zur Anzahl der totalen Links auf der Abzsisse sind nochmal (mehr als) einen Faktor 10 grøszer als die der Linkfrequenz (rot).
– Die Kurve der neuen Links (schwarz) und der Selbstreferenzen „geht“ im Uhrzeigersinn, die der Linkfrequenz hingegen im mathematisch positiven Drehsinn.

Im Allgemeinen gilt, dass die Anzahl der totalen Links immer grøszer ist als die der anderen drei Grøszen und fuer Letztere gilt, dass deren Zahlen „nach oben“ gehen wenn ich mehr totale Links habe und nach unten wenn derer weniger werden. Fuer alle Grøszen gelten aber unterschiedliche Limitierungen und deren „Dynamik“ von einem Linklevel zum naechsten ist unterschiedlich … hier wird’s jetzt kleinteilig

Die Selbstreferenzen sind am einfachsten zu erklaeren. Die Chance eine Selbstreferenz zu erhalten ist umso grøszer je naeher man am „Ursprung“ (also bei kleinen Linkleveln) ist. Deswegen macht die blaue Kurve als Einzige auch gleich auf LL1 einen solchen „Satz nach oben“. Die blaue Kurve steigt im Wesentlichen nur deswegen nach LL1 noch weiter an, weil dann (zunaechst) immer urst krass mehr totale Links zur Verfuegung stehen und davon eben auch welche Selbstreferenzen sind. Aber nach LL3 ist damit Schluss, die Chance eine Selbstreferenz zu erhalten ist zu klein und trotz weiter wachsender totaler Links nimmt der Wert der Selbstreferenzen nach LL3 ab. Weil die totalen Links bis LL4 weiter wachsen, nimmt auch das Verhaeltniss weiter zu.
Dass Selbiges aber auch noch zu LL5 waechst, trotz abnehmender totaler Links, liegt daran, weil die Selbstreferenzen schneller weniger werden. Die Anzahl Letzterer reduziert sich in diesem Schritt auf nur ca. 1/3 (von ca. 29M auf ca. 9M) waehrend die Anzahl der totalen Links nur auf etwas mehr als 4/5 reduziert wird (von ca. 390T auf ca. 330T).
Nach dem Maximum geht die Kurve aber wieder runter, weil sich der eben erwaehnte Umstand umkehrt; die totalen Links nehmen schneller ab als die Anzahl der Selbstreferenzen. Ich gebe zu, das sieht man nur bedingt im Grafen.
Sobald das Linknetzwerk sicher im Bereich der Zitierketten ist pegelt sich alles ein und beide Grøszen vermindern sich gleich schnell (wenn auch mit unterschiedlichen absoluten Werten), woraus die (mehr oder weniger) gerade Linie bei høheren und hohen Linkleveln folgt.

Bei den neuen Links liegt im Wesentlichen die gleiche Situation vor. Bis LL4 nimmt deren Anzahl zu, vor allem weil es einfach immer mehr totale Links gibt und davon sind halt etliche auch neu. Wenn man die Zahlen bis LL4 aufsummiert und durch die Anzahl alle Seiten teilt sieht man, dass jede Ursprungsseite bis dorthin (im Durchschnitt) bereits ueber 4 Millionen neue Links gesehen hat. Von LL4 zu LL5 liegt die gleiche Situation wie bei den Selbstreferenzen vor (aber aus anderen Gruenden). Eine Ursprungsseite sieht zwar immer noch viele totale Links (deren Anzahl nimmt nur geringfuegig ab) aber bis LL4 sind bereits 2/3 aller møglichen Links gesehen worden, es sind also nicht mehr viele ueber die als „neu“ gelten kønnen. Deswegen geht das Verhaeltniss der beiden Grøszen weiter nach oben; wie bei den Selbstreferenzen, so nehmen auch die neuen Links auf LL5 schneller ab als die totalen Links.
Dann werden diese beiden Grøszen bis ca. LL10 „im Gleichschritt“ weniger woraus das „Plateau“ folgt (und was man im Grafen wieder nur bedingt sehen kann). Der „Absacker“ im Verhaeltniss bei ungefaehr LL10 liegt darin, weil dort das Ensemble aller Wikipediaseiten (relativ schnell) zu groszen Teilen in die Zitierketten uebergegangen ist. Und da gibt es dann nur noch ein paar weniger neue Links und deren Anzahl im Verhaeltniss zu den totalen Links ist immer gleich, weil im Durchschnitt alle Seiten gleich viele totale Links (ca. 10 bis 30) haben und in einer Zitierkette im Durchschnitt immer nur ein neuer Link zu sehen ist.

Auf zur Linkfrequenz und dafuer muss man sich (wieder mal) erinnern, wie diese zustande kommt … das kann man hier nachlesen und ich baue darauf auf … in kurz ist die Linkfrequenz die „gedeckelte“ Anzahl der totalen Links … aber der Reihe nach.
Auf LL4 gibt es in der Summe fast 400 Billiarden totale Links. Bei ca. 6 Millionen Ursprungsseiten bedeutet dies, dass jede Ursprungsseite auf LL4 die Links zu ca. 65 Millionen Wikipediaseiten sieht. Von Ausnahmen (die bei diesen Zahlen aber nicht so schwerwiegend sind, dass sie die hier getaetigten Aussagen ungueltig machen wuerden) abgesehen, bedeutet das im Wesentlichen, dass jede Ursprungsseite auf LL4 jede (!) andere Seite 10 Mal sieht. Fuer die Linkfrequenz wird die dann nur ein mal gezaehlt (deswegen gedeckelt). Der wirkliche Wert der (Summe der) Linkfrequenz (aller Seiten, per Linklevel) auf LL4 liegt bei ca. 24 Billiarden was nahe genug dran ist an der eben durchgefuehrten Ueberschlagsrechnung (nicht mal ein Faktor 2 Unterschied … gut wa!).
Oder anders: wenn hinreichend viele totale Links vorhanden sind, ist der Linkfrequenzzaehler fuer alle Seiten maximal, weil sie eben von jeder Ursprungsseite aus kommend „gesehen“ werden.

Das ist der wesentliche Unterschied zu den Selbstreferenzen und den neuen Links. Wie oben gesagt ist die Anzahl der Ersteren von den totalen Links abhaengig, besagte Anzahl wird aber dadurch (massiv) eingeschraenkt, weil die Wahrscheinlichkeit fuer eine Selbstreferenz mit zunehmendem Linklevel rapide (!) abnimmt. Der erste Teil dieser Aussage gilt auch fuer neue Links, deren Anzahl wird aber deswegen eingeschraenkt, weil jeder ein Mal gesehene Link beim zweiten Mal nicht mehr neu ist und deswegen nicht mehr gezaehlt wird.

Fuer die Linkfrequenz gilt keine dieser Einschraenkungen. Und deshalb bleibt deren Zaehler auf LL5 grosz, bei gleichzeitiger (hinreichend kleiner) Abhnahme der Anzahl der totalen Links, was zu einem kleineren Verhaeltnis dieser beiden Grøszen fuehrt, anstatt zu einem weiter ansteigenden.
Danach geht’s dann ganz fix in die „Zitierkettenphase“ mit dem Umstand, dass in den Zitierketten im Wesentlichen die totalen Links (fast) der Linkfrequenz entsprechen.

Zum Abschluss dazu sei gesagt, dass das alles bekannt ist. Hier kommen aber einige der vorhergehenden Erkentnisse zusammen und alle werden gebraucht um so eine kleine Diskrepanz eines um ein Linklevel verschobenen Maximums zu verstehen.

Schade, dass es so ein antiklimaktischer Ausstieg aus der Analyse der Daten zum Wikipedialinknetzwerk ist. Aber so ist das nun mal in der Wissenschaft. Das Allermeiste ist kleinteilig, muss genau betrachtet werden und ist fuer Auszenstehende oft eher langweilig … siehe auch hier und hier. Und so war es ja eigentlich schon auf der ganzen „Reise“ … viel „Routine“, gesprinkelt mit ein paar coolen Entdeckungen.

Das ist aber noch nicht ganz das Ende von Kevin Bacon. Ich møchte noch eine Sache ansprechen und eine Zusammenfassung schreiben … und vielleicht auch noch ein bisschen Meta diskutieren, aber da bin ich mir gerade noch nicht so sicher.

… und das ist das Verhaeltnis der totalen Links zur Linkfrequenz per Linklevel.
Zur Erinnerung: bei den neuen Links kam ich zu dem Schluss, dass besagtes Verhaeltnis im Wesentlichen konstant ist (auch wenn man da drei „Stufen“ ausmachen kann).
Bei den Selbstreferenzen war ich ueberrascht, dass das auch einen konstanten Wert annimmt. Durch die Entdeckung der „Zitierketten“, dass aus diesen heraus populaere Seiten zitiert werden und dass die Anzahl der totalen Links im Durchschnitt sehr aehnlich ist fuer Kettenseiten, ist das Ueberraschende als aufgeklaert anzusehen. Bezugnehmend auf die erwaehnten „Stufen“ bei den neuen Links, spekuliere ich bzgl. der Selbstreferenzen, ob es zwischen LL9 und LL22 mglw. einen Mechanismus gibt (welchen ich mittels des Analogons einer „Strømung“ versuche zu veranschaulichen), der fuer die Form der Kurve verantwortlich ist. Ich denke, dass ich da meiner eigenen Mustererkennung auf den Leim gegangen bin. Das Einzige was da sein kønnte ist wieder im Zusammenhang der Zitierketten zu sehen, denn in dem Bereich geht die Menge dieser viel schneller nach unten als nach LL22. Aber das ist kein extra Mechanismus sondern nur dem Umstand geschuldet, dass es deutlich mehr kurze als (sehr) lange Zitierketten gibt. Damit sind die zwei Sachen auch geklaert und die „Stufen“ sind nicht als eigenstaendiges Phaenomen sondern nur als Schwankungen der „Messwerte“ anzusehen.

Diese beiden bereits behandelten Verhaeltnisse sind in diesem Diagramm nochmals zum Vergleich in blassschwarz und blassblau eingetragen, zusammen mit dem was ich oben „verspreche“ (on kraeftigem rot):

Das ist eigentlich vøllig langweilig. Wie nach vorherigen Untersuchungen zu erwarten war, geht die Kurve sehr schnell dem Grenzwert 1 entgegen. Von allen Verhaeltnisses ist bei der die Linkfrequenz im Nenner steht am kleinsten. Auch dies kann wieder durch dadurch erklaert werden, dass die Linkfrequenz im wesentlichen die „gedeckelte“ Anzahl der totalen Links ist, ein Umstand auf den ich bei den erwaehnten vorherigen Untersuchungen genauer eingegangen bin. Dies fuehrt dazu, dass der Wert des Nenners fuer diesen Fall, „naeher“ an den Wert des Zaehlers kommt.
Ach ja, die „Multiplikationswerte“ im Diagramm bedeuten, dass man fuer die gegebene Kurve den an der Ordinate abgelesenen Wert damit multiplizieren muss, um auf den wirklichen Wert fuer das jeweilige Verhaeltnis zu erhalten.

Einzig von Interesse ist, dass das Maxium der roten Kurve bei LL4 liegt, waehrend die anderen beiden Kurven den grøszten Wert erst bei LL5 erreichen (das Gezappel des Verhaeltnisses der neuen Links um den Wert 15 (x5) interpretiere ich als „Plateau das den Høchstwert annimmt“). Die Erklaerung dafuer ist einleuchtend und folgt aus der schrittweisen Entwicklung der Grøszen innerhalb des (gesamten) Linknetzwerkes.

Die Erklaerung ist leider eher weniger spannend und sehr kleinteilig. Aber das ist ja nix Neues und trifft auf etliche Beitraege in dieser Maxiserie zu.
Weil hier viele Erkentnisse zusammen kommen und gleichzeitig bedacht werden muessen, mache ich mich da deswegen beim naechsten Mal trotzdem dran.

Beim vorletzten Mal stellte ich die Entwicklung der zitierten Seiten vor. Diese Grøsze kann man nicht direkt als Ordnungsparameter benutzen aber beim letzten Mal zeigte ich, dass der daraus gewinnbare „Volumenanteil“ der Kettenseiten an allen Zitaten sehr wohl als ein solcher benutzt werden kann.
Heute nun zeige ich, dass das viel einfacher geht. Ich wollte aber den „Volumenanteil“ zuerst abgehandelt haben, denn ich denke, dass dieser intuitiver als Ordnungsparameter zu verstehen ist.

Wieauchimmer, viel leichter aus den Messungen „herauszuziehen“ ist die Entwicklung der UNzitierten Seiten und weil die Daten nicht so zappeln sieht der entsprechende Graf auch viel besser aus als der Graf vom „Volumenanteil“ vom letzten Mal:

Vor der Normierung der Daten wurde von diesen der Wert aller Seiten die niemals zitiert werden abgezogen; Letztere entsprechen nur einem „Offset“ und ich wollte das Nulllevel auch auf Null haben.

Aber moment Mal! Die Anzahl der UNzitierten Seiten ist doch nur die Anzahl aller Seiten minus die zitierten Seiten … also das „umgedrehte“ Ergebnis vom vorletzten Mal. Wieso war Letzteres kein Ordnungsparameter, das „Umgedrehte“ aber doch?
Um diese Frage zu beantworten, musste ich eine ganze Weile gruebeln, aber im Grunde ist es gar nicht so kontraintuitiv. In kurz: in einem Gas herrscht UNordnung, denn dort wuseln alle Teilchen umher und kollidieren die ganze Zeit mit allen anderen Teilchen. Wenn das Gas zur Fluessigkeit kondensiert ist, herrscht Ordnung, denn die selben Teilchen wuseln nicht mehr so dolle umher und kollidieren entsprechend nicht mehr mit allen anderen Teilchen.
Fuer das System des Wikipedialinknetzwerkes habe ich < Kollision > mit < wird zitiert > gleichgesetzt. Die Anzahl der UNzitierten Seiten drueckt dann aus, wieviele Seiten aus dem „Gewusel“ heraus genommen wurden und somit auch nicht mehr zur Unordnung beitragen kønnen. Entsprechend ist die Anzahl der UNzitierten Seiten ein direktes Masz fuer die Ordnung … … … und das geht sogar ganz von allein in die richtig Richtung (von wenig zu viel).

Nun war es aber so, dass bei der Entwicklung der zitierten Seiten …

[…] noch ziemlich viel „nach hinten raus“ passiert […] [,]

… was man in der logarithmischen Darstellung sah. Das war ein wichtiger Punkt bzgl. der Ungeeignetheit der „zitierten Seiten“ als Ordnungsparaemter. Wieso scheint sich das nicht auf die „umgedrehten“ Daten zu uebertragen (siehe die rote Kurve im Diagramm)? Nun ja, das Wørtchen „scheint“ ist wichtig, denn natuerlich uebertraegt sich das auch auf die „umgedrehten“ Daten. Aber die relative Aenderung dreht sich AUCH um und deswegen spielt das keine Rolle mehr.
Eine kurze Erklaerung fuer jeweils LL65 zu LL37. Bei den zitierten Seiten betraegt der jeweilige Wert 92 bzw. 4572. Das ist ein absoluter Unterschied von 4480 (zitierten) Seiten und ein relativer Unterschied von fast 5000 (!) Prozent … also dreieinhalb Grøszenordnungen! Bei den UNzitierten Seiten betragen die Werte 5,798,220 Seiten und 5,793,740 Seiten, was AUCH einem absoluten (!) Unterscheid von 4480 Seiten entspricht. Das MUSS ja zwingend (!) so sein. ABER der der relative Unterschied betraegt gerade mal 0.077 Prozent … normiert kønnen diese Werte also mit einem guten Gewissen als Eins gesetzt werden.

Das fetzt wa! Und weil sich der „Volumenanteil“ der Kettenseiten an allen Zitaten aus dem „umgedrehten“ der obigen Kurve berechnet muss da auch das Gleiche bei rauskommen … … … nur wenn man die zwei Kurven miteinander vergleicht (linkes Diagramm) …

… dann sieht das so aus, als ob der Start (und eingeschraenkt auch das Ende) des Phasenuebergangs an sich um zwei Linklevel verschoben ist. Das muss diskutiert werden und da widme ich mich zunaechst dem „Ende“ des Phasenuebergangs.

Mit einer gestrichelten Linie legte ich beim letzten Mal den durchschnittlichen Plateauwert des „Volumenanteils“ (nach dem Phasenuebergang) fest. Dieser lag bei 0.002 und der „Volumenanteil“ passiert diesen Wert zwischen LL11 und LL12 wo es ungefaehr 1000 Familien gibt. Die ca. 1000 Familien muss ich mit der Breite der Antwortfunktion multiplizieren und dann noch mal mit den (fuer Kettenseiten) 50 durchschnittlichen Links (cf. die Diskussion diesbezueglich beim letzten Mal). Das ergibt 500k zitierte Links an dieser Stelle was ungefaehr 10 % aller Wikipediaseiten entspricht. Im Umkehrschluss bedeutet dies, dass die Kurve fuer die Anzahl der normierten Links zwischen LL11 und LL12 von unter 90 % auf ueber 90 % springen muss.
Im linken Diagramm legte ich gestrichelte Linien rein, mit deren Hilfe man (leichter) sieht, dass dies der Fall ist (der Wert von 0.002 beim letzten Mal entspricht in der der normierten Kurve einem Wert von ungefaehr 0.5).

Leider ist die Sache bzgl. des Starts des Phasenuebergangs nicht so einfach. Es scheint, dass der Anteil der UNzitierten Links ab LL8 ansteigt, waehrend das fuer den „Volumenanteil“ erst bei LL10 der Fall ist. Eine logarithmische Darstellung aendert daran auch nix.
Dazu sage ich frei heraus: auch mein geuebter Blick wurde getaeuscht, denn ich bin auf die Aenderung absoluter Grøszen hereingefallen. Anders gesagt: hier gilt eine Art Umkehrung dessen was ich oben schrieb bzgl. der relativen Aenderung und der Sachverhalt ist im rechten Diagramm gezeigt. Aber der Reihe nach denn was ich da gemacht habe ist etwas komplizierter.

Natuerlich bin ich letztlich an absoluten Aenderungen interessiert, aber diese werden durch relative Aenderungen von einem Linklevel zum naechsten „getrieben“. Deswegen habe ich fuer die Kurven im rechten Diagramm zunaechst die Differenz der entsprechenden Werte von einem Linklevel zum vorhergehenden Linklevel berechnet. Danach schaute ich, wie grosz diese Aenderung im Vergleich zum absoluten Wert des vorhergehenden Linklevels war. Wie gesagt, dass ist im Wesentlichen das Gleiche wie weiter oben erklaert (nur „umgedreht“).
Die relative Aenderung ist uebrigens sowas wie die zweite Ableitung. Ich schaue also wie sich die Aenderung aendert.

In der rechten Abbildung erkennt man, dass die „Wuselphase“ (mit vielen Kollisionen / Zitaten) bei kleinen Linkleveln sehr stabil ist und bis LL6 immer stabiler wird. Die Werte des „Volumenanteils“ bzw. der UNzitierten Links aendern sich weniger und weniger im Vergleich zum vorherigen Linklevel. Deswegen ist das in der linken Abbildung eine gerade Linie. Bei LL7 nimmt die relative Aenderung fuer beide Kurven leicht zu. Dadurch dass es vorher einen eindeutigen Trend in beiden Grøszen gibt, kønnte man argumentieren, dass der Phasenuebergang hier los geht. Ich bin mit dieser Aussage aber eher vorsichtig, denn der „Sprung“ entspricht nur einem Faktor vier zum LL6 und das liegt definitiv innerhalb der Schwankungsbreite. Dann auf LL8 springen BEIDE Kurven pløtzlich um einen Faktor von ueber 100 nach oben. Hier wuerde ich also definitiv sagen, dass der Phasenuebergang los geht und man sieht, dass dasfuer beide Grøszen zum selben Linklevel geschieht. Das ist gut, denn das muss ja (wie oben gesagt) so sein, weil der „Volumenanteil“ aus der „Umkehrung“ der UNzitierten Links berechnet wird.
Aber warum sieht man das nicht im linken Diagramm?

Auch das ist einfach erklaert, am Beispiel der Aenderung der Werte von LL7 zu LL8. Der Wert der relativen Aenderung des „Volumenanteils“ betraegt ca. 0.02 % und des Anteils der UNzitierten Links 0.69 %. Ersteres bedeutet, dass sich erst die fuenfte Nachkommastelle des absoluten Wertes des „Volumenanteils“ aendert, waehrend bei den UNzitierten Links bereits die dritte Nachkommastelle (des absoluten Wertes) betroffen ist. Wenn der erste Wert um einen Faktor 100 zu nimmt, dann ist das zwar eine grosze relative Aenderung auf 2 % aber letztlich ist auch dann nur die dritte Nachkommastelle betroffen und solch kleine Aenderungen sieht man eben nicht im linken Diagramm waehrend sich eine Aenderung um (ueber) 69 % deutlich bemerkbar macht.

Aber eigtl.  gibt es hier gar kein Mysterium denn wie gesagt ist der „Volumenanteil“ abhaengig von den (UN)zitierten Links. Ich habe die Diskussion dennoch so lang und breit durchgefuehrt, weil es im linken Diagramm der zweiten Abbidung nicht so aussieht und solche Diskrepanzen muss man verstehen bevor man weitergehen kann.

Festzuhalten ist das Folgende: anstatt des „Volumenanteils“ der Kettenseiten an allen Zitaten kann die Anzahl der UNzitierten Links als Ordnungsparameter genutzt werden. Das ist prima, denn Letzteres ist eindeutiger und man muss dafuer nicht die Anzahl der Familien bestimmen.

SO … genug fuer heute … und auch genug bzgl. der Ordnungsparameter … und auch genug bzgl. der Phasen … ich kann hier also ohne viel Pomp abschlieszen, dass ich tatsaechlich einen Phasenuebergang im Wikipedialinknetzwerk gefunden habe … das ist schon ziemlich famos!
Nun muss ich mal schauen, was ich als naechstes machen kann … viel ist nicht mehr ueber … aber das dachte ich schon vor einem Jahr.

Beim letzten Mal erklaerte ich, dass man mittels der Anzahl den „Volumenanteil“ der Kettenseiten an allen Zitaten als Ordnungsparameter gewinnen kann. Ich zeigte wie sich die Anzahl der zitierten Seiten entwickelt und schloss mit drei Problemen ab:

Zum Ersten zitieren Kettenseiten auch andere Seiten. Zum Zweiten bewegt sich das Ensemble nicht als Diracsche δ-Funktion durch die Kette, sondern mit endlicher Breite (es kommt also zum Ueberlapp bei den Zitaten). Zum Dritten gibt es mehr als eine Kette.

Bzgl. der zitierten Seiten an sich ist das nicht so schlimm, muss aber diskutiert werden bzgl. des „Volumenanteils“ der Kettenseiten an allen Zitaten.
Ersteres ist handhabbar, denn der Anteil der Ketten an allen zitierten Seiten ist bei fruehen Linkleveln sehr klein, und bei spaeten deutlich grøszer. Fuer eine Abschaetzung nehme ich 5 Millionen Seiten am Anfang. Die Anzahl der Ketten ist unbekannt, aber aus den Ergebnissen die ich habe  _ueber_abschaetze ich die auf 5000 fuer kleine Linklevel. Wenn man das so macht, erhaelt man einen „Volumenanteil“ von 0.1 %.
Nota bene: hier darf man NICHT die Anzahl aller Kettenseiten nehmen sondern nur die Anzahl der Ketten, denn auf jedem Linklevel (auch auf kleinen) wird immer nur eine Seite (oder zwei) einer Kette zitiert … … … OKOK, streng genommen muesste man die Anzahl der Familien mit der Breite des jeweiligen Kettensignals multiplizieren; das waere aber nur ein konstanter Faktor fuer alle Linklevel und kann somit weggelassen werden)
Bei hohen Linkleveln gibt es NUR noch Ketten. Jede von diesen zitiert im Durchschnitt 10 bis 30 andere Seiten was ich zu 50 Zitaten _ueber_abschaetze. Das fuehrt zu einem Volumenanteil von 2 %. Das ist immer noch wenig, aber fast anderthalb Grøszenordnungen besser und ich denke durchaus „messbar“.
Bei einer realistischen Abschaetzung (weniger Familien am Anfang und weniger durchschnittliche Zitate per Seite) verbessert sich das Signal um etwas mehr als zwei Grøszenordnungen.

Das Zweite Problem kønnte man vermutlich durch extremes Erbsenzaehlen verhindern. Da habe ich aber sowas von gar keine Lust drauf und muss dann halt damit leben, dass das Signal insb. bei høheren Linkleveln stark schwankt. So lange das qualitativ alles stimmt, reicht mir das und ich tue einfach so, als wenn sich das Ensemble wie eine Diracsche δ-Funktion durch die Ketten bewegt.

Das dritte Problem ist massiv, denn ich kenne die Anzahl der Familien fuer kleine Linklevel nicht bzw. enthaelt diese Zahl waerend des Phasenuebergangs gewisse Unsicherheiten.
Die erste Sache kann ich aus den bereits oben verlinkten bisherigen Ergebnissen abschaetzen und ich setze die Anzahl Anzahl der Familien auf konstant 1000 fuer Linklevel kleiner LL9. Bzgl. der zweiten Sache kønnte ich wieder durch Erbsenzaehlen die Unsicherheit minimieren … oder an die Sache herangehen wie ich es bezueglich des zweiten Problems mache: es reicht mir, wenn das qualitativ stimmt.

Ach so, ganz wichtig ist das was ich hier im „[w]ichtige[n] Einschub“ sagte. Denn auch wenn ich eine Kette nicht mehr erkenne, so bewegen sich die Nachzuegler noch drei weitere Linklevel darin und das muss man mitzaehlen. Das fuehrt dann bspw. dazu, dass bis LL11 die Anzahl der Familien als 1000 angenommen wird.

Nimmt man nun die Anzahl der Familien und dividiert diese durch die Anzahl der zitierten Seiten (beides pro Linklevel) erhaelt man den „Volumenanteil“ der Kettenseiten an allen Zitaten (wie so oft dienen die Linien zwischen den Punkten nur zur Besserung Fuehrung des Auges):

AHA! Das ist zwar alles ein bisschen krumm und schief, aber die Werte sind klein bei kleinen Linkleveln, nehmen ab LL9 sehr schnell zu und erreichen schon bei LL12 einen Plateauwert. Die Zunahme betraegt etwas mehr als eine Grøszenordnung zwischen dem „Grundniveau“ bei kleinem Linkleveln und dem ungefaehren Mittelwert des Plateaus (die graue, gestrichelte Linie ist NICHT der genaue, berechnete Mittelwert; die habe ich nur so Pi-mal-Daumen reingelegt). Besagte Zunahme ist also echt und so wie das qualitativ aussieht wuerde ich das von einem Ordnungsparameter erwarten.
Wie erwartet schwankt der Plateuwert. Die Schwankungen betragen nur ca. einen Faktor zwei um den Mittelwert. Qualitativ kann man sagen, dass der Wert konstant ist … wie ich es von einem Ordnungsparameter erwarten wuerde. Das ist ein GANZ wichtiger Unterschied zur Anzahl der zitierten Seiten, welche ja auch bei groszen und ganz groszen Linkleveln stetig abnimmt (also NICHT konstant ist).

Ich gehe nur bis LL66 weil ich nur bis dort die Familien gezaehlt habe. Eigentlich geht das noch ein paar Linklevel weiter; siehe der Hinweis auf den „wichtigen Einschub“ oben. Das tut aber nix zur Sache.
Apropos ganz hohe Linklevel; ich wuerde NICHT sagen, dass der „Volumenanteil“ ab LL50 einen weiteren Sprung macht. Hier ist nur noch das „São Paulo FC“-Artefakt ueber UND dessen Signal in der Linkfrequenz ueberlappt ueber mehrere Jahre. Ab LL50 wird demnach nur noch eine Familie durch die Zitate aller (ueberlappenden) Jahre geteilt. Weil dann aber mehr und mehr Vorlaefer „raus fallen“ nimmt der Teiler irgendwann immer mehr ab und das sieht aus wie’n stetiger Anstieg.

Eine Sache bleibt noch und das ist der kleine Absolutwert des Plateaus. Bei „Volumenanteil“ wuerde ich erwarten, dass der gegen Eins geht, die gestrichelte Linie liegt aber bei 0.002, also 1/500 von 1.
Das machte mich etwas stutzig aber zumindest einen Teil des Raetsels konnte ich schnell løsen und ist wieder „nur“ Problem #2. Wenn sich das Ensemble durch die Ketten bewegt tut es das eben nicht wie eine Diracsche δ-Funktion. Vielmehr sind immer mehrere Kettenseiten „aktiviert“ weil die Antwortfunktion (in Form der Linkfrequenz) eine endliche Breite hat. Bei obigen Betrachtungen habe ich diesen Aspekt ja mit Absicht auszer Acht gelassen. Ich wuerde sagen, dass 10 Linklevel im Schnitt ueberdeckt werden … eigtl. 11 mit Reflexionen (von denen ich annehme, dass die meistens auftreten) und 9 ohne Reflexion und dann weniger wenn man sich dem Ende einer Kette naehert … alles nicht so einfach, aber 10 Linklevel Ueberdeckung fuehlt sich brauchbar an und damit kann man leicht rechnen. Diesen Sachverhalt mit einbezogen wuerde die gestrichelte Linine bei 0.02 liegen.

Nun wird fuer den „Volumenanteil“ die Anzahl der Familien durch die Anzahl der zitierten Seiten geteilt. Bei einem Wert von 0.02 wuerde das aber durchschnittlich 50 zitierten Seiten entsprechen. Das liegt zwar immer noch innerhalb meiner ersten (konservativen) Abschaetzung waere aber ca. einen Faktor zwei grøszer als was ich von normalen Wikipediaseiten annehmen wuerde. Und ehrlich gesagt, so kønnte das schon so sein, denn die Ketten sind ja oft Listen die etwas aus einem bestimmten Jahr aufzaehlen. Ich griff zufaellig 1885 in Australian literature heraus und zaehle 31 Links … mhmmm … das liegt zwar an der oberen Grenze fuer normale Seiten aber doch noch ca. den Faktor 2 entfernt von 50.
Deswegen schaute ich mal systematisch und die Kettenseiten auf LL20 (22 an der Zahl) haben im Durchschnitt tatsaechlich 40 Links. Fuer LL10 sind es sogar 44 Links und von den dort gefundenen 1860 Kettenseiten (ACHTUNG: das hier und hier Gesagte gilt aber fuer eine Abschaetzung muss ich das nicht betrachten … zumal die „falschen Ketten“ (und deren Links) ja sowieso in der obigen Rechnung mit benutzt werden) haben ueber 15 % mehr als 50 Links. So hat bspw. die List of members of the 3rd Jatiya Sangsad 605 Links. Wenn das oft genug passiert, wird der (durchschnittlichen) Wert des Divisors fuer den „Volumenanteil“ genug angehoben um naeher an die 50 zu kommen.
Wieauchimmer, 40 oder 44 durchschnittliche Links pro Kettenseite bring die gestrichelte Linie nahe genug an die Eins, sodass ich diese Diskrepanz als geløst betrachte.

Dies alles besprochen halte ich fest, dass man als einen (!) Ordnungsparamater den „Volumenanteil“ der Kettenseiten an allen Zitaten hernehmen kann UND dass dieser sich so verhaelt wie man das erwarten wuerde. Leider ist der „Volumenanteil“ umstaendlich zu berechnen und mit gewissen Nachteilen behaftet. Deswegen stellt sich die Frage: geht das nicht auch einfacher? … Und die Antwort ist JA! Sogar ueberraschend viel einfacher. Aber das muss genau diskutiert und mit einem bestaetigten Ordnungsparameter (dem „Volumenanteil“) verglichen werden, weswegen ich das auf das naechste Mal verschiebe.

Wenn, wie beim letzten Mal etabliert, das Ensemble aller Wikipediaseiten zwei Zustaende hat und es zu einem Phasenuebergang vom Einen in den Anderen kommt, so …

[…] stellt sich die Frage des Ordnungsparameters […].

Dafuer muss ich etwas weiter ausholen und man denke sich zunaechst einen (riesigen) Haufen mit gut durchmischten Legosteinen (der Einfachheit halber denke man sich den ikonischen 2×2 Stein, in verschiedenen Farben). Der Legosteinhaufen ist ein isotropes System. Das bedeutet, dass egal in welche Richtung ich einen Stab durch den Haufenstecke (von oben, unten, schraeg von hinten), so wird dieser (um Durchschnitt) immer gleich viele Steine und gleich viele Farben beruehren. Isotrope Systeme haben eine hohe Symmetrie und das ist voll toll, denn dadurch braucht man weniger Parameter um die zu beschreiben. Beim Stab ist die Orientierung vøllig egal, es kommt immer das Gleiche raus.
Trotz (oder wegen?) hoher Symmetrie ist andererseits die „Ordnung“ des Systems klein; der Haufen ist schlieszlich bunt durchmischt. Oder anders: der Ordnungsparameter ist null.

Nun stecke man die urst vielen Legosteine auf eine gigantische runde (!) Grundplatte (aber immer noch gut gemischt). Pløtzlich ist die Richtung des Stabes NICHT mehr egal. In der Ebene macht die Orientierung nichts aus, da gilt das Gleiche wie vorher. Aber wenn man den Stab senkrecht zur Ebene orientiert, dann sieht der immer nur noch einen Stein mit einer Farbe. Das System der Legosteine ist nicht mehr isotrop, die Symmetrie ist gebrochen und man braucht einen weiteren Parameter um Selbiges vollstaendig beschreiben zu kønnen. Anders ausgedrueckt: durch den Symmetriebruch hat die Ordnung des Systems zugenommen.
Wenn man dann auch noch die Farben sortiert, benøtigt man einen weiteren Ordnungsparamter um das System nach dem Farbensortierphasenuebergang vollstaendig beschreiben zu kønnen

Im System des Wikipedialinknetzwerkes „wuselt“ das Ensemble aller Seiten vor dem Phasenuebergang ungeordnet umher und „kollidiert“ (via Zitate) mit allen (!) anderen Seiten. Nach dem Phasenuebergang bewegt es sich geordnet in den Ketten, von einer Kettenseite zur naechsten und kollidiert im einfachsten Bild nur noch mit den Kettenseiten.
In diesem einfachsten Bild bietet sich also der „Volumenanteil“ der Kettenseiten an allen Zitaten als Ordnungsparameter an. Dieser Anteil ist (nahe) Null vor dem Phasenuebergang und (um einfachsten Bild) eins danach.

Um besagten „Volumenanteil“ zu bestimmen muss man zunaechst wissen, wieviele Seiten pro Linklevel zitiert werden. Dazu  kann ich wieder die Linkfrequenz zu Hilfe nehmen.
Zur Erinnerung: bei der Linkfrequenz schaue ich ob Seite X auf einem gegebenen Linklevel Seite A zitiert; ist das der Fall, geht der Zaehler fuer dieses Linklevel fuer Seite A um eins hoch. Zitiert nun Seite Q ebenso Seite auf auf dem selben Linklevel, geht der Zaehler um noch eins hoch. Wenn ich nun fuer jede Seite und jedes Linklevel NUR schaue ob der Zaehler ungleich null ist, finde ich raus, wie viele Seiten pro Linklevel zitiert werden. Es kommt also zu einer weiteren Informationskomprimierung und das Ergebniss ist die schwarze Kurve in diesem Diagramm:

Toll wa! Die schwarze Kurve sieht doch schon fast so aus wie’n Ordnungsparameter … das Wørtchen „fast“ ist wichtig, denn leider ist die Entwicklung der schwarzen Kurve „falsch herum“ dafuer; von viel zu wenig anstatt von wenig zu viel wie oben beschrieben.
Bei der roten Kurve wurden die Daten auf die Anzahl aller zitierten Seiten normiert und mit logarithmischer Skala dargestellt. Durch die „logarithmische Streckung“ sieht man, dass fuer diese Grøsze noch ziemlich viel „nach hinten raus“ passiert und das passiert natuerlich, weil das reale Daten sind, welche sich nicht nach dem einfachsten Ansatz verhalten. und bei realen Daten hat man drei Schwierigkeiten. Zum Ersten zitieren Kettenseiten auch andere Seiten. Zum Zweiten bewegt sich das Ensemble nicht als Diracsche δ-Funktion durch die Kette, sondern mit endlicher Breite (es kommt also zum Ueberlapp bei den Zitaten). Zum Dritten gibt es mehr als eine Kette.

Damit der Artikel nicht so lange wird, verschiebe ich den Rest auf das naechste Mal.