Archive for the ‘Kevin Bacon’ Category

Zur Erinnerung: im allerersten Balken in der hier gezeigten Verteilung stecken 474.653 Seiten. Davon sind nur 7649 von der Sorte, die sich auf LL0 selbst zitieren und entweder keine oder niemals mehr als eine Selbstreferenz auf høheren Linkleveln haben. Damit muss ich nur noch erklaeren wo die restlichen 467.004 Seiten die dieses Signal ausmachen herkommen.

Natuerliche Kandidaten sind uns bereits vor fast genau einem Jahr begegnet. Es sind Seiten die niemals nicht zitiert werden (und damit in dem zweiten Grafen den schwarzen Streifen auf der linken Seite verursachen), aber selber andere Seiten zitieren. Damals waren die nur im grøszeren Zusammenhang von Interesse aber im Speziellen nicht weiter relevant. Aber im Zusammenhang mit dem Mysterium des hohen ersten Balkens der Verteilung der Maxima der Selbstreferenzen muss ich eben diese nun etwas genauer betrachten.

Solange eine Seite Links hat, hat diese prinzipiell Zugriff auf das gesamte Wikipedialinknetzwerk. Wenn diese Seite nun niemals woanders verlinkt wird, so fuehrt dies zu null Selbstreferenzen, trotzdem ich von der Seite den Rest des Linknetzwerkes abschreiten kann. So weit so klar und ich kann relativ einfach schauen, welche Seiten niemals nicht zitiert werden. Derer gibt es 320.089 … wow!
Es gibt sozusagen eine „isolierte Insel“ auf der ca. 5 % aller Wikipediaseiten „wohnen“. Von dieser Insel kommt man zwar weg (Links zu anderen Seiten) aber wenn man einmal weg ist, dann kommt man niemals zurueck (weil ja kein Inselbewohner zitiert wird).
Auch wenn mich die Menge etwas ueberrascht so ist das natuerlich gut mit Hinblick auf obiges Mysterium. Denn pløtzlich muss ich nur noch eine Erklaerung finden fuer 146.915 Seiten die zitiert werden, aber trotzdem keine Selbstreferenzen erhalten. Hier greift die obige, einfache Erklaerung nicht.

Nun denke man sich aber eine Seite, die zwar KEIN „Einwohner“ der (isolierten) „Insel der Verdammten Unzitierten“ ist. Diese  Seite wird dann sehr wohl zitiert, aber weiter denke man sich, dass diese(s) Zitat(e) NUR von besagter Insel kommen.
In dem Fall hat man auch null Selbstreferenzen, denn von der Seite komme ich ja niemals auf die Insel und somit kann das Selbstzitat auch niemals aktiviert werden.

So weit so gut. Ich schaute mal und tatsaechlich, ich habe 124.139 Seiten die zwar nicht Teil der „isolierten Insel“ sind, aber NUR von dort Zitate erhalten.
Cool wa! Damit bleiben nur 22.776 Seiten uebrig. Prinzipiell kønnte ich hier aufhøren und sagen, dass alles uebriggebliebene Unerklaerte nun so wenig ist, dass ich das getrost in den beruehmten Fehler druecken kann. Aber ich bin mit meinen Ideen noch nicht am Ende und das Prinzip der „Insel der Unzitierten“ haelt noch mehr in petto (was uebrigens nicht Latein sondern italienisch ist, obgleich auch aus dem Lateinischen abgeleitet) was auch so einiges ueber die Struktur des Linknetzwerkes beleuchtet. Dafuer muessen wir das Konzept aber von einer Insel zu einem Archipel erweitern. … Ich habe da mal was vorbereitet:

Die grosze Ellipse mit dem groszen Alpha drin soll die „isolierte Insel der Unzitierten“ darstellen. Die duennen, grauen Pfeile gehen zu Seiten die mit dem gesamten (restlichen) Linknetzwerk verbunden sind (aber natuerlich NICHT mit dieser Insel).
„Einwohner“ auf Alpha zitieren Einwohner auf den Beta und Gamma Inseln. Das ist durch die dicken, blauen Pfeile gekennzeichnet. Dies beruht aber nicht auf Gegenseitigkeit, denn von dort geht kein dicker, blauer Pfeil (und somit kein Zitat) zurueck. Damit kønnen Beta und Gamma NICHT Teil von Alpha sein, denn die werden ja zitiert (von Alpha) waehrend das Erkennungsmerkmal von Alpha gerade ist, dass die Seiten dort nicht zitiert werden. Gamma zitiert nun Delta und Delta zitiert Epsilon und von Epsilon komm ich nur zu Seiten im groszen Linknetzwerk.

Es bildet sich also eine Art Inselkette und das wichtige Merkmal dieser Kette ist, dass die Zitate immer nur in eine Richtung gehen und niemals zurueck! Sobald ich eine Insel verlassen habe, komme ich nie wieder auf diese zurueck.
Nun ist es aber keine Kette sondern vielmehr eben ein Archipel. Dies versuche ich mit den zwei Pfeilen zur Insel Gamma darzustellen. Oder anders: das Prinzip auf das ich hinaus will bleibt erhalten, auch wenn man Zitate von verschiedenen Inseln zulaeszt.

Was hat das nun mit unseren 22.776 Seiten zu tun, die oben noch uebrig geblieben sind? Zur Klaerung dieser Frage stelle man sich Folgendes vor: alle Einwohner von Insel Gamma gehøren zu diesen 22.776 Seiten (denn die werden ja zitiert (von Alpha und Beta)). Wenn ich mit einer Seite auf Insel Gamma starte, dann habe ich Zugriff auf das gesamte Linknetzwerk (via den duennen, grauen Pfeilen), aber von dort kommt ja niemals ein Zitat zurueck (und somit keine Selbstreferenz zustande). Die einzige Selbstreferenz kønnte von den Inseln Alpha oder Beta stammen, aber weil niemand von auszerhalb Alpha oder Beta zitiert und Insel Gamma dies auch nicht tut sind wir wieder bei obiger Situation, dass diese Selbstreferenzen niemals „aktiviert“ werden.

Aber Achtung! Waehrend die Existenz von Insel Alpha durchaus als plausibel von vornherein angenommen werden konnte, ist die Existenz eines solchen Archipels mitnichten zwangslaeufig!

Ich habe natuerlich mal geguckt und siehe da: es gibt ein solches no-way-home Archipel. Insgesamt besteht das Archipel aus 39 Inseln (inklusive der zuerst betrachteten „Insel der Unzitierten“), auf denen sich 451.792 Seiten tummeln. Die obigen 124.139 Seiten welche nicht Einwohner der „Insel der Unzitierten“ sind aber von dort zitiert werden, „wohnen“ also alle auf dem Archipel. Der Rest sind ebenso Bewohner des Archipels, die werden aber nicht von Insel Alpha zitiert.
Die weitaus meisten Inseln haben uebrigens drei oder weniger „Einwohner“; der allergrøszte Teil der „Einwohner“ treibt sich also auf nur drei Inseln rum.

Cool wa! Pløtzlich bleibt von den 474.653 Seiten im ersten Balken der Ursprung von nur noch 15.212 Seiten unerklaert. Das nenn ich mal einen riesigen Erfolg.
Ganz am Ende bin ich damit noch nicht. Denn das obige Konzept kann nochmals erweitert werden. Aber das mache ich beim naechsten Mal.

Wie schon bei den totalen und den neuen Links, schaute ich mir auch bei den Selbstreferenzen an, wo jeweils das Maximum der indivduellen Verteilung lag. Und hier erlebte ich diese Ueberraschung:

Ich meine natuerlich, dass sich das so unerwartet lang hin zieht. Diese Ueberraschung stellt sich dann aber gar nicht mehr als so interessant dar, wenn man das in Bezug setzt zur Anzahl der totalen Links. Man nehme bspw. LL10; dort gibt es noch insgesamt 222 Selbstzitate … bei immer noch ueber 200 Milliarden (!) Links total … ja gut, rein statistisch sollte das schonmal passieren. Nichtsdestotrotz komme ich nochmal kurz auf drei Seiten die zu den Messwerten ganz am Ende fuehren zurueck … weil’s kurios ist.

Wenn man die Anzahl aller Links auf einem Linklevel in Betracht zieht, dann „tuemmeln“ sich die Selbstreferenzen um Bereich des Erwarteten — sehr zum Anfang dieses Diagramms.
Ich bin also ein „Opfer“ des Gegenteils des hier als „logarithmische Komprimierung“ beschriebenen Effektes geworden: der logarithmischen Streckung und des Schaffens von (unnøtiger (?)) Aufmerksamkeit zu hohen Linkleveln und den dortigen kleinen Werten.

Wieauchimmer, die eigentliche Ueberraschung liegt vielmehr ganz am Anfang — buchstaeblich im ersten Balken: der ist naemlich urst hoch! Sagte ich nicht, dass es nur ca. 80k Selbstreferenzen (und alle sind Artefakte) auf LL0 gibt? Der Balken hat aber eine Amplitude von fast 500-tausend.
Um dies aufzuklaeren muss ich nochmals etwas weiter ausholen, was eigentlich hinter dem obigen Diagramm steckt.

Als ich das bei den totalen Links zum ersten Mal einfuehrte, erklaerte ich, wie dies zustande kam. Ich schaute mir fuer jede Seite an, auf welchem Linklevel diese die meisten totalen Links hatte. War besagtes Maximum bspw. auf LL5, so ging der Zaehler des Balkens bei LL5 um eins hoch. Wenn man sich die beispielhaft gezeigten individuellen Verteilungen nochmals anschaut, so sind das richtig schøne Kurven mit einem klaren Anfang, Maximum, Mittelteil und Ende.
Bei den neunen Links wird im Wesentlichen die gleiche Situation herrschen (von der Grøsze der Zahlen auf der Ordinate natuerlich abgesehen). Es gibt keinen Grund anzunehmen, dass dies dort anders sein sollte; dafuer sind diese beiden „Messgrøszen“ zu aehnlich.

Bei den Selbstreferenzen laufe ich aber in das Problem, dass ich davon nur so wenige habe. Erstmal kønnte das kein Problem, sein, denn auch bei kleinen Zahlen kann man (mehr oder weniger) „schøne Kurven“ haben. So wie im linken Diagramm in diesem Bild (Achtung: es gibt keine Werte zwischen den Punkten; die Linien sind nur da, damit man dem Verlauf eines Datensatzes besser folgen kann):

Bei der 1916 Democratic National Convention (schwarze Kurve im linken Diagramm) geht die Anzahl der Selbstreferenzen hoch, hat ein klar definiertes Maximum ungefaehr da wo auch das Maximum der totalen Links ist und geht dann schnell runter auf Null. Das ist also so wie oben beschrieben.
Das 10th Iowa Infantry Regiment (rote Kurve im linken Diagramm) duempelt recht lange bei kleinen Werten vor sich hin aber dann gibt es auch hier ein klares Maximum. Die Kurve folgt im Groben dem beschriebenen Schema.
Im Wesentlichen dito fuer die 10th Irish Film & Television Awards (blaue Kurve im linken Diagramm). Es gibt ein sehr breites (zweigeteiltes) Maximum gleich zum Anfang, aber die generellen Strukturen einer „schønen Kurve“ sind durchaus erkennbar.

Wichtig hieran sind zwei Sachen. Zum einen, dass „die Statistik“ (was immer das auch sein mag), also die Flaeche unter der Kurve, noch grosz genug ist um (relativ) gute Aussagen treffen zu kønnen. Zum Anderen verteilt sich besagte Statistik ueber einen (mehr oder weniger) ausgedehnten Bereich. Letzteres ist nøtig um ueberhaupt von einer „Kurve“ (welche analysierbar ist) sprechen zu kønnen.

Was aber mindestens genauso haeufig vorliegt, sieht man im rechten Diagramm (ACHTUNG: selbe Farben, unterschiedliche Seiten!). Ich habe die Linien weg gelassen, damit man das Ausmasz der Misere besser wahr nimmt.
Fuer das 1916 Furman Purple Hurricane football team versammeln sich (fast) alle Selbstreferenzen auf LL1 (plus eine einzige auf LL3). Ein Punkt ist keine Kurve (und immer das Maximum).
Bei den 10th Lambda Literary Awards verteilen sich die Werte zwar auf mehr als ein Linklevel, aber „die Statistik“ ist nicht so doll. Ist das ein „echtes“ Maximum bei LL3, blosz weil der Punkt dort mit einem Wert von zwei um eins høher ist als die Punkte bei LL1 bzw. LL4?
Und beides gleichzeitig liegt fuer das 10th Kisei vor.

Ich frag mich was es mit der Haeufung von 10’ern in den Beispielen auf sich hat. Naja, kommt sicherlich dadurch zustande, dass ich diese nur semi-zufaellig ausgewaehlt habe. Nicht vergessen, auch wenn ich hier die kompletten Titel hinschreibe, so arbeite ich intern mit Nummern. Und ich habe die Nummern fuer die Beispiele nicht aus allen 6 Millionen møglichen gezogen sondern nur unter den ersten 50-tausend die genommen, die fuer die Beispiele gepasst haben und auch repraesentativ waren. Das kønnte ja sein, dass es im Wikipediaquellcode ’ne Art lose Reihenfolge gibt. Dafuer spricht, dass alle Beispiele hier mit Zahlen anfangen und diese Zahlen alle ’ne „1“ am Anfang haben.

Wieauchimmer, ich schwoff ab. Mit dem bisher Gesagten laeszt sich die Form der Verteilung ganz oben teilweise erklaeren. Um beim dort erwaehnten Beispiel zu bleiben: ich finde es durchaus plausibel, dass 222 Seiten auf ein paar Linkleveln ein Mal, aber auf LL10 zwei Mal zitiert werden und somit zum Balken bei LL10 in besagter Verteilung beitragen.

Auch auf das Mysterium des (relativ) hohen Balkens bei LL0 werfen die obigen Aussagen etwas Licht. Der Grund liegt darin, dass wenn eine individuelle Verteilung „flach“ ist, dann wird das Maximum an den Anfang gelegt. Beispiel: eine Seite hat jeweils drei Selbstreferenzen auf LL5, LL17 und LL23; das Maximum wird nun zu LL5 „gelegt“ obwohl die anderen beiden Messwerte ja gleich grosz sind … aber so ist das nun mal.
Hier komme ich zu den bekannten 83.435 Seiten mit Selbstreferenzen auf LL0 zurueck. Davon haben 75.786 Seiten das Maximum nicht bei LL0. Es bleiben also 7649 Seiten die entweder keine weiteren Selbstreferenzen oder auf keinem Linklevel mehr als eine Selbstreferenz haben.

Von den 474.653 Seiten die im Balken bei LL0 bleiben damit noch 467.004 uebrig die nicht darunter fallen. Wie gesagt, das Obige wirft nur _etwas_ Licht auf das Mysterium.
Der Beitrag ist aber schon so lang und deswegen verschiebe ich die Aufklaerung dieses seltsamen Sachverhalts auf das naechste Mal.

Das wird ein etwas merkwuerdiger Artikel, denn ich werde etwas bereits Bekanntes und Verworfenes nochmals aufgreifen, um dies dann schon wieder zu verwerfen. Aber der Reihe nach.

Alles fing damit an, dass ich beim letzten Mal erwaehnte, dass ich nochmal auf etwas zurueck kommen werde. Dies fuehrte dazu, dass ich mir mal das Verhaeltnis der totalen Links zu den Selbstreferenzen (pro Linklevel) anschaute. Das Ergebnis ist die rote Kurve in diesem Diagramm:

Eine aehnliche „Operation“ fuehrte ich bereits beim vorletzten Mal fuer die neuen Links aus und das dortige Resultat packte ich hier nochmals als graue Kurve dazu. Man beachte, dass jeweils _nur_ die linke Ordinate fuer die rote und _nur_ die rechte Ordinate fuer die graue Kurve gelten. Die horizontalen Linien sind die Mittelwerte der (beim vorletzten Mal erkannten, diskutierten und wieder verworfenen) „Abschnitte“ der grauen Kurve.

Auf den ersten, fluechtigen Blick scheint man in beiden Faellen ungefaehr die gleiche Anzahl an totalen Links (pro Linklevel und relativ zur gemessenen Grøsze) zu haben … ja 40 ist ungefaehr 100. Das ist natuerlich Quatsch, denn das Resultat beim letzten Mal war ja bereits, dass man im Durchschnitt (deutlich) weniger als 10 Selbstreferenzen pro Linklevel hat. Des Raetsels Løsung liegt in der Skalierung der linken Ordinate. Da steht „Millionen“ in Klammern. Die Zahlen auf der linken Seite muessen also alle mit eine Million multipliziert werden.

Wie beim letzten Mal vermutet, sieht man am Anfang der roten Kurve (bis LL5), dass die Anzahl der totalen Links viel schneller zunimmt, als die Anzahl der Selbstreferenzen. Somit ist die dortige Erklaerung fuer das relativ breite Maximum der zugrundeliegenden Verteilung als plausibel anzusehen.

Zu meiner Ueberraschung kann man ab ca. LL22 durchaus einen konstanten Wert fuer das Verhaeltnis dieser beiden Grøszen annehmen. Ich haette erwartet, dass das stetig abnimmt. Es gibt keinen Grund, warum eine Seite bspw. 60 Linklevel nach dem Ursprung noch besagten Ursprung zitieren sollte.
Andererseits sind wir hier in einem Bereich, wo die Anzahl der Selbstreferenzen sowieso nur ein paar hundert und darunter (zum Ende hin eine ganze Grøszenordnung darunter) liegt. Bei immer noch ueber 10 Milliarden totalen Links (ueber alle Linknetzwerke aller Seiten). Das ist also so ’ne Art „Grundzustand“ bzw. erklaerte ich bereits beim letzten Mal, wie das ausfuehrlich besprochene Artefakt zu einem „Grundbeitrag an Selbstreferenzen“ zum Ende hin fuehrt.

Wenn ich aber diesen „Grundzustand“ als richtig annehme, dann sehe ich in der roten Kurve einen Bereich von LL5 bis LL9, der definitiv darueber liegt. Dieser Bereich faellt mit dem ersten Abschnitt der grauen Kurve zusammen. Danach befinde ich mich zwar im Bereich des „Zappelns um den Grundwert“, aber bis ungefaehr LL22 zappelt das nur wenig und es scheint vielmehr stetig nach unten zu gehen; als ob da ein Mechanismus ueber den zufaelligen Schwankungen liegt.

Um Letzteres zu veranschaulichen, denke man sich eine Ente, einen Elefanten, einen Tyrannosaurus welcher im Zickzack ueber einen Fluss ohne Strømung schwimmt … auch wenn ein Flusz ohne Strømung mglw. kein Fluss mehr ist:

In diesem (hier idealisierten) Fall benutzt der Tyrannosaurus gleich viel Kraft um abwechselnd nach links und dann wieder nach rechts zu schwimmen. Das ist das Ruhesystem der Kønigsechse. Im hier gedachten Fall faellt dieses zusammen mit dem Ruhesystem des Flussufers und eine derartige Bewegung bedeutet, dass die Position des Tyrannosaurus um die graue, gestrichelte Linie schwankt.
Im obigen Diagramm entspricht das im Wesentlichen der Situation ab ca. LL25.
Es sei zu erwaehnen, dass sich der Echsenkønig in seinem eigenen Ruhesystem natuerlich ueberhaupt nicht bewegt. Deswegen zog ich den Kraftaufwand (beim Schwimmen in eine bestimmte Richtung) dazu, um zu zeigen, dass dennoch etwas passiert in Tyrannosaurusruhesystem … tihihi … es wuerde mich nicht wundern, wenn ich der erste Mensch bin, der dieses Wort geschrieben hat.

Es sei auch zu erwaehnen, dass ich die Vorwaertsbewegung hier nicht weiter betrachte, denn diese nehme ich als unveraendert auch fuer den naechsten Fall an, in dem eine Strømung dazu kommt:

Der Kønig der Echsen benutzt immer noch gleich viel Kraft um nach links bzw. nach rechts zu schwimmen. Somit bleibt in diesem Ruhesystem alles gleich. Vom Flussufer aus gesehen ist die Situation vøllig anders. Bewegungen nach links sind deutlich staerker und Bewegungen nach rechts schwaecher. Letztere gleichen Erstere im Mittel nicht mehr aus und es findet somit eine Bewegung nach links statt. Diese kommt aber NICHT durch den Kraftaufwand des Tyrannosaurus zustande sondern durch den „darunter“ liegenden Mechanismus der Strømung.

Ich weisz nicht, was dies fuer ein Mechanismus sein kønnte, der die Werte zwischen LL9 und LL22 im obigen Diagramm „nach unten treibt“. So wie weder Echsenkønig noch Flussufer eine konzeptuelle Vorstellung von der Strømung haben muessen und die Bewegung nach links trotzdem passiert.
Dieser Bereich zwischen LL9 und LL22 faellt nun aber erstaunlich gut mit dem zweiten Abschnitt der grauen Kurve zusammen. Der „Ueberlapp“ ist nicht perfekt. Dies kønnte daran liegen, dass ich die Grenzen des besagten zweiten Abschnitts beim ersten Mal falsch einschaetzte. Weil das in beiden Faellen zu einem „Grundzustand“ hingeht um den nur noch alles zappelt, habe ich nicht viel mit dem ich arbeiten kann, eben weil die Werte doch recht stark um besagten „Grundzustand“ zappeln.

Andererseits sind auch in diesem Fall die „Messwerte“ im „Strømungsbereich“ nicht all zu verschieden vom Grundzustandsmittelwert. Es ist somit auch hier wieder mindestens genauso plausibel, dass da ueberhaupt nix ist und ich Muster erkenne, die es gar nicht gibt.
Deswegen verwerfe ich auch in diesem Fall die „Beobachtung“ von individuellen Abschnitten bzw. Bereichen in den Meszgrøszen, die durch unterschiedliche Mechanismen zustande kommen (kønnten). Ich kann das aus den vorhandenen Daten einfach nicht klar genug „herausschaelen“.

Ich erwaehnte die Bereiche/Abschnitte aber nochmals so detailliert, weil diese trotz zwei methodisch unterschiedlicher „Messungen“ (scheinbar) zu erkennen sind. Unterschiedliche „Messungen“ deswegen, weil neue Links und Selbstreferenzen nix miteinander zu tun haben sollten. (Mit dem Unterschied natuerlich, dass die jeweilige (totale) Anzahl dieser Messgrøszen mit der Anzahl aller Links auf einem Linklevel (mehr oder weniger) korrelliert.)
Wenn aber etwas bei zwei unterschiedlichen Untersuchungen auftritt, dann ist da ja vielleicht doch was dran. Ich denke weiterhin nicht, dass dem so ist. Meine Sicherheit diesbezueglich ist aber etwas verringert durch diese Resultate. Und so ist das ja oft in der Wissenschaft … manchmal „jagt man Gespenster“ und manchmal stellen „Geister“ sich als echt heraus und pløtzlich lernt man was urst Cooles. Ich behalte das also im Hinterkopf.

Aber wie schon beim vorletzten Mal gesagt: sollte ich nix weiter in diese Richtung finden, dann erwaehne ich das still und heimlich einfach nicht mehr.

Selbstzitierungen … habe ich urspruenglich als Selbstreferenzen bezeichnet und dabei bleibe ich auch … konnte mir die Benutzung des anderen Wortes (mit gleicher Bedeutung) aber aufgrund der zeitlichen Naehe zu dieser Miniserie nicht verkneifen.

Wieauchimmer, mit Selbstreferenzen sind alle Links gemeint, die auf den Ursprung (also die Seite dessen Linknetzwerk ich gerade untersuche) (zurueck) verweisen. Das Konzept ist ja recht einfach zu verstehen.
Nach dieser kurzen Auffrischung bereits bekannter Dinge steige (wie immer) als Erstes ein mit der Summe aller Selbstreferenzen ueber alle Seiten pro Linklevel. Es ist die rote Kurve im linken Diagramm in diesem Bild:

Zum Vergleich habe ich wieder die gleiche Grøsze fuer die totalen Links in schwarz dazu gepackt. Wie zu erwarten ist die Anzahl der Links die zum Ursprung zurueck gehen massiv kleiner als die Anzahl aller Links auf einem Linklevel.

Interessant ist, dass das Maximum augenblicklich auf LL1 erreicht wird. Das das schnell hoch geht ist jetzt  nicht soooo ueberraschend, denn die Anzahl der Selbstreferenzen ist natuerlich eine Funktion der Anzahl der totalen Links. Je mehr ich von Letzteren habe um so mehr Selbstreferenzen sollten (naiv angenommen) auftauchen. Aber dass diese Aussage dann nur noch bedingt gilt, die Anzahl der totalen Links nimmt weiter zu, die der Selbstreferenzen aber nicht, ist aber (wie gesagt) interessant.
Auszerdem ist das Maximum doppelt so breit im Vergleich mit allen anderen Verteilungen und zieht sich von LL1 bis LL4. Wieder: da die Anzahl der totalen Links weiter zu nimmt, wuerde das darauf hindeuten, dass die relative Anzahl der Selbstreferenzen ebenso schnell abnehmen muss. Ich komme darauf beim naechsten Mal zurueck.

Ansonsten ist die Form und der Verlauf der Kurve keine Ueberraschung und folgt im Wesentlichen der ausfuehrlich besprochenen Kurve der totalen Links.
Zu erwaehnen sei, dass die ca. 80k Selbstreferenzen auf LL0 Artefakte sind. Das sind Seiten, die Links zu anderen Abschnitten auf der selben Seite haben. Die haetten rausgeschmissen werden sollen und ich liesz mich darueber bereits an anderer Stelle aus.

Im linken Diagramm habe ich (wieder) die rote Kurve grob auf 6 Millionen Seiten normiert, denn ich wollte (wieder) mal wissen, wie vielen Selbstreferenzen ich im Durchschnitt pro Linklevel begegne.
An dieser normierten Kurve kann man ein paar Sachen deutlicher sehen, als an den absoluten Zahlen der vorher besprochenen Summe der Selbstreferenzen … normierte Daten haben das oft so an sich, dass man Sachen besser sieht; deswegen ist Normierung ja sehr oft auch das Erste was ich mit Daten mache.

Wieauchimmer, man sieht bei LL0, dass nur ca. 1 von 100 Seiten zu Sektionen auf der selben Seite (also sich selbst verweisen). Das ist zwar ein Artefakt, aber es ist gut zu wissen, wie grosz der Einfluss ist und dieses Resultat bestaetigt mein hier ausgedruecktes Bauchgefuehl, dass ich das „in den Fehler druecken“ kann.
Danach habe ich dann von LL1 bis LL4, im Durchschnitt 6 Selbstreferenzen. Da haette ich auf LL1 (deutlich) mehr erwartet; dies aus dem Grund, weil ich dachte, dass es mehr hin-und-wieder-zurueck-Linkschleifen gibt.
Bei „mittleren“ Linkleveln um ca. LL30 kann ich eine Selbstreferenz nur noch bei zwei von hunderttausend Seiten erwarten. Das scheint sinnvoll zu sein, denn so weit weg vom Ursprung, sollte eine (neue) Seite rein gar nix mehr mit dem Anfang zu tun haben. Weswegen sollte diese dann aber auf eben jenen verweisen?

Das Ende der Kurve ruehrt (immer noch) von dem ausfuehrlich besprochenen Artefakt her und Selbiges erklaert auch die Werte. Ich erinnere daran, dass besagtes Artefakt die Saisons eines suedamerikanischen Fuszballklubs sind. Desweiteren lande ich am Ende immer auf den selben Seiten; eben jene Saisons. Ich kann mir durchaus vorstellen, dass im Durchschnitt bei jeder dieser Saisonseiten fuer fuenf Urspruenge (andere Saisons, Fuszballspieler oder (andere) -klubs) eine Selbstreferenz erscheint. Das wuerde zu ca. 100 Seiten im Dunstkreis dieses Fuszballklubs fuehren … diese Abschaetzung scheint plausibel.

Nun ja, das soll genug sein. Wie bei den neuen Links werde ich auch diese Zahlen durch die (relevanten) Auswertungen schicken. Ich denke nicht, dass ich dabei was Neues entdecken werde.
Beim naechsten Mal normiere ich dann aber zunaechst diese Summe der Selbstrefernzen auf die Anzahl der totalen Links (pro Linklevel) … denn das habe ich ja oben bereits (indirekt) angekuendigt.

Beim letzten Mal bemerkte ich, dass es so aussieht, als ob die individuellen Verteilungen der totalen bzw. der neuen Links mglw. um einen konstanten Faktor „springen“.

Deswegen schaute ich mir mal das Verhaeltnis aus der Anzahl der totalen und der neuen Links an:

An diesem Bild ueberraschte mich zunaechst, dass meine Vermutung sogar richtig war. Desweiteren ueberraschte mich wie grosz das Verhaeltnis ist. Auf den ersten Blick haette ich aus den erwaehnten Spruengen so Pi-mal-Daumen einen Faktor zehn vermutet. Bei genauerem Hinschauen wuerde ich aber sagen zwischen ca. 10 und 100. Und das ist ja auch das was man hier sieht.

Von Anfang und Ende abgesehen, wuerde ich den Grafen prinzipiell in drei Abschnitte einteilen. Die roten horizontalen Linien stellen den Mittelwert dieser Abschnitte dar.
Als Erklaerung fuer den ersten Abschnitt wuerden wieder vielzitierte Seiten mit vielen Links herhalten. Weil diese oft zitiert werden, tragen sie sehr stark zur Anzahl der totalen Links bei. Aber aus dem selben Grund tragen sie nicht zu den neuen Links bei, denn oft geschieht deren Zitierung schon auf den allerersten Linkleveln.
Der zweite Abschnitt kønnte durch „mittelhaeufig“ zitierte Seiten zustande kommen, wird aber immer noch durch die vielzitierten Seiten beeinflusst. Diese mittelhaeufig zitierten Seiten haben weniger totale Links und das Verhaeltniss geht runter. Dafuer gibt es davon mehr und der Bereich zieht sich auf der Abszisse laenger hin. Prinzipiell kønnte „mittelhaeufig“ durch grosze, weitschweifende, sich ueber viele Seiten verteilende, aber nicht super wichtige Themengebiete zustande kommen. Ein Beispiel waere Skisport oder Wissenschaft.
Im dritten Abschnitt dann haben wir mehr oder weniger obskure Seiten die selten zitiert werden und mit wenigen totalen Links. Die Ursachen der ersten beiden Abschnitte wirken natuerlich auch hier noch mit rein.

Andererseits sind die Unterschiede in den durchschnittlichen Verhaeltnissen dieser Abschnitte jetzt auch nicht sooooo grosz; nicht mal ein Faktor zwei. Auszerdem habe ich mit dem Ausdenken zu den Ursachen von visuellen Abschnitten schonmal gehørig daneben gegriffen. Deswegen bilde ich mal nur den Durchschnitt ueber alle drei dieser Abschnitte und erhalte einen (durchschnittlichen) konstanten Faktor von ca. 44.
Das bedeutet, dass ich, nach dem „explosiven“ Anfang, im Durchschnitt schon 44 Links gesehen habe, bevor ich auf einen treffe, der neu ist. Auch wenn mir das jetzt ziemlich viel vorkommt, so wundert es mich auch nicht so richtig. Denn die vielzitierte Seiten mit vielen Links dominieren das Linknetzwerk gerade ganz zu Anfang komplett … aber das wurde ja bereits mehrfach diskutiert.

Wieauchimmer, ich habe mal die Anzahl der neuen Links per Linklevel mit diesem konstanten Durchschnittsfaktor multipliziert. Das ist die rote Kurve in dieser Abbildung:

Der visuelle Vergleich mit der schwarzen Kurve, welche die schon so oft gezeigte Summe der totalen Links per Linklevel darstellt, ist erstaunlich gut.

Fuer die blaue Kurve (rechte Ordinate) sah ich die Summe der totalen Links als „wahren“ Wert an. Dann bildete ich die Differenz der beiden zuerst erwaehnten Kurven und setzte diese Differenz mit dem „wahren“ Wert ins Verhaeltnis. Dieser Wert ist dann die prozentuale Abweichung der Abschaetzung vom wahren Wert.
Wie man sieht, ist die Abschaetzung gar nicht mal so uebel und die Abweichung liegt ueber weite Bereiche um 20 %. Nur 20 % Abweichung ist bei Daten aus der echten Welt, sehr groben Vereinfachungen und aeuszerst simplen Annahmen durchaus gut. Zu beachten ist auch, dass selbst eine Abweichung von 100 % nur einem Faktor (der nichts mit dem konstanten Faktor zu tun hat) von zwei  entspricht.
Ganz am Anfang ist die Abschaetzung natuerlich deutlich schlechter. Das liegt daran, dass dort im Wesentlichen die Anzahl der neuen Links der Anzahl der totalen Links entspricht. Dies mit einem konstanten Faktor zu multiplizieren fuehrt natuerlich zu Quark.

Abschlieszend sei zu sagen, dass es mitnichten haette so sein muessen, dass die eine Grøsze aus der anderen mithilfe eines konstanten Faktors berechnet werden kann. Genausogut haette der Faktor auch stetig (im Sinne von Differenzierbarkeit) abnehmen kønnen. Eine unstetige Abnahme wird so’n bisschen durch die erwaehnten drei Abschnitten suggeriert. Aber ich bin, wie gesagt, diesmal lieber etwas vorsichtiger mich da festzulegen.
Spaeter komme ich unter Umstaenden aber vielleicht doch nochmal auf die drei Abschnitte zurueck. Die hier im Detail erklaerte Messgrøsze kønnte mir mglw. erlauben solche Gruppen zu erkennen. Wenn dem aber nicht so ist, werde ich das still und schweigend einfach nicht mehr erwaehnen :P

Damit bin ich mit den neuen Links durch. Beim naechsten Mal geht’s dann mit den Selbstzitierungen los.

Fuer die Anzahl der totalen Links schaute ich mir die Verteilungen pro Linklevel an. Dies fuehrte zu Betrachtungen bzgl. der beobachteten Resultate, welche ich in die Begriffe „Zustandsdichte“ und „Phasenuebergaenge“ verpackte. Mindestens Letzteres stellte sich schlussendlich als nicht haltbar heraus, aber die Betrachtungen waren durchaus interessant — das hat das Spielen mit Daten nunmal an sich.

Bei den neuen Links wuerde ich bei den Verteilungen pro Linklevel im Wesentlichen beinahe das Selbe erwarten. Der einzige bedeutende Unterschied, von den bereits beim letzten Mal erwaehnten Schwankungen abgesehen, sollte nur sein, dass die Verteilungen auf der Abszisse nach links verschoben sind. Der Grund liegt natuerlich darin, dass ich weniger neue als totale Links habe (was ja in dieser Reihe schon mehrfach erwaehnt wurde).

Als Konsequenz dieser Erwartungen folgt, dass die grundsaetzliche „Form“ der Verteilung erhalten bleiben muss.
Bei LL0 ist das trivial, denn ganz am Anfang sind im Wesentlichen alle Links auch neue Links … abgesehen von Selbstreferenzen, aber darauf komm ich an anderer Stelle zurueck (zum Glueck fallen die nicht so sehr ins Gewicht).

Der Vergleich der Verteilungen bei LL1 sieht so aus:

Siehste! Man sieht das was ich oben schrieb. Toll wa!

Ich gebe zu, dass auch LL1 irgendwie „geschummelt“ ist, denn die Situation ist ja immer noch sehr aehnlich zu LL0. Deswegen springe ich mal vorwaerts zu LL9 (und ihr, meine lieben Leserinnen und Leser muesst mir einfach glauben, dass das oben Geschriebene auch fuer alle Linklevel dazwischen gilt).

Aha! Die Verteilung der neuen Links ist nach links verschoben und beide Verteilungen haben drei „Berge“; es bleibt also auch eine „komplizierte“ Form erhalten. Der dritte Berg ist in der Verteilung der totalen Links visuell deutlich schmaler. Ich denke, dass es sich hierbei wieder um eine Art der logarithmischen Komprimierung handelt.

Da zu høheren Linkleveln hin nicht mehr viel passiert und weil diese Verteilungen bereits frueher so ausfuehrlich diskutiert wurden, schaute ich mir nur noch zwei Verteilungen an; bei LL20 und LL30. Alles lag innherhalb der Erwartungen und zum „Beweis“ sei nur noch LL30 gezeigt:

Die vielen zu sehenden Phaenomene und Effekte in den Daten diskutierte ich, im Zuge der Betrachtungen zu den totalen Links, bereits im Detail . Darauf aufbauend, und weil (wie zu erwarten war) keine grosze Unterschiede bei den Daten zu den neuen Links auftauchten, konnte ich die Diskussion diesmal zu kurz halten. Fuer erstere Betrachtungen brauchte ich 20 1/2 Beitraege in dieser Serie, die sich ueber 4 1/2 Monate erstreckten. Diesmal waren es nur 2 1/2 Beitraege ueber 2 Wochen. Ist ja auch mal schøn, wenn ich mich kurz halten kann.

Ganz fertig bin ich aber noch nicht mit den neuen Links. Die Spruenge in den oberen Bildern scheinen immer ueber ungefaehr eine Grøszenordnung zu gehen. Jaja, ich weisz, es sind nur zwei „Messpunkte“, aber dies kønnte ein Hinweis darauf sein, dass es mglw. auf jedem Linklevel einen (mehr oder weniger) konstanten Faktor zwischen der Anzahl der totalen Links und der Anzahl der neuen Links gibt. Prinzipiell kønnte ich mir einen Mechanismus denken, wieso das so sein sollte.
Aber ich greife vor und verschiebe diese Untersuchungen und Diskussion auf den naechsten Beitrag.

Bei den Betrachtungen zu den totalen Links pro Linklevel musste ich zunaechst eine Erklaerung finden, warum der Anstieg der totalen Links am Anfang so sehr viel staerker ist als erwartet.
Dies fuehrte letztlich dazu, dass ich den Zusammenhang zwischen der Anzahl der Zitierungen die eine Seite auf sich vereint und der Anzahl der totalen Links der selben Seite untersuchte. Die Quintessenz dieser Untersuchungen drueckt sich so klar in diesem schøne Ergebniss aus.

Das mache ich selbstverstaendlich nicht nochmal, denn das waere nicht sinnvoll. Der Grund ist, dass wenn ich nur eine Seite und nicht deren Linknetzwerk betrachte, alle Links auf dieser Seite neu sind. Dies ist natuerlich unabhaengig von der Anzahl der Zitierungen dieser Seite.

Danach schaute ich mir die „Spaetzuender“ an. Dies waren Seiten, bei denen das Maximum der indivduellen Verteilung der totalen Links pro Linklevel deutlich  vom Maximum der Summe der Verteilung abweicht.
So richtig _deutliche_ Abweichungen fand ich nicht, und die Seiten bei denen die Position des besagten Maximums am meisten abweicht, waren entweder „Rohrkrepierer“, „komische Seiten“ oder eine unguenstige Verkettung von Artefakten, welche aus der Datenaufbereitung stammten. Im verlinkten Artikel wurde dies alles genau beschrieben.

Im Gegensatz zu Ersterem, ist es durchaus sinnvoll, sich die Verteilung der Position(en) der Maxima der individuellen Verteilungen der _neuen_ Links pro Linklevel anzusehen. Hier ist das Ergebnis:

Zum Vergleich in gruen (nochmals) das Gleiche aber fuer die totalen Links … Wortspielkasse. Man erkennt, dass es keine groszen Unterschiede gibt.

Schon aus den Verteilungen der Summe der neuen bzw. totalen Links, konnte man vermuten, dass auch hier das Maximum um ein Linklevel nach „unten“ (bzw. nach links) verschoben sein wird.

So weit so gut. Verschiebt man nun deswegen die rote Verteilung gedanklich um eins nach rechts faellt aber auf, dass die Balken fuer die neuen Links rechts von LL4 alle grøszer sind als die der totalen Links. Das sieht man eigentlich (mal wieder) nur wegen der logarithmischen Ordinate. Aber man sieht es und dieser „Effekt“ ist systematisch und echt und bedarf deswegen einer Erklaerung. Diese folgt sofort.

Zunaechst einmal ist zu beachten, dass ein Balken nur aussagt, wieviele Seiten das Maximum der gegebenen individuellen Verteilung auf dieser Position haben — mehr nicht. Und auch wenn dies den lang und breit diskutierten Trends folgt, so unterliegen die individuellen Verteilungen fuer neue und totale Links natuerlich … ich sag jetzt mal Schwankungen.

Damit kann der „Effekt“ erklaert werden (aber man muss mit den genauen Werten arbeiten, denn wenn man rundet geht das Rechenstueck nicht auf). Im ersten „Maximumsbalken“ fuer neue Links auf LL3 „versammeln“ sich 1.103.028 Seiten. Im ersten „Maximumsbalken“ fuer die totalen Links auf LL4 hingegen 3.874.695 Seiten. Die Diskrepanz ist ziemlich grosz und bedarf einer eigenen Erklaerung. Aber es verwundert mich ueberhaupt nicht, denn hier ist definitiv noch das „Gebiet der vielzitierten Seiten mit vielen Links“ (siehe das schøne Ergebnis weiter oben). Deswegen bin ich hinreichend sicher, dass diese auch hier wieder die Erklaerung sind.
Wieauchimmer, besagte Diskrepanz muss woanders „aufgefangen“ werden, denn ich untersuchte ja ein und dieselben Seiten. Letzteres bedeutet, dass fuer beide Betrachtungen das Integral unter der „Kurve“ den selben Wert ergeben muss (die Anzahl aller Seiten). Auch wenn es gar nicht so aussieht, so findet sich das Meiste davon im zweiten „Maximumsbalken“ gleich danach (4.643.436 zu 1.901.207). Die ca. 30-tausend Seiten die noch fehlen sind dann ueber die anderen Balken (auch links vom Peak!) verteilt.

Ich habe das so genau diskutiert, weil ich zeigen wollte, dass man manchmal (oft?) sehr genau hinschauen muss und Rundungen nicht aufgehen. Haette ich die Zahlen auf hunderttausend (also die erste Stelle nach dem Komma) gerundet, dann sieht es naemlich ueberhaupt nicht so aus, als wenn das passt. Tut’s aber … zum Glueck.

Aber letztlich sind das alles Einzelheiten. Aber Einzelheiten gehøren zur „Data Science“ oft genug dazu :).

Zum Abschluss sei noch gesagt, dass ich (trotz des oben gesagten) nicht nochmal genau hinschaue, was denn das fuer Seiten sind, deren Maximum der Verteilung der neuen Links (z.B.) vier Linklevel ueber (oder unter) dem Maximum der allermeisten Seiten liegt. Ich bin mir sehr sehr sicher, dass ich im wesentlichen wieder nur auf die selben Effekte stosze wie bei den totalen Links und welche ich oben (nochmals) auffuehrte.

… dieser Maxiserie ist noch nicht da, denn ich meine das Ende der Gesamtverteilung der totalen Links per Linklevel … hier nochmal zur Erinnerung:

Den „Schwanz“ der Verteilung (ich sag jetzt mal ab ca. LL25) sieht man natuerlich nur in der logarithmischen Darstellung und der verlaeuft ziemlich flach. Mit dem Wissen was wir bereits haben kønnen wir dies relativ leicht mittels einer Fermi-Abschaetzung erklaeren.
Wenn ich die Zahlen ganz grob aus dem Diagramm ablese, dann sehe ich, dass ich nach 25 Schritten nur noch ca. 500 totale Links habe. (Nicht vergessen: der grosze Wert auf der Ordinate muss durch ca. 6 Millionen dividiert werden, denn die Summe der totalen Links bildete ich ja ueber die Summe der Verteilungen aller Seiten). Zu dem Zeitpunkt habe ich dann aber die allermeisten Seiten schon besucht. Mein „Bauchgefuehl“ sagt mir, dass ich bei LL25 90 % dieser Links deswegen nicht weiter verfolge. Bleiben noch 50 neue, nicht besuchte Links uebrig.
Bei so hohen Linkleveln befinden sich vermutlich nur noch wenig zitierte Seiten (denn wenn die oft zitiert werden wuerden, haette ich die schon eher gesehen). Von frueher wissen wir, dass wir bei dieser Ueberschlagsechnung mit durchschnittlich 10 Links pro Seite rechnen kønnen. Das bedeutet dann, dass ich dann beim LL26 wieder 500 totale Links habe.
Schwuppdiwupp, ist der flach verlaufende Schwanz der Verteilung qualitativ (!) erklaert. Dabei ist zu bedenken, dass man bei einer Fermi-Abschaetzung versucht die Grøszenordnung richtig hin zu bekommen. Also waere ein Ergebniss von 50 oder 5000 auch gut gewesen.

Das ist ein guter Punkt, um endlich auf die naechste gemessene Grøsze ueber zu gehen: die Anzahl der _neuen_ Links pro Linklevel. Im linken Diagramm sieht man die Verteilung der Summe aller neuen Links pro Linklevel als rote Kurve:

Die Summe ist wieder so zu verstehen, dass ich die Anzahl der neuen Links aller Seiten aufaddiert habe, um obige Kurve zu erhalten.
Die rote Kurve ist sehr aehnlich der Verteilung der Summe der totalen Links (schwarze Kurve) … was zu erwarten war. Der grøszte Unterschied ist, dass die Amplitude pro Linklevel geringer ist … aber das muss ja so sein. Ebenso wird das Maximum (die zwei (!) høchsten Punkte) ein Linklevel eher erreicht … auch das war zu erwarten, wenn man mal drueber nachdenkt.

Im Diagramm auf der rechten Seite habe ich diese Verteilung mal grob „normiert“ auf die Anzahl aller Wikipediaseiten. Grob deswegen, weil ich 6 Millionen als Teiler genommen habe und nicht die wahre Anzahl (welche auch beruecksichtigen muesste, dass Seiten „rausfallen“ wenn deren Linkkette aufhørt). Das ist aber genug um die durchschnittliche Anzahl der neuen Links pro Linklevel zu sehen.
Der Verlauf dieser Kurve ist selbstverstaendlich (!) der Selbe. Aber durch die deutlich kleinere Skala sieht man (wieder), dass man zwischen Linklevel 20 und 45 durchaus mit ca. 10 neuen Links rechnen kann.
Auszerdem sieht man, dass die (normierte) Kurve ab LL48 parallel zur Abzsisse verlaeuft mit einem Wert von 1. Dies ist natuerlich Ausdruck des ausfuehrlich besprochenen Artefakts und soll nicht nochmal Thema sein.

Ich denke nicht, dass ich hier noch viel rausholen kann, aber ich schicke diese Zahlen mal durch die gleichen Analysen wie vorher. Daraus mach ich dann ’ne Zusammenfassung, auszer, wenn ich auf was Ungewøhnliches stosze.

Einen Teil der ersten Frage hatte ich bereits hier beantwortet, wo ich schrieb, …

[…] dass alles was ich schrieb und beobachtete tatsaechlich in den Daten vorkommt. Das ist also in dem Sinne „die Wahrheit“ […].

So wie die Daten sind, sehe ich wirklich zwei „Phasen“.

Ich dekonstruierte dieses Bild aber wieder, weil ich vermutete, dass die zweite „Phase“ durch ein Artefakt der Datenbehandlung zustande kommt. Ich erwaehnte an anderer Stelle, dass in den „Extremen“ (bspw. zum Ende des Linknetzwerks) …

[…] von mir gemachte Fehler [in der Datenaufbereitung] deutlich sichtbar werden.

Waehrend den Artikeln zur Dekonstruktion zeigte ich, wie ein spezifisches Artefakt das gemessene Signal plausibel erklaeren wuerde. Ich zeigte zwar immer nur alles bis LL59 aber das geht tatsaechlich ungefaehr bis zum Anfang dieser „festen Phase“. Zwar nicht absolut, denn es schummeln sich irgendwann ein paar andere Seiten als die des São Paulo FC dazwischen und die Jahre werden auch nicht mehr unbedingt von allen Seiten in der „richtigen“ Reihenfolge durchschritten, aber das was ich schrieb stimmt ist richtig fuer die Majoritaet der Seiten.

Damit kann ich direkt uebergehen zur anderen Frage im Titel. Die individuellen Verteilungen der totalen Links gaben mir ein Bauchgefuehl, dass da was zu holen ist. Spaeter hatte ich die Idee mit den Phasenuebergaengen. Den Gedanken untersuchte ich im Laufenden weiter und fand, dass die „Messungen“ diese Idee durchaus unterstuetzen.
Das war ein begeisternder Prozess! Mir praesentierte sich ein „Mysterium“ und ich wollte rausfinden was das ist. Ich fand eine Beschreibung die passt und das war natuerlich voll toll und ich schrieb die entsprechenden Beitraege mit høchster Begeisterung … bis auf den zuletzt verlinkten Beitrag. Denn zwei Tage bevor ich den schrieb fiel mir der Umstand auf, der zur Dekonstruktion fuehrte … ich denke, dass man beim Lesen merkt, dass da weniger Elan drin steckt. Aber die Dekonstruktion an sich war dann wieder voll toll! Ein neues Mysterium was es zu løsen galt!

Ein Grund warum ich diesen Prozess so detailliert aufschrieb (davon abgesehen, dass das zum Kevin Bacon Projekt an sich gehørt) ist die beschriebene Freude, an der ich euch, meine lieben Leserinnen und Leser, teilhaben lassen wollte.

Apropos Freude, diese vøllige Abstraktion weg von Wikipediaseiten mit (totalen) Links zu (besetzten) Zustaenden brachte mir auch groszes intellektuelles Vergnuegen. Zum Ende hin konnte ich in beiden „Bildern“ (Seiten mit Links vs. Zustaende) gleichzeitig denken … das ist unglaublich toll und es gibt mir Energie eine Sache so abstrahieren, bedenken und beschreiben zu kønnen … Physiker halt :)

Aber ich schwoff ab, denn ich wollte einen weiteren Grund fuer all diese Artikel nennen: so sollte die wissenschaftliche Herangehensweise an ein Thema funktionieren. Nur weil ich eine coole Sache vermute und dafuer „Beweise“ finde, heiszt das noch lange nicht, dass die coole Sache auch richtig ist. Gerade wenn eine Beschreibung zu schøn ist um wahr zu sein, muss man das extra genau beleuchten.
Hier kam heraus, dass meine These von den Phasenuebergaengen nicht in der Staerke haltbar ist, wie ich sie in den entsprechenden Artikeln vertreten habe. Irgendwie ist das ja auch klar, und ich erwaehnte es bereits, in was fuer „Phasen“ sollen denn Wikipediaseiten uebergehen?
Ich lasse das aber so stehen wie es ist, eben um oben erwaehnten Prozess zu beleuchten … auszerdem habe ich mir nun schon die Arbeit gemacht das alles aufzuschreiben.

Andererseits ist auch nicht alles verloren. Auch wenn ich (fast) alles ab ca. LL45 als hauptsaechlich durch das besprochene Artefakt zustande kommend ansehe, so ist das Verhalten der „Zustaende“ davor immer noch interessant.
Man schaue sich nochmal die individuellen Verteilungen in dem Bereich an, den ich manchmal als „fluessige Phase“ bezeichnet habe (ungefaehr zwischen LL13 und LL42). Es ist schon verwunderlich, dass die Anzahl der totalen Links fuer alle der fast 6 Millionen Seiten auf diesen Linkleveln so dicht beisammen liegt. Oder anders: Auf LL1 und LL2 reichen die Zustaende bis in den Bereich von mehrere 10 Millionen aber dies von ganz vorne; es sind also Zustaende mit nur 5, 23 oder 137 totalen Links besetzt. Warum ist aber auf LL23 kein Zustand oberhalb ca. 1.500 bzw. unterhalb von ca. 450 totalen Links besetzt? Warum begrenzt sich die Anzahl der Zustaende derart? …
Diese Frage(n) kann ich leider nicht beantworten, aber darum ist es mglw. doch gar nicht so verkehrt hier von einer Phase zu sprechen. Dies deswegen, weil das beschriebene Verhalten typisch fuer alle Wikipediaseiten (als ein System) ist, dabei aber nicht bei vorherigen Linkleveln auftritt.

Sooo … das soll nun aber genug sein damit. Der naechste Artikel ist nochmal ganz kurz was zu den totalen Links und dann gehe ich zu einer anderen „Messgrøsze“ ueber — den neuen Links pro Linklevel. Das sollte relativ schnell gehen, weil ich vermute, dass alle auftretenden Phaenomen mit dem bisherigen Wissen erklaert werden kønnen. Da muss ich das dann nicht mehr im Detail besprechen. Andererseits dachte ich das auch bzgl. der totalen Links.

Das feine Bild mit den Pfeilen vom letzten Mal ist ein Ausdruck der Hypothese, dass (fast) alle Seiten zum Ende ihres Linknetzwerkes auf den selben Seiten landen. Dort legte ich auch dar, dass die dort gezeigten Daten sehr sehr sehr stark fuer die Richtigkeit dieser Hypothese sprechen.
Aber man schaue sich das Bild nochmal an und nehme LL59 genauer unter die Lupe. Ich schreibe zwar, dass sich die drei „Mitglieder“ die Gruppe Alpha in der Saison des São Paulo FC von 1943 befinden, aber ich habe keine direkten Beweise dafuer. Prinzipiell kønnten naemlich auch irgendwelche anderen Seiten sich bei LL59 auf wiederum irgendwelchen anderen Seite mit 37 totalen Links befinden und diesen Zustand dadurch besetzen. Oder anders: die Gruppen (und Jahre) die ich dort angebe kønnten prinzipiell wild durcheinandergewuerfelt sein, womit die Beschriftung der Datenpunkte vøllig sinnlos waere.

Ich gebe zu, dass die Chance, dass fast 6 Millionen Seiten zum Ende hin nur diese paar Zustaende besetzen (welche auch noch mit den totalen Links der Seiten der Hypothese uebereinstimmen), unglaublich klein ist.
Dennoch wollte ich gerne noch eine weitere Sache untersuchen, welche die Richtigkeit der Hypothese kraeftigen wuerde.

Diese weitere Sache ist die Høhe der Balken, oder besser ausgedrueckt die Amplitude des „gemessenen“ Signals.
Bisher habe ich mir nur die Position der Balken angeschaut. Im uebertragenen Sinne waere das so, wie wenn ich Nachts in den Himmel schaue, dort den Vollmond sehe und daraus schliesze, dass das wohl die Sonne sein muss. Die Sonne ist (fuer mich gesehen) naemlich eine leuchtende „Scheibe“ (Signal) mit gleicher Grøsze am Himmel (Position). Erst die Auswertung der „Leuchtkraft“ (Signalstaerke/Amplitude) erlaubt mir zwischen Sonne und Mond zu unterscheiden.

Hier wird es nun ein klein bisschen komplizierter, denn ich muss zwischen zwei verschiedenen Amplituden unterscheiden: der gemessenen Signalstaerke in jedem Zustand und der Amplitude der einzelnen Gruppen.
Ersteres kann ich aus den einzelnen Verteilungen einfach ablesen. Letzteres ergibt sich aus der Verteilung der „Aussteiger“ pro Linklevel, denn alle Wikipediaseiten die beim selben Linklevel aussteigen gehøren zu einer Gruppe. Hier nochmal der relevante Teil von Letzterem ein bisschen modifiziert.

Laut der Hypothese sollte diese Verteilung sich genau so wie sie ist, d.h. OHNE Veraenderung der Amplitude der einzelnen Zustaende, durch die letzten Linklevel ziehen.
Das kønnen wir aber, in der Art und Weise wie die oben verlinkten individuellen Verteilungen bisher gezeigt wurden, nicht, bzw. nur indirekt, sehen. Das hat zwei Gruende. Der Erste ist, dass im obigen Bild die Gruppen gezeigt sind, die Abzisse der individuellen Verteilungen aber aufsteigende Zahlen die møgliche Anzahl der totalen Links (bzw. die møglichen Zustaende) wiederspiegelt. Der zweite Grund ist, dass manche Jahre/Saisons des São Paulo FC gleich viele totale Links haben und somit mehrere Gruppen in den selben (!) Zustand des gemessenen (!) Signals fallen.
Ersteres kann durch eine Achsentransformation geløst werden, Letzteres durch abzaehlen und aufpassen.

Etwas detaillierter: laut der Hypothese werden die Jahre/Saisons der Reihe nach (rueckwaerts) durchlaufen. Diesen Prozess habe ich beim letzten Mal im Detail beschrieben. Nun trage ich auf der Abzsisse nicht alle Zustaende auf, sondern _nur_ die tatsaechlich Besetzten. Auszerdem trage ich diese nicht in der Reihenfolge auf in der sie innerhalb der natuerlichen Zahlen auftauchen, sondern in der Reihenfolge, in der diese (rueckwaerts „laufend“) von Gruppe Alpha „aktiviert“, und dann der Reihe nach von den anderen Gruppen durchlaufen, werden. Mehrfach besetzte Zustaende tauchen mehrfach auf, unterschieden durch In­di­zes.
Ein Bild sagt mehr als 1000 Worte:

Hier sehen wir das gemessene Signal auf LL59 als blaue Balken; ich komme darauf gleich zurueck. Die roten Balken sind identisch mit denen aus dem vorigen Bild; die obere Abzsisse zeigt an welche Gruppe dem jeweiligen (roten) Balken zuzuordnen ist. Cool wa! Bisher hatte ich unterschiedliche Farben wenn dann nur an den Ordinaten … das geht natuerlich auch bei den Abzsissen … aber ich schweife ab.
Die rote Beschriftung der unteren Abzisse ist eigentlich nicht nøtig, hilft aber mglw. beim Verstaendniss und bezeichnet das Jahr in welchem sich die jeweilige Gruppe gerade befindet. Dies wird in der darunterliegenden Beschriftung in den richtigen Zustand der diesem Jahr entspricht projiziert.
Nun zu mehrfach besetzten Zustaenden. Die Seiten der Jahre 1933 und 1934 haben gleich viele Links — 26 — aber (laut Hypothese) befindet sich nur Gruppe Kappa im Jahre 1934 und nur Gruppe Lambda im Jahre 1933 (auf LL59). Das Gruppensignal aus dem Jahre 1934 — 1 — traegt dann mit dem Gruppensignal aus dem Jahre 1933 — auch 1 — zum gemessenen Signal im Zustand 26 — 1 + 1 = 2 — bei. Das sollen die Pfeile andeuten. Bei diesem Beispiel kann man das gut nachvollziehen. Aufgrund der logarithmischen Achse wird das aber schwerer (bzw. unmøglich) mit grøszeren Zahlen. Deswegen schreibe ich (hier) bei Zustand 31 und Zustand 34 ran wie viele Webseiten ich in diesen Zustaenden tatsaechlich messe. Und das stimmt ueberein mit der Summe der Signale der Gruppen die sich in diesen Zustaenden befinden.

Wie oben erwaehnt sollten sich bei voranschreitendem Linklevel die roten Balken so wie sie sind nach links schieben. Die blauen Balken sollten diese Verschiebung wiederspiegeln. Und das ist auch das was tatsaechlich passiert:

Oder vielmehr „passiert“ nur das gemessene Signal. Das schlieszt nicht aus, dass andere Seiten mit gleich vielen Links „besucht“ werden. Ich sehe die Gruppensignale nicht wirklich, ich nehme nur an, dass diese dem gemessenen Signal zu Grunde liegen. Aber, dass ueber mehrere Linklevel genau die richtigen Seiten mit der richtigen Anzahl an Links besucht werden und auch in genau der richtigen Menge sodass das gemessene Signal erhalten bleibt ist sehr unwahrscheinlich. Die einfachere und plausiblere Erklaerung ist meine Hypothese: die Gruppen besetzen tatsaechlich der Reihe nach die jeweiligen Zustaende.

Im uebrigen enthaelt das hier Gezeigte auch das was ich beim letzten Mal diskutierte. Das war aber leichter es so rum „aufzuziehen“ und so rum habe ich mich auch selber der Problemstellung genaehert.

Ich denke, dass ich nun genug gezeigt habe bzgl. des Artefakts in den Daten, welche letztlich den zweiten Phasenuebergang ausmachen. Fuer heute soll es genug sein. Beim naechsten Mal komme ich aber nochmal darauf in einem grøszeren und allgemeineren Zusammengang zurueck. Weil’s so cool ist :)

Ach doch, eine Sache noch. Auch wenn alles darauf hindeutet, so ist all dies natuerlich immer noch kein direkter Beweis, dass es sich bei den Zustaenden wirklich um die Seiten der Saisons des São Paulo FC handelt. Wenn ich es nicht vergesse, dann werde ich darauf an anderer Stelle nochmal zurueck kommen.