Archive for the ‘Kevin Bacon’ Category

Nach den linklevelabhaengigen Verteilungen der Linkfrequenz folgt die Abhaengigkeit der Linkfrequenz auf einem Linklevel vom Wert der Linkfrequenz auf dem Linklevel davor.
Gleichartige Untersuchungen waren bei den Selbstreferenzen sehr fruchtbar und mindestens interessant bei den totalen (und neuen) Links. Bei denen hielt sich das „Gezappel“ der Datenpunkte in Grenzen und ich konnte relativ viele (repraesentative) Verteilungen zeigen.
Heute muss ich das kleinteilig aufdrøseln, …

… denn die Daten streuen zu sehr und wuerden sich gegenseitig ueberdecken, wenn ich bei kleinen Linkleveln mehr als eine Verteilung in das selbe Diagramm packen wuerde. Zum Glueck passiert nicht all zu viel Unerwartetes und alles kann ganz schnell generalisiert werden, sodass ich ingesamt nur wenige repraesentative Kurven zeigen muss. Aber der Reihe nach.

Der sich zu nach rechts oben zuspitzende Blob aus Punkten zeigt im Wesentlichen ein Resultat welches schon nach der allerersten Auswertung der zuallererst untersuchten Grøsze (der Summenverteilung der totalen Links) qualitativ hergeleitet werden kann. Es ist wieder eine Kombination aus drei bekannten Sachverhalten. Zum einen wenigen Links und daraus resultierenden wenigen Zitaten anderer Seiten auf LL1. „Wenig“ bedeutet hier so ca. 1000 oder gar 10-tausend. Zum zweiten ein starker Anstieg der Anzahl von Links beim Uebergang zu LL2 und dem daraus folgenden starken Anstieg der Linkfrequenz. So Pi mal Daumen und nur ganz schnell auf den Blob geschaut wuerd ich sagen, dass ein Anstieg um zwei Grøszenordnungen stattfindet … was gut (genug) mit den totalen Links uebereinstimmt. Zum dritten halten sich „beliebte Seiten“ nicht bei kleinen Zahlen auf und bilden die nach rechts oben zeigende „Spitze“.

Im rechten oberen Diagramm ist der Uebergang von LL3 zu LL4 zu sehen; es wurde also nur ein Schritt ausgelassen. Der „Blob“ bei kleinen Werten nimmt zwar ab, aber verschwindet nicht. Das ist auch sinnvoll, denn es gibt immer noch Seiten mit niedrigen Linkfrequenzen, mindestens die im „São Paulo FC“-Artefakt.
Die meisten Seiten hingegen befinden sich jetzt im (breiten)  Maximum bzgl. der Links die sie jetzt „sehen“. Da die Linkfrequenz aber nur zaehlt _ob_ und nicht wie oft eine Seite gezaehlt wird, gibt es eine „scharfe Kante“ bzgl. der Linkfrequenz. Und das macht sich im 90-Grad-Knick rechts oben bemerkbar. Im Maximum werden Seiten von anderen Seiten maximal zitiert und beim naechsten Schritt gilt das weiterhin (die Seiten befinden sich immer noch im Maximum, oder nicht weit weg davon). Das fuehrt dazu, dass sich viele Seiten in die obere Ecke draengen.
Weiterhin wissen wir bereits, dass das Maximum fast genauso schnell wie es angestiegen ist, auch wieder abfaellt. Die Datenpunkte befinden sich also auf der Abzsisse immer noch bei hohen Werten, brechen im naechsten Schritt aber um bis zu drei Grøszenordnungen auf der Ordinate ein. Das ist da wo die Kurve eine Wende macht und sich „auf dem Weg zurueck“ begibt.

Im linken unteren Diagramm ist die Entwicklung um weitere drei Linklevel voran geschritten. Die Daten beschreiben jetzt einen „Kreis“ (im uebertragenen Sinne). Die Kurve „zieht“ ihr Ende nicht mit (wie bspw. bei den „Orbits“ der totalen Links), sondern wird immer weiter gedehnt … wie ein Kaugummi. Die Erklaerungen sind im Wesentlichen wie oben.

Im rechten unteren Diagramm sind beispielhaft drei deutlich høhere Linklevel gezeigt. Das Bild aendert sich quantitativ, aber nicht qualitiativ; das „Gezappel“ nimmt ab (weil weniger Seiten ingesamt zitiert werden), aber der zugrundeliegende Mechanismus aendert sich nicht. Die gruenen Punkte replizieren dann (wieder einmal) die bereits bekannten Werte aus dem „São Paulo FC“-Artefakt (nur auf andere Weise).

Mhmmm … also eigtl. scheint hier nix Interessantes zu passieren … bis man sich das Ganze mal (beispielhaft am Uebergang von LL25 zu LL26) in linearer Darstellung anschaut:

Wait! What!? Das aus der Ellipse ein Viereck wird verwundert mich nicht … aber wo zum Teufel kommt denn der Querbalken her? Ich muss das wohl wieder mal der Reihe nach angehen und nicht versuchen gleich alles auf einmal zu bearbeiten.

Zunaechst ist das gelbe Quadrat da mit Absicht drin. Es verdeutlicht ganz beeindruckend die logarithmische Komprimierung: bei linearer Darstellung sind die kleinen Werte, welche in der doppellogarithmischen Darstellung zu sehen sind, an den Rand und noch mehr in die Ecke gedraengt. Wir sehen die also „nicht“ mehr. Umgekehrt gilt natuerlich das Gleiche fuer grosze Werte.
Das ist natuerlich kein Nachteil der einen oder der anderen Darstellung. Beide sind sehr wertvoll und offenbaren unterschiedliche Informationen.

Was ist nun aber mit dem gigantischen Querbalken? Nun ja, der ist fuer die feine „innere Rundung“ in der logarithmischen Darstellung verantwortlich. Nach dem oben Besprochenen sollte es hier nur eine spitze Ecke geben (und die sehen wir ja auch). Durch den Querbalken, welcher (bei linearer Darstellung) Werte „in der Mitte des gelben Quadrats“ repraesentiert, wird die Bedingung der  „scharfe Kante“ aber „aufgeweicht“ und die Kurve nach innen abgerundet. Durch das Hervorheben von drei Datenpunkten versuche ich diesen Sachverhalt zu verdeutlichen.

Das soll fuer heute reichen. Ich habe den zugrundeliegend Mechanismus der zur Entstehung des „Kreises“ so ausfuehrlich behandelt, weil das Wissen darum nuetzlich wird, wenn ich beim naechsten Mal versuche der Entstehung des Querbalkens auf die Spur zu kommen.

Beim letzten Mal erklaerte ich detailliert anhand der totalen Links und den Selbstreferenzen was ich mit den „Seiten pro Grøzenordnung“ meine. Deswegen kann ich heute ohne viel Aufhebens sofort zur Linkfrequenz uebergehen. Zunaechst wieder zwei repraesentative Verteilungen zur Erinnerung:

Am Beispiel der Daten von LL16 kann man noch einen anderen Grund sehen, warum ich ueberhaupt auf die Idee gekommen bin die Seiten pro Grøszenordnung zu untersuchen (abgesehen davon, dass ich die „kollektive Bewegung“ untersuchen wollte). Aufgrund der Ueberlappung der Datenpunkte und weil diese (scheinbar?) gleichverteilt sind (die „Amplitude bleibt im Mittel gleich ab einer Linkfrequenz von ca. 100), sieht es so aus, als ob in jedem Intervall ungefaehr gleich viele Seiten liegen. Dem sollte aber nicht so sein, allein schon wg. der (visuellen) „logarithmischen Komprimierung“.
Bei den totalen Links kommt so ein Eindruck nicht auf, weil sich die Seiten nicht gleich verteilen. Bei den Selbstreferenzen ebenso nicht aufgrund des linearen Zusammenhangs (die Amplitude veraendert sich ueber ein Intervall).

Darum nun endlich die Verteilung der Seiten ueber die Grøszenordnung(en) in Abhaengigkeit vom Linklevel:

Uff, hier passiert am Anfang viel. Deswegen gehe ich da Schritt fuer Schritt durch.

Zunaechst lasse ich Gruppe 0 auszen vor. Die ist erstmal nicht relevant.
Auf LL0 befinden sich die meisten Seiten in Gruppe 1, werden also nur 1 bis 10 mal von anderen Seiten auf diesem Linklevel zitiert. Nur noch halb so viele Seiten werden 11 bis 100 mal zitiert (Gruppe 2) und gar 20 mal weniger Seiten befinden sich in Gruppe 3. Noch sehr viel (viel viel) weniger Seiten sind in den Gruppen 4 bis 6. Keine einzige Seite wir mehr als 1 Million mal zitiert.
Auf LL1 gibt es dann aber schon massiv viel mehr (totale) Links (zu LL2) und deswegen bewegen sich 80 % der Seiten aus Gruppe 1 raus und in høhere Gruppen hinein (werden also von (deutlich) mehr als 10 anderen Seiten zitiert, auch wenn der Wert von Gruppe 2 ebenso etwas abnimmt). Entsprechend steigt der Wert fuer alle høheren Gruppen an und wir sehen auch zum ersten mal Seiten die sich in Gruppe 7 befinden.
Auf den naechsten paar Linkleveln nimmt der Wert fuer høhere Gruppen weiter zu. Aber je „tiefer“ eine Gruppe liegt, um so eher ereilt sie das gleiche Schicksal wie Gruppe 1 und 2; die Seiten bewegen sich von dort zu høheren Gruppen. Fuer Gruppen 3 und 4 geschieht das auf LL2, fuer Gruppen 5 und 6 auf LL3 bzw. LL4.
Letztlich landen die allermeisten Seiten in Gruppe 7 deren (zugegeben relativ breites) Maximum ungefaehr mit den Minima der anderen Gruppen zusammen faellt.

Nach dem Durchschreiten des Maximums von Gruppe 7 aendert sich das Vorzeichen der „Bewegung“ und die Werte aller Gruppen (auszer von Gruppe 7) steigen ab LL7 wieder an. Hier aber geschieht das Gegenteil zum Anfang. Je „høher“ eine Gruppe ist, um so kuerzer ist die „Erholungsperiode“, denn die Seiten „migrieren“ schnell weiter zu „tieferen“ Gruppen. Entsprechend fallen die Werte aller Gruppen nach durchlaufen eines (weiteren) Maximums rasch wieder ab.

Ab LL9 fangen die meisten Seiten an in Gruppe 0 ueber zu gehen und ab LL11 sind die allermeisten Seiten dort angelangt, werden also nicht mehr zitiert.
Ich wuerde noch nicht sagen, dass dort dann schon die zitierenden Ursprungsseiten ins „São Paulo FC“-Artefakt „eingetreten“ sind. Dafuer ist die Dynamik in den Kurven der Gruppen noch zu grosz. Aber das laeszt nicht lange auf sich warten und auch wenn ich den genauen „Eingang ins Artefakt“ bisher nicht entdeckt habe, so ist mir das in so vielen „Messungen“ begegnet, dass ich sagen wuerde, dass der um LL20 liegt. Der ganze lange Schwanz kann ab dort eigentlich auszer acht gelassen werden.

Als ich mir die Kurven genauer anschaute wurde ich stutzig. Das sieht doch so aus, als ob das (zweite) Maximum von Gruppe 1 genau am Wendepunkt der Kurve von Gruppe 7 ist.  Faszinierend! Also habe ich die Gruppe 7 Kurve zwei Mal (numerisch) abgeleitet und siehe da …

… qualitiativ (also von der Form) aehnelt die Kurve von Gruppe 1 tatsaechlich der 2. Ableitung der Kurve von Gruppe 7.
Ich zerbrach mir einen Abend und den darauffolgenden Morgen den Kopf wie das sein kønnte. Ich ueberlegte hin und her wie die kollektive Bewegung der Seiten aussieht und verlor manches Mal den Ueberblick wo sich denn eine Seite nun befindet von einem Linklevel zum naechsten bzw. was eine Bewegung bedeutet. Am Ende kam ich auf den folgenden Mechanismus der obige Beobachtung erklaeren wuerde.

Die erste Ableitung ist der Anstieg einer Kurve. In diesem Zusammenhang also wie viel grøszer (oder kleiner) der Wert der Kurve von Gruppe 7 auf dem im naechsten Linklevel ist. Der Wert auf dem naechsten Linklevel wird aber dadurch bestimmt, wieviele Seiten von „niedrigeren“ Gruppen sich zu Gruppe 7 bewegen. Das wuerde zur Folge haben, dass die Kurven von niedrigeren Gruppen eigtl. der 1. Ableitung aehneln sollten. Und wenn man da mal schaut, dann findet sich durchaus eine Aehnlichkeit (auch wenn ich das hier nicht zeige, weil’s reicht das zu sagen). Fetzt ja.
Aber warum aehnelt die Kurve von Gruppe 1 dann der 2. Ableitung? Nun ja, (fast) alle Seiten befinden sich zunaechst in Gruppe 1. Von dort migrieren sie aber nur in den seltensten Faellen direkt zu Gruppe 7 (wenn ueberhaupt, ich habe das nicht kontrolliert). Viel mehr ist es so, dass sich die Seiten von Gruppe 1 zunaechst in die Gruppen 2 bis 6 bewegen. Damit „treiben“ die Seiten die Aenderung der Werte in diesen „Zwischengruppen“. Aha! Gruppe 0 ist demnach der Anstieg von denen. Und wenn die Zwischengruppen den Anstieg von Gruppe 7 bestimmen, so ist Gruppe 0 der Anstieg vom Anstieg und das ist genau das was die 2. Ableitung ist. Cool wa!

Da hab ich mich urst gefreut, dass ich darauf gekommen bin … … … und dann machten sich bereits am fruehen Nachmittag Zweifel breit, denn das ist alles viel zu gut um wahr zu sein.
Deswegen suchte ich nach Fehlern und fand die nicht in der Argumentation sondern in der Ausgangslage. Denn wenn man mal genauer hinschaut, dann aehnelt die Kurve von Gruppe 1 deutlich weniger der 2. Ableitung der Kurve von Gruppe 7, als es im obigen Diagramm den Anschein hat. Da ist mein Gehirn auf seine eigene, von der Evolution so eingerichteten, Mustererkennung hereingefallen.

Klar, das sieht auf den ersten Blick so aus, aber die Minima und Maxima der beiden Kurven sind selbst bei groszzuegiger Interpretierung um mindestens ein Linkelvel verschoben. Das fuer sich allein ist erstmal nicht so schlimm. Ich bin sicher, dass man dafuer eine Erklaerung finden kann und ich hatte schon angefangen nach einer zu suchen.
Dann kommt aber hinzu, dass die Funktionswerte auch nicht hinhauen. Klar, oben sind die linke und die rechte Ordinate schøn skaliert (hab ich mit Absicht gemacht). Aber die 2. Ableitung hat viel kleinere und auszerdem auch negative (!) Werte.
Es bleibt also nur noch die Form der Kurven ueber. Und wenn ich da ehrlich bin, sollte man nicht das Eine logarithmisch und das Andere linear darstellen sondern beide linear und das sieht dann so aus:

Tjaaaa … da war die grosze Aehnlichkeit dann (fast) ganz fort. Naja, intellektuell war’s dennoch ein interessantes Puzzle, auch wenn’s nicht stimmt.
Andererseits wiederum denke ich, dass obiger Mechanismus plausibel ist. Mein Bauchgefuehl sagt mir, dass das zumindest eine Rolle bei der „kollektiven Bewegung“ spielt. Aber in der mathematisch „geschlossenen“ Form wie besagter Mechanismus vorgaukelt sicherlich nicht.

Ich finde es wichtig auch die Fehler und wie man zu denen kommt und diese erkennt zu zeigen. „Falsch“ eingeschlagene Wege und daraus gelernte Lektionen sind (sehr) oft ein Weg zu neuen Erkenntnissen. Fehler sind also ein wichtiger Teil der wissenschaftlichen Methode, aber meistens unsichtbar, weil man ja nur die Erfolge aufschreibt.

Ach ja, es war natuerlich natuerlich ein „brain fart„, dass ich aus der (scheinbaren) Position des (zweiten) Maximums von Gruppe Null ueber dem Wendepunkt von Gruppe 7 schloss, dass Erstere die 2. Ableitung der Letzteren ist. Im Wendepunkt wird die 2. Ableitung naemlich null.

Und damit soll’s genug sein fuer heute.

Weil das „gemischten Verhalten“ der Linkfrequenzverteilungen so schwer zu interpretieren war, nahm ich mir beim letzten Mal vor mal zu schauen, wie sich das „Kollektiv“ der Wikipediaseiten von  niedrigen zu hohen Linkfrequenzen „bewegt“. Die schiere Datenmenge steht sich dabei selbst im Weg und deswegen entschied ich mich diese zu komprimieren und mir fuer jedes Linklevel nur anzuschauen …

[…] wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“ […]

Ich gab auch eine kurze Erklaerung was ich damit meinte:

[…] ich [schaue] mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. […] erhalten haben.

Das ist ein neues Konzept und recht viel auf einmal. Deswegen zeige ich erstmal wie das bei den totalen Links und den Selbstreferenzen aussieht, auch wenn man die „kolletkive Bewegung“ schon aus den einzeilnen Verteilunge ablesen kann.

Zur Erinnerung sind hier alle Verteilungen bzgl. der totalen Links pro Linklevel zu sehen und ich zeige nochmal zwei (mehr oder weniger) repraesentative Verteilungen:

Die grauen gestrichelten Linien illustrieren einen Teil des Konzepts der Datenkomprimierung. Weiterhin ist auch gleich eine weitere Vereinfachung zu sehen; anstatt immer zu sagen „wie viele Seiten 11 bis 100 Zitierungen haben“ (usw. usf.) sag ich einfach (in diesem Fall) Gruppe 2. Die Gruppennummer ist dabei die Zehnerpotenz der oberen Grenze des Intervalls auf der Abszisse. Der Wert fuer die untere Grenze is i.A. der Wert de oberen Grenze geteilt durch 10. Der Wert an der oberen Grenze ist in der jeweiligen Gruppe enthalten, der an der unteren Grenze nicht. Die einzigen Ausnahmen sind Gruppe 0 und Gruppe 1 wegen der Besonerheiten der nullten Potenz. Zur Ersteren zaehlen NUR die Seiten, die den Nullwert annehmen (der rote Balken, der zu LL2 gehørt). Zur Letzteren zaehle ich auch alle Seiten die den Wert eins annehmen.

Bei den zwei Beispielverteilungen wuerde ich also auf LL2 erwarten, dass alle Gruppen einen Wert haben, waehrend auf LL16 nur Gruppe 4 einen Wert hat.
Damit soll genug gesagt sein zum Prinzip und das ist das Ergebnis:

Weil das bei kleinen Linkleveln so unuebersichtlich ist habe ich nur ein paar repraesentative Gruppen reingepackt. Auszerdem ist das Diagramm ausnahmsweise laenger, damit man bei besagten kleinen Linkleveln nicht die Uebersicht verliert. Gestrichelte Linien verbinden Teile der Kurve einer Gruppe zwischen denen es keine Werte gibt.

Beim letzten Mal schrieb ich diesbzgl.:

Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben.

Und das ist genau das was man hier sieht … abgesehen von der letzten Aussage, weil ich Gruppe 0 weggelassen hab. Diese replizierte naemlich wieder nur ein altbekanntes Resultat, welches durch die ausfuehrliche und mehrfache Besprechung des „São Paulo FC“-Artefakts hinreichend bekannt ist. Aber der Reihe nach (und es mag helfen, wenn man das Gezappel der individuellen Verteilungen, die oben verlinkt sind, nochmal anschaut).

Auf LL0 befinden sich (im Diagram) viele Seiten in den Gruppen 1 bis 3, nur eine Seite in Gruppe 5 und keine Seite in Gruppe 8. Auf LL1 nimmt die Anzahl der Seiten in den drei erstgenannten Gruppen rapide ab, dafuer aber in Gruppe 5 rapide zu. Das ist die „kollektive Bewegung“ von der ich sprach. Auf LL2 wird dann auch Gruppe 8 (zunaechst etwas zøgerlich) besetzt und von LL3 bis LL6 halten sich praktisch (fast) alle Seiten dort auf und die Gruppen 1 bis 3 sind komplett leergeraeumt.
Abe LL7 setzt dann die „Rueckwaertsbewegung“ ein. Diese ist aber nicht so „chaotisch“ wie die „Vorwaertsbewegung“ und die Gruppen werden in absteigender Reihenfolge nach und nach gefuellt und dann wieder geleert, wenn die Seiten zur naechsttieferen Gruppe „weiterwandern“. Zunaechst natuerlich Gruppe 5, aber dann auch die Gruppen 3 und 2. Gruppe 1 wird nie wieder besetzt, da am Ende alle Seiten direkt von Gruppe 2 zu Gruppe 0 springen.

Das war letztlich easy peasy zu verstehen, insb. wenn man (wie bereits erwaehnt), das (oben verlinkte) Gezappel der linklevlabhaengigen Verteilungen der totalen Links sich nochmal anschaut.
Deswegen geht’s gleich weiter mit den Selbstreferenzen. Zur Erinnerung zwei Beispielverteilungen:

Die Gruppen gehen nicht ganz so weit wie bei den totalen Links und nicht gezeigt ist Gruppe 6, weil sich da ueber alle Linklevel gesehen nur zwei Seiten aufhalten (siehe das naechste Diagramm). Von der Andersartigkeit der Verteilungen abgesehen (welche aber bereits ausfuehrlich besprochen wurde) gibt’s aber letztlich nichts Neues und deswegen geht’s gleich weiter mit den Seiten pro Grøszenordnung:

Das hier ist so viel uebersichtlicher, dass ich alle Gruppen dringelassen habe. Beim letzten Mal schrieb ich nur kurz:

[e]s ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat […]

… und das ist was man sieht; Gruppe 1 ist immer høher als Gruppe 2 ist immer høher als Gruppe 3 usw. usf. Das aendert sich auch dann nicht, wenn Gruppen die Seiten mit mehr (und viel mehr) Selbstreferenzen repraesentieren, bei LL2 oder LL3 ein høheres Signal aufweisen als am Anfang. Die Erhøhung kommt naemlich durch das Vorhandensein von mehr totalen Links zustande und wenn ich davon mehr habe, habe ich (dem maechtigen Gesetz entsrpechend) auch mehr Seiten in Gruppe 1.
Wieauchimmer, ab ungefaehr LL10 befinden sich onehin die meisten Seiten in Gruppe 0 und es passiert nicht mehr wirklich was.

Alles in allem sind die Seiten pro Grøszenordnung sowohl fuer die totalen Links, als auch fuer die Selbstreferenzen leicht zu verstehen, da diese relativ direkt aus den Verteilungen pro Linklevel folgen. Das ist der Hauptgrund, warum ich zunaechst diese abgehandelt habe, damit man etwas vertrauter wird mit der Datenkomprimierung und was man da dann eigtl. sieht.
Das bedeutet aber auch, dass man fuer diese beiden Grøszen da nichts weiter „rausholen“ kann.
Beim naechsten Mal dann das Gleiche fuer die Linkfrequenzen. Das ist komplizierter und da passiert viel mehr.

Ich hatte zwar bereits individuelle Linkfrequenzverteilungen gezeigt, aber noch nicht die „kollektiven“ Linkfrequenzverteilungen per Linklevel, so wie es „Tradition“ ist. Das hole ich heute nach.

Bei den totalen Links war nicht viel. Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben. Es gab keine Seite die wenige totale Links hatte, waehrend andere sehr sehr sehr viele hatten (und umgekehrt).
Eine Idee die mir in dem Zusammenhang in den kopf kam fuehrte mich in eine Sackgasse. Aber letztlich wurde ich dadurch auch das erste Mal auf das „São Paulo FC“-Artefakt aufmerksam und das Wissen darum half mir ein paar Mal weitere Seltsamkeiten richtig einzuordnen.

Weil die neuen Links letztlich zu aehnlich den totalen Links sind, gab es da entsprechend nix Neues zu holen.

Die Selbstreferenzen hatten ganz andere Verteilungen. Die Andersartigkeit folgte aber aus der Natur der Selbstreferenzen und der Wikipedia. Es ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat und dies folgt einem maechtigen Gesetz. Letztlich entdeckte ich dadurch aber die Gesetzmaeszigkeit wie schnell die thematische Aehnlichkeit der Wikipediaseiten von Linklevel zu Linklevel abnimmt, was eine urst coole Entdeckung ist. Ebenso brachte mich das auf die Idee mich mal an einer Simulation des Ganzen zu versuchen.

Ich will damit auf das Folgende hinaus: auch wenn diese Verteilungen immer erstmal eher langweilig sind, so bin ich aber letztlich dadurch immer auf coole Sachen aufmerksam geworden. Deswegen heute die Verteilungen der Linkfrequenzen pro Linklevel anhand repraesentativer Beispiele:

Hier passiert viel, aber der Reihe nach, beginnend mit dem linken oberen Diagramm in dem die Verteilungen von LL0 bis LL4 zu sehen sind.
Zunaechst einmal scheint mir hier (mehr oder weniger fuer alle Veteilungen) eine Mischung im Verhalten vorzuliegen, welches man bei den totalen Links und den Selbstreferenzen sieht. Die Verteilungen von LL0 (welche uebrigens wieder nur eine alte Beobachtung auf andere Weise repliziert ist) bis LL2 sind qualitativ noch naeher an den Selbstreferenzen. Aber ab LL3 „zerfasert“ sich die Verteilung ab Linkfrequenzen ueber ca. 1000 (Zitierungen von anderen Seiten), was man daran sieht, dass die blauen Punkte ein breites Band bilden. Dadurch gibt es in der Summe mehr Seiten mit vielen bis sehr vielen Zitierungen von anderen Seiten als solche mit wenigen. Aber die gehen nicht alle in „Zustaende“ nahe dem Ende der Abszisse (wie bei den totalen Links), sondern verteilen sich ueber (fast) die ganze Breite ab ca. 1000 Zitierungen (das ist was ich mit „Zerfaserung“ meine).
Dieses Verhalten verstaerkt sich noch fuer LL4 und LL5 (dann schon im Diagramm rechts oben). Immer mehr Seiten mit wenigen Zitierungen gehen ueber in das „zerfaserte Band“. Die „Amplitude“ des linearen Teils nimmt ab.

Dann aber kehrt sich das Verhalten um. Zunaechst waechst auf LL6 ein „Buckel“ zwischen ca. 100 und ca. 10,000 Zitierungen. Von LL7 bis LL9 nimmt die „Amplitude“ des linearen Teils wieder zu, waehrend das „zerfaserte Band“ nicht verschwindet, aber die Høhe abnimmt.
Im linken unteren Diagramm sieht man dann, dass sich diese Entwicklung ueber etliche Linklevel fortsetzt. Zu beachten ist aber, dass die Amplitude des linearen Teils wieder abnimmt, denn die Seiten „wandern“ in den „Nullzustand“; dem Punkt der sich links oben an die Ordinate schmiegt.

Am Ende haben wir ein bereits bekanntes Bild in anderer Form. Alle zitierenden Ursprungsseiten befinden sich um Artefakt und nur noch ca. 75 Seiten werden ueberhaupt zitiert (davon aber einige sehr sehr oft).

Die Verteilungen sind nicht so eindeutig wie bei den Selbstreferenzen oder den totalen Links. Deswegen wollte ich gerne mal sehen, wie die Seiten sich von niedrigen zu hohen Linkfrequenzen „bewegen“. Also nicht einzelne Seiten, sondern wie die „kollektive Bewegung“ aussieht. Nun kann ich mir aber nicht alle fast 6 Millionen Seiten anschauen. Ich musste also einen Weg finden die Information zu komprimieren.
Dabei kommt mir (ausnahmsweise) zur Hilfe, dass bei den Werten fuer die Linkfrequenz (aber auch bei den totalen Links und den Selbstreferenzen) mehrere Grøszenordnungen „ueberstrichen“ werden. Da bot sich førmlich an, dass ich mir mal anschaute, wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“; das Ganze natuerlich pro Linklevel … … … HAEH?
In kurz und knapp, schaute ich mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. (also von einem langen Strich auf der Abszisse zum naechsten) auf jedem Linklevel erhalten haben. Dadurch kann ich die Information von ueber 12 Millionen Datenpunkten (verteilt ueber mehr als 70 Linklevel) auf nur 8 Datenpunkte pro Linklevel reduzieren.

Aber das wuerde zu viel werden fuer heute. Deswegen erklaer ich das Ganze beim naechsten Mal nochmal an einem Beispiel (und hoffe, dass dann klarer wird worauf ich hinaus will). Auszerdem fange ich am Besten auch nicht gleich mit dem Schwersten (also den Linkfrequenzen) an, sondern erstmal „nur“ mit den totalen Links und den Selbstreferenzen. Die sind naemlich leichter zu verstehen.
So, das soll genug sein fuer heute.

Obligtorischer Videoschnipsel.

Nach dem vielen Text vom letzten Mal, muss ich heute nix mehr erklaeren und kann sofort in die Vollen gehen:

Woohoo! Es ist genau so wie ich es beim letzten Mal vorausgesehen habe!

Zum Ersten kann die Verteilung der Summe der Linkfrequenzen ueber aller Linklevel tatsaechlich in zwei unterschiedliche, deutlich (!) voneinander getrennte Gruppen eingeteilt werden.
Zum Zweiten weist die erste Gruppe keine hohen Summenwerte auf. Nicht eine einzige Seite liegt ueber einem Summewert von 150.
Zum Dritten liegt die zweite Gruppe ueber einem „strengen“ Grenzwert welcher bei 5,692,712 liegt.

Cool wa! Der Clou kommt aber erst noch. Die Anzahl der Seiten aus denen die ersten Gruppe besteht betraegt naemlich 481,522 Seiten. Dieser Wert entspricht exakt dem beim letzten Mal angegebenen Wert fuer die Anzahl aller Archipelseiten.
Dadurch wird nicht nur die dort aufgestellte Behauptung, dass sich im „Nullwertbalken“ der dortigen Verteilung Archipelseiten verstecken, indirekt bestaetigt sondern das bedeutet auch, dass mir bei meiner urspruenglichen Analyse keine Archipele „entkommen“ sind … Jippie!

Haette ich die obige Infornation bereits vor besagter urspruenglichen Analyse gehabt, so haette ich eben diese auf nur die Seiten mit einer kleinen Linkfrequenzsumme einschraenken kønnen. Das haette die rekursiv durchzugehende Datenmenge auf weniger als 1/10 reduziert …

… *ueberleg* …

Kurz ueberschlagen (und die Zahlen gerundet so dass es sich einfacher ueberschlagen laeszt) gibt es 5 Millionen Seiten. Diese weren auf 1/10 reduziert. Aber die 5 Millionen Seiten haben insgesamt 150 Millionen Links die alle durchgegangen werden muessten. Hier brauche ich aber nur Links zu anderen Archipelseiten was eine Reduzierung um einen Faktor 300 bedeutet! Die Analyse waere also 3000 Mal schneller gegangen! Das sind drei Grøszenordnungen! Krassomat … naja … nun bin ich fertig aber ’s ist schon interessant zu sehen was møglich ist, wenn man mehr Information hat.

Joa … øhm … das war’s fuer heute … ich musste ja beim letzten Mal so viel erklaeren, da ist’s auch mal schøn, wenn’s mal schnell geht :)

Das zweite Diagramm beim letzten Mal zeigte die linklevelabhaengigen Linkfrequenzen  dreier Beispielseiten. Die Summe ueber alle Linklevel einer Seite war da weit unter 1000. Dies im starken Gegensatz zu allem was ich davor gesehen hatte. Die drei Beispiele sehen alle aus als ob das Archipelseiten sind (ohne das zu pruefen … ist nur so’n Bauchgefuehl weil ich mich ja jetzt ein bisschen damit auskenne) und entsprechend schrieb ich:

Das bringt mich aber auf eine Idee, ob ich damit nicht alle Archipelseiten auf einfache Art und Weise identifizieren kønnte.

Mit „damit“ meine ich die Summe ueber alle Linklevel einer Seite (in diesem Fall fuer die Linkfrequenz) und die erste Frage ist nun, warum das mglw. klappen kønnte.

Eine kurze Ueberlegung nimmt die (oben nochmals verlinkten) individuellen Linkfrequenzverteilungen dreier Seiten des „São Paulo FC“-Artefakts heran.
Diese Seiten gehøren zu den am wenigsten zitierten Seiten die aber dennoch Teil des gesamten Wikipedianetzes sind (also NICHT zum Archipel gehøren). Das ist so, weil alle (anderen) Seiten nie direkt dorthin zitieren. Jedes Jahr des Artefakts kann nur ueber des jeweils spaetere Jahre zitiert werden. Jede Artefaktseite erhaelt also von jeder anderen Ursprungsseite maximal ein Zitat. Reflexionen lasse ich der Einfachheit mal auszen vor, bzw. kønnte man auch nur das Jahr 1930 des Artefakts betrachten, denn dieses hat keine Reflexionen in der Linkfrequenz.
Die Summe der Linkfrequenzen ueber alle Linklevel betraegt demnach mindestens 5.5 Millionen (sogar etwas mehr) fuer solche Seiten.

Seiten die zwei Mal zitiert werden sieht man in der roten und schwarzen Kurve im zweiten Diagramm des selben Beitrags. Das sind die, bei denen sich „Metaartefakte“ im Schwanz bemerkbar machen, weil die dort nochmal massiv zitiert werden. Die Summe der Linkfrequenz ueber alle Linklevel verdoppelt sich also (so ungefaehr).
Eine Verdopplung ist das Maximale was in dem Fall passieren kann, denn die zwei Peaks kønnten sich auch ueberlagern und dann waere es weniger als das Doppelte. Das Wichtige ist, dass die obigen 5.5 Millionen eine harte untere Grenze sind, unter die keine Seite kommt, wenn diese irgendwie aus dem gesamten Linknetzwerk zu erreichen ist.

Und das ist der Clou, denn Archipelseiten sind NICHT aus dem gesamten Linknetzwerk zu erreichen. Es ist ja gerade das Merkmal der Seiten aus denen das Archipel besteht, dass diese (wenn ueberhaupt) _nur_ von anderen Archipelseiten zitiert werden, waehrend sie im Allgemeinen aber durchaus auch „nach drauszen“ linken .
Und deswegen nehme ich an, dass die Summe ueber alle Linklevel einer Seite bei den Linkfrequenzen von Archipelseiten immer unter obiger Grenze liegt. In den allermeisten Faellen sogar drastisch darunter, also bei null oder eins oder zwei oder vielleicht auch mal zehn oder 69 wie bei Chrysoprasis beim letzten Mal.
Ich gebe aber zu, dass das vor allem eine praktische Ueberlegung ist, mit Wissen darueber wie das Archipel aussieht. Prinzipiell kønnte eine Archipelseite ueber den Grenzwert kommen, wenn es eine starke Vernetzung gibt und besagte Seite von vielen (Archipel-)Ursprungsseiten auf mehreren Linkleveln zitiert wird. Da gibt es konzeptionell keinen Unterschied zum Rest des Wikipedianetzwerkes. Aber wie gesagt, so sieht das Archipel nicht aus.

Die naechste Frage ist, warum ich das wuerde machen wollen, denn ich habe doch alle Seiten des Archipels bereits identifiziert.
Der Grund liegt darin dass die dortige Identifizierung eher umstaendlich war. Sowohl vom Konzept, als auch von der Implementierung.
Mir hat das natuerlich Freude bereitet, war es letztlich doch ein intellektuelles Puzzle. Aber insbesondere die Implementierung hatte ihre Schwaechen, denn ich musste rekursiv oft ueber viele Daten „fahren“ um Archipelseiten zu identifizieren. Die Schwaeche liegt dabei nicht in der Rekursion, diese machte eher den grøszten Reisz fuer mich aus … auch wenn viele Leute das mglw. anders sehen. Aber das „oft ueber viele Daten fahren“ dauert sehr lange. Mitunter mehrere Stunden, was das Testen und Ausprobieren arg beschraenkt. Deswegen setzte ich eine Limitierungen bei der ich annahm, dass wenn ein Netzwerk von zitierenden Seiten grøszer als so und so viele zitierende Seiten ist (bspw. 100), die Ursprungssite høchstwahrscheinlich nicht zum Archipel gehørt.
Das ist eine durchaus sinnvolle Annahme denke ich und ich testete den maximalen Wert fuer die Limitierung, bis es nicht mehr sinnvoll war (einfach, weil es zu lange dauerte). Ab einem Wert von ca. 100 zitierenden Seiten (also nahe an den Werten der drei Beispiele vom letzten Mal) sah ich dann keine Veraenderungen mehr, es schien also als ob alle Archipelseiten weniger Zitate erhalten als das Limit erlaubt. Aber eine Garantie ist das natuerlich nicht, mir kønnten durchaus Archipele „entkommen“ sein.

Wieauchimmer, die Summe ueber die alle Linkfrequenzen einer Seite zu bilden und zu schauen ob diese (weit) unter einem Grenzwert liegt ist natuerlich deutlich einfacher, viel schneller und einfach zu implementieren. Und wie immer interessieren mich einzelne Seiten weniger sondern die Verteilung dieser Summen.

Daraus stellt sich dann gleich die dritte Frage: worin liegt denn der Unterschied zu den bisherigen Summenverteilungen?
Nach all dem oben Geschriebenen sollte das einfach zu verstehen sein: bei allen vorherigen Summenverteilungen summierte ich fuer jedes Linklevel ueber alle Seiten. Das fuehrte zu linklevelahaengigen Verteilungen mit maximal 73 Werten. Hier aber summiere ich (wie bereits erwaehnt) ueber alle Linklevel einer Seite und das sollte bei ca. 6 Millionen Seiten zu einer Verteilung mit deutlich mehr als 73 Werten fuehren. Kurioserweise nur deswegen weil es das Archipel gibt, aber dazu mehr weiter unten.

Als Letztes stellt sich dann die Frage, warum ich das nicht schon mit den totalen / neuen Links bzw. den Selbstreferenzen gemacht habe.
Nun das ist ganz einfach zu beantworten: weil das nicht sinnvoll erschien … aber fuer die Begruendung der Antwort muss ich etwas ausholen und ich fange mit den totalen Links an.

Zunaechst lasse ich die Archipelseiten auszen vor. Dies auch deswegen, weil ich vom Archipel noch nicht mal etwas ahnte, als ich die totalen Links genauer untersuchte. Unter der Annahme, dass es kein Archipel gibt, sollte die Verteilung der Summen ueber die totalen Links genau zwei Werte haben: Null und ungefaher 165 Millionen.
Der Wert Null kommt durch die Seiten zustande die zwar zitiert werden, aber selber keine Links haben. Hier sollten sich nur ein paar tausend Seiten tummeln. Der weitaus grøszte Anteil der Seiten sollte sich beim Wert von ca. 165 Millionen Wert aufhalten, denn das ist natuerlich genau die Anzahl aller Links ueber alle Seiten. Dies folgt daraus, weil jede Seite im Linknetzwerk zu jeder anderen Seite kommt and dadurch alle Links sieht. Das heiszt aber auch, dass jede Seite am Ende ihres Linknetzwerkes die selbe Anzahl an totalen Links gesehen hat wie jede andere Seite.
Daraus folgt, dass es nur zwei Werte geben sollte und das war der Grund warum ich das damals nicht machte.

Wie man im linken Diagramm dieses Bildes sieht, ist das auch tatsaechlich (fast) so:

Mein Bauchgefuehl sagt mir, dass das schon stimmt mit den ca. 5500 Seiten beim Nullwert. Die ca. 6 Millionen Seiten die sich bei einem Wert von knapp unter 200 Millionen versammeln sind ja genau wie „vorhergesagt“. Und auch wenn ich mich wiederhole: dieses Ergebnis bestaetigt, dass es nicht sinnvoll war die „neue Summe“ ueber die totalen Links zu bilden.

Diese Aussage stimmt nur noch bedingt, wenn man Archipele mit in die Betrachtungen einbezieht, denn diese fuehren zu mehreren (relativ kleinen) Modifikationen.

Zum Einen ist obiger zweiter Wert um ein paar Millionen Seiten kleiner als theoretisch angenommen. Das Archipel besteht aus ungefaehr 500-tausend Seiten und im Durchschnitt hat jede Seite so 10 bis 30 Links. Die durchschnittliche Anzahl an Links pro Seite (und die Nachteile dieses Ansatzes) wurde bereits mehrfach diskutiert, ich finde auf die Schnelle aber nicht wo genau das war. Wenn man sich in der Mitte bei 20 Links pro Seite trifft, fuehrt das zu einem um 10 Millionen kleineren Hauptwert. Und das ist auch das was man sieht … zuegegeben, nicht im linken Diagramm, aber wenn man reinzoomt (so wie im rechten Diagramm, mehr dazu weiter unten), dann ist das tatsaechlich so.

Zum Zweiten wuerde ich vermuten, dass mglw. ein paar niedrige Werte in der Verteilung dazu kommen. Dabei wuerde es sich um Archipelseiten handeln, die bspw. Links zu nur einer oder ein paar wenigen andere Seiten haben und von dort zurueck zitiert wird und wenn keine einzige dieser Seiten einen Link zum groszen Wikipedianetzwerk hat. Davon sollte es aber nicht viele geben, denn es ist selten, dass eine Seite nicht irgendwie ins grosze Linknetzwerk zitiert, selbst wenn sie von da keine Zitate bekommt.
Obiger (linker) Graf bestaetigt das durch die kurzen Balken bei den Werten eins, zwei und drei.

Zum Dritten sollte es etliche (aber maximal ca. 500-tausend, der Anzahl der Archipelseiten, vermutlich deutlich weniger) Werte geben, die ueber den Wert von ca. 155 Millionen (siehe der erste Punkt) hinaus gehen.
Bei kleinen Abweichungen vom Wert den die allermeisten Seiten annehmen handelt es sich um Seiten, die zusaetzlich zum groszen Linknetzwerk nur ihre eigenen Links sehen. Das sind also Seiten des „No-way-home“-Archipels die NUR ins grosze Linknetzwerk zitieren, aber NICHT auf andere Archipelseiten. Fuer Archipelseiten die auch andere Archipelseiten zitieren nimmt der Abstand vom „Hauptwert“ natuerlich entsprechend mehr zu.
Aber alles in allem sollten diese Abweichungen nicht all zu grosz sein. Deswegen sieht man die im linken Diagramm nicht, denn wegen der logarithmischen Abzsisse schmiegen die Balken sich an den Hauptwert. Wenn man aber mal beim Hauptwert rein zoomt (so wie im rechten Bild; man beachte die lineare Abzsisse!) sieht man, dass da tatsaechlich noch was hinter dem høchsten Balken kommt und das verhaelt sich qualitativ so wie erwartet.
Um zu sehen ob das auch quantitativ stimmt  muss man mal die Anzahl der Seiten bestimmen, die sich in den „zusaetzlichen“ Balken befinden und mit der Anzahl der Archipelseiten vergleichen.

Ersteres ist einfach, denn da muss ich nur zaehlen und komme auf 65 + 45 + 3 Seiten bei den Werten von eins bis drei und 481,118 Seiten _hinter_ dem Hauptwert. Zusammen sind das 481,231 Seiten.
Die Anzahl der Archipelseiten hatte ich schonmal, deren Menge wurde da nur nicht erwaehnt. Diese entspricht aber dem Integral unter der roten „Kurve“ (jaja, es sind Punkte) im zweiten Diagramm dieses Beitrags. Da komme ich auf 481.522 … also ein paar mehr … mhmmm … das kønnten Seiten sein die nur von Archipelseiten zitiert werden und selber keine Links haben.
Jau! Das haut hin wenn man das mal grob ueberschlaegt. Es gibt ungefaehr zehn mal mehr Seiten im groszen Netzwerk als auf den Archipelen. Letztere unterscheiden sich aber nicht von Ersteren (auszer, dass die nicht von denen zitiert werden). Deswegen wuerde ich erwarten, dass es auch zehn Mal weniger „Nullwertseiten“ gibt, die nur von Archipelseiten zitiert werden. Das waeren dann so Pi mal Daumen 300. Die Diskrepanz liegt also im „Nullwertbalken“ versteckt und den kann ich nicht ohne weiteres auseinanderpopeln.

Festzuhalten ist das Folgende: haette ich die „neue Summe“ schon bei den totalen Links angeschaut, dann waere ich auf die Existenz der Archipele mglw. schon frueher aufmerksam geworden. Hab ich aber nicht, weil es mir nicht sinnvoll erschien.

Sososososo … der Beitrag ist schon lang genug … ach doch … zwei Sachen noch, die gehen aber schnell.

Es war auch nicht sinnvoll diese „neue Summe“ ueber die neuen Links zu bilden, denn da sieht das (fast) genauso so aus. Der grøszte Unterschied liegt darin, dass der Hauptwert nicht (ungefaehr) bei der Anzahl aller Links, sondern bei der Anzahl aller Seiten liegt … muss ja so sein. Ich habe das natuerlich kontrolliert und es ist tatsaechlich so.

Und schlussendlich war das auch nicht sinnvoll diese „neue Summe“ ueber die Selbstreferenzen zu bilden, denn da wuerde ich ja nur zaehlen wie oft eine Seite von anderen Seiten zitiert wird. Das habe ich aber vor langer Zeit schonmal anders untersucht und die Kontrolle ergibt, dass das auch mit der „neuen Summe“ genau so raus kommt.

Nun ist aber wirklich Schluss fuer heute. Die Verteilung der „neuen Summe(n)“ bzgl. der Linkfrequenzen aller Seiten verschiebe ich auf’s naechste Mal.

Ich gehe nochmal zurueck zum Anfang und verweise auf das zweite Diagramm in welchem die Position des Maximums dargestellt ist. Wie schon bei den Selbstreferenzen erschien mir der erste Balken mit einem Wert von fast 470-tausend viel zu hoch.

Der Verweis auf die Selbstreferenzen ist gut, denn dort liegt auch des Raetsels Løsung: die Høhe des Balkens wird im Wesentlichen bereits durch das „No-way-home“-Archipel beschrieben.
Die ungefaehr 320-tausend „Einwohner“ der

„isolierte[n] Insel der Unzitierten“

werden ja ueberhaupt nicht zitiert und somit liegt das „Maximum“ am Anfang der konstanten Verteilung (mit Wert Null) also auf LL0. Desweiteren stellte ich damals fest, dass

[…] 124.139 Seiten […] zwar nicht Teil der „isolierten Insel“ sind, aber NUR von dort Zitate erhalten.

Das bedeutet, dass die Seiten der „isolierte Insel der Unzitierten“ die Ursprungsseiten sind und dann sofort (also auf LL0) diese anderen 124.139 Seiten zitieren. Da die zitierten Seiten keine weiteren Zitate erhalten ist das dann automatisch auch das Maximum. Da werden zwar sicherlich Mehrfachzaehlungen dabei sein, aber von der Grøszenordnung haut das schon hin. Summa Summarum kønnen vom Wert 470-tausend ungefaehr 445-tausend sofort erklaert werden.

Um den fehlenden 25-tausend auf die Spur zu kommen schaute ich mir mal an, wie die Verteilung der Werte der Maxima aussieht von den Seiten die auf LL0 ihr Maximum in der Linkfrequenz haben:

Aha! Da sind sie, die ca. 320-tausend Seiten mit null Zitierungen. Der zweite Balken ist mit fast 135-tausend Seiten etwas høher als die oben erwaehnten ungefaehr 125-tausend Seiten (ich gebe zu, dass man das im Diagramm nicht sieht). Das war zu erwarten, denn es gibt ja noch ca. 20-tausend Seiten die sich nicht auf dem „No-way-home“-Archipel, aber immer noch auf dem Archipel, befinden.
Hierbei ist daran zu denken, dass eine Seite die aus dem groszen Linknetzwerk zitiert wird letztlich von (fast) allen Seiten der Wikipedia gesehen wird. Der Maximumswert der meisten Seiten sollte also deutlich høher als 1 oder 2 oder gar 10 oder 100 sein. Siehe auch die hier gezeigten individuellen Verteilungen ausgewaehlter Seiten.
Wieauchimmer, von den „fehlenden“ 25-tausend Seiten befinden sich 10-tausend im zweiten Balken. 10-tausend weitere folgen gleich im dritten Balken und was dann noch fehlt ist im Rest. Ich will jetzt aber nicht wieder ins Erbsenzaehlen verfallen. Zum Glueck sieht das alles schon richtig aus und die Verteilung geht auch schnell genug runter. Das ein paar hundert Seiten mehr als ein mal zitiert werden ist normal und war zu erwarten.
Wie mehr als ein oder zwei Zitate zustande kommen ist leicht zu erklaeren, wenn man sich mal die Ausreiszer anschaut (und von dort „rueckwaerts argumentiert“):

Ja, die Linkfrequenzzaehler der Ausreiszer gehen nicht ueber LL2 hinaus und das vom Cheshmeh Ziarat Rural District geht gar nur bis zum ersten Linklevel. Das ist uebrigens ein Verwandter einer unserer Bekannten, den wir von den „Information Operations“ von vor langer Zeit kennen.
Die Vehicle registration plates of the Canal Zone sind uns (dem køniglichen) vor nicht all zu langer Zeit schonmal begegnet.

Chrysoprasis ist uns direkt noch nicht, aber in aehnlicher Form (bspw. als Lepidoptera (auch) bei den „Information Operations“) dann doch schon untergekommen  … und wie diese Seite sich verhaelt ist uns bekannt, denn das ist eine weitere Reflexion. Wenn man dem Link folgt findet man 69 (weitere) Links die alle zu Kaefern dieser Gattung gehøren. Ich finde die Seiten aus Prinzip uebrigens voll toll, denn da hat sich anscheinend eine Expertin mal hingesetzt und aufgeschrieben wer die entsprechenden Krabbeltiere als erstes beschrieben hat. Manchmal sogar mit Bildern.
Wieauchimmer, diese 69 Kaefer zitieren die Gattung Chrysoprasis auf LL0 und werden dort dann alle „reflektiert“ um nochmal auf LL2 (von sich selbst aus gesehen, das sind also Selbstreferenzen) zitiert zu werden. Das eine Zitat auf LL1 kommt von Chrysoprasis selber, denn die Seite geht von LL0 zu den 69 Kaefern, befindet sich dann auf LL1 und wird da 69 mal zitiert … aber das wird nur ein Mal gezaehlt, weil es sich um die Linkfrequenz handelt.

So, das soll reichen fuer heute. Das bringt mich aber auf eine Idee, ob ich damit nicht alle Archipelseiten auf einfache Art und Weise identifizieren kønnte … mhmmmm … naechstes Mal!

Beim letzten Mal hatte ich gezeigt wie die Verteilungen der Linkfrequenzen fuer drei Seiten des „São Paulo FC“-Artefakts aussehen. Zur Erinnerung: diese weisen ein zweigeteiltes Maximum auf (das zweite Maximum ist etwas kleiner) welche durch ein Phaenomen das ich „Reflexion“ nannte (und dort genauer beschrieb) zustande kommt.

Nicht zu vergessen ist, dass ich das Mysterium aufklaeren will, warum die Anzahl der totalen Links und die Anzahl aufsummierten Linkfrequenzen so nahe beieinander liegen fuer høhere und hohe Linklevel. Aber eben _weil_ die so nahe zusammen liegen muss ich genau wissen, wie die Werte fuer die Grøszen zustande kommen; daher der Titel dieses Beitrags.
All das Zaehlen veranschauliche ich genau anhand eines Beispiels: welche Seiten tragen auf LL66 zur Linkfrequenz bei; dito bzgl. der totalen Links. Am Ende diskutiere ich dann, inwieweit das verallgemeinert werden kann.

Also auf geht’s mit allen (!) Seiten die auf LL66 von anderen Seiten zitiert werden.

Nur 75 Seiten werden ueberhaupt auf LL66 zitiert. Und alle davon erhalten Zitate NUR von den Jahren 1936 bis 1930 des „São Paulo FC“-Artefakts. Weiter unten wird klar warum das so sein muss. Farbig hervorgehoben sind ein paar Beispiele und wie viele Zitate diese auf LL66 erhalten sind angegeben. Diese Werte sollen nun erklaert werden. Aber dazu muss ich etwas weiter ausholen und zunaechst nochmal ein Ergebnis von vor langer Zeit zeigen (ich bitte zu entschuldigen, dass ich hier uneinheitlich bin und Punkte, anstatt Kommas (wie oben), als Trennung nach jeder dritten Stelle benutz(t)e):

Zur Erinnerung: das ist nur ein Hereinzoomen in das Ende der Verteilung der Aussteiger (bezogen auf die totalen Links) pro Linklevel. Das bedeutet je weiter links ein Balken liegt, umso eher ist der „ausgestiegen“. Im hiesigen Zusammenhang bedeutet das, dass die Seiten die einen weiter links liegenden Balken ausmachen, ein gegebenes Jahr des Artefakts frueher durchlaufen haben und sich damit schon im darauffolgenden Jahr befinden. Die Gruppennamen sind heute im Wesentlichen nicht zu beachten; nur die Zahlen an den Balken sind wichtig (und das was ich im Satz zuvor schrieb).

Das Diagramm ganz oben zeigt, dass die 1931 São Paulo FC season auf LL66 am meisten zitiert wird und dort 4,484,327 Zitate hat. Aus der ersten Untersuchung des Artefakts wissen wir auch, dass die Seiten das Selbige schøn der Reihe nach, von hohen zu niedrigeren Jahren, durchlaufen. Daraus folgt dann, dass sich die meisten Seiten im Jahre 1932 des Artefakts befinden und von dort 1931 zitieren.
Aus dem zweiten Diagramm lesen wir nun ab, dass „die meisten Seiten“ bedeutet, dass es sich dabei um 4,453,693 handelt. Das reicht nicht ganz fuer die Anzahl der Zitate die 1931 erhaelt. Hier kommt aber die „Reflexion“ ins Spiel, denn wie erwaehnt sind die Seiten die den Balkens der zwei Schritte weiter links liegt ausmachen bereits im Jahre 1930. Von dort wird 1931 natuerlich auch zitiert.
Schwuppdiwupp: 4,453,693 + 30,643 = 4,484,327 … fetzt, wa!

Das erklaert ebenso, warum das Jahr 1933 mit 4,462,345 die zweitmeisten Zitate erhaelt. Das sind zunaechst wieder die 4,453,693 Seiten auf 1932 die zurueck nach 1933 reflektieren. Und dann noch die 8,652 „Nachzuegler“ die sich auf LL66 erst im Jahre 1934 befinden und von dort 1933 zitieren.

So kann man das mit allen Seiten des Artefakts machen. Dabei sieht man dann, dass sich auf LL66 keine einzige Seite in spaeteren Jahren (also somit frueher in der „Artefaktkette“) sein kann als 1936. Denn das sind die letzten drei Nachzuegler die sich dort befinden, alle spaeteren Jahre wurden bereits von allen Seiten komplett durchlaufen.

Soweit dazu. Wie erhaelt nun aber die Campeonato Paulista 5,792,420 Zitate?
Ganz einfach, die wird in allen Jahren die auf LL66 noch „aktiv“ sind (also von 1936 bis 1930) zitiert. Wenn man die Summe der Zahlen bildet die an den letzten sieben Balken stehen, dann kommt man auf genau diese Zahl.
So macht man das auch fuer den Associação Portuguesa de Desportos muss aber beachten, dass dieser im Jahre 1936 NICHT zitiert wird. In 1936 befinden sich ja nur noch die letzten 3 Nachzuegler, somit fehlen drei Zitate (wie angegeben).
Der CR Vasco da Gama wird nicht zitiert in den Jahren 1936 und 1935. Deswegen muessen von der maximalen Anzahl an møglichen Zitaten welche die Campeonato Paulista erhalten hat 3 + 137 (die letzten zwei Balken) abgezogen werden.

Und das geht dann so weiter, bis man beim Clube Atlético Paulista (und allen anderen Seiten die nur drei Zitate erhalten) ankommt, denn diese werden nur noch im Jahre 1936 zitiert.

Super. Damit ist der Ursprung der Zitate aufgeklaert und die Summe ueber alle Punkte des obersten Diagramms ergibt, dass die Summe aller Linkfrequenzen auf LL66 133,684,373 betraegt.
Ich muss eingestehen, dass ich peinlich lange brauchte um all das genau heraus zu bekommen und zu verstehen woran das liegt. Denn der Ansatz den ich oben schrieb der kam mir erst beim Zusammenschreiben. Ich naeherte mich der Sache auf eine kompliziertere Art und Weise wo ich genau aufpassen musste von wo welche Seite zitiert wird und in welchen Jahren sich jetzt die zitierenden Seiten (und wie viele von denen) genau befinden und wie sich das durchzieht. Das Verstehen hat mir natuerlich geholfen das relativ kurz und knapp oben zusammen zu fassen und den Zusammenhang zu einem frueheren Ergebis zu sehen und warum das richtig ist das so zu machen anstatt des urspruenglichen, komplizierteren Ansatzes.

Wieauchimmer, nun zur Anzahl der totalen Links; nach obigem Erbsenzaehlen ist das beinahe trivial.
Wir wissen, dass sich alle Seiten nur noch in den Jahren 1936 bis 1930 befinden. Getreu dem Titel dieses Beitrags heiszt das ganz konkret:
– 30,634 Fruehaufsteher sind auf LL66 bereits im Jahr 1930 mit 27 Links,
– 519,452 Fruehaufsteher sind auf LL66 bereits im Jahr 1931 mit 30 Links,
– die 4,453,693 Seiten des Hauptfelds sind auf LL66 im Jahr 1932 mit 22 Links,
– 779,849 Nachzuegler sind auf LL66 noch im Jahr 1933 mit 26 Links,
– 8,652 Nachzuegler sind auf LL66 noch im Jahr 1934 mit (ebenso) 26 Links,
– 137 Nachzuegler sind auf LL66 noch im Jahr 1935 mit 24 Links und endlich
– 3 Nachzuegler sind auf LL66 noch im Jahr 1936 mit 31 Links.

Wenn man die Gruppengrøsze mit der Anzahl der Links multipliziert und dann alles aufsummiert, erhaelt man genau 134,896,331 totale Links auf LL66.

Damit ist das Mysterium auch aufegklaert, denn grob gesagt _muessen_ die Summen ueber diese zwei Grøszen (totale Links und Linkfrequenz) per Linklevel so nahe beieinander liegen. So viele verschiedene Links wie man hat ungefaehr genau so viele Zitate (Linkfrequenz) erhaelt man. Aber Letztere sollten immer ein bisschen darunter liegen.
Zur Veranschaulichung stelle man sich zunaechst vor, dass _alle_ Seiten des Artefakts von 1936 bis 1930 genau 23 Links haben und zwar die 23 selben (!) Links. Dann liegt fue jede dieser verlinkten Seiten eine Situation wie bei Campeonato Paulista vor und die wuerden alle maximal viele Zitate auf LL66 haben; naemlich 5,792,420. Die Summe ueber alle diese Linkfrequenzen ergaebe 133,225,660.
Wenn nun aber jede dieser Seiten 23 Links hat, dann folgt nach der zweiten detaillierten Rechnung oben, dass man auch genau so viele totale Links hat.

Nun stelle man sich vor, dass ein (und nur ein) Link mit einem anderen Link ausgetauscht wird. Die Anzahl der total Links bleibt in dem Szenario gleich. Der ausgetauschte Link (bzw. die Seite auf die der verweist) erhaelt nun nicht mehr die maximale Anzahl an Zitierungen. Vielmehr sind es nur noch so viele Zitate, wie sich Mitglieder in der Gruppe befinden, die sich auf dem gegebenen Linklevel auch auf der Seite mit besagtem ausgetauschtem Link aufhalten. Das ist im Wesentlichen das was oben bei allen anderen Seiten passierte die nicht Campeonato Paulista sind.
Und deswegen muss die Summe ueber die Linkfrequenzen zwar nahe an der Summe der totalen Links sein, kann aber maximal gleich grosz werden und ist aufgrund der geschilderten Ursache aber in allen Faellen kleiner.

Damit hat sich das Mysterium so’n kleines bisschen umgekehrt und die Frage ist nun, warum es bei kleinen Linkleveln Grøszenordnungen kleiner ist? Das ist schnell erklaert und liegt (wieder) an der Zaehlweise der Linkfrequenz.
Auf kleinen Linkleveln hat eine Ursprungsseite „Zugriff“ auf URST viele Seiten (einfach, weil sich das Linknetzwerk so schnell verzweigt). Dadurch hat man auch eine entsrpechend hohe Zahl an (totalen) Links und je nach Linklevel sind dies hauptsaechlich Mehrfachzaehlungen. Das natuerlich deswegen, weil Seiten oft von mehreren (anderen) Seiten zitiert werden und von Letzteren kønnen sich mehrere auf dem selben Linklevel wiederfinden (einfach weil es da so viele Seiten gibt).
Bei der Linkfrequenz wird aber jede zitierte Seite nur ein Mal pro Linklevel gezaehlt, egal wie viele Zitate die wirklich erhaelt. Und das fuehrt bei kleinen Linkleveln zu einer hohen Diskrepanz.

So, nun ist’s aber genug mit der Erbsenzaehlerei. Mal schauen, was ich beim naechsten Mal mache.

Beim letzen Mal fing ich an mir die Linkfrequenz anzuschauen. Bei der Position des Maximums der einzeilnen Verteilungen der Linkfrequenzen gibt es einen langen Schwanz. Dieser kommt durch Seiten zustande, die im Linknetzwerk aller anderen Seiten konsistent spaet zitiert werden. In der Tabelle des letzten Beitrags fuehrte ich alle Seiten auf, deren Maximum bei LL30 oder darueber liegt und dort taucht immer das uns bekannte „São Paulo FC“-Artefakt auf. Aber das sind nicht die einzigen Seiten die erst spaet im Linknetzwerk zitiert werden und entsprechend wunderte ich mich:

[w]as ist denn mit […] [den anderen Seiten] und wieso stehen die da, waren aber nicht zu sehen als das „São Paulo FC“-Artefakt untersucht wurde?

Bevor ich darauf zurueck komme muss ich zunaechst zeigen, wie denn die Verteilung der Linkfrequenz einiger Seiten aus denen das Artefakt besteht aussehen:

Anstatt Balken benutze ich diesmal Punkte und die Linien zwischen diesen dienen (wie so oft) nur um etwas mehr visuelle Ordnung fuer die Augen zu schaffen.
Und Aha! Hier passieren mehrere Sachen die aber alle leicht zu verstehen sind. Ich bespreche die 1931 São Paulo FC season (schwarze Kurve) etwas ausfuehrlicher.

Auf LL0 wird 1931 São Paulo FC season zwei Mal zitiert. Wir nahmen bei der Untersuchung dieses Artefakts an, dass die entsprechenden Seiten (im Wesentlichen) nur von den direkt dahinter bzw. davor liegenden „Jahren“ zitiert werden. Hier wird diese direkt Annahme bestaetigt, denn wuerde noch eine andere Seite 1931 São Paulo FC season zitieren, so wuerde Letztere auf LL0 mehr als ein Zitat haben.
Um mir im Folgenden das Schreiben vieler Worte zu ersparen, fuehre ich eine Kurzform fuer das eben Geschriebene ein: „1932 zitiert 1931“ bzw. „1930 zitiert 1931“. In der Kurzform steht die Ursprungsseite zuerst, gefolgt von der Seite die zitiert wird. Ein weiteres „zitiert“ entspricht dann dem naechsten Glied in der Linkkette und das allererste „zitiert“ in dieser Kette ist immer mit LL0 gleichzusetzen.

Auf LL1 gibt es insgesamt zwei Zitate und eins kommt zustande weil „1933 zitiert 1932 zitiert 1931“.
Das andere Zitat folgt aus einer Selbstreferenz. Hier haben wir aber zwei Ketten die nur ein Mal gezaehlt werden, denn denn diese haben die selbe Ursprungsseite: „1931 zitiert 1932 zitiert 1931“ und „1931 zitiert 1930 zitiert 1931“. Das sieht ein bisschen aus wie eine Reflexion. Als ob die Seite an der ich interessiert bin (im Beispiel 1931) zwischen zwei halbdurchlaessigen Spiegeln steht und Zitate die von hier weg gehen eben reflektiert werden.

Nun wird’s spannend, denn auf LL2 ist der Wert der Linkfrequenz 3. Dank der Kurznotation ist das schnell aufgeklaert.
„1934 zitiert 1933 zitiert 1932 zitiert 1931“ (nicht vergessen, das erste „zitiert“ entspricht LL0), „1932 zitiert 1931 zitiert 1930 zitiert 1931“ und „1930 zitiert 1931 zitiert 1932 zitiert 1931“. Die letzten beiden sind wieder „Reflexionen“

Als Letztes haben wir ab LL3 wieder nur zwei Zitate: „1935 zitiert 1934 zitiert 1933 zitiert 1932 zitiert 1931“ und „1933 zitiert 1932 zitiert 1931 zitiert 1930 zitiert 1931“.
Warum gibt es keinen „1931 zitiert 1932 zitiert 1933 zitiert 1932 zitiert 1931“-„Zustand“. Nun ja, bis „1931 zitiert 1932 zitiert 1933 zitiert 1932“ existiert dieser schon, aber weil in der Kette 1932 bereits besucht wurde, wird dem Link nicht wieder gefolgt. Somit kann der Schritt der zurueck zu 1931 zeigen wuerde nicht ausgefuehrt werden.

Und so geht es in der schwarzen Kurve weiter, bis dann ab LL62 auch andere Seiten der Wikipedia unsere 1931 São Paulo FC season erreichen (in ihrem jeweils eigenen Linknetzwerk). Dies fuhert zu einem raschen Anstieg der Linkfrequenz bzw. dann wieder Abstieg, wenn die letzten Nachzuegler auch endlich dort ankommen.
Dass die Spitze zweigeteilt ist, ist wieder auf die „Reflexion“ zurueck zu fuehren. Das zweite Maximum ist etwas kleiner als das Erstse. Auf den Grund dafuer gehe ich beim naechsten Mal genauer ein.

Aber ACHTUNG! Hierbei ist zu beachten, dass diese Abfolge aus Anstieg / Maximum / Abstieg sich ueber mehrere Linklevel hinzieht. 11 an der Zahl wobei nur 9 oder gar nur 7 relevant sind.
Ich sage ACHTUNG deswegen, weil das fuer die Løsung des Mysteriums aus dem letzten Beitrag (warum die Linkfrequenz und die Anzahl der totalen Links (fast) gleich sind) wichtig wird.

OK, das war die 1931 São Paulo FC season. Die 1941 São Paulo FC season und 1951 São Paulo FC season sind relativ schnell abgehandelt. Der Anstieg zum Anfang auf einen Wert von 4 ergibt sich daraus, dass diese Seiten (zunaechst!) nicht vom Ende der Kette limitiert sind; hier fuehren also Linkketten sowohl sowohl vorwarts als auch rueckwaerts hin, was zusammen mit den Reflexionen (auch von beiden Seiten) zu einem Wert von 4 fuehrt.
Der Peak ist genau der Selbe (!) wie bei der 1931 São Paulo FC season; nur eben nach links verschoben. Letzteres weil spaetere Jahre im Linknetzwerk anderer Seiten frueher erreicht werden. Hier sehen wir also (wieder) eine schøne direkte Bestaetigung bereits vor langer Zeit indirekt beobachteter Phaenomene. … cool wa!

Ich musste das so ausfuehrlich machen um alles in den Grafen zu erklaeren, aber eben auch weil ich immer ein Auge auf besagtes Mysterium habe.
Aber nun zurueck zum obigen Zitat. Dafuer muss ich erstmal die entsprechenden Grafen einiger dieser Seiten zeigen, …

… aber das muss laengst nicht so detailliert besprochen werden denn des Raetsels Løsung ist einfach.
Es sei zunaechst daran erinnert, dass bei der ersten detaillierten Untersuchung des „São Paulo FC“-Artefakts die Anzahl der totalen Links per Linklevel betrachtet wurde.

Desweiteren wissen wir aus der Tabelle vom letzten Mal, dass es noch andere Seite als die Saisons des São Paulo FC gibt, deren Maxima der Linkfrequenzverteilungen erst auf (sehr) spaeten Linkleveln liegen. Dies unterliegt aber einer wichtigen Einschraenkung.
Ja, diese Seiten werden sehr oft zitiert zum Ende der Linknetzwerke anderer Seiten. Das liegt daran, dass solche Seiten dem brasilianischen Fuszball zuzuordnen sind und sicherlich auf den Seiten einer (oder mehrer) Saisons des São Paulo FC zitiert werden. Weil Letztere erst zum Ende der Linkkette der allermeisten Wikipediaseiten auftreten und dort aber dann mit „voller Wucht“, fuehrt dies auch zu vielen Zitaten bei den nicht-São-Paulo-FC-Seiten die von denen zitiert werden.
Aber gleichzeitig werden die selben Seiten bereits frueh in den Linknetzwerken anderer Seiten zitiert. Und das beinahe (aber nicht ganz!) maximal oft, was aus der sehr schnellen Verzweigung des Linknetzwerkes folgt. Das ist dann der Nachteil, wenn man die Informationsmenge reduziert (in diesem Fall auf nur das Maximum) um derer habhaft zu werden; da muss man alles wieder auseinanderfriemeln, wenn irgendwas komisch erscheint.

Wieauchimmer, durch die fruehe Zitierung wird denen dann aber auf spaeteren Linkleven nicht mehr gefolgt (damit es nicht zu Schleifen kommt). Damit kønnen diese Seiten nicht mehr zu den totalen Links auf spaeteren Linkleveln beitragen und deswegen habe ich die bei der ersten ersten Untersuchung des „São Paulo FC“-Artefakts nicht gesehen.

Bei diesem Phaenomen handelt es sich also um ein Meta-Artefakt, denn es kommt nur dadurch zustande, weil es ueberhaupt erst das „São Paulo FC“-Artefakt gibt.

So, nun ist der Artikel schon so lang, weswegen ich heute nicht weiter darauf eingehen werde, wie das alles mit dem Mysterium des letzten Beitrags zusammenhaengt. Aber das ist ja auch was Schønes, denn da kønnt ihr, meine lieben Leserinnen und Leser euch da laenger drauf freuen.

Es ist jetzt ganz genau zwei Jahre her, dass ich mit dieser Maxiserie anfing. Aber nun ist das Ende abzusehen (wenn auch noch nicht unbedingt nah), denn ich komme endlich zur letzten groszen Sache die ich noch gemessen, mir aber bisher nicht angeschaut habe: die Linkfrequenz.

Zur Auffrischung ganz kurz nochmal: Mich interessiert, ob Seite X von anderen Seiten zitiert wird und auf welchem Linklevel das passiert.
ACHTUNG: Mich interessiert NICHT _wie oft_ Seite X auf einem gegebenen Linklevel (einer anderen Seite) zitiert wird, sondern nur _ob_ Seite X ueberhaupt zitiert wurde.

Ein (stark vereinfachtes) Beispiel in zwei Schritten.
Auf LL5 von Seite A wird Seite X ein Mal zitiert und auf LL6 zwei Mal. In beiden Faellen zaehlt fuer Seite X die Linkfrequenz nur ein Mal fuer das jeweilige Linklevel hoch.
Auf LL5 von Seite B wird Seite X dreiundzwanzig Mal zitiert (und dann nie wieder). Die Linkfrequenz von Seite X fuer LL5 zaehlt nochmal eins hoch und liegt dann insgesamt bei zwei.

Das soll als Zusammenfassung reichen, eine detailliertere Erklaerung findet sich hinter dem oben verlinkten Beitrag. Als erstes schaue ich mir wie immer die Summe aller Linkfrequenzen per Linklevel fuer alle Seiten an:

Zum Vergleich habe ich im linken Diagramm wieder die Summe der totalen Links pro Linklevel reingelegt und da sieht man gleich die erste Ueberraschung: ab ungefaehr Linklevel … ich sag jetzt Mal Linklevel 20 ohne das genau zu pruefen, sind die beiden Kurven beinahe deckungsgleich. Das ist auch keine „logarithmische Komprimierung“, denn bei linearer Darstellung (auszugsweise im rechten Diagramm) sieht das genauso aus.

Na da habe ich doch gleich mal ein Raetsel was es zu løsen gilt. Ich habe so ’ne Vermutung, dass das mit dem bereits (vor allem hier aber auch an anderen Stellen) detailliert besprochenen „São Paulo FC“-Artefakt zu tun hat.

Darauf hin fuehrt das Diagramm welches ich ueblichweise im Anschluss an das Obige zeigte — die Verteilung der Position der Maxima der einzelnen Verteilungen:

AHA! Im Vergleich mit den oben verlinkten Verteilungen der gleichen Grøsze bei den anderen drei Messgrøszen geht das viel weiter. Und wenn wir uns den „Schwanz mal anschauen so sehe ich dort das Folgende (JA, die Links sind alle klickbar und man kann ruhig fragen, wieviel Zeit ich damit verbracht habe):

Maximum bei LinklevelSeiten
301967 São Paulo FC season, 1967–68 FC Dinamo București season, 1984 Liga Deportiva Universitaria de Quito season, 1989 Empress's Cup Final, 1876 Massachusetts legislatur, Billboard Top Hits: 1993, Club 9 de Octubre, Estádio Urbano Caldeira, Ion Haidu (footballer), Ion Pârcălab, Spiridon Niculescu, Suzuyo Shimizu FC Lovely Ladies, 1911–12 SK Rapid Wien season, 1963 NCAA University Division baseball rankings
311966 São Paulo FC season, 1966–67 FC Dinamo București season, 1983 Liga Deportiva Universitaria de Quito season, 1988 Empress's Cup Final, 1875 Massachusetts legislature, Albert Palmer (American politician), Billboard Top Hits: 1994, Cornel Popa, Gheorghe Grozea, Ilie Datcu, Iosif Varga (footballer), Octavian Popescu, Vasile Gergely, 1962 NCAA University Division baseball rankings
321965 São Paulo FC season, 1965–66 FC Dinamo București season, 1982 Liga Deportiva Universitaria de Quito season, 1987 Empress's Cup Final, 1874 Massachusetts legislature, Billboard Top Hits: 1995, C.D. Everest, C.D. Universidad Católica del Ecuador, Constantin Ștefan (footballer, born 1939), Emil Petru, George B. Loring, Ion Nunweiller, William E. Livingston
331964 São Paulo FC season, 1964–65 FC Dinamo București season, 1981 Liga Deportiva Universitaria de Quito season, 1986 Empress's Cup Final, 1873 Massachusetts legislature, Constantin Frățilă, Dumitru Ivan, Gheorghe Ene, Lică Nunweiller
341963 São Paulo FC season, 1963–64 FC Dinamo București season, 1980 Liga Deportiva Universitaria de Quito season, 1985 Empress's Cup Final, 1872 Massachusetts legislature, Ion Țîrcovnicu, John E. Sanford
351962 São Paulo FC season, 1962–63 FC Dinamo București season, 1979 Liga Deportiva Universitaria de Quito season, 1984 Empress's Cup Final, 1871 Massachusetts legislature, América de Quito, Manta S.C., Traian Ionescu, Vasile Alexandru, Vasile Anghel
361961 São Paulo FC season, 1961–62 FC Dinamo București season, 1978 Liga Deportiva Universitaria de Quito season, 1983 Empress's Cup Final, 1870 Massachusetts legislature, Associação Atlética Ferroviária, CS Dinamo București, CS Minerul Lupeni, Haralambie Eftimie, Horace H. Coolidge, Shimizudaihachi Pleiades, Stephen H. Rhodes, Takatsuki Ladies FC, Torneio Rio – São Paulo
371960 São Paulo FC season, 1960–61 FC Dinamo București season, 1977 Liga Deportiva Universitaria de Quito season, 1982 Empress's Cup Final, 1869 Massachusetts legislature, Estádio Juca Ribeiro, Miguel Ángel Leyes, Polo Carrera, Waldo Colburn
381959 São Paulo FC season, 1959–60 FC Dinamo București season, 1976 Liga Deportiva Universitaria de Quito season, 1981 Empress's Cup Final, 1868 Massachusetts legislature, Eliphalet Stone (Massachusetts politician), Harvey Jewell, Levi S. Gould
391958 São Paulo FC season, 1958–59 FC Dinamo București season, 1975 Liga Deportiva Universitaria de Quito season, 1959 in Brazilian football, 1980 Empress's Cup Final, 1867 Massachusetts legislature, CSA Steaua București, Esporte Clube Taubaté, Estádio Luís Pereira, George O. Brastow, Jabaquara Atlético Clube, Oscar Zubía, Petre Babone
401957 São Paulo FC season, 1957–58 FC Dinamo București season, 1974 Liga Deportiva Universitaria de Quito season, 1979 Empress's Cup Final, 1980 Empress's Cup, 1866 Massachusetts legislature, Mitsubishi Yowa Sugamo Ground
411956 São Paulo FC season, 1956 FC Dinamo București season, 1973 Liga Deportiva Universitaria de Quito season, 1957 in Brazilian football, 1865 Massachusetts legislature, Florea Birtașu, Levi Stockbridge
421955 São Paulo FC season, 1955 FC Dinamo București season, 1972 Liga Deportiva Universitaria de Quito season, 1956 in Brazilian football, 1864 Massachusetts legislature, Alexander Bullock, Angelo Niculescu, Iosif Szökő, Jacob H. Loud, Ladislau Băcuț
431954 São Paulo FC season, 1954 FC Dinamo București season, 1971 Liga Deportiva Universitaria de Quito season, 1863 Massachusetts legislature, Alexandru Ene, Club Atletic Oradea, Clube Atlético Linense, Gheorghe Băcuț, Ion Suru, Martin Brimmer (1829–1896), Nicolae Dumitru (footballer), Valeriu Călinoiu
441953 São Paulo FC season, 1953 FC Dinamo București season, 1968 Liga Deportiva Universitaria de Quito season, 1970 Liga Deportiva Universitaria de Quito season, 1954 in Brazilian football, 1862 Massachusetts legislature, C.D. INECEL, CS Târgu Mureș, CSF CFR Timișoara, Carol Bartha, Titus Ozon
451952 São Paulo FC season, 1953 in Brazilian football, 1969 Liga Deportiva Universitaria de Quito season, 1953 in Brazilian football, Constantin Marinescu, Florian Ambru
461951 São Paulo FC season, 1948–49 FC Dinamo București season, 1951 FC Dinamo București season, 1952 in Brazilian football, Caius Novac
471950 São Paulo FC season, 1950 FC Dinamo București season, 1951 in Brazilian football, Ion Șiclovan, Iuliu Farkaș
481949 São Paulo FC season, 1950 in Brazilian football, Clube Atlético Ypiranga, Corinthians Santo Andre, Estádio Rua Javari
491948 São Paulo FC season, 1949 in Brazilian football, Associação Atlética Portuguesa (Santos)
501947 São Paulo FC season, 1948 in Brazilian football, Estádio Ulrico Mursa
511946 São Paulo FC season, 1947 in Brazilian football
521945 São Paulo FC season, 1946 in Brazilian football
531944 São Paulo FC season, 1945 in Brazilian football
541943 São Paulo FC season, 1944 in Brazilian football
551942 São Paulo FC season, 1943 in Brazilian football
561941 São Paulo FC season, 1942 in Brazilian football
571940 São Paulo FC season, 1941 in Brazilian football
581939 São Paulo FC season, 1940 in Brazilian football
591938 São Paulo FC season, 1939 in Brazilian football
601937 São Paulo FC season, 1938 in Brazilian football
611936 São Paulo FC season, 1937 in Brazilian football, Estádio Palestra Itália, Estádio Parque São Jorge, Luzitano Futebol Clube
621935 São Paulo FC season, 1936 in Brazilian football, Estádio da Ponte Grande
631934 São Paulo FC season, 1935 in Brazilian football
641933 São Paulo FC season, 1934 in Brazilian football
651932 São Paulo FC season
661931 São Paulo FC season
671930 São Paulo FC season, 1931 in Brazilian football

Nochmal AHA! Denn als ich das „São Paulo FC“-Artefakt zum ersten Mal untersuchte (siehe der Link oben), vermutete (!) ich nur, dass die jeweiligen Jahre am Ende der Linkkette ALLER Seiten stehen. Dafuer hatte ich aber keinen direkten Beweis, auch wenn die indirekten Hinweise sehr schluessig und ueberzeugend waren (bzw. immer noch sind).
Hier nun aber sehe ich direkt, dass die jeweiligen Saisons des São Paulo FC tatsaechlich am haeufigsten (und absteigender Reihenfolge) bei ganz hohen Linkleveln zitiert werden. Cool wa! Ist voll schøn wenn eine (eigene) Theorie direkt bestaetigt wird.

Aber in der Tabelle sehe ich in den entsprechenden Zeilen auch noch viele andere Seiten! Was ist denn mit denen und wieso stehen die da, waren aber nicht zu sehen als das „São Paulo FC“-Artefakt untersucht wurde?

Um das zu erklaeren muss ich etwas weiter ausholen, aber dieser Artikel ist ohnehin schon so lang. Deswegen verschiebe ich das auf das naechste Mal. Und alles zusammen (und noch ein bisschen mehr) fuehrt letztlich zur Entraetselung des obigen Mysteriums.