Archive for the ‘Kevin Bacon’ Category

Beim letzten Mal zeigte ich, dass sich die linklevelabhaengigen, individuellen Verteilungen der Selbstreferenzen bei doppellogarithmischer Darstellung mittels linearer Funktionen beschreiben lassen und dass der Anstieg der dazugehørenden (Regressions)Geraden zu nimmt. Nun wird es total spannend, denn ich werte heute die linklevelabhaengigen Parameter dieser linearen Funktionen aus.

Aber zunaechst zur Erinnerung: in den Diagrammen des letzten Beitrags stellte ich den Logarithmus eines Funktionswertes f(x) in Abhaengigkeit vom Logarithmus der Argumente x dar und erhalte eine Gerade. Die Formel fuer die Gerade sieht also so aus …

… mit dem Anstieg A und dem absoluten Glied B. Letzteres ist im Wesentlichen dafuer verantwortlich, wie grosz das Integral unter der Kurve wird, da dieser Parameter besagte Kurve nach oben oder unten schiebt.
Obige Gleichung ist aequivalent zu einem maechtigen Gesetz …

… und deswegen entspricht der Anstieg der Geraden in der doppellogarithmischen Darstellung dem Exponenten des Potenzgesetzes. Cool wa!

Soweit zur Wiederholung … nun schauen wir uns mal die Linklevelabhaengigkeit der Regressionsparameter in diesem høchst spannenden Diagramm an:

URST Cool wa! Jetzt hab ich schon zwei voll krasse Ergebnisse (hier ist das Erste) die ich so nicht erwartet haette. Krass deswegen, weil das hier auf zugrundeliegende Mechanismen hinweist, die ganz natuerlich in diesem Netzwerk entstanden sind. Aber genug der Schwaermerei darob solch schøner Resultate ich sollte erstmal sagen warum das so urst cool ist.

Sowohl die Linklevelabhaengigkeit des Ansteigs als auch des absoluten Glieds lassen sich am besten mittels einer Exponentialfunktion beschreiben. Diese hat im ersten Fall eine Zerfallskonstante von -7.76 und im zweiten Fall von +7.67 … … … Wait! What? … *nochmal kontrollier* … .oO(ja, das stimmt alles).

Die Wahl einer Exponentialfunktion zur Beschreibung der Daten kann natuerlich diskutiert werden. Aber weil ich nicht die geringste Ahnung habe, was oben erwaehnte Mechanismen sein kønnten, gehe ich erstmal von einfachen Dingen aus, was in diesem Fall zur Wahl einer Exponentialfunktion fuehrte.
Das sich das Vorzeichen zwischen den beiden Werte aendert liegt in der Natur der Sache. Der absolute Wert des Anstiegs der Geraden wird ja grøszer. Deswegen muss die Zerfallskonstante negativ sein, denn der Exponent eines exponentiellen Zerfalls enthaelt von sich aus ein Minus eins und das muss kompensiert werden. Das aendert nix an dem Gesagten. Wuerde man die Daten des einen Parameters an der Abzsisse spiegeln, waere das Vorzeichen beider Exponenten gleich.

Beide Zerfallskonstanten liegen (vom Vorzeichen abgesehen) total nah beieinander. Das weist darauf hin, dass die Linklevelabhaengigkeit beider Grøszen ein und dem selben Mechanismus zu Grunde liegen.

Es hatte einen Grund, warum ich beim letzten Mal dies schrieb:

[…] wenn die Werte der Datenpunkte der Grafen durch die Anzahl aller Wikipediaseiten geteilt wird, so erhaelt man die Wahrscheinlichkeit wie oft eine Seite so und so viele Zitate […] pro Linklevel erhaelt.
Das Integral ueber alle Daten und alle Linklevel ergibt […] die durchschnittliche Wahrscheinlichkeit ueberhaupt eine Selbstreferenz zu erhalten.

Wenn man in diesem Bild bleibt, so ist das absolute Glied obiger linearer Gleichung ein Ausdruck dessen was in dem zweiten Satz des Zitats steht. Je weiter fortgeschritten man im Linknetzwerk einer Seite ist, desto unwahrscheinlicher ist es eine Selbstreferenz zu erhalten … siehe der kleiner werdende Flaecheninhalt unter den beim letzten Mal gezeigten Grafen.
Ist es sinnvoll, dass diese Grøsze exponentiell abnimmt … mhmm … mein Bauchgefuehl sagt mir: durchaus.

Die Zunahme des (Betrags des) Anstiegs der Regressionsgeraden besagter Grafen sagt im Wesentlichen das Folgende aus: je weiter fortgeschritten man im Linknetzwerk einer Seite ist, desto unwahrscheinlicher ist es _mehr_ als eine Selbstreferenz zu erhalten.
Ist es sinnvoll, dass diese Grøsze exponentiell abnimmt … mhmm … mein Bauchgefuehl sagt mir auch hierbei: durchaus.

In beiden Faellen kommt das „durchaus“ meines Bauchgefuehls daher, dass høhere Linklevel bedeuten, dass sich die dort auftretenden Seiten thematisch mehr und mehr von der Ursprungsseite entfernen. Warum sollte Selbige also zitiert werden? Und diese Entfernung vom Ursprungsthema ist eben wirklich urst schnell … da kann ich auf den allererste Beitrag dieser Maxiserie verweisen, in dem ich erwaehne, dass es nur drei Schritte zwischen Trondheim und Kevin Bacon gibt … ich wuesste wirklich nicht, was diese beiden miteinander zu tun haben kønnten.
Wieauchimmer, dieser „Abstand“ nimmt im Bild des Linklevels zwar schrittweise (also linear) zu, aber der „thematische (!) Abstand“ dann wohl exponentiell. Das „urst schnell“ von weiter oben drueckt sich in dem hohen absoluten Wert der Zerfallskonstante aus … ein Exponent von (fast) 8 ist gigantisch! Mir ist kein einziges Naturgesetz mit einem so hohen Exponenten bekannt.

Eine weitere „Veranschaulichung“ des Gesagten sind die vielen Gespraeche, wo man „vom Hundertsten ins Tausendste kommt“ … weil es sich hierbei um einen Sprung um eine Grøszenordnung handelt, kann dieses Sprichwort durchaus als ein Ausdurck obiger Zustaende gesehen werden.
Somit entspricht die Zerfallskonstante dieser Parameter also in etwa wie stark sich die Themen der Seiten auf einem Linklevel vom Thema der Ursprungsseite entfernen. Das ist voll cool (!!!) denn damit gibt es einen mathematischen Ausdruck fuer ein sprachlich / psychologisch / soziales Phaenomen. Ich haette nicht gedacht, dass ich das ganz konkret und quantifizierbar in den Daten finden wuerde.

Das soll genug sein fuer heute. Zum Abschluss sei nur noch das Folgende erwaehnt: die Fehlerbalken der einzelnen Punkte kommen aus den Fehlern der Regressionsparameter (wie beim vorletzten Mal erwaehnt). Der Fehlerbereich der exponentiellen Funktion ist davon natuerlich unabhaengig.

Nachtrag:
Im obigen Bild ist mir ein Fehler unterlaufen. Das ist aber nicht so schlimm und aendert gar nichts an dem was ich schrieb und es handelt sich dabei um das Folgende. In der Formel am Anfang benutze ich den Logarithmus zur Basis 10. Dies deswegen, weil Diagramme wie beim letzten Mal logarithmische Skalen zur Basis 10 benutzen. Die Werte fuer das hier dargestellte Diagramm berechnete ich aber mit dem natuerlichen Logarithmus.
Fuer den Anstieg macht das ueberhaupt keinen Unterschied, der ist der Selbe, egal welche Basis man benutzt. Aber das absolute Glied ist bei Letzterem selbstverstaendlich grøszer als wenn die Basis 10 benutzt werden wuerde. Genaugenommen um einen (konstanten!) Faktor 2.30258 grøszer, welcher natuerlich das Reziproke des Logarithmus zur Basis 10 der Eulerschen Zahl ist. Mathematisch folgt das zwangslaeufig, denn letztlich muessen beide Formen die selben Daten beschreiben. Zur Kontrolle habe ich dennoch nochmals alle linearen Regressionen ausgefuehrt und kann sagen, dass dieser Faktor „experimentell“ bestaetigt wird … bis auf ein paar wenige Werte am Anfang und am Ende fuer die das aber plusminus innerhalb vertretbarer Grenzen auch gilt.
Weil es sich hierbei um einen konstanten Faktor handelt bleibt dann auch die Zerfallskonstante der Anpassung der Werte fuer B die Gleiche. Mit den gegebenen Datenpunkte erhalte ich einen Wert fuer Selbige von +7.22. Die Diskrepanz ergibt sich sich durch die „paar wenige[n] Werte am Anfang und am Ende“. Wenn ich diese kuenstlich „begradige“ so verschwindet die Diskrepanz ohne dass sich an der Position der Punkte im Diagramm grosz was aendert.
Mit den gegebenen Daten (und insb. aller Limitierungen die diese mit sich bringen) kann ich deswegen trotz des (relativ geringen) Unterschieds der Werte (welchen ich getrost in den so oft erwaehnten „10%-Fehler“ packen kann) weiterhin ohne schlechtes Gewissen vertreten, dass die Zerfallskonstanten fuer A und B im Wesentlichen gleich sind.

Nach dem letzten Beitrag kann ich heute ohne viel Aufhebens gleich zu den Daten kommen:

Whoa! … (wie so oft) passiert ja ganz schøn viel hier … darum der Reihe nach. Wir sehen die selben Diagramme wie beim letzten Mal, nur fuer høhere Linklevel, mit den Regressionsgeraden welche den linearen Teil der jeweiligen, linklevelspezifischen Daten gut (genug) beschreiben.

Im linken, oberen Bild sehen wir die Daten fuer LL2 bis LL9 (kurze Anmerkung: die Daten fuer LL2 und LL3 sind sich so aehnlich, dass sich Erstere hinter Letzteren „verstecken“; entsprechend sind diese zwei Regressionsgeraden auch so aehnlich, dass ich hier sage, dass diese gleich sind). Wie beim letzten Mal bereits erwaehnt, nimmt die „Signalstaerke“  mit zunehmendem Linklevel ab. Das ist aber etwas, was wir schon aus dem allerersten Diagramm zu den Selbstreferenzen wissen.
Nichtsdestotrotz scheinen die Regressionsgeraden hier alle parallel zu liegen. Die Betonung liegt auf „scheinen“, denn dies ist nicht der Fall. Das sieht man aber in diesem Diagramm nicht so gut, weil der Unterschied in den Anstiegen nicht sehr grosz ist.

Besser ist dies im rechten oberen Bild zu sehen, in dem die Daten von LL10 bis LL19 dargestellt sind. Weil die Datenpunkte dichter beisammen liegen erkennt man viel besser, dass Betrag des Anstiegs der Regressionsgeraden zu nimmt mit høheren Linkleveln.

Im linken unteren Bild sieht man den Uebergang in das Regime in dem die Datenlage nicht mehr gut genug ist. Bis LL22 getraue ich mich noch die Daten mittels linearer Regressions zu analysieren. Danach ginge das prinzipiell auch noch, aber da habe ich dann allermeistens nur noch zwei Datenpunkte (oder noch spaeter nur noch einen) pro Linklevel und durch zwei Punkte kann man eine eindeutige Gerade legen. Die Parameter dieser Gerade sind dann aber auch komplett abhaengig von der Position besagter Punkte im Diagramm. Da ich mich hier ohnehin nur noch kurz ueber dem „Rauschen“ befinde wuerden besagte Parameter dann auch (mehr oder weniger) wild streuen und es waere wenig sinnvoll diese zu interpretieren. Eben dieses „wilde streuen“ wird ja zum Teil massiv „geglaettet“ durch lineare Regression.

Wieauchimmer, im rechten unteren Bild ist dann definitiv der „Endzustand“ erreicht, der das eben Beschriebene eindeutig klar macht.

Ich zeige die Diagramme vor allem aus Transparenzgruenden damit ihr, meine lieben Leserinnen und Leser, sieht wie das „in Echt“ aussieht und wo die beim naechsten Mal besprochenen Sachen eigtl. herkommen.

Zum Abschluss sei das Folgende gesagt (denn es ist wichtig zum Verstaendnis der Daten beim naechsten Mal): wenn die Werte der Datenpunkte der Grafen durch die Anzahl aller Wikipediaseiten geteilt wird, so erhaelt man die Wahrscheinlichkeit wie oft eine Seite so und so viele Zitate (z.b. 23) pro Linklevel erhaelt.
Das Integral ueber alle derart normierten Daten und alle Linklevel ergibt die rechte Kurve des ganz am Anfang der Besprechung der Selbstreferenzen gezeigten Bildes — die durchschnittliche Wahrscheinlichkeit ueberhaupt eine Selbstreferenz zu erhalten.

Beim naechsten Mal komme ich zum eigentlich Spannenden: der nun schon so oft erwaehnten Regressionsgeraden. Urspruenglich war das hier mit drin, aber die Ergebnisse sind so toll, dass diese einen eigenenBeitrag verdient haben.

Beim letzten Mal zeigte ich zum Abschluss zwei repraesentative Verteilung der Selbstreferenzen pro Linklevel. Ich wollte damit darauf hinaus, dass diese Verteilungen sich ueber viele Linklevel nach einem maechtigen Gesetz verhalten. Bevor ich darauf beim naechsten Mal zurueck komme und das Ganze systematisch betrachte, møchte ich zunaechst mithilfe dieses Diagramms …

… auf zwei Sachen eingehen.

Die erste sind die wenigen Ausnahmen vom oben Gesagten. Naja, eigentlich sind es viele, aber die allermeisten der vielen Ausnahmen kønnen alle unter einer Kategorie zusammengefasst werden (und diese Kategorie liegt auch noch in der Natur der Sache) und deswegen zaehlen die alle zusammen nur als eine Ausnahme … aber vielleicht sollte ich einfach nur erklaeren.

In dem Diagramm sehen wir die Verteilungen der Selbstzitate fuer LL0 (schwarze Punkte), LL1 (rote Quadrate) und LL9 (blaue Diamanten). Wie immer bei diesen Verteilungen zaehlte ich (in diesem Fall) wieviele Seiten es gab (Ordinate), die auf dem gegebenen Linklevel so viele Selbstreferenzen erhielten, wie auf der Abzsisse angezeigt.
Nicht gezeigt sind die Punkte fuer null Selbstreferenzen; die sind naemlich im Wesentlichen fuer alles weitere unwichtig und lassen sich ohnehin nicht gut bei einer logarithmischen Achse darstellen..

Der erste Ausnahmefall ist LL0. Dort sollte es ueberhaupt keine Selbstreferenzen geben (man ist ja noch keinen Schritt im Linknetzwerk voran geschritten). Wir wissen von frueher, dass der eine Punkt mit einem Wert von ca. 80k durch Artefakte zustande kommt.

Kurioserweise erlaubt mir dieses Artefakt den zweiten Ausnahmefall zu erklaeren, denn genau so sieht das auch aus, wenn man sehr weit im Linknetzwerk vorangeschritten ist. Dort liegt der Grund aber darin, dass dann die Chance fuer eine Selbstreferenz URST winzig ist. Entsprechend klein wird die „Signalstaerke“ und die Werte auf der Abzsisse liegen dann nur noch bei 1 (oder vielleicht mal 2) … also ich habe nur noch bei einer Selbstzitierung (und bei null) ein Signal.
Worauf ich hinaus will ist das Folgende: beim naechsten Mal interessiert mich der Anstieg der Verteilung in der doppellogarithmischen Darstellung (welcher dem Exponenten des Potenzgesetzes entspricht). Diesen erhalte ich durch lineare Regression; aber lineare Regression bei Werten die im Wesentlichen „Rauschen“ sind ist nicht sinnvoll.
Deswegen wuerde ich obige Aussage nur unter starkem Vorbehalt fuer als gueltig auf hohen Linkleveln ansehen. Vermutlich ja, aber die Daten geben das einfach nicht her.

Die dritte Ausnahme ist die Verteilung zu LL1, diese verhaelt sich naemlich eindeutig nicht nach einem Potenzgesetz, denn selbst mit beiden Augen zudruecken kann ich die Daten da nicht mit einer linearen Funktion (bei doppellogarithmischer Darstellung) beschreiben. Das gilt bedingt mglw. auch fuer die Verteilungen bei LL2 und LL3, bei Letzteren kann ich aber auch mit gutem Gewissen eine Gerade durch relevante Abschnitte der Daten legen, die gilt halt nur nicht bei all zu kleinen Linkleveln.
Was passiert hier? Nun ja, das ist einfach zu erklaeren: von gaaaanz frueher wissen wir dass jede Ursprungsseite im Durchschnitt 30 (neue) Seiten auf LL1 hat. Ja, auch von frueher wissen wir, dass es auch (Ursprungs)Seiten gibt, die deutlich mehr (oder weniger) als diese 30 Seiten auf LL1 haben. Aber nach unten bin ich ohnehin begrenzt (weniger als null geht nicht) und nach oben liegt die Grenze bei so ca. 1000 Seiten … das ist zwar deutlich mehr, aber davon gibt es nur sehr wenige.

Wieauchimmer, von jeder Seite auf LL1 kann die Ursprungsseite nur eine Selbstreferenz bekommen. Das limitiert wie weit eine Seite auf der Abszisse „reichen kann“; wenn ich nur 30 Seiten auf LL1 habe, dann kann ich keine 31 Selbstreferenzen bekommen.
Ebenso sollte dies indirekt zu einer Ueberhøhung des Signals gegenueber einer Geraden (und damit einer konvexen Kruemmung der Daten) fuehren. Indirekt deswegen, weil das natuerlich nicht der Mechanismus ist, der zu besagter Ueberhøhung des Signals fuehrt. Vielmehr ist es so, dass ja gerade auf LL1 sicherlich viele Seiten auf die Ursprungsseite zurueck verweisen, einfach weil das thematisch sehr oft nahe liegt. Ich habe also ohnehin schon ein høheres Signal und das „draengelt“ sich, durch ersteren Mechanismus, dann auch noch alles bei kleinen Werten auf der Abszisse.

So, genug zu den Ausnahmen.

Wichtiger fuer’s naechste Mal ist eigentlich alles zu LL9. Da ist naemlich eine der oben erwaehnten Regressionsgeraden drin (die dicke orange Linie). Die sieht schick aus, nicht wahr; so richtig schøn mitten durch den (bei doppellogarithmischer Darstellung) linearen Teil der Daten.
Und hier liegt der Hase im Pfeffer! Denn ich habe ja rechts davon auch noch Daten … aber das sind nur ganz wenige, einzelne Seiten, die so viele Selbstreferenzen erhalten … und diese „passen“ ja offensichtlich nicht zu dem worauf ich hinaus will mit dem linearen Teil. Aber die wuerden natuerlich bei einer linearen Regression ueber alle Daten mit einebzogen werden und zu einer Gerade fuehren, die ueberhaupt nicht mehr „gut passt“.
Waehrend des Studiums  habe ich gelernt das zu ignorieren und das Lineal an den linearen Teil so anzulegen, dass die Linie richtig liegt und die Daten gut (genug) beschreibt … vulgo: schick aussieht … wenn ich den Anstieg und das absolute Glied einfach ablese (ohne was formal zu berechnen).
Und genau das habe ich fuer alle (relevanten) Verteilungen gemacht. Ich habe vom Ende (und wenn nøtig auch vom Anfang) so lange Punkte weggeschnitten, bis die Regressionsgerade schick aussah. Wie oben geschrieben, ist das kein schummeln, sondern wurde von Physikern schon immer so gemacht. Auszerdem ist das Potenzgesetz ohnehin nicht ueberall gueltig und der Bereich der Gueltigkeit ergibt sich daraus wo die Gerade die Daten gut beschreibt. Dennoch wollte ich den Prozess mal erwaehnt haben, denn letztlich habe ich die Geraden durch linere Regression erhalten.

Und damit bin ich dann auch bei der letzten Sache … dem orange-durchsichtigen Band um die dicke Linie. Bei der linearen Regression erhaelt man fuer die Parameter der Geraden einen „Fehler“ … vulgo: die plus/minus Werte … und das orange Band kennzeichnet diesen Bereich. Die Regressionsgerade kønnte also irgendwie liegen, solange es innerhalb dieses Bandes ist. Die wahrscheinlichste Gerade ist die eingezeichnete.
Beim naechsten Mal lasse ich die Baender weg, aber ich komme nochmal auf den „Fehler“ des Anstiegs zurueck. Deswegen wollte ich das hier mal erwaehnt haben.

So, das war jetzt viel mehr als ich urspruenglich dachte. Im naechsten Beitrag wird’s voll interessant :)

Vor einer ganzen Weile zeigte ich die Verteilung der Maxima der einzelnen Verteilungen der Selbstreferenzen. Aus einer Unstimmigkeit im allerersten Balken entwickelte ich in den letzten Artikeln in dieser Maxiserie das Konzept der (Wissens-)Archipele. Letzteres ist abgeschlossen und ich gehe nur nochmal ganz kurz auf die Verteilung der Maxima ein. Genauer interessieren mich die sieben „Ausreiszer“, die erst sehr spaet in ihrem Linknetzwerk zitiert werden.

Das war relativ einfach heraus zu bekommen und die erste Seite (jeweils einmal zitiert auf LL26 und LL27) gehørt zu Alpheus Harding. Mhmm … ja, viel weiter weisz ich dazu jetzt nicht zu sagen.
Auf LL30 erhalten zwei Seiten ihre erste und einzige Zitierung: Estádio Luís Pereira und 1962 NCAA University Division baseball rankings. Weitere von diesen relativ obskuren Seiten, von denen mein „Favorit“ immer noch die bereits erwaehnte Bacon, Ohio ist.
Ebenso auf LL30 zum ersten Mal zitiert wird William E. Livingston. Zunaechst kønnte man denken, dass es sich dabei im eine Person wie Alpheus Harding handelt. Interessant genug fuer einen eigenen Wikipediaeintrag, aber nicht bedeutend genug um einen „grøszeren Eindruck“ in der Weltgeschichte hinterlasse zu haben. Dieser erste Eindruck taeuscht aber, denn William E. Livingston erhaelt weitere Zitate auf LL31, LL32, LL33, LL36, LL37, LL39, LL40, LL45 und LL50. Das kann nicht an seinen Kindern liegen, denn die werden nicht naementlich erwaehnt, ich nehme also an, dass die keine eigenen Wikipediaeintraege haben. An seiner Rolle als Offizieller der Stadt Lowell, Massachusetts kann es eigtl. auch nicht liegen. Diese wird naemlich sofort zitiert und alles was mehr oder weniger direkt damit in Verbindung steht sollte zu relativ fruehen Zitierungen fuehren. Mit dem was ich bisher ueber das Wikipedialinknetzwerk ausgewertet habe laeszt sich dies nicht løsen. Ich hoffe ich denke an diesen Mann, wenn ich so weit gekommen bin, dass ich es prinzipiell aufklaeren kønnte.

Als naechses folgt auf LL35 und LL37 Estádio Juca Ribeiro. Aha! … … … Øhm … ja … ich nehme an die Zitierungen erfolgen im Zusammenhang mit Fuszball.
Fuer die letzten zwei, ganz weit am Ende haengenden, Seiten Mitsubishi Yowa Sugamo Ground (zitiert auf LL39) und Caius Novac gilt das bestimmt auch.

Vielmehr weisz ich dazu nicht zu sagen. Ich wollte nur mal schauen und hier steckt nix weiter drin was man lernen kønnte. Das liegt aber in der Natur singulaerer Ausreiszer.

… … …

… … …

… … …

Themenwechsel zu einem anderen losen Ende: die individuellen Verteilung(en) der Selbstreferenzen pro Linklevel steht noch aus

Zur Erinnerung: bei den totalen Links dachte ich zunaechst begeistert, dass sich dahinter was Cooles und Interessantes verbirgt, gestand am Ende dann aber doch ein, dass ich mich etwas verrant hatte. Das Selbe bei den neuen Links konnte ich kurz abhandeln.

Ich erwaehne das, weil ich nochmals kurz auf die Verteilung der Anzahl der Links pro Seite auf LL0 (ob totale oder neue macht dabei keinen erwaehnenswerten Unterschied) zurueckkommen muss. Ganz spezifisch auf die Tatsaeche, dass diese Verteilung ueber ca. vier Grøszenordnungen (auf der Ordinate) einem maechtigen Gesetz zu folgen scheint. Das ist an und fuer sich nicht weiter verwunderlich, da viele Prozesse in der Natur Potenzgesetzen folgen.
Wichtig ist nun, dass dies auf høheren Linkleveln nicht mehr (oder nur noch sehr bedingt mit Augen zukneifen) gilt. Der Grund ist, weil dann ja auch die vielen Urpsrungsseiten die mit wenigen Links starteten so weit in ihrem Linknetzwerk gekommen sind, sodass immer irgendwie eine Seite mit vielen Links dabei ist. Das verschmiert also.

Nach dieser Wiederholung von bereits Bekannten war ich zunaechst ueberrascht, dass Letzteres nicht fuer die Selbstreferenzen gilt. In diesem Diagramm …

… sind zwei representative individuelle Verteilungen gezeigt. Um sinnvoll mehrere derartige Datensaetze darzustellen habe ich aus den bekannten Balkendiagrammen diesmal Punktdiagramme gemacht. Der Informationsinhalt ist natuerlich der Gleiche.

Wir sehen: egal ob LL2 oder LL10, so folgen die individuellen Verteilungen maechtigen Gesetzen.
Als ich etwas laenger darueber nachgedacht hatte, kam ich zu dem Schluss, dass ich eigentlich gar nicht ueberrascht sein musste. Denn auch wenn fuer die Verteilungen der (totalen/neuen) Links der oben erwaehnte „verschmierende Prozess“ einsetzt, so sind die Selbstreferenzen davon unabhaengig.
Klar, auf den ersten Linkleveln treten zunaechst mehr Selbstreferenzen auf, einfach weil mehr Seiten zur Verfuegung stehen. Das Integral unter der Kurve wird also grøszer und grøszere Werte auf der Abszisse werden „besetzt“. Ebenso klar ist, dass diese beiden Charakteristiken fuer høhere Linklevel abnehmen muessen (eben weil dann wieder weniger Seiten zur Verfuegung stehen). Und das sieht man in den beiden Kurven des Diagramms. Aber mir faellt kein Prozess ein, der zu Abweichungen vom Potenzgesetz fuehren kønnte.

Oder anders: die Verteilung der Grøsze der Einschlagskrater auf Mimas verhaelt sich ja schlieszlich auch nach dem gleichen maechtigen Gesetz wie die selbe Verteilung gemessen an Lady Luna. Es spielt ueberhaupt keine Rolle, dass Letztere einen ca. zehn Mal so groszen Radius hat im Vergleich zu Ersterem. Der Erdmond hat mit einer fast 100 Mal grøszeren Oberflaeche eine entsprechend høhere Anzahl an Kratern, das Signal welches besagte Verteilung ausmacht ist also grøszer … aber das verhaelt sich nach dem selben Potenzgesetz und insb. ist auch der Anstieg der Kurve fuer beide Verteilungen gleich.

Ich erwaehne den Anstieg deshalb, weil ich damit zu einer urst spannenden Sache ueberleiten kann. JA, egal wie hoch das Linklevel ist, die Verteilungen verhalten sich immer nach einem Potenzgesetz. ABER der Anstieg aendert sich.
Das waere aber zu viel des Guten fuer diesen einen Artikel und deswegen komme ich darauf beim naechsten Mal zurueck :) .

Mein Weihnachtsbeitrag von mir an euch, meine lieben Leserinnen und Leser. Dieses Mal versuche ich ein bisschen zu vermitteln, warum ich mir das mit Kevin Bacon eigentlich „antue“. Warum ich nun schon seit bald 2 Jahren den kleinen Diskrepanzen so hinterherforsche (selbst wenn ich mich da auch mal verlaufe). Dies passt naemlich so schøn zusammen, worueber ich in dieser Maxiserie die letzten Wochen geschrieben habe. Aber genug der Vorrede.

In den letzten Artikeln habe ich die ganze Zeit von Archipelen oder Gruppen und Untergruppen gesprochen. Implizit meinte ich damit, dass dies unabhaengige Netzwerke sind, aber ich habe versucht letzteren spezifischen Begriff zu vermeiden.
Der Grund liegt darin, dass ich das urspruengliche Problem bereits mit diesem Begriff verbunden hatte — das Wikipedialinknetzwerk. Dieses entsteht, wenn eine Seite andere Seiten zitiert und man der Kette von Zitierungen folgt; Start zu Ende. Ich komme darauf gleich nochmal zurueck.

Was ich in den letzten Artikeln naeher betrachtete war aber eher eine Art spiegelbildliches Problem: ich schaute, welche Seiten von welchen anderen Seiten zitiert wurden. Man beachte den Unterschied in der Reihenfolge, ist das doch Ende zu Start.
Dies hat ein paar ganz erstaunliche Dinge ueber das Wikipedialinknetzwerk offenbart, die mit der urspruenglichen Herangehensweise vermutlich verborgen geblieben waeren. Aber der Reihe nach und ich muss auch etwas ausholen.

Das Linknetzwerk besteht aus den einzelnen Seiten und den Verbindungen dieser Seiten untereinander. Als (zugegeben weit hergeholtes) Analogon denke man sich, dass die materielle Welt aus Elementarteilchen besteht und wie die sich zueinander verhalten bestimmen die Naturgesetze (sozusagen als Verbindung zwischen den Elementarteilchen).

Ein Elementarteilchen hat nun gewisse Eigenschaften und eine davon ist die Ladung. Eine Eigenschaft der Seiten ist, dass diese von anderen zitiert werden, dass ist sozusagen deren (Selbst)“Zitierladung“. (In Anlehnung an die Farbladung, die ja weder eine Farbe noch eine Ladung ist.)
Anstatt dreier Ladungszustaende wie beim Elementarteilchen (positiv, negativ, neutral) gibt es bei der „Zitierladung“ nur zwei: ein binaeres ja wenn ueberhaupt zitiert wurde, egal wie oft, und nein, wenn eine Seite nicht zitiert wurde.
Die Zitierladung kann ich direkt messen und dabei sehen ich fuer jede Seite, dass die sich immer in einem der beiden Zustaende befindet. So weit ist das leicht zu verstehen.

Bei einem Elementarteilchen kann ich den Ladezustand auch indirekt ermitteln, indem ich schaue, wie dieses in einem elektrischen Feld abgelenkt wird. Die Ergebnisse folgen den Naturgesetzen.
Dass ich nach Selbstreferenzen schaute war eine solche indirekte „Messung“ der Zitierladung. Selbstreferenzen folgen direkt aus der Eigenschaft der Zitierladung der Seiten welche im Linknetzwerk miteinander „agieren“. Die Regel haette ich anfangs so formuliert: hat eine Seite eine Zitierladung, so hat diese eine Selbstreferenz. Klingt ja erstmal logisch, nicht wahr, analog zum Elektron das im elektrischen Feld abgelenkt wird bzw. dem Neutron welches nicht abgelenkt wird.

Waehrend die „direkte Messung“ eindeutige Ergebnisse erbrachte (Zitierladung ja/nein), so war das bei der indirekten Messung zu meiner Ueberraschung nicht so. Das war der erste Balken in der Verteilung der Maxima, der viel grøszer war als erwartet.
Einen groszen Teil des besagten Balkens konnte ich durch die „Ergbenisse direkter Messungen“ erklaeren — Seiten ohne Zitierladung haben natuerlicherweise keine Selbstreferenz. Einen weiteren Anteil kam durch Fehler zustande (das Artefakt der Selbstzitierungen auf Linklevel Null).
Es blieb aber eine Diskrepanz: Seiten die definitiv eine „Zitierladung“ hatten, aber die dennoch keine Selbstreferenz aufwiesen. Das ist ungefaehr so, wie wenn ein Elektron im elektrischen Feld nicht abgelenkt wird.
Der Versuch diese Diskrepanz zu erklaeren fuehrte dann dazu das gesamte Problem spiegelbildlich zu betrachten, ohne aber die urspruengliche „Richtung“ der Zitierungen zu vergessen. In den letzten Artikeln musste ich immer beides im Kopf behalten.

Aber nochmals: Vorsicht! Denn auch wenn ich sage, dass die Archipele vom Linknetzwerk unabhaengig sind, so stimmt das ja gar nicht. Selbst eine Seite des Archipels hat Zugriff auf das gesamte Wikipedialinknetzwerk; sans die Archipele selber (denn da fuehrt ja kein Link hin und natuerlich von den Seiten die keine Links haben abgesehen).
Die Seiten der Archipele scheinen somit bei normaler Betrachtungsweise (beinahe) ununterscheidbar in das Wikipedialinknetzwerk integriert. Erst die Diskrepanz bei der „indirekten Messung“ der Selbstreferenzen machte mich ueberhaupt auf die Archipele aufmerksam. Die „Unabhaengigkeit“ derselben folgt also nur, wenn man sich das Problem anders anschaut.
Und auf diese Integration wollte ich nochmal direkt hinweisen, denn weil die Unabhaengigkeit der Archipele mein Untersuchungsschwerpunkt in den letzten Artikeln war, befuerchte ich, dass Ersteres vielleicht nicht richtig rueber gekommen ist.

ich schreibe dies alles nochmal, weil der Metaaspekt des Ganzen so urst cool ist.
Wenn eine Seite eine Zitierladung, aber keine Selbstreferenz hat, so kommt Letzteres nicht durch eine Eigenschaft des Teilchen zustande, sondern ist eine Art „Wechselwirkung“ des Wikipedialinknetzwerkes auf das Teilchen. Was ich da also entdeckt habe ist eine Eigenschaft des Netzwerkes an sich. Im Gegensatz zu den totalen oder neuen Links pro Linklevel laeszt sich diese Eigenschaft nicht direkt aus den Teilchen(eigenschaften) ableiten, sondern nur aus deren „Interaktion“ miteinander im Netzwerk.

Das ist nicht ganz unaehnlich dem Baendermodell in der Festkørperphysik welches erklaert ob ein Material ein Metall, Halbleiter oder Isolator ist. Das folgt naemlich auch nicht aus den Elektronen und Atomruempfen an sich, sondern nur wenn ein freies Elektron sich in einem periodischen Potential (dem der Atomruempfe) bewegt.
Bevor es das Baendermodell gab, wusste man auch schon, dass Materie aus Atomen besteht, dass diese sich aus Atomkernen und Elektronen zusammensetzen und das Letztere den elektrischen Strom leiten. Dennoch war das Zustandekommen der unterschiedlichen Leitfaehigkeiten von Metallen und Isolatoren nicht aufgeklaert, bevor Bloch und Bethe sich dem Problem mit einer anderen, zugegebenermaszen komplizierteren, Betrachtungsweise naeherten.

Was ich sagen will: zunaechst nicht zu erklaerende „Messwerte“ bei den Selbstreferenzen erforderte die Entwicklung der Theorie der Archipele. Diese sind nicht direkt erkennbar (weil ja die Seiten der Archipele immer noch ins Netzwerk integriert sind) und eine Eigenschaft des Wikipedialinknetzwerks an sich (also nicht der einzelnen Seiten). Dadurch konnte ich recht viel Neues (und durchaus Spannendes) ueber das Netzwerk selbst heraus bekommen (besagte unabhaengigen Archipele) was ich nicht erwartet habe … und neue Erkenntnisse sind immer cool.

Eine kleine Diskrepanz førderte groszes Verstehen zutage … DAS ist Wissenschaft … … … Deswegen noch einmal: cool wa! … und dieser Metaaspekte passen so schøn in diese Zeit.

Damit schliesze ich und wuensche erholsame Tage.

Als ich das No-way-home-Archipel (nwhA) erdachte, erwaehnte ich dass es aus 39 Inseln besteht. Beim letzten Mal bemerkte ich, dass das falsch ist und es vielmehr 39 Stufen haette heiszen muessen und dass eine Stufe aus mehreren (unabhaengigen) Inseln bestehen kann.

Schnell fand ich heraus, dass ab Stufe #23 jede Stufe aus nur einer Seite besteht und die Stufen schon lange davor nur sehr wenige Seiten (meist zwei, manchmal drei) haben. Nach meiner Erfahrung mit dem São Paulo FC kam mir das sehr verdaechtig vor und ich vermutete hier im wesentlichen ein aehnliches Artefakt. Nur dass dieses nicht bei den totalen (oder neuen) Links zu sehen war, denn die Seiten gehøren zum nwhA und auf das wird ja nicht von Auszen zitiert.

Dennoch dachte ich mir, dass es ja mal ganz interessant sein kønnte nachzuschauen. Diesmal gehe ich rueckwaerts vor und schaue mir nicht an wer wen zitiert, sondern wer von wem zitiert wurde.

Auf Stufe #39 finde ich 1949 Waterford Senior Hurling Championship … the what? … wie so oft waehrend dieses Projekts habe ich mal wieder etwas gelernt. Ich war vøllig ignorant dem gegenueber, dass Hurling in Irland eine richtig wichtige Sache ist; man schaue sich nur mal das proppenvolle Stadion hier an.

Wieauchimmer, zurueck zur Sache und das sieht auf den ersten, zweiten und dritten Blick (und allen Blicken danach) tatsaechlich genau so aus wie das São Paulo FC Artefakt. Beim genauen Hinschauen komme ich zu dem Schluss, dass das Hurling Artefakt auch durch den gleichen Mechanismus entsteht, dass also NICHT Links aus dem Text ausgewertet wurden, sondern aus Infoboxen.

Wenn ich dann einen „Schritt“ hinunter gehe und schaue wer die 1949 Waterford Senior Hurling Championship zitiert, so finde ich auf Stufe #38 die 1951 Waterford Senior Hurling Championship. Und dann auf Stufe #37 die 1953 Waterford Senior Hurling Championship.

Das ist definitiv ein Artefakt … … …na dann kann ich das auch schnell abhandeln (dabei lasse ich „Waterford Senior Hurling Championship“ weg und schreibe nur noch das Jahr): Stufe #36: 1954, Stufe #35: 1955, Stufe #34: 1956, Stufe #33: 1957, Stufe #32: 1958, Stufe #31: 1959, Stufe #30: 1960, Stufe #29: 1961, Stufe #28: 1962, Stufe #27: 1963, Stufe #26: 1964, Stufe #25: 1965, Stufe #24: 1966, Stufe #23: 1967, Stufe #22: … hier geschieht was Spannendes. Zunaechst habe ich hier das Jahr 1968 der Waterford Senior Hurling Championship; aber dann habe ich hier auch die Vehicle registration plates of the Dominican Republic.

Diese beiden Seiten wurden von Stufe #21 aus zitiert. Ersteres vom Jahr 1969 und Zweiteres von der Seite zu den Vehicle registration plates of the Canal Zone. Letzteres wurde von sehr vielen Seiten auf unterschiedlichsten Stufen zitiert.
Auf Stufe #20 mache ich bei der Waterford Senior Hurling Championship einen Sprung in das Jahr 1972 und auszerdem befinden sich hier die Vehicle registration plates of the United States for 1924 und die Vehicle registration plates of the United States for 1959. Aha! Also noch ein Artefakt. Damit ich das nicht immer ausschrieben muss, behalte ich fuer die Waterford Senior Hurling Championship nur die Jahreszahlen bei und fuer die Kennzeichen der Vereinigten Staaten benutze ich die Jahreszaehlen und schreibe ein „VP“ davor. Bei Letzteren sieht man, dass das Artefakt verzweigt ist. Aber nun mal weiter die Stufen hinunter.

– Stufe #19: 1974 und VP1922 / VP1944
– Stufe #18: 1975 und die Zweige der Vehicle registration plates of the United States verschmelzen zu einem mit VP1921
– Stufe #17: 1981 und VP1918
– Stufe #16: 1983 und VP1917
– Stufe #15: sieht die Verzweigung der Waterford Senior Hurling Championship mit 1986 und 1992 und natuerlich ist da VP1916
– Stufe #14: 1988 / 1993 und VP1915
– Stufe #13: sieht die Wiedervereinigung der Waterford Senior Hurling Championship mit 1994 und weiterhin ist da noch VP1914
– Stufe #12: 1995 und VP1913
– Stufe #11: 1996 und VP1912
– Stufe #10: 1997 und VP1911
– Stufe #9: 1998 und VP1910
– Stufe #8: 1999 und VP1909
– Stufe #7: 2000 und VP1908

Auf Stufe #6 wird es dann wieder spannend. Zu den 2001 Waterford Senior Hurling Championship und den Vehicle registration plates of the United States for 1907 gesellen sich die Monate February 1927 und April 1946, die Gleiter DTGL Sant‘ Ambrogio (einsitzig) und Horikawa H-22 (zweisitzig), der franzøsische Jihadist Gilles Le Guen, die United Nations Security Council Resolution 903 und zu meiner Freude auch ein Dinosaurier: Tarsodactylus.
Offensichtlich hørt hier das Artefakt auf und das richtige No-way-home-Archipel beginnt. Alle Stufen darunter haben deutlich mehr (mindestens hunderte) und irgendwann unhandhabbar gewaltig mehr (hunderttausende) zitierende Seiten, sodass ich dem nicht weiter folgte.

Auch wenn diese Uebung in groszen Teilen eher weniger spannend war, so war es mir wichtig herauzufinden, ob mein Bauchgefuehl, dass es sich bei der langen Kette um ein Artefakt handelt, richtig war. Zu meiner Ueberraschung stiesz ich dann sogar auf zwei Artefakte. Cool war auszerdem, dass ich wieder was Interessantes in Erfahrung gebracht (Hurling) und Seiten gesehen habe, die ich sonst niemals aufgesucht haette. Weswegen sollte ich mir auch die Kennzeichen der Vereinigten Staaten von 1913 anschauen? Ich wusste ja nicht mal, dass es so eine Wikipediaseite gibt.

Es sei noch das Folgende gesagt. Auch wenn das hier grøsztenteils wieder nur ein Artefakt war, so tut dies bzgl. des allgemeinen Konzepts der Archipele nix zur Sache. Ja, das ist ein langer Schwanz, aber der besteht aus nur wenigen Seiten und geht unter in der Menge aller anderen Seiten welche die vielen hunderttausend echten Archipele konstituieren.
Das soll genug sein fuer heute. Der naechste Beitrag wird dann nochmal ein wichtiges Kommentar bzgl. des Archipelkonzepts und dann geht es endlich weiter mit den Selbstreferenzen.

Beim letzten Mal wies ich die Existenz von 8.258 Archipelen nach. Ich dachte, dass es von Interesse ist mal zu schauen, aus wievielen Seiten die Archipele so bestehen … oder anders: Hurra! Eine neue Verteilung:

Wait! What! Bei doppellogarithmischer Darstellung verhaelt sich die Anzahl der Seiten pro Archipel nach einem maechtigen Gesetz ueber vier Grøszenordnungen (auf der Ordinate)!? Das ist jetzt schon das dritte Mal (hier war das zweite Mal), dass das passiert. Und wenn ich sowas sehe, dann bin ich mir gleich viel sicherer, dass das was ich rausgefunden habe kein Quatsch ist, sondern ein echter, dem Wikipedianetzwerk zugrunde liegende Mechanismus.

Davon abgesehen gibt es noch zwei andere Sachen die sich lohnen zu erwaehnen. Zum Einen, dass es ueber 1000 Archipele gibt, die aus nur einer Seite bestehen. Das muessen Seiten sein die sich auf LL0 selbst zitieren und wo das dann die einzige Zitierung bleibt. Die passen natuerlich nicht in das maechtige Gesetz, denn davon sollte es einfach nicht genug geben.
Zum anderen gibt es Archipele die aus mehr als 1000 Seiten bestehen. Schon bemerkenswert, nicht wahr. Hierbei wuerde ich ein aehnliches Phaenomen vermuten wie beim hier kurz besprochenen Bakhsh — eine zentrale Seite, die von vielen kleinen, selbst nicht zitierten Seiten jeweils einmal zitiert wird.

Bei den Archipelen die aus ein paar Dutzend bis wenigen hundert Seiten bestehen kønnte ich mir vorstellen, dass das so ’ne Art „abgeschlossene Themengebiete“ sind, fuer die sich die Welt nicht weiter interessiert.

Soweit dazu. Nun das Gleiche aber unter Beruecksichtigung des No-way-home-Archipels (ab hier als nwh-Archipel abgekuerzt), wie beim letzten Mal angekuendigt.
wie gesagt: ohne dieses finde ich 8.258 Archipele. Nun dachte ich zunaechst, dass halt noch eins dazu kommt und erschreckte mich, dass die Zahl aller Archipele dann bei 320.233 lag. o.O

Als ich mal drueber nachdachte fiel mir mein Fehler auf. Die „Insel der Unzitierten“ hat 320.089 „Einwohner“ die alle jeweils eine Insel der Stufe Null des nwhA sind. Das hatte ich uebrigens bei der Einfuehrung des nwhA falsch formuliert. Dort sagte ich, dass das nwhA aus 39 Inseln besteht. Dieser Fehler ist mir untergekommen, weil ich das Konzept der Archipele mehr oder weniger beim Schreiben entwickelte und das Konzept der „Stufen“ dort noch nicht benøtigt wurde. Richtiger haette es heiszen muessen, dass das nwhA aus 39 Stufen besteht. Macht aber nix, so ist das nun mal, wenn man versucht eine Erklaerung fuer ein bisher unbekanntes Phaenomen zu finden. Man tastet sich langsam vor, macht Fehler und behebt diese und am Ende tut man so als ob das alles eine gerade Linie gewesen waere. Letzteres ist ja nicht wahr und deswegen habe ich das hier mal drin gelassen … so wie ein paar meiner anderen Fehler.

Wieauchimmer, von diesen 320.089 Seiten gehen nur 124.139 Zitate weg. Dass bedeutet, dass ich hier fast 200k Archipele habe die aus nur einer Seite bestehen. Und selbst die ca. 125k Zitate die weg gehen, haben nur relativ kurze Linkketten. Die Allermeisten stoppen bereits auf der Stufe danach und es bildet sich gerade KEIN groszes, zusammenhaengendes Archipel. Das nwhA besteht also eigentlich aus unheimlich vielen einzelnen Archipelen, die aber alle die definierenden Eigenschaften des nwhA gemeinsam haben.

Gut, gut, das erklaert die hohe Zahl. Aber Moment mal sollte die dann nicht noch grøszer sein? 320.089 + 8.258 = 328.347 und nicht nur 320.233. Hier wuerde ich aber sagen, dass es mitnichten verwunderlich ist, dass die 451.792 Seiten die sich auf dem nwhA tummeln ’ne Verbindung zu den meisten anderen Archipelen haben. Fast alle von Letzteren „verschmelzen“ dann mit den vielen Archipelen des nwhA und das „fehlt“ dann in der Zaehlung.
Lange Rede kurzer Sinn: mit Zitaten zu den anderen Archipelen scheint das alles schon richtig zu sein.

Und nun das Gleiche wie oben nochmal … diesmal nicht als Balken-, sondern als Punktdiagramm, denn ich wollte obige Resultate zum Vergleich nochmal rein bringen und das waere zu unuebersichtlich geworden in der ueblichen Darstellung:

Der rechte Pfeil zeigt auf ein Archipel, welches aus fast 100k Seiten besteht. Das wundert mich nicht wirklich. Zum Einen aufgrund des oben erwaehnten „Bakhsh-Phaenomens“; Bakhsh selber hat schon ueber 50k Zitierungen von Seiten bei denen ich mir sehr gut vorstellen kann, dass die nicht weiter zitiert werden. Ein andere Seite dieser Sorte erwaehnte ich auch bereits im diesbezueglich oben verlinkten Artikel: Gmina. Man nehme eine solche Seite und 100 weitere Seiten mit dem gleichen modus operandi, die aber nur nur 1000 Zitaten von unbedeutenden Seiten bekommen, anstatt 50k Zitaten. Da braucht es dann maximal 50 Verbindungen untereinander. Letzteres halte ich fuer durchaus plausibel; 50 individuelle Verbindungen sind nicht so viel oder es kønnte auch nur ueber eine Seite geschehen, die bspw. alle weltweit unterschiedlichen Begriffe fuer „administrative Region“ zusammenfasst. Das Ganze kønnte natuerlich auch ueber viele kleinere (oben erwaehnte) „abgeschlossene Themengebiete“, anstatt ein paar „dicke“ Seiten geschehen. Was ich sagen will: die Existenz eines solch riesigen Archipels finde ich nicht sooo ungewøhnlich.

Der linke Pfeil zeigt auf das genaue Gegenteil; die vielen einzelnen, unzitierten und nicht auf andere Archipele zitierenden Seiten, welche Ein-Seiten-Archipele bilden (plus natuerlich die ca. 1000 Seiten, die nur soch selbst zitieren, aber die fallen hier nicht mehr all zu sehr ins Gewicht).

Das waren aber die eher uninteressanten Sachen. Viel spannender ist der Verlauf der Kurve fuer Archipele mit 100 oder weniger Seiten. Dieser entspricht auch hier wieder einem maechtigen Gesetz, angedeutet durch die olivgruene Linie. Hier passt sogar der Messpunkt fuer besagte Ein-Seiten-Archipele mit rein, was die Gueltigkeit dieses Gesetzes um ueber eine Grøszenordnung auf der Ordinate und nun sogar 2 Grøszenordnungen auf der Abzsisse erhøht.
Es macht den Anschein, dass dieses aber einen anderen Exponenten hat, als wenn ich die Archiple ohne das nwhA betrachte; die blaue Linie hat einen etwas anderen Anstieg. Prinzipiell kønnten hier natuerlich zwei verschiedene Mechanismen am Werk sein. Andererseits ist die Statistik fuer die schwarzen Punkte deutlich weniger gut und wenn ich die olivgruene Linie in diesen Bereich verschiebe (angedeutet durch die gestrichelte, olivgruene Linie), dann haette ich nicht all zu grosze Bauchschmerzen zu argumentieren, dass das durchaus passt.

Aber egal was hier auch im Detail passiert, wenn man das nwhA mit einbezieht, wird bestaetigt, dass die Grøsze der der Archipele sich nach einem maechtigen Gesetz verhaelt. Das festigt meinen „Glauben“, dass der von mir dargelegte Mechanismus der (verallgemeinerten) Archipele richtig ist und gewisse Aspekte des gesamten Wikipedialinknetzwerkes diesem unterliegen. … cool wa!

Nach der vielen Theorie die letzten beiden Male heute nun Messwerte :) … aber der Reihe nach.

Das Ende des letzten Beitrages aufgreifend: waehrend es (beinahe) unvermeidlich schien, dass es eine „Insel der Unzitierten“ geben muss, so galt dies nicht fuer die Existenz des No-way-home-Archipels. In den Daten konnte ich Letzteres aber direkt nachweisen. Kann ich dies auch bzgl. der Archipele der erweiterten Form?

Wie erwaehnt, musste ich zur Klaerung dieser Frage  eine schøne rekursive Funktion schreiben. Ich wuerde diese gerne im Detail diskutieren, denn ich finde rekursive Funktionen voll toll und es ist total schade, dass ich die nicht øfter brauche. Ich befuerchte allerdings, dass dies kontrapodutkiv waere. Deswegen muss ich die Diskussion anders aufziehen.

Bisher arbeitete ich derart, dass ich fuer jede Seite wusste, welche anderen Seiten diese zitiert und folgte dem Linknetzwerk einen Schritt nach dem anderen. Hier nun muss ich zunaechst das „Spiegelbild“ zu diesen Daten nehmen, ich musste also fuer jede Seite bestimmen, von welchen anderen Seiten diese zitiert wird. Dann folgte ich dem Linknetzwerk rueckwaerts. Ich schaute also fuer eine Seite von wem diese zitiert wurde und bei den zitierenden Seite schaute ich wer diese zitierte und so weiter. Das ist die Rekursion und die fuehrte ich so lange fort, bis keine neuen zitierenden Seiten mehr auftauchten.

Wieauchimmer, rekursive Funktionen haben einen Nachteil: rein praktisch kann ein Computer eine Rekursion nicht beliebig tief folgen. Jedes Rekursionslevel benøtigt eigene Ressourcen und davon habe ich nicht unendlich viele in meinem Rechner verbaut.

Deswegen schraenkte ich einen Parameter fuer die Analyse folgendermaszen ein: wenn eine Seite von mehr als 69 anderen Seiten zitiert wurde, so wird die Rekursion abgebrochen. Das ist nicht die ganze Wahrheit, 69 ist das Limit fuer zitierende Seiten die ich auf einem gegebenen Rekursionslevel noch nicht „gesehen“ habe. Die Anzahl aller zitierenden Seiten kønnte also betraechtlich høher sein.
Ich denke, dass dies Limitierung plausibel ist, denn wenn eine Seite von mehr als 69 Seiten zitiert wird, so ist es sehr unwahrscheinlich, dass alle diese _nicht_ irgendwie eine Verbindung zum „groszen Auszerhalb“ haben. Letzteres wuerde dann auch die urspruengliche Seite mit der ich startete mit diesem verbinden und damit kønnte die Startseite nicht Teil eines Archipels sein.
Ich testete bis zum Wert 1500 (ab 2000 wird die Rekursionstiefe so grosz, dass ich in oben erwaehnte Ressourcenlimitierung laufe, bzw. laeszt Python das nicht mehr zu um eben dies zu vermeiden). Der „Umschlagpunkt“ ab dem keine weiteren Archipele mehr dazu kamen lag bei 68. Der Wert 69 kommt durch das Abfaerben des juvenilen Humors, des jungen Mannes der bei mir wohnt, auf mich zustande.

Desweiteren liesz ich das No-way-home-Archipel auszen vor. OKOK, das stimmt nicht ganz. Ich nahm es einmal mit in die Analyse rein. Dann dauerte Selbige aber ca. 10 Stunden, anstatt ein paar Minuten. Deswegen habe ich das nur ein Mal gemacht. Ich bespreche die Unterschiede bei den Ergebnissen an anderer Stelle, weil ich denke, dass dies durchaus lehhreich sein kann.

Aber genug der Vorrede und Vorhang auf fuer die Ergebnisse; zunaechst das bereits Bekannte.
Zum ersten Balken der Verteilung der Maxima der individuellen Verteilungen der Selbstreferenzen tragen 474.653 Seiten bei. Davon gehørten 7649 zu Seiten die sich auf LL0 selbst zitieren (von insgesamt 83.435 Seiten mit dieser Eigenschaft) und auf keinem Linklevel mehr als eine Selbstreferenz haben. Somit blieben 467.004 uebrig, die erklaert werden mussten.
Daraufhin unternahm ich Untersuchungen, die zur Entdeckung des No-way-home-Archipels fuehrten. Die grøszte „Insel“ dieses Archipels ist die „Insel der Unzitierten“ mit 320.089 Seiten und insgesamt „wohnen“ auf dem gesamten Archipel 451.792 Seiten.
Damit blieb fuer nur noch 15.212 Seiten ungeklaert, warum diese zum Signal in besagtem ersten Balken beitragen. Dies fuehrte zu den Ueberlegungen bzgl. der Erweiterung/Verallgemeinerung des Archipelkonzepts. Hier kommen dann endlich die neuen Ergebnisse.

Ohne jeglichen Einfluss des No-way-home-Archipels finde ich fast 30-tausend Untergruppen. Wenn diese zu den grøsztmøglichen, zusammenhaengenden (Ueber?)Gruppen zusammen gezogen werden, bleiben noch 8.258 Archipele. Hurra! Die Existenz von (konzeptuell erweiterten/verallgemeinerten) Archipelen ist bewiesen. Nun wird es spannend, ob ich damit auch das erklaeren kann, was ich erklaeren will.

Von den 15.212 Seiten die zitiert werden, aber keine Selbstreferenzen haben, befinden sich 9995 auf diesen Archipelen. Streng genommen muesste ich noch schauen, ob die Zitierungen auch wirklich von niedrigeren „Stufen“ kommen. Aber rein logisch muss das ja so sein, denn wenn sie von høheren Stufen kommen wuerden, dann muessten diese Seiten ja Selbstreferenzen haben. Deswegen spare ich mir das Schauen an dieser Stelle mal ausnahmsweise.

Das ist alles was ich aus den ganzen langen Ueberlegungen und den vielen Stunden die ich mit der Analyse dazu zubrachte herauskam … so viel geschrieben (nicht nur in diesem Beitrag), fuer nur eine einzige Zahl … das kønnte man als eher mickrige Ausbeute sehen, wenn da nicht die Freude am Erkenntnisgewinn und jede Menge neues, konzeptuelles Wissen ueber das Linknetzwerk an sich waeren … aber dazu mehr an anderer Stelle (wie es z.Z. aus sieht als Weihnachtsbeitrag).

Und selbst mit dieser Zahl bleiben 5217 Seiten uebrig … da dachte ich zunaechst .oO(verdammt) … um dann erleichtert fest zu stellen, dass ich ja noch gar nicht solche Seiten in Betracht gezogen hatte, die keine Links haben, aber zitiert werden.
Seiten ohne Links kennen wir schon von den „ganz fruehen Aussteigern“ aber nicht alle von denen werden zitiert, weswegen ich nicht einfach die Zahl von dort nehmen kann. Ist letzteres der Fall, dann sind die schon bei den „Bewohnern“ der „Insel der Unzitierten“ gezaehlt worden. Aber siehe da, 5202 Seiten werden zitiert, haben aber keine Links … hurrah … oder eher: AAARGHAGAHGRHG … da bleiben naemlich immer noch 15 Seiten uebrig.

An dieser Stelle dachte ich zunaechst: .oO(15 von fast 500k … da ist der erste Balken ja (fast) komplett erklaert und das „fast“ ist ein sehr sehr sehr kleines „fast“ … das kann ich getrost alles in den Fehler schieben … auszerdem habe ich mit den Archipelen so viel gelernt, eigentlich kønnte ich hier auch aufhøren).
Aber ein Teil meines Wesens ist, dass ich erst „aufgebe“, wenn ich wirklich nicht mehr weiter weisz. Und hier hatte ich zwar zunaechst keine Idee, aber das Beduerfniss, da noch laenger drueber nachzudenken, auch wenn es nur noch 15 Seiten waren, die einer Erklaerung bedurften.

Und ich gruebelte und gruebelte und kam einfach auf keinen plausiblen Mechanismus fuer diese 15 Seiten.
Dann ging ich auf einen Spaziergang … und wie so oft auf Spaziergaengen scheint die Bewegung auch mein Gehirn in Gang zu bringen, denn pløtzlich hatte ich eine Erklaerung parat.
Bei diesen 15 kønnte es sich um Seiten handeln, die von „Auszen“ zitiert werden (also zu keinem Archipel gehøren), die mindestens einen weiterfuehrenden Link haben (also nicht unter die obigen 5202 Seiten fallen, fuer die das nicht gilt) aber wo die Linkkette dann schnell ins Leere fuehrt. Also weitere „fruehe Aussteiger“ aber nicht auf LL0 wie oben, sondern auf LL1-3.

Und tatsaechlich! Diese 15 Seiten werden alle aus dem groszen Wikipedialinknetzwerk (und auch von Archipelen, aber nur Ersteres ist relevant) zitiert. Manche sogar mehrfach. Desweiteren haben alle nur einen Link und alle diese Links fuehren zu Seiten die keine weitern Links haben. … YEEEEEEEES!!! … I AM AWESOME!

Tja, und damit ist das Signal im ersten Balken komplett erklaert und das Mysterium ist keins mehr! Toll wa!

Weil zwischen diesem und dem letzten Beitrag nix liegt, steige ich gleich voll ein.
OKOK, ein paar Stichwørter zur kurzen Wiederholung: zu viele Selbstreferenzen auf LL0, die meisten davon sind vom No-way-home-Archipel, welches aber nur ein Spezialfall des beim letzten mal erweiterten/verallgemeinerten Konzepts des Archipels-der-nicht-vom-groszen-Linknetzwerk-aus-sich-aber-in-aufsteigender-Reihenfolge-selber-zitierenden-Inseln darstellt.

Diese Erweiterung(en) habe ich beim letzten Mal nicht zuende gefuehrt und das hole ich hiermit nach. Nun aber genug der Vorrede und ich erweitere besagtes Konzepts sogleich um die Inseln Lambda und Kappa:

Lambda ist weiterhin Mitglied der roten Gruppe (weil ich das von der tiefsten Stufe (Zeta/Eta) aus erreiche) und auch Mitglied der gruenen Gruppe (dito, nur eben fuer Theta/Iota). Gleichzeitig bildet Lambda eine weitere Untergruppe „fuchsia1“ Ich denke ich muss nicht weiter erklaeren, warum dies eine weitere Untergruppe ist.

Nun ist da aber auch noch die Insel Kappa und hier wird es etwas komplizierter. Kappa hat einen Pfeil der auf Kappa selbst zurueck zeigt. Dies soll eine Seite darstelle, die sich selbst auf LL0 zitiert (und die bereits øfter erwaehnt wurden; bspw. hier) und die in dem Fall hier (und in diesem Zusammenhang relevant) nicht von anderen Seiten zitiert wird. Weil Kappa sich selbst zitiert kann sie nicht zur „Insel der Unzitierten“ (Alpha, siehe der letzte Beitrag) gehøren.

Das Komplizierte ist nun, dass ich bisher die „Stufen der Zitierungen“ relativ klar definieren konnte. Insbesondere konnte ich immer einen Anfang, also eine Stufe Null finden. Beim No-way-home-Archipel bestand Stufe Null aus nur einer Insel. Beim erweiterten Konzept konnte Stufe Null aus mehreren, sich „im Kreis“ zitierenden Inseln bestehen; dito fuer andere Stufen. Wichtig war, dass die Stufen abzaehlbar und schrittweise aufsteigend waren.
Kappa zitiert nun aber Lambda. Kappa ist in Gruppe „blau“ eindeutig Stufe Null und von Kappa aus gesehen ist Lambda Strufe 1. Aber von Eta aus gesehen ist Lambda auf Stufe 2. Das geht doch eigentlich nicht.

Das Dilemma løst sich auf die folgende Weise auf. Im ersten Fall sind die Untergruppen „gruen“ und „fuchsia1“ Teilmengen, welche vollstaendig in Gruppe „rot“ enthalten sind. Die Untergruppen sind also _nicht_ unabhaengig voneinander und dies folgt aus der Abzaehlbarkeit der Stufen.
Wenn Gruppe „blau“ nun als komplett unabhaenging von Gruppe „rot“ angesehen wird, trotzdem die beiden Gruppen eine Insel miteinander teilen (!), dann kann diese Insel Lambda sich eben doch auf zwei verschiedenen Stufen befinden, weil das ja zwei unterschiedliche „Treppen“ sind.

In den Daten wuerde ich die Existenz mehrerer, voneinander unabhaengiger Untergruppen nicht ausschlieszen wollen. Worauf ich aber hinaus will ist, dass diese doch wieder ein Netzwerk bilden, sobald es ein Verbindungsglied gibt. Anders als beim „groszen Auszerhalb“, erreiche ich hier aber NICHT jede Seite von jeder anderen Seite aus (siehe oben). Es gilt weiterhin: eine Seite die sich in einem solchen Netzwerk, welches nicht vom „groszen Auszerhalb“ zitiert wird“, befindet und von einer tieferliegenden Stufe zitiert wird, sollte keine Selbstreferenzen haben

Als Letzte Erweiterung, die aber eigentlich in allem Oben gesagten bereits enthalten ist, fuege ich die Insel Mu hinzu:

Ich habe die zugehørende Gruppe „fuchsia2“ genannt, weil mir die Primaerfarben ausgeganen sind (und gelb zu hell ist und deswegen nicht gut rueber kommt). Aber man kønnte den Namen der Gruppe ja so erklaeren, dass „fuchsia2„, so wie „fuchsia1„, eine Teilmenge von „rot“ ist, die aus nur einem Element besteht. … Puuuh, nochmal gerettet.

Wieauchimmer, Mu ist von Eta aus gesehen auf Stufe 2, gehørt aber NICHT zur Gruppe „gruen“. Zum Glueck habe ich oben das Konzept der voneinander unabhaengigen Teilmengen eingefuehrt und damit ist das kein Problem mehr (selbst dann wenn, wie hier, „fuchsia2“ vollstaendig in „rot“ enthalten ist). Oder anders: eine Stufe kann aus mehreren, voneinander unabhaengigen Inseln bestehen, die sich nicht notwendigerweise zitieren muessen; so wie Theta/Iota und Mu. Beim No-way-home-Archipel war Letzteres implizit gegeben; hier wollte ich direkt darauf hinweisen.
Desweiteren wird Mu von Alpha aus zitiert, ist aber nicht Teil des No-way-home-Archipels. NICHT, weil ich wieder zu Mu zurueck kommen wuerde, sondern weil Mu von Eta zitiert wird, und eine Insel kann nur Teil des No-way-home-Archipels sein, wenn besagte Insel nicht von „Auszerhalb“ zitiert wird (und Eta ist „Auszerhalb“ vom No-way-home-Archipel aus gesehen).

An diesem finalen Diagramm erkennt man, warum ich das in einen zusaetzlichen Beitrag gepackt habe — es passiert naemlich ganz schøn viel und aus dem intuitiv zu verstehenden Spezialfall des No-way-home-Archipels ist ein deutlich komplizierteres allgemeineres Konstrukt geworden.

Hier habe ich beispielhaft drei verschiedene Archipele, die ich als unabhaengig voneinander ansehen kann. Das No-way-home-Archipel hat keine Insel gemein mit der „roten“ Gruppe; bei der „blauen“ Gruppe ist dies aber der Fall. Letztere bilden deswegen aus leicht nachzuvollziehenden Gruenden ein gemeinsames Netzwerk. Ersteres Archipel zitiert aber Seiten in der „roten“ Gruppe und deswegen kann ich alle drei Archipele zu einem Gesamtnetzwerk „zusammen ziehen“. Aber wie gesagt, das bedeutet NICHT, dass man jede Insel von jeder anderen Insel aus erreichen kann.
Sollten in den Daten mehrere Archipele existieren, so sei ebenso gesagt, dass diese durchaus komplett unabhaengig voneinander sein kønnen. Also komplett ohne gemeinsame Elemente oder Zitierungen (selbst wenn diese nur in eine Richtung gehen wuerde).

Nun ist der Artikel schon wieder so lang und ich sage zum Abschluss nur noch das Folgende. Die Existenz des No-way-home-Archipels konnte ich nachweisen. Die Frage ist nun, ob Archipele der erweiterten Form auch im Wikipedialinknetzwerk existieren. Dafuer musste ich eine schøne rekursive Funktion schreiben und die Analyse (meiner Meinung nach durchaus plausibel) einschraenken. Aber das kommt alles beim naechsten mal.

Zur Erinnerung: zum ersten Balken dieser Verteilung tragen 474.653 Seiten bei. Das war eine Ueberraschung und ich fand herraus, dass 451.792 durch das No-way-home-Archipel zustande kommen. Somit muss nur noch fuer 15.212 Seiten erklaert werden, wie diese zum ersten Balken besagter Verteilung beitragen.

Beim letzten Mal meinte ich ganz zum Schluss, dass …

[…] das obige Konzept [des Archipels] […] nochmals erweitert werden [kann].

Und das machen wir heute.

Die Inseln des „No-way-home“-Archipels kønnen aufsteigend sortiert werden. Die Namen — Alpha, Beta, Gamma etc. — deuten dies bereits an und kønnen als Stufe 0, Stufe 1, Stufe 2 usw. gedeutet werden. Dabei ist es so, dass Seiten (auf Inseln) einer bestimmten Stufe nur von Seiten (auf Inseln) auf tieferliegenden Stufen zitiert werden; niemals von Seiten (auf Inseln) auf høherliegenden Stufen.
Es muss wahrscheinlich nicht gesagt werden, ich tue es trotzdem: DAS ist das Alleinstellungsmerkmal des No-way-home-Archipels und der Grund warum es diesen Namen bekam. In diesem Bild ist alles auszerhalb des Archipels auf einer sehr hohen „Stufe“.

Nun zur Erweiterung des Konzepts des Archipels. Die vollziehe ich schrittweise und fange einfach an indem zunaechst nur die Inseln Zeta und Eta hinzugefuegt werden:

Hier und im Weiteren muesst ihr, meine lieben Leserinnen und Leser, euch die duennen, grauen Pfeile selber denken. Diese deuteten beim letzten Mal Links nach auszerhalb des Archipels an. Natuerlich gibt es auch im erweiterten Konzept Links nach auszen, aber ich lasse die duennen grauen Pfeile heute mal weg, denn das wird schon kompliziert genug (und die sind auch nicht wirklich relevant fuer besagtes Konzept).

Von Epsilon aus erreiche ich (eine Stufe høher) Zeta. So weit erstmal nix Neues. Von Zeta aus gehe ich noch eine Stufe weiter und erreiche Eta. Nun ist es aber so, dass Eta (in der gesamten Kette eine „høherliegende“ Insel) wieder Zeta (in der gesamten Kette eine „tieferliegende Insel“) zitiert. Dies ist im Widerspruch zum obigen Alleinstellungsmerkmal und deswegen gehørt alles nach Epsilon NICHT mit zum no-way-home-Archipel.

Die rote Gruppe, gekennzeichnet durch die rote Box, liegt lokal (!) vom No-way-home-Archipel aus gesehen also auszerhalb. Aber Achtung! Weiterhin gilt, dass auch die Inseln in der roten Box nicht vom „allgemeinen (!) Auszerhalb“, also vom groszen, zusammenhaengenden Linknetzwerk, zitiert werden. Die Erweiterung des Konzepts ist naemlich gleichzeitig eine Verallgemeinerung, aber dabei ist nicht zu vergessen, dass diesem Konzept zugrunde liegt, dass keine Insel des Archipels aus dem „groszen Auszerhalb“ zitiert wird. Das No-way-home-Archipel ist nur der Spezialfall mit den zweitmeisten Einschraenkungen (die meisten Einschraenkungen hat Insel Alpha).

Letzteres laeszt sich dadurch veranschaulichen, indem man sich denkt, dass Alpha von Zeta zitiert wird. Im konkreten Fall wuerde das heiszen, dass alle der mehr als 300k „Einwohner“ von Alpha zitiert werden muessten, aber das ist ja nur ein Gedankenexperiment und man muss sich einfach nur vorstellen, dass Alpha nur einen „Einwohner“ hat. In dem Fall bleibt das Grundkonzept des Archipels (keine Zitaten vom „groszen Auszerhalb“ erhalten, aber es gibt kein No-way-home-Archipel mehr.

Weiterhin gilt, dass die „Verbindung“ zum No-way-home Archipel hier nur stattfand um einen Anknuepfungspunkt zu finden. Kein Mitglied der roten Gruppen _muss_ vom No-way-home-Archipel aus zitiert werden. Die rote Gruppe kann isoliert fuer sich allein existieren (muss es aber nicht), so lange besagte rote Gruppe nicht vom „groszen Auszerhalb“ zitiert wird, sind alle Mitglieder der roten Gruppe immer Teil des erweiterten/verallgemeinerten Archipels.

Jetzt bin ich so weit, dass ich den Spezialfall des No-way-home-Archipel auszen vor lassen kann um das Archipel nochmals zu erweitern (immerhin gibt es einen Grund, dass ich die rote Box so grosz gemacht habe):

Von Eta aus zitiere ich Theta und (wichtig) Theta zitiert Iota und Iota zitiert Theta. Diese vier Inseln sind _alle_ Teil der roten Gruppe, Theta und Iota bilden aber ebenso die kleinere gruene Untergruppe.

Was passiert hier? Nun ja, Zeta und Eta bilden zusammen die niedrigste Stufe der roten Gruppe. Von dort gelange ich zu høheren Stufen, die im erweiterten Konzept aus mehreren Inseln bestehen kønnen, aber ich komme von dort nicht zurueck zur niedrigeren Stufe. Das Konzept der „sortierbaren Stufen“ bleibt also erhalten, gilt aber nicht mehr nur fuer einzeile Inseln, wie im Spezialfall des No-way-home-Archipels, sondern fuer ganze Inselgruppen.
Ich nenne nenne es deswegen Untergruppe, weil ich von der niedrigsten Stufe die grøszte Menge an anderen Inseln (naemlich alle) erreiche, aber nicht umgekehrt. Oder anders ausgedrueckt: die gruene Gruppe ist eine Teilmenge der roten Gruppe.

Es sei gesagt, dass die niedrigste Stufe aus mehr als nur zwei sich gegenseitig zitierenden Inseln bestehen kann. Prinzipiell kønnte es eine ganze „Inselkette“ sein, solange die sich alle nur wenigstens „im Kreis“ zitieren. Also mindestens die letzte Insel der Kette muss wieder die erste Insel der Kette zitieren. Das muss also kein direktes Hin-und-Zurueck sein, wie oben dargestellt.

An dieser Stelle bin ich noch nicht fertig, ich merke aber, dass der Artikel schon wieder arg lang ist. Deswegen verschiebe ich die naechsten Erweiterungen auf das naechste Mal.