Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – XXXI – Archipele – alles erklaert

Nach der vielen Theorie die letzten beiden Male heute nun Messwerte :) … aber der Reihe nach.

Das Ende des letzten Beitrages aufgreifend: waehrend es (beinahe) unvermeidlich schien, dass es eine „Insel der Unzitierten“ geben muss, so galt dies nicht fuer die Existenz des No-way-home-Archipels. In den Daten konnte ich Letzteres aber direkt nachweisen. Kann ich dies auch bzgl. der Archipele der erweiterten Form?

Wie erwaehnt, musste ich zur Klaerung dieser Frage eine schøne rekursive Funktion schreiben. Ich wuerde diese gerne im Detail diskutieren, denn ich finde rekursive Funktionen voll toll und es ist total schade, dass ich die nicht øfter brauche. Ich befuerchte allerdings, dass dies kontrapodutkiv waere. Deswegen muss ich die Diskussion anders aufziehen.

Bisher arbeitete ich derart, dass ich fuer jede Seite wusste, welche anderen Seiten diese zitiert und folgte dem Linknetzwerk einen Schritt nach dem anderen. Hier nun muss ich zunaechst das „Spiegelbild“ zu diesen Daten nehmen, ich musste also fuer jede Seite bestimmen, von welchen anderen Seiten diese zitiert wird. Dann folgte ich dem Linknetzwerk rueckwaerts. Ich schaute also fuer eine Seite von wem diese zitiert wurde und bei den zitierenden Seite schaute ich wer diese zitierte und so weiter. Das ist die Rekursion und die fuehrte ich so lange fort, bis keine neuen zitierenden Seiten mehr auftauchten.

Wieauchimmer, rekursive Funktionen haben einen Nachteil: rein praktisch kann ein Computer eine Rekursion nicht beliebig tief folgen. Jedes Rekursionslevel benøtigt eigene Ressourcen und davon habe ich nicht unendlich viele in meinem Rechner verbaut.

Deswegen schraenkte ich einen Parameter fuer die Analyse folgendermaszen ein: wenn eine Seite von mehr als 69 anderen Seiten zitiert wurde, so wird die Rekursion abgebrochen. Das ist nicht die ganze Wahrheit, 69 ist das Limit fuer zitierende Seiten die ich auf einem gegebenen Rekursionslevel noch nicht „gesehen“ habe. Die Anzahl aller zitierenden Seiten kønnte also betraechtlich høher sein.
Ich denke, dass dies Limitierung plausibel ist, denn wenn eine Seite von mehr als 69 Seiten zitiert wird, so ist es sehr unwahrscheinlich, dass alle diese _nicht_ irgendwie eine Verbindung zum „groszen Auszerhalb“ haben. Letzteres wuerde dann auch die urspruengliche Seite mit der ich startete mit diesem verbinden und damit kønnte die Startseite nicht Teil eines Archipels sein.
Ich testete bis zum Wert 1500 (ab 2000 wird die Rekursionstiefe so grosz, dass ich in oben erwaehnte Ressourcenlimitierung laufe, bzw. laeszt Python das nicht mehr zu um eben dies zu vermeiden). Der „Umschlagpunkt“ ab dem keine weiteren Archipele mehr dazu kamen lag bei 68. Der Wert 69 kommt durch das Abfaerben des juvenilen Humors, des jungen Mannes der bei mir wohnt, auf mich zustande.

Desweiteren liesz ich das No-way-home-Archipel auszen vor. OKOK, das stimmt nicht ganz. Ich nahm es einmal mit in die Analyse rein. Dann dauerte Selbige aber ca. 10 Stunden, anstatt ein paar Minuten. Deswegen habe ich das nur ein Mal gemacht. Ich bespreche die Unterschiede bei den Ergebnissen an anderer Stelle, weil ich denke, dass dies durchaus lehhreich sein kann.

Aber genug der Vorrede und Vorhang auf fuer die Ergebnisse; zunaechst das bereits Bekannte.
Zum ersten Balken der Verteilung der Maxima der individuellen Verteilungen der Selbstreferenzen tragen 474.653 Seiten bei. Davon gehørten 7649 zu Seiten die sich auf LL₀ selbst zitieren (von insgesamt 83.435 Seiten mit dieser Eigenschaft) und auf keinem Linklevel mehr als eine Selbstreferenz haben. Somit blieben 467.004 uebrig, die erklaert werden mussten.
Daraufhin unternahm ich Untersuchungen, die zur Entdeckung des No-way-home-Archipels fuehrten. Die grøszte „Insel“ dieses Archipels ist die „Insel der Unzitierten“ mit 320.089 Seiten und insgesamt „wohnen“ auf dem gesamten Archipel 451.792 Seiten.
Damit blieb fuer nur noch 15.212 Seiten ungeklaert, warum diese zum Signal in besagtem ersten Balken beitragen. Dies fuehrte zu den Ueberlegungen bzgl. der Erweiterung/Verallgemeinerung des Archipelkonzepts. Hier kommen dann endlich die neuen Ergebnisse.

Ohne jeglichen Einfluss des No-way-home-Archipels finde ich fast 30-tausend Untergruppen. Wenn diese zu den grøsztmøglichen, zusammenhaengenden (Ueber?)Gruppen zusammen gezogen werden, bleiben noch 8.258 Archipele. Hurra! Die Existenz von (konzeptuell erweiterten/verallgemeinerten) Archipelen ist bewiesen. Nun wird es spannend, ob ich damit auch das erklaeren kann, was ich erklaeren will.

Von den 15.212 Seiten die zitiert werden, aber keine Selbstreferenzen haben, befinden sich 9995 auf diesen Archipelen. Streng genommen muesste ich noch schauen, ob die Zitierungen auch wirklich von niedrigeren „Stufen“ kommen. Aber rein logisch muss das ja so sein, denn wenn sie von høheren Stufen kommen wuerden, dann muessten diese Seiten ja Selbstreferenzen haben. Deswegen spare ich mir das Schauen an dieser Stelle mal ausnahmsweise.

Das ist alles was ich aus den ganzen langen Ueberlegungen und den vielen Stunden die ich mit der Analyse dazu zubrachte herauskam … so viel geschrieben (nicht nur in diesem Beitrag), fuer nur eine einzige Zahl … das kønnte man als eher mickrige Ausbeute sehen, wenn da nicht die Freude am Erkenntnisgewinn und jede Menge neues, konzeptuelles Wissen ueber das Linknetzwerk an sich waeren … aber dazu mehr an anderer Stelle (wie es z.Z. aus sieht als Weihnachtsbeitrag).

Und selbst mit dieser Zahl bleiben 5217 Seiten uebrig … da dachte ich zunaechst .oO(verdammt) … um dann erleichtert fest zu stellen, dass ich ja noch gar nicht solche Seiten in Betracht gezogen hatte, die keine Links haben, aber zitiert werden.
Seiten ohne Links kennen wir schon von den „ganz fruehen Aussteigern“ aber nicht alle von denen werden zitiert, weswegen ich nicht einfach die Zahl von dort nehmen kann. Ist letzteres der Fall, dann sind die schon bei den „Bewohnern“ der „Insel der Unzitierten“ gezaehlt worden. Aber siehe da, 5202 Seiten werden zitiert, haben aber keine Links … hurrah … oder eher: AAARGHAGAHGRHG … da bleiben naemlich immer noch 15 Seiten uebrig.

An dieser Stelle dachte ich zunaechst: .oO(15 von fast 500k … da ist der erste Balken ja (fast) komplett erklaert und das „fast“ ist ein sehr sehr sehr kleines „fast“ … das kann ich getrost alles in den Fehler schieben … auszerdem habe ich mit den Archipelen so viel gelernt, eigentlich kønnte ich hier auch aufhøren).
Aber ein Teil meines Wesens ist, dass ich erst „aufgebe“, wenn ich wirklich nicht mehr weiter weisz. Und hier hatte ich zwar zunaechst keine Idee, aber das Beduerfniss, da noch laenger drueber nachzudenken, auch wenn es nur noch 15 Seiten waren, die einer Erklaerung bedurften.

Und ich gruebelte und gruebelte und kam einfach auf keinen plausiblen Mechanismus fuer diese 15 Seiten.
Dann ging ich auf einen Spaziergang … und wie so oft auf Spaziergaengen scheint die Bewegung auch mein Gehirn in Gang zu bringen, denn pløtzlich hatte ich eine Erklaerung parat.
Bei diesen 15 kønnte es sich um Seiten handeln, die von „Auszen“ zitiert werden (also zu keinem Archipel gehøren), die mindestens einen weiterfuehrenden Link haben (also nicht unter die obigen 5202 Seiten fallen, fuer die das nicht gilt) aber wo die Linkkette dann schnell ins Leere fuehrt. Also weitere „fruehe Aussteiger“ aber nicht auf LL₀ wie oben, sondern auf LL_1-3.

Und tatsaechlich! Diese 15 Seiten werden alle aus dem groszen Wikipedialinknetzwerk (und auch von Archipelen, aber nur Ersteres ist relevant) zitiert. Manche sogar mehrfach. Desweiteren haben alle nur einen Link und alle diese Links fuehren zu Seiten die keine weitern Links haben. … YEEEEEEEES!!! … I AM AWESOME!

Tja, und damit ist das Signal im ersten Balken komplett erklaert und das Mysterium ist keins mehr! Toll wa!

Posted by Tentacel on 2022-12-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXI – Archipele – Lustiges Inselspringen 2

Weil zwischen diesem und dem letzten Beitrag nix liegt, steige ich gleich voll ein.
OKOK, ein paar Stichwørter zur kurzen Wiederholung: zu viele Selbstreferenzen auf LL₀, die meisten davon sind vom No-way-home-Archipel, welches aber nur ein Spezialfall des beim letzten mal erweiterten/verallgemeinerten Konzepts des Archipels-der-nicht-vom-groszen-Linknetzwerk-aus-sich-aber-in-aufsteigender-Reihenfolge-selber-zitierenden-Inseln darstellt.

Diese Erweiterung(en) habe ich beim letzten Mal nicht zuende gefuehrt und das hole ich hiermit nach. Nun aber genug der Vorrede und ich erweitere besagtes Konzepts sogleich um die Inseln Lambda und Kappa:

Lambda ist weiterhin Mitglied der roten Gruppe (weil ich das von der tiefsten Stufe (Zeta/Eta) aus erreiche) und auch Mitglied der gruenen Gruppe (dito, nur eben fuer Theta/Iota). Gleichzeitig bildet Lambda eine weitere Untergruppe „fuchsia₁“ Ich denke ich muss nicht weiter erklaeren, warum dies eine weitere Untergruppe ist.

Nun ist da aber auch noch die Insel Kappa und hier wird es etwas komplizierter. Kappa hat einen Pfeil der auf Kappa selbst zurueck zeigt. Dies soll eine Seite darstelle, die sich selbst auf LL₀ zitiert (und die bereits øfter erwaehnt wurden; bspw. hier) und die in dem Fall hier (und in diesem Zusammenhang relevant) nicht von anderen Seiten zitiert wird. Weil Kappa sich selbst zitiert kann sie nicht zur „Insel der Unzitierten“ (Alpha, siehe der letzte Beitrag) gehøren.

Das Komplizierte ist nun, dass ich bisher die „Stufen der Zitierungen“ relativ klar definieren konnte. Insbesondere konnte ich immer einen Anfang, also eine Stufe Null finden. Beim No-way-home-Archipel bestand Stufe Null aus nur einer Insel. Beim erweiterten Konzept konnte Stufe Null aus mehreren, sich „im Kreis“ zitierenden Inseln bestehen; dito fuer andere Stufen. Wichtig war, dass die Stufen abzaehlbar und schrittweise aufsteigend waren.
Kappa zitiert nun aber Lambda. Kappa ist in Gruppe „blau“ eindeutig Stufe Null und von Kappa aus gesehen ist Lambda Strufe 1. Aber von Eta aus gesehen ist Lambda auf Stufe 2. Das geht doch eigentlich nicht.

Das Dilemma løst sich auf die folgende Weise auf. Im ersten Fall sind die Untergruppen „gruen“ und „fuchsia₁“ Teilmengen, welche vollstaendig in Gruppe „rot“ enthalten sind. Die Untergruppen sind also _nicht_ unabhaengig voneinander und dies folgt aus der Abzaehlbarkeit der Stufen.
Wenn Gruppe „blau“ nun als komplett unabhaenging von Gruppe „rot“ angesehen wird, trotzdem die beiden Gruppen eine Insel miteinander teilen (!), dann kann diese Insel Lambda sich eben doch auf zwei verschiedenen Stufen befinden, weil das ja zwei unterschiedliche „Treppen“ sind.

In den Daten wuerde ich die Existenz mehrerer, voneinander unabhaengiger Untergruppen nicht ausschlieszen wollen. Worauf ich aber hinaus will ist, dass diese doch wieder ein Netzwerk bilden, sobald es ein Verbindungsglied gibt. Anders als beim „groszen Auszerhalb“, erreiche ich hier aber NICHT jede Seite von jeder anderen Seite aus (siehe oben). Es gilt weiterhin: eine Seite die sich in einem solchen Netzwerk, welches nicht vom „groszen Auszerhalb“ zitiert wird“, befindet und von einer tieferliegenden Stufe zitiert wird, sollte keine Selbstreferenzen haben

Als Letzte Erweiterung, die aber eigentlich in allem Oben gesagten bereits enthalten ist, fuege ich die Insel Mu hinzu:

Ich habe die zugehørende Gruppe „fuchsia₂“ genannt, weil mir die Primaerfarben ausgeganen sind (und gelb zu hell ist und deswegen nicht gut rueber kommt). Aber man kønnte den Namen der Gruppe ja so erklaeren, dass „fuchsia₂„, so wie „fuchsia₁„, eine Teilmenge von „rot“ ist, die aus nur einem Element besteht. … Puuuh, nochmal gerettet.

Wieauchimmer, Mu ist von Eta aus gesehen auf Stufe 2, gehørt aber NICHT zur Gruppe „gruen“. Zum Glueck habe ich oben das Konzept der voneinander unabhaengigen Teilmengen eingefuehrt und damit ist das kein Problem mehr (selbst dann wenn, wie hier, „fuchsia₂“ vollstaendig in „rot“ enthalten ist). Oder anders: eine Stufe kann aus mehreren, voneinander unabhaengigen Inseln bestehen, die sich nicht notwendigerweise zitieren muessen; so wie Theta/Iota und Mu. Beim No-way-home-Archipel war Letzteres implizit gegeben; hier wollte ich direkt darauf hinweisen.
Desweiteren wird Mu von Alpha aus zitiert, ist aber nicht Teil des No-way-home-Archipels. NICHT, weil ich wieder zu Mu zurueck kommen wuerde, sondern weil Mu von Eta zitiert wird, und eine Insel kann nur Teil des No-way-home-Archipels sein, wenn besagte Insel nicht von „Auszerhalb“ zitiert wird (und Eta ist „Auszerhalb“ vom No-way-home-Archipel aus gesehen).

An diesem finalen Diagramm erkennt man, warum ich das in einen zusaetzlichen Beitrag gepackt habe — es passiert naemlich ganz schøn viel und aus dem intuitiv zu verstehenden Spezialfall des No-way-home-Archipels ist ein deutlich komplizierteres allgemeineres Konstrukt geworden.

Hier habe ich beispielhaft drei verschiedene Archipele, die ich als unabhaengig voneinander ansehen kann. Das No-way-home-Archipel hat keine Insel gemein mit der „roten“ Gruppe; bei der „blauen“ Gruppe ist dies aber der Fall. Letztere bilden deswegen aus leicht nachzuvollziehenden Gruenden ein gemeinsames Netzwerk. Ersteres Archipel zitiert aber Seiten in der „roten“ Gruppe und deswegen kann ich alle drei Archipele zu einem Gesamtnetzwerk „zusammen ziehen“. Aber wie gesagt, das bedeutet NICHT, dass man jede Insel von jeder anderen Insel aus erreichen kann.
Sollten in den Daten mehrere Archipele existieren, so sei ebenso gesagt, dass diese durchaus komplett unabhaengig voneinander sein kønnen. Also komplett ohne gemeinsame Elemente oder Zitierungen (selbst wenn diese nur in eine Richtung gehen wuerde).

Nun ist der Artikel schon wieder so lang und ich sage zum Abschluss nur noch das Folgende. Die Existenz des No-way-home-Archipels konnte ich nachweisen. Die Frage ist nun, ob Archipele der erweiterten Form auch im Wikipedialinknetzwerk existieren. Dafuer musste ich eine schøne rekursive Funktion schreiben und die Analyse (meiner Meinung nach durchaus plausibel) einschraenken. Aber das kommt alles beim naechsten mal.

Posted by Tentacel on 2022-11-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXI – Archipele – Lustiges Inselspringen 1

Zur Erinnerung: zum ersten Balken dieser Verteilung tragen 474.653 Seiten bei. Das war eine Ueberraschung und ich fand herraus, dass 451.792 durch das No-way-home-Archipel zustande kommen. Somit muss nur noch fuer 15.212 Seiten erklaert werden, wie diese zum ersten Balken besagter Verteilung beitragen.

Beim letzten Mal meinte ich ganz zum Schluss, dass …

[…] das obige Konzept [des Archipels] […] nochmals erweitert werden [kann].

Und das machen wir heute.

Die Inseln des „No-way-home“-Archipels kønnen aufsteigend sortiert werden. Die Namen — Alpha, Beta, Gamma etc. — deuten dies bereits an und kønnen als Stufe 0, Stufe 1, Stufe 2 usw. gedeutet werden. Dabei ist es so, dass Seiten (auf Inseln) einer bestimmten Stufe nur von Seiten (auf Inseln) auf tieferliegenden Stufen zitiert werden; niemals von Seiten (auf Inseln) auf høherliegenden Stufen.
Es muss wahrscheinlich nicht gesagt werden, ich tue es trotzdem: DAS ist das Alleinstellungsmerkmal des No-way-home-Archipels und der Grund warum es diesen Namen bekam. In diesem Bild ist alles auszerhalb des Archipels auf einer sehr hohen „Stufe“.

Nun zur Erweiterung des Konzepts des Archipels. Die vollziehe ich schrittweise und fange einfach an indem zunaechst nur die Inseln Zeta und Eta hinzugefuegt werden:

Hier und im Weiteren muesst ihr, meine lieben Leserinnen und Leser, euch die duennen, grauen Pfeile selber denken. Diese deuteten beim letzten Mal Links nach auszerhalb des Archipels an. Natuerlich gibt es auch im erweiterten Konzept Links nach auszen, aber ich lasse die duennen grauen Pfeile heute mal weg, denn das wird schon kompliziert genug (und die sind auch nicht wirklich relevant fuer besagtes Konzept).

Von Epsilon aus erreiche ich (eine Stufe høher) Zeta. So weit erstmal nix Neues. Von Zeta aus gehe ich noch eine Stufe weiter und erreiche Eta. Nun ist es aber so, dass Eta (in der gesamten Kette eine „høherliegende“ Insel) wieder Zeta (in der gesamten Kette eine „tieferliegende Insel“) zitiert. Dies ist im Widerspruch zum obigen Alleinstellungsmerkmal und deswegen gehørt alles nach Epsilon NICHT mit zum no-way-home-Archipel.

Die rote Gruppe, gekennzeichnet durch die rote Box, liegt lokal (!) vom No-way-home-Archipel aus gesehen also auszerhalb. Aber Achtung! Weiterhin gilt, dass auch die Inseln in der roten Box nicht vom „allgemeinen (!) Auszerhalb“, also vom groszen, zusammenhaengenden Linknetzwerk, zitiert werden. Die Erweiterung des Konzepts ist naemlich gleichzeitig eine Verallgemeinerung, aber dabei ist nicht zu vergessen, dass diesem Konzept zugrunde liegt, dass keine Insel des Archipels aus dem „groszen Auszerhalb“ zitiert wird. Das No-way-home-Archipel ist nur der Spezialfall mit den zweitmeisten Einschraenkungen (die meisten Einschraenkungen hat Insel Alpha).

Letzteres laeszt sich dadurch veranschaulichen, indem man sich denkt, dass Alpha von Zeta zitiert wird. Im konkreten Fall wuerde das heiszen, dass alle der mehr als 300k „Einwohner“ von Alpha zitiert werden muessten, aber das ist ja nur ein Gedankenexperiment und man muss sich einfach nur vorstellen, dass Alpha nur einen „Einwohner“ hat. In dem Fall bleibt das Grundkonzept des Archipels (keine Zitaten vom „groszen Auszerhalb“ erhalten, aber es gibt kein No-way-home-Archipel mehr.

Weiterhin gilt, dass die „Verbindung“ zum No-way-home Archipel hier nur stattfand um einen Anknuepfungspunkt zu finden. Kein Mitglied der roten Gruppen _muss_ vom No-way-home-Archipel aus zitiert werden. Die rote Gruppe kann isoliert fuer sich allein existieren (muss es aber nicht), so lange besagte rote Gruppe nicht vom „groszen Auszerhalb“ zitiert wird, sind alle Mitglieder der roten Gruppe immer Teil des erweiterten/verallgemeinerten Archipels.

Jetzt bin ich so weit, dass ich den Spezialfall des No-way-home-Archipel auszen vor lassen kann um das Archipel nochmals zu erweitern (immerhin gibt es einen Grund, dass ich die rote Box so grosz gemacht habe):

Von Eta aus zitiere ich Theta und (wichtig) Theta zitiert Iota und Iota zitiert Theta. Diese vier Inseln sind _alle_ Teil der roten Gruppe, Theta und Iota bilden aber ebenso die kleinere gruene Untergruppe.

Was passiert hier? Nun ja, Zeta und Eta bilden zusammen die niedrigste Stufe der roten Gruppe. Von dort gelange ich zu høheren Stufen, die im erweiterten Konzept aus mehreren Inseln bestehen kønnen, aber ich komme von dort nicht zurueck zur niedrigeren Stufe. Das Konzept der „sortierbaren Stufen“ bleibt also erhalten, gilt aber nicht mehr nur fuer einzeile Inseln, wie im Spezialfall des No-way-home-Archipels, sondern fuer ganze Inselgruppen.
Ich nenne nenne es deswegen Untergruppe, weil ich von der niedrigsten Stufe die grøszte Menge an anderen Inseln (naemlich alle) erreiche, aber nicht umgekehrt. Oder anders ausgedrueckt: die gruene Gruppe ist eine Teilmenge der roten Gruppe.

Es sei gesagt, dass die niedrigste Stufe aus mehr als nur zwei sich gegenseitig zitierenden Inseln bestehen kann. Prinzipiell kønnte es eine ganze „Inselkette“ sein, solange die sich alle nur wenigstens „im Kreis“ zitieren. Also mindestens die letzte Insel der Kette muss wieder die erste Insel der Kette zitieren. Das muss also kein direktes Hin-und-Zurueck sein, wie oben dargestellt.

An dieser Stelle bin ich noch nicht fertig, ich merke aber, dass der Artikel schon wieder arg lang ist. Deswegen verschiebe ich die naechsten Erweiterungen auf das naechste Mal.

Posted by Tentacel on 2022-11-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXI – Archipele – No way home

Zur Erinnerung: im allerersten Balken in der hier gezeigten Verteilung stecken 474.653 Seiten. Davon sind nur 7649 von der Sorte, die sich auf LL₀ selbst zitieren und entweder keine oder niemals mehr als eine Selbstreferenz auf høheren Linkleveln haben. Damit muss ich nur noch erklaeren wo die restlichen 467.004 Seiten die dieses Signal ausmachen herkommen.

Natuerliche Kandidaten sind uns bereits vor fast genau einem Jahr begegnet. Es sind Seiten die niemals nicht zitiert werden (und damit in dem zweiten Grafen den schwarzen Streifen auf der linken Seite verursachen), aber selber andere Seiten zitieren. Damals waren die nur im grøszeren Zusammenhang von Interesse aber im Speziellen nicht weiter relevant. Aber im Zusammenhang mit dem Mysterium des hohen ersten Balkens der Verteilung der Maxima der Selbstreferenzen muss ich eben diese nun etwas genauer betrachten.

Solange eine Seite Links hat, hat diese prinzipiell Zugriff auf das gesamte Wikipedialinknetzwerk. Wenn diese Seite nun niemals woanders verlinkt wird, so fuehrt dies zu null Selbstreferenzen, trotzdem ich von der Seite den Rest des Linknetzwerkes abschreiten kann. So weit so klar und ich kann relativ einfach schauen, welche Seiten niemals nicht zitiert werden. Derer gibt es 320.089 … wow!
Es gibt sozusagen eine „isolierte Insel“ auf der ca. 5 % aller Wikipediaseiten „wohnen“. Von dieser Insel kommt man zwar weg (Links zu anderen Seiten) aber wenn man einmal weg ist, dann kommt man niemals zurueck (weil ja kein Inselbewohner zitiert wird).
Auch wenn mich die Menge etwas ueberrascht so ist das natuerlich gut mit Hinblick auf obiges Mysterium. Denn pløtzlich muss ich nur noch eine Erklaerung finden fuer 146.915 Seiten die zitiert werden, aber trotzdem keine Selbstreferenzen erhalten. Hier greift die obige, einfache Erklaerung nicht.

Nun denke man sich aber eine Seite, die zwar KEIN „Einwohner“ der (isolierten) „Insel der ~~Verdammten~~ Unzitierten“ ist. Diese Seite wird dann sehr wohl zitiert, aber weiter denke man sich, dass diese(s) Zitat(e) NUR von besagter Insel kommen.
In dem Fall hat man auch null Selbstreferenzen, denn von der Seite komme ich ja niemals auf die Insel und somit kann das Selbstzitat auch niemals aktiviert werden.

So weit so gut. Ich schaute mal und tatsaechlich, ich habe 124.139 Seiten die zwar nicht Teil der „isolierten Insel“ sind, aber NUR von dort Zitate erhalten.
Cool wa! Damit bleiben nur 22.776 Seiten uebrig. Prinzipiell kønnte ich hier aufhøren und sagen, dass alles uebriggebliebene Unerklaerte nun so wenig ist, dass ich das getrost in den beruehmten Fehler druecken kann. Aber ich bin mit meinen Ideen noch nicht am Ende und das Prinzip der „Insel der Unzitierten“ haelt noch mehr in petto (was uebrigens nicht Latein sondern italienisch ist, obgleich auch aus dem Lateinischen abgeleitet) was auch so einiges ueber die Struktur des Linknetzwerkes beleuchtet. Dafuer muessen wir das Konzept aber von einer Insel zu einem Archipel erweitern. … Ich habe da mal was vorbereitet:

Die grosze Ellipse mit dem groszen Alpha drin soll die „isolierte Insel der Unzitierten“ darstellen. Die duennen, grauen Pfeile gehen zu Seiten die mit dem gesamten (restlichen) Linknetzwerk verbunden sind (aber natuerlich NICHT mit dieser Insel).
„Einwohner“ auf Alpha zitieren Einwohner auf den Beta und Gamma Inseln. Das ist durch die dicken, blauen Pfeile gekennzeichnet. Dies beruht aber nicht auf Gegenseitigkeit, denn von dort geht kein dicker, blauer Pfeil (und somit kein Zitat) zurueck. Damit kønnen Beta und Gamma NICHT Teil von Alpha sein, denn die werden ja zitiert (von Alpha) waehrend das Erkennungsmerkmal von Alpha gerade ist, dass die Seiten dort nicht zitiert werden. Gamma zitiert nun Delta und Delta zitiert Epsilon und von Epsilon komm ich nur zu Seiten im groszen Linknetzwerk.

Es bildet sich also eine Art Inselkette und das wichtige Merkmal dieser Kette ist, dass die Zitate immer nur in eine Richtung gehen und niemals zurueck! Sobald ich eine Insel verlassen habe, komme ich nie wieder auf diese zurueck.
Nun ist es aber keine Kette sondern vielmehr eben ein Archipel. Dies versuche ich mit den zwei Pfeilen zur Insel Gamma darzustellen. Oder anders: das Prinzip auf das ich hinaus will bleibt erhalten, auch wenn man Zitate von verschiedenen Inseln zulaeszt.

Was hat das nun mit unseren 22.776 Seiten zu tun, die oben noch uebrig geblieben sind? Zur Klaerung dieser Frage stelle man sich Folgendes vor: alle Einwohner von Insel Gamma gehøren zu diesen 22.776 Seiten (denn die werden ja zitiert (von Alpha und Beta)). Wenn ich mit einer Seite auf Insel Gamma starte, dann habe ich Zugriff auf das gesamte Linknetzwerk (via den duennen, grauen Pfeilen), aber von dort kommt ja niemals ein Zitat zurueck (und somit keine Selbstreferenz zustande). Die einzige Selbstreferenz kønnte von den Inseln Alpha oder Beta stammen, aber weil niemand von auszerhalb Alpha oder Beta zitiert und Insel Gamma dies auch nicht tut sind wir wieder bei obiger Situation, dass diese Selbstreferenzen niemals „aktiviert“ werden.

Aber Achtung! Waehrend die Existenz von Insel Alpha durchaus als plausibel von vornherein angenommen werden konnte, ist die Existenz eines solchen Archipels mitnichten zwangslaeufig!

Ich habe natuerlich mal geguckt und siehe da: es gibt ein solches no-way-home Archipel. Insgesamt besteht das Archipel aus 39 Inseln (inklusive der zuerst betrachteten „Insel der Unzitierten“), auf denen sich 451.792 Seiten tummeln. Die obigen 124.139 Seiten welche nicht Einwohner der „Insel der Unzitierten“ sind aber von dort zitiert werden, „wohnen“ also alle auf dem Archipel. Der Rest sind ebenso Bewohner des Archipels, die werden aber nicht von Insel Alpha zitiert.
Die weitaus meisten Inseln haben uebrigens drei oder weniger „Einwohner“; der allergrøszte Teil der „Einwohner“ treibt sich also auf nur drei Inseln rum.

Cool wa! Pløtzlich bleibt von den 474.653 Seiten im ersten Balken der Ursprung von nur noch 15.212 Seiten unerklaert. Das nenn ich mal einen riesigen Erfolg.
Ganz am Ende bin ich damit noch nicht. Denn das obige Konzept kann nochmals erweitert werden. Aber das mache ich beim naechsten Mal.

Posted by Tentacel on 2022-11-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXX – Doch was Unerwartetes bei den Selbstreferenzen

Wie schon bei den totalen und den neuen Links, schaute ich mir auch bei den Selbstreferenzen an, wo jeweils das Maximum der indivduellen Verteilung lag. Und hier erlebte ich diese Ueberraschung:

Ich meine natuerlich, dass sich das so unerwartet lang hin zieht. Diese Ueberraschung stellt sich dann aber gar nicht mehr als so interessant dar, wenn man das in Bezug setzt zur Anzahl der totalen Links. Man nehme bspw. LL₁₀; dort gibt es noch insgesamt 222 Selbstzitate … bei immer noch ueber 200 Milliarden (!) Links total … ja gut, rein statistisch sollte das schonmal passieren. Nichtsdestotrotz komme ich nochmal kurz auf drei Seiten die zu den Messwerten ganz am Ende fuehren zurueck … weil’s kurios ist.

Wenn man die Anzahl aller Links auf einem Linklevel in Betracht zieht, dann „tuemmeln“ sich die Selbstreferenzen um Bereich des Erwarteten — sehr zum Anfang dieses Diagramms.
Ich bin also ein „Opfer“ des Gegenteils des hier als „logarithmische Komprimierung“ beschriebenen Effektes geworden: der logarithmischen Streckung und des Schaffens von (unnøtiger (?)) Aufmerksamkeit zu hohen Linkleveln und den dortigen kleinen Werten.

Wieauchimmer, die eigentliche Ueberraschung liegt vielmehr ganz am Anfang — buchstaeblich im ersten Balken: der ist naemlich urst hoch! Sagte ich nicht, dass es nur ca. 80k Selbstreferenzen (und alle sind Artefakte) auf LL₀ gibt? Der Balken hat aber eine Amplitude von fast 500-tausend.
Um dies aufzuklaeren muss ich nochmals etwas weiter ausholen, was eigentlich hinter dem obigen Diagramm steckt.

Als ich das bei den totalen Links zum ersten Mal einfuehrte, erklaerte ich, wie dies zustande kam. Ich schaute mir fuer jede Seite an, auf welchem Linklevel diese die meisten totalen Links hatte. War besagtes Maximum bspw. auf LL₅, so ging der Zaehler des Balkens bei LL₅ um eins hoch. Wenn man sich die beispielhaft gezeigten individuellen Verteilungen nochmals anschaut, so sind das richtig schøne Kurven mit einem klaren Anfang, Maximum, Mittelteil und Ende.
Bei den neunen Links wird im Wesentlichen die gleiche Situation herrschen (von der Grøsze der Zahlen auf der Ordinate natuerlich abgesehen). Es gibt keinen Grund anzunehmen, dass dies dort anders sein sollte; dafuer sind diese beiden „Messgrøszen“ zu aehnlich.

Bei den Selbstreferenzen laufe ich aber in das Problem, dass ich davon nur so wenige habe. Erstmal kønnte das kein Problem, sein, denn auch bei kleinen Zahlen kann man (mehr oder weniger) „schøne Kurven“ haben. So wie im linken Diagramm in diesem Bild (Achtung: es gibt keine Werte zwischen den Punkten; die Linien sind nur da, damit man dem Verlauf eines Datensatzes besser folgen kann):

Bei der 1916 Democratic National Convention (schwarze Kurve im linken Diagramm) geht die Anzahl der Selbstreferenzen hoch, hat ein klar definiertes Maximum ungefaehr da wo auch das Maximum der totalen Links ist und geht dann schnell runter auf Null. Das ist also so wie oben beschrieben.
Das 10th Iowa Infantry Regiment (rote Kurve im linken Diagramm) duempelt recht lange bei kleinen Werten vor sich hin aber dann gibt es auch hier ein klares Maximum. Die Kurve folgt im Groben dem beschriebenen Schema.
Im Wesentlichen dito fuer die 10th Irish Film & Television Awards (blaue Kurve im linken Diagramm). Es gibt ein sehr breites (zweigeteiltes) Maximum gleich zum Anfang, aber die generellen Strukturen einer „schønen Kurve“ sind durchaus erkennbar.

Wichtig hieran sind zwei Sachen. Zum einen, dass „die Statistik“ (was immer das auch sein mag), also die Flaeche unter der Kurve, noch grosz genug ist um (relativ) gute Aussagen treffen zu kønnen. Zum Anderen verteilt sich besagte Statistik ueber einen (mehr oder weniger) ausgedehnten Bereich. Letzteres ist nøtig um ueberhaupt von einer „Kurve“ (welche analysierbar ist) sprechen zu kønnen.

Was aber mindestens genauso haeufig vorliegt, sieht man im rechten Diagramm (ACHTUNG: selbe Farben, unterschiedliche Seiten!). Ich habe die Linien weg gelassen, damit man das Ausmasz der Misere besser wahr nimmt.
Fuer das 1916 Furman Purple Hurricane football team versammeln sich (fast) alle Selbstreferenzen auf LL₁ (plus eine einzige auf LL₃). Ein Punkt ist keine Kurve (und immer das Maximum).
Bei den 10th Lambda Literary Awards verteilen sich die Werte zwar auf mehr als ein Linklevel, aber „die Statistik“ ist nicht so doll. Ist das ein „echtes“ Maximum bei LL₃, blosz weil der Punkt dort mit einem Wert von zwei um eins høher ist als die Punkte bei LL₁ bzw. LL₄?
Und beides gleichzeitig liegt fuer das 10th Kisei vor.

Ich frag mich was es mit der Haeufung von 10’ern in den Beispielen auf sich hat. Naja, kommt sicherlich dadurch zustande, dass ich diese nur semi-zufaellig ausgewaehlt habe. Nicht vergessen, auch wenn ich hier die kompletten Titel hinschreibe, so arbeite ich intern mit Nummern. Und ich habe die Nummern fuer die Beispiele nicht aus allen 6 Millionen møglichen gezogen sondern nur unter den ersten 50-tausend die genommen, die fuer die Beispiele gepasst haben und auch repraesentativ waren. Das kønnte ja sein, dass es im Wikipediaquellcode ’ne Art lose Reihenfolge gibt. Dafuer spricht, dass alle Beispiele hier mit Zahlen anfangen und diese Zahlen alle ’ne „1“ am Anfang haben.

Wieauchimmer, ich schwoff ab. Mit dem bisher Gesagten laeszt sich die Form der Verteilung ganz oben teilweise erklaeren. Um beim dort erwaehnten Beispiel zu bleiben: ich finde es durchaus plausibel, dass 222 Seiten auf ein paar Linkleveln ein Mal, aber auf LL₁₀ zwei Mal zitiert werden und somit zum Balken bei LL₁₀ in besagter Verteilung beitragen.

Auch auf das Mysterium des (relativ) hohen Balkens bei LL₀ werfen die obigen Aussagen etwas Licht. Der Grund liegt darin, dass wenn eine individuelle Verteilung „flach“ ist, dann wird das Maximum an den Anfang gelegt. Beispiel: eine Seite hat jeweils drei Selbstreferenzen auf LL₅, LL₁₇ und LL₂₃; das Maximum wird nun zu LL₅ „gelegt“ obwohl die anderen beiden Messwerte ja gleich grosz sind … aber so ist das nun mal.
Hier komme ich zu den bekannten 83.435 Seiten mit Selbstreferenzen auf LL₀ zurueck. Davon haben 75.786 Seiten das Maximum nicht bei LL₀. Es bleiben also 7649 Seiten die entweder keine weiteren Selbstreferenzen oder auf keinem Linklevel mehr als eine Selbstreferenz haben.

Von den 474.653 Seiten die im Balken bei LL₀ bleiben damit noch 467.004 uebrig die nicht darunter fallen. Wie gesagt, das Obige wirft nur _etwas_ Licht auf das Mysterium.
Der Beitrag ist aber schon so lang und deswegen verschiebe ich die Aufklaerung dieses seltsamen Sachverhalts auf das naechste Mal.

Posted by Tentacel on 2022-11-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXIX – Wiederentdeckung falscher (?) Muster

Das wird ein etwas merkwuerdiger Artikel, denn ich werde etwas bereits Bekanntes und Verworfenes nochmals aufgreifen, um dies dann schon wieder zu verwerfen. Aber der Reihe nach.

Alles fing damit an, dass ich beim letzten Mal erwaehnte, dass ich nochmal auf etwas zurueck kommen werde. Dies fuehrte dazu, dass ich mir mal das Verhaeltnis der totalen Links zu den Selbstreferenzen (pro Linklevel) anschaute. Das Ergebnis ist die rote Kurve in diesem Diagramm:

Eine aehnliche „Operation“ fuehrte ich bereits beim vorletzten Mal fuer die neuen Links aus und das dortige Resultat packte ich hier nochmals als graue Kurve dazu. Man beachte, dass jeweils _nur_ die linke Ordinate fuer die rote und _nur_ die rechte Ordinate fuer die graue Kurve gelten. Die horizontalen Linien sind die Mittelwerte der (beim vorletzten Mal erkannten, diskutierten und wieder verworfenen) „Abschnitte“ der grauen Kurve.

Auf den ersten, fluechtigen Blick scheint man in beiden Faellen ungefaehr die gleiche Anzahl an totalen Links (pro Linklevel und relativ zur gemessenen Grøsze) zu haben … ja 40 ist ungefaehr 100. Das ist natuerlich Quatsch, denn das Resultat beim letzten Mal war ja bereits, dass man im Durchschnitt (deutlich) weniger als 10 Selbstreferenzen pro Linklevel hat. Des Raetsels Løsung liegt in der Skalierung der linken Ordinate. Da steht „Millionen“ in Klammern. Die Zahlen auf der linken Seite muessen also alle mit eine Million multipliziert werden.

Wie beim letzten Mal vermutet, sieht man am Anfang der roten Kurve (bis LL₅), dass die Anzahl der totalen Links viel schneller zunimmt, als die Anzahl der Selbstreferenzen. Somit ist die dortige Erklaerung fuer das relativ breite Maximum der zugrundeliegenden Verteilung als plausibel anzusehen.

Zu meiner Ueberraschung kann man ab ca. LL₂₂ durchaus einen konstanten Wert fuer das Verhaeltnis dieser beiden Grøszen annehmen. Ich haette erwartet, dass das stetig abnimmt. Es gibt keinen Grund, warum eine Seite bspw. 60 Linklevel nach dem Ursprung noch besagten Ursprung zitieren sollte.
Andererseits sind wir hier in einem Bereich, wo die Anzahl der Selbstreferenzen sowieso nur ein paar hundert und darunter (zum Ende hin eine ganze Grøszenordnung darunter) liegt. Bei immer noch ueber 10 Milliarden totalen Links (ueber alle Linknetzwerke aller Seiten). Das ist also so ’ne Art „Grundzustand“ bzw. erklaerte ich bereits beim letzten Mal, wie das ausfuehrlich besprochene Artefakt zu einem „Grundbeitrag an Selbstreferenzen“ zum Ende hin fuehrt.

Wenn ich aber diesen „Grundzustand“ als richtig annehme, dann sehe ich in der roten Kurve einen Bereich von LL₅ bis LL₉, der definitiv darueber liegt. Dieser Bereich faellt mit dem ersten Abschnitt der grauen Kurve zusammen. Danach befinde ich mich zwar im Bereich des „Zappelns um den Grundwert“, aber bis ungefaehr LL₂₂ zappelt das nur wenig und es scheint vielmehr stetig nach unten zu gehen; als ob da ein Mechanismus ueber den zufaelligen Schwankungen liegt.

Um Letzteres zu veranschaulichen, denke man sich ~~eine Ente~~, ~~einen Elefanten~~, einen Tyrannosaurus welcher im Zickzack ueber einen Fluss ohne Strømung schwimmt … auch wenn ein Flusz ohne Strømung mglw. kein Fluss mehr ist:

In diesem (hier idealisierten) Fall benutzt der Tyrannosaurus gleich viel Kraft um abwechselnd nach links und dann wieder nach rechts zu schwimmen. Das ist das Ruhesystem der Kønigsechse. Im hier gedachten Fall faellt dieses zusammen mit dem Ruhesystem des Flussufers und eine derartige Bewegung bedeutet, dass die Position des Tyrannosaurus um die graue, gestrichelte Linie schwankt.
Im obigen Diagramm entspricht das im Wesentlichen der Situation ab ca. LL₂₅.
Es sei zu erwaehnen, dass sich der Echsenkønig in seinem eigenen Ruhesystem natuerlich ueberhaupt nicht bewegt. Deswegen zog ich den Kraftaufwand (beim Schwimmen in eine bestimmte Richtung) dazu, um zu zeigen, dass dennoch etwas passiert in Tyrannosaurusruhesystem … tihihi … es wuerde mich nicht wundern, wenn ich der erste Mensch bin, der dieses Wort geschrieben hat.

Es sei auch zu erwaehnen, dass ich die Vorwaertsbewegung hier nicht weiter betrachte, denn diese nehme ich als unveraendert auch fuer den naechsten Fall an, in dem eine Strømung dazu kommt:

Der Kønig der Echsen benutzt immer noch gleich viel Kraft um nach links bzw. nach rechts zu schwimmen. Somit bleibt in diesem Ruhesystem alles gleich. Vom Flussufer aus gesehen ist die Situation vøllig anders. Bewegungen nach links sind deutlich staerker und Bewegungen nach rechts schwaecher. Letztere gleichen Erstere im Mittel nicht mehr aus und es findet somit eine Bewegung nach links statt. Diese kommt aber NICHT durch den Kraftaufwand des Tyrannosaurus zustande sondern durch den „darunter“ liegenden Mechanismus der Strømung.

Ich weisz nicht, was dies fuer ein Mechanismus sein kønnte, der die Werte zwischen LL₉ und LL₂₂ im obigen Diagramm „nach unten treibt“. So wie weder Echsenkønig noch Flussufer eine konzeptuelle Vorstellung von der Strømung haben muessen und die Bewegung nach links trotzdem passiert.
Dieser Bereich zwischen LL₉ und LL₂₂ faellt nun aber erstaunlich gut mit dem zweiten Abschnitt der grauen Kurve zusammen. Der „Ueberlapp“ ist nicht perfekt. Dies kønnte daran liegen, dass ich die Grenzen des besagten zweiten Abschnitts beim ersten Mal falsch einschaetzte. Weil das in beiden Faellen zu einem „Grundzustand“ hingeht um den nur noch alles zappelt, habe ich nicht viel mit dem ich arbeiten kann, eben weil die Werte doch recht stark um besagten „Grundzustand“ zappeln.

Andererseits sind auch in diesem Fall die „Messwerte“ im „Strømungsbereich“ nicht all zu verschieden vom Grundzustandsmittelwert. Es ist somit auch hier wieder mindestens genauso plausibel, dass da ueberhaupt nix ist und ich Muster erkenne, die es gar nicht gibt.
Deswegen verwerfe ich auch in diesem Fall die „Beobachtung“ von individuellen Abschnitten bzw. Bereichen in den Meszgrøszen, die durch unterschiedliche Mechanismen zustande kommen (kønnten). Ich kann das aus den vorhandenen Daten einfach nicht klar genug „herausschaelen“.

Ich erwaehnte die Bereiche/Abschnitte aber nochmals so detailliert, weil diese trotz zwei methodisch unterschiedlicher „Messungen“ (scheinbar) zu erkennen sind. Unterschiedliche „Messungen“ deswegen, weil neue Links und Selbstreferenzen nix miteinander zu tun haben sollten. (Mit dem Unterschied natuerlich, dass die jeweilige (totale) Anzahl dieser Messgrøszen mit der Anzahl aller Links auf einem Linklevel (mehr oder weniger) korrelliert.)
Wenn aber etwas bei zwei unterschiedlichen Untersuchungen auftritt, dann ist da ja vielleicht doch was dran. Ich denke weiterhin nicht, dass dem so ist. Meine Sicherheit diesbezueglich ist aber etwas verringert durch diese Resultate. Und so ist das ja oft in der Wissenschaft … manchmal „jagt man Gespenster“ und manchmal stellen „Geister“ sich als echt heraus und pløtzlich lernt man was urst Cooles. Ich behalte das also im Hinterkopf.

Aber wie schon beim vorletzten Mal gesagt: sollte ich nix weiter in diese Richtung finden, dann erwaehne ich das still und heimlich einfach nicht mehr.

Posted by Tentacel on 2022-10-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXVIII – Selbstzitierungen

Selbstzitierungen … habe ich urspruenglich als Selbstreferenzen bezeichnet und dabei bleibe ich auch … konnte mir die Benutzung des anderen Wortes (mit gleicher Bedeutung) aber aufgrund der zeitlichen Naehe zu dieser Miniserie nicht verkneifen.

Wieauchimmer, mit Selbstreferenzen sind alle Links gemeint, die auf den Ursprung (also die Seite dessen Linknetzwerk ich gerade untersuche) (zurueck) verweisen. Das Konzept ist ja recht einfach zu verstehen.
Nach dieser kurzen Auffrischung bereits bekannter Dinge steige (wie immer) als Erstes ein mit der Summe aller Selbstreferenzen ueber alle Seiten pro Linklevel. Es ist die rote Kurve im linken Diagramm in diesem Bild:

Zum Vergleich habe ich wieder die gleiche Grøsze fuer die totalen Links in schwarz dazu gepackt. Wie zu erwarten ist die Anzahl der Links die zum Ursprung zurueck gehen massiv kleiner als die Anzahl aller Links auf einem Linklevel.

Interessant ist, dass das Maximum augenblicklich auf LL₁ erreicht wird. Das das schnell hoch geht ist jetzt nicht soooo ueberraschend, denn die Anzahl der Selbstreferenzen ist natuerlich eine Funktion der Anzahl der totalen Links. Je mehr ich von Letzteren habe um so mehr Selbstreferenzen sollten (naiv angenommen) auftauchen. Aber dass diese Aussage dann nur noch bedingt gilt, die Anzahl der totalen Links nimmt weiter zu, die der Selbstreferenzen aber nicht, ist aber (wie gesagt) interessant.
Auszerdem ist das Maximum doppelt so breit im Vergleich mit allen anderen Verteilungen und zieht sich von LL₁ bis LL₄. Wieder: da die Anzahl der totalen Links weiter zu nimmt, wuerde das darauf hindeuten, dass die relative Anzahl der Selbstreferenzen ebenso schnell abnehmen muss. Ich komme darauf beim naechsten Mal zurueck.

Ansonsten ist die Form und der Verlauf der Kurve keine Ueberraschung und folgt im Wesentlichen der ausfuehrlich besprochenen Kurve der totalen Links.
Zu erwaehnen sei, dass die ca. 80k Selbstreferenzen auf LL₀ Artefakte sind. Das sind Seiten, die Links zu anderen Abschnitten auf der selben Seite haben. Die haetten rausgeschmissen werden sollen und ich liesz mich darueber bereits an anderer Stelle aus.

Im linken Diagramm habe ich (wieder) die rote Kurve grob auf 6 Millionen Seiten normiert, denn ich wollte (wieder) mal wissen, wie vielen Selbstreferenzen ich im Durchschnitt pro Linklevel begegne.
An dieser normierten Kurve kann man ein paar Sachen deutlicher sehen, als an den absoluten Zahlen der vorher besprochenen Summe der Selbstreferenzen … normierte Daten haben das oft so an sich, dass man Sachen besser sieht; deswegen ist Normierung ja sehr oft auch das Erste was ich mit Daten mache.

Wieauchimmer, man sieht bei LL₀, dass nur ca. 1 von 100 Seiten zu Sektionen auf der selben Seite (also sich selbst verweisen). Das ist zwar ein Artefakt, aber es ist gut zu wissen, wie grosz der Einfluss ist und dieses Resultat bestaetigt mein hier ausgedruecktes Bauchgefuehl, dass ich das „in den Fehler druecken“ kann.
Danach habe ich dann von LL₁ bis LL₄, im Durchschnitt 6 Selbstreferenzen. Da haette ich auf LL₁ (deutlich) mehr erwartet; dies aus dem Grund, weil ich dachte, dass es mehr hin-und-wieder-zurueck-Linkschleifen gibt.
Bei „mittleren“ Linkleveln um ca. LL₃₀ kann ich eine Selbstreferenz nur noch bei zwei von hunderttausend Seiten erwarten. Das scheint sinnvoll zu sein, denn so weit weg vom Ursprung, sollte eine (neue) Seite rein gar nix mehr mit dem Anfang zu tun haben. Weswegen sollte diese dann aber auf eben jenen verweisen?

Das Ende der Kurve ruehrt (immer noch) von dem ausfuehrlich besprochenen Artefakt her und Selbiges erklaert auch die Werte. Ich erinnere daran, dass besagtes Artefakt die Saisons eines suedamerikanischen Fuszballklubs sind. Desweiteren lande ich am Ende immer auf den selben Seiten; eben jene Saisons. Ich kann mir durchaus vorstellen, dass im Durchschnitt bei jeder dieser Saisonseiten fuer fuenf Urspruenge (andere Saisons, Fuszballspieler oder (andere) -klubs) eine Selbstreferenz erscheint. Das wuerde zu ca. 100 Seiten im Dunstkreis dieses Fuszballklubs fuehren … diese Abschaetzung scheint plausibel.

Nun ja, das soll genug sein. Wie bei den neuen Links werde ich auch diese Zahlen durch die (relevanten) Auswertungen schicken. Ich denke nicht, dass ich dabei was Neues entdecken werde.
Beim naechsten Mal normiere ich dann aber zunaechst diese Summe der Selbstrefernzen auf die Anzahl der totalen Links (pro Linklevel) … denn das habe ich ja oben bereits (indirekt) angekuendigt.

Posted by Tentacel on 2022-10-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXVIII – Konstanter Faktor?

Beim letzten Mal bemerkte ich, dass es so aussieht, als ob die individuellen Verteilungen der totalen bzw. der neuen Links mglw. um einen konstanten Faktor „springen“.

Deswegen schaute ich mir mal das Verhaeltnis aus der Anzahl der totalen und der neuen Links an:

An diesem Bild ueberraschte mich zunaechst, dass meine Vermutung sogar richtig war. Desweiteren ueberraschte mich wie grosz das Verhaeltnis ist. Auf den ersten Blick haette ich aus den erwaehnten Spruengen so Pi-mal-Daumen einen Faktor zehn vermutet. Bei genauerem Hinschauen wuerde ich aber sagen zwischen ca. 10 und 100. Und das ist ja auch das was man hier sieht.

Von Anfang und Ende abgesehen, wuerde ich den Grafen prinzipiell in drei Abschnitte einteilen. Die roten horizontalen Linien stellen den Mittelwert dieser Abschnitte dar.
Als Erklaerung fuer den ersten Abschnitt wuerden wieder vielzitierte Seiten mit vielen Links herhalten. Weil diese oft zitiert werden, tragen sie sehr stark zur Anzahl der totalen Links bei. Aber aus dem selben Grund tragen sie nicht zu den neuen Links bei, denn oft geschieht deren Zitierung schon auf den allerersten Linkleveln.
Der zweite Abschnitt kønnte durch „mittelhaeufig“ zitierte Seiten zustande kommen, wird aber immer noch durch die vielzitierten Seiten beeinflusst. Diese mittelhaeufig zitierten Seiten haben weniger totale Links und das Verhaeltniss geht runter. Dafuer gibt es davon mehr und der Bereich zieht sich auf der Abszisse laenger hin. Prinzipiell kønnte „mittelhaeufig“ durch grosze, weitschweifende, sich ueber viele Seiten verteilende, aber nicht super wichtige Themengebiete zustande kommen. Ein Beispiel waere Skisport oder Wissenschaft.
Im dritten Abschnitt dann haben wir mehr oder weniger obskure Seiten die selten zitiert werden und mit wenigen totalen Links. Die Ursachen der ersten beiden Abschnitte wirken natuerlich auch hier noch mit rein.

Andererseits sind die Unterschiede in den durchschnittlichen Verhaeltnissen dieser Abschnitte jetzt auch nicht sooooo grosz; nicht mal ein Faktor zwei. Auszerdem habe ich mit dem Ausdenken zu den Ursachen von visuellen Abschnitten schonmal gehørig daneben gegriffen. Deswegen bilde ich mal nur den Durchschnitt ueber alle drei dieser Abschnitte und erhalte einen (durchschnittlichen) konstanten Faktor von ca. 44.
Das bedeutet, dass ich, nach dem „explosiven“ Anfang, im Durchschnitt schon 44 Links gesehen habe, bevor ich auf einen treffe, der neu ist. Auch wenn mir das jetzt ziemlich viel vorkommt, so wundert es mich auch nicht so richtig. Denn die vielzitierte Seiten mit vielen Links dominieren das Linknetzwerk gerade ganz zu Anfang komplett … aber das wurde ja bereits mehrfach diskutiert.

Wieauchimmer, ich habe mal die Anzahl der neuen Links per Linklevel mit diesem konstanten Durchschnittsfaktor multipliziert. Das ist die rote Kurve in dieser Abbildung:

Der visuelle Vergleich mit der schwarzen Kurve, welche die schon so oft gezeigte Summe der totalen Links per Linklevel darstellt, ist erstaunlich gut.

Fuer die blaue Kurve (rechte Ordinate) sah ich die Summe der totalen Links als „wahren“ Wert an. Dann bildete ich die Differenz der beiden zuerst erwaehnten Kurven und setzte diese Differenz mit dem „wahren“ Wert ins Verhaeltnis. Dieser Wert ist dann die prozentuale Abweichung der Abschaetzung vom wahren Wert.
Wie man sieht, ist die Abschaetzung gar nicht mal so uebel und die Abweichung liegt ueber weite Bereiche um 20 %. Nur 20 % Abweichung ist bei Daten aus der echten Welt, sehr groben Vereinfachungen und aeuszerst simplen Annahmen durchaus gut. Zu beachten ist auch, dass selbst eine Abweichung von 100 % nur einem Faktor (der nichts mit dem konstanten Faktor zu tun hat) von zwei entspricht.
Ganz am Anfang ist die Abschaetzung natuerlich deutlich schlechter. Das liegt daran, dass dort im Wesentlichen die Anzahl der neuen Links der Anzahl der totalen Links entspricht. Dies mit einem konstanten Faktor zu multiplizieren fuehrt natuerlich zu Quark.

Abschlieszend sei zu sagen, dass es mitnichten haette so sein muessen, dass die eine Grøsze aus der anderen mithilfe eines konstanten Faktors berechnet werden kann. Genausogut haette der Faktor auch stetig (im Sinne von Differenzierbarkeit) abnehmen kønnen. Eine unstetige Abnahme wird so’n bisschen durch die erwaehnten drei Abschnitten suggeriert. Aber ich bin, wie gesagt, diesmal lieber etwas vorsichtiger mich da festzulegen.
Spaeter komme ich unter Umstaenden aber vielleicht doch nochmal auf die drei Abschnitte zurueck. Die hier im Detail erklaerte Messgrøsze kønnte mir mglw. erlauben solche Gruppen zu erkennen. Wenn dem aber nicht so ist, werde ich das still und schweigend einfach nicht mehr erwaehnen :P

Damit bin ich mit den neuen Links durch. Beim naechsten Mal geht’s dann mit den Selbstzitierungen los.

Posted by Tentacel on 2022-10-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXVII – Viele Verteilungen … aber nur kurz

Fuer die Anzahl der totalen Links schaute ich mir die Verteilungen pro Linklevel an. Dies fuehrte zu Betrachtungen bzgl. der beobachteten Resultate, welche ich in die Begriffe „Zustandsdichte“ und „Phasenuebergaenge“ verpackte. Mindestens Letzteres stellte sich schlussendlich als nicht haltbar heraus, aber die Betrachtungen waren durchaus interessant — das hat das Spielen mit Daten nunmal an sich.

Bei den neuen Links wuerde ich bei den Verteilungen pro Linklevel im Wesentlichen beinahe das Selbe erwarten. Der einzige bedeutende Unterschied, von den bereits beim letzten Mal erwaehnten Schwankungen abgesehen, sollte nur sein, dass die Verteilungen auf der Abszisse nach links verschoben sind. Der Grund liegt natuerlich darin, dass ich weniger neue als totale Links habe (was ja in dieser Reihe schon mehrfach erwaehnt wurde).

Als Konsequenz dieser Erwartungen folgt, dass die grundsaetzliche „Form“ der Verteilung erhalten bleiben muss.
Bei LL₀ ist das trivial, denn ganz am Anfang sind im Wesentlichen alle Links auch neue Links … abgesehen von Selbstreferenzen, aber darauf komm ich an anderer Stelle zurueck (zum Glueck fallen die nicht so sehr ins Gewicht).

Der Vergleich der Verteilungen bei LL₁ sieht so aus:

Siehste! Man sieht das was ich oben schrieb. Toll wa!

Ich gebe zu, dass auch LL₁ irgendwie „geschummelt“ ist, denn die Situation ist ja immer noch sehr aehnlich zu LL₀. Deswegen springe ich mal vorwaerts zu LL₉ (und ihr, meine lieben Leserinnen und Leser muesst mir einfach glauben, dass das oben Geschriebene auch fuer alle Linklevel dazwischen gilt).

Aha! Die Verteilung der neuen Links ist nach links verschoben und beide Verteilungen haben drei „Berge“; es bleibt also auch eine „komplizierte“ Form erhalten. Der dritte Berg ist in der Verteilung der totalen Links visuell deutlich schmaler. Ich denke, dass es sich hierbei wieder um eine Art der logarithmischen Komprimierung handelt.

Da zu høheren Linkleveln hin nicht mehr viel passiert und weil diese Verteilungen bereits frueher so ausfuehrlich diskutiert wurden, schaute ich mir nur noch zwei Verteilungen an; bei LL₂₀ und LL₃₀. Alles lag innherhalb der Erwartungen und zum „Beweis“ sei nur noch LL₃₀ gezeigt:

Die vielen zu sehenden Phaenomene und Effekte in den Daten diskutierte ich, im Zuge der Betrachtungen zu den totalen Links, bereits im Detail . Darauf aufbauend, und weil (wie zu erwarten war) keine grosze Unterschiede bei den Daten zu den neuen Links auftauchten, konnte ich die Diskussion diesmal zu kurz halten. Fuer erstere Betrachtungen brauchte ich 20 1/2 Beitraege in dieser Serie, die sich ueber 4 1/2 Monate erstreckten. Diesmal waren es nur 2 1/2 Beitraege ueber 2 Wochen. Ist ja auch mal schøn, wenn ich mich kurz halten kann.

Ganz fertig bin ich aber noch nicht mit den neuen Links. Die Spruenge in den oberen Bildern scheinen immer ueber ungefaehr eine Grøszenordnung zu gehen. Jaja, ich weisz, es sind nur zwei „Messpunkte“, aber dies kønnte ein Hinweis darauf sein, dass es mglw. auf jedem Linklevel einen (mehr oder weniger) konstanten Faktor zwischen der Anzahl der totalen Links und der Anzahl der neuen Links gibt. Prinzipiell kønnte ich mir einen Mechanismus denken, wieso das so sein sollte.
Aber ich greife vor und verschiebe diese Untersuchungen und Diskussion auf den naechsten Beitrag.

Posted by Tentacel on 2022-09-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXVI – Details

Bei den Betrachtungen zu den totalen Links pro Linklevel musste ich zunaechst eine Erklaerung finden, warum der Anstieg der totalen Links am Anfang so sehr viel staerker ist als erwartet.
Dies fuehrte letztlich dazu, dass ich den Zusammenhang zwischen der Anzahl der Zitierungen die eine Seite auf sich vereint und der Anzahl der totalen Links der selben Seite untersuchte. Die Quintessenz dieser Untersuchungen drueckt sich so klar in diesem schøne Ergebniss aus.

Das mache ich selbstverstaendlich nicht nochmal, denn das waere nicht sinnvoll. Der Grund ist, dass wenn ich nur eine Seite und nicht deren Linknetzwerk betrachte, alle Links auf dieser Seite neu sind. Dies ist natuerlich unabhaengig von der Anzahl der Zitierungen dieser Seite.

Danach schaute ich mir die „Spaetzuender“ an. Dies waren Seiten, bei denen das Maximum der indivduellen Verteilung der totalen Links pro Linklevel deutlich vom Maximum der Summe der Verteilung abweicht.
So richtig _deutliche_ Abweichungen fand ich nicht, und die Seiten bei denen die Position des besagten Maximums am meisten abweicht, waren entweder „Rohrkrepierer“, „komische Seiten“ oder eine unguenstige Verkettung von Artefakten, welche aus der Datenaufbereitung stammten. Im verlinkten Artikel wurde dies alles genau beschrieben.

Im Gegensatz zu Ersterem, ist es durchaus sinnvoll, sich die Verteilung der Position(en) der Maxima der individuellen Verteilungen der _neuen_ Links pro Linklevel anzusehen. Hier ist das Ergebnis:

Zum Vergleich in gruen (nochmals) das Gleiche aber fuer die totalen Links … Wortspielkasse. Man erkennt, dass es keine groszen Unterschiede gibt.

Schon aus den Verteilungen der Summe der neuen bzw. totalen Links, konnte man vermuten, dass auch hier das Maximum um ein Linklevel nach „unten“ (bzw. nach links) verschoben sein wird.

So weit so gut. Verschiebt man nun deswegen die rote Verteilung gedanklich um eins nach rechts faellt aber auf, dass die Balken fuer die neuen Links rechts von LL₄ alle grøszer sind als die der totalen Links. Das sieht man eigentlich (mal wieder) nur wegen der logarithmischen Ordinate. Aber man sieht es und dieser „Effekt“ ist systematisch und echt und bedarf deswegen einer Erklaerung. Diese folgt sofort.

Zunaechst einmal ist zu beachten, dass ein Balken nur aussagt, wieviele Seiten das Maximum der gegebenen individuellen Verteilung auf dieser Position haben — mehr nicht. Und auch wenn dies den lang und breit diskutierten Trends folgt, so unterliegen die individuellen Verteilungen fuer neue und totale Links natuerlich … ich sag jetzt mal Schwankungen.

Damit kann der „Effekt“ erklaert werden (aber man muss mit den genauen Werten arbeiten, denn wenn man rundet geht das Rechenstueck nicht auf). Im ersten „Maximumsbalken“ fuer neue Links auf LL₃ „versammeln“ sich 1.103.028 Seiten. Im ersten „Maximumsbalken“ fuer die totalen Links auf LL₄ hingegen 3.874.695 Seiten. Die Diskrepanz ist ziemlich grosz und bedarf einer eigenen Erklaerung. Aber es verwundert mich ueberhaupt nicht, denn hier ist definitiv noch das „Gebiet der vielzitierten Seiten mit vielen Links“ (siehe das schøne Ergebnis weiter oben). Deswegen bin ich hinreichend sicher, dass diese auch hier wieder die Erklaerung sind.
Wieauchimmer, besagte Diskrepanz muss woanders „aufgefangen“ werden, denn ich untersuchte ja ein und dieselben Seiten. Letzteres bedeutet, dass fuer beide Betrachtungen das Integral unter der „Kurve“ den selben Wert ergeben muss (die Anzahl aller Seiten). Auch wenn es gar nicht so aussieht, so findet sich das Meiste davon im zweiten „Maximumsbalken“ gleich danach (4.643.436 zu 1.901.207). Die ca. 30-tausend Seiten die noch fehlen sind dann ueber die anderen Balken (auch links vom Peak!) verteilt.

Ich habe das so genau diskutiert, weil ich zeigen wollte, dass man manchmal (oft?) sehr genau hinschauen muss und Rundungen nicht aufgehen. Haette ich die Zahlen auf hunderttausend (also die erste Stelle nach dem Komma) gerundet, dann sieht es naemlich ueberhaupt nicht so aus, als wenn das passt. Tut’s aber … zum Glueck.

Aber letztlich sind das alles Einzelheiten. Aber Einzelheiten gehøren zur „Data Science“ oft genug dazu :).

Zum Abschluss sei noch gesagt, dass ich (trotz des oben gesagten) nicht nochmal genau hinschaue, was denn das fuer Seiten sind, deren Maximum der Verteilung der neuen Links (z.B.) vier Linklevel ueber (oder unter) dem Maximum der allermeisten Seiten liegt. Ich bin mir sehr sehr sicher, dass ich im wesentlichen wieder nur auf die selben Effekte stosze wie bei den totalen Links und welche ich oben (nochmals) auffuehrte.

Posted by Tentacel on 2022-09-13 at 13:37 under Kevin Bacon.
Comment on this post.