Archive for Mai, 2025

Der Hikari (Shinkansen) dahin faehrt 20:36 Uhr in Kyoto ab:

Das Ziel ist zwar Tokyo, aber ein Zug mit der Nummer 666 wird auf dem Weg sicherlich die Tore zur Hølle durchfahren.

Tihihi … fetzt, wa!

Via „Spaetzuender“ (auch als „grobe Abweichler“ bezeichnet) bin ich damals auf die Idee gekommen, mir mal anzuschauen auf welchen Linkleveln eigentlich die meisten Seiten das Maximum in der Kurve einer gegebenen Grøsze von Interesse haben.

Fuer die Anzahl der totalen Links ist das hier reproduziert:

Wie erwartet gibt es zwischen den 2020-Daten und den 2023-Daten keine wesentlichen Unterschiede; insb. veraendern sich die Grøszenverhaeltnisse der Balken von Linklevel zu Linklevel nicht. Das ist also als reproduziert anzusehen.
Die blauen Balken bei LL1 und LL9 sehen zwar deutlich grøszer / kleiner aus, aber man beachte die logarithmische Ordinate. Da sind im ersten Fall also nicht mal 10 Seiten dazu bzw. im zweiten Fall deutlich weniger als 10 Seiten „abhanden“ gekommen … die viel kleinere Erhøhung bei LL4 entspricht fast einer Million Seiten. Logarithmische Achsen sind schon was Feines, nicht wahr! Die halten irrelevante Information von einem weg … man muss aber auch aufpassen, dass andere irrelevante Information nicht ueberinterpretiert wird.

Ansonsten gibt es nur eine Sache zu sagen und das ist ein wichtiger Unterschied im Vergleich zum damaligen Diagramm. Dort war naemlich der Balken bei LL0 zu hoch und es stellte sich dann heraus, dass es ueber 5-tausend Seiten OHNE Links gibt die da drin mitgezaehlt wurden … und nur ca. 100 Seiten mit einem echten Maximum der totalen Links auf LL0. Erstere haben eine flache totale-Links-per-Linklevel Verteilung; ohne Links als Ausgangspunkt kommt man nicht auf andere Seiten mit mehr Links … es startet also alles bei Null und bleibt auch dabei. Das wurde von meinem Algorithmus faelschlicherweise als „Maximum“ auf LL0 interpretiert.
Wieauchimmer, solche Seiten werden jetzt richtig erkannt und auf die „flach“-Position auf der Abzsisse gesondert dargestellt … und das gilt fuer alle Diagramme in diesem Beitrag.

Nun zu den neuen Links. Die Verteilung der Maximaspositionen der entsprechenden Kurven hatte ich damals der gleichgearteten Verteilung der totalen Links gegenuebergestellt. Das wiederhole ich heute nicht, denn es ist nur von Interesse ob Erstere reproduziert werden. … Und ich wuerde mal sagen …

… das man das so sehen kann. Ich muss das nicht weiter besprechen, denn ich wuerde nur das weiter oben Geschriebene wiederholen. Heraus sticht nur die eine (!) neue Seite mit dem Maximum auf LL1; aber auch das wurde oben schon behandelt.

Nun zu den Selbstreferenzen. Damals wurde ich stutzig, denn der LL0-Balken war zu hoch. Nur durch diesen einen Balken entdeckte ich dann die Archipele! Aber das dauert noch ein bisschen, bevor ich dort angelangt bin.
Hier ist die Reproduktion (sagt man das so?) der Verteilung der Maximaspositionen der Selbstreferenzkurven aller Seiten:

Uff! Der Balkenwald wird dichter. Aber wenn man genau hinschaut, dann sieht man, dass die roten und blauen Balken auch hier wieder im Wesentlichen uebereinstimmen. Mit møglicherweise (!) einer kleinen, møglicherweise (!) systematischen, Abweichung zwischen LL8 und … mhm … schwer zu sagen … ich sag jetzt mal LL19. Bis auf einen Balken sind dort naemlich alle blauen Balken kleiner, es gibt also kein „rauschendes Auf und Ab“ … das kønnte was sein, das lohnt sich also mglw. mal naeher zu untersuchen (ich werde das aber nicht tun) … ich wuerde aber erstmal nicht unbedingt ’ne Wette drauf abschlieszen, dass da wirklich ein echtes Phaenomen hinter ist. „Statistik“ macht manchmal komische Sachen (ich erinnere an dieser Stelle an die wohlbekannte, 5σ sichere, „Entdeckung“ des Θ+-Pentaquarks in den Nullerjahren, die sich dann als falsch herausstellte).
Alles in allem gilt auch hier: Reproduktion (wenn man das so sagt) gelungen.

Als Letztes bleibt die Verteilung der Maxima der Linkfrequenzkurven. Damals war es die erste konkrete Bestaetigung, dass da irgendwie mehr am „São Paulo FC“-Artefakt sein muss (und es war, aber so weit bin ich auch hier noch laengst nicht). Die Reproduktion (ich sag das jetzt einfach so) …

… ist wieder als  erfolgreich anzusehen … auch wenn dabei der Balkenwald zu dicht wurde um noch was zu erkennen, weswegen ich (wie so oft) auf ein Streudiagramm fuer das Histogramm zurueckgriff.

Im Wesentlichen hat man das gleiche Resultat wie bei allen anderen Verteilungen: die 2023-Daten reproduzieren die 2020-Daten. Es gibt møglicherweise (!) eine kleine, møglicherweise (!) systematische, Abweichung kurz nach LL40. Die 2020-Daten „beulen“ sich da etwas aus. Aber insgesamt sprechen wir von nur sehr wenigen beteiligten Seiten und ich wuerde hier noch weniger drauf wetten, dass da was ist. Das sollte mal wer untersuchen … lohnt sich mglw.

Puuuh … das war jetzt ’n ganz schøner Ritt. Aber ich habe viel geschafft.
Nun ist’s aber so, dass auch in diesem Fall die Auswerteprogramme neu von mir geschrieben und generalisiert wurden. Deswegen faellt jetzt bei der Analyse eine weitere Sache an, die mir bei den damaligen Betrachtungen ueberhaupt nicht in den Sinn kam: wenn ich die Position des Maximums kenne, dann kenne ich auch den WERT des Maximums und da kann man sich die Verteilungen doch auch mal anschauen. DAS, meine lieben Leserinnen und Leser, verschiebe ich aber auf’s naechste Mal.

Ich lasse das mal gelten, denn um das (westliche) Schwarzeis anlecken zu kønnen, muss ich ja auch davor stehen:

Ist nun auch schon wieder etwas laenger her (die Zeit rast!). Und eigtl. ist das auch nicht der Geschmack der eigentlichen Gletscherzunge die ich mit meiner eigenen Zunge teste, sondern nur ein dicker Brocken, der kurz bevor ich kam vom groszen Ganzen abgefallen ist … ich stuetze mich also wieder mal auf die Transitivitaet.

Beim letzten Mal gruebelte ich noch, hatte mich dann aber relativ schnell entschieden, doch zunaechst die Reproduzierung(en) der noch ausstehenden Linklevelverteilungen, der anderen drei untersuchten Grøszen von Interesse, vorzunehmen.

Im Nachhinein sehe ich, dass ich das thematisch alles schon in diesen Beitrag haette packen sollen. Hab ich nicht gemacht und deswegen hole ich das jetzt alles auf einmal nach. Andererseits lag in meinen urspruenglichen Betrachtungen eine Art „Fluss“, und Ausgangspunkt waren oft eben diese Linklevelverteilungen. Den „Fluss“ dessen was aus den den (totalen) Links pro Linklevel folgte støre ich mit dem Beitrag hier. Und wenn ich die Reproduzierung von Folgesachen der anderen drei Grøsze angehe, dann hat der „Fluss“ keinen natuerlichen Ausgangspunkt sondern ich muss immer hierauf verweisen … aber ich schweife ab, denn wie die Existenz dieses Artikels zeigt, ist die „Flusssache“ anscheinend dem „Themapunkt“ untergeordent.

Es geht gleich los mit der (Summe der) neuen Links pro Linklevel:

Damals hatte ich die schnell abgehandelt, als ich die (Summe der) totalen Links pro Linklevel abschloss. Es gab bei dieser Verteilung naemlich nicht viel zu holen. Und auch bzgl. der Reproduzierung gibt’s nix Neues zu sagen (Wortspielkasse! … wegen „nix Neues bei neuen Links“ … tihihihi … falls das unklar sein sollte) was nicht schon bzgl. der totalen Links gesagt wurde.

Deswegen geht es sogleich weiter mit den Selbstzitaten pro Linklevel:

Hier ist der damalige Beitrag dazu und es gibt i.A. (nocheinmal) nicht viel zu sagen, was im Wesentlichen nicht bereits frueher gesagt wurde. Zwei Sache stechen aber hervor, wenn man genauer hinschaut und mal drueber nachdenkt.
Waehrend die Kurven (im Wesentlichen!) uebereinander liegen, es sich also nicht viel aenderte, so gibt es auf Linklevel 0 tausend Mal mehr Selbstzitate. DAS ist signifikant und sollte untersucht werden … aber nicht von mir.
Auszerdem scheint mir der „Einbruch“ roten Kurve bei Linkleveln grøszer als ungefaehr 20 systematisch zu sein. Das kønnte taeuschen, ich denke aber, dass das eine genauere Untersuchungen wert ist … ihr, meine lieben Leserinnen und Leser ahnt es bestimmt schon (und seid sicherlich ein bisschen traurig deswegen): diese naehere Untersuchung werde ich auch nicht mehr vornehmen.

Ich hatte mich damals dann in einem Muster „verlaufen“, was gar nicht da war (sozusagen eine Fata Morgana). Ich kann mich nicht erinnern, dass ich das jemals wieder aufgegriffen haette. Zum Glueck hatte ich auch geschrieben:

[…] sollte ich nix weiter in diese Richtung finden, dann erwaehne ich das still und heimlich einfach nicht mehr.

Folgt mir! Liegt mir zu Fueszen! Benennt eure Kinder nach mir, denn ich bin ein Prophet!  … … … oh … ich schwoff ab und wollte eigtl. sagen, dass das damit auch „reproduziert“ ist, denn es gibt hier eigtl. nix zu reproduzieren.

Nun die (Summe der) Linkfrequenz pro Linklevel:

Damals hatte ich das mit der gleichen Kurve bzgl. der totalen Links verglichen. Ich denke, dass das an dieser Stelle unnøtig ist, und sei es aus dem gleichen Grund wie oben: es gibt auch hier bzgl. der Veraenderungen in den 2023 Daten nix weiter zu sagen, was nicht schon gesagt wurde.

Sehr gut … Das ging diesmal fix und mehrere Sachen schaffte ich in einen Beitrag zu packen … das passiert ja nicht so haeufig.