Archive for the ‘Kevin Bacon’ Category

Ich schreibe diesen Beitrag etliche Wochen vor meiner Reise in den fernen Osten. In der Woche bevor dieser Artikel hier erscheint bin ich nach Plan schon zurueck. Von eurer Warte, meine lieben Leserinnen und Leser, dehnte die Sommerpause sich um eben diese Woche aus weil … øhm … ich nehme an, dass ich da noch halb im Jetlag bin (auch wenn der eigtl. in die richtige Richtung geht beim Rueckflug) … und auszerdem ist’s im Sommer warm und bei høherer Temperatur dehnt sich i.A. alles aus (also auch die Sommerpause).

Aber nun geht’s weiter und zwar mit dem was ich damals als Aussteiger bezeichnete. Oder anders: ich schaute (damals) wieviele Seiten ab welchem Linklevel keine totalen Links mehr haben. Konzeptionell ist diese Herangehsensweise etwas „haarig“, denn bei den Selbstreferenzen kønnen Seiten „mittendrin“ keine Selbstreferenzen mehr haben, aber zu einem spaeteren Linklevel dann doch wieder. Das habe ich in einem anderen Zusammenhang als „Reaktivierungen“ bezeichnet und diesen Aspekt lasse ich heute zunaechst auszen vor.
Um dieser „Haarigkeit“ zu entkommen, drehte ich bei der Neuprogrammierung des hierzu gehørigen Analyseprogramms den Ansatz einfach um: ich schaue von hinten, ab welchen Linklevel eine Grøsze von Interesse einen Wert UNGLEICH Null hat. Das ist im Wesentlichen das Gleiche, mit dem kleinen Unterschied, dass alle Grafen hier um eins nach Links verschoben sind, denn der letzte Wert ungleich Null kommt ja genau ein Linklevel vor dem ersten Nullwert (mit der Ausnahme der Selbstreferenzen).

Das war alles was ich damals machte. Aber schon bei den Maximumspositionen, „sehe“ ich auch hier nicht mehr nur die Position des Ausgangs, sondern auch den Wert (einer gegebenen Grøsze von Interesse), den die Seiten am Ausgang haben. Anders als beim letzten Mal (wo ich diese neue Sache erst einfuehrte), mache ich da nicht mehrere Artikel draus, sondern handle das heute alles auf einmal ab.

Und jetzt geht’s los, wie so oft, zunaechst mit den totalen Links:

Aha! Bzgl. der Position des Ausgangs (linkes Diagramm), reproduzieren die 2023 Daten die Form der Verteilung der 2020 Daten. Ein paar Balken am Anfang mit ungefaehr gleicher Høhe, dann erstmal nix, dann ein „Wald“ mit kurzen Balken und am Ende ein hoher „Berg“ (auch mit ungefaehr gleich hohen Balken). Letzteres bedeutet, dass alle Seiten ungefaehr zum gleichen Zeitpunkt aussteigen und war der erste Hinweis auf Ketten (oder „Familien“) von Seiten (damals dauerte es noch eine Weile, bis ich das in einem anderen Zusammenhang erkannte). Oder anders: Reproduktion gelungen.
In den 2023 Daten scheint es mindestens eine Kette zu geben, die 10 Linklevel laenger ist, als die laengste Kette in den 2020 Daten. Da dies aber keine „kollektive Eigenschaft“ ist, die man ueber alle Seiten „mitteln“ kann, sondern aus dem Verhalten individueller Seiten folgt ist das jetzt nicht verwunderlich, dass das nicht reproduziert wird. Ich komme da vllt. spaeter nochmal drauf zurueck, falls ich mir die Ketten nochmal anschaue  … weisz ich jetzt aber noch nicht.

Ach ja Mensch! Jetzt hab ich vergessen zu sagen, dass bzgl. des am weitesten links liegenden Balkens (bei einem Wert auf der Ordinate von minus eins) das Selbe gilt wie bei den Maximapositionen: dieser Balken ist „flachen“ Verteilungen zuzuordnen! Zu Details lese man den oben verlinkten entsprechenden Beitrag.

Weiter nun mit dem Diagramm auf der rechten Seite – der Anzahl der totalen Links am Ausgang … also der Ausgangswert … was natuerlich nicht hinhaut, weil ein Ausgangswert eigtl. meist der allererste Wert ist, von dem alles aus geht. Wieauchimmer, das wird nun scheinbar (!) ueberhaupt nicht reproduziert und das wundert mich gar nicht. Das haette nur dann (mehr oder weniger) direkt (!) reproduziert werden kønnen, wenn es keine laengere Kette als damals gaebe. Die Seiten der neuen Kette haben natuerlich eine ganz andere Anzahl an Links.
Interessant sind zwei Sachen in den 2023 Daten. Zum Einen hat die Verteilung mehr Balken. Es gibt also mehr Seiten die als Ausgang fungieren als bei den 2020 Daten. Wenn man drueber nachdenkt war das durchaus zu erwarten und die Anzahl der Balken ist jetzt zwar ’ne halbe Grøszenordnung mehr, aber das liegt vor allem daran, weil die 2020 Verteilung so wenige Balken hat. Waere letzte doppelt so grosz, dann haette man nur einen Unterschied von ca. einem Faktor 2 und das wuerde nicht verwundern.
Die zweite Sache ist da schon deutlich interessanter, denn es gibt in den 2023 Daten ZWEI sehr hohe Balken mit ca. 4 Millionen und ca. 2 Millionen Seiten die dort aussteigen. Das kønnte ein Hinweis sein, dass es ZWEI Ketten mit … mhmmmm … ich denke der selben Laenge gibt (oder vielleicht plusminus eins) und ca. 1/3 aller Seiten landen etwas frueher in Kette #1 (und sind mit der etwas frueher fertig), waehrend die anderen 2/3 Kette #2 etwas frueher abarbeiten um dann zuletzt in Kette #1 zu sein und mit der abzuschlieszen.
Das kønnte man mal naeher untersuchen … und wie oben erwaehnt, das mache in diesem Falle sogar ich, falls ich mich den Ketten nochmals zuwende.

Festzuhalten bzgl. des rechten Diagramms ist das Folgende: in den den individuellen Eigenschaften wird der Wert am Ausgang NICHT reproduziert, aber bzgl. der _kollektiven_ Eigenschaften dann doch. Es gibt keine Seiten die massenhaft Links am Ausgang haben; alles tuemmelts sich um ca. den Wert 15 auf der Ordinate. Und auch wenn die Anzahl der Balken in den 2023 Daten signifikant grøszer ist, so ist besagte Anzahl nicht mal eine Grøszenordnung (oder gar mehr) grøszer … aber das haengt direkt mit der ersten Aussage zusammen. Die letzte Eigenschaft, dass die allermeisten Seiten auf nur einer Seite am Ende landen wird zwar nicht direkt reproduziert, aber aus einer werden halt zwei und ich wuerde das dann doch als gelungene Reproduktion anerkennen (selbst wenn die beiden zugehørigen Balken indviduell andere Werte auf der Ordinate haben … was ja aber eine individuelle Eigenschaft ist).

Nun die neuen Links:

Bzgl. der Position des Ausgangs (linkes Diagramm) sieht das natuerlich so aus wie bei den totalen Links (selbstverstaendlich verschoben um eins nach links auf der Ordinate) … und das muss auch so sein.
Die Verteilung der Werte am Ausgang bestaetigt das oben Gesagte (zwei sehr hohe Balken, vermutlich durch zwei gleich lange laengste Ketten). Dass es hier deutlich weniger Balken insgesamt gibt ist dem Umstand geschuldet, dass alle Seiten am Ende einfach schon (fast) alle Seiten des Wikipdianetzwerkes gesehen haben und einfach nix Neues mehr uebrig ist.
Oder anders: in beiden Faellen ist die Reproduktion auch hier gelungen (wenn man die zwei vermuteten, gleich langen laengste Ketten mit in Betracht zieht).

Die Selbstreferenzen hatte ich damals untersucht, aber in einem anderen Zusammenhang und mit der oben beschriebenen „haarigen“ Herangehensweise. Deswegen sind die roten Balken im linke Diagramm hier …

… nicht identisch zum damaligen Diagramm. Ansonsten ist die Interpretation beider Grafen unkompliziert, weswegen ich mir das spare. Damit bleibt nur zu sagen: Reproduktion in beiden Faellen gelungen.

Und zum Abschluss die Linkfrequenz:

Zu meiner Ueberraschung hatte ich das damals gar nicht untersucht und sehe erst jetzt, dass hier ein paar interessante Dinge passieren. Zunaechst waere da die „Doppelspitze“ im linken Diagramm. Eine „Spitze“ nahe des Urpsrung hat man auch bei den totalen und neuen Links. Dort befinden sich dann aber weniger als 10-tausend Seiten, waehrend hier fast 500-tausend in dem Bereich zusammen kommen. Und „das dicke Ende“ kommt dort dann auch erst ganz am Ende.
Bei den Selbstreferenzen hat man zwar einen „dicken Berg“ ziemlich am Anfang (aber nicht nahe des Urpsrungs), der ist aber nicht durch ein deutliches „Tal“ von einer zweiten „Spitze“ getrennt. Ich denke, dass das hier wieder die Archipele sind … das muesste aber mal wer anders genauer untersuchen.
Anderweitig reproduzieren die 2023 Daten aber die 2020 Daten.

Das rechte Diagram ist auch sehr interessant. In den 2020 Daten scheint der Verlauf DREI klar zu unterscheidenden, maechtigen Gesetzen zu folgen. Und zwar mit ziemlich abrupten (anstatt „ruckelfreien“) Uebergaengen. Wenn man genau hinschaut, dann wird das auch in den 2023 Daten reproduziert. ABER dort kommt es zwei Mal zu einer Verschiebung der Punkte nach rechts. Ein Mal von ca. 20 zu ca. 30 und beim zweiten Mal von ca. 250 bis ca. 350 auf der Ordinate (die zwei leicht erkennbaren Stufen). Wobei das keine konstante Verschiebung nur um die angegebenen Werte ist, denn das ist ’ne logarithmische Skala und die Verschiebung muss sich „logarithmisch proportional“ (was immer das auch heiszen mag … ich hab mir den Begriff gerade erst ausgedacht) durchziehen, damit das so „parallelverschoben“ aussieht.
Wenn man die „Parallelverschiebung“ in Gedanken rueckgaengig macht, dann scheinen die blauen Quadrate recht genau (so genau wie das Pi mal Daumen geht) wieder auf den roten Punkten zu landen; inklusive des Knicks um ca. 45 auf der Ordinate, bei dem der Uebergang von einem maechtigen Gesetz zum anderen stattfindet.
Alles in allem ist das schon eine kuriose Sache, die hier in den 2023 Daten passiert … aber wenn man die in Betracht zieht (und somit auszer Acht laeszt), dann wuerde ich sagen, dass die 2023 Daten die 2020 Daten reproduzieren.

Das ist genug fuer heute … mal schauen ob ich mir noch den Spezialfall der „haarigen“ Herangehensweise fuer die Selbstreferenzen anschaue und dann gleich die „Reaktivierungen“ mit abhandle, oder ob ich naechstes Mal doch zu was ganz anderem uebergehe.

Beim letzten Mal schrieb ich:

Das muesste man sich mal in kumulativer Darstellung anschauen […].

mit dem expliziten Hinweis:

[…] mach ich aber nicht mehr.

Natuerlich hat mir das keine Ruhe gelassen und ich hab das jetzt doch noch gemacht.

Das Gute ist, dass ich dadurch fix noch zwei Analysewerkzeuge geschrieben gehackt habe, die ich sowieso øfter mal brauche und das ist gut, dass die jetzt mal systemati- und generalisiert (ich bin mir ziemlich sicher, dass man das so nicht machen kann … ich lass das dennoch einfach mal so stehen) sind.

Weil ich heute weder beschreiben muss, was man hier …

… sieht (denn das ist das Gleiche wie beim letzen Mal … mglw. sogar das Selbe, aber da bin ich mir nicht ganz so sicher, denn es sieht ja anders aus), noch was kumulative, doppellogarithmische Diagramme sind und warum man das so machen will (wenn ihr, meine lieben Leserinnen und Leser das nicht mehr wisst, muesst ihr nur dem Link im ersten Zitat folgen), muss ich fast gar nix dazu schreiben.

Nur zwei Sachen seien gesagt. Zum Einen habe ich mich jetzt doch an die kumulative Darstellung gemacht, um zu schauen ob die Punkte im langen Schwanz des urspruenglichen Histogramms zu den Selbstreferenzen dem maechtigen Gesetz folgen, welches man aus den Daten zwischen Maximumswerthaeufigkeiten von 1 und 100 (im urpsruenglichen Histogramm) erwartet. Im Diagramm links unten sieht man wieder einmal, wie krass kumulative log-log-Darstellungen sind, denn das besagte maechtige Gesetz kann man nun ueber FUENF (!) zusaetzliche (!) Grøszenordnungen als gegeben annehmen.
Zum Zweiten reproduzieren die 2023 Daten wieder die 2020 Daten. Aber das war zu erwarten, denn die Diagramme hier benutzen schlieszlich die selbe Datengrundlage.

Naechstes mal dann … was anderes.

Beim letzten Mal reproduzierte ich die Verteilungen der Linklevelpositionen der Maxima der ursprungsseitenabhaengigen Linklevelverteilungen der vier Messgrøszen von Interesse. Damit ich nicht so viel schreiben muss, kuerzte ich das einfach als Maximapositionen ab. Beim Neuschreiben der entsprechenden Analyseprogramme bemerkte ich, dass bei der Auswertung bzgl. der Maximapositionen auch automatisch die Werte der Maxima anfallen. Das hatte ich damals komplett uebersehen und darum stelle ich die entsprechenden Verteilungen hier und heute zum ersten mal vor.

Los geht’s mit den totalen Links. Im linken Diagramm …

… ist die erwaehnte Verteilung der Werte, welche die Maxima der jeweiligen Linklevelverteilungen annehmen, dargestellt. Man sieht sofort, dass da nicht so viel zu holen ist. Bei den Werten „flach“, 0 und 1 auf der Abzsisse tummeln sich ein paar Seiten. Ich nehme an, dass das Seiten selben Seiten sind, die auch bei diesen kleinen Werten ihr Maximum haben. Die haben also keine Links („flach“) einen Link oder zwei und dann setzt die Linkkette sich nicht weiter zu allen anderen Seiten des Wikipedialinknetzwerkes fort.

Alle andere Seiten haben vøllig unstrukturiert zwischen 60 Millionen und 90 Millionen (sieht man nicht, weil rote Vierecke drueber liegen) (2020 Daten) bzw. 75 Millionen und 122 Millionen (2023 Daten) totale Links. Bei ’ner logarithmischen Abzsisse wuerde das breite Gebiet mit den vielen Punkten uebrigens recht schmal werden. Das liegt also alles ungefaehr im gleichen Bereich.
Letzteres wundert mich nicht, denn die allermeisten Seiten sehen frueher oder spaeter ja doch das komplette Linknetzwerk. Das heiszt also, wenn eine Ursprungsseite ihr Maximum in der Verteilung der totalen Links sieht, dann tragen da immer mehr oder weniger gleich viele Seiten (auf dem jeweiligen Linklevel) zu den totalen Links bei. Und im Mittel haben die immer gleich viele Links. Dass die Verteilung bei linearer Abzsisse doch recht breit ist, ist einfach dem „zufaelligen Wandern“ durch das Linknetzwerk geschuldet.

Die 2023 Daten sind etwas nach rechts verschoben (und die Verteilung ist etwas verbreitert), einfach weil es mehr Seiten gab und diese Extraseiten tragen gleichmaeszig bei (fast) allen Ursprungsseiten zum Signal bei.
Wichtig festzuhalten ist, dass auch in diesem Fall die 2023 Daten die 2020 Daten reproduzieren (wenn man das Mehr an Daten in Betracht zieht).

Aber letztlich sieht man hier nicht viel. Es gibt keine Struktur in den Daten und auch keinen schønen „Berg“ wie beim letzten Mal.Deswegen habe ich mir mal angeschaut, wie haeufig jeder Maximumswert auftritt.
Bei den 2020 Daten gibt es zwischen 90 Millionen und 60 Millionen genuegend Werte, dass die ca. 5.8 Millionen Wikipediaseiten fuenf mal „reinpassen“ wuerden, ohne sich „auf die Fuesze zu treten“. Oder anders: prinzipiell kønnte jeder Maximumswert nur ein einziges Mal auftauchen. In der Realitaet „treten“ die sich aber ein paar Mal „auf die Fuesze“ denn es gibt nur ca. 4.6 Millionen unike Maximumswerte.
Jedenfalls, sieht man diese Verteilung der Maximumswerthaeufigkeiten im rechten Diagramm, mit doppellogarithmischen Achsen … und hier reproduzieren die 2023 Daten die 2020 Daten ganz genau, trotzdem Erstere viel mehr Seiten beinhalten.

Wie so oft herrscht auch hier wieder ein maechtiges Gesetz … oder vielmehr zwei, denn ueber die ersten drei Werte geht das deutlich schneller nach unten als ueber den Rest. Andererseits sind maechtige Gesetzmaeszigkeiten im Kevin Bacon Projekt alte (und haeufige … Wortspielkasse!) Bekannte, sodass das euch, meine lieben Leserinnen und Leser, sicher nicht mehr wundert.

Deswegen geht’s gleich weiter mit den neuen Links:

Davon abgesehen, dass die Werte anders sind, gibt’s zur Verteilung der Maximumswerte nichts weiter zu sagen. Die Verteilung der Maximumswerthaeufigkeiten ist da schon deutlich spannender. Die hat so ’ne elegante Kurve bei Werten zwischen 1 und ca. 20.
Wenn man diese Verteilung mit denen der totalen Links vergleicht, sieht man, dass die Haeufigkeiten bei Werten kleiner als vier auf der Abzsisse kleiner, und zwischen 4 und ca. 20 auf der Abzsisse deutlich erhøht ist. Danach liegen die Kurven im Wesentlichen uebereinander. Man muss schonein bisschen genauer hinschauen um Unterschiede auszumachen … diese Unterschiede kønnten relevant sein um Phaenomene im Linknetzwerk zu erklaeren und sollten naeher untersucht werden … aber nicht mehr von mir.
Dazu abschlieszend sei nur zu sagen, dass in beiden Faellen die 2023 Daten wieder die 2020 Daten reproduzieren.

Nun zu den Selbstreferenzen:

Høh? … Das kommt mir irgendwie sehr bekannt vor! Nach laengerem Ueberlegen bin ich zu der Ueberzeugung gekommen, dass die Bekanntheit taeuscht.
In den Diagrammen in den verlinkten Beitragen sind die Verteilungen der Anzahl der Selbstreferenzen pro Linklevel gezeigt. Wenn man also ’ne dicke fette (und sehr laaaaaange) Matrix nimmt, bei der die Linklevel auf der horizontalen Achse und jede Seite auf der vertikalen Achse aufgetragen sind, dann habe ich fuer die dort dargestellten Diagramme vertikale Schnitte gemacht; fuer jedes Linklevel einen Schnitt. Bei den Darstellungen hier hab ich die selbe Matrix „zerschnitten“, aber in horizontaler Richtung; fuer jede Seite einen Schnitt. Bei den untersuchten Dingen handelt es sich also buchstaeblich um zwei verschiedene (und orthogonale!) Dimensionen.

Das das aehnlich aussieht liegt nun einfach nur daran, dass das was ich messe, sich in beiden Faellen nach Potenzgesetzen verhaelt. Hier: es gibt viele Seiten die einen Maximumswert von nur (ich sag jetzt mal) 5 Selbstzitierungen haben und nur wenige mit einem Maximumswert von 1000. Dort: es gib nur wenige Seiten die auf einem gegebenen (relativ kleinen!) Linklevel 1000 Selbstreferenzen haben, und viele die auf einem gegebenen (relativ kleinen!) Linklevel nur 5 Selbstzitierungen aufweisen. Hørt sich aehnlich an, sieht aehnlich aus, sind aber zwei total verschiedene Sachen.

Zur Maximumswerthaeufigkeitsverteilung gibt’s nix zu sagen, was nicht schon gesagt wurde. Interessant ist nur der sehr lange Schwarz zu sehr hohen Werten auf der Abzsisse. Das muesste man sich mal in kumulativer Darstellung anschauen … mach ich aber nicht mehr.

Ach ja … auch hier wieder: Reproduktion erfolgreich.

Als Letztes noch die Linkfrequenz:

Øhm … joa … da muss ich nix weiter zu sagen. … … … Ah doch: der „vertikale Strich“ am linken Rand im linken Diagramm ist wieder die „Abkuerzung“ zu den Archipelen. Das sieht man bei linearer Abzsisse nur nicht so gut.
Und ansonsten kann ich mich auch hier bzgl. der Reproduktion nur wiederholen: hat geklappt.

Das soll reichen fuer heute … bin gespannt, was es naechstes Mal wird.

Via „Spaetzuender“ (auch als „grobe Abweichler“ bezeichnet) bin ich damals auf die Idee gekommen, mir mal anzuschauen auf welchen Linkleveln eigentlich die meisten Seiten das Maximum in der Kurve einer gegebenen Grøsze von Interesse haben.

Fuer die Anzahl der totalen Links ist das hier reproduziert:

Wie erwartet gibt es zwischen den 2020-Daten und den 2023-Daten keine wesentlichen Unterschiede; insb. veraendern sich die Grøszenverhaeltnisse der Balken von Linklevel zu Linklevel nicht. Das ist also als reproduziert anzusehen.
Die blauen Balken bei LL1 und LL9 sehen zwar deutlich grøszer / kleiner aus, aber man beachte die logarithmische Ordinate. Da sind im ersten Fall also nicht mal 10 Seiten dazu bzw. im zweiten Fall deutlich weniger als 10 Seiten „abhanden“ gekommen … die viel kleinere Erhøhung bei LL4 entspricht fast einer Million Seiten. Logarithmische Achsen sind schon was Feines, nicht wahr! Die halten irrelevante Information von einem weg … man muss aber auch aufpassen, dass andere irrelevante Information nicht ueberinterpretiert wird.

Ansonsten gibt es nur eine Sache zu sagen und das ist ein wichtiger Unterschied im Vergleich zum damaligen Diagramm. Dort war naemlich der Balken bei LL0 zu hoch und es stellte sich dann heraus, dass es ueber 5-tausend Seiten OHNE Links gibt die da drin mitgezaehlt wurden … und nur ca. 100 Seiten mit einem echten Maximum der totalen Links auf LL0. Erstere haben eine flache totale-Links-per-Linklevel Verteilung; ohne Links als Ausgangspunkt kommt man nicht auf andere Seiten mit mehr Links … es startet also alles bei Null und bleibt auch dabei. Das wurde von meinem Algorithmus faelschlicherweise als „Maximum“ auf LL0 interpretiert.
Wieauchimmer, solche Seiten werden jetzt richtig erkannt und auf die „flach“-Position auf der Abzsisse gesondert dargestellt … und das gilt fuer alle Diagramme in diesem Beitrag.

Nun zu den neuen Links. Die Verteilung der Maximaspositionen der entsprechenden Kurven hatte ich damals der gleichgearteten Verteilung der totalen Links gegenuebergestellt. Das wiederhole ich heute nicht, denn es ist nur von Interesse ob Erstere reproduziert werden. … Und ich wuerde mal sagen …

… das man das so sehen kann. Ich muss das nicht weiter besprechen, denn ich wuerde nur das weiter oben Geschriebene wiederholen. Heraus sticht nur die eine (!) neue Seite mit dem Maximum auf LL1; aber auch das wurde oben schon behandelt.

Nun zu den Selbstreferenzen. Damals wurde ich stutzig, denn der LL0-Balken war zu hoch. Nur durch diesen einen Balken entdeckte ich dann die Archipele! Aber das dauert noch ein bisschen, bevor ich dort angelangt bin.
Hier ist die Reproduktion (sagt man das so?) der Verteilung der Maximaspositionen der Selbstreferenzkurven aller Seiten:

Uff! Der Balkenwald wird dichter. Aber wenn man genau hinschaut, dann sieht man, dass die roten und blauen Balken auch hier wieder im Wesentlichen uebereinstimmen. Mit møglicherweise (!) einer kleinen, møglicherweise (!) systematischen, Abweichung zwischen LL8 und … mhm … schwer zu sagen … ich sag jetzt mal LL19. Bis auf einen Balken sind dort naemlich alle blauen Balken kleiner, es gibt also kein „rauschendes Auf und Ab“ … das kønnte was sein, das lohnt sich also mglw. mal naeher zu untersuchen (ich werde das aber nicht tun) … ich wuerde aber erstmal nicht unbedingt ’ne Wette drauf abschlieszen, dass da wirklich ein echtes Phaenomen hinter ist. „Statistik“ macht manchmal komische Sachen (ich erinnere an dieser Stelle an die wohlbekannte, 5σ sichere, „Entdeckung“ des Θ+-Pentaquarks in den Nullerjahren, die sich dann als falsch herausstellte).
Alles in allem gilt auch hier: Reproduktion (wenn man das so sagt) gelungen.

Als Letztes bleibt die Verteilung der Maxima der Linkfrequenzkurven. Damals war es die erste konkrete Bestaetigung, dass da irgendwie mehr am „São Paulo FC“-Artefakt sein muss (und es war, aber so weit bin ich auch hier noch laengst nicht). Die Reproduktion (ich sag das jetzt einfach so) …

… ist wieder als  erfolgreich anzusehen … auch wenn dabei der Balkenwald zu dicht wurde um noch was zu erkennen, weswegen ich (wie so oft) auf ein Streudiagramm fuer das Histogramm zurueckgriff.

Im Wesentlichen hat man das gleiche Resultat wie bei allen anderen Verteilungen: die 2023-Daten reproduzieren die 2020-Daten. Es gibt møglicherweise (!) eine kleine, møglicherweise (!) systematische, Abweichung kurz nach LL40. Die 2020-Daten „beulen“ sich da etwas aus. Aber insgesamt sprechen wir von nur sehr wenigen beteiligten Seiten und ich wuerde hier noch weniger drauf wetten, dass da was ist. Das sollte mal wer untersuchen … lohnt sich mglw.

Puuuh … das war jetzt ’n ganz schøner Ritt. Aber ich habe viel geschafft.
Nun ist’s aber so, dass auch in diesem Fall die Auswerteprogramme neu von mir geschrieben und generalisiert wurden. Deswegen faellt jetzt bei der Analyse eine weitere Sache an, die mir bei den damaligen Betrachtungen ueberhaupt nicht in den Sinn kam: wenn ich die Position des Maximums kenne, dann kenne ich auch den WERT des Maximums und da kann man sich die Verteilungen doch auch mal anschauen. DAS, meine lieben Leserinnen und Leser, verschiebe ich aber auf’s naechste Mal.

Beim letzten Mal gruebelte ich noch, hatte mich dann aber relativ schnell entschieden, doch zunaechst die Reproduzierung(en) der noch ausstehenden Linklevelverteilungen, der anderen drei untersuchten Grøszen von Interesse, vorzunehmen.

Im Nachhinein sehe ich, dass ich das thematisch alles schon in diesen Beitrag haette packen sollen. Hab ich nicht gemacht und deswegen hole ich das jetzt alles auf einmal nach. Andererseits lag in meinen urspruenglichen Betrachtungen eine Art „Fluss“, und Ausgangspunkt waren oft eben diese Linklevelverteilungen. Den „Fluss“ dessen was aus den den (totalen) Links pro Linklevel folgte støre ich mit dem Beitrag hier. Und wenn ich die Reproduzierung von Folgesachen der anderen drei Grøsze angehe, dann hat der „Fluss“ keinen natuerlichen Ausgangspunkt sondern ich muss immer hierauf verweisen … aber ich schweife ab, denn wie die Existenz dieses Artikels zeigt, ist die „Flusssache“ anscheinend dem „Themapunkt“ untergeordent.

Es geht gleich los mit der (Summe der) neuen Links pro Linklevel:

Damals hatte ich die schnell abgehandelt, als ich die (Summe der) totalen Links pro Linklevel abschloss. Es gab bei dieser Verteilung naemlich nicht viel zu holen. Und auch bzgl. der Reproduzierung gibt’s nix Neues zu sagen (Wortspielkasse! … wegen „nix Neues bei neuen Links“ … tihihihi … falls das unklar sein sollte) was nicht schon bzgl. der totalen Links gesagt wurde.

Deswegen geht es sogleich weiter mit den Selbstzitaten pro Linklevel:

Hier ist der damalige Beitrag dazu und es gibt i.A. (nocheinmal) nicht viel zu sagen, was im Wesentlichen nicht bereits frueher gesagt wurde. Zwei Sache stechen aber hervor, wenn man genauer hinschaut und mal drueber nachdenkt.
Waehrend die Kurven (im Wesentlichen!) uebereinander liegen, es sich also nicht viel aenderte, so gibt es auf Linklevel 0 tausend Mal mehr Selbstzitate. DAS ist signifikant und sollte untersucht werden … aber nicht von mir.
Auszerdem scheint mir der „Einbruch“ roten Kurve bei Linkleveln grøszer als ungefaehr 20 systematisch zu sein. Das kønnte taeuschen, ich denke aber, dass das eine genauere Untersuchungen wert ist … ihr, meine lieben Leserinnen und Leser ahnt es bestimmt schon (und seid sicherlich ein bisschen traurig deswegen): diese naehere Untersuchung werde ich auch nicht mehr vornehmen.

Ich hatte mich damals dann in einem Muster „verlaufen“, was gar nicht da war (sozusagen eine Fata Morgana). Ich kann mich nicht erinnern, dass ich das jemals wieder aufgegriffen haette. Zum Glueck hatte ich auch geschrieben:

[…] sollte ich nix weiter in diese Richtung finden, dann erwaehne ich das still und heimlich einfach nicht mehr.

Folgt mir! Liegt mir zu Fueszen! Benennt eure Kinder nach mir, denn ich bin ein Prophet!  … … … oh … ich schwoff ab und wollte eigtl. sagen, dass das damit auch „reproduziert“ ist, denn es gibt hier eigtl. nix zu reproduzieren.

Nun die (Summe der) Linkfrequenz pro Linklevel:

Damals hatte ich das mit der gleichen Kurve bzgl. der totalen Links verglichen. Ich denke, dass das an dieser Stelle unnøtig ist, und sei es aus dem gleichen Grund wie oben: es gibt auch hier bzgl. der Veraenderungen in den 2023 Daten nix weiter zu sagen, was nicht schon gesagt wurde.

Sehr gut … Das ging diesmal fix und mehrere Sachen schaffte ich in einen Beitrag zu packen … das passiert ja nicht so haeufig.

Die beim letzten Mal reproduzierten Untersuchungen fuehrten mich damals zu einem der wichtigsten Kevin Bacon Resultate ueberhaupt: die durchschnittliche Anzahl der Zitate unterliegt einem maechtigen Gesetz. Oder anders: das ist bei doppellogarithmischen Achsen linear! Krass wa!

Wichtig: bei diesen Untersuchungen wurde davon ausgegangen, dass die Anzahl der Zitate die UNabhaengige Grøsze ist. Oder anders an einem Beispiel: alle Links einer Seite mit 5 Zitaten hab ich genommen und auf einen „Haufen“ geworfen. Auf diesen Haufen kamen NUR die Links von Seiten mit 5 Zitaten (egal wieviele Links das waren). Auf einem anderen Haufen haeufte ich alle Links aller Seiten mit 6 Zitaten an; usw. Fuer den Durchschnitt teilte ich am Ende einfach die Anzahl aller Links in einem gegebenen Haufen mit der Anzahl aller Seiten die zu diesem Haufen beigetragen haben.
Ich habe das nochmal so ausfuehrlich beschrieben, damit sichtbar wird, dass ich damals auch hier wieder NICHT die umgedrehte Konstellation betrachtet habe. Oder anders: wird das das Gleiche, wenn man die Anzahl der Zitate einer Seite durchschnittifiziert, wenn man die Anzahl der Links der besagten Seite als unabhaengige Grøsze hernimmt?

Tja … und hier sieht man nun beide Sachen:

Tada! Das ist auf den ersten Blick nicht das Gleiche … aber ich kann euch, meinen lieben Leserinnen und Lesern versichern, dass es sehr wohl das Gleiche ist.

Am wichtigsten ist, dass die Anstiege der linearen Teile der Daten im Groszen und Ganzen uebereinstimmen. Aufgrund unterschiedlicher Skalen sieht man das nur nicht so gut. Aber wenn man das gleich skaliert dann ist’s im Wesentlichen das gleiche Ergebniss … ich hab das jetzt zwar nicht konkret ausgerechnet, aber ich hab ’n Lineal an’n Monitor gehalten und parallel verschoben (bei richtiger Achsenskalierung) und das war im Wesentlichen das gleiche … OKOK … es war kein Lineal und Parallelverschiebung, sondern ’n Blatt Papier an den Monitor gehalten, dann hab ich (MIT LINEAL) den einen Anstieg „durchgepaust“, das Papier an der Unterkante des Monitors zum naechsten Graphen (parallel)verschoben, dort den Anstieg abgepaust … und das hatte zwar kleine Abweichungen, aber innerhalb der Genauigkeit aller Untersuchungen (und insb. der „Pausmethode“) wuerd ich sagen, dass das alles gleich war.
Und das SOLLTE auch so sein (was der Grund ist, warum das so wichtig ist), dass die Anstiege gleich sind. Auch wenn das in den beiden Faellen aus anderen Gegebenheiten so ist, denn die Anzahl der Seiten mit einem gegebenen Zitatewert ist unabhaengig von der Anzahl der Seiten mit dem selben LINKwert. Aber im Mittel ueber (sehr) viele Seiten, sollte das das Gleiche sein.
Dass dem wirklich so ist fetzt und bestaetigt im Nachhinein, dass mein Ansatz mit dem Mittelwert gar nicht so falsch ist … das ist wichtig, denn darauf basierten ein paar Schlussfolgerungen und Erklaerungen im weiteren Verlauf des Kevin Bacon Projekts.

Warum das auf den ersten Blick so ungleich aussieht, ist das unterschiedliche Verhalten des Verlaufs der beiden Durchschnitte bei hohen Werten auf der Abszisse. Was natuerlich nicht weiter verwunderlich ist, eben wg. besagter Unabhaengigkeit und weil wir hier in den Bereich kommen, wo oft nur sehr wenige, in vielen Faellen einzelne, Seiten einen ganzen Datenpunkt ausmachen … da kann man also mittels einer Durchschnittifizierung keine „versteckte“ Information „rauskitzeln“.

Ach ja, es ist eine reine Formalitaet (denn man sieht’s ja), aber ich sollte erwaehnen, dass die 2023 Daten die 2020 Daten reproduzieren.

Sooo … das ging schøn schnell heute.

Damals hatte ich dann nur noch den Rest der Verteilung der totalen Links angeschaut und da war nix weiter zu holen und ich hatte die gesamten Verteilungen bereits reproduziert. Und dann folgte (wie so oft) eine kurze Betrachtung der „Ausreiszer“, die ich hier auch nicht wiederholen werde. Dito, bzgl. der daran anschlieszenden Fehlerbetrachtungen.

Tjoa … jetzt muss ich ueberlegen ob ich mir erstmal die Linklevelverteilungen fuer die anderen drei Grøszen von Interesse anschaue (und damit dem damaligen „Spielplan“ vorgreife), oder „chronologisch“ weitermache.
Ich tendiere zu Ersterem, aber das muss ich nicht jetzt entscheiden.

Die Sachen die ich beim letzten Mal reproduzierte (und leicht erweiterte) machten mich damals stutzig, denn die Kurven hatten fuer meinen Geschmack einen viel zu starken Anstieg. Deswegen untersuchte ich (damals) wie stark Seiten mit unterschiedlichen Anzahlen an Zitaten und Links auf Linklevel 0 zur Anzahl der totalen Links auf Linklevel 1 beitragen.
Das wollte ich jetzt natuerlich nochmal machen und die entsprechenden Programme hatte ich schon vor Monaten geschrieben. Leider habe ich diesmal nicht richtig hingeschaut und das als „Beitrag zur Anzahl der total Links auf LL0“ (man beachte den Linklevelindex!) gelesen (anstatt „auf LL1„). Dadurch hab ich dann Zeit verschwendet, weil besagte Programme vermeintlich falsche Zahlen lieferten. Der Fehler klaerte sich nach ca. 2 Stunden auf.

Aber der Reihe nach und als Erstes nochmal kurz worum es heute geht. Wenn ich an ’ne Sache rangehe, mache ich oft erstmal ’ne Fermi Abschaetzung. Etwas genauer: ich schau mir Mittelwerte an und ueberlege mir wie diese Sache aussehen sollte, wenn man nur mit den Mittelwerten rechnet. Damals kam aber ganz schnell heraus, dass die durchschnittliche Anzahl der Links und Zitate, gemittelt ueber ALLE Seiten, einen VIEL kleineren Anstieg der totalen Links verursachen sollte. Ich hatte dann relativ schnell die Idee, dass mglw. Seiten die extrem oft zitiert werden einen ueberproportionalen Anteil an dem Anstieg haben kønnten, der mitnichten mittels einer Mittelwertsueberschlagsrechnung erfasst werden kann.
Oder anders (mit Zahlen): eine Seite die auf LL0 fuenf mal zitiert wird und die fuenftausend Links hat, traegt auf LL1 25-tausend (totale) Links bei. Der Beitrag einer Seite mit nur einem Link, die aber 250-tausend Mal zitiert wird, ist hingegen zehn Mal so hoch.

Das soll reichen zu dem was man hier (wieder) sieht; mehr Details gibt es in den entsprechenden Artikeln von damals.
Ach ja, wenn ich schon dabei bin sollte ich auch auf einen Fehler hinweisen. Bei der Kurve bzgl. des kumulativen Beitrags habe ich damals die Werte fuer NULL mal zitierte Seiten mit dazugezaehlt. Die tragen aber NICHT bei, weil die ja nicht zitiert werden. Das fuehrt aber NICHT zu einer Aenderung des Anstiegs der Kurve, sondern nur zu einer konstanten Verschiebung von weniger als 1 Million … da die Ordinate bis fast 40 Milliarden geht, sieht man das gar nicht und HIER ist das jetzt alles richtig!

Aber nun die Diagramme. Zunaechst das zur Reproduzierbarkeit …

… bei der (wie damals) als Unterscheidungsmerkmal der betrachteten Seiten die Anzahl der Zitierungen herangenommen wurde. Die schwarzen Punkte (linke Ordinate) repraesentieren die Summe aller Produkte von Anzahl Links und Anzahl Zitierungen aller Seiten mit einer gegebenen Anzahl Zitate auf LL0. Die Punkte der 2023 Daten sind im Wesentlichen die Gleiche wie die fuer die 2020 Daten.
In den 2023 Daten gibt es aber mehr Seiten mit unterschiedlichen Anzahlen an Zitierungen. Wegen der logarithmischen Komprimierung sieht man die entsprechendne Punkte nicht. Die sind aber ein Grund, warum die kumulative Anzahl Links auf LL1 (blaue Punkte, rechte Ordinate) der 2023 Daten schneller waechst als die der 2020 Daten. Desweiteren liegen die schwarzen Punkte ein bisschen ueber den grauen Punkten. Man muss genau hinschauen und sieht es vermutlich am besten am Anfang um 10 Zitate rum … der Unterschied ist gering, aber echt. Oder anders: es gibt in den 2023 Daten nicht nur mehr Seiten mit anderen / unterschiedlichen Zitaten als in den 2020 Daten, sondern auch mehr Seiten die bspw. 5 Zitate haben. Und das „haut dann rein“ bei den kumulativen Kurven … denn das liegt ja schon in der Definition der kumulativen (!) Kurven.
Aber alles „geht mit rechten linken Dingen zu“, denn die Form der Anstiege (im Wesentlichen linear) aendert sich nicht.

Damals nicht betrachtet hatte ich, wie das Ganze aussieht, wenn man die Anzahl der Links herannimmt als Unterscheidungsmerkmal der betrachteten Seiten. Aber das ist ja das Schøne, wenn man die entsprechenden Programme nochmal neu schreibt und dabei allgemeiner fasst; es „fallen mehr Sachen raus“. Auf den ersten Blick das sieht das …

… erstmal sehr aehnlich zum obersten Diagramm aus, sowohl qualitativ als auch quantitativ. Letzteres natuerlich nur bzgl. der Ordinate. Insb. verhalten sich die 2023 Daten nicht anders als die 2020 Daten (innerhalb der zu erwartenden Grenzen).
Auf den zweiten Blick sieht die Verteilung der schwarzen Punkte dann aber doch anders genug aus, sodass ich da mal „reingezoomt“ habe:

Tatsaechlich! bei vielen Zitaten „gehen die Punkte hoch“, waehrend sie „runter“ gehen bei vielen Links … da kann wer anders mglw. was mit machen, ich lasse das hier nur noch ohne weitere Kommentare stehen.

An der Stelle liesz ich damals die durchschnittliche Anzahl Links (bei gegebener Anzahl an Zitaten) folgen. Das verschiebe ich auf den naechsten Beitrag, weil dies eines der wichtigsten Ergebnisse ueberhaupt war, welches oft zur Erklaerung anderer Phaenomene herangezogen wurde.

Ich kam dann damals nochmals auf die Beitraege der einzelnen Seiten (gruppiert nach der Anzahl der Zitate) zurueck und schaute mir das in einem zweidimensionalen Grafen an, in dem Information ueber eine dritte Dimension (besagte Gruppierung) in den einzelnen Punkten „versteckt“ war.
Das war wichtig, denn diese Kurve zeigte ungeheuer beeindruckend wie stark _ganz_ wenige Seiten mit vielen Zitaten die Dynamik der total Links insb. am Anfang beeinflussen … womit der Grund der oben erwaehnten Stutzigkeit gefunden war.
Hier sind die entsprechenden Kurven:

Bzgl. dessen wie dieses Diagramm zu lesen ist verweise ich auf den damaligen, verlinkten, Beitrag. Nur drei Sachen seien gesagt.
Zum Einen schaue ich mir nicht nur die Gruppierung nach Anzahl der Zitate (rote Punkte) an, sondern auch nach Anzahl der Links (schwarze Punkte).
Zum Zweiten unterscheiden sich die 2023 Daten nur insofern, dass sie sich weiter nach rechts „ausdehnen“. Das liegt natuerlich wieder daran, weil es in den 2023 Daten mehr Seiten gibt.
Zum Dritten scheint die Dynamik der Kurven in denen die Seiten nach der Anzahl der Links gruppiert sind, etwas „ruhiger“ zu sein als die der Kurven in denen die Seiten nach Anzahl der Zitate gruppiert sind. Oder anders: die roten Kurven verlaufen ab ungefaehr 5 Millionen auf der Abzsisse etwas „flacher“ (nicht viel) als die schwarzen Kurven um dann zum Ende einen „Extraschub“ hinzulegen und staerker zu „beschleunigen“. Am Endergebnis aendert das nix, kønnte aber mglw. durchaus von Interesse sein sich mal naeher anzuschauen … fuer andere … nicht (mehr) fuer mich.

Das soll genug sein fuer heute. Wie bereits erwaehnt: beim naechsten Mal dann die durchschnittlichen Links / Zitate bei gegebener Anzahl Zitate / Links.

Nach den Relevanzbetrachtungen folgten damals drei Monate lang technische Beitraege auf die ich hier nicht nochmal eingehen muss. Aber danach ging es dann endlich los mit den Linknetzwerkeigenschaften und zunaechst betrachtete ich den Anstieg der Verteilung der Anzahl der (totalen) Links (und hier auch) pro Linklevel. Nur daraus folgten naemlich etliche sehr interessante Erkenntnisse und das muss ich ueber die naechsten paar Beitraege reproduzieren (ich versuche mich kurz zu halten).
Wie immer: die damals naeher betrachteten grøbsten Abweichungen schaue ich mir nicht nochmal an. Dito bzgl. der damals daran anschlieszenden Fehlerbetrachtung.

Der Anfang ist schnell gemacht, denn bei der Summe (ueber alle Seiten) der totalen Links pro Linklevel ist nicht viel passiert:

Der grøszte Unterschied liegt im Ende, das von 72 Linkleveln in den 2020 Daten zu 83 Linkleveln in den 2023 Daten gewandert ist. Ansonsten sind die Unterschiede marginal (also wie erwartet) und die Form der Kurve bleibt erhalten.

Um den starken Anstieg am Anfang zu erklaeren stellte ich mal damals die Anzahl der Links ueber der Anzahl der Zitate fuer alle Seiten dar … und erhielt einen „schwarzen Klumpen“. Hier …

… habe ich das reproduziert und wieder gibt es keine groszen Unterschiede. Auszer im Diagramm an sich, denn damals ist mir nicht aufgefallen, dass die „Nullwerte“ (also entweder keine Zitate oder keine Links) abgeschnitten wurden. Wieder ist wichtig, dass die Form des „schwarzen Klumpens“ im Wesentlichen erhalten bleibt; sogar der kleine „Pøppel“ der oben rausschaut und insb. die „Abbruchkante“ auf der rechten Seite.

In diesem Diagramm ist eine Information versteckt, die ich damals nicht weiter betrachtet hatte: die Anzahl der Seiten mit eindeutigen Zitate-Links-Kombinationen. Ein Beispiel: man nehme an, dass es 8 Seiten gibt, die 23 Zitate und 5 Links haben. Diese 8 Seiten sind alle in nur einen einzigen Punkt gequetscht.
Weil ich die Programme die das auswerten nochmal neu geschrieben habe, hab ich’s jetzt eingebaut, dass diese Information mit „ausgespuckt“ wird … und das sieht dann so aus:

ACHTUNG: bei diesen „flachen“ Bildern „versteckt“ sich jeweils eine Dimension in den Punkten an sich; im linken Diagramm die Anzahl der Links und im rechten Diagramm die Anzahl der Zitate. Mit dem Zahlen aus dem obigen Beispiel haette man dann im linken Diagramm einen Punkt bei den Koordinaten (23, 8) und im rechten Diagramm bei den Koordinaten (5, 8). Weil aber die Information jeweils einer Dimension verloren geht, kønnte im linken Diagramm direkt darunter ein Punkt sein, der die sieben Seiten repraesentiert die AUCH 23 Zitate haben, aber mit 42-tausend Links. Diese sieben Seiten wuerden im rechten Diagramm dann natuerlich auch „eins unter“ dem urspruenglichen Beispielpunkt sein, aber natuerlich viel weiter rechts davon (also mitnichten in der inmittelbaren Naehe). Im Gegensatz dazu kønnte ebenso auf unserem urspruenglichen Beispielpunkt (im linken Diagramm) ein weiterer Punkt liegen, der die 8 Seiten repraesentiert die AUCH 23 Zitate haben, aber 23,517 Links. (Hausaufgabe: man ueberlege sich wo dieser Punkt im rechten Diagramm liegen wuerde).

Eigentlich sollte man das also dreidimensional darstellen. Aber zum Einen sind solcherart Darstellungen mit logarithmischen Achsen schwer zu machen (es geht sicher, aber nur mit rumtricksen und ich hab da gerade keine Lust drauf).  Zum Anderen sind 3D-Diagramme gedacht interaktiv zu sein. Man soll die „in die Hand“ nehmen und Drehen und Wenden, um die Daten von allen Seiten zu betrachten. Das geht natuerlich hier nicht und deswegen lasse ich das gleich bleiben (es geht sicher, aber dafuer braucht man bestimmt irgend ’ne Erweiterung (so wie bei LaTeX-Formeln oder Tabellen) und ich versuche Erweiterungen so weit wie møglich zu vermeiden).

Ich diskutiere jetzt nur noch das Offensichtlichste. Zunaechst sehen die Einhuellenden aus wie die Anzahl der Seiten pro Links oder Zitierungen. Wenn man die entsprechenden Kurven normiert, ist dem aber nicht nicht so (muesst ihr, meine lieben Leserinnen und Leser einfach mal glauben, ich wollte das naemlich nicht auch noch diagrammisieren, weil’s jetzt nicht so wichtig ist). Ich habe das jetzt nicht kontrolliert, aber wenn man alle Punkte zu einem gegebenen Wert auf der Abzsisse aufsummiert, sollte man die erwaehnten Kurven erhalten.

Wenn man aber genauer hinschaut, dann sieht man, dass die Einhuellenden sich nicht so verhalten wie sie „sollten“. Nach allem was ich in diesem Projekt gesehen habe, wuerde ich „maechtige Gesetze“ erwarten. Bei der Einhuellenden im linken Bild kann man das nicht mal mit viel Fantasie sehen. Im rechten Diagramm liegt eine solche Situation zwar durchaus vor, aber es gibt da so ’ne Delle mittendrin. Ich hatte an anderer Stelle (hab jetzt keine Lust das raus zu suchen) vermutet, dass in der Wikipedia zwischen Ende 2020 und Ende 2023 mglw. eine grosze „Løschaktion“ stattgefunden hat. Meine erste Annahme war deswegen, dass diese Delle ein Resultat dessen sein kønnte.

Andererseits gibt es bei der Anzahl der Seiten pro Links an der Stelle in auch eine Delle (nur nach AUSZEN wølbend und nicht wie hier, nach innen … also eher einen Buckel). Bei der Reproduzierung sieht man das nicht so gut, weil die Punkte so dick sind. Im urspruenglichen Beitrag ist’s in den Abweichungen zur eingezeichneten geraden Linie relativ gut zu erkennen. Ich hatte das damals nicht weiter betrachtet (und werde das auch heute nicht tun) weil die Abweichungen so klein sind … aber obiges (neues) Diagramm deutet ja eher darauf hin, dass hier irgendwas vor sicht geht. Das was vor sich geht hat zwar keinen all zu groszen Effekt, ist mit den richtigen Methoden und „Werkzeugen“ aber messbar. Ist also sowas Aehnliches wie das Higgs Boson … tihihi.
Damit sei abschlieszend zur Delle zu sagen, dass die also vermutlich KEIN Resultat einer „Løschaktion“ ist, eben weil sie in der Kurve der Anzahl der Seiten pro Links erhalten bleibt.

Aber das soll dazu reichen. Da kann man bestimmt noch andere fetzige Sachen mit machen (bspw. wie die Verteilungen der einzelnen Spalten und Zeilen aussehen), aber wieder einmal ueberlasse ich das Anderen.
Wie damals, werden mich auch beim naechsten Mal die Anzahl der Links in Abhaengigkeit von der Anzahl der Zitate weiter beschaeftigen.

.oO(Fast geschafft … das neue maechtige Werkzeug in aller Kuerze abzuhandeln).

Nachdem die Daten bedeutungskomprimiert und wertekomprimiert wurden, bleibt nur noch die spalten- bzw. reihenweise Normalisierung der komprimierten Daten uebrig. Die „Rohdaten“ wurden dieser Transformation bereits unterworfen und man konnte einige (nicht im Detail diskutierte) Phaenomene sehen. Damals fuehrte die Normierung der komprimierten Daten zur Entdeckung und Erforschung des „Blobs“. Das war durchaus spannend, aber so weit werde ich es heute nicht treiben.

Das hier ist allerdings der „dickste“ Brocken, denn bei zwei Achsenbedeutungen (Anzahl der Zitate oder Links), multipliziert mit zwei (um den verschiedenen „Achsenbedeutungskombinationen“ Rechnung zu tragen), multipliziert mit zwei Arten der Komprimierung (bedeutungskomprimiert oder wertekomprimiert), multipliziert mit zwei Arten der Normierung (reihen- oder spaltenweise), mal zwei Datensaetzen (2020 und 2023) will ich heute 32 Falschfarbenbilder abhandeln.

Zum Glueck kann das alles schøn „verpackt“ werden, wodurch im Wesentlichen keine 32 Bilder einzeln diskutiert werden muessen. Der „Wechsel“ zwischen den verschiedenen Datensaetzen ist bereits bekannt. Die folgenden Bilder sind zunaechst nach der Art der Normierung getrennt (erst die spaltenweise, dann die reihenweise Normierung). Eine weitere Trennung erfolgt nach der Art der Komprimierung (jeweils erst die Bedeutungs-, dann die Wertekomprimierung). Die vier (wechselnden) Falschfarbenbilder die uebrig bleiben sind in ein Gesamtbild gruppiert. Darin repraesentiert die Abzsisse der oberen beiden Bilder die Zitategruppe und der unteren beiden die Linksgruppe, waehrend die Ordinate der beiden linken Bilder die Zitategruppe und der beiden rechten Bilder die Linksgruppe darstellt.
Dank der Normierung kuemmert auch die Falschfarbenskala nicht all zu sehr, denn die geht immer von null bis eins. Und die Komprimierung erfolgte wie in den entsprechenden Beitraegen besprochen; jede Spalte / Reihe sollte ungefaehr ein Prozent der jeweiligen „Werte“ enthalten (mit wichtigen, zu beachtenden Ausnahmen, die in den besagten Beitraegen besprochen wurde!).

Dennoch bleibt der Aufwand grosz (ihr, meine lieben Leserinnen und Leser solltet lieber nicht fragen, wieviel Arbeit ich in die Erstellung der Falschfarbenbilder gesteckt habe) und deswegen werde ich nicht alles im Detail besprechen; insb. nicht bereits bekannte und diskutierte Phaenomene.

Genug der Vorrede und hinein ins Vergnuegen (und ein Vergnuegen ist es, denn man sieht so viel … irgendwie schade, dass ich das nicht mehr im Detail erforschen werde).

Hier sieht man die spaltenweise normierten, bedeutungskomprimierten Falschfarbenbilder:

Fetzt wa!
Das linke obere Bild ist der zu reproduzierende Teil und davon abgesehen, dass das damalige Farbschema Informationen hervorhebt die so nicht hervorgehoben werden sollten, ist alles wie erwartet.

Bei den beiden linken Bildern ist die grøszte Intensitaet in nur einer Spalte am jeweils unteren Rand. Das entspricht dem bereits sehr lange bekanntem Resultat, dass im Wesentlichen alle Seiten von anderen Seiten zitiert werden die selber nur (sehr) wenige Zitate erhalten.

Die beiden rechten Bilder sind da schon spannender. Die horizontalen hellen Streifen sind Artefakte durch die „Stufen“ in der Komprimierung. Die vertikalen dunklen Streifen (insb. im rechten unteren Bild) kommen durch die eine, sehr intensive, unterbrochene Reihe bei ca. Zitategruppe 8 zustande; eben weil die so viel „Intensitaet“ auf sich vereint, ist dann nicht mehr genug „uebrig“ fuer die restlichen Zellen in der Spalte. Dieser Streifen ist bereits in vorherigen Beitraegen aufgefallen und da hatte ich den auch schon nicht weiter untersucht. Im rechten unteren Bild sieht man noch eine helle Diagonale. Das ist ein (ebenso bereits bekanntes) Artefakt der Rohdatenverarbeitung und kommt durch Seiten die sich selbst zitieren zustande.
Ansonsten sagt die ungefaehr gleiche Intensitaet ueberall aus, dass es egal ist wie viele Zitate oder Links eine Seite selber hat, sie wird um Durchschnitt gleich oft von Seiten mit wenigen, mittelvielen, oder ganz vielen Links zitiert. Das ist an sich schon durchaus interessant. Das Wørtchen „ungefaehr“ ist aber wichtig, denn wenn man genau hinschaut, scheint es im rechten oberen Bild einen breiten Streifen von links oben nach rechts unten zu geben (besser zu sehen in den 2023 Daten). Das wuerde bedeuten, dass Seiten mit wenigen Zitaten ein bisschen øfter von Seiten mit weniger Links zitiert werden und Seiten mit vielen Zitaten øfter von Seiten mit mehr Links. Das kønnte als ’ne Art „Dynamik“ im Linknetzwerk interpretiert werden und ist mglw. hoch spannend naeher zu untersuchen.

Bei den spaltenweise normierten, wertekomprimierten Falschfarbenbildern …

… ergibt sich im Wesentlichen das Gleiche. Bei den beiden linken Bildern ist der intensive Bereich nur um eine Reihe nach oben gerueckt und „verschmiert“, aber das ist von vorher bekannt.
Im linken oberen Bild sieht man bereits den „Blob“, wenn man weisz wonach man schauen muss.

Damit kann ich zu den reihenweise normierten Falschfarbenbildern uebergehen. Zunaechst wieder die Bedeutungskomprimierten:

Das linke obere Bild ist wieder das was zu reproduzieren war und im Vergleich sieht man, warum die neue Farbpalette so viel besser ist. Wichtig: man sieht den „Blob“ ganz deutlich. .
Die beiden oberen Bilder werden im unteren (ca.) Drittel der 2023 Daten dunkler, was natuerlich wieder durch die Praeszenz der Wikipedia Hauptseite zu erklaeren ist. Die Hauptseite ist in den unteren Bildern der helle vertikale Strich und wenn man sich das genau anschaut, sieht man leicht, dass eben diese fuer die Intensitaetsveraenderungen auch hier verantwortlich ist.

Wenn man den Einfluss der Hauptseite „rausrechnet“ (und vom „Blob“ absieht), dann ist die Intensitaet bei diesen Bildern im Wesentlichen ueberall gleich. Bei der Interpretation dieses Ergebisses muss man sich daran erinnern, dass hier die REIHEN normiert sind. Man schaut also NICHT wie oben wo auf der Abzsisse sich die eine Seite von Interesse befindet um dann rauszufinden welche andere Seiten Erstere zitieren. Vielmehr schaut man zuerst wo auf der Ordinate die Seite von Interesse liegt und wen diese zitiert. Eine ungefaehr gleiche Intensitaet ueberall bedeutet dann also, dass es egal ist wieviele Zitate oder Links eine zitierende Seite hat, diese zitiert im Durchschnitt ungefaehr gleich viele Seiten mit wenigen Zitaten / Links, mittelvielen Zitaten / Links und vielen Zitaten / Links.
Es gibt natuerlich Ausnahmen; bspw. die etwas erhøhte „Aktivitaet in der „Region ueber dem Blob“ im linken oberen Bild. Diese Ausnahmen sind dann extra spannend und waeren zu untersuchen.

Nun gibt es zu den reihenweise normierten, wertekomprimierten Falschfarbenbildern …

… fast nix mehr zu sagen, weil da alles sehr aehnlich aussieht.
Von besonderem Interesse ist nur der „diagonale“ Streifen. Bei den bedeutungskomprimierten, Linksgruppe-ueber-Linksgruppe, bzw. Zitategruppe-ueber-Zitategruppe Bildern ist der tatsaechlich diagonal und von ’nem kleinen Knick abgesehen gilt das auch fuer die wertekomprimierte, Linksgruppe-ueber-Linksgruppe Darstellung. Aber im linken oberen Bild sieht man, dass dieser Streifen recht krumm ist (und wenn man zu den reihenweise normierten Bildern zurueck geht, sieht man das auch dort, nur nicht so deutlich). Auch das kønnte wieder als eine Art „Dynamik“ interpretiert werden, aber vermutlich andersgeartet als die oben erwaehnte (vllt. aber auch nicht).

Hach ja … spannend, spannend, spannend … und all das bringt das neue Werkzeug ans Tageslicht. Cool wa!

Fuer mich reichts aber damit. Dafuer dass ich das urspruenglich gar nicht machen wollte, sind da ganz schøn viele Beitraege draus geworden. Bevor ich mich an diese Sache setzte schrieb ich:

[…] ich [hatte] da[mals] „nur“ bunte 2D-Falschfarbendarstellungen bei denen ich genau „reinzoomen“ musste um Details zu besprechen. Oder anders: bei denen sieht man bei so kleinen Veraenderungen ohnehin keinen Unterschied (und „reingezoomt“ hatte ich nur bei Anomalien die vermutlich immer noch da sind und wenn nicht mir auch nix ueber das Grosze und Ganze verraten). Solche „bunten Karten“ kann ich auch nicht zum besseren Vergleich uebereinander legen. Vermutlich werd ich da also nicht nochmal drueber schauen mit den neuen Daten […].

Tja, da hab ich mich gehørig getaeuscht und ich bin froh, dass doch gemacht zu haben. Und beim naechsten Mal dann … uff … weisz ich gerade noch gar nicht … vermutlich muss ich erstmal wieder was in meinem Code aufraeumen und neu schreiben, bevor ich die naechste Sache bzgl. der Reproduzierbarkeit checken kann.

Die beim letzten Mal vorgestellte Wertekomprimierung wird heute in Falschfarbenbilder umgesetzt. Das Ganze geht schnell, denn das was man in solchen Darstellungen sieht und wie das zu interpretieren ist habe ich mehr oder weniger allgemein bereits mehrfach diskutiert. Beim vorletzten Mal besprach ich auszerdem im Detail, wie die Komprimierung auf solche Bilder wirkt und wie das zu verstehen ist. Ebenso muss der Einfluss der Wikipedia Hauptseite in den 2023 Daten nicht schon wieder auseinanderklamuesert werden.

Es gilt hier: dito … natuerlich mutatis mutandis in Betracht dessen, dass die Komprimierung (etwas) anders ist (und dadurch insb. die „Laenge“ der Ordinaten (vulgo: wieviele Zahlen drauf sind) deutlich unterschiedlich sein kann … aber das wurde auch bereits (mehrfach) betrachtet).
Die spannenden Sachen passieren, wenn man diese beiden Komprimierungen miteinander vergleicht (und damit meine ich NICHT eventuelle Intensitaetsunterschiede).

Zunaechst wieder die Falschfarbendarstellungen bei der die Abzsisse die (diesmal wertekomprimierte) Zitategruppen darstellt.

Das linke Bild ist im Wesentlichen das Gleiche wie beim vorletzten Mal. Dass rechte Bild hingegen ist von groeszerem Interesse, weil es null-komma-nix-nicht-mal-ein-winziges-bisschen von dem gleichen bedeutungskomprimierten Falschfarbenbild zu unterscheiden ist (abgesehen von der Beschriftung der Achsen). Der Grund dafuer war die Hausaufgabe vom letzten Mal:

Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. […]
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert.

Hiermit ist dann also auch …

[…] da muss ich dran denken, dass beim naechsten Mal zu kontrollieren

… abzuhaken :) .

Dank der vielen Vorarbeit war das auch schon alles dazu. Somit kann ich schnurstracks zur Falschfarbendarstellungen kommen, bei der die Abzsisse die (diesmal wertekomprimierte) Linksgruppen darstellt.

Im linken Bild gibt es diesmal einen wichtigen Unterschied: es gibt nicht nur einen hellen Streifen am unteren Ende des Diagramms, sondern einen hellen Bereich, der sich ueber die ersten … ich sag jetzt mal ungefaehr 5 bis 8 Zeilen hinzieht. Mit dem Blick auf die entsprechenden Diagramme vom letzten Mal wird natuerlich sofort klar, warum das so ist und ich gehe da nicht nochmal drauf ein. Das an sich ist von Interesse, wenn man die Gesamtheit des Wikipedia Linknetzwerks untersucht. Und wieder wurde das erst durch das neue Werkzeug sichtbar gemacht und man sieht es NUR in den werte(!)komprimierten Daten … cool wa!

Genug fuer heute … das war’s aber noch nicht ganz mit dem neuen Werkzeug, denn auch wenn die Komprimierung mehr hervorbringt, so sind doch grosze Teile der Falschfarbenbilder immer noch schwarz. Deswegen wendete ich auf die komprimierten Daten auch noch zwei Normierungen an … dazu mehr beim naechsten Mal (und ich versuche es auf nur noch einen Beitrag zu begrenzen … aber ihr, meine lieben Leser und Leserinnen, kennt mich ja, mich kurz fassen zaehlt nicht zu meinen Staerken).