Archive for the ‘Kevin Bacon’ Category

Wie bereits beim vorletzten Mal versprochen (und dann aus organisatorischen und didaktischen Gruenden einmal verschoben), gehe ich heute auf die zweite Art der Komprimierung ein.

Anders als bei der vorher behandelten Bedeutungskomprimierung, ist die Wertekomprimierung sehr einfach zu verstehen. Hierbei schaut man naemlich nur auf den Gesamtinhalt einer Spalte (oder Zeile) und setzt den ins Verhaeltniss zum Inhalt der gesamten Matrix. Im weiteren spreche ich nur von Spalten, aber wie vormals gilt das Gleiche auch fuer die Zeilen (mutatis mutandis … und ja, ich such nach Gelegenheiten diesen Ausdruck so oft wie møglich zu verwenden … ich find den so fein).

Der Inhalt der gesamten Matrix ist die Summe ueber alle (Gesamt)Spalteninhalte. Oder anders: das ist die Summe aller Zitate die alle Seiten haben … was natuerlich der Summe aller Links aller Seiten entspricht … was natuerlich der Summe ueber alle (Gesamt)Zeileninhalte ist … was natuerlich bedeutet, dass diese Zahl komplett unabhangig von den Achsenbedeutungen ist und dieser eine Wert sowohl fuer die Spalten- als auch die Zeilenkomprimierung zu benutzen ist.

Der Gesamtinhalt einer Spalte ist die Summe ueber alle Zellen der gegebenen Spalte. Es ist zu beachten, dass diese Werte davon abhaengig sind, welche Bedeutung die Abzsisse und Ordinate haben, obwohl es sich hierbei NICHT um eine Bedeutungkomprimierung handelt. Ich gehe darauf weiter unten etwas genauer ein.
Fuer jede Spalte wird dann der Anteil berechnet, den diese am Inhalt der gesamten Matrix hat und dieser Wert wird dann wie bei der Bedeutungskomprimierung herangezogen um zu ermitteln, wie wieviele Spalten aufaddiert werden muessen, um den festgelegten Komprimierungswert zu erreichen.

Insgesamt hat man also vier verschiedene Komprimierungen fuer die Spalten und Zeilen. Wenn die Abzsisse die Anzahl der Zitate (die eine Seite erhalten hat) repraesentiert, dann ist der Gesamtinhalt einer gegebenen Spalte unabhaengig davon, ob die Ordinate das Selbe repraesentiert, oder die Anzahl der Links einer Seite. Es gibt also nur zwei unterschiedliche Komprimierungen fuer die Spalten, entsprechend den zwei møglichen Bedeutungen; nennen wir diese hier mal kurz A und B. Das Gleiche gilt natuerlich fuer die Zeilen und diese zwei Komprimierungen nenn ich mal kurz 1 und 2. Beides kombiniert ergibt am Ende vier Falschfarbenbilder, mit den Komprimierungskombinationen A1, A2, B1 und B2.

Hier muss ich etwas weiter ausholen, denn auf den ersten Blick scheint das wie bei der Bedeutungskomprimierung zu sein; dort gab es auch vier Falschfarbenbilderkomprimierungskombinationen. Der wichtige Unterschied ist aber, dass die Bedeutungskomprimierung nur fuer eine Achse ausgerechnet werden muss und dann auch fuer die andere Achse gilt (so diese dann die selbe Bedeutung hat). Bei der Wertekomprimierung gilt das nicht und kurz gesagt liegt das daran, dass die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Oder anders: bei der Bedeutungskomprimierung hat man nur zwei Komprimierungen (A & 1) und die Kombinationen waeren AA, A1, 1A und 11. Es ist zu beachten, dass es bei der Wertekomprimierung KEINE AA-, BB-, 11-, oder 22-Komprimierungskombinationen gibt.

Ein Beispiel macht das hoffenlich anschaulicher. Man denke sich eine Seite die 5 Mal zitiert wird und selber 23 Zitate hat. Wenn die Abzsisse die Anzahl der Zitate repraesentiert wird diese Seite in Spalte 5 gezaehlt und wenn die Bedeutung der Abzsisse die Anzahl der Links ist in Spalte 23. Qualitativ ist das bei beiden Komprimierungsarten im Wesentlichen das Gleiche (auch wenn quantitativ was anderes bei raus kommt). Wichtig ist nun, dass, wie auch immer die Bedeutung der Abzsisse ist, diese Seite in jedem Fall zu der jeweiligen Spalte immer nur 5 „Punkte“ beitraegt, denn (und ich wiederhole mich hier) in den Falschfarbenbildern ist dargestellt, wie oft die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Nun wende man sich zur Ordinate. Hier findet sich diese Seite in Zeile 5 oder 23 wieder. Soweit erstmal kein Unterschied und das ist der Grund, warum man die Bedeutungskomprimierung nur fuer eine Achse ausrechnen musste. Weil diese Seite aber 23 andere Seiten zitiert, ist der Beitrag dieser Seite zur jeweils gegebenen Zeile 23 „Punkte“. Oder anders: ein und die selbe Seite traegt zu den Spalten anders bei als zu den Zeilen. Deswegen muss man jeweils zwei Anteilverteilungen (der jeweiligen Spalte / Zeilen) pro Achse berechnen.

Und jetzt passiert was kurioses … ist aber logisch, wenn man mal drueber nachdenkt, was ich euch, meinen lieben Leserinnen und Lesern als Hausaufgabe ueberlasse. Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. Das gilt nicht, wenn die Abzsisse die Anzahl der Links repraesentiert.
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert. Das passiert aber nicht wenn die Ordinate die Anzahl der Zitate repraesentiert.
Oder anders: wenn ich die Links ueber Zitate darstelle, so sollten die Falschfarbenbilder der Bedeutungs- und Wertekomprimierung identisch sein … da muss ich dran denken, dass beim naechsten Mal zu kontrollieren.

Ich erwaehne das, denn dieser Umstand ist hier und heute von Vorteil. Anstatt vier Anteilsverteilungen (und deren Komprimierungen) muss ich nur zwei zeigen, denn die anderen beiden sind ja schon im Beitrag vom vorletzten Mal zu sehen … man muss dann in Gedanken nur die Beschriftung der Ordinate aendern, aus „Anteil an allen Zitaten / Links (%)“ wird „Spaltenanteil (%)“ bzw. „Zeilenanteil (%)“ (ditomutatis mutandis … hehe … bei den Anteilen der komprimierten Gruppen).

Nun muss ich gar nicht mehr all zu viel sagen zu den folgenden Diagrammen, denn beim Beitrag zur Bedeutungskomprimierung hatte ich ausfuehrlich besprochen, wie man solche Diagramme liest und deren Informationsinhalt betrachtet.
Hier die Diagramme mit der neuen Information bzw. des Spalten- bzw. Zeilenanteils (bei entsprechender Bedeutung der jeweiligen Achse):

Form und Maximum der Kurve des Spaltenanteils (wenn die Abzsisse die Linksgruppen repraesentiert, linkes Diagramm) sind qualitativ wie bei der Bedeutungskomprimierung (aber quantitativ natuerlich anders). Das Einzige was (sogar im Wortsinne) heraus sticht ist der von der Wikipedia Hauptseite verursachte Punkt in den 2023 Daten. Das ist ja nun nicht mehr unerwartet, aber dieser macht den Unterschied in den beiden Komprimierungsmethoden deutlich, trotz aller qualitativen (und bei entsprechenden Achsenbedeutungen auch quantitativen) Aehnlichkeiten.

Die Kurve fuer den Zeilenanteil (wenn die Ordinate die Zitategruppen repraesentiert, rechtes Diagramm) ist hingegen vøllig anders; wenn man aber mal drueber nachdenkt dennoch logisch.
Hier sieht man auch, warum solche Diagramme wichtig sind, um die komprimierten Falschfarbenbilder vernuenftig zu interpretieren. Ich werde naemlich wieder ein Komprimierungsintervall von einem Prozent waehlen, aber die ersten zehn Zitategruppen liegen da extrem deutlich drueber.

Viel mehr gibt’s hierzu nicht zu sagen und ich kann ohne Umschweife zu den (auf ca. 1 %) komprimierten Gruppen kommen:

Hier muss ich nun fast gar nix mehr sagen, denn die Spruenge, warum einige Punkte unter, bzw. ueber ein Prozent liegen und wieso die Anzahl der komprimierten Gruppen nicht 100 betraegt, wurde ausfuehrlich beim letzten Mal diskutiert. Was ich im letzten Abschnitt bzgl. den extrem-deutlich-ueber-1-%-Anteilen der ersten zehn Zeilen sagte spiegelt sich natuerlich im rechten Diagramm wieder und ist der Grund, warum es hier gerade mal 66 komprimierte Gruppen gibt.

Alright … wenn’s nix zu sagen gibt, dann will ich das auch nicht unnøtig in die Laenge ziehen. Beim naechsten Mal gibt’s die dazugehørigen Falschfarbenbilder.

Beim letzten Mal schrieb ich, dass ich …

[…] die zweite Art der Komprimierung auf’s naechste Mal [verschiebe].

Als ich mir alles anschaute dachte ich mir allerdings dass es besser ist, wenn ich zunaechst die bedeutungskomprimierten Falschfarbenbilder zeige.

Wie immer „huepfen“ die Bilder zwischen den 2020-Daten und den 2023-Daten. Weil ich damals ein Prozent als Wert fuer die Komprimierung benutzte, tat ich das auch hier wieder. Vom letzten Mal wissen wir, dass das NICHT zu notwendigerweise zu 100 komprimierten Bedeutungsgruppen und zu „Spruengen zwischen einigen Spalten“ fuehrt. Auszerdem kann die Anzahl der komprimierten Gruppen bei den verschiedenen Datensaetzen unterschiedlich sein. Es ist wichtig dies im Hinterkopf zu haben, damit die dadurch verursachten „Effekte“ in den Bildern nicht die Interpretation der eigentlichen Information støren. So fuehren die besagten „Spruenge zwischen den Spalten“ zu Streifenstrukturen und die Unterschiede in der Anzahl der Gruppen zu Spruengen bei den Skalen der Achsen).
Und nicht vergessen: die durch die Abszisse repraesentierten Seiten werden von den durch die Ordinate repraesentierten Seiten zitiert.

(Auch) Wie immer fange ich mit dem Reproduzierbarkeitsteil an und der ist hier im linken Falschfarbenbild zu sehen, in dem die bedeutungskomprimierte Zitategruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen ist:

Huch! Im Vergleich zu damals sieht man ja nuescht! … nun ja … wenn man genau hinschaut sieht man schon die gleichen Merkmale wie damals … aber noch viel besser sieht man, warum ich die Farbpalette wechselte; wie gesagt, meine Lieblingsfarbpalette „luegt“ und gaukelt mir Informationen vor die eigentlich gar nicht da sind.
Ansonsten sieht man wieder die gewaltige Dominanz der Wikipedia-Hauptseite in den 2023-Daten.

Im rechten Bild ist die bedeutungskomprimierte Linksgruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen. Interessant ist der helle Punkt in der rechten unteren Ecke. Der tritt in beiden Datensaetzen auf und kommt deswegen NICHT durch die Wikipedia Hauptseite zustande. Als einzelner Punkt „ueberstraehlt“ dessen Intensitaet diese sogar! (Wobei die Summe ueber die gesamte Spalte sicherlich grøszer ist fuer die Hauptseite). Aber wie so oft in dieser Phase des bereits so lange andauernden Kevin-Bacon-Projekts: ich hab keine Lust (mehr) zu schauen, was das ist.
Ich weise nur darauf hin, dass dort in der Ecke anscheinend noch mehr passiert, denn dort treten etliche andere Pixel aus dem Schwarz hervor (wenn auch nicht ganz so deutlich) … eine weitere Erfolgsgeschichte fuer das neue Werkzeug :).

Weiter zu den Falschfarbenbildern, bei denen die Abszisse die komprimierten Linksgruppen repraesentiert:

Im linken Bild passiert nichts Unerwartetes. Dass die Hauptseite nicht am Ende der Abzsisse liegt (wie bei der Anzahl der Zitate), ist von vorher bekannt. Im Vergleich mit dem rechten Diagramm im oberen Bild spiegelt sich hier schøn wieder, dass die Information in diesen Bildern nicht symmetrisch ist und die Achsen nicht vertauscht werden kønnen.

Etwas spannender ist das rechte Falschfarbenbild. Sofort ins Auge fallen die hellen Punkte, welche alle in der selben Reihe liegen, und sowohl bei den 2020- als auch den 2023-Daten vorhanden sind (wenn auch an anderen Positionen auf der Abzsisse). Diese Punkte sind bereits vorher aufgetreten und ich wuerde spekulieren, dass die mit dem „helle[n] Punkt in der rechten unteren Ecke“ von weiter oben zu tun haben … ohne weitere Untersuchungen wuerde ich aber nicht drauf wetten. Falls dem so ist, ist es interessant, dass die zwar alle unterschiedliche Links, aber anscheinend (ungefaehr) gleich viele Zitate haben. Ihr meine lieben Leserinnen und Leser ahnt es sicherlich bereits: (i) ein weiteres Merkmal, enthuellt durch das neue Werkzeug, und (ii) ich werde das nicht weiter untersuchen.
Ansonsten sieht man hier deutlich, warum ich ueberhaupt erst auf die Idee der Komprimierung gekommen bin; hatte ich doch damals bereits in dem vielen Schwarz der unkomprimierten Daten doch noch Informationen vermutet. Die lila Tøne oberhalb der unteresten Reihen bestaetigen diese Vermutung. Das trifft uebrigens fuer alle Falschfarbenbilder zu, man sieht das nur nicht ueberall so gut (insb. bei den 2023-Daten, bei denen die hohe Intensitaet der Hauptseite die Farbskala festlegt und deswegen (fast) alles andere in den dunklen Bereich draengt).

Juti … ging ja schnell heute. Ich kann mich nur zitieren und sagen, dass …

[…] die zweite Art der Komprimierung […] [beim] naechste[n] Mal [behandelt wird].

Damals konnte ich in beim Hereinzoomen in die groszen, schwarzen Bereiche der Falschfarbenbilder helle Punkte wahrnehmen. Es stellte sich dann natuerlich die Frage, ob diese blosz einem „Rauschen“ entsprechen, oder ob es dort Information gibt. Zur Beantwortung der Frage „komprimierte“ ich die Daten: kurz gesagt, um die Signalstaerke zu erhøhen, addierte ich die Werte von mehreren Spalten / Reihen. Dabei habe ich natuerlich „Aufløsung“ verloren, weil ein erhøhtes Signal nicht mehr eindeutig einem Zitategruppewert zugeordnet werden konnte (denn diese Gruppen wurden ja gerade „komprimiert“).

Soweit zur Wiederholung. Beim letzten Mal schrieb ich:

[…] [die Komprimierung] konnte ich […] erweitern und generalisieren […]

… und darum geht es heute.

Zur Erinnerung: damals war ich mir nicht der Møglichkeiten dieser Analysemethode bewusst und schaute nur auf die Zitate-ueber-Zitate Daten. Die Komprimierung bestand dann darin, dass ich mir die Bedeutung jedes Wertes auf der Ordinate anschaute und damit ausrechnte wieviele Zitate die Seiten auf sich vereinten, die in der entsprechenden Spalte vertreten waren. Drei Beispiele: 100 Seiten die jeweils 5 Zitate haben, vereinen 5 x 100 = 500 aller Zitate auf sich. 50 Seiten die jeweils 10 Zitate haben, vereinen ebenso 10 x 50 = 500 aller Zitate auf sich. 5 Seiten die jeweils 23,517 Zitate haben, vereinen 5 x 23,517 = 117,585 Zitate auf sich.
Mit der Information rechnete ich dann aus, wieviele Spalten ich jeweils zusammenfassen muss, damit in einer zusammengefassten / komprimierten / „verschmolzenen“ Spalte immer ca. 1 % aller Zitate auftreten.

Soweit, so gut. Damals hatte ich mir nix weiter dabei gedacht, aber diese Art der Komprimierung nenne ich jetzt „Bedeutungskomprimierung“. Es wird naemlich nur darauf geachtet, wieviel der „kompletten Bedeutung“ eine Spalte auf sich vereint. Konkreter: wie hoch der Anteil an allen Zitaten (oder Links) aller Wikipediaseiten ist, die in der gegebenen Spalte steckt und die Achse gibt die Bedeutung vor.
Da damals Ordinate und Abzsisse die selbe Bedeutung hatten, konnte die obige Komprimierung 1:1 auf die Reihen angewandt werden.

Als ich dieses Thema das erste Mal behandelte hatte ich das nicht gezeigt, aber das Gesagte kann man auch in ein Diagramm packen. Hier ist so ein Diagramm zu sehen:

Fuer die Diskussion dessen was man hier sieht, ist es egal ob man auf die Daten aus 2020 oder aus 2024 schaut. Wenn wichtig, gehe ich auf die Unterschiede weiter unten kurz ein, aber fuer die allgemeine Besprechung macht das keinen Unterschied, denn wiedereinmal gibt es im Wesentlichen keine Unterschiede zwischen den Jahren.

Ich sollte auch erwaehnen, dass man hier noch gar keine Komprimierung sieht, sondern nur wie hoch der „Bedeutungsanteil“ einer jeden Spalte in den Falschfarbenbildern ist, wenn die Bedeutung besagter Spalte die Anzahl der Zitate ist. Auf der Abzsisse sind also die UNkomprimierten Zitategruppen abgebildet und das ist somit die Grundlage fuer die „Bedeutungskomprimierung“ im naechsten Schritt.

Bei lineaer Abzsisse (linkes Bild) sieht man, dass bei sehr kleinen Zitategruppen kurz sehr viel „passiert“. Bei logarithmischer Achse ist dieser Bereich „aufgespreizt“ und man sieht, dass einzelne Spalten bis zu (fast) 1 % aller Zitate auf sich vereinen. Dies obwohl die dazugehørenden Seiten nur (sehr) wenige Zitaten haben. Nur gibt es von denen so viele, dass da in der Summe ganz schøn viel zusammen kommt. Kleinvieh macht auch Mist (und nicht zu wenig).
Ein weiterer Vorteil der linearen Abzsisse ist, dass man am besten sieht, dass ab ca. Zitategruppe 200 der Bedeutungsanteil dann aber (sehr) klein wird und (mehr oder weniger) auf diesem kleinen Wert „verharrt“. Ausgenommen die allerletzten paar Punkte zieht sich dieses Verhalten der Kurve bis (weit) ueber Zitategruppe 5000 hin. Auch das ist einfach zu erklaeren, denn trotz zum Teil sehr hoher Anzahl an Zitaten, so bestehen gerade (sehr) hohe Zitategruppen aus nur wenigen Seiten (oft gar nur einer). Da summiert sich also in einer Spalte nicht viel auf, gesehen auf die weit ueber 100 Millionen Zitate insgesamt.
Ganz am Ende machen die Punkte dann nochmal ’nen Sprung nach oben. Bei den 2020 Daten faellt der recht klein aus, waehrend die allerletzte Zitategruppe bei den 2023 Daten ueber 2.5 % aller Zitate auf sich vereint. Das ist natuerlich wieder die Wikipedia Hauptseite die neuerdings von (fast) allen anderen Seiten zitiert wird.

Interessant ist, dass die 2023 Daten bis ca. Zitategruppe 20 etwas tiefer liegen als die 2020 Daten. Zunaechst dachte ich, dass die Hauptseite da einfach alles „runterdrueckt“, weil die so viele Zitate auf sich vereint. Aber dann haette man das auch bei høheren Zitategruppen sehen muessen. Deswegen rechnte ich den Anteil der letzten 17 Zitategruppen raus (vulgo: ich berechnete alles nochmal, aber ohne die). Waere meine Erklaerung richtig gewesen, dann haette der Verlauf der Kurven der beiden Daten im Wesentlichen gleich sein muessen. Mathematisch gesprochen, haette die Subtraktion der korrigierten 2023-Daten von den unkorrigierten 2020 Daten mehr oder weniger konstant sein muessen, mit einem Wert von null (plusminus Rauschen). Fuer Seiten in Zitategruppen grøszer als 100 ist dem auch so, aber die „Erniedrigung“ bei kleinen Zitategruppenwerten bleibt trotz Korrektur erhalten.
Dieses Ergbeniss deutet wieder auf eine „Hausmeisteraktion“ hin, bei der etliche Seiten geløscht wurden. So etwas vermutete ich bereits hier. … … … Da hat dieses neue Werkzeug wieder was aufgedeckt, fetzt wa!

Soweit zur Grundlage der Komprimierung. Wenn man die entsprechende Anzahl an Spalten dann miteinander „verschmilzt“, damit jede komprimierte Zitategruppe ungefaehr 1 % der Gesamtzitate enthaelt, erhaelt man diese zwei Diagramme:

Als erstes sei zu sagen, dass die 2020 Daten in 102 komprimierte Gruppen (ich lasse das Wørtlein „Zitate“ der Lesbarkeit jetzt weg) (bedeutungs)komprimiert (das Wørtlein „bedeutungs“ lasse ich auch weg) wurden und die 2023 in 101 Gruppen. Ich erklaere weiter unten, warum das nicht genau 100 (entsprechend 100 %) werden.
Im linken Diagramm sind auf der Abzsisse immer noch die UNkomprimierten Gruppe abgetragen, waehrend im rechten Diagramm einfach nur die (laufende) „Gruppenzahl“ der komprimierten Gruppen abgetragen ist. In beiden Faellen entsprechen die Punkte und Quadrate den komprimierten Gruppen.
Wie man an der Ordinate ablesen kann, wurde das „Versprechen“, dass die komprimierten Gruppen ungefaehr 1 % aller Zitate enthalten, eingeløst.

Auffaellig ist, dass im linken Diagramm der Abstand der Punkte anfangs sehr klein ist, dann zu nimmt und zum Ende hin wieder kleiner wird. Das ist leicht mit dem vorherigen Diagramm bzgl. der „Grundlagen der Komprimierung“ zu erklaeren. Kleine (unkomprimierte) Zitategruppen enthalten so viele Seiten, dass sie einen entsprechend hohen Anteil aller Zitate repraesentieren. Deswegen braucht man da nur wenige UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Spaeter ist es dann so, dass eine UNkomprimierte Gruppe immer weniger Seiten, (sehr) oft gar nur eine einzige, enthalten. Entsprechend mehr Gruppen muss man miteinander „verschmelzen“ um eine komprimierte Gruppe zu erhalten. Und da die „verschmolzenen“ unkomprimierten Gruppen ja alle in EINER komprimierten Gruppe landen, verschwinden die dann bei einer Abzsisse wie im linken Diagramm und der Abstand zwischen den Punkten nimmt zu. Zum Ende hin bestehen die Gruppen zwar auch nur aus einzelnen Seiten, aber weil die so viele Zitate haben, ist deren Anteil an allen Zitaten wieder grøszer und man braucht weniger UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Deswegen nimmt der Abstand zwischen den Punkten wieder ab.
Im rechten Diagramm tritt dieses Phaenomen natuerlich nicht auf, da alle komprimierten Gruppen den gleichen Abstand zueinander haben.

Der selbe Mechanismus erklaert auch, warum das am Anfang so zappelt bzw. warum es zu „Spruengen“ im Graf auf der rechten Seite kommt. Zur Veranschaulichung ein Beispiel.
Man denke sich vier, aufeinander folgende, UNkomprimierte Gruppe, die jeweils 0.9 %, 0.5 %, 0.3 % und 0.3 % aller Zitate enthalten (in dieser Reihenfolge).
Wuerde die 0.9 % Gruppe mit der 0.5 % Gruppe verschmelzen wuerde die komprimierte Gruppe 1.4 % aller Zitate repraesentieren. Aber 1.4 % ist weiter von 1 % entfernt als 0.9 %. Deswegen findet die Verschmelzung nicht statt, die 0.9 % Gruppe wird ihre eigene komprimierte Gruppe.
Nun verschmelzen die 0.5 % Gruppe und die erste 0.3 % Gruppe und bilden zusammen eine komprimierte Gruppe die 0.8 % aller Zitate auf sich vereint. Das ist noch nicht nah genug an 1 % dran, weswegen auch die zweite 0.3 % Gruppe mit denen verschmolzen wird. Alle drei zusammen vereinen nun 1.1 % aller Zitate auf sich. Das liegt zwar ueber 1 %, ist aber naeher dran als 0.8 % und deswegen bleibt diese Verschmelzung erhalten.
Weil beide Punkte im Diagramm direkt aufeinander folgen, der erste aber unter 1 % und der zweite ueber 1 % liegt, kommt es zu einem „Sprung“. Wie man im rechten Diagramm sieht, muessen solche Spruenge nicht nur nach oben, sondern kønnen auch nach unten gehen.

Und immer noch der selbe Mechanismus ist dann auch dafuer verantwortlich, dass es mehr als 100 komprimierte Gruppen gibt (und sogar unterschiedlich mehr). Das erklaer ich jetzt aber nicht haarklein und ihr, meine lieben Leserinnen und Leser møgt euch die Details selbst ueberlegen.

So weit so gut. Ich erklaere das hier so ausgiebig, weil sich dies in den entsprechenden Falschfarbenbildern in helleren Streifen aeuszern wird. Die erklaerte ich zwar damals bereits genauso, aber weil das hier in einem vøllig andersgeartetem Diagramm (und mit besserer Notation) auftritt, bin ich nochmal drauf eingegangen.

All das gesagt, kann ich ohne viele Worte die entsprechenden, relevanten Grafen zur Bedeutungskomprimierung der Linksgruppen zeigen:

Es ist bereits bekannt, dass’s ungefaehr drei Mal weniger Links- als Zitategruppen gibt. Interessant ist, dass so viele unkomprimierte Linksgruppen (deutlich) ueber 1 % aller Links repraesentieren. Deswegen waere es vllt. besser einen etwas høheren Anteil (bspw. 1.5 %) fuer die Komprimierung zu waehlen. Das Programm kann das jetzt, aber ich mache hier alles auch weiterhin mit 1 %.
Diesee hohe Werte sind dann auch der Grund, warum ich hier fuer beide Datensaetze weniger als 100 komprimierte Gruppen erhalte; 96 fuer die 2020 Daten und 97 fuer die 2023 Daten.

Ansonsten ist das qualitativ im Wesentlichen das Gleiche, sowohl zwischen den verschiedenen Datensaetzen, als auch im Vergleich mit den komprimierten Zitategruppen oben.
Ach so … im linken Diagramm scheinen kleine Linksgruppen der 2023 Daten um eins nach rechts verschoben zu sein, im Vergleich mit den 2020 Daten. Das liegt natuerlich wieder an der Wikipedia Hauptseite, die ja nun anscheinend auf (fast) allen Seiten auftaucht. Bei høheren Linksgruppenwerten sieht man das wegen der logarithmischen Achse nur nicht mehr.

Alles hier ist bereits neue (und interessante) Information die mir vorher gar nicht aufgefallen ist, weil sie mir gar nicht vor lag. Wieder „ans Licht gebracht“ wurde das alles durch das „neue Werkzeug“ … cool wa!

Weil die Daten hier nach der BEDEUTUNG der Achse komprimiert sind, werden beim Zitate-ueber-Zitate Falschfarbenbild die Reihen natuerlich auf exakt die selbe Art und Weise komprimiert wie die Spalten. Dito (mutatis mutandis), fuer das Links-ueber-Links Falschfarbenbild. Und bei „gemischter“ Bedeutung der Achsenkombinationen wird natuerlich die jeweils richtige Bedeutungskomprimierung fuer die entsprechenden Spalten oder Reihen benutzt. Aber diese ist dann die Selbe wie hier gezeigt. Das fuehrt bei den zwei „gemischten“ Achsenbedeutungskombinationen dennoch zu unterschiedlichen Ergebnissen, weil diese beiden Falschfarbenbilder ja nicht symmetrisch sind.

Uff … jetzt ist das doch schon wieder so viel geworden. Deswegen verschiebe ich die zweite Art der Komprimierung auf’s naechste Mal.

Ich wuensche euch, meinen lieben Leserinnen und Lesern, einen guten Rutsch und ein ganz hervorragendes 2025 :) .

Beim letzten Mal wurden die Spalten der Falschfarbendarstellungen normiert. Ohne weiteren Aufhebens schreibe ich heute nur, dass das Gleiche (mutatis mutandis) auch fuer die REIHEN der Falschfarbendarstellungen gemacht werden kann (und damals auch gemacht wurde). Oder anders: aus jeder originalen, nicht normierten Falschfarbendarstellung werden zwei normierte Falschfarbendarstellungen „geboren“ und beim letzten Mal zeigte ich nur eins der „Kinder“.

Zunaechst wieder der Reproduzierbarkeitsteil — das Zitate-ueber-Zitate Bild (mit normierten Reihen):

WOW! Der helle Bereich „springt“ um fast hundert Reihen nach oben von 2020 zu 2023! Mit allem was wir bisher wissen ist das aber leicht zu erklaeren. Der Grund fuer dieses Phaenomen liegt wieder einmal in der Wikipedia Hauptseite, die bei den 2020-Daten nicht dabei ist und ueber 5 Millionen Zitate auf sich vereint. Letzteres entspricht auf der Abzsisse der allerletzten Zitategruppe und die kann man hier nicht sehen, weil ich die Abzsisse bei Zitategruppe 200 abschneide. Wenn man sich das aber anschaut, dann ist da eine helle Spalte. Wenn man das in Betracht zieht wird die Frage warum es ueberhaupt einen hellen Bereich nahe der Ordinate gibt, und sich nicht nur alles am Ende tummelt, viel interessanter.
Zum Glueck ist das auch leicht zu erklaeren, denn eines der wichtigsten (noch nicht reproduzierten) Ergebnisse war, dass die Anzahl der Links und die Anzahl der Zitate zusammenhaengen. Je mehr von dem Einen, desto mehr von dem Anderen. Oder anders, wenn eine Seite nur wenige Zitate erhaelt, hat diese sehr wahrscheinlich nur wenige Links. Aber einer dieser Links geht definitiv zur Hauptseite waehrend sich die anderen Links i.A. ueber die gesamte Abzsisse verteilen kønnen (Letzteres muss gleich modifiziert werden, kann hier aber erstmal so bestehen bleiben). Das fuehrt natuerlich dazu, dass die letzte Spalte bei kleinen Werten auf der Ordinate immer heller wird, waehrend die Zaehler in den entsprechenden Zellen aller anderen Spalten nur ganz langsam grøszer werden.
Je høher man auf der Ordinate geht, desto mehr Zitate und damit mehr Links haben die entsprechenden Seiten. Prozentual gesehen nimmt der Anteil den die Hauptseite an der Anzahl der Links hat also ab. Und nun die erwaehnte Modifikation: auf der Abzisse gesehen gibt es viel mehr Seiten mit wenigen Zitaten als mit vielen Zitaten. Ja, die Links zitieren dann zwar Seiten die sich prinzipiell „gleichmaeszig ueber die gesamte Abzsisse ausdehnen“, aber es werden viel mehr Seiten nahe des Ursprungs zitiert. Das bedeutet natuerlich, dass die Zaehler dort høher zaehlen als in den allermeisten anderen Spalten und deswegen hat man einen hellen Bereich nahe der Ordinate, der dann sogar den Zaehler der Hauptseite ueberstrahlen kann (eben weil der entsprechende „Zaehler“ prozentual weniger „reinhaut“).

Ich schrieb das so ausfuehrlich, weil man das „Springen“ in allen reihenweise normierten Bildern sieht. Der Rest ist wie beim letzten Mal im Wesentlichen wieder nur „Rauschen“ und die Veraenderungen desselben. Womit ich direkt zum ich zum Links-ueber-Zitate Bild (mit normierten Reihen) ueber gehen kann:

Hier sieht man den „Sprung“ besser, weil sich die Ordinate nicht so lang hinzieht … ansonsten nix weiter von Interesse und deswegen geht’s gleich weiter zum Links-ueber-Links Bild (mit normierten Reihen):

AHA! Hier sehen wir den Uebeltaeter!  … .oO(oder ist es eher eine Uebeltaeterin, denn das Substantiv „Seite“ ist weiblich?) … ja genau … hier sehen wir die Uebeltaeterin! Und was ich oben in vielen Worten beschrieb (auch wenn es keine 1000 waren) ist hier sofort zu sehen. Ich nehme an (habe es aber nicht nachgepreuft), dass der helle Streifen bei Linksgruppe 150 auf der Abzisse der Wikipedia Hauptseite entspricht. Hier hatte ich also Glueck, dass besagte Seite weniger als 200 Links hat (ich bin ziemlich sicher, dass die Anzahl der Links und die Zitategruppe hier noch 1:1 „projiziert“ werden) und damit nicht im abgeschnittenen Teil des Bildes landet.

Als Letztes noch schnell das Zitate-ueber-Links Bild (mit normierten Reihen) …

… und da ich oben bereits alles haargenau erklaerte, sieht man sieht hier eigtl. nix Neues. … Ach ja … der zweite, schwaechere, vertikale Streifen wird wohl zu der (anderen) Seite gehøren die ueber 1 Million Zitate auf sich vereint, bei der ich aber nie nachschaute um was es sich dabei handelt.

Beim letzten Mal hatte ich ganz zum Schluss noch ein Bild ohne „abgeschnittene“ Ordinate gezeigt, und dort sah man helle vertikale Streifen. Wenn man sich alles, also ohne „abgeschnittene“ Abzsisse, anschaut, denn sieht man solche Streifen auch hier wieder. Diesmal sind die natuerlich horizontal und treten wieder nur auf, wenn die Ordinate (da wir die Reihen normieren) die Linksgruppe praesentiert. Da diesbezueglich hier nix weiter zu holen ist und ich dazu alles schon beim letzten Mal sagte, spare ich mir das entsprechende Bild zu zeigen.

Sooo … das war’s … noch nicht, denn damals hatte ich den Eindruck, dass sich in den groszen schwarzen Bereichen noch Information versteckte. Um die aufzuspueren musste ich aber die Daten noch mehr bearbeiten. Diesen Prozess konnte ich auch erweitern und generalisieren und darauf gehe ich dann beim naechsten Mal ein (und sicher auch beim uebernaechsten Mal … und vielleicht darueber hinaus … das weisz ich gerade aber noch nicht).

Weil man damals nicht viel sah (und immer noch nicht viel sieht), wenn man sich alles auf einmal anschaut bzw. nur das bisschen was um den Ursprung rum passiert, normierte ich die Matrizen.
Kurz zur Wiederholung: Normierung bedeutet in diesem Fall, dass ich alle Werte einer Spalte durch den grøszten Wert in besagter Spalte dividiere. Dadurch wird die maximale Intensitaet auf eins festgesetzt und alle Spalten haben den selben maximalen Wert (nur eben (mglw.) an anderen Stellen).

Durch die Normierung wurde das viele Schwarz zumindest teilweise deutlich farbenfroher und man konnte viel mehr von dem sehen was eigentlich passiert. Das Wort „teilweise“ bezieht sich darauf, dass sich die Farben immer noch nahe der Abzsisse „tuemmelten“ … weswegen die Bilder hier und heute zwar den gesamten Definitionsbereich zeigen, auf der Ordinate aber nur bis zum Wert 200 gehen.

Und los geht’s wieder mit dem Reproduzierbarkeitsteil — das Zitate-ueber-Zitate Bild (mit normierten Spalten):

Bis auf eine Ausnahme passiert nix Wesentliches. Vielleicht gibt es ein Muster in den Bildern, ich denke aber, dass die Laenge und Intensitaet der einzelnen Spalten zufaellig ist. Das nennt man auch „Rauschen“ und Rauschen veraendert sich nunmal ueber die Zeit.
Die Ausnahme ist der helle Streifen in den 2020-Daten bei einer Zitategruppe von ca. 2600. Der ist entweder nicht mehr existent in den 2023 Daten, oder hat sich deutlich nach rechts, in die Naehe von Zitategruppe 5000 verschoben. Auch wenn ich das nicht geprueft habe, so denke ich nicht, dass Ersteres zutrifft. Der Grund liegt darin, dass sich der helle Streifen damals als zur Seite CinemaScore gehørend herausstellte. Die ist zu wichtig um einfach zu verschwinden. Auszerdem stellte sich damals auch heraus, dass die Art und Weise wann besagte Seite zitiert wird etwas speziell ist und dieses Spezielle kønnte eine deutlich høhere Anzahl an Zitaten drei Jahre spaeter durchaus mit einschlieszen.

Das schlieszt den Reproduzierbarkeitsteil ab und wie beim letzten Mal gehe ich sofort zum Links-ueber-Zitate Bild (mit normierten Spalten) ueber:

Das ist ja nun etwas komplett Neues, aber ich denke, dass man auch hier wieder vor allem Rauschen und Veraenderungen darin sieht.
Im Vergleich zum (spaltennormierten) Zitate-ueber-Zitate Bild ist es interessant, dass der helle Bereich nicht auf nur ein paar wenige Reihen nahe der Abzsisse konzentriert ist sondern sich ueber fast 30 Reihen ausdehnt. Ebenso ist der „Start“ des hellen Bereichs um ca. 10 Reihen nach oben verschoben. Und dann sind da noch zwei „Artefakte“ (?); zwei Steifen die sich etwas nach rechts ziehen. Einer in Reihe 13 oder 14 der von Zitategruppe 0 bis ca. 500 / 600 reicht und ein zweiter, schwaecherer zwischen den Reihen 32 und 36, von ca. Zitategruppe 200 bis ca. 1200.
Ich lass das alles jetzt einfach so stehen und mache da nix weiter mit.

Vielmehr gehe ich direkt ueber zum Links-ueber-Links-Bild (mit normierten Spalten)

Im Wesentlichen wieder nur Rauschen. Es gibt aber eine Abweichung die von groszem Interesse ist: der helle Bereich laeuft nicht ueber die gesamte Abzsisse. Vielmehr wird dieser „schwaecher“ ab ca. Linksgruppe 700 und ist nur noch sehr schwach, mit vielen Unterbrechungen ab ca. Linksgruppe 1100.
Das bedeutet ja, dass Seiten mit vielen Links, NICHT am haeufigsten von Seiten mit wenigen Links zitiert werden, denn dann wuerde der helle Bereich sich komplett durchziehen. Vielmehr scheint es so, dass solche Seiten von anderen Seiten mit zum Teil deutlich mehr als 50 Links zitiert werden. Letzteres ist aber nicht systematisch und deshalb sind die hellen Pixel (also das Maximum einer Spalte) bei Seiten in Linksgruppen ueber ca. 1100 zu groszen Teilen wie die Sternen am Himmel (also zufaellig) verteilt. Ich komme ganz am Ende darauf zurueck.

Als (vor)letztes das Zitate-ueber-Links-Bild (mit normierten Spalten):

Ah ja … sieht im Wesentlichen aus wie erwartet — eine Mischung der oben diskutierten und gezeigten Phaenomene. Der helle Bereich ist wieder schmal und nahe der Abzsisse (weil die Ordinate die Zitategruppe darstellt) und weil auf der Abzsisse die Linksgruppen abgetragen sind, tritt auch hier der „Sternenhimmel“ auf. Deswegen schreibe ich da niz weiter zu.
„Komisch“ sind in den 2020-Daten nur die duennen vertikalen Streifen die um Zitategruppe 110 (auf der Ordinate) auftreten. Die sieht man zwar nicht mehr, wenn man sich das Links-ueber-Links Bild (mit normierten Spalten) der 2020-Daten ohne „abgeschnittene“ Ordinate anschaut …

 

… aber deren „grosze Bruder“ tauchen bei ungefaehr Linksgruppe 700 auf der Ordinate auf! Ich habe da keine Erklaerung fuer, denn ich habe das nicht weiter untersucht, es sieht aber dem „Blob“ von damals erstaunlich aehnlich. Nur dass ich damals noch deutlich mehr als eine Normierung machen musste um ueberhaupt auf diese Anomalie aufmerksam zu werden, und beim „neuen Werkzeug“ faellt das einfach so raus.
Es scheint sich hierbei um eine Art „Linksphaenomen“ zu handeln, denn ich sehe das NICHT in den Bildern bei denen die Abzsisse die Zitategruppen praesentiert. Auch hier wieder: das soll reichen und es folgt nix weiter.

Abschlieszend kann ich auch dieses mal sagen: cool wa! Das neue Werkzeug „keeps on giving“. Das war’s aber noch nicht, denn weil es zu viel geworden waere, bekommen die reihenweise normierten Bilder ihren eigenen Beitrag (den naechsten).

Nach der nøtigen Verallgemeinerung vom letzten Mal kann ich endlich zu den zweidimensionalen Falschfarbenbildern kommen. Nur eine kleine Sache muss ich noch erwaehnen. Meine Lieblingsfarbpalette fuer Falschfarbenbilder hat gewisse Probleme (in kurz: sie luegt mich an und gaukelt mir Sachen vor die gar nicht da sind; schau bspw. hier, etwas technischer hier). Ich wusste davon seit einigen Jahren. Dinge die einem am Herzen liegen, gibt man nur nicht so schnell auf. Aber nun endlich habe ich mich dazu durchgerungen eine andere Farbpalette zu benutzen, die nicht mit diesen Problemen einher kommt.

Hier ein Vergleich von alt und neu:

Es ist gerade noch nicht so wichtig, was man da sieht (denn ich komme gleich darauf zurueck). Wichtig ist, dass die Farbpalette von blau bis rot im hellgruenen Bereich eine viel høhere Intensitaet vermuten laeszt, als tatsaechlich da ist. Das ist nur das auffaelligste Merkmal (es gibt noch andere, wenn man genau hinschaut) und ich werde hier nicht darauf eingehen, inwiefern das Information hinzufuegt, die so nicht vorliegt. Aber all das tritt bei Benutzung der neuen Farbpalette nicht mehr auf.

Das soll dazu reichen und ich gehe sofort zum eigentlichen Thema ueber: Falschfarbenbilder die zeigen welche Seiten von welchen anderen Seiten zitiert werden.
Bereits damals stellte ich fest, dass man im Wesentlichen nur schwarz sieht (Wortspielkasse), wenn man sich alles anschaut und die „Action“ um den Ursprung herum passiert. Daran hat sich auch mit den 2023-Daten nix geaendert und deswegen zeige ich hier nur Bilder die sich auf die ersten hundert Bedeutungsgruppen (zum Quadrat) konzentrieren.

Fuer den Reproduzierbarkeitsteil (aber mit neuen Farben) der Vergleich des Zitate-ueber-Zitate-Bildes:

„OI! Da aendert sich doch aber gewaltig viel!“ kønnte man da sagen, denn die Intensitaet nimmt stark ab. Ihr meine lieben und aufmerksamen Leserinnen und Leser seht aber sicherlich sofort, dass sich auch die Farbskala gewaltig aendert. Und wenn man das vergleicht, dann ist das doch sehr aehnlich.
Der Grund fuer die viel weiter reichende Farbskala bei den 2023-Daten liegt in der einen Wikipedia Hauptseite die insgesamt ueber 5 Millionen Zitate erhaelt und in den 2020-Daten nicht dabei ist. Das ist buchstaeblich nur die allerletzte Spalte, und auch da nur ca. die ersten 23 Pixel, die den kompletten (Farb)Bereich voll ausnutzen. Die Farbwerte (aber nicht die Zahlenwerte) aller anderen Pixel ist dementsprechend herunter gesetzt. Die Aenderung ist somit ein technisches Artefakt und liegt nicht an den allgemeinen (!) 2023-Daten an sich. Wenn man besagte Hauptseite (und noch eine zweite Seite mit ueber 1 Million Zitaten, bei der ich aber nicht schaute um was es sich dabei handelt) entfernt, ist alles im Wesentlichen wie vorher. Und hier ist das entfernen vøllig OK, da es sich ja im einen tatsaechlichen Ausreiszer handelt, der gar nichts ueber die generelle Situation aussagt.

Von dem leicht zu korrigierenden, technischen Artefakt abgesehen passiert auch bei den 2023-Daten nicht viel. Das Intensitaetsmaximum liegt beide Male um 3 Zitate auf der Abzsisse und 1 Zitat auf der Ordinate und der leuchtende „Blob“ zieht sich parallel zur x-Achse ein wenig in die Laenge und bildet einen „duennen Schwanz“ aus.

Wenn man sich aber das Links-ueber-Zitate Bild anschaut wird’s in den 2020-Daten spannend:

Zum Einen verteilt sich die „Action“ mehr; der „Blob“ ist viel ausgedehnter. Zum Zweiten leigt das Maximum bei ungefahr 4 Zitaten auf der Abzisse und ungefaehr 11 Links auf der Ordinate. Zum Dritten dehnt sich der „Blob“ zwar relativ gleichmaeszig entlang beider Achsen aus, scheint die Richtung parallel zur Ordinate aber ein klein wenig zu bevorzugen. All das ist voll aufregend und gehørt untersucht. Aber nicht (mehr) von mir und nicht an dieser Stelle.
Abschlieszend zu diesem Bild ist wieder nur zu sagen, dass es keinen Unterschied in den 2023-Daten gibt. Die Aenderung der Intensitaet ist auch hier wieder nur ein Artefakt.

Auf zum Links-ueber-Links Bild:

Ich gehe jetzt nicht im Detail auf alle Merkmale ein, an den 2020-Daten sieht man aber leicht, dass es noch andere Informationen offenbart als beide vorherigen Darstellungen.
Interessant ist die helle, unterbrochene Linie, parallel zur Abzsisse, bei 12 Links auf der Ordinate. Dort treten etliche Pixel _deutlich_ hervor. Das ist bestimmt ein weiteres Artefakt und es wuerde mich nicht wundern, wenn es sich dabei um Seiten handelt, die ich hier als „Information Operations“ bezeichnete. Diesmal liegt das Artefakt aber nicht in der Darstellung, sondern in den Daten … andererseits dachte ich auch beim „São-Paulo-FC“-Phaenomen, dass es sich dabei um ein Artefakt handelt und das stellte sich dann nur als extremste Ausfuehrung einer systematischen Sache heraus.

An dieser Linie sieht man auch die einzigen zwei echten Unterschiede zu den 2023-Daten. Zum Einen scheint die Linie um eins nach oben zu „springen“. Ich wuerde zunaechst nicht ausschlieszen, dass ich da einen Fehler gemacht habe. Denke aber nicht, dass dem so ist.
Vielmehr vermute ich, dass der Hintergrund wieder die Wikipedia Hauptseite ist. Ein Link dahin scheint bei den 2023-Daten in (fast) allen Seiten drin zu sein (denn andernfalls haette die nicht so viele Zitate). Wenn besagter Link zwischen Ende 2020 und Ende 2023 automatisch zu allen Seiten hinzugefuegt wurde, heiszt das ebenso, dass die Anzahl der Links aller Seiten um eins nach oben geht. Das wuerde die hier nicht mal erwaehnte, weil so schwache, ganz leichte Verschiebung der roten Kurve erklaeren … wenn man genau hinschaut, scheinen dort alle Seiten um eins nach rechts gehuepft zu sein. Aber auch das werde ich mir nicht weiter anschauen … ich erwaehnte es nur als plausiblen Mechanismus, der die Unterschiede einfach erklaeren wuerde.
An der Linie sieht man noch einen weiteren Unterschied: die Position der hellen Punkte verschiebt sich auch entlang der Linie (bzw. verschwinden diese zum Teil vøllig). Das sieht mir nach ’ner „Hausmeisteraktion“ bei der Wikipedia aus, bei der bspw. „Information Operations“-Seiten geløscht wurden. Ein paar solcher Seiten konnten „entkommen“, bzw. rutschten vermutlich gerade unter die Erkennungsgrenze die fuer solche Seiten festgelegt wurde.

Und nun noch schnell das Zitate-ueber-Links Bild:

Man sieht an den 2020-Daten, dass es von allen drei neuen Achsenbedeutungskombinationen am meisten dem Zitate-ueber-Zitate Bild zu aehneln scheint. Es gibt aber Unterschiede die sich lohnen naeher zu betrachten … ihr, meine lieben Leser und Leserinnen ahnt es aber sicherlich schon: das wird nicht hier passieren und auch nicht (mehr) von mir gemacht werden.

Das soll reichen fuer heute. Ich møchte nur noch erwaehnen, dass erst dieses (neue) Werkzeug das (obige) Fuellhorn an Informationen zur Verfuegung gestellt hat. Das ist so’n bisschen wie damals (also ganz damals, viel frueher als mein Kevin-Bacon-damals) beim Mikroskop; die Informationen waren ja die ganze Zeit schon da, ich hab die nur (fast) nicht gesehen, weil ich die nicht „im richtigen Lichte“ betrachtet habe, weil mir bis vor Kurzem das richtige Werkzeug dazu fehlte.

Cool wa … das was eigentlich nur als Reproduzierbarkeit des ganzen Krams gedacht war hat (schon wieder) was Neues hervorgebracht. Wie ich es schon øfter erlebte, lohnt es sich sehr, am Ende nochmals auf eine Sache zu schauen mit der man sich laengere Zeit beschaeftigte. Denn dann kennt man viele der Details und wenn man das „Bild“ dann aus grøszerem Abstand anschaut, sieht man neue Sachen, die man vorher nicht sehen konnte, weil man eben diese Details noch nicht kannte. Aber ich fange an mich im Kreis zu bewegen und mache deswegen nun wirklich Schluss fuer heute.

Ohne lange Vorrede, knuepfe ich recht direkt beim letzten Mal an.
Urspruenglich schaute ich nur auf die Zitate die eine Wikipediaseite auf sich vereinte und betrachtete diese als ein Masz fuer die „Relevanz“ besagter Seite. Ich definierte (nicht formal, aber irgendwie schon) dann, dass der „Relevanzwert“ eine Art „Projektion“ der Anzahl der Zitate auf eine kontinuierliche Verteilung ist. Hier bin ich damals naeher darauf eingegangen; dennoch zur Wiederholung zwei kurze Beispiele.
– Seiten mit wenigen Zitaten werden 1:1 „projiziert“. Es gibt Seiten mit, zwei, drei, vier, oder fuenf Zitaten und deren „Relevanzwert“ entspricht dann auch 2, 3, 4 oder 5.
– Bei vielen Zitaten kommt es aber zu Luecken. Bspw. kønnte es (eine) Seite(n) mit 235 Zitaten geben, was dann (noch) einem „Relevanzwert von 235 entspricht. Wenn es nun keine Seiten mit 236 oder 237 Zitaten gibt (eine Luecke) sondern erst wieder mit 239 Zitaten, so werden Letztere einem „Relevanzwert“ von 236 (ohne Luecke!) zugeordnet.

Soweit zur Auffrischung alter Sachen. Aber eigentlich will ich vom Begriff „Relevanzwert“ weg kommen. Der Grund liegt in dem was ich beim letzten Mal schrieb: auch die Anzahl der Links die eine Seite hat ist von Interesse. Die kønnen aber nicht mehr (oder vielmehr nicht auch) als Relevanzwert angesehen werden. Dennoch møchte ich gerne zwischen Anzahl Zitaten und Anzahl Links unterscheiden kønnen.
Das oben beschriebene Prinzip hilft aus dem Dilemma heraus, denn alle Seiten welche die selbe Anzahl an Zitaten / Links haben (je nachdem, was man betrachtet) werden in eine Gruppe „geschmissen“. Und das was dann auf der jeweiligen Achse des zweidimensionalen Falschfarbenbildes abgetragen ist, entspricht der Bedeutung der Achse. Somit kommt man leicht zu den Bedeutungsgruppen, bzw. ganz konkret: Zitategruppen bzw. Linksgruppen. Am Prinzip aendert sich aber nix, nur der Name ist anders und die Interpretation bzgl. dessen fuer was besagtes Prinzip steht ist verallgemeinert worden.

An der Stelle kann ich mich um den Reproduzierbarkeitsteil des Anhangs kuemmern. Fuer die Daten von 2020 gab es nur 5,696 verschiedene Møglichkeiten wieviele Zitate eine Seite haben konnte. Weil man bei der Null anfaengt zu zaehlen (denn es gibt Seiten die keine Zitate haben), entspricht das einem høchsten Relevanzwert von 5,695. Hier ist der Vergleich mit den Daten von 2023:

Man sieht, dass sich die 2023 Daten (rote Punkte) ab ca. 3-tausend Zitaten ueber die 2020-Daten erheben. Die Vielfalt in der Anzahl der Zitate die eine Seite haben kann ist also grøszer in den neueren Daten (und damit steigt die Anzahl der Zitategruppen). Wie oben erwaehnt, werden Seiten mit wenigen Zitaten 1:1 auf die entsprechende Gruppe „projiziert“ … am Grafen kann man ablesen, dass „wenig“ bis ca. 3-tausend Zitate bedeutet.
Insgesamt gibt es in den 2023-Daten 6164 Zitategruppen, also nicht ganz 500 mehr als in den 2020-Daten.

Die S-Form hat nix zu sagen und kommt durch die halblogarithmische Darstellung zustande. Diese waehlte ich aus zwei Gruenden. Zum Einen, weil eine Seite (es ist die Hauptseite … ich frage mich uebrigens, warum die nie in den 2020-Daten auftauchte … vielleicht hat sich seitdem was in der Wikipedia an sich geaendert … oh … ich schwoffte ab) ueber 5 Millionen Zitate erhaelt und man bei linearer Abzsisse nix Relevantes sehen wuerde (nur eine Kurve die senkrecht nach oben geht und dann flach verlaeuft). Zum Zweiten, weil es bei einer logarithmischen Ordinatebei hohen Zitategruppen(zahlen?) zur „logarithmischer Komprimierung“ kommt und man dadurch auch wieder nix Relevantes (naemlich den Unterschied) sieht.

Alles in allem wuerde ich dies als reproduziert ansehen. Die Aenderung der Anzahl der Zitategruppen war zu erwarten und die Aenderung liegt jetzt nicht vøllig wild ganz woanders (bei 5 Trillionen oder so … oder auch nur ’nem Faktor 2 wenn man mal drueber nachdenkt).

Und nun kommt was Neues … und Altes was aber auch neu ist, weil ich’s vorher noch nicht gezeigt hatte: die „Projektion“ der Anzahl der Links die eine Seite haben kann auf die Linksgruppen:

Man beachte die andere Skalierung! Weil die Anzahl der Links nicht so hohe ExtremMaximalwerte hat, konnte ich beide Achsen linear belassen. Man kann aber erahnen, was ich oben mit „senkrecht nach oben und dann flach“ meine; bzw. wie nuetzlich die „logarithmische Komprimierung“ ist … aber das zog sich ja immer wieder durch diese Serie. Desweiteren sieht man eine andere, bereits erwaehnte Sache: bis ca. 1500 Links ist der Anstieg der Kurve linear und das entspricht einer (im Wesentlichen) 1:1 „Projektion“.
Ansonsten ist nur noch zu sagen, dass die Anzahl der Linksgruppen nur ca. 1/3 der Anzahl der Zitategruppen betraegt und dass besagte Anzahl auch hier (leicht) zunimmt in den 2023-Daten.
Alles in allem ist das zwar neu, aber gleichzeitig auch eine Reproduktion … toll wa! Der fruehe Wurm faengt gleich zwei Spatzen auf dem Dach :) .

Juti … das soll reichen fuer heute. Beim naechsten Mal … … … *ueberleg* … … … gibt’s dann endlich wieder bunte Bilder. Da muss ich aber noch ueberlegen, wie ich das aufziehe.

Beim letzten Mal war ich mir noch unsicher, ob ich versuche die Relevanzbetrachtungen zu reproduzieren. Ich dachte, dass man da ohnehin nix sieht. Aber dann packte mich (mal wieder) mein Ehrgeiz und es passierte etwas Aehnlichs wie bei der Simulation von Namen.
Oder vielmehr passierte viel mehr, denn ich schrieb nicht nur den entsprechenden Programmcode neu. Denn beim Neuschreiben verallgemeinerte ich auch alles und entdeckte dabei, dass die Relevanzdiskussion nur ein spezifischer Fall ist, wie die Daten auf diese Art betrachtet werden kønnen. Deswegen der Reihe nach …

… und los geht’s gleich mit dem was eigentlich betrachtetet wird.
Damals interpretierte ich die Anzahl der Zitate die eine Seite von anderen Seiten erhielt als ein Masz fuer die „Relevanz“ einer Seite. In den zweidimensionalen Falschfarbenbildern repraesentierten die Spalten der Abzsisse und auch die Reihen der Ordinate besagte Anzahl an Zitaten.
Ein Beispiel zur Veranschaulichung: man denke sich eine Seite die insgesamt 3 Zitate erhalten hat. Diese Zitate kamen von einer Seiten die selber nur einmal zitiert wurde, einer Seite mit 23 Zitaten und einer Seite mit 23517 Zitaten. Die erste Zahl entscheidet wo man auf der Abzsisse „landet“; in diesem Fall in Spalte #4 (die Zaehlung geht bei Null los, denn es gibt Seiten die keiner zitiert). Nach oben in dieser Spalte geht der Zaehler in den Zellen #2, #24 und #23518 um eins hoch, denn diese Zellen liegen in den Reihen auf der Ordinate die einem, 23 und 23517 Zitaten (welche die Seiten haben die die allererste Seite zitieren) entsprechen.
Wenn man das fuer alle Wikipediaseiten macht, dann baut sich das zweidimensionale Falschfarbenbild der Reihe nach auf. Bei manchen Zellen geht der Zaehler viele Male um eins nach oben (und die wurden damals rot im Falschfarbenbild) und bei anderen (den meisten) gar nicht (die blieben damals blau).
Oder anders: ich schaute damals wie „relevant“ die Seiten waren, die (andere) Seiten mit einem gegebenen „Relevanzwert“ zitiert haben und hier hatte ich das im Detail besprochen.

Nun ist die Anzahl der Zitate aber nur eins (von zwei) Merkmalen die eine Seite kennzeichnen. Das andere ist die Anzahl der Links.
Zur besseren (wenn auch definitiv nicht richtigen) Veranschaulichung, kønnte man sich besagte Anzahl der Links als eine Art „Recherchewert“ vorstellen. Je mehr Links eine Seite hat, um so besser ist diese recherchiert.
Dann kønnte man schauen, wie gut die Seiten recherchiert sind, die (andere) Seiten mit einem gegebenen „Relevanzwert“ zitiert haben. Man wuerde hier also die Anzahl der Links ueber der Anzahl der Zitate auftragen.
Dieses Diagramm ist aber nicht symmetrisch, denn die Relation wie die Daten zustande kommen geht nur in eine Richtung — (die auf der Ordinate abgetragenen Seiten zitieren die auf der Abszisse abgetragenen Seiten). Man kann das „Links-ueber-Zitate“-Falschfarbenbild also nicht „rueckwaerts“ lesen, wenn man wissen will wie „relevant“ die Seiten waren, die (andere) Seiten mit einem gegebenen „Recherchewert“ zitiert haben. Um das zu untersuchen muss man „Zitate-ueber-Links“-Falschfarbenbild erstellen.
Als Letztes kann man dann auch noch schauen, wie gut die Seiten recherchiert sind, die (andere) Seiten mit einem gegebenen „Recherchewert“ zitiert haben. Das entspricht einem „Links-ueber-Links“-Falschfarbenbild.

Oder anders: die „Bedeutung“ der Achse kann sich aendern, je nachdem, was darauf abgetragen ist. Das wiederum ist ein maechtiges Werkzeug, mit dem man viel ueber die Daten herausfinden kann. Damals ist mir das entgangen und ich entdeckte das erst jetzt, beim nochmals drueber nachdenken.

Nun ist das Kevin Bacon Projekt aber eigentlich abgeschlossen und ich habe auch keine Lust mehr, das alles detailliert zu untersuchen. Andererseits møchte ich besagtes Werkzeug genau besprechen.
In den naechsten paar Beitraegen wird Letzteres passieren und dabei werde ich „zweigleisig“ Diagramme und Falschfarbenbilder praesentieren. Um der Reproduzierbarkeit gerecht zu werden, werde ich Falschfarbenbilder vergleichen, bei denen die „Bedeutung“ beider Achsen der Anzahl der Zitate entspricht, die aber zum Einen aus den Daten von 2020 und zum Anderen aus den Daten von 2023 generiert wurden.
Dies wird aber nur einen (relativ kleinen) Teil ausmachen, denn ich møchte auch die Falschfarbenbilder aller anderen Achsenbedeutungskombinationen vorstellen. Auch dabei werde ich den Vergleich anfuehren, allerdings sind solche Bilder ja auch dann neu, selbst wenn sie mit Daten aus dem Jahre 2020 entstanden sind.

Bei all dem (denn das wird schon genug), werde ich nicht (nochmal) alles genau anschauen. Im Wesentlichen habe ich vor, nur besagte Falschfarbenbilder rein zu stellen als Veranschaulichung dessen, was das Werkzeug kann und ich habe vor den Fokus der Diskussion auf Letzteres zu legen.
Andererseits muss ich auch auf ein paar Dinge im „Dunstkreis“ dieses Werkzeugs eingehen. Auch hier habe ich vor 2020-Daten mit 2023-Daten zu vergleichen.

Das soll reichen fuer heute. Und weil’s systematisch vonstatten gehen soll, muss ich beim naechsten Mal zunaechst den „Relevanzwert“ nochmals genauer betrachten (und dabei zum „Bedeutungswert“ verallgemeinern).

Als naechstes hatte ich mir damals die Histogramme bzgl. der Zitate die eine Seite erhaelt und danach bzgl. der Links die eine Seite hat angeschaut. Beim naeheren Anschauen des Histogramms bzgl. der Zitate wurde ich zum ersten Mal bewusst auf  maechtige Gesetze aufmerksam. Hier und heute vergleiche ich in diesen beiden Diagrammen …

… die angesprochenen Histogramme, gebildet mit den alten und mit den neuen Daten (man beachte die unterschiedlichen Abzsissen!). Man sieht, dass sich nix Wesentliches veraendert hat.
Bei den Zitierungen gibt es nur zwei neue Seiten, die mehr als 1 Million Zitate haben. Insb. die zweite Seite davon, mit ueber 5 Millionen Zitaten, spielt gleich nochmal eine Rolle. Bei den Links hat sich die Anzahl der Seiten mit wenigen Links etwas vermindert. Keine dieser Aenderungen wuerde ich jetzt aber derart einschaetzen, dass qualitativ, oder auch quantitativ (innerhalb gegebener Grenzen), andere Schlussfolgerungen aus den Daten zu ziehen sind.

Danach hatte ich mir den kumulativen Anteil der Seiten und Zitate / Links angeschaut (als Diagramm kuriosweise zuerst bzgl. der Links und dann nachgeliefert bzgl. der Zitate). Hier der Vergleich der alten Kurven mit den neuen Kurven diesbezueglich (man beachte wieder die unterschiedlichen Abzsissen):

Wieder kann im Wesentlichen gesagt werden, dass sich nix geaendert hat. Wie auch, denn diese Kurven folgen ja aus den obigen Histogrammen.
Im Detail geschaut scheint bzgl. der Zitate die blaue Kurve fuer grosze Werte auf der Abzsisse etwas „abzusacken“. Das ist schnell geklaert und einzig und allein durch die eine, oben erwaehnte Seite zurueckzufuehren. Diese haeuft naemlich ueber 5 Millionen Zitate nur auf sich selber an und das macht dann den „Knick und Sprung“ ganz am Ende und „schiebt“ den Rest der Kurve nacht unten. Weil’s nur eine einzige Seite ist, hat das keine Auswirkungen auf die rote Kurve und nimmt man diese Seite raus, sind die blauen Kurven beinahe deckungsgleich.
Bzgl. der Links ist die leichte „Verschiebung nach unten“ bei der neuen roten Kurve durch die gerungfuegig geringere anzahl an Seiten mit wenigen Links zu erklaeren.

Das soll reichen fuer heute :) . Ich bin mir noch nicht sicher, ob ich mir die Relevanzbetrachtungen nochmal anschaue, denn diese folgen mittelbar ja auch nur aus obigen Histogrammen. Auszerdem hatte ich da „nur“ bunte 2D-Falschfarbendarstellungen bei denen ich genau „reinzoomen“ musste um Details zu besprechen. Oder anders: bei denen sieht man bei so kleinen Veraenderungen ohnehin keinen Unterschied (und „reingezoomt“ hatte ich nur bei Anomalien die vermutlich immer noch da sind und wenn nicht mir auch nix ueber das Grosze und Ganze verraten). Solche „bunten Karten“ kann ich auch nicht zum besseren Vergleich uebereinander legen. Vermutlich werd ich da also nicht nochmal drueber schauen mit den neuen Daten … allerdings dachte ich zunaechst genau so bzgl. der Simulation von Namen … mhm mhm mhm.

Als ich mich das erste Mal mit der Verteilung der Laenge der Wikipediaartikeltitel beschaeftigte, simulierte ich sehr viele Namen um etwas genauer zu untersuchen und meinte beim letzten Mal bzgl. der Simulation:

Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten abhaengig und wuerde heute genauso ausfallen.

Und damit lag ich zwar nicht komplett daneben … es war aber auch nicht ganz richtig, denn ich kam sehr wohl auf andere Ergebnisse. Dazu weiter unten mehr.

Zunaechst møchte ich aber nochmal darauf eingehen, wieviele Vornamen man braucht um 50 Prozent aller Babies einen Namen zu geben (wenn diese nach der Beliebtheit ihrer Vornamen sortiert werden). Das war selbst mir zu periphaer vor drei Jahren und ich hatte das deswegen in den damaligen Geburtstagsbeitrag ausgelagert (ich meine das zweite Bild). Dabei hatte ich aber nur Daten betrachtet die „ueber alle Babies gehen“ (also eine Art „Summensignal“).
Jetzt beim Neuschreiben der Programme fuegte ich eine Funktion ein, welche mir auch die zwei Teile dieses „Summensignals“ separat ausspuckt. Oder anders: ich habe jetzt auch nach Maechen und Jungs getrennte Ergebnisse und das sieht so aus:

Das „Summensignal“ (graue Punkte) ist das Selbe wie beim vor drei Jahren (auszer, dass drei weitere Jahre dazugekommen sind). Ich fand es aber erstaunlich, dass die Variation bei den Maedchennamen immer ca. 1.5 bis fast 3 Mal grøszer ist (siehe die blauen Punkte). Maedchennamen machen also den Hauptteil am Summensignal aus und deswegen bringe ich das hier doch nochmal, denn das habe ich ja damals ueberhaupt nicht gesehen.
Nun stellt sich natuerlich die Frage warum das so ist, welche ich hier aber nicht beantworten kann (einfach weil ich’s nicht weisz und nicht wuesste wie ich an entsprechende Daten kommen kønnte). Aber zwei potentielle Ursachen fallen mir ein. Zum Einen, kønnten Jungs staerker irgendwelchen Namenstraditionen unterliegen als Maedchen; der Uroppa hiesz schon so und deswegen heiszt der Enkel auch so. Zum Anderen kønnte es aber auch sein, dass es mglw. mehr Maedchennamen als Jungsnamen gibt; der „Maedchennamentopf“ ist also „grøszer“. Das wuerde nicht mal unbedingt mit dem Anstieg ab ca. Mitte der 80er Jahre im Konflikt stehen, denn das Verhaeltniss der Namen bleibt (so ungefaehr) das Gleiche. Besagter Anstieg haengt mglw. mit dem demographische Wandel in den USA zusammen, was zu einem (viel) mehr an Namen fuehrt. Aber dieses „Mehr an Namen“ verteilt sich (mehr oder weniger) gleichmaeszig ueber Jungs- als auch Maedchennamen.

Das war das Ergebnis das sich nicht aenderte. Im gleichen Geburtstagseintrag zeigte ich aber auch die Parameter der Gausskurven fuer jaehrliche Simulationen … und die haben sich geaendert. Hier sieht man das fuer die Position des Zentrums …

… welches im Mittel jetzt sogar noch besser mit dem beim letzten Mal erwaehnten „Hauptprozess“ uebereinstimmt … und hier fuer die Amplitude und Standardabweichung besagter jaehrlichen Gaussfits:

Zum Glueck liegen die Ergebnisse nicht nur in der selben Grøszenordnung, sondern auch innerhalb des selben (sehr engen) Bereichs. Auszerdem sind die allgemeinen Merkmale (wann die Kurven hoch oder runter gehen bzw. so ungefaehr gleich bleiben) im Wesentlichen auch die Gleichen. Ja es gibt Abweichungen (die ja auch der Grund sind, warum ich das hier doch nochmal bringe) aber weil sich das alles ohnehin in sehr engen (Zahlen)Bereichen befindet sind sowieso nur die grøszeren Trends von Interesse und deswegen aendert sich an meinen damaligen Aussagen nix.

Aber es machte mich natuerlich sehr stutzig, dass bei gleichen Ausgangsdaten (zur Erinnerung: fuer diese Simulationen benutzte ich externe Namensdaten und nicht die Wikipedia und an denen hat sich nix geaendert seit 2021) und eigentlich (und auch uneigentlich) gleicher Methode ueberhaupt etwas anderes raus kam.
Es stellte sich heraus, dass der Fehler bei mir lag. Zur Erinnerung: beim zufaelligen „Ziehen“ von Namen aus dem groszen Namenstopf war die Wahrscheinlichkeit einen bestimmten Namen zu ziehen davon abhaengig wie oft der (im jeweiligen Jahr) an Babies vergeben wurde. Fuer 1880 gab es also viele Marys und Johns im Namenstopf, aber nur sehr wenige Wilmas und Zachariahs.
Wie oft ein Name im Topf vorkommt berechnete ich nun so, dass ich die Anzahl der Babies mit einem gewissen Namen durch die Anzahl aller Babies teilte (so weit so gut) und dann mit der Anzahl der Namen die ich insgesamt simulieren wollte multiplizierte (immer noch so weit so gut). Aber weil ich bei meinem selbtgeschriebenen „Namen-aus-dem-Topf-zieh“-Algorithmus nur mit ganzen Zahlen arbeiten konnte, hab ich bei dezimalen Wahrscheinlichkeiten einfach alles nach der ganzen Zahl abgeschnitten. Fuer Namen die im Namenstopf oft genug vorkommen macht das keinen groszen Unterschied. 23517.5 ist nicht viel anders als 23517 … das kann man sogar fuer 10.9 noch argumentieren … mglw. sogar noch fuer 5.5 oder auch fuer 3.9 (selbst hier ist der Fehler ja nicht mal 25 %).

Aber bei all zu kleinen Zahlen kann das Abschneiden der Dezimalstellen im Groszen und Ganzen zu Problemen fuehren, denn es gibt recht viele Namen die bei meinem „selbstgestrickten“ Algorithmus nur ein- oder zweimal im Namenstopf waren und deswegen im Extramfall nur halb so oft gezogen wurden, wie sie haetten gezogen werden sollen.
Beim nochmal Neuschreiben des Programms habe ich das nicht nochmal selbst geschrieben, sondern geschaut was in den vielen umfangreichen Mathebibliotheken von Python zu finden ist und ein entsprechendes Modul benutzt. Besagtes Modul macht alles richtig und deswegen sieht es jetzt anders aus, weil die „Ziehwahrscheinlichkeit“ nun auch fuer sehr selten vorkommende Namen richtig ist.
Zum Glueck ist es aber so, dass sehr selten vorkommende Namen nur sehr selten gezogen werden (selbst wenn mein erster Algorithmus die sogar noch seltener gezogen hat) und deswegen sind die ersten Ergebnisse nicht komplett falsch sondern nur im Detail.

So, das soll jetzt dazu reichen und ich verbleibe wie beim letzten Mal:

[…] wenn ich das richtig sehe, dann gibt’s beim naechsten Mal nicht so viel zu schreiben … aber ich sollte lieber nix versprechen, was ich vermutlich nicht halten kann.