Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 5 (Verteilungen pro Linklevel I): totale Links und Anzahl Links pro Anzahl Zitate (a)

Nach den Relevanzbetrachtungen folgten damals drei Monate lang technische Beitraege auf die ich hier nicht nochmal eingehen muss. Aber danach ging es dann endlich los mit den Linknetzwerkeigenschaften und zunaechst betrachtete ich den Anstieg der Verteilung der Anzahl der (totalen) Links (und hier auch) pro Linklevel. Nur daraus folgten naemlich etliche sehr interessante Erkenntnisse und das muss ich ueber die naechsten paar Beitraege reproduzieren (ich versuche mich kurz zu halten).
Wie immer: die damals naeher betrachteten grøbsten Abweichungen schaue ich mir nicht nochmal an. Dito bzgl. der damals daran anschlieszenden Fehlerbetrachtung.

Der Anfang ist schnell gemacht, denn bei der Summe (ueber alle Seiten) der totalen Links pro Linklevel ist nicht viel passiert:

Der grøszte Unterschied liegt im Ende, das von 72 Linkleveln in den 2020 Daten zu 83 Linkleveln in den 2023 Daten gewandert ist. Ansonsten sind die Unterschiede marginal (also wie erwartet) und die Form der Kurve bleibt erhalten.

Um den starken Anstieg am Anfang zu erklaeren stellte ich mal damals die Anzahl der Links ueber der Anzahl der Zitate fuer alle Seiten dar … und erhielt einen „schwarzen Klumpen“. Hier …

… habe ich das reproduziert und wieder gibt es keine groszen Unterschiede. Auszer im Diagramm an sich, denn damals ist mir nicht aufgefallen, dass die „Nullwerte“ (also entweder keine Zitate oder keine Links) abgeschnitten wurden. Wieder ist wichtig, dass die Form des „schwarzen Klumpens“ im Wesentlichen erhalten bleibt; sogar der kleine „Pøppel“ der oben rausschaut und insb. die „Abbruchkante“ auf der rechten Seite.

In diesem Diagramm ist eine Information versteckt, die ich damals nicht weiter betrachtet hatte: die Anzahl der Seiten mit eindeutigen Zitate-Links-Kombinationen. Ein Beispiel: man nehme an, dass es 8 Seiten gibt, die 23 Zitate und 5 Links haben. Diese 8 Seiten sind alle in nur einen einzigen Punkt gequetscht.
Weil ich die Programme die das auswerten nochmal neu geschrieben habe, hab ich’s jetzt eingebaut, dass diese Information mit „ausgespuckt“ wird … und das sieht dann so aus:

ACHTUNG: bei diesen „flachen“ Bildern „versteckt“ sich jeweils eine Dimension in den Punkten an sich; im linken Diagramm die Anzahl der Links und im rechten Diagramm die Anzahl der Zitate. Mit dem Zahlen aus dem obigen Beispiel haette man dann im linken Diagramm einen Punkt bei den Koordinaten (23, 8) und im rechten Diagramm bei den Koordinaten (5, 8). Weil aber die Information jeweils einer Dimension verloren geht, kønnte im linken Diagramm direkt darunter ein Punkt sein, der die sieben Seiten repraesentiert die AUCH 23 Zitate haben, aber mit 42-tausend Links. Diese sieben Seiten wuerden im rechten Diagramm dann natuerlich auch „eins unter“ dem urspruenglichen Beispielpunkt sein, aber natuerlich viel weiter rechts davon (also mitnichten in der inmittelbaren Naehe). Im Gegensatz dazu kønnte ebenso auf unserem urspruenglichen Beispielpunkt (im linken Diagramm) ein weiterer Punkt liegen, der die 8 Seiten repraesentiert die AUCH 23 Zitate haben, aber 23,517 Links. (Hausaufgabe: man ueberlege sich wo dieser Punkt im rechten Diagramm liegen wuerde).

Eigentlich sollte man das also dreidimensional darstellen. Aber zum Einen sind solcherart Darstellungen mit logarithmischen Achsen schwer zu machen (es geht sicher, aber nur mit rumtricksen und ich hab da gerade keine Lust drauf). Zum Anderen sind 3D-Diagramme gedacht interaktiv zu sein. Man soll die „in die Hand“ nehmen und Drehen und Wenden, um die Daten von allen Seiten zu betrachten. Das geht natuerlich hier nicht und deswegen lasse ich das gleich bleiben (es geht sicher, aber dafuer braucht man bestimmt irgend ’ne Erweiterung (so wie bei LaTeX-Formeln oder Tabellen) und ich versuche Erweiterungen so weit wie møglich zu vermeiden).

Ich diskutiere jetzt nur noch das Offensichtlichste. Zunaechst sehen die Einhuellenden aus wie die Anzahl der Seiten pro Links oder Zitierungen. Wenn man die entsprechenden Kurven normiert, ist dem aber nicht nicht so (muesst ihr, meine lieben Leserinnen und Leser einfach mal glauben, ich wollte das naemlich nicht auch noch diagrammisieren, weil’s jetzt nicht so wichtig ist). Ich habe das jetzt nicht kontrolliert, aber wenn man alle Punkte zu einem gegebenen Wert auf der Abzsisse aufsummiert, sollte man die erwaehnten Kurven erhalten.

Wenn man aber genauer hinschaut, dann sieht man, dass die Einhuellenden sich nicht so verhalten wie sie „sollten“. Nach allem was ich in diesem Projekt gesehen habe, wuerde ich „maechtige Gesetze“ erwarten. Bei der Einhuellenden im linken Bild kann man das nicht mal mit viel Fantasie sehen. Im rechten Diagramm liegt eine solche Situation zwar durchaus vor, aber es gibt da so ’ne Delle mittendrin. Ich hatte an anderer Stelle (hab jetzt keine Lust das raus zu suchen) vermutet, dass in der Wikipedia zwischen Ende 2020 und Ende 2023 mglw. eine grosze „Løschaktion“ stattgefunden hat. Meine erste Annahme war deswegen, dass diese Delle ein Resultat dessen sein kønnte.

Andererseits gibt es bei der Anzahl der Seiten pro Links an der Stelle in auch eine Delle (nur nach AUSZEN wølbend und nicht wie hier, nach innen … also eher einen Buckel). Bei der Reproduzierung sieht man das nicht so gut, weil die Punkte so dick sind. Im urspruenglichen Beitrag ist’s in den Abweichungen zur eingezeichneten geraden Linie relativ gut zu erkennen. Ich hatte das damals nicht weiter betrachtet (und werde das auch heute nicht tun) weil die Abweichungen so klein sind … aber obiges (neues) Diagramm deutet ja eher darauf hin, dass hier irgendwas vor sicht geht. Das was vor sich geht hat zwar keinen all zu groszen Effekt, ist mit den richtigen Methoden und „Werkzeugen“ aber messbar. Ist also sowas Aehnliches wie das Higgs Boson … tihihi.
Damit sei abschlieszend zur Delle zu sagen, dass die also vermutlich KEIN Resultat einer „Løschaktion“ ist, eben weil sie in der Kurve der Anzahl der Seiten pro Links erhalten bleibt.

Aber das soll dazu reichen. Da kann man bestimmt noch andere fetzige Sachen mit machen (bspw. wie die Verteilungen der einzelnen Spalten und Zeilen aussehen), aber wieder einmal ueberlasse ich das Anderen.
Wie damals, werden mich auch beim naechsten Mal die Anzahl der Links in Abhaengigkeit von der Anzahl der Zitate weiter beschaeftigen.

Posted by Tentacel on 2025-03-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (vii) – komprinormiert

.oO(Fast geschafft … das neue maechtige Werkzeug in aller Kuerze abzuhandeln).

Nachdem die Daten bedeutungskomprimiert und wertekomprimiert wurden, bleibt nur noch die spalten- bzw. reihenweise Normalisierung der komprimierten Daten uebrig. Die „Rohdaten“ wurden dieser Transformation bereits unterworfen und man konnte einige (nicht im Detail diskutierte) Phaenomene sehen. Damals fuehrte die Normierung der komprimierten Daten zur Entdeckung und Erforschung des „Blobs“. Das war durchaus spannend, aber so weit werde ich es heute nicht treiben.

Das hier ist allerdings der „dickste“ Brocken, denn bei zwei Achsenbedeutungen (Anzahl der Zitate oder Links), multipliziert mit zwei (um den verschiedenen „Achsenbedeutungskombinationen“ Rechnung zu tragen), multipliziert mit zwei Arten der Komprimierung (bedeutungskomprimiert oder wertekomprimiert), multipliziert mit zwei Arten der Normierung (reihen- oder spaltenweise), mal zwei Datensaetzen (2020 und 2023) will ich heute 32 Falschfarbenbilder abhandeln.

Zum Glueck kann das alles schøn „verpackt“ werden, wodurch im Wesentlichen keine 32 Bilder einzeln diskutiert werden muessen. Der „Wechsel“ zwischen den verschiedenen Datensaetzen ist bereits bekannt. Die folgenden Bilder sind zunaechst nach der Art der Normierung getrennt (erst die spaltenweise, dann die reihenweise Normierung). Eine weitere Trennung erfolgt nach der Art der Komprimierung (jeweils erst die Bedeutungs-, dann die Wertekomprimierung). Die vier (wechselnden) Falschfarbenbilder die uebrig bleiben sind in ein Gesamtbild gruppiert. Darin repraesentiert die Abzsisse der oberen beiden Bilder die Zitategruppe und der unteren beiden die Linksgruppe, waehrend die Ordinate der beiden linken Bilder die Zitategruppe und der beiden rechten Bilder die Linksgruppe darstellt.
Dank der Normierung kuemmert auch die Falschfarbenskala nicht all zu sehr, denn die geht immer von null bis eins. Und die Komprimierung erfolgte wie in den entsprechenden Beitraegen besprochen; jede Spalte / Reihe sollte ungefaehr ein Prozent der jeweiligen „Werte“ enthalten (mit wichtigen, zu beachtenden Ausnahmen, die in den besagten Beitraegen besprochen wurde!).

Dennoch bleibt der Aufwand grosz (ihr, meine lieben Leserinnen und Leser solltet lieber nicht fragen, wieviel Arbeit ich in die Erstellung der Falschfarbenbilder gesteckt habe) und deswegen werde ich nicht alles im Detail besprechen; insb. nicht bereits bekannte und diskutierte Phaenomene.

Genug der Vorrede und hinein ins Vergnuegen (und ein Vergnuegen ist es, denn man sieht so viel … irgendwie schade, dass ich das nicht mehr im Detail erforschen werde).

Hier sieht man die spaltenweise normierten, bedeutungskomprimierten Falschfarbenbilder:

Fetzt wa!
Das linke obere Bild ist der zu reproduzierende Teil und davon abgesehen, dass das damalige Farbschema Informationen hervorhebt die so nicht hervorgehoben werden sollten, ist alles wie erwartet.

Bei den beiden linken Bildern ist die grøszte Intensitaet in nur einer Spalte am jeweils unteren Rand. Das entspricht dem bereits sehr lange bekanntem Resultat, dass im Wesentlichen alle Seiten von anderen Seiten zitiert werden die selber nur (sehr) wenige Zitate erhalten.

Die beiden rechten Bilder sind da schon spannender. Die horizontalen hellen Streifen sind Artefakte durch die „Stufen“ in der Komprimierung. Die vertikalen dunklen Streifen (insb. im rechten unteren Bild) kommen durch die eine, sehr intensive, unterbrochene Reihe bei ca. Zitategruppe 8 zustande; eben weil die so viel „Intensitaet“ auf sich vereint, ist dann nicht mehr genug „uebrig“ fuer die restlichen Zellen in der Spalte. Dieser Streifen ist bereits in vorherigen Beitraegen aufgefallen und da hatte ich den auch schon nicht weiter untersucht. Im rechten unteren Bild sieht man noch eine helle Diagonale. Das ist ein (ebenso bereits bekanntes) Artefakt der Rohdatenverarbeitung und kommt durch Seiten die sich selbst zitieren zustande.
Ansonsten sagt die ungefaehr gleiche Intensitaet ueberall aus, dass es egal ist wie viele Zitate oder Links eine Seite selber hat, sie wird um Durchschnitt gleich oft von Seiten mit wenigen, mittelvielen, oder ganz vielen Links zitiert. Das ist an sich schon durchaus interessant. Das Wørtchen „ungefaehr“ ist aber wichtig, denn wenn man genau hinschaut, scheint es im rechten oberen Bild einen breiten Streifen von links oben nach rechts unten zu geben (besser zu sehen in den 2023 Daten). Das wuerde bedeuten, dass Seiten mit wenigen Zitaten ein bisschen øfter von Seiten mit weniger Links zitiert werden und Seiten mit vielen Zitaten øfter von Seiten mit mehr Links. Das kønnte als ’ne Art „Dynamik“ im Linknetzwerk interpretiert werden und ist mglw. hoch spannend naeher zu untersuchen.

Bei den spaltenweise normierten, wertekomprimierten Falschfarbenbildern …

… ergibt sich im Wesentlichen das Gleiche. Bei den beiden linken Bildern ist der intensive Bereich nur um eine Reihe nach oben gerueckt und „verschmiert“, aber das ist von vorher bekannt.
Im linken oberen Bild sieht man bereits den „Blob“, wenn man weisz wonach man schauen muss.

Damit kann ich zu den reihenweise normierten Falschfarbenbildern uebergehen. Zunaechst wieder die Bedeutungskomprimierten:

Das linke obere Bild ist wieder das was zu reproduzieren war und im Vergleich sieht man, warum die neue Farbpalette so viel besser ist. Wichtig: man sieht den „Blob“ ganz deutlich. .
Die beiden oberen Bilder werden im unteren (ca.) Drittel der 2023 Daten dunkler, was natuerlich wieder durch die Praeszenz der Wikipedia Hauptseite zu erklaeren ist. Die Hauptseite ist in den unteren Bildern der helle vertikale Strich und wenn man sich das genau anschaut, sieht man leicht, dass eben diese fuer die Intensitaetsveraenderungen auch hier verantwortlich ist.

Wenn man den Einfluss der Hauptseite „rausrechnet“ (und vom „Blob“ absieht), dann ist die Intensitaet bei diesen Bildern im Wesentlichen ueberall gleich. Bei der Interpretation dieses Ergebisses muss man sich daran erinnern, dass hier die REIHEN normiert sind. Man schaut also NICHT wie oben wo auf der Abzsisse sich die eine Seite von Interesse befindet um dann rauszufinden welche andere Seiten Erstere zitieren. Vielmehr schaut man zuerst wo auf der Ordinate die Seite von Interesse liegt und wen diese zitiert. Eine ungefaehr gleiche Intensitaet ueberall bedeutet dann also, dass es egal ist wieviele Zitate oder Links eine zitierende Seite hat, diese zitiert im Durchschnitt ungefaehr gleich viele Seiten mit wenigen Zitaten / Links, mittelvielen Zitaten / Links und vielen Zitaten / Links.
Es gibt natuerlich Ausnahmen; bspw. die etwas erhøhte „Aktivitaet in der „Region ueber dem Blob“ im linken oberen Bild. Diese Ausnahmen sind dann extra spannend und waeren zu untersuchen.

Nun gibt es zu den reihenweise normierten, wertekomprimierten Falschfarbenbildern …

… fast nix mehr zu sagen, weil da alles sehr aehnlich aussieht.
Von besonderem Interesse ist nur der „diagonale“ Streifen. Bei den bedeutungskomprimierten, Linksgruppe-ueber-Linksgruppe, bzw. Zitategruppe-ueber-Zitategruppe Bildern ist der tatsaechlich diagonal und von ’nem kleinen Knick abgesehen gilt das auch fuer die wertekomprimierte, Linksgruppe-ueber-Linksgruppe Darstellung. Aber im linken oberen Bild sieht man, dass dieser Streifen recht krumm ist (und wenn man zu den reihenweise normierten Bildern zurueck geht, sieht man das auch dort, nur nicht so deutlich). Auch das kønnte wieder als eine Art „Dynamik“ interpretiert werden, aber vermutlich andersgeartet als die oben erwaehnte (vllt. aber auch nicht).

Hach ja … spannend, spannend, spannend … und all das bringt das neue Werkzeug ans Tageslicht. Cool wa!

Fuer mich reichts aber damit. Dafuer dass ich das urspruenglich gar nicht machen wollte, sind da ganz schøn viele Beitraege draus geworden. Bevor ich mich an diese Sache setzte schrieb ich:

[…] ich [hatte] da[mals] „nur“ bunte 2D-Falschfarbendarstellungen bei denen ich genau „reinzoomen“ musste um Details zu besprechen. Oder anders: bei denen sieht man bei so kleinen Veraenderungen ohnehin keinen Unterschied (und „reingezoomt“ hatte ich nur bei Anomalien die vermutlich immer noch da sind und wenn nicht mir auch nix ueber das Grosze und Ganze verraten). Solche „bunten Karten“ kann ich auch nicht zum besseren Vergleich uebereinander legen. Vermutlich werd ich da also nicht nochmal drueber schauen mit den neuen Daten […].

Tja, da hab ich mich gehørig getaeuscht und ich bin froh, dass doch gemacht zu haben. Und beim naechsten Mal dann … uff … weisz ich gerade noch gar nicht … vermutlich muss ich erstmal wieder was in meinem Code aufraeumen und neu schreiben, bevor ich die naechste Sache bzgl. der Reproduzierbarkeit checken kann.

Posted by Tentacel on 2025-03-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (vi (b)) – wertend komprimiert

Die beim letzten Mal vorgestellte Wertekomprimierung wird heute in Falschfarbenbilder umgesetzt. Das Ganze geht schnell, denn das was man in solchen Darstellungen sieht und wie das zu interpretieren ist habe ich mehr oder weniger allgemein bereits mehrfach diskutiert. Beim vorletzten Mal besprach ich auszerdem im Detail, wie die Komprimierung auf solche Bilder wirkt und wie das zu verstehen ist. Ebenso muss der Einfluss der Wikipedia Hauptseite in den 2023 Daten nicht schon wieder auseinanderklamuesert werden.

Es gilt hier: dito … natuerlich mutatis mutandis in Betracht dessen, dass die Komprimierung (etwas) anders ist (und dadurch insb. die „Laenge“ der Ordinaten (vulgo: wieviele Zahlen drauf sind) deutlich unterschiedlich sein kann … aber das wurde auch bereits (mehrfach) betrachtet).
Die spannenden Sachen passieren, wenn man diese beiden Komprimierungen miteinander vergleicht (und damit meine ich NICHT eventuelle Intensitaetsunterschiede).

Zunaechst wieder die Falschfarbendarstellungen bei der die Abzsisse die (diesmal wertekomprimierte) Zitategruppen darstellt.

Das linke Bild ist im Wesentlichen das Gleiche wie beim vorletzten Mal. Dass rechte Bild hingegen ist von groeszerem Interesse, weil es null-komma-nix-nicht-mal-ein-winziges-bisschen von dem gleichen bedeutungskomprimierten Falschfarbenbild zu unterscheiden ist (abgesehen von der Beschriftung der Achsen). Der Grund dafuer war die Hausaufgabe vom letzten Mal:

Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. […]
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert.

Hiermit ist dann also auch …

[…] da muss ich dran denken, dass beim naechsten Mal zu kontrollieren

… abzuhaken :) .

Dank der vielen Vorarbeit war das auch schon alles dazu. Somit kann ich schnurstracks zur Falschfarbendarstellungen kommen, bei der die Abzsisse die (diesmal wertekomprimierte) Linksgruppen darstellt.

Im linken Bild gibt es diesmal einen wichtigen Unterschied: es gibt nicht nur einen hellen Streifen am unteren Ende des Diagramms, sondern einen hellen Bereich, der sich ueber die ersten … ich sag jetzt mal ungefaehr 5 bis 8 Zeilen hinzieht. Mit dem Blick auf die entsprechenden Diagramme vom letzten Mal wird natuerlich sofort klar, warum das so ist und ich gehe da nicht nochmal drauf ein. Das an sich ist von Interesse, wenn man die Gesamtheit des Wikipedia Linknetzwerks untersucht. Und wieder wurde das erst durch das neue Werkzeug sichtbar gemacht und man sieht es NUR in den werte(!)komprimierten Daten … cool wa!

Genug fuer heute … das war’s aber noch nicht ganz mit dem neuen Werkzeug, denn auch wenn die Komprimierung mehr hervorbringt, so sind doch grosze Teile der Falschfarbenbilder immer noch schwarz. Deswegen wendete ich auf die komprimierten Daten auch noch zwei Normierungen an … dazu mehr beim naechsten Mal (und ich versuche es auf nur noch einen Beitrag zu begrenzen … aber ihr, meine lieben Leser und Leserinnen, kennt mich ja, mich kurz fassen zaehlt nicht zu meinen Staerken).

Posted by Tentacel on 2025-02-11 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (v (b)) – wertende Komprimierung

Wie bereits beim vorletzten Mal versprochen (und dann aus organisatorischen und didaktischen Gruenden einmal verschoben), gehe ich heute auf die zweite Art der Komprimierung ein.

Anders als bei der vorher behandelten Bedeutungskomprimierung, ist die Wertekomprimierung sehr einfach zu verstehen. Hierbei schaut man naemlich nur auf den Gesamtinhalt einer Spalte (oder Zeile) und setzt den ins Verhaeltniss zum Inhalt der gesamten Matrix. Im weiteren spreche ich nur von Spalten, aber wie vormals gilt das Gleiche auch fuer die Zeilen (mutatis mutandis … und ja, ich such nach Gelegenheiten diesen Ausdruck so oft wie møglich zu verwenden … ich find den so fein).

Der Inhalt der gesamten Matrix ist die Summe ueber alle (Gesamt)Spalteninhalte. Oder anders: das ist die Summe aller Zitate die alle Seiten haben … was natuerlich der Summe aller Links aller Seiten entspricht … was natuerlich der Summe ueber alle (Gesamt)Zeileninhalte ist … was natuerlich bedeutet, dass diese Zahl komplett unabhangig von den Achsenbedeutungen ist und dieser eine Wert sowohl fuer die Spalten- als auch die Zeilenkomprimierung zu benutzen ist.

Der Gesamtinhalt einer Spalte ist die Summe ueber alle Zellen der gegebenen Spalte. Es ist zu beachten, dass diese Werte davon abhaengig sind, welche Bedeutung die Abzsisse und Ordinate haben, obwohl es sich hierbei NICHT um eine Bedeutungkomprimierung handelt. Ich gehe darauf weiter unten etwas genauer ein.
Fuer jede Spalte wird dann der Anteil berechnet, den diese am Inhalt der gesamten Matrix hat und dieser Wert wird dann wie bei der Bedeutungskomprimierung herangezogen um zu ermitteln, wie wieviele Spalten aufaddiert werden muessen, um den festgelegten Komprimierungswert zu erreichen.

Insgesamt hat man also vier verschiedene Komprimierungen fuer die Spalten und Zeilen. Wenn die Abzsisse die Anzahl der Zitate (die eine Seite erhalten hat) repraesentiert, dann ist der Gesamtinhalt einer gegebenen Spalte unabhaengig davon, ob die Ordinate das Selbe repraesentiert, oder die Anzahl der Links einer Seite. Es gibt also nur zwei unterschiedliche Komprimierungen fuer die Spalten, entsprechend den zwei møglichen Bedeutungen; nennen wir diese hier mal kurz A und B. Das Gleiche gilt natuerlich fuer die Zeilen und diese zwei Komprimierungen nenn ich mal kurz 1 und 2. Beides kombiniert ergibt am Ende vier Falschfarbenbilder, mit den Komprimierungskombinationen A1, A2, B1 und B2.

Hier muss ich etwas weiter ausholen, denn auf den ersten Blick scheint das wie bei der Bedeutungskomprimierung zu sein; dort gab es auch vier Falschfarbenbilderkomprimierungskombinationen. Der wichtige Unterschied ist aber, dass die Bedeutungskomprimierung nur fuer eine Achse ausgerechnet werden muss und dann auch fuer die andere Achse gilt (so diese dann die selbe Bedeutung hat). Bei der Wertekomprimierung gilt das nicht und kurz gesagt liegt das daran, dass die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Oder anders: bei der Bedeutungskomprimierung hat man nur zwei Komprimierungen (A & 1) und die Kombinationen waeren AA, A1, 1A und 11. Es ist zu beachten, dass es bei der Wertekomprimierung KEINE AA-, BB-, 11-, oder 22-Komprimierungskombinationen gibt.

Ein Beispiel macht das hoffenlich anschaulicher. Man denke sich eine Seite die 5 Mal zitiert wird und selber 23 Zitate hat. Wenn die Abzsisse die Anzahl der Zitate repraesentiert wird diese Seite in Spalte 5 gezaehlt und wenn die Bedeutung der Abzsisse die Anzahl der Links ist in Spalte 23. Qualitativ ist das bei beiden Komprimierungsarten im Wesentlichen das Gleiche (auch wenn quantitativ was anderes bei raus kommt). Wichtig ist nun, dass, wie auch immer die Bedeutung der Abzsisse ist, diese Seite in jedem Fall zu der jeweiligen Spalte immer nur 5 „Punkte“ beitraegt, denn (und ich wiederhole mich hier) in den Falschfarbenbildern ist dargestellt, wie oft die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Nun wende man sich zur Ordinate. Hier findet sich diese Seite in Zeile 5 oder 23 wieder. Soweit erstmal kein Unterschied und das ist der Grund, warum man die Bedeutungskomprimierung nur fuer eine Achse ausrechnen musste. Weil diese Seite aber 23 andere Seiten zitiert, ist der Beitrag dieser Seite zur jeweils gegebenen Zeile 23 „Punkte“. Oder anders: ein und die selbe Seite traegt zu den Spalten anders bei als zu den Zeilen. Deswegen muss man jeweils zwei Anteilverteilungen (der jeweiligen Spalte / Zeilen) pro Achse berechnen.

Und jetzt passiert was kurioses … ist aber logisch, wenn man mal drueber nachdenkt, was ich euch, meinen lieben Leserinnen und Lesern als Hausaufgabe ueberlasse. Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. Das gilt nicht, wenn die Abzsisse die Anzahl der Links repraesentiert.
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert. Das passiert aber nicht wenn die Ordinate die Anzahl der Zitate repraesentiert.
Oder anders: wenn ich die Links ueber Zitate darstelle, so sollten die Falschfarbenbilder der Bedeutungs- und Wertekomprimierung identisch sein … da muss ich dran denken, dass beim naechsten Mal zu kontrollieren.

Ich erwaehne das, denn dieser Umstand ist hier und heute von Vorteil. Anstatt vier Anteilsverteilungen (und deren Komprimierungen) muss ich nur zwei zeigen, denn die anderen beiden sind ja schon im Beitrag vom vorletzten Mal zu sehen … man muss dann in Gedanken nur die Beschriftung der Ordinate aendern, aus „Anteil an allen Zitaten / Links (%)“ wird „Spaltenanteil (%)“ bzw. „Zeilenanteil (%)“ (dito … mutatis mutandis … hehe … bei den Anteilen der komprimierten Gruppen).

Nun muss ich gar nicht mehr all zu viel sagen zu den folgenden Diagrammen, denn beim Beitrag zur Bedeutungskomprimierung hatte ich ausfuehrlich besprochen, wie man solche Diagramme liest und deren Informationsinhalt betrachtet.
Hier die Diagramme mit der neuen Information bzw. des Spalten- bzw. Zeilenanteils (bei entsprechender Bedeutung der jeweiligen Achse):

Form und Maximum der Kurve des Spaltenanteils (wenn die Abzsisse die Linksgruppen repraesentiert, linkes Diagramm) sind qualitativ wie bei der Bedeutungskomprimierung (aber quantitativ natuerlich anders). Das Einzige was (sogar im Wortsinne) heraus sticht ist der von der Wikipedia Hauptseite verursachte Punkt in den 2023 Daten. Das ist ja nun nicht mehr unerwartet, aber dieser macht den Unterschied in den beiden Komprimierungsmethoden deutlich, trotz aller qualitativen (und bei entsprechenden Achsenbedeutungen auch quantitativen) Aehnlichkeiten.

Die Kurve fuer den Zeilenanteil (wenn die Ordinate die Zitategruppen repraesentiert, rechtes Diagramm) ist hingegen vøllig anders; wenn man aber mal drueber nachdenkt dennoch logisch.
Hier sieht man auch, warum solche Diagramme wichtig sind, um die komprimierten Falschfarbenbilder vernuenftig zu interpretieren. Ich werde naemlich wieder ein Komprimierungsintervall von einem Prozent waehlen, aber die ersten zehn Zitategruppen liegen da extrem deutlich drueber.

Viel mehr gibt’s hierzu nicht zu sagen und ich kann ohne Umschweife zu den (auf ca. 1 %) komprimierten Gruppen kommen:

Hier muss ich nun fast gar nix mehr sagen, denn die Spruenge, warum einige Punkte unter, bzw. ueber ein Prozent liegen und wieso die Anzahl der komprimierten Gruppen nicht 100 betraegt, wurde ausfuehrlich beim letzten Mal diskutiert. Was ich im letzten Abschnitt bzgl. den extrem-deutlich-ueber-1-%-Anteilen der ersten zehn Zeilen sagte spiegelt sich natuerlich im rechten Diagramm wieder und ist der Grund, warum es hier gerade mal 66 komprimierte Gruppen gibt.

Alright … wenn’s nix zu sagen gibt, dann will ich das auch nicht unnøtig in die Laenge ziehen. Beim naechsten Mal gibt’s die dazugehørigen Falschfarbenbilder.

Posted by Tentacel on 2025-01-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (vi (a)) – bedeutend komprimiert

Beim letzten Mal schrieb ich, dass ich …

[…] die zweite Art der Komprimierung auf’s naechste Mal [verschiebe].

Als ich mir alles anschaute dachte ich mir allerdings dass es besser ist, wenn ich zunaechst die bedeutungskomprimierten Falschfarbenbilder zeige.

Wie immer „huepfen“ die Bilder zwischen den 2020-Daten und den 2023-Daten. Weil ich damals ein Prozent als Wert fuer die Komprimierung benutzte, tat ich das auch hier wieder. Vom letzten Mal wissen wir, dass das NICHT zu notwendigerweise zu 100 komprimierten Bedeutungsgruppen und zu „Spruengen zwischen einigen Spalten“ fuehrt. Auszerdem kann die Anzahl der komprimierten Gruppen bei den verschiedenen Datensaetzen unterschiedlich sein. Es ist wichtig dies im Hinterkopf zu haben, damit die dadurch verursachten „Effekte“ in den Bildern nicht die Interpretation der eigentlichen Information støren. So fuehren die besagten „Spruenge zwischen den Spalten“ zu Streifenstrukturen und die Unterschiede in der Anzahl der Gruppen zu Spruengen bei den Skalen der Achsen).
Und nicht vergessen: die durch die Abszisse repraesentierten Seiten werden von den durch die Ordinate repraesentierten Seiten zitiert.

(Auch) Wie immer fange ich mit dem Reproduzierbarkeitsteil an und der ist hier im linken Falschfarbenbild zu sehen, in dem die bedeutungskomprimierte Zitategruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen ist:

Huch! Im Vergleich zu damals sieht man ja nuescht! … nun ja … wenn man genau hinschaut sieht man schon die gleichen Merkmale wie damals … aber noch viel besser sieht man, warum ich die Farbpalette wechselte; wie gesagt, meine Lieblingsfarbpalette „luegt“ und gaukelt mir Informationen vor die eigentlich gar nicht da sind.
Ansonsten sieht man wieder die gewaltige Dominanz der Wikipedia-Hauptseite in den 2023-Daten.

Im rechten Bild ist die bedeutungskomprimierte Linksgruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen. Interessant ist der helle Punkt in der rechten unteren Ecke. Der tritt in beiden Datensaetzen auf und kommt deswegen NICHT durch die Wikipedia Hauptseite zustande. Als einzelner Punkt „ueberstraehlt“ dessen Intensitaet diese sogar! (Wobei die Summe ueber die gesamte Spalte sicherlich grøszer ist fuer die Hauptseite). Aber wie so oft in dieser Phase des bereits so lange andauernden Kevin-Bacon-Projekts: ich hab keine Lust (mehr) zu schauen, was das ist.
Ich weise nur darauf hin, dass dort in der Ecke anscheinend noch mehr passiert, denn dort treten etliche andere Pixel aus dem Schwarz hervor (wenn auch nicht ganz so deutlich) … eine weitere Erfolgsgeschichte fuer das neue Werkzeug :).

Weiter zu den Falschfarbenbildern, bei denen die Abszisse die komprimierten Linksgruppen repraesentiert:

Im linken Bild passiert nichts Unerwartetes. Dass die Hauptseite nicht am Ende der Abzsisse liegt (wie bei der Anzahl der Zitate), ist von vorher bekannt. Im Vergleich mit dem rechten Diagramm im oberen Bild spiegelt sich hier schøn wieder, dass die Information in diesen Bildern nicht symmetrisch ist und die Achsen nicht vertauscht werden kønnen.

Etwas spannender ist das rechte Falschfarbenbild. Sofort ins Auge fallen die hellen Punkte, welche alle in der selben Reihe liegen, und sowohl bei den 2020- als auch den 2023-Daten vorhanden sind (wenn auch an anderen Positionen auf der Abzsisse). Diese Punkte sind bereits vorher aufgetreten und ich wuerde spekulieren, dass die mit dem „helle[n] Punkt in der rechten unteren Ecke“ von weiter oben zu tun haben … ohne weitere Untersuchungen wuerde ich aber nicht drauf wetten. Falls dem so ist, ist es interessant, dass die zwar alle unterschiedliche Links, aber anscheinend (ungefaehr) gleich viele Zitate haben. Ihr meine lieben Leserinnen und Leser ahnt es sicherlich bereits: (i) ein weiteres Merkmal, enthuellt durch das neue Werkzeug, und (ii) ich werde das nicht weiter untersuchen.
Ansonsten sieht man hier deutlich, warum ich ueberhaupt erst auf die Idee der Komprimierung gekommen bin; hatte ich doch damals bereits in dem vielen Schwarz der unkomprimierten Daten doch noch Informationen vermutet. Die lila Tøne oberhalb der unteresten Reihen bestaetigen diese Vermutung. Das trifft uebrigens fuer alle Falschfarbenbilder zu, man sieht das nur nicht ueberall so gut (insb. bei den 2023-Daten, bei denen die hohe Intensitaet der Hauptseite die Farbskala festlegt und deswegen (fast) alles andere in den dunklen Bereich draengt).

Juti … ging ja schnell heute. Ich kann mich nur zitieren und sagen, dass …

[…] die zweite Art der Komprimierung […] [beim] naechste[n] Mal [behandelt wird].

Posted by Tentacel on 2025-01-15 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (v (a)) – bedeutende Komprimierung

Damals konnte ich in beim Hereinzoomen in die groszen, schwarzen Bereiche der Falschfarbenbilder helle Punkte wahrnehmen. Es stellte sich dann natuerlich die Frage, ob diese blosz einem „Rauschen“ entsprechen, oder ob es dort Information gibt. Zur Beantwortung der Frage „komprimierte“ ich die Daten: kurz gesagt, um die Signalstaerke zu erhøhen, addierte ich die Werte von mehreren Spalten / Reihen. Dabei habe ich natuerlich „Aufløsung“ verloren, weil ein erhøhtes Signal nicht mehr eindeutig einem Zitategruppewert zugeordnet werden konnte (denn diese Gruppen wurden ja gerade „komprimiert“).

Soweit zur Wiederholung. Beim letzten Mal schrieb ich:

[…] [die Komprimierung] konnte ich […] erweitern und generalisieren […]

… und darum geht es heute.

Zur Erinnerung: damals war ich mir nicht der Møglichkeiten dieser Analysemethode bewusst und schaute nur auf die Zitate-ueber-Zitate Daten. Die Komprimierung bestand dann darin, dass ich mir die Bedeutung jedes Wertes auf der Ordinate anschaute und damit ausrechnte wieviele Zitate die Seiten auf sich vereinten, die in der entsprechenden Spalte vertreten waren. Drei Beispiele: 100 Seiten die jeweils 5 Zitate haben, vereinen 5 x 100 = 500 aller Zitate auf sich. 50 Seiten die jeweils 10 Zitate haben, vereinen ebenso 10 x 50 = 500 aller Zitate auf sich. 5 Seiten die jeweils 23,517 Zitate haben, vereinen 5 x 23,517 = 117,585 Zitate auf sich.
Mit der Information rechnete ich dann aus, wieviele Spalten ich jeweils zusammenfassen muss, damit in einer zusammengefassten / komprimierten / „verschmolzenen“ Spalte immer ca. 1 % aller Zitate auftreten.

Soweit, so gut. Damals hatte ich mir nix weiter dabei gedacht, aber diese Art der Komprimierung nenne ich jetzt „Bedeutungskomprimierung“. Es wird naemlich nur darauf geachtet, wieviel der „kompletten Bedeutung“ eine Spalte auf sich vereint. Konkreter: wie hoch der Anteil an allen Zitaten (oder Links) aller Wikipediaseiten ist, die in der gegebenen Spalte steckt und die Achse gibt die Bedeutung vor.
Da damals Ordinate und Abzsisse die selbe Bedeutung hatten, konnte die obige Komprimierung 1:1 auf die Reihen angewandt werden.

Als ich dieses Thema das erste Mal behandelte hatte ich das nicht gezeigt, aber das Gesagte kann man auch in ein Diagramm packen. Hier ist so ein Diagramm zu sehen:

Fuer die Diskussion dessen was man hier sieht, ist es egal ob man auf die Daten aus 2020 oder aus 2024 schaut. Wenn wichtig, gehe ich auf die Unterschiede weiter unten kurz ein, aber fuer die allgemeine Besprechung macht das keinen Unterschied, denn wiedereinmal gibt es im Wesentlichen keine Unterschiede zwischen den Jahren.

Ich sollte auch erwaehnen, dass man hier noch gar keine Komprimierung sieht, sondern nur wie hoch der „Bedeutungsanteil“ einer jeden Spalte in den Falschfarbenbildern ist, wenn die Bedeutung besagter Spalte die Anzahl der Zitate ist. Auf der Abzsisse sind also die UNkomprimierten Zitategruppen abgebildet und das ist somit die Grundlage fuer die „Bedeutungskomprimierung“ im naechsten Schritt.

Bei lineaer Abzsisse (linkes Bild) sieht man, dass bei sehr kleinen Zitategruppen kurz sehr viel „passiert“. Bei logarithmischer Achse ist dieser Bereich „aufgespreizt“ und man sieht, dass einzelne Spalten bis zu (fast) 1 % aller Zitate auf sich vereinen. Dies obwohl die dazugehørenden Seiten nur (sehr) wenige Zitaten haben. Nur gibt es von denen so viele, dass da in der Summe ganz schøn viel zusammen kommt. Kleinvieh macht auch Mist (und nicht zu wenig).
Ein weiterer Vorteil der linearen Abzsisse ist, dass man am besten sieht, dass ab ca. Zitategruppe 200 der Bedeutungsanteil dann aber (sehr) klein wird und (mehr oder weniger) auf diesem kleinen Wert „verharrt“. Ausgenommen die allerletzten paar Punkte zieht sich dieses Verhalten der Kurve bis (weit) ueber Zitategruppe 5000 hin. Auch das ist einfach zu erklaeren, denn trotz zum Teil sehr hoher Anzahl an Zitaten, so bestehen gerade (sehr) hohe Zitategruppen aus nur wenigen Seiten (oft gar nur einer). Da summiert sich also in einer Spalte nicht viel auf, gesehen auf die weit ueber 100 Millionen Zitate insgesamt.
Ganz am Ende machen die Punkte dann nochmal ’nen Sprung nach oben. Bei den 2020 Daten faellt der recht klein aus, waehrend die allerletzte Zitategruppe bei den 2023 Daten ueber 2.5 % aller Zitate auf sich vereint. Das ist natuerlich wieder die Wikipedia Hauptseite die neuerdings von (fast) allen anderen Seiten zitiert wird.

Interessant ist, dass die 2023 Daten bis ca. Zitategruppe 20 etwas tiefer liegen als die 2020 Daten. Zunaechst dachte ich, dass die Hauptseite da einfach alles „runterdrueckt“, weil die so viele Zitate auf sich vereint. Aber dann haette man das auch bei høheren Zitategruppen sehen muessen. Deswegen rechnte ich den Anteil der letzten 17 Zitategruppen raus (vulgo: ich berechnete alles nochmal, aber ohne die). Waere meine Erklaerung richtig gewesen, dann haette der Verlauf der Kurven der beiden Daten im Wesentlichen gleich sein muessen. Mathematisch gesprochen, haette die Subtraktion der korrigierten 2023-Daten von den unkorrigierten 2020 Daten mehr oder weniger konstant sein muessen, mit einem Wert von null (plusminus Rauschen). Fuer Seiten in Zitategruppen grøszer als 100 ist dem auch so, aber die „Erniedrigung“ bei kleinen Zitategruppenwerten bleibt trotz Korrektur erhalten.
Dieses Ergbeniss deutet wieder auf eine „Hausmeisteraktion“ hin, bei der etliche Seiten geløscht wurden. So etwas vermutete ich bereits hier. … … … Da hat dieses neue Werkzeug wieder was aufgedeckt, fetzt wa!

Soweit zur Grundlage der Komprimierung. Wenn man die entsprechende Anzahl an Spalten dann miteinander „verschmilzt“, damit jede komprimierte Zitategruppe ungefaehr 1 % der Gesamtzitate enthaelt, erhaelt man diese zwei Diagramme:

Als erstes sei zu sagen, dass die 2020 Daten in 102 komprimierte Gruppen (ich lasse das Wørtlein „Zitate“ der Lesbarkeit jetzt weg) (bedeutungs)komprimiert (das Wørtlein „bedeutungs“ lasse ich auch weg) wurden und die 2023 in 101 Gruppen. Ich erklaere weiter unten, warum das nicht genau 100 (entsprechend 100 %) werden.
Im linken Diagramm sind auf der Abzsisse immer noch die UNkomprimierten Gruppe abgetragen, waehrend im rechten Diagramm einfach nur die (laufende) „Gruppenzahl“ der komprimierten Gruppen abgetragen ist. In beiden Faellen entsprechen die Punkte und Quadrate den komprimierten Gruppen.
Wie man an der Ordinate ablesen kann, wurde das „Versprechen“, dass die komprimierten Gruppen ungefaehr 1 % aller Zitate enthalten, eingeløst.

Auffaellig ist, dass im linken Diagramm der Abstand der Punkte anfangs sehr klein ist, dann zu nimmt und zum Ende hin wieder kleiner wird. Das ist leicht mit dem vorherigen Diagramm bzgl. der „Grundlagen der Komprimierung“ zu erklaeren. Kleine (unkomprimierte) Zitategruppen enthalten so viele Seiten, dass sie einen entsprechend hohen Anteil aller Zitate repraesentieren. Deswegen braucht man da nur wenige UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Spaeter ist es dann so, dass eine UNkomprimierte Gruppe immer weniger Seiten, (sehr) oft gar nur eine einzige, enthalten. Entsprechend mehr Gruppen muss man miteinander „verschmelzen“ um eine komprimierte Gruppe zu erhalten. Und da die „verschmolzenen“ unkomprimierten Gruppen ja alle in EINER komprimierten Gruppe landen, verschwinden die dann bei einer Abzsisse wie im linken Diagramm und der Abstand zwischen den Punkten nimmt zu. Zum Ende hin bestehen die Gruppen zwar auch nur aus einzelnen Seiten, aber weil die so viele Zitate haben, ist deren Anteil an allen Zitaten wieder grøszer und man braucht weniger UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Deswegen nimmt der Abstand zwischen den Punkten wieder ab.
Im rechten Diagramm tritt dieses Phaenomen natuerlich nicht auf, da alle komprimierten Gruppen den gleichen Abstand zueinander haben.

Der selbe Mechanismus erklaert auch, warum das am Anfang so zappelt bzw. warum es zu „Spruengen“ im Graf auf der rechten Seite kommt. Zur Veranschaulichung ein Beispiel.
Man denke sich vier, aufeinander folgende, UNkomprimierte Gruppe, die jeweils 0.9 %, 0.5 %, 0.3 % und 0.3 % aller Zitate enthalten (in dieser Reihenfolge).
Wuerde die 0.9 % Gruppe mit der 0.5 % Gruppe verschmelzen wuerde die komprimierte Gruppe 1.4 % aller Zitate repraesentieren. Aber 1.4 % ist weiter von 1 % entfernt als 0.9 %. Deswegen findet die Verschmelzung nicht statt, die 0.9 % Gruppe wird ihre eigene komprimierte Gruppe.
Nun verschmelzen die 0.5 % Gruppe und die erste 0.3 % Gruppe und bilden zusammen eine komprimierte Gruppe die 0.8 % aller Zitate auf sich vereint. Das ist noch nicht nah genug an 1 % dran, weswegen auch die zweite 0.3 % Gruppe mit denen verschmolzen wird. Alle drei zusammen vereinen nun 1.1 % aller Zitate auf sich. Das liegt zwar ueber 1 %, ist aber naeher dran als 0.8 % und deswegen bleibt diese Verschmelzung erhalten.
Weil beide Punkte im Diagramm direkt aufeinander folgen, der erste aber unter 1 % und der zweite ueber 1 % liegt, kommt es zu einem „Sprung“. Wie man im rechten Diagramm sieht, muessen solche Spruenge nicht nur nach oben, sondern kønnen auch nach unten gehen.

Und immer noch der selbe Mechanismus ist dann auch dafuer verantwortlich, dass es mehr als 100 komprimierte Gruppen gibt (und sogar unterschiedlich mehr). Das erklaer ich jetzt aber nicht haarklein und ihr, meine lieben Leserinnen und Leser møgt euch die Details selbst ueberlegen.

So weit so gut. Ich erklaere das hier so ausgiebig, weil sich dies in den entsprechenden Falschfarbenbildern in helleren Streifen aeuszern wird. Die erklaerte ich zwar damals bereits genauso, aber weil das hier in einem vøllig andersgeartetem Diagramm (und mit besserer Notation) auftritt, bin ich nochmal drauf eingegangen.

All das gesagt, kann ich ohne viele Worte die entsprechenden, relevanten Grafen zur Bedeutungskomprimierung der Linksgruppen zeigen:

Es ist bereits bekannt, dass’s ungefaehr drei Mal weniger Links- als Zitategruppen gibt. Interessant ist, dass so viele unkomprimierte Linksgruppen (deutlich) ueber 1 % aller Links repraesentieren. Deswegen waere es vllt. besser einen etwas høheren Anteil (bspw. 1.5 %) fuer die Komprimierung zu waehlen. Das Programm kann das jetzt, aber ich mache hier alles auch weiterhin mit 1 %.
Diesee hohe Werte sind dann auch der Grund, warum ich hier fuer beide Datensaetze weniger als 100 komprimierte Gruppen erhalte; 96 fuer die 2020 Daten und 97 fuer die 2023 Daten.

Ansonsten ist das qualitativ im Wesentlichen das Gleiche, sowohl zwischen den verschiedenen Datensaetzen, als auch im Vergleich mit den komprimierten Zitategruppen oben.
Ach so … im linken Diagramm scheinen kleine Linksgruppen der 2023 Daten um eins nach rechts verschoben zu sein, im Vergleich mit den 2020 Daten. Das liegt natuerlich wieder an der Wikipedia Hauptseite, die ja nun anscheinend auf (fast) allen Seiten auftaucht. Bei høheren Linksgruppenwerten sieht man das wegen der logarithmischen Achse nur nicht mehr.

Alles hier ist bereits neue (und interessante) Information die mir vorher gar nicht aufgefallen ist, weil sie mir gar nicht vor lag. Wieder „ans Licht gebracht“ wurde das alles durch das „neue Werkzeug“ … cool wa!

Weil die Daten hier nach der BEDEUTUNG der Achse komprimiert sind, werden beim Zitate-ueber-Zitate Falschfarbenbild die Reihen natuerlich auf exakt die selbe Art und Weise komprimiert wie die Spalten. Dito (mutatis mutandis), fuer das Links-ueber-Links Falschfarbenbild. Und bei „gemischter“ Bedeutung der Achsenkombinationen wird natuerlich die jeweils richtige Bedeutungskomprimierung fuer die entsprechenden Spalten oder Reihen benutzt. Aber diese ist dann die Selbe wie hier gezeigt. Das fuehrt bei den zwei „gemischten“ Achsenbedeutungskombinationen dennoch zu unterschiedlichen Ergebnissen, weil diese beiden Falschfarbenbilder ja nicht symmetrisch sind.

Uff … jetzt ist das doch schon wieder so viel geworden. Deswegen verschiebe ich die zweite Art der Komprimierung auf’s naechste Mal.

Ich wuensche euch, meinen lieben Leserinnen und Lesern, einen guten Rutsch und ein ganz hervorragendes 2025 :) .

Posted by Tentacel on 2024-12-31 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (iv (b)) – Omno(r)mno(r)mno(r)mno(r)mierte Reihen

Beim letzten Mal wurden die Spalten der Falschfarbendarstellungen normiert. Ohne weiteren Aufhebens schreibe ich heute nur, dass das Gleiche (mutatis mutandis) auch fuer die REIHEN der Falschfarbendarstellungen gemacht werden kann (und damals auch gemacht wurde). Oder anders: aus jeder originalen, nicht normierten Falschfarbendarstellung werden zwei normierte Falschfarbendarstellungen „geboren“ und beim letzten Mal zeigte ich nur eins der „Kinder“.

Zunaechst wieder der Reproduzierbarkeitsteil — das Zitate-ueber-Zitate Bild (mit normierten Reihen):

WOW! Der helle Bereich „springt“ um fast hundert Reihen nach oben von 2020 zu 2023! Mit allem was wir bisher wissen ist das aber leicht zu erklaeren. Der Grund fuer dieses Phaenomen liegt wieder einmal in der Wikipedia Hauptseite, die bei den 2020-Daten nicht dabei ist und ueber 5 Millionen Zitate auf sich vereint. Letzteres entspricht auf der Abzsisse der allerletzten Zitategruppe und die kann man hier nicht sehen, weil ich die Abzsisse bei Zitategruppe 200 abschneide. Wenn man sich das aber anschaut, dann ist da eine helle Spalte. Wenn man das in Betracht zieht wird die Frage warum es ueberhaupt einen hellen Bereich nahe der Ordinate gibt, und sich nicht nur alles am Ende tummelt, viel interessanter.
Zum Glueck ist das auch leicht zu erklaeren, denn eines der wichtigsten (noch nicht reproduzierten) Ergebnisse war, dass die Anzahl der Links und die Anzahl der Zitate zusammenhaengen. Je mehr von dem Einen, desto mehr von dem Anderen. Oder anders, wenn eine Seite nur wenige Zitate erhaelt, hat diese sehr wahrscheinlich nur wenige Links. Aber einer dieser Links geht definitiv zur Hauptseite waehrend sich die anderen Links i.A. ueber die gesamte Abzsisse verteilen kønnen (Letzteres muss gleich modifiziert werden, kann hier aber erstmal so bestehen bleiben). Das fuehrt natuerlich dazu, dass die letzte Spalte bei kleinen Werten auf der Ordinate immer heller wird, waehrend die Zaehler in den entsprechenden Zellen aller anderen Spalten nur ganz langsam grøszer werden.
Je høher man auf der Ordinate geht, desto mehr Zitate und damit mehr Links haben die entsprechenden Seiten. Prozentual gesehen nimmt der Anteil den die Hauptseite an der Anzahl der Links hat also ab. Und nun die erwaehnte Modifikation: auf der Abzisse gesehen gibt es viel mehr Seiten mit wenigen Zitaten als mit vielen Zitaten. Ja, die Links zitieren dann zwar Seiten die sich prinzipiell „gleichmaeszig ueber die gesamte Abzsisse ausdehnen“, aber es werden viel mehr Seiten nahe des Ursprungs zitiert. Das bedeutet natuerlich, dass die Zaehler dort høher zaehlen als in den allermeisten anderen Spalten und deswegen hat man einen hellen Bereich nahe der Ordinate, der dann sogar den Zaehler der Hauptseite ueberstrahlen kann (eben weil der entsprechende „Zaehler“ prozentual weniger „reinhaut“).

Ich schrieb das so ausfuehrlich, weil man das „Springen“ in allen reihenweise normierten Bildern sieht. Der Rest ist wie beim letzten Mal im Wesentlichen wieder nur „Rauschen“ und die Veraenderungen desselben. Womit ich direkt zum ich zum Links-ueber-Zitate Bild (mit normierten Reihen) ueber gehen kann:

Hier sieht man den „Sprung“ besser, weil sich die Ordinate nicht so lang hinzieht … ansonsten nix weiter von Interesse und deswegen geht’s gleich weiter zum Links-ueber-Links Bild (mit normierten Reihen):

AHA! Hier sehen wir den Uebeltaeter! … .oO(oder ist es eher eine Uebeltaeterin, denn das Substantiv „Seite“ ist weiblich?) … ja genau … hier sehen wir die Uebeltaeterin! Und was ich oben in vielen Worten beschrieb (auch wenn es keine 1000 waren) ist hier sofort zu sehen. Ich nehme an (habe es aber nicht nachgepreuft), dass der helle Streifen bei Linksgruppe 150 auf der Abzisse der Wikipedia Hauptseite entspricht. Hier hatte ich also Glueck, dass besagte Seite weniger als 200 Links hat (ich bin ziemlich sicher, dass die Anzahl der Links und die Zitategruppe hier noch 1:1 „projiziert“ werden) und damit nicht im abgeschnittenen Teil des Bildes landet.

Als Letztes noch schnell das Zitate-ueber-Links Bild (mit normierten Reihen) …

… und da ich oben bereits alles haargenau erklaerte, sieht man sieht hier eigtl. nix Neues. … Ach ja … der zweite, schwaechere, vertikale Streifen wird wohl zu der (anderen) Seite gehøren die ueber 1 Million Zitate auf sich vereint, bei der ich aber nie nachschaute um was es sich dabei handelt.

Beim letzten Mal hatte ich ganz zum Schluss noch ein Bild ohne „abgeschnittene“ Ordinate gezeigt, und dort sah man helle vertikale Streifen. Wenn man sich alles, also ohne „abgeschnittene“ Abzsisse, anschaut, denn sieht man solche Streifen auch hier wieder. Diesmal sind die natuerlich horizontal und treten wieder nur auf, wenn die Ordinate (da wir die Reihen normieren) die Linksgruppe praesentiert. Da diesbezueglich hier nix weiter zu holen ist und ich dazu alles schon beim letzten Mal sagte, spare ich mir das entsprechende Bild zu zeigen.

Sooo … das war’s … noch nicht, denn damals hatte ich den Eindruck, dass sich in den groszen schwarzen Bereichen noch Information versteckte. Um die aufzuspueren musste ich aber die Daten noch mehr bearbeiten. Diesen Prozess konnte ich auch erweitern und generalisieren und darauf gehe ich dann beim naechsten Mal ein (und sicher auch beim uebernaechsten Mal … und vielleicht darueber hinaus … das weisz ich gerade aber noch nicht).

Posted by Tentacel on 2024-12-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (iv (a)) – Omno(r)mno(r)mno(r)mno(r)mierte Spalten

Weil man damals nicht viel sah (und immer noch nicht viel sieht), wenn man sich alles auf einmal anschaut bzw. nur das bisschen was um den Ursprung rum passiert, normierte ich die Matrizen.
Kurz zur Wiederholung: Normierung bedeutet in diesem Fall, dass ich alle Werte einer Spalte durch den grøszten Wert in besagter Spalte dividiere. Dadurch wird die maximale Intensitaet auf eins festgesetzt und alle Spalten haben den selben maximalen Wert (nur eben (mglw.) an anderen Stellen).

Durch die Normierung wurde das viele Schwarz zumindest teilweise deutlich farbenfroher und man konnte viel mehr von dem sehen was eigentlich passiert. Das Wort „teilweise“ bezieht sich darauf, dass sich die Farben immer noch nahe der Abzsisse „tuemmelten“ … weswegen die Bilder hier und heute zwar den gesamten Definitionsbereich zeigen, auf der Ordinate aber nur bis zum Wert 200 gehen.

Und los geht’s wieder mit dem Reproduzierbarkeitsteil — das Zitate-ueber-Zitate Bild (mit normierten Spalten):

Bis auf eine Ausnahme passiert nix Wesentliches. Vielleicht gibt es ein Muster in den Bildern, ich denke aber, dass die Laenge und Intensitaet der einzelnen Spalten zufaellig ist. Das nennt man auch „Rauschen“ und Rauschen veraendert sich nunmal ueber die Zeit.
Die Ausnahme ist der helle Streifen in den 2020-Daten bei einer Zitategruppe von ca. 2600. Der ist entweder nicht mehr existent in den 2023 Daten, oder hat sich deutlich nach rechts, in die Naehe von Zitategruppe 5000 verschoben. Auch wenn ich das nicht geprueft habe, so denke ich nicht, dass Ersteres zutrifft. Der Grund liegt darin, dass sich der helle Streifen damals als zur Seite CinemaScore gehørend herausstellte. Die ist zu wichtig um einfach zu verschwinden. Auszerdem stellte sich damals auch heraus, dass die Art und Weise wann besagte Seite zitiert wird etwas speziell ist und dieses Spezielle kønnte eine deutlich høhere Anzahl an Zitaten drei Jahre spaeter durchaus mit einschlieszen.

Das schlieszt den Reproduzierbarkeitsteil ab und wie beim letzten Mal gehe ich sofort zum Links-ueber-Zitate Bild (mit normierten Spalten) ueber:

Das ist ja nun etwas komplett Neues, aber ich denke, dass man auch hier wieder vor allem Rauschen und Veraenderungen darin sieht.
Im Vergleich zum (spaltennormierten) Zitate-ueber-Zitate Bild ist es interessant, dass der helle Bereich nicht auf nur ein paar wenige Reihen nahe der Abzsisse konzentriert ist sondern sich ueber fast 30 Reihen ausdehnt. Ebenso ist der „Start“ des hellen Bereichs um ca. 10 Reihen nach oben verschoben. Und dann sind da noch zwei „Artefakte“ (?); zwei Steifen die sich etwas nach rechts ziehen. Einer in Reihe 13 oder 14 der von Zitategruppe 0 bis ca. 500 / 600 reicht und ein zweiter, schwaecherer zwischen den Reihen 32 und 36, von ca. Zitategruppe 200 bis ca. 1200.
Ich lass das alles jetzt einfach so stehen und mache da nix weiter mit.

Vielmehr gehe ich direkt ueber zum Links-ueber-Links-Bild (mit normierten Spalten)

Im Wesentlichen wieder nur Rauschen. Es gibt aber eine Abweichung die von groszem Interesse ist: der helle Bereich laeuft nicht ueber die gesamte Abzsisse. Vielmehr wird dieser „schwaecher“ ab ca. Linksgruppe 700 und ist nur noch sehr schwach, mit vielen Unterbrechungen ab ca. Linksgruppe 1100.
Das bedeutet ja, dass Seiten mit vielen Links, NICHT am haeufigsten von Seiten mit wenigen Links zitiert werden, denn dann wuerde der helle Bereich sich komplett durchziehen. Vielmehr scheint es so, dass solche Seiten von anderen Seiten mit zum Teil deutlich mehr als 50 Links zitiert werden. Letzteres ist aber nicht systematisch und deshalb sind die hellen Pixel (also das Maximum einer Spalte) bei Seiten in Linksgruppen ueber ca. 1100 zu groszen Teilen wie die Sternen am Himmel (also zufaellig) verteilt. Ich komme ganz am Ende darauf zurueck.

Als (vor)letztes das Zitate-ueber-Links-Bild (mit normierten Spalten):

Ah ja … sieht im Wesentlichen aus wie erwartet — eine Mischung der oben diskutierten und gezeigten Phaenomene. Der helle Bereich ist wieder schmal und nahe der Abzsisse (weil die Ordinate die Zitategruppe darstellt) und weil auf der Abzsisse die Linksgruppen abgetragen sind, tritt auch hier der „Sternenhimmel“ auf. Deswegen schreibe ich da niz weiter zu.
„Komisch“ sind in den 2020-Daten nur die duennen vertikalen Streifen die um Zitategruppe 110 (auf der Ordinate) auftreten. Die sieht man zwar nicht mehr, wenn man sich das Links-ueber-Links Bild (mit normierten Spalten) der 2020-Daten ohne „abgeschnittene“ Ordinate anschaut …

… aber deren „grosze Bruder“ tauchen bei ungefaehr Linksgruppe 700 auf der Ordinate auf! Ich habe da keine Erklaerung fuer, denn ich habe das nicht weiter untersucht, es sieht aber dem „Blob“ von damals erstaunlich aehnlich. Nur dass ich damals noch deutlich mehr als eine Normierung machen musste um ueberhaupt auf diese Anomalie aufmerksam zu werden, und beim „neuen Werkzeug“ faellt das einfach so raus.
Es scheint sich hierbei um eine Art „Linksphaenomen“ zu handeln, denn ich sehe das NICHT in den Bildern bei denen die Abzsisse die Zitategruppen praesentiert. Auch hier wieder: das soll reichen und es folgt nix weiter.

Abschlieszend kann ich auch dieses mal sagen: cool wa! Das neue Werkzeug „keeps on giving“. Das war’s aber noch nicht, denn weil es zu viel geworden waere, bekommen die reihenweise normierten Bilder ihren eigenen Beitrag (den naechsten).

Posted by Tentacel on 2024-11-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (iii) – Trotz neuer Farben wieder nicht viel zu holen

Nach der nøtigen Verallgemeinerung vom letzten Mal kann ich endlich zu den zweidimensionalen Falschfarbenbildern kommen. Nur eine kleine Sache muss ich noch erwaehnen. Meine Lieblingsfarbpalette fuer Falschfarbenbilder hat gewisse Probleme (in kurz: sie luegt mich an und gaukelt mir Sachen vor die gar nicht da sind; schau bspw. hier, etwas technischer hier). Ich wusste davon seit einigen Jahren. Dinge die einem am Herzen liegen, gibt man nur nicht so schnell auf. Aber nun endlich habe ich mich dazu durchgerungen eine andere Farbpalette zu benutzen, die nicht mit diesen Problemen einher kommt.

Hier ein Vergleich von alt und neu:

Es ist gerade noch nicht so wichtig, was man da sieht (denn ich komme gleich darauf zurueck). Wichtig ist, dass die Farbpalette von blau bis rot im hellgruenen Bereich eine viel høhere Intensitaet vermuten laeszt, als tatsaechlich da ist. Das ist nur das auffaelligste Merkmal (es gibt noch andere, wenn man genau hinschaut) und ich werde hier nicht darauf eingehen, inwiefern das Information hinzufuegt, die so nicht vorliegt. Aber all das tritt bei Benutzung der neuen Farbpalette nicht mehr auf.

Das soll dazu reichen und ich gehe sofort zum eigentlichen Thema ueber: Falschfarbenbilder die zeigen welche Seiten von welchen anderen Seiten zitiert werden.
Bereits damals stellte ich fest, dass man im Wesentlichen nur schwarz sieht (Wortspielkasse), wenn man sich alles anschaut und die „Action“ um den Ursprung herum passiert. Daran hat sich auch mit den 2023-Daten nix geaendert und deswegen zeige ich hier nur Bilder die sich auf die ersten hundert Bedeutungsgruppen (zum Quadrat) konzentrieren.

Fuer den Reproduzierbarkeitsteil (aber mit neuen Farben) der Vergleich des Zitate-ueber-Zitate-Bildes:

„OI! Da aendert sich doch aber gewaltig viel!“ kønnte man da sagen, denn die Intensitaet nimmt stark ab. Ihr meine lieben und aufmerksamen Leserinnen und Leser seht aber sicherlich sofort, dass sich auch die Farbskala gewaltig aendert. Und wenn man das vergleicht, dann ist das doch sehr aehnlich.
Der Grund fuer die viel weiter reichende Farbskala bei den 2023-Daten liegt in der einen Wikipedia Hauptseite die insgesamt ueber 5 Millionen Zitate erhaelt und in den 2020-Daten nicht dabei ist. Das ist buchstaeblich nur die allerletzte Spalte, und auch da nur ca. die ersten 23 Pixel, die den kompletten (Farb)Bereich voll ausnutzen. Die Farbwerte (aber nicht die Zahlenwerte) aller anderen Pixel ist dementsprechend herunter gesetzt. Die Aenderung ist somit ein technisches Artefakt und liegt nicht an den allgemeinen (!) 2023-Daten an sich. Wenn man besagte Hauptseite (und noch eine zweite Seite mit ueber 1 Million Zitaten, bei der ich aber nicht schaute um was es sich dabei handelt) entfernt, ist alles im Wesentlichen wie vorher. Und hier ist das entfernen vøllig OK, da es sich ja im einen tatsaechlichen Ausreiszer handelt, der gar nichts ueber die generelle Situation aussagt.

Von dem leicht zu korrigierenden, technischen Artefakt abgesehen passiert auch bei den 2023-Daten nicht viel. Das Intensitaetsmaximum liegt beide Male um 3 Zitate auf der Abzsisse und 1 Zitat auf der Ordinate und der leuchtende „Blob“ zieht sich parallel zur x-Achse ein wenig in die Laenge und bildet einen „duennen Schwanz“ aus.

Wenn man sich aber das Links-ueber-Zitate Bild anschaut wird’s in den 2020-Daten spannend:

Zum Einen verteilt sich die „Action“ mehr; der „Blob“ ist viel ausgedehnter. Zum Zweiten leigt das Maximum bei ungefahr 4 Zitaten auf der Abzisse und ungefaehr 11 Links auf der Ordinate. Zum Dritten dehnt sich der „Blob“ zwar relativ gleichmaeszig entlang beider Achsen aus, scheint die Richtung parallel zur Ordinate aber ein klein wenig zu bevorzugen. All das ist voll aufregend und gehørt untersucht. Aber nicht (mehr) von mir und nicht an dieser Stelle.
Abschlieszend zu diesem Bild ist wieder nur zu sagen, dass es keinen Unterschied in den 2023-Daten gibt. Die Aenderung der Intensitaet ist auch hier wieder nur ein Artefakt.

Auf zum Links-ueber-Links Bild:

Ich gehe jetzt nicht im Detail auf alle Merkmale ein, an den 2020-Daten sieht man aber leicht, dass es noch andere Informationen offenbart als beide vorherigen Darstellungen.
Interessant ist die helle, unterbrochene Linie, parallel zur Abzsisse, bei 12 Links auf der Ordinate. Dort treten etliche Pixel _deutlich_ hervor. Das ist bestimmt ein weiteres Artefakt und es wuerde mich nicht wundern, wenn es sich dabei um Seiten handelt, die ich hier als „Information Operations“ bezeichnete. Diesmal liegt das Artefakt aber nicht in der Darstellung, sondern in den Daten … andererseits dachte ich auch beim „São-Paulo-FC“-Phaenomen, dass es sich dabei um ein Artefakt handelt und das stellte sich dann nur als extremste Ausfuehrung einer systematischen Sache heraus.

An dieser Linie sieht man auch die einzigen zwei echten Unterschiede zu den 2023-Daten. Zum Einen scheint die Linie um eins nach oben zu „springen“. Ich wuerde zunaechst nicht ausschlieszen, dass ich da einen Fehler gemacht habe. Denke aber nicht, dass dem so ist.
Vielmehr vermute ich, dass der Hintergrund wieder die Wikipedia Hauptseite ist. Ein Link dahin scheint bei den 2023-Daten in (fast) allen Seiten drin zu sein (denn andernfalls haette die nicht so viele Zitate). Wenn besagter Link zwischen Ende 2020 und Ende 2023 automatisch zu allen Seiten hinzugefuegt wurde, heiszt das ebenso, dass die Anzahl der Links aller Seiten um eins nach oben geht. Das wuerde die hier nicht mal erwaehnte, weil so schwache, ganz leichte Verschiebung der roten Kurve erklaeren … wenn man genau hinschaut, scheinen dort alle Seiten um eins nach rechts gehuepft zu sein. Aber auch das werde ich mir nicht weiter anschauen … ich erwaehnte es nur als plausiblen Mechanismus, der die Unterschiede einfach erklaeren wuerde.
An der Linie sieht man noch einen weiteren Unterschied: die Position der hellen Punkte verschiebt sich auch entlang der Linie (bzw. verschwinden diese zum Teil vøllig). Das sieht mir nach ’ner „Hausmeisteraktion“ bei der Wikipedia aus, bei der bspw. „Information Operations“-Seiten geløscht wurden. Ein paar solcher Seiten konnten „entkommen“, bzw. rutschten vermutlich gerade unter die Erkennungsgrenze die fuer solche Seiten festgelegt wurde.

Und nun noch schnell das Zitate-ueber-Links Bild:

Man sieht an den 2020-Daten, dass es von allen drei neuen Achsenbedeutungskombinationen am meisten dem Zitate-ueber-Zitate Bild zu aehneln scheint. Es gibt aber Unterschiede die sich lohnen naeher zu betrachten … ihr, meine lieben Leser und Leserinnen ahnt es aber sicherlich schon: das wird nicht hier passieren und auch nicht (mehr) von mir gemacht werden.

Das soll reichen fuer heute. Ich møchte nur noch erwaehnen, dass erst dieses (neue) Werkzeug das (obige) Fuellhorn an Informationen zur Verfuegung gestellt hat. Das ist so’n bisschen wie damals (also ganz damals, viel frueher als mein Kevin-Bacon-damals) beim Mikroskop; die Informationen waren ja die ganze Zeit schon da, ich hab die nur (fast) nicht gesehen, weil ich die nicht „im richtigen Lichte“ betrachtet habe, weil mir bis vor Kurzem das richtige Werkzeug dazu fehlte.

Cool wa … das was eigentlich nur als Reproduzierbarkeit des ganzen Krams gedacht war hat (schon wieder) was Neues hervorgebracht. Wie ich es schon øfter erlebte, lohnt es sich sehr, am Ende nochmals auf eine Sache zu schauen mit der man sich laengere Zeit beschaeftigte. Denn dann kennt man viele der Details und wenn man das „Bild“ dann aus grøszerem Abstand anschaut, sieht man neue Sachen, die man vorher nicht sehen konnte, weil man eben diese Details noch nicht kannte. Aber ich fange an mich im Kreis zu bewegen und mache deswegen nun wirklich Schluss fuer heute.

Posted by Tentacel on 2024-11-05 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (ii) – Relevanzwert zu Bedeutungsgruppe

Ohne lange Vorrede, knuepfe ich recht direkt beim letzten Mal an.
Urspruenglich schaute ich nur auf die Zitate die eine Wikipediaseite auf sich vereinte und betrachtete diese als ein Masz fuer die „Relevanz“ besagter Seite. Ich definierte (nicht formal, aber irgendwie schon) dann, dass der „Relevanzwert“ eine Art „Projektion“ der Anzahl der Zitate auf eine kontinuierliche Verteilung ist. Hier bin ich damals naeher darauf eingegangen; dennoch zur Wiederholung zwei kurze Beispiele.
– Seiten mit wenigen Zitaten werden 1:1 „projiziert“. Es gibt Seiten mit, zwei, drei, vier, oder fuenf Zitaten und deren „Relevanzwert“ entspricht dann auch 2, 3, 4 oder 5.
– Bei vielen Zitaten kommt es aber zu Luecken. Bspw. kønnte es (eine) Seite(n) mit 235 Zitaten geben, was dann (noch) einem „Relevanzwert von 235 entspricht. Wenn es nun keine Seiten mit 236 oder 237 Zitaten gibt (eine Luecke) sondern erst wieder mit 239 Zitaten, so werden Letztere einem „Relevanzwert“ von 236 (ohne Luecke!) zugeordnet.

Soweit zur Auffrischung alter Sachen. Aber eigentlich will ich vom Begriff „Relevanzwert“ weg kommen. Der Grund liegt in dem was ich beim letzten Mal schrieb: auch die Anzahl der Links die eine Seite hat ist von Interesse. Die kønnen aber nicht mehr (oder vielmehr nicht auch) als Relevanzwert angesehen werden. Dennoch møchte ich gerne zwischen Anzahl Zitaten und Anzahl Links unterscheiden kønnen.
Das oben beschriebene Prinzip hilft aus dem Dilemma heraus, denn alle Seiten welche die selbe Anzahl an Zitaten / Links haben (je nachdem, was man betrachtet) werden in eine Gruppe „geschmissen“. Und das was dann auf der jeweiligen Achse des zweidimensionalen Falschfarbenbildes abgetragen ist, entspricht der Bedeutung der Achse. Somit kommt man leicht zu den Bedeutungsgruppen, bzw. ganz konkret: Zitategruppen bzw. Linksgruppen. Am Prinzip aendert sich aber nix, nur der Name ist anders und die Interpretation bzgl. dessen fuer was besagtes Prinzip steht ist verallgemeinert worden.

An der Stelle kann ich mich um den Reproduzierbarkeitsteil des Anhangs kuemmern. Fuer die Daten von 2020 gab es nur 5,696 verschiedene Møglichkeiten wieviele Zitate eine Seite haben konnte. Weil man bei der Null anfaengt zu zaehlen (denn es gibt Seiten die keine Zitate haben), entspricht das einem høchsten Relevanzwert von 5,695. Hier ist der Vergleich mit den Daten von 2023:

Man sieht, dass sich die 2023 Daten (rote Punkte) ab ca. 3-tausend Zitaten ueber die 2020-Daten erheben. Die Vielfalt in der Anzahl der Zitate die eine Seite haben kann ist also grøszer in den neueren Daten (und damit steigt die Anzahl der Zitategruppen). Wie oben erwaehnt, werden Seiten mit wenigen Zitaten 1:1 auf die entsprechende Gruppe „projiziert“ … am Grafen kann man ablesen, dass „wenig“ bis ca. 3-tausend Zitate bedeutet.
Insgesamt gibt es in den 2023-Daten 6164 Zitategruppen, also nicht ganz 500 mehr als in den 2020-Daten.

Die S-Form hat nix zu sagen und kommt durch die halblogarithmische Darstellung zustande. Diese waehlte ich aus zwei Gruenden. Zum Einen, weil eine Seite (es ist die Hauptseite … ich frage mich uebrigens, warum die nie in den 2020-Daten auftauchte … vielleicht hat sich seitdem was in der Wikipedia an sich geaendert … oh … ich schwoffte ab) ueber 5 Millionen Zitate erhaelt und man bei linearer Abzsisse nix Relevantes sehen wuerde (nur eine Kurve die senkrecht nach oben geht und dann flach verlaeuft). Zum Zweiten, weil es bei einer logarithmischen Ordinatebei hohen Zitategruppen(zahlen?) zur „logarithmischer Komprimierung“ kommt und man dadurch auch wieder nix Relevantes (naemlich den Unterschied) sieht.

Alles in allem wuerde ich dies als reproduziert ansehen. Die Aenderung der Anzahl der Zitategruppen war zu erwarten und die Aenderung liegt jetzt nicht vøllig wild ganz woanders (bei 5 Trillionen oder so … oder auch nur ’nem Faktor 2 wenn man mal drueber nachdenkt).

Und nun kommt was Neues … und Altes was aber auch neu ist, weil ich’s vorher noch nicht gezeigt hatte: die „Projektion“ der Anzahl der Links die eine Seite haben kann auf die Linksgruppen:

Man beachte die andere Skalierung! Weil die Anzahl der Links nicht so hohe ~~Extrem~~Maximalwerte hat, konnte ich beide Achsen linear belassen. Man kann aber erahnen, was ich oben mit „senkrecht nach oben und dann flach“ meine; bzw. wie nuetzlich die „logarithmische Komprimierung“ ist … aber das zog sich ja immer wieder durch diese Serie. Desweiteren sieht man eine andere, bereits erwaehnte Sache: bis ca. 1500 Links ist der Anstieg der Kurve linear und das entspricht einer (im Wesentlichen) 1:1 „Projektion“.
Ansonsten ist nur noch zu sagen, dass die Anzahl der Linksgruppen nur ca. 1/3 der Anzahl der Zitategruppen betraegt und dass besagte Anzahl auch hier (leicht) zunimmt in den 2023-Daten.
Alles in allem ist das zwar neu, aber gleichzeitig auch eine Reproduktion … toll wa! Der fruehe Wurm faengt gleich zwei Spatzen auf dem Dach :) .

Juti … das soll reichen fuer heute. Beim naechsten Mal … … … *ueberleg* … … … gibt’s dann endlich wieder bunte Bilder. Da muss ich aber noch ueberlegen, wie ich das aufziehe.

Posted by Tentacel on 2024-10-23 at 13:37 under Kevin Bacon.
Comment on this post.