Archive for Juli, 2026

Nach den, beim letzten Mal reproduzierten, Verhaeltnissen der Grøszen von Interesse zueinander, widmete ich mich damals laengerer Zeit den kumulativen Log-Log-Diagrammen. Das muss ich natuerlich nicht nochmal extra reproduzieren, denn die sind so maechtig, dass ich die regelmaeszig anwende und damit bei vorherigen Reproduktionen schon automatisch mit dabei waren.

Danach bemerkte ich dann damals, dass ich die urspruengliche Frage, welche dieses Projekt ueberhaupt erst anstiesz, noch gar nicht beantwortet hatte (was prompt nachgeholt wurde). Die dazugehørende Wiederholung mit neuen Daten muss noch warten, denn wir naehern uns dem Ende der Reproduktion (endlich) und somit dem Ende des ganzen Projekts (endlich endlich).
Zunaechst will ich mir das „Anhaengsel“ welches die Popularitaetsbetrachtungen waren, nochmals mit den neuen Daten anschauen.

Natuerlich habe ich den Code dazu nochmal neu geschrieben (und selbstverstaendlich ein bisschen erweitert) und das war dieses Mal relativ simpel, denn ausnahmsweise war das kein … øhm … ich sag jetzt Mal experimenteller Code. Ich konnte viele Stuecke davon so verwenden wie sie waren und alles war ziemlich gut kommentiert. Nun ist alles noch alles besser strukturiert und noch (viel) besser kommentiert.

Wieauchimmer, die Anzahl der neuen Seiten pro Monat werden ganz hervorragend (wenn auch nicht zu 100 %) reproduziert:

Die 1 zu 1 Reproduktion gelingt nicht, weil es gewisse Unterschiede zwischen den 2020- und den 2023 Daten gibt. Manche Seiten aus der 2020 Wikipedia tauchen in der 2023 Wikipedia nicht mehr auf. Entweder weil diese geløscht wurden, oder weil zwei thematisch sehr nahe individuelle Seiten zu einer einzigen verschmolzen wurden. Das hat zur Folge, dass die „Referenz“ welche den welche-Seiten-sind-im-jetzigen-Monat-denn-dazu-gekommen Betrachtungen zugrunde liegt, etwas anders ist. Deswegen sehe ich in manchen Monaten ein paar mehr und in anderen Monate ein paar weniger neue Seiten.

Interessant ist, dass der leicht ansteigende Trend von ca. 2015 bis ca. 2020 direkt nach meinen urspruenglichen Untersuchungen aufhørte und die Anzahl der neuen Seiten pro Monat seitdem stagniert. Ich fragte mich beim ersten Mal als ich das sah, wie sich das wohl entwicklen wird. Nun weisz ich das.

Damals schaute ich mir dann die Anzahl der durchschnittlichen Seitenaufrufe einer (gegebenen) Seite pro Monat in Abhaengigkeit von der Anzahl der Links oder Zitate der besagten Seite an. Jetzt gibt’s das auch in ausfuehrlich …

… was hoffentlich zum Verstaendniss der Ergebnisse beitraegt.

Diese Diagramme zeigen (erstmal) nur die Abhaengigkeit von der Anzahl der Links einer Seite. Wie so oft immer tragen zu einem Datenpunkt alle Seiten mit einer gegebene Anzahl Links bei.
Im oberen linken Diagramm sieht man dann den Urpsrung der Betrachtungen, naemlich einfach die Summe aller Seitenaufrufe aller Seiten (mit einer gegebenen Anzahl Links). Das ist leicht zu verstehen und die 2023 -Daten liegen i.A. etwas ueber den 2020-Daten … was zu erwarten war, denn seitdem sind drei Jahre vergangen und (mehr oder weniger) alle Seiten wurden in dieser Zeit (noch) øfter angeschaut.

Das sollte sich bei der durchschnittlichen Anzahl an Seitenaufrufen (also die obige Summe der Seitenaufrufe dividiert durch die Anzahl der zur Summe beitragenden Seiten) ebenso zeigen, denn die Anzahl der zusaetzlichen Seitenaufrufe wuerde ich zunaechst als proportional zur Anzahl der Tage zwischen den Daten annehmen. Dito (mutatis mutandis) bzgl. der Anzahl der neu hinzugekommenen Seiten … ABER ’ne (alte) Seite anzuklicken ist schneller (und deswegen øfter) getan als ’ne neue Seite zu erstellen. Deswegen wuerde ich annehmen, dass der Zaehler dieses Verhaeltnisses (etwas) schneller waechst als der Nenner und die 2023-Daten somit systematisch ueber den 2020-Daten liegen sollten.
Wenn man genau hinschaut, dann sieht man das auch im rechten, oberen Diagramm … OKOK, vermutlich nicht in dem Bild hier in diesem Beitrag, aber wenn man sich das in einem Datenvisualisierungsprogramm im Detail anschaut, dann ist das so.

Das bringt mich zum linken unteren Diagramm, in dem das was ich damals zeigte reproduziert wird. Dafuer dividierte ich fuer jede Seite (mit einer gegebenen Anzahl an Links) zunaechst die Anzahl der Seitenaufrufe durch die (bisherige) „Lebensdauer“ der Seite. Damals benutzte ich die „Lebensdauer“ in Monaten, diesmal in Tagen. Fuer alle Seiten (mit einer gegebenen Anzahl an Links) addierte ich diese individuellen Verhaeltnisse und die Summe wurde dann wieder durch die Anzahl der zur Summe beitragenden Seiten dividiert.
Ich wuerde davon ausgehen, dass die „Lebensdauer“ schneller zunimmt als Leute eine Seite anklicken. Somit sollte sich das oben Gesagte umkehren … was genau das ist, was man im besagten Diagramm sieht (auch wenn es schlecht zu erkennen ist) — die roten Quadrate liegen systematisch unter den schwarzen Punkten.

So „nebenbei“ faellt bei den Betrachtungen noch die durchschnittle „Lebensdauer“ der Seiten an. Die sieht man im etwas abgesetzten, rechten, unteren Diagramm. Wie zu erwaten war, sind die 2023-Daten (im Wesentlichen) parallelverschoben um drei Jahre nach oben.
Die „Saettigung“ nach oben tritt immer dann auf, wenn man auf eine Seite mit einer einzigartige Anzahl an Links trifft, welche es schon „von Anfang an“ (also die maximale Anzahl an Tagen) gibt. Die durchschnittliche „Lebensdauer“ wird in solchen Faellen also nicht durch andere Seiten mit der selben Anzahl an Links (aber weniger Anzahl an Tagen) „verduennt“, denn es gibt keine Seiten mit der selben Anzahl an Links. Und mehr als diese Anzahl an Tagen geht auch nicht, denn fuer alle Seiten in der „Referenz“ (das sind die von-Anfang-an-dabei-Seiten) wird das gleiche „Geburtstdatum“ angenommen. Letzteres ergibt sich aus den „Klickzahlen“, und eine Seite wird „geboren“, wenn der Autor diese nach der Erstellung anklickt und besagte Seite dann zum ersten Mal in den „Klickzahlen“ auftaucht. Diese Information wurde aber nicht vor 2007 erhoben. Deswegen die „Saettigung“.

Mehr als zu den Unterschieden zwischen den Datensaetzen sage ich nicht, denn das habe ich damals alles schon abgehandelt.

Bleibt nur noch nach das Ganze auch fuer die Abhaengigkeit von der Anzahl der Zitate die eine Seite erhaelt zu zeigen … tadaaaa:

Ich ueberlasse es euch, meinen lieben Leserinnen und Lesern, das oben Gesagte auf diese Diagramme anzuwenden.

Und wie so oft: Rreproduktion gelungen.

Tjaaaa … wenn ich nicht doch noch ’n Rappel kriege und zwei Ideen umsetze die mir im Kopf rumschwirren, dann gibt’s nur noch eine zu taetigende Reproduktion … und z.Z. sieht es „duester“ aus fuer die zwei Ideen … ich hab naemlich wirklich keine Lust mehr auf Kevin Bacon … ich will das Projekt nach sechs Jahren endlich abschlieszen.