Ich knuepfe (beinahe) nahtlos an die (ausfuehrliche) Diskussion vom letzten Mal an zeige. Deswegen sofort die Diagramme von Interesse:
Zunaechst zum rechten unteren Bild, in dem die Verhaeltnisse de jeweiligen Summenkurven der zwei Datensaetze zu sehen ist.
Man sieht deutlich, dass bei kleinen Linkleveln (ich sag jetzt mal bis ca. LL25) die Anzahl der neuen Links und der Selbstreferenzen sowie der Wert der Linkfrequenz direkt mit der Anzahl der totalen Links zusammenhaegt. Das ist sinnvoll. Fuer die zwei letzteren Grøszen bleibt das auch so ueber alle Linklevel. Das ist logisch, denn Selbstreferenzen sind im Wesentllichen ein zufaelliger Prozess der umso wahrscheinlicher wird, je mehr Links vorliegen. Und die Linkfrequenz ist ohnehin direkt an alle (einzigartigen) Links (und somit deren (totale) Anzahl) gekoppelt.
Wenn also die Anzal der totalen Links in den 2023 Daten halbiert wird bei høheren Linkleveln, dann hat das auch eine Halbierung der Selbstreferenzen und der Linkfrequenz zur Folge.
Aufgrund der Ketten entkoppeln sich die neuen Links allerdings von der Anzahl der totalen Links. Im einfachsten Bild ist die Anzahl der neuen Links in der Kette konstant (eben nur noch der Vorwaerts-Link in der Kette ist neu), egal wie sehr die Anzahl der totalen Links schwankt.
Nun zu den Verhaeltnissen der neuen Links im oberen linken Bild. Die 2023 Kurve weicht ab ca. LL25 systematisch um ca. einen Faktor 4 von der 2020 Kurve ab. Was natuerlich daran liegt, dass es nur noch ungefaehr halb so viele totale Links (und damit Selbstreferenzen bzw. Linkfrequenz“en“), aber ca. doppelt so viele neue Links gibt … wie beim letzten Mal ausfuehrlich besrpochen. Das ist kein abrupter Vorgang, was den Anstieg der Kurven erklaert (im Gegensatz zu den (irgendwann, mehr oder weniger) konstanten Kurven der 2020 Daten).
Die Verdopplung der neuen Links macht sich in den anderen Verhaeltnissen immer dann bemerkbar, wenn die Anzahl der neuen Links im Nenner steht, womit das nicht weiter besprochen werden muss.
Einen Unterschied gibt es, der auch beim letzten Mal erwaehnt, aber nicht weiter besprochen wurde. Es geht um das Verhaeltniss zur Linkfrequenz. Hier ist es so, dass sich in den 2020 Daten die Verhaeltnisse zu den totalen Links und zur Linkfrequenz eng aneinander schmiegen, ja beinahe deckungslgleich sind, aber bei den 2023 Daten etwas auseinander gehen.
Prinzipiell wuerde ich erstmal sagen: reproduziert, weil das kein groszer Unterschied ist … aber beim letzten Mal haben wir ja gelernt, dass da mglw. mehr dahinter steckt. Das ist aber leicht zu erklaeren
Das Anschmiegen (wenn auch nicht perfekt) ist dem Umstand geschuldet, …
[…] dass die Linkfrequenz im wesentlichen die „gedeckelte“ Anzahl der totalen Links ist […].
Das Wørtchen „gedeckelt“ ist hierbei tragend.
Zur Erinnerung: der Linkfrequenzzaehler einer Seite wird (bei der Netzwerkanalyse mit einer bestimmten Startseite) um eins erhøht, wenn diese Seite (auf einem gegebenen Linklevel) „erwaehnt“ wird … man also einen Link zu dieser Seite sieht. Der Linkfrequenzzaehler zaehlt aber NICHT wie oft ein Link zu dieser Seite auf diesem Linklevel „gesehen“ wird. Deswegen „gedeckelt“, denn wenn jeder Link zu einer Seite geht dann sind der Wert fuer die Linkfrequenz und die Anzahl der totalen Links gleich; wenn man sich aber auf zwei verschiedenen Seiten in der Kette befindet (in den einfachen Modellen beim letzten Mal bspw. B und B-Strich), dann kønnen die zur selben Seite in der groszen weiten Wikipedia einen Link haben. In dem Fall geht der Zaehler fuer die totalen Links um zwei hoch, aber der fuer die Linkfrequenz nur um eins.
Da die Seiten einer Kette thematisch zusammenhaengen ist es sinnvoll anzunehmen, dass die auch ab und zu mal zu den selben (bereits vorher gesehenen) Seiten verlinken.
Das sieht man auch im rechten unteren Diagramm. Ab (ich sag jetzt mal) ca. LL45 „entkoppelt“ sich das 2023-zu-2020-Linkfrequenzverhaeltniss (lila Kurve) in Teilen vom 2023-zu-2020-totale-Links-Verhaeltniss (schwarze Kurve) … das ist ein kleiner Effekt und normalerweise wuerd ich sagen „reproduziert“ (das also „natuerlichen Schwankungen“ zuordnen“), aber ich denke das ist eine echte und systematische Abweichung und die Erklaerung dafuer ist ja auch durchaus logisch.
Damit kann ich zum Diagramm bzgl. den Selbstreferenzverhaeltnissen kommen (rechts oben) … und das auch ganz schnell wieder abschlieszen, denn dazu gibt es nix zu sagen, was nicht schon gesagt wurde.
Es bleibt das Diagramm bzgl. den Linkfrequenzverhaeltnissen (links unten). Von einer Ausnahme abgesehen, muss das bereits Gesagte nur angewendet werden um das Verhalten der Kurven (und eventuelle Unterschiede) zu begreifen. Die Ausnahme ist (wieder) das Verhaeltniss zu den neuen Links. Die Abweichung der 2023 Kurve nach unten bei høheren Linkleveln hat die selben Gruende wie vorher. Aber die Abweichung der selben Kurve nach OBEN bei kleinen Linkleveln … ist mir ein Raetsel … … … oder kein Raetsel an sich, denn das laeszt sich einfach dadurch erklaeren, dass es nur noch ca. halb so viele neue Links gibt verglichen mit den 2020 Daten. Aber wieso sollte das so sein?
Die einzige Erklaerung die mir einfaellt waere eine doppelt so gute Vernetzung der Seiten. Aber das kann ich nicht wirklich pruefen … bzw. ich kønnte mglw. schon, denn im einfachsten Fall wuerden einfach nur doppelt so viele Seiten „zurueck linken“ zu der Seite die sie zuerst zitiert … aber um das ordentlich zu untersuchen muesste ich nochmal ein ganz neues Fass aufmachen und das wuerde sich vermutlich ziemlich lange hinziehen … und da hab ich keine Lust mehr drauf und ich lasse das Mysterium einfach stehen, damit sich da wer anders drum kuemmert.
Joa … und das war das dann mit den Verhaeltnissen. Es bleibt zu sagen, dass die Reproduktion teilweise, aber sicherlich nicht in Gaenze gelungen ist. Die Hauptursache der Unterschiede konnten geklaert werden und es zeigte sich, wie empfindlich gewisse Ergebnisse auf kleine Aenderungen reagieren, auch wenn im Groszen und Ganzen alles erstmal aussieht wie immer.
Und das war ja irgendwie auch Sinn und Zweck als ich mich entschlossen habe alle Ergebnisse mit einem neuen Datensatz nochmal zu reproduzieren. Ich wollte sehen wo ich falsch lag. Nicht, dass ich hier falsch lag bei den 2020 Daten, aber es zeigte sich in den 2023 Daten, dass es auch anders geht.
Ach so … die „lustigen VierVielecke“ vom Beitrag der damals direkt nach den Verhaeltnissen kam werde ich nicht reproduzieren. Die Aenderungen bei den neuen Links werden sich sicherlich darin niederschlagen. Das ist aber erst bei høheren Linkleveln relevant. Bbesagte Vielecke erschuf ich aber um die Unterschiede in den Maximumspositionen der jeweiligen Verhaeltnisse zu erklaeren … und die liegen bei (sehr) kleinen Linkleveln. Damit habe ich eine gute Ausrede das sein zu lassen.

Leave a Reply