Beim letzten Mal erklaerte ich drei der vier Grøszen die ich beim Abschreiten des Wikipedialinknetzwerkes untersucht habe. Die vierte ist eine Grøsze, die ich Linkfrequenz nenne. In kurz ist die Linkfrequenz ein Zaehler pro Linklevel und Titel OB (aber NICHT wie oft) besagter Titel insgesamt beim Abschreiten der Linknetzwerke aller Titel (inklusive sich selber) als Link auftaucht. Das ist gar nicht so kompliziert, wie sich diese komprimierte Beschreibung mglw. anhørt. Im Prinzip schaue ich auf jedem Linklevel, welcher (anderen) Titel zitiert werden und zaehle dann die Linkfrequenz(en) fuer diese (anderen) Titel und dieses Linklevel einmal hoch. Das wird (hoffentlich) verstaendlicher mit einem Beispiel.

Dafuer ziehe ich das (etwas modifizerte) abgeschlossene Beispiellinknetzwerk von vor einiger Zeit wieder heran:

Als Beispiel folgen wir allen Linkketten die zu Borkenkaefer fuehren.

Auf Linklevel 0 von Baum und Frucht wird Borkenkaefer zitiert. Damit zaehlt der Linkfrequenzzaehler von Borkenkaefer fuer Linklevel 0 zwei mal hoch.

Auf Linklevel 1 von Kirsche (via Baum), von Apfel (via Baum) und nochmals von Apfel (wie Frucht) wird Borkenkaefer zitiert. Auch hier zaehlt der Linkfrequenzzaehler von Borkenkaefer nur zwei mal hoch (diesmal fuer Linklevel 1). Der Grund ist, dass Baum und Frucht von Apfel aus gesehen auf dem gleichen Linklevel liegen. Das bedeutet, dass Borkenkaefer zwei mal auf Linklevel 1 (von Apfel aus gesehen) zitiert wird. Aber da ich nur daran interessiert bin OB und NICHT wie oft ein Titel pro Linklevel zitiert wird, zaehlt der Zaehler fuer diese beiden Faelle nur ein mal. Dies wird noch zwei Mal der Fall sein und da schreibe ich dann nur „dito“ und meine die Erklaerung hier.

Auf Linklevel 2 von Kuchen wird Borkenkaefer 3 mal zitiert (via Kirsche und Baum, via Apfel und Baum, via Apfel und Frucht). Dito, denn es ist wieder der selbe Ursprungsartikel von dem aus dieses Linklevel erreicht wurde und deswegen geht der Zaehler nur ein Mal hoch.

Zum Abschluss wird der Linkfrequenzzaehler von Borkenkaefer auf Linklevel 3 zwei mal hochgezaehlt. Einmal von Kirsche aus gesehen (via Kuchen, Apfel, Baum und Kuchen, Apfel, Frucht; dito) und einmal von  Apfel aus gesehen (via Kuchen, Kirsche, Baum).

Insgesamt sieht die komplette Linkfrequenzmatrix fuer dieses kleine, abgeschlossene Netzwerk so aus.

TitelLinkfrequenzzaehler
fuer Linklevel 0
Linkfrequenzzaehler
fuer Linklevel 1
Linkfrequenzzaehler
fuer Linklevel 2
Linkfrequenzzaehler
fuer Linklevel 3
Baum2110
Frucht1110
Borkenkaefer2212
Apfel1100
Kirsche1100
Kuchen2020

Die Linkfrequenzzaehler von Kuchen sind etwas speziell. Von Apfel aus gesehen zaehlt der Zaehler fuer Linklevel 0 einmal hoch, dann geht der Algorithmus zu Kuchen und von dort weiter zu Kirsche. Kirsche ist auf Linklevel 2 (von Apfel aus gesehen) und zitiert nochmal Kuchen. Damit geht der Zaehler fuer Linklevel 2 um einen hoch. Der Algorithmus geht aber nicht zurueck zu Kuchen, denn dieser Titel wurde ja (von Apfel aus gesehen) bereits besucht. Das Gleiche passiert wenn Kirsche der Ursprungsartikel ist.

Das scheint etwas kompliziert und die Frage ist, wofuer ich das eigentlich brauche. Der Grund ist, dass ich bei ersten (noch nicht systematischen) Tests ein paar Merkwuerdigkeiten bei der Anzahl der neuen Links auf hohen Linklevels gesehen habe. Es scheint, dass es Seiten gibt, die (fast) immer nur ganz am Ende der Linkkette (bei Linkleveln ueber 50) zitiert werden. Durch die Beobachtung der Linkfrequenz hoffe ich diesen auf die Spur zu kommen. Sollte meine Vermutung richtig sein, sollten derartige Seiten Peaks in der Verteilung bei hohen Linkleveln haben. Dies im Gegensatz zu „normalen“ Seiten, bei denen ich eine Art Plateau bei kleineren bis mittleren Linkleveln erwarten wuerde. Die genaue Analyse wird das zeigen … und noch ein bisschen auf sich warten lassen, weil ich gerade so viele „Faesser“ aufgemacht habe.

Leave a Reply