Archive for the ‘Kevin Bacon’ Category

Beim letzten Mal wies ich auf einen Fehler hin, der mir bei der Bearbeitung der Rohdaten passiert ist. Da ich heraus fand wie dieser Fehler zustande kommt, konnte ich abschaetzen, wie grosz besagter Fehler im schlimmsten Fall sein kann.

Bevor ich Korrekturen durch menschengemachte Fehler (hauptsaechlich Grosz- und Kleinschreibung, aber auch ein paar andere Sachen) vornahm, hatte ich 189,887,300 Links. Am Ende des Prozesses der Vorbereitung der Rohdaten zur Analyse hatte ich nur noch 165,913,569 Links. Wenn man annimmt, dass ALLE Berichtigungen falsch sind, dann fuehrt dies zu einer Diskrepanz von 23,973,731 Links und das entspricht 14 % aller Links.

Ich denke aber, dass ein groszer Teil der Korrekturen richtig waren und dass der tatsaechliche Einfluss des Fehlers innerhalb des 10 %-Fehlers faellt.
Puh, nochmal Glueck gehabt, dass mein Bauchgefuehl meine ueber 20 Jahre Erfahrung mit der Analyse von Daten auch hier wieder so Pi-mal-Daumen richtig lag.

Auch wenn dies hier so ein bisschen unter „ferner liefen“ faellt, so ist das doch mitnichten eine unwichtige Sache. Fehler sind normal und immer vorhanden. Drei Punkte sind diesbezueglich aber sehr wichtig: dass man sich dem bewusst ist, dass man die Fehler angibt und dass man weisz woher die kommen. Diese drei Punkte zeigen, dass ein Forscher besagte Fehler „unter Kontrolle“ hat.

Leider werden Fehler in den meisten nicht-wissenschaftlichen Quellen nicht angegeben, oder wenn doch, dann nicht detailliert diskutieret. Wobei eine Fehlerdiskussion auch in den wissenschaftlichen Quellen meist nicht genau genug stattfindet. Ich gebe zu, dass das eher trocken ist und als Leser nimmt man halt an, dass das schon richtig gemacht wurde. Oft genug, wurde es aber nicht richtig gemacht.

Hier ist dann auch wieder ein (wichtiger) Unterschied zwischen Data Scientists und Data Analysts. Letztere geben zwar Fehler an, aber das ist dann meist nur das, was das Statistikprogramm ausspuckt. Dies hier ist aber ein systematischer Fehler, der nur durch die Arbeit mit den Rohdaten zu erkennen war. Und Letzteres machen Data Analysts nicht, weil die (mehr oder weniger) gute und bearbeitete Daten zugeschickt bekommen. Ich wuerde sogar so weit gehen und behaupten, dass Data Analysts sich der Wichtigkeit von Fehlerbetrachtungen nicht mal bewusst sind. Klar, die wissen darum, aber das bedeuten nicht, dass sie sich auch wirklich drum kuemmern (kønnen sie ja auch nicht, weil sie nicht mit den Rohdaten in Kontakt kommen).

Lange Rede kurzer Sinn: es ist OK Fehler zu machen und zu haben, so lange man das unter Kontrolle hat. D.h. dass die nicht das Signal dominieren und man weisz wo die herkommen. Und das ist in diesem Fall zum Glueck so.

Dies hier ist die etwas modifizierte Tabelle vom letzten Mal:

DatenpunktAnzahl Links in
meinen Daten
Tatsaechliche Anzahl
Links
Seite
A23Dieter Nohlen
B44VG-lista
C44List of Prokaryotic names with Standing in Nomenclature
D44Dehestan (administrative division)
E66Geographic Names Information System
F88Bakhsh

Man beachte, dass die Tabelle nun zwei Spalten mit (unterschiedlichen) Anzahl Links (des jeweiligen Datenpunkts hat). Beim letzten Mal schrieb ich, dass man die richtige Version einer Wikipediaseite nehmen muss um die Diskrepanz auszugleichen. Aber die Zahlen in dieser Tabelle beruecksichtigen dies bereits. Habe ich etwa geflunkert?

Nun … ja und nein.

Beim letzten Mal wollte ich die Sache einfach halten und habe nur eine (von zwei) Datenpunkten naeher beschrieben wo das die Erklaerung war. Ich tat dies, um darauf aufmerksam zu machen, dass die Betrachtung der richtigen Version sehr wichtig ist. Ich wollte das Ganze nicht unnøtig kompliziert machen, auch weil die weiterhin bestehenden Diskrepanzen eine ganz andere Ursache haben. Auszerdem erwartet ich nicht, dass ihr, meine lieben Leserinnen und Leser, den Links folgt und alles selber nachzaehlt.

Diese andere Ursache geht nun sehr weit zurueck, fast ganz an den Anfang dieses Projekts, als ich die Rohdaten fertig machte fuer die Analyse. Es ist ein Zusammenspiel zwischen dem Versuch des Korrigierens menschlicher Fehler und der Berucksichtigung von Umleitungen.

Zur Erinnerung: Ersteres schaute ob die Links einer Seite auch wirklich zu existierenden Seiten fuehrten, wenn nicht so versuchte ich es bspw. mit veraenderter Grosz- und Kleinschreibung (und ein paar anderen Sachen). Wenn das immer noch nicht klappte wurde angenommen, dass der Link ins Leere fuehrt und entfernt
Letzteres ist der Umstand, dass ein Link einen gewissen „Namen“ hat, dieser Name aber nicht direkt zur Seite fuehrt, sondern zu einer Umleitungsseite die dann zum gewuenschten Ziel mit einem etwas anders geschriebenen Titel geht.

Der Prozess der zur Diskrepanz fuehrt sei am Beispiel „Dieter Nohlen“ erklaert. Der Link geht zur richtigen Version und dort finde ich Links zu „Oberhausen„, „Germany„,  „Heidelberg University„, „electoral systems„, „political scientist“ und „political development„.
„Germany“ und „Heidelberg University“ sind so geschrieben, wie sie im Quelltext auftauchen, sind im Seitentext aber als „German“ und „University of Heidelberg“ zu sehen. Zusammen mit „Oberhausen“ kønnen diese Links tatsaechlich existierenden Seiten zugeordnet werden. Warum dies bei den anderen drei nicht der Fall ist, ist etwas umstaendlicher zu erklaeren.

Im Quelltext tauchen „electoral systems„, „political scientist“ und „political development“ mit genau diesen „Namen“ fuer die Links auf. Aber der erste Link geht zu „Electoral system“; Singular und grosz geschrieben, zwei eher subtile Unterschiede, fuer die ich genauer hinschauen musste, weil sie mir beim ersten Blick gar nicht aufgefallen sind.
Aber was bedeutet dies? Nun ja, das bedeutet, dass es es eine Umleitungsseite vom Plural zum Singular gibt und mein Algorithmus bekommt das i.A. auch richtig zugeordnet. Das Problem ist nun aber, dass die Umleitungsseite auch grosz geschrieben wird. Bei Umleitungsseiten habe ich aber von Menschen gemachte Fehler (Grosz- und Kleinschreibung in diesem Fall) nicht beruecksichtigt … *seufz*. Deswegen findet mein Algorithmus keine Umleitungsseite zu „electoral systems“, deklariert diesen Link als „tot“ und entfernt ihn aus der Liste der Links zu diesem Titel.
Die letzten beiden Links gehen beide zu „Political science“. Dorthin werden sie umgeleitet von „Political development“ und “ Political scientist“. Es ist also das gleiche Prinzip wie oben, eine Verkettung von Umleitung und menschengemachten Fehlern bei der Grosz- und Kleinschreibung … *doppelseufz*.

Das ist der Prozess, wie die Diskrepanz zustande kommt und ich kann das fuer alle Seiten in der Tabelle gut nachvollziehen, wann waehrend der Bearbeitung der Rohdaten die besagte Diskrepanz auftaucht.
Das ist ein systematischer Fehler, der beim naechsten Mal vermieden werden kann.

Hier stellte ich die Entdeckung vor, dass die Beziehung zwischen der Anzahl der durchschnittlichen Links pro Seite und der Anzahl der Zitierungen einem maechtigen Gesetz folgt. Zur Erinnerung nochmal das Resultat:

Es sieht aus, als ob es sehr viele Abweichungen bei ueber 1000 Zitierungen gibt, was Zweifel an der obigen Aussage aufkommen laeszt. Aber in dem zitierten Artikel erklaere ich, dass dies nur scheinbar so ist und die Abweichungen nur durch sehr wenige Seiten zustande kommen.

Aber darum soll es heute gar nicht gehen. Vielmehr interessiere ich mich ausnahmsweise mal fuer individuelle Seiten. Ich meine die sechs, mit A bis F markierten Datenpunkte. Das sind vielzitierte Seiten, also „Groszvieh“, die nur sehr wenige Links haben. Beim ersten kurzen Anschauen, dachte ich, dass es sich dabei bestimmt um sowas wie Voivodeship oder CinemaScore handelt. Beide wurden erstmals hier erwaehnt, ebenso im Zusammenhang mit einer Anomalie. Aber schauen wir mal genauer hin.

Hier ist eine Uebersicht der Daten fuer diese sechs Datenpunkte:

DatenpunktAnzahl
Zitierungen
Anzahl
Links
Seite
A36453Dieter Nohlen
B35694VG-lista
C38954List of Prokaryotic names with Standing in Nomenclature
D617824Dehestan (administrative division)
E625256Geographic Names Information System
F633258Bakhsh

Aha! Meine Vermutung war (grøsztenteils) richtig. Die Datenpunkte B, C und E sind (im weitesten Sinne) tatsaechlich sowas wie „Cinemascore“ — (mehr oder weniger) zusammenfassende, uebergeordnete Listen zu einem Thema.
Nehmen wir beispielsweise die norwegischen Charts: VG-lista. Da gibts halt nicht viel zu sagen und weiterfuehrende Links gehen nur zum allgemeinen “ record chart„, der Zeitung die das verøffentlicht — VG — und wo die Daten herkommen — Nielsen Soundscan International. Aber Moment mal! Das sind doch nur drei Links und in meinen Daten sollten das vier sein! Irgendwas stimmt hier nicht.

Hier muss man sich nun erinnern, dass die Wikipedia ein lebendes Dokument ist und dass ich mit der Version vom 20. Dezember 2020 arbeite. Man muss also auf „View History“ (der entsprechenden Seite) gehen und dort die richtige Version nehmen (in diesem Falle die vom 15. November 2020‎). Und schwuppdiwupp, ein zusaetzlicher Link nach Norway taucht auf.

Die Datenpunkte D und F sind tatsaechlich sowas wie „Voivodeship“ und die tauchten bereits bei den 50 meistzitierten Seiten auf und wurden dort kurz besprochen.

Heraus faellt nur Datenpunkt A: Dieter Nohlen. Dieser Politikwissenschaftler ist mir aber bereits auszerhalb von Wikipedia „ueber den Weg gelaufen“ und da wundert es mich gar nicht, dass er (oder seine Arbeiten) in fast viertausend anderen Zusammenhaengen zitiert wird.

So, das war’s dazu. Das Anschauen einzelner Seiten macht die Theorie immer ein bisschen greifbarer. Und auch wenn es sich (wie in diesem Fall) um „Ausreiszer“ handelt, so sagen auch diese etwas ueber die Struktur des Weltwissens aus :). Auszerdem lockert das die Besprechungen der manchmal doch etwas abstrakten Theorie ein bisschen auf.

Ich bin aber noch nicht ganz fertig mit diesen Ausnahmefaellen. Diese machten mich naemlich auf eine wichtige Sache aufmerksam. Aber dazu mehr beim naechsten Mal

Hiermit møchte ich die Diskussion bzgl. des Maximums der Gesamtverteilung der totalen Links per Linklevel abschlieszen. Dafuer zeige ich nochmal besagte Verteilung:

In den vorhergehenden Artikeln hatte ich dargelegt, warum das viel staerker zum Maximum hin ansteigt als man zunaechst vermuten wuerde. Dabei habe ich mich auf den Anstieg von LL1 zu LL2 konzentriert.
Man beachte, dass das im Diagramm etwas anders zu lesen ist. Dort ist die Anzahl der totalen Links pro Linklevel angezeigt. Die Links sind die „Ausgaenge“ (oder „Treppen“, wenn man im Bilde des Anstiegs bleiben will) zum naechsthøheren Level. Deswegen ist mit „Anstieg von LL1 zu LL2“ die Høhe des Balkens bei Linklevel 1 gemeint.

Wieauchimmer, der viel staerker als erwartete Anstieg kommt durch vielzitierte Seiten zustande. Nun ist es aber so, dass eine spezifische Startseite (deren Linknetzwerk individuell untersucht wird) auf LL1 mitnichten alle vielzitierten Seiten gesehen hat. Mglw. hat diese spezifische Startseite auf LL1 ueberhaupt keine vielzitierte Seite gesehen. Das bedeutet dann aber, dass in der Gesamtheit aller Wikipediaseiten auf LL2 wieder (oder vielmehr immer noch) vielzitierte Seiten auftreten kønnen. Das ist dann der Grund, warum auch der Anstieg von LL2 zu LL3 signifikant grøszer ist, als ein einfaches durchschnittliche-Anzahl-Links-pro-Seite-Bild vermuten laeszt.
Dito von LL3 zu LL4, aber der Effekt wird von Linklevel zu Linklevel geringer. Der Grund ist, dass ich einmal besuchte Seiten zwar in die Anzahl der totalen Links mit einbeziehe, diesen aber nicht wieder folge.

Zur Veranschaulichung denke man sich wieder die individuelle Seite und weiterhin nehmen wir der Einfachheit halber kurz an, dass es nur drei vielzitierte Seiten (mit jeweils 1000 Links) gibt. Diese individuelle Seite sieht nun auf LL0 eine dieser drei vielzitierte Seiten. Diese traegt dann auf LL1 1000 Links bei. Nun sieht diese individuelle Seite auf LL1 genau die selbe vielzitierte Seite nochmal. Dann zaehlt die zwar noch einmal zu den totalen Links auf LL1 aber da ich nicht nochmal auf diese Seite gehe, ist der Beitrag auf LL2 Null. Auf LL1 sieht die individuelle Seite nun aber die zweite und auf LL2 die dritte vielzitierte Seite. Jedes Mal beginnt das Spiel von vorn und auf LL3 ist besagtes Spiel dann vorbei.
Der Grund fuer Letzters ist natuerlich, dass selbst wenn ich alle drei vielzitierten Seiten sehe, so tragen diese NICHT mehr zur Anzahl der totalen Links auf LL4 bei, denn diesen drei vielzitierten Seiten folge ich ja nicht mehr.
Ich hacke auf diesem Aspekt so rum, weil das ein ganz wichtiges, wenn auch eher „technisches“ Detail ist. Das ist auch der Grund, warum ich die Anzahl neuer Links pro Linklevel „gemessen“ habe.

Wieauchimmer, im realen Netzwerk muss man natuerlich eher mit der Wahrscheinlichkeit, eine vielzitierte Seiten (von tausenden) pro Linklevel zu sehen, argumentieren.
Auf LL0 hat eine individuelle Seite eine Chance von ca. 20 % eine Seite mit mehr 3433 Zitierungen zu sehen. Dies obwohl die Anzahl der Links der meisten Seiten eher klein ist (15 Links war der Median). Auf LL1 ist die Chance eine vielzitierte Seite zu sehen grøszer als 20 %. Einfach weil ich auf LL1 die Links aller beim Aufstieg von LL0 zu LL1 geøffneten Seiten zusammenzaehle. Aber weil ja nun schon so einige von den meistzitierten Seiten angeschaut wurden (insb. die am allermeisten zitierten Seiten), tragen diese (wie oben bereits erwaehnt) nicht mehr zu den Links beim naechsten Level bei. Dieser Wegfall des Beitrags vielzitierter Seiten (weil ich die schonmal gesehen habe) ist der Grund, dass der Anstieg etwas geringer ausfaellt, trotzdem es auf LL1 eine høhere Wahrscheinlichkeit gibt eine vielzitierte Seite zu sehen.
Dito bis zum Linklevel 3.

Auf Linklevel 4 habe ich dann im Wesentlichen alle vielzitierten Seiten gesehen und die Anzahl der totalen Links zu LL5 ist gleich der durchschnittlichen Anzahl Links pro Seite. Danach nimmt die Anzahl der totalen Links pro Linklevel ab, einfach weil ich immer mehr Seiten schon gesehen habe.

Ich gebe zu, dass das mglw. ein bisschen langweilig ist oder zumindest ist das staendige Huepfen zwischen dem Bild der individuellen Seite und der Gesamtheit aller Seiten vllt. etwas schwer nachzuvollziehen. Aber das sagt eben so viel aus ueber die Vernetzung des Weltwissens. Deswegen ist es immer so wichtig auch fuer Details oder scheinbar offensichtliche Sachen eine Erklaerung zu haben, denn manchmal ist das gar nicht so offensichtlich. In kurz kann man das auch als „nach 3 Links komme ich von Trondheim zu Kevin Bacon“ ausdruecken. Man kann dann noch „und der Grund sind vielzitierte Seiten“ anfuegen. Aber der eigentliche (mglw. langweilige) Mechanismus ist das was oben steht. Zum Glueck finde ich sowas cool und voll interessant herauszufinden :) .

Damit habe ich das Maximum dieser Gesamtverteilung genug diskutiert. Aber ich bin mitnichten fertig mit der Verteilung der totalen Links.
Ein wichtiger Grund warum ich das so detailliert besprochen habe mit vielen Wiederholungen ist, dass uns die generelle Form dieser Verteilung auch bei anderen Messgrøszen begegnen wird. Dort sind dann im Wesentlichen die gleichen Mechanismen am Wirken und ich deswegen wollte ich das gleich zu Anfang geklaert haben.

Ich bin aber noch nicht ganz fertig mit den totalen Links pro Linklevel. Ich habe noch ein Interesse an ein paar individuellen Verteilungen dieser Grøsze, die als eine Art Anomalie gelten kønnen … naja, es faellt wohl eher unter „statistische Fluktuationen im Verhalten individueller Seiten“ aber interessant ist’s trotzdem und es sagt wieder was ueber die Vernetzung des Weltwissens aus :) .
Interessant ist auch der lange Schwanz der Verteilung und insbesondere, dass dieser so flach verlaeuft bei Linkleveln ueber ca. 50. Das ist ein weiteres kleines Detail, welches bei genauerer Betrachtung etwas merkwuerdig scheint. Auch dies muss ich an anderer Stelle diskutieren, u.a weil ich da dann die naechste Verteilung — Anzahl _neuer_ Links pro Linklevel — einfuehren muss.

In den letzten drei Artikeln habe ich etabliert, dass øfter zitierte Artikel ueberproportional haeufig zur Anzahl der totalen Links auf dem ersten Linklevel beitragen. Ich hatte aber noch nicht ganz konkret gezeigt, _wie_ grosz deren Einfluss ist. Dies hole ich mit dieser dreidimensionalen Visualisierung nach:

Das geht ja ab wie ’ne Rakete! Aber was sieht man hier eigentlich und wieso dreidimensional?

Mit dieser Abbildung møchte ich gerne zeigen, dass nur eine ganz kleine Anzahl an Wikipediaseiten besagten groszen Einfluss auf die Anzahl der totalen Links von LL1 zu LL2 haben. Dieser Einfluss der wenigen Seiten haengt aber mit der Anzahl der Zitierungen (dieser wenigen Seiten) zusammen. In den letzten Beitraegen habe ich immer nur Letzteres direkt betrachtet und als Masz fuer die Abzsisse genommen. Wie viele Seiten dies dann konkret beinhaltet war meist nicht wirklich relevant und ich habe das unter den Tisch fallen lassen. Beim letzten Mal schrieb ich dazu nur, dass alle Seiten die so-und-so-oft zitiert wurden, als ein „Ensemble“ zusammengefasst wurden. Nun møchte ich aber diese beiden Informationen verknuepfen und die Anzahl der Seiten ganz konkret als Masz fuer die Abzsisse benutzen. Und hier kommt die (zunaeckst etwas versteckte) dritte Dimension ins Spiel.

Die dritte Dimension ist die Nummer die ein Punkt erhaelt, wenn man von links, und bei Null, anfaengt zu zaehlen. Konkret bedeutet dies das Folgende.
Der erste Punkt ist das Ensemble aller null mal zitierten Seiten. Davon existieren 320,089 und das entspricht dem Wert auf der Abzsisse. Die Anzahl aller Links dieses Ensembles betraegt 872,568 und das ist der zugehørige Wert, den dieser Punkt auf der Ordinate hat. Das sieht man nur nicht, denn die geht bis 30 Milliarden.
Die Koordinaten des zweiten Punktes werden bestimmt durch die Summe aller Seiten die null Mal und aller Seiten die ein Mal zitiert werden. Von Letzteren habe ich 793,588 und der Wert auf der Abzsisse ist entsprechend 1,113,677. Ein Mal zitierte Seiten haben insgesamt 12,140,589 Links auf LL1. Dies wird wieder aufsummiert mit dem vorhergehenden Wert und entsprechend betraegt der Wert auf der Ordinate 13,013,157 fuer den zweiten Punkt.
So geht das weiter fuer jeden Punkt. Die Koordinaten werden berechnet aus der Summe der Koordinaten des vorhergehenden Punktes und den Werten fuer das entsprechende Ensemble. Aber das steht ja auch an den Achsen dran — kumulative Anzahl Seiten/Links.

Soweit zur Erklaerung, was man hier eigentlich sieht. Nun die Diskussion dessen was man hier sieht.

Zur Erinnerung: wir haben insgesamt 5,798,312 Seiten mit 27,434,866,722 Links auf LL1.
In dem Diagramm sieht man nun, dass die ersten ca. 5 Millionen Seiten (also mehr als 86 % aller Seiten) nur etwas mehr als ca. 922 Millionen Links auf LL1 beitragen (oder etwas weniger als 3.4 % aller Links).
Weiterhin sieht man, dass 50 % aller Links auf LL1 durch nur 3433 Seiten zustande kommen! … !!! … !!! !!! !!! Also nur 0.059 % aller Seiten sind fuer 50 % aller Links auf LL1 verantwortlich!

Letzteres sind Seiten mit mehr als 3143 Zitierungen, also durchaus „Groszvieh“.
Und wieviel „Mist“ von diesem „Groszvieh“ kommt, macht dieses Abbildung deutlich. Aber anders als oben behauptet sieht man das eigentlich gar nicht mehr, weil der Unterschied von 3433 Seiten auf der Abzsisse fuer die geringe Winkelaufløsung unserer Augen nur noch wie ein senkrechter Strich nach oben aussieht.

Dazu genug fuer heute. Beim naechsten Mal komme ich dann wieder zurueck auf die eigentliche Verteilung der totalen Links pro Linklevel.

Der schwarze Fleck vom vorletzten Mal suggeriert, dass die Anzahl der Links unabhaengig ist von der Anzahl der Zitierungen fuer Seiten mit weniger als 1000 Zitierungen.
Bei dieser Aussage schaute ich aber nur auf die individuellen Seiten (die vielen vielen vielen Punkte, die zusammen besagten schwarzen Fleck ergeben) und habe nicht die Anzahl der Seiten mit der gegebenen Anzahl an Zitierungen in Betracht gezogen. Dies war aber genau das, was ich beim letzten Mal bei der individuellen „Signalstaerke“ machte.
Wenn man nun die individuelle Signalstaerke durch die Anzahl der Seiten und die Anzahl der Zitierungen, bei der gegebenen Anzahl an Zitierungen teilt, dann erhaelt man die durchschnittliche Anzahl an Links in Abhaengigkeit von der Anzahl der Zitierungen. Das muss man so machen, wenn man die Anzahl der totalen Links auf LL1 benutzt und ich erwaehne das hier, weil ich die ganzen vorherigen Artikel LL1 diskutiert habe. Auf LL0 muesste man natuerlich nur die Anzahl aller Links bei einer gegebenen Menge an Zitierungen, durch die Gesamtzahl der Seiten die so oft zitiert wurden dividieren. Egal wie man’s macht, DAS ist mal ein krasses Ergebniss:

Die Abhaengigkeit folgt einem maechtigen Gesetz mit dem Exponent 1/2 (zwei Grøszenordnungen auf der Ordinate, vier Grøszenordnungen auf der Abzsisse) und einem Vorfaktor von ungefaehr 7.5 .
Das erstaunliche hieran ist, dass dies im Wesenlichen fuer den gesamten (!) Bereich auf der Abzsisse gilt, also egal ob die Anzahl der Zitierungen klein oder grosz ist.
Ich schreibe „im Wesentlichen“, denn natuerlich gibt es Abweichungen. So kønnte man in absoluten Zahlen durchaus auch sagen, dass die Anzahl der Links pro Seite fuer kleine Zitierungen halbwegs konstant ist. Die Abweichungen vom maechtigen Gestz betragen dann ca. einen Faktor zwei, fallen also bei realen „Anwendungen“ nicht sooo sehr ins Gewicht.

Ab ca. 1000 Zitierungen scheint es dann gewaltige Abweichungen zu geben. Aber das taeuscht hier wieder durch die bereits beim letzten Mal erwaehnte „logarithmische Komprimierung“ und die Ueberlappung hunderter (tausender) von Punkten.
Es gibt 4,696 „Messwerte“ mit ueber 1000 Zitierungen. Diese kommen durch insgesamt 15,282 Seiten zustande. Allein hieran sieht man, dass etwaige Abweichungen in diesem Bereich nicht relevant sind fuer die (immer noch) fast 6 Millionen Wikipediaseiten, die anscheinend dem Gesetz „gehorchen“. Aber wir sind ja nun konkret an den Seiten mit mehr als 1000 Zitierungen interessiert.
Zur Veranschaulichung der Taeuschung møchte ich die folgenden Werte anfuehren. Zunaechst setze ich (willkuerlich) fest, dass eine Abweichung von drei als nicht mehr OK gilt. Das bedeutet, dass ich es als Abweichung zaehle, wenn der tatsaechliche Durchschnittswert dreimal grøszer oder weniger als 1/3 des vom maechtigen Gesetz vorausgesagten Wertes ist.
Dies ist der Fall fuer 976 „Messwerte“ und entspricht ca. 21 % aller „Messungen“ mit ueber 1000 Zitierungen. Andererseits kommen diese 976 „Messwerte“ nur durch 1,303 Seiten zustande. Letzteres entspricht dann nur noch ca. 8 Prozent aller Seiten mit ueber 1000 Zitierungen. Das faellt dann also wieder unter den beruehmten Zehn-Prozent-Fehler.
Wenn ich viel strikter bin und Abweichungen ab einem Faktor 2 zaehle so erhøht sich der erste Wert auf ca. 38 % und der letzte Wert auf ca. 21 %. Das ist mehr als eine „normale Fehlerbreite“ erwarten laeszt. Die Aussage, dass die Mehrheit der Seiten dem maechtigen Gesetz unterliegt wird dadurch allerdings nicht beeinflusst.
Ach so, wenn man alle Punkte mit in diese Ueberlegungen einbezieht, also auch die mit weniger als (oder gleich) 1000 Zitierungen so fallen (bei Faktor 3) immer noch ca. 17 % der Punkte unter die Rubrik „Abweichung“, aber diese kommen dann nur noch durch ca. 2 % aller Seiten zustande.

Ich sagte ja, dass dieses Resultat voll cool ist! Beim vorletzten Mal schrieb ich:

[…] in diesen [vielzitierten] Artikeln [ist] vermutlich jedes kleine bisschen verlinkt […]. Je populaerer ein Artikel ist, um so mehr beinhaltet dieser vermutlich, was dann wiederum zu mehr Links fuehrt.
Dennoch, dies war eine spannendes Resultat, eben weil mich das so ueberrascht hat.

Diese Aussage entstand aus einem Bauchgefuehl und fuehlte sich logisch und richtig an, auch wenn ich es nur fuer Artikel mit mehr als 1000 Artikeln einschraenkte. Das obige Ergebniss zeigt aber ganz deutlich, dass dies nicht fuer die gewaltige Mehrheit ALLER Artikel gilt. Vielmehr existiert eine ganz konkrete, quantifizierbare Gesetzmaeszigkeit dahinter. Das haette ich nicht erwartet und das ist, was ich so krass cool fand.

Und das ist dann die Freude des Forschers. Man guckt sich kleine Details an (wie bspw. ein Balken in einer Verteilung  der ein bisschen zu lang erscheint) und aus deren Erforschung ergibt sich eine allgemeine Gesetzmaeszigkeit fuer (mehr oder weniger) die gesamte Wikipedia! Geil wa!
Dies war definitiv einen eigenen Beitrag wert.

Aber Achtung! Das maechtige Gesetz gilt nicht zwangslaeufig fuer alle indivduellen Seiten. Der schwarze Block beim vorletzten Mal zeigte, dass die tatsaechliche Anzahl an Links einer Seite deutlich davon abweichen kann. Bei diesen Betrachtungen (und auch bei denen beim letzten Mal) werden individuelle Seiten unter dem Merkmal „Anzahl Zitierungen“ zusammengefasst. Und diese Ensembles verhalten sich im Durchschnitt wie oben angegeben! Das ist wie in der statistischen Mechanik, da betrachten wir auch keine einzelnen Atoemchen, sondern die potentiellen Zustaende eines System als Ganzes.

Ach so, das ist dann natuerlich der zweite Teil der Erklaerung, warum die rote „Gesamtsignalkurve“ im letzten Beitrag, trotz kleiner individueller Beitrage so stark ansteigt. Das sind zwar relativ wenige individuelle Seiten, aber die haben maechtig viel mehr Links.

Ich habe in den letzten zwei und diesem Artikel dargelegt, dass vielzitierte Seiten ueberproportonal zur Anzahl der Links von LL1 zu LL2 2 beitragen. Beim naechsten Mal schliesze ich die Untersuchung dieses kleinen Details ab, mit einer Visualisierung, WIE gewaltig diese Ueberproportionalitaet wirklich ist.

Beim letzten Mal stellte ich die ersten Ergebnisse vor. Ein kleines Detail in der Verteilung der totalen Links pro Linklevel machte mich stutzig und fuehrte mich in einen Kaninchenbau voll interessanter Sachen. Es gibt viel zu viele Links die von Linklevel 1 zu Linklevel 2 fuehren — ich „messe“ eine „Signalstaerke“ von 27 Milliarden totalen Links von LL1 zu LL2.
Einfache Ueberlegungen fuehrten mich nicht weiter, aber halfen mir insofern, dass ich dadurch darauf aufmerksam wurde, dass mglw. vielzitierte Seiten einen ganz erheblichen Einfluss auf die Anzahl der totalen Links eines Linklevels haben. Ich schloss den Beitrag mit dieser Frage und direkten Handlungsanweisung ab:

[w]ie genau hilft uns dies nun aber mit der obigen Frage? [Wie stark der Einfluss vielzitierter Seiten auf das „Gesamtsignal“ ist.] Nun ja, das ist ganz einfach. Ich muss fuer jede Wikipediaseite das Produkt aus der Anzahl der Links und der Anzahl der Zitierungen bilden. Die Summer aller dieser Produkte sollte dann die ca. 27 Milliarden| totalen Links von LL1 zu LL2 ergeben.

Die Handlungsanweisung ist in der Gesamtheit natuerlich ganz klar und einfach. Die Entwicklung ueber die verschiedenen „Zitierungsniveaus“ fand ich aber ganz anschaulich (immer mit Blick darauf, dass uns diese Daten Dinge ueber das Linknetzwerk der Wikipedia erzaehlen) und møchte darauf heute kurz eingehen.
Mit Entwicklung meine ich das Folgende. Im ersten Schritt der Entwicklung schaue ich mir zunaechst die individuelle „Signalstaerke“ aller null Mal zitierten Seiten an. Individuell meint hier nicht jede Seite fuer sich, sondern alle null mal zitierten Seiten bilden ein „Individuum“ und die Links dieses „Individuums“ ergeben die „Signalstaerke“ im ersten Schritt. Im naechsten Schritt mache ich das gleiche fuer alle ein Mal zitierten Seiten; dann fuer alle zwei Mal zitierten Seiten usw. Das Ergebniss sind die schwarze Punkte in diesem Diagramm:

Die roten Quadrate sind die kumulative Anzahl aller Links von LL1 zu LL2 und die Kurve ist recht einfach zu verstehen als das „Gesamtsignal“ aller Beitrage bis zu dem gegebenen Punkt auf der Abzsisse. Aber der Verlauf der schwarzen Punkte ist interessant und bedarf einiger Worte

Vom letzten Mal wissen wir, dass bei Seiten die weniger als 1000 mal zitiert werden, die Anzahl der Links unabhaengig von der Anzahl der Zitierungen ist. Das bedeutet, dass eine Seite mit 10 Zitierungen um Durchschnitt gleich viele Links hat wie eine Seite mit nur einer Zitierung. Das ist nicht ganz richtig und darauf komme ich weiter unten nochmal zurueck, aber zur vereinfachten Rechnungn nehmen wir an, dass der Durchschnitt bei 10 Links pro Seite liegt.
Unter dieser Annahme ist es natuerlich einfach zu erklaeren, warum die schwarze Kurve zunaechst hoch geht. 1000 Seiten die einmal zitiert werden tragen zum Gesamtsignal 10-tausend Links bei. Die selbe Anzahl Seiten die 2 Mal zitiert werden tragen aber doppelt so viel zum Gesamtsignal bei usw. usf.
Von viel frueher wissen wir, dass die meisten Seiten ein Mal zitiert werden. Es gibt also weniger Seiten die zwei Mal, oder drei Mal usw. zitiert werden. Wenn man sich aber die Verteilung nochmal anschaut, dann sieht man, dass das nicht proportional weniger Seiten werden, deshalb der Anstieg der individuellen Signalstaerke. Waeren es proportional weniger Seiten in Abhaengigkeit von der Anzahl der Zitierungen, haette ich also bspw. nur halb so viele zwei Mal zitierte Seiten wie ein Mal zitierte Seiten, wuerde die Kurve der individuellen Signalstaerke flach verlaufen bei kleinen Zitierungen.

Bei ungefaehr 13 Zitierungen wird ein (lokales) Maximum erreicht und danach nimmt die individuelle Signalstaerke wieder ab. Das liegt daran, dass die Anzahl der Seiten mit mehr Zitierungen dann ueberproportional weniger werden. Mit der obigen vereinfachten Annahme denke man sich weiterhin, dass es nur 1 Seite gibt die 1000 Mal zitiert wird. Dann ist deren individuelle Signalstaerke genauso grosz (oder eher klein), wie die der 1000 Seiten die ein Mal zitiert werden.
Erst bei sehr vielen Zitierungen kehrt sich dieser Trend dann wieder um, nicht zuletzt dadurch, weil vielzitierte Seiten im Durchschnitt auch mehr Links enthalten.

Nun ist aber zu erklaeren, warum die rote Kurve zunaechst einen so geringen Ansteig hat und erst nach dem lokalen Maximum stark ansteigt? Letzteres trotz der geringen individuellen Signalstaerken.
Zum Einen liegt das an der Komprimierung durch die logarithmische Achse. Zwischen einer und 10 Zitierungen (inklusive) liegen 10 Datenpunkte; zwischen 100 und 1000 Zitierungen liegen 900 Datenpunkte. Auf der Abzsisse nehmen die aber den gleichen Raum ein. Wenn man 10 Datenpunkte zur kumulativen Anzahl an Links aufsummiert ergibt das natuerlich einen geringeren Beitrag als wenn man 900 Datenpunkte aufsummiert.

Aber das ist nur ein Teil der Erklaerung. Der andere Teil ist, dass die obige Annahme nicht richtig ist. Vielmehr ist die Anzahl der Links eben doch abhaengig von der Anzahl der Zitierungen auch bei kleinen Werten. Das ist bei der Darstellung vom letzten Mal nicht zu sehen und dieses Ergebniss ist sehr spannend, denn es sagt wieder viel ueber die Wikipedia aus. Aber weil der Artikel jetzt schon so lang ist, verschiebe ich die Diskussion auf’s naechste Mal.

Zum Jubilaeum (heute vor einem Jahr erschien der allererste Beitrag in dieser nicht ganz so kurzen Miniserie) geht es endlich mal weiter mit Kevin Bacon. Auch wenn die Weise der Publizierung das nicht erkennen laeszt, so habe ich die Auswertung doch monatelang vor mich hergeschoben, weil das so viel ist.

Heute nun steige ich gleich voll ein und verliere mich in einer Sache, die zunaechst wie ein kleines, nicht ganz so wichtiges Detail aussieht. Zumindest erschien es mir so. Dann machte ich aber ein paar Ueberschlagsrechnungen und irgendwie stimmte das Hinten und Vorne nicht. Die Aufklaerung des Mysteriums war eine spannende Sache und legt dann bereits ganz am Anfang SEHR viel ueber das Linknetzwerk der Wikipedia dar.
Das ist als eine Art „Warnung“ anzusehen, dass dies ein laengerer Beitrag wird.

Als kurze Wiederholung:
– Ich rede von Linkleveln und die Nummer des Linklevels sagt aus, wie viele „Schritte“ ich im Linknetzwerk getan habe um dort hinzukommen.
– Die Linklevel fangen an bei Null zu zaehlen, was dann natuerlich dem Titel / der Wikipediaseite entspricht, dessen Linknetzwerk ich jetzt gerade untersuche.
– Links die in vorherigen Schritten besucht wurden, werden nicht nochmal besucht.
– Auf jedem Linklevel sammle ich Daten und heute geht es um die totale Anzahl von Links die zum naechste Linklevel fuehren. Siehe dazu mein Artikel von neulich (gut, dass ich den geschrieben habe).
– Ich bin i.A. nicht an einzelnen Seiten interessiert, sondern an der Gesamtverteilung der Grøsze(n) von Interesse ueber alle Titel.

Und nun geht’s los und immer schøn der Reihe nach.

In der Gesamtheit sieht die Verteilung der totalen Anzahl von Links per Linklevel ueber alle Wikipediaseiten so aus:

Das sieht einfach aus, denn Verteilungen hatte ich hier ja schon ein paar Mal. Aber wenn man das auf sich wirken laeszt, dann sind da eine Vielzahl von Beobachtungen. Viele dieser Beobachtungen sind allgemein und treten auch so, oder zumindest in aehnlicher Form, bei anderen Grøszen von Interesse auf. Weil wir, also ihr, meine lieben Leserinnen und Leser, und ich, dem hier zum ersten Mal begegnen, møchte ich etwas naeher darauf eingehen.

Wie so oft sehen wir, dass die Darstellung mit linearer Ordinate im linken Bild nicht viel hergibt. Andererseits sehen wir bei lineraer Darstelung, wie schnell alles passiert und dann auch wie schnell alles wieder vorbei ist. Das Maximum ist nach nur vier Schritten erreicht. Und bereits auf Linklevel 3 tuen sich fast 100 Billionen Links auf. Das heiszt bei ca. 6 Millionen Titeln, habe ich nach nur 3 Schritten im Durchschnitt bereits ca. 150 Millionen weiterfuehrende Links vor mir.
Das erklaert natuerlich, warum man die meisten Titel von jedem anderen Titel mittels nur drei (oder vier) Schritten erreichen kann. Das war ja eine ganz konkrete Sache, ueber die ich mich bereits im allerersten Beitrag dieser Reihe (wenn auch nicht direkt) wunderte und die in mir ueberhaupt erst das Interesse an dem ganzen Thema weckte. Damit waere das nach einem Jahr dann endlich geklaert. Toll wa!

Bei logarithmischer Ordinate sieht man dann aber, dass auch nach dem Maximum noch laengst nicht alles vorbei ist. Und ach du meine Guete! Die Dynamik in dieser Verteilung geht von (knapp unter) 100 bis 1014 … das sind 12 Grøszenordnungnen! Das ist so viel, dass ich hier nicht mal mehr die kleinen Striche an der Achse zeichne. Dabei finde ich die doch so toll, weil sie so charakteristisch fuer logarithmische Achsen sind :) .
In Zukunft werde ich Verteilungen mit lineare Ordinaten nur noch zeigen, wenn es zu Informationsgewinn fuehrt. Bei einer solchen Dynamik ist es ziemlich offensichtlich, dass die logarithmische Darstellung der linearen ueberlegen ist.

Auch wenn das Allermeiste nach Linklevel 8 vorbei, so sieht man auch, dass es Wikipediaseiten gibt, die noch viel mehr Schritte benøtigen, bevor man diese erreicht hat. Hier nehme ich dann meine Aussage von oben teilweise zurueck und sage, dass mich dann doch interessiert, welche Seiten das sind.
Aber auch die letzte Ecke des Weltwissens ist nach maximal 73 Schritten erreicht. Der letzte Balken ist auf Linklevel 72 und das bedeutet, dass es nur noch von dort „Ausgaenge“ zu Seiten gibt, die ich vorher nicht besucht habe. Dies wird aber an anderer Stelle genauer betrachtet.

Das sind allgemeine Sachen. Heute von Interesse ist nur das Maximum (man beachte, dass die Ordinate nicht bei Null, sondern erst bei 10 Millionen anfaengt; die Balken sind also „eigentlich“ viel laenger) …

… und eigentlich interessiert mich gar nicht das Maximum an sich, sondern nur der Aufstieg von Linklevel 1 zu Linklevel 2 … und was dies ueber das Linknetzwerk sagt. Aber der Reihe nach.

Auf Linklevel 0 … ach je, das wird mir zu umstaendlich das immerzu zu schreiben und ich kuerz das jetzt mit „LL“ ab und der Wert ist dann der Index … jedenfalls betraegt die Summer der totalen Links auf LL0 165,913,569. Diese Zahl kenne wir schon, denn es ist die Summe aller Links, die ich auf allen Wikipediaseiten finde. Zum ersten Mal sind wir auf diese Zahl bereits vor langer Zeit gestoszen.
Wenn ich nun diese ca. 165 Millionen „Ausgaenge“ zu LL1 nehme, dann treffe ich dort auf mehr als 27 Milliarden Links. Cool wa, wie schnell das waechst! … … … Moment mal! … wieso waechst das denn SO schnell? … Das kommt mir etwas komisch vor.

Und damit sind wir bei dem am Anfang erwaehnten Detail, welches leicht zu uebersehen ist.

Machen wir mal eine Ueberschlagsrechnung. Die ca. 165 Millionen Links auf LL0 verteilen sich auf ca. 6 Millionen Seiten. Das macht ca. 30 Links pro Seite im Durchschnitt … nicht ganz, aber es ist ja nur eine Ueberschlagsrechnung. Wenn ich nun 165 Millionen Seiten auf LL1 mit (durchschnittlich) 30 Links pro Seite multipliziere, dann komme ich auf ca. 5 Milliarden „Ausgaenge“ zu LL2.
Einen Faktor zwei haette ich mglw. als „Fehler“ abgetan, aber ’n Faktor 5 zu viel? Hier scheint ein nicht ganz so offensichtlicher Mechanismus zu wirken … SUPERSPANNEND!

Aber vielleicht ist es doch ganz einfach. Denn mglw. muss ich mit dem Median und nicht dem Mittelwert rechnen … da muss ich mal eine der aelteren Analysen raussuchen … *raussuch* … im Wesentlichen ist’s das hier … øhm … nø … das ist auch nicht des Raetsels Løsung, denn die Haelfte der Seiten haben 15 Links oder weniger … Mhmmmmm … aber Moment … wenn der Mittelwert bei ca. 30 liegt, dann bedeutet das doch, dass Seiten mit (deutlich) mehr als 30 Links pro Seite einen groszen Einfluss haben muessen … mhmmmmm …

Einschub: die Idee mit dem Median war, wenn man mal drueber nachdenkt, von Anfang an zum Scheitern verurteilt … aber das Resultat dieser Idee (der relativ grosze Unterschied zwischen Median und Mittelwert) fuehrte mich letztlich in die richtige Richtung … das ist das Schøne am Erforschen eines Themas … das klappt mitnichten alles beim ersten Mal, aber wenn man was probiert was zu nix fuehrt, wird man mitunter auf Details aufmerksam, die man so vorher gar nicht bemerkt hat … und dann kommt man ueber einen (mehr oder weniger) kurzen Umweg doch noch zur Løsung :) .

Da stellt sich nun die Fragen: wie grosz ist eigentlich der Einfluss vielzitierter Seiten?
Ich stellte die 50 meistzitierten Seiten bereits vor. Und eine Seite, die bspw. 1000 Links hat und 300-tausend Mal zitiert wird, wuerde zum Gesamtsignal 300 Millionen Links — also ca. 1 % — beitragen. Gleichzeitig wissen wir, dass das Maximum der Verteilung der Zitierungen bei eins liegt, waehrend das Maximum der Links pro Seite bei ca. 10 liegt. Diese zwei Dinge zusammen fuehren dazu, dass ich fuer die gleiche Signalstaerke die die 300-tausend Mal zitierte Seite hat, 30 Millionen Seiten braeuchte, die ein Mal zitiert werden (mit 10 Links pro Seite). So viele gibt es gar nicht und um besagte Signalstaerke zu erreichen muesste ich alle Seiten zusammen nehmen, die einmal, zweimal, dreimal, … neunmal, zehnmal zitiert werden.
Diese kurze und einfache Ueberlegung zeigt bereits, wie krass ueberproportional der Einfluss nur einer vielzitierten Seite sein kann. Aber die 1000 Links oben habe ich mir nur ausgedacht und es stellt sich die naechste Frage: wie sieht denn die Anzahl der Links in Abhaengigkeit von den Zitierungen aus?

Nun ja, das ist etwas unuebersichtlich und sieht so aus:

Wir sehen, dass wir erstmal nix sehen, auszer einem groszen schwarzen Fleck.
Der schwarze Fleck kommt durch die Ueberlappung sehr sehr sehr vieler Datenpunkte zustande. Wobei ich die Punkte fuer null Zitierungen bzw. null Links weggelassen habe, weil die hier nicht relevant sind.

Wenn man sich alles mal genauer anschaut, dann sieht man, dass die Seite mit den meisten Zitierungen tatsaechlich ca. 1000 Links hat. Das war aber reiner Zufall.
Desweiteren sieht man, dass Wikipediaseiten selten deutlich mehr als 1000 Links haben und dass die Anzahl der Links unabhaengig ist von der Anzhal der Zitierungen fuer Seiten die weniger als ca. 1000 Zitierungen auf sich vereinen.
Ab ca. 1000 Zitierungen haben die entsprechenden Seiten aber anscheinend eine Art „Mindestanzahl“ an Links, in Abhaengigkeit von der Anzahl der Zitierungen. Das sieht man an der schraeg liegenden „Abbruchkante“, welche die „Mindestanzahl“ an Links festlegt, die eine Seite haben „muss“, wenn sie bspw. 50-tausend Zitierungen auf sich vereint.
Das war erstmal ein _aeuszerst_ (!) ueberraschendes Ergebniss. Damit hatte ich nicht gerechnet. Ohne weitere Vorannahmen gibt es dafuer auch gar keinen Grund, denn warum sollte eine vielzitierte Seite nicht nur einen Link haben. Und das sieht man ja auch bspw. an den drei vertikalen Punkten bei ca. 60-tausend Zitierungen. Das sind drei so oft zitierte Seiten mit weniger als 10 Links.
Andererseits ist dieses Ergebniss dann doch nicht so ungewøhnlich wenn man bedenkt, dass vielzitierte Seiten vermutlich (eben wegen deren Popularitaet) sehr gut kuratiert sind. Das bedeutet dann, dass in diesen Artikeln vermutlich jedes kleine bisschen verlinkt ist. Je populaerer ein Artikel ist, um so mehr beinhaltet dieser vermutlich, was dann wiederum zu mehr Links fuehrt.
Dennoch, dies war eine spannendes Resultat, eben weil mich das so ueberrascht hat.

Wie genau hilft uns dies nun aber mit der obigen Frage? Nun ja, das ist ganz einfach. Ich muss fuer jede Wikipediaseite das Produkt aus der Anzahl der Links und der Anzahl der Zitierungen bilden. Die Summer aller dieser Produkte sollte dann die ca. 27 Milliarden| totalen Links von LL1 zu LL2 ergeben.

Aber an dieser Stelle breche ich ab. Es muss noch ziemlich viel erklaert werden und der Beitrag ist jetzt schon so lang.

Beim letzten Mal erklaerte ich drei der vier Grøszen die ich beim Abschreiten des Wikipedialinknetzwerkes untersucht habe. Die vierte ist eine Grøsze, die ich Linkfrequenz nenne. In kurz ist die Linkfrequenz ein Zaehler pro Linklevel und Titel OB (aber NICHT wie oft) besagter Titel insgesamt beim Abschreiten der Linknetzwerke aller Titel (inklusive sich selber) als Link auftaucht. Das ist gar nicht so kompliziert, wie sich diese komprimierte Beschreibung mglw. anhørt. Im Prinzip schaue ich auf jedem Linklevel, welcher (anderen) Titel zitiert werden und zaehle dann die Linkfrequenz(en) fuer diese (anderen) Titel und dieses Linklevel einmal hoch. Das wird (hoffentlich) verstaendlicher mit einem Beispiel.

Dafuer ziehe ich das (etwas modifizerte) abgeschlossene Beispiellinknetzwerk von vor einiger Zeit wieder heran:

Als Beispiel folgen wir allen Linkketten die zu Borkenkaefer fuehren.

Auf Linklevel 0 von Baum und Frucht wird Borkenkaefer zitiert. Damit zaehlt der Linkfrequenzzaehler von Borkenkaefer fuer Linklevel 0 zwei mal hoch.

Auf Linklevel 1 von Kirsche (via Baum), von Apfel (via Baum) und nochmals von Apfel (wie Frucht) wird Borkenkaefer zitiert. Auch hier zaehlt der Linkfrequenzzaehler von Borkenkaefer nur zwei mal hoch (diesmal fuer Linklevel 1). Der Grund ist, dass Baum und Frucht von Apfel aus gesehen auf dem gleichen Linklevel liegen. Das bedeutet, dass Borkenkaefer zwei mal auf Linklevel 1 (von Apfel aus gesehen) zitiert wird. Aber da ich nur daran interessiert bin OB und NICHT wie oft ein Titel pro Linklevel zitiert wird, zaehlt der Zaehler fuer diese beiden Faelle nur ein mal. Dies wird noch zwei Mal der Fall sein und da schreibe ich dann nur „dito“ und meine die Erklaerung hier.

Auf Linklevel 2 von Kuchen wird Borkenkaefer 3 mal zitiert (via Kirsche und Baum, via Apfel und Baum, via Apfel und Frucht). Dito, denn es ist wieder der selbe Ursprungsartikel von dem aus dieses Linklevel erreicht wurde und deswegen geht der Zaehler nur ein Mal hoch.

Zum Abschluss wird der Linkfrequenzzaehler von Borkenkaefer auf Linklevel 3 zwei mal hochgezaehlt. Einmal von Kirsche aus gesehen (via Kuchen, Apfel, Baum und Kuchen, Apfel, Frucht; dito) und einmal von  Apfel aus gesehen (via Kuchen, Kirsche, Baum).

Insgesamt sieht die komplette Linkfrequenzmatrix fuer dieses kleine, abgeschlossene Netzwerk so aus.

TitelLinkfrequenzzaehler
fuer Linklevel 0
Linkfrequenzzaehler
fuer Linklevel 1
Linkfrequenzzaehler
fuer Linklevel 2
Linkfrequenzzaehler
fuer Linklevel 3
Baum2110
Frucht1110
Borkenkaefer2212
Apfel1100
Kirsche1100
Kuchen2020

Die Linkfrequenzzaehler von Kuchen sind etwas speziell. Von Apfel aus gesehen zaehlt der Zaehler fuer Linklevel 0 einmal hoch, dann geht der Algorithmus zu Kuchen und von dort weiter zu Kirsche. Kirsche ist auf Linklevel 2 (von Apfel aus gesehen) und zitiert nochmal Kuchen. Damit geht der Zaehler fuer Linklevel 2 um einen hoch. Der Algorithmus geht aber nicht zurueck zu Kuchen, denn dieser Titel wurde ja (von Apfel aus gesehen) bereits besucht. Das Gleiche passiert wenn Kirsche der Ursprungsartikel ist.

Das scheint etwas kompliziert und die Frage ist, wofuer ich das eigentlich brauche. Der Grund ist, dass ich bei ersten (noch nicht systematischen) Tests ein paar Merkwuerdigkeiten bei der Anzahl der neuen Links auf hohen Linklevels gesehen habe. Es scheint, dass es Seiten gibt, die (fast) immer nur ganz am Ende der Linkkette (bei Linkleveln ueber 50) zitiert werden. Durch die Beobachtung der Linkfrequenz hoffe ich diesen auf die Spur zu kommen. Sollte meine Vermutung richtig sein, sollten derartige Seiten Peaks in der Verteilung bei hohen Linkleveln haben. Dies im Gegensatz zu „normalen“ Seiten, bei denen ich eine Art Plateau bei kleineren bis mittleren Linkleveln erwarten wuerde. Die genaue Analyse wird das zeigen … und noch ein bisschen auf sich warten lassen, weil ich gerade so viele „Faesser“ aufgemacht habe.

Ich weisz, dass ihr, meine lieben Leserinnen und Leser ganz gespannt auf die Ergebnisse wartet. Aber ihr seht ja auch, dass ich z.Z. ein bisschen mit anderen Projekten abgelenkt bin.

Weil ich das Kevin Bacon Projekt nicht ganz ruhen lassen will, habe ich mir gedacht zwei kurze Beitraege bezueglich den Daten die ich eingesammelt habe zu schreiben. Mich duenkt dass ich das in diesem sehr detaillierten und technischen Beitrag bereits erwaehnte.

Bisher ging es aber nur um das (super spannende und interessante) „Vorspiel“ … also die Erklaerung was ich eigentlich gemacht habe, um das Linknetzwerk der Wikipedia zu analysieren … abgesehen von der Analyse die nicht das „Abschreiten“ des Linknetzwerks benøtigte.
Dies wurde dann alles in ein Programm implementiert und besagtes Programm lieferte die gewuenschten Resultate — die oben erwaehnten eingesammelten Daten. Drei dieser Grøszen sind einfach zu verstehen. Die vierte erhaelt ihren eigenen (kurzen) Beitrag.

Am anschaulichsten scheint mir zu sein, den Prozess des „Abschreitens“ des Linknetzwerks nochmal durchzugehen und fuer jede Grøsze zu besprechen.

Am Anfang nehme ich einen Wikipediabeitrag (oder Titel wie ich es auch nenne). Dieser ist auf Linklevel 0 und hat eine gewisse Anzahl Links als „Ausgaenge“ zum Linklevel 1. Die _totale_ Anzahl dieser Links notiere ich mir fuer Linklevel 0. Als Beispiel nehme ich an, dass es 23 Ausgaenge waren zu 23 verschiedenen Wikipediaseiten.

Linklevel 1 besteht nun aus ALLEN diesen 23 Seiten. Diese 23 Seiten haben INSGESAMT wieder eine gewisse Anzahl Links. Nehmen wir als Beispiel an, dass es im Durchschnitt 10 Links pro Seite sind. Damit is die _totale_ Anzahl Links fuer Linklevel 1 zu Linklevel 2, fuer diesen ganz spezifischen, am Anfang gewaehlten, Wikipediabetrag, 230.
Nun nehmen wir weiter an, dass 5 von den 23 Seiten jeweils einmal auf besagten urspruenglichen Wikipediabetrag zurueck verlinken. Das hat zwei Folgen.
Zum Einen sehe ich ein Zurueckverlinken-zum-Ursprung als Selbstreferenz und die Summe aller Selbstrefrenzen notiere ich mir pro Linklevel. Das machte ich auch schon bei Linklevel 0, aber dort ist die Anzahl der Selbstreferenzen meist Null.
Zum Zweiten folge ich nur Links zu Seiten die ich vorher noch nicht besucht habe. Als Beispiel nehme ich an, dass die restlichen 225 Links alle zu verschiedenen Seiten gehen. Diese Zahl, die Anzahl aller _neuen_ (einzigartigen) Links, notiere ich mir auch per Linklevel (und urspruenglichen Wikipediabetrag).

Auf Linklevel 2 habe ich nun 225 Seiten. Ich nehme wieder 10 Links pro Seite (im Durchschnitt) an. Das macht dann 2250 _totale_ Links auf Linklevel 2. Desweiteren nehme ich an, dass da 50 Selbsreferenzen dabei sind. Auszerdem sehe ich, dass fuer dieses Fantasiebeispiel im Schnitt jede Seite auf Linklevel 2 eine Seite zitiert, die ich schonmal auf Linklevel 1 besucht habe. Das waeren also 225 „Zurueckverlinkungen“, die NICHT zum Urpsrung gehen (und somit keine Selbstreferenzen sind) denen ich aber ebenso nicht folge, damit ich nicht in Schleifen gerate. Die Anzahl der _neuen_ (einzigartigen) Links ist also: 2250 Links – 50 Selbstreferenzen – 225 Zurueckverlinkungen = 1975 Links

Auf Linklevel 3 habe ich nun 1975 Seite und das Spiel geht immer weiter, so lange, bis es keine Verlinkungen (oder Ausgaenge) mehr, zu Seiten auf denen ich noch nicht war, gibt .

In Tabellenform sieht das Fantasiebeispiel so aus:

Linkleveltotale LinksSumme der Selbstreferenzenneue Links
023023
12305225
22250501975
75101
76000

Das Ganze geschieht nun fuer alle (beinahe) 6 Millionen Wikipediatitel und wie die Verteilung dieser Grøszen pro Linklevel aussieht ist das, was mich interessiert. Aber das soll genug sein fuer heute.