Archive for the ‘Allgemein’ Category

Die Untersuchung der Position des Maximums hat mich auf die Idee gebracht, dass ich ja auch mal schauen kann, bei welchem Linklevel ein Linknetzwerk endet. Streng genommen muesste ich mir dafuer die Anzahl der neuen, also noch nicht besuchten, Links anschauen. Soweit bin ich aber noch nicht. Wenn ich mit den totalen Links pro Linklevel arbeite, denn hat das Linknetzwerk einer Seite pløtzlich ueberhaupt keine Links mehr. Das ist dann ganz genau der „Stop-Punkt“ wenn die letzte(n) besuchte(n) Seite(n) tatsaechlich ueberhaupt keine Links haben. Beim letzten Mal gab ich dafuer ein paar Beispiele.
In den allermeisten Faellen wird der Stop-Punkt aber ein Linklevel vorher erreicht, naemlich dann wenn noch Links vorhanden sind, aber diese bereits alle besucht wurden. In diesem Fall geht’s nicht weiter. Das bedeutet, dass ich beim naechsten Schritt keine Seite mehr besuche und keine Seite ist sozusagen die „Nullmenge“. Und die „Nullmenge“ enthaelt natuerlich keine Links, weil sie keine Elemente enthaelt die Links enthalten kønnen.

Meine Erwartung an die Verteilung ist die Folgende: Zunaechst sollten wir ca. 5,500 Seiten sehen, die bereits bei LL0 „aussteigen“. Diese ruehren natuerlich aus dem Wissen vom vorigen Mal.
Ungefaehr hundert Seiten sollten bei LL1 oder LL2 (und in ganz wenigen Faellen LL3) aussteigen. Das wissen wir auch vom letzten Mal, denn das sind die Seiten die nur auf sich selber im Kreis zeigen. In diesen Faellen kønnen es eigentlich tatsaechlich nur solche Seiten sein, die beim letzten mal das Maximum bei sehr kleinen Linkleveln hatten. Der Grund ist, dass wenn eine Seite viele Links auf LL0 oder LL1 hat, mit hoher Wahrscheinlichkeit einer zu einer Kaskade fuehrt und somit kein Aussieg bei kleinem Linklevel møglich ist.
Es ist møglich, dass ein paar wenige Seiten erst bei LL4 oder LL5 aussteigen. Das waeren dann sehr grosze Ketten von im-Kreis-auf-sich-selber-zeigen. Aber die Chance dafuer ist sehr klein.

Dann sollte ’ne Weile nix passieren. Denn sobald eine Kaskade beginnt, steht im Wesentlichen das komplette Weltwissen zur Verfuegung. Vom Anfang der Betrachtungen der totalen Links wissen wir, dass es bei ca. LL70  eine steile „Abbruchkante“ in der Verteilung gibt. Das passiert natuerlich dann, wenn die allermeisten Seiten ans Ende ihrer Linknetzwerke kommen. Wiederum vom letzten Mal wissen wir, dass mindestens eine Seite bis LL73 kommt; aber sehr viel mehr sollten das nicht sein.

Ich ueberlegte all dies, bevor ich mich an die eigentliche Auswertung machte. Ich wollte naemlich sehen, ob ich, mit meinem bisherigen Wissen ueber die Vernetzung des Weltwissens, die Verteilung dieser „Groesze“ hervorsagen kann. All das was ich hier mache ist natuerlich wenig formal, aber eine der Eigenschaften die ich an der Wissenschift (und Forschung) so toll finde ist, dass wissenschaftliche Theorien nicht nur Beobachtetes beschreiben, sondern ebenso noch nicht Beobachtetes vorhersagen kønnen.
Genug der Vorrede; hier ist die Verteilung bzgl. wieviele Seiten keine totalen Links mehr haben pro Linklevel.

Aha! Da lag ich doch ziemlich gut mit meinen Vorhersagen. 5,570 Seiten steigen bei LL0 aus und 113 zwischen LL1 und LL3. Dann kommt nix und ab LL47, geht’s dann wieder los. Zunaechst zøgerlich, dann aber ganz gewaltig zwischen LL67 und LL71. Interessant ist, dass beinahe 77 % aller Seiten auf LL69 enden! Bzw. ein kleines bisschen mehr als 99 % aller Seiten enden zwischen LL68 und LL70! Wieder einmal sind hier Hinweise, dass zum Ende der Linkkette ein Prozess am Wirken ist, der ueber fast alle Seiten zum selben (!) Resultat fuehrt. Heute spekuliere ich da zum ersten Mal drueber, aber die genaue Untersuchung verschiebe ich (mal wieder) auf spaeter.

Eine Erklaerung fuer dieses Phaenomen kønnten ein paar Seiten sein, die insgesamt eine lange Kette von Links zueinander bilden, OHNE dass das eine Zitierung im Kreis wird. Aber der Zugang zu dieser Kette ist so seltsam, dass er immer erst nach vielen (mglw. 50 oder so) Schritten erreicht wird, egal von wo man in der Wikipedia beginnt.
So etwas kønnte man durchaus konstruieren. Nur dass der Zugang in (fast) allen Faellen immer erst so spaet geschieht erfordert sorgsame Planung.
Ein Hinweis kønnte der kleine Peak bei LL47/48, sein fortgefuehrt durch die Kette von einzelnen Seiten bis LL64/65. Dabei handelt es sich um 66 Seiten insgesamt (48 Seiten) im Peak. Das ist jetzt Spekulation ohne irgendwelchen Hinweise, aber diese kønnten die Ausstiegspunkte der Glieder der oben erwaehnten, sorgfaeltig geplanten Kette sein. Denn wenn diese die Titel bilden, deren Linknetzwerk konkret untersucht wird, dann wird die Kette ja schon ganz am Anfang abgeschritten und ist somit zum Ende nicht mehr vorhanden. Die (normal einsetzende) Kaskade an Links sorgt dann dafuer, dass auch keine anderen Links zum Ende mehr uebrig sind.

Ich schrieb dies … und dann schaute ich mir die Seiten die den kleinen Peak (und den „Schwanz“) bilden mal an … ja, ausnahmsweise hatte ich nicht schon vorher alles fertig … Heraus kam dabei, dass jede einzelne dieser Seiten vom Typ XXXX São Paulo FC season war, wobei das XXXX fuer ein Jahr steht. Beispielsweise 1944 São Paulo FC season oder 1980 São Paulo FC season oder 1994 São Paulo FC season usw. usf.
Ich kann mir durchaus vorstellen, dass (fast) alle Seiten dies am Ende ihrer Linkkette haben. Diese Seiten haben mehrere Links, aber in den Beispielen die ich mir anschaute, sehen die alle so aus, als ob die vorher schonmal besucht wurden (bspw. die Namen von Fuszballcubs). Aber in der Infobox ist dann der Link zur Saison des naechsten Jahres. In diesem Fall fuehrt nur dieser Link (und immer nur dieser eine Link) weiter und das in einer genau „definierten“ Reihenfolge und NICHT im Kreis (wie oben spekuliert). Das wuerde auch erklaeren, warum die Werte der letzten zwanzig Linklevel bei den Beispielen vom letzten Mal absolut identisch waren.

Es verbleibt die Frage nach dem Einstiegspunkt und warum dieser fuer (fast) alle Seiten so spaet auftaucht und immer der Selbe ist. Wobei es sich dabei nicht unbedingt um nur einen einzigen Zugang zu dieser Kette handeln muss, aber sehr viele kønnen es auch nicht sein.
Wieauchimmer, das bekomme ich an dieser Stelle nicht geklaert und beende den Beitrag fuer heute.

Ach ja … ACHTUNG: Sollte die obige Vermutung stimmen, so ist das auch ein Artefakt, denn die Infobox haette ignoriert werden sollen (was aber nicht der Fall war, weil diese anders als normal im Quellcode der entsprechenden Seiten eingebunden ist).

Die Gesamtverteilung der totalen Links pro Linklevel (siehe die erste Grafik hier) ist zusammengesetzt aus 5,798,312 Einzelverteilung. Im Allgemeinen gleichen die Einzelverteilungen der Gesamtverteilung insofern, dass der Anstieg zum Maximum sehr schnell ist und Selbiges bei LL4 oder LL5 erreicht wird. Danach geht die Anzahl der totalen Links pro LL wieder runter, aber es bleibt ein langer „Schwanz“ zu hohen Linkleveln mit kleinen Zahlen fuer diese Grøsze.

Interessiert haben mich nun grobe Abweichler. Also Seiten, deren Maximum viel frueher oder viel spaeter auftauchten. Hier zwei Beispiele in denen die Verteilung nicht als Balkendiagramm sondern als durchgehende Linie dargestellt wird, damit man mehr sieht:

Die Daten fuer die schwarze Linie habe ich ganz zufaellig (ehrlich!) aus den fast 6 Millionen Datensaetzen herausgegriffen. Hier ist der Link zur entsprechenden Seite — Hell Raiders of the Deep. Das Maximum liegt bei LL5.
Die Daten fuer die rote Kurve habe ich mitnichten zufaellig herausgesucht. Dem ging eine umfassende Analyse aller individuellen Verteilungen voraus. Der Groszteil der Analyse war natuerlich automatisiert und ging schnell. Aber ein paar Stunden habe ich mit einer detaillierten manuellen Analyse verbracht. Das Maximum der roten Kurve liegt bei LL8 (ja, da ist ein kleiner Unterschied zu LL7) und hier ist der Link zur entsprechenden Seite (und der richtigen Version!) — De Valence v Langley Fox Building Partnership (W). Ich komme weiter unten nochmal darauf zurueck.

Zwei Dinge fallen an den beiden Kurven auf.
Zum Ersten ist die Amplitude des Maximums der beiden Kurven (beinahe) die Selbe. Das sollte auch so sein, denn selbst wenn die Spaetzuenderseite mit einer „Verspaetung“ von drei Linkleveln startet, so sind dort doch die selben Prozesse am Wirken wie bei den Hell Raiders of the Deep. Diese Prozesse wurden in den vorhergehenden Artikel in dieser Reihe dargelegt.
Zum Zweiten scheint beim genauen Hinschauen das letzte Stueckchen vom Schwanz vøllig uebereinzustimmen (von der Verschiebung abgesehen). Als ich mir die Zahlen konkret anschaute war dem tatsaechlich so! Die letzten zwanzig Linklevel haben bei beiden Seiten ganz genau die gleichen Werte.
Ich erwaehnte bereits mehrfach, dass da irgend etwas komisch ist zum Ende hin. Auch diesmal muss ich die Diskussion dieses Mysteriums in die Zukunft schieben.

Das waren aber nur zwei individuelle Verteilungen. Von Interesse sind nun die Mechanismen die zu einer solchen Verschiebung fuehren. Dafuer muss man sich aber die Verteilung der Maxima der individuellen Verteilungen der totalen Links aller Seiten anschauen. … Haeh was? … Hoffentlich etwas verstaendlicher: ich evaluierte fuer alle Seiten, bei welchem Linklevel das Maximum der Verteilung der totalen Links liegt. Hier ist das Resultat:

Wie zu erwarten war, lag das Maximum der Maximaverteilung bei LL4 (dicht gefolgt vom Balken bei LL5). Das musste so sein, denn andernfalls haette sich die Gesamtverteilung nicht so ergeben wie sie sich ergeben hat. Das Maximum von ein paar wenigen Seiten liegt entweder links oder rechts direkt daneben. Auch das war zu erwarten. Die 5 Seiten bei LL8 sind das Thema dieses Beitrags und ich bespreche das im Detail weiter unten. Ich denke, dass die Ergebnisse dieser Besprechung im Wesentlichen auch auf die 189 Seiten bei LL7 uebertragen werden kønnen.
Unerwartet sind nun die ueber 5-tausend Seiten die ihr Maximum bei LL0 haben? Was geht hier vor?

In kurz ist dieses Signal hauptsaechlich ein Artefakt von Seiten die keine Links haben (aber die von mindestens einer anderen Seite zitiert werden muessen, denn ansonsten haette ich die rausgeschmissen). Diese fuenftausendsechshunderteinundachtzig Seiten fallen im Wesentlichen unter zwei Kategorien. Die allermeisten sind so Seiten wie Controlled tenancy, Pedanochiton, Zodarion alentejanum oder Khudyakov Mikhail. Die haben tatsaechlich keine Links! (Kleiner Einschub: die letzte Seite wird umgeleitet (und da sind aber trotzdem keine Links) und das bestaetigt, dass Umleitungen tatsaechlich auch bei der Bearbeitung der Rohdaten funktioniert haben.)
Desweiteren fallen darunter Seiten wie Emily Howard die zwar Links haben, aber keine Links zu anderen Wikipediaseiten.

Von den ueber 5-tausend Seiten hatte ich 7 zufaellig herausgepickt und nur Bevonium faellt im Original nicht unter die obigen fuenf. Diese Seite hat naemlich einen Link, aber dieser wird umgeleitet und anders geschrieben. Leider fuehrt dies dazu, dass meine Bearbeitung der Rohdaten eine Verkettung dieser Umstaende nicht beruecksichtigt und, wie in den letzten beiden Artikel beschrieben, den Link herausschmeiszt. Bin ich froh, dass ich diese Fehlerquelle bereits vorher genauer untersuchte. Dadurch wurde ich hier nicht davon ueberrascht.
Auch wenn ich das mitnichten genau untersuchte, so scheint meine Stichprobe doch darauf hinzuweisen, dass dieser Fehler zwar vorkommt, aber nicht die Majoritaet des Signals ausmacht.

Die zweite Kategorie sind 111 Seiten wie bspw. Soldiers without Uniforms oder Rational economic exchange. Auf LL0 findet sich ein Link und der fuehrt (im ersten Fall) zu E.G. de Meyst bzw. (im zweiten Fall) zu Implied level of government service. Auf LL1 findet sich dann wieder nur ein Link, aber dieser zitiert die Ausgangsseite.
Die Situation ist also dadurch gekennzeichnet, dass es Links auf LL0 gibt, aber auf høheren Linkleveln gibt es genau gleich viele Links und alles endet schnell in einer Sackgasse (oder Schleife).
Auch in diesem Fall sehe ich wieder Seiten die nur in dieser Kategorie landen, weil meine Datenbehandlung aufgrund unguenstiger Umstaende Links løscht. Aber weil es insgesamt eh nur 111 Seiten in dieser Kategorie gibt, kuemmer ich mich da nicht weiter drum.

Kurzer Einschub: Die zwei Seiten mit dem Maximum bei LL1 sind Omegatetravirus und Betatetravirus. Das sind Viren, die Motten und Schmetterlinge befallen. Auf LL0 haben beide jeweils zwei Links. Der Erste ist viruses und wird wegen Umleitung und falscher Schreibung rausgeschmissen. Der Andere ist in beiden Faellen Alphatetraviridae. Alphatetraviridae hat nun drei Links von denen einer wieder „viruses“ ist (und wieder rausgeschmissen wird) und die anderen beiden sind „Betatetravirus“ und „Omegatetravirus“. Das ist also ein gegenseitig auf sich selber zeigen mit Zwischenschritt … tihihi.

Nun endlich zu den fuenf Artikeln mit einem Maximum bei Linklevel 8. Ich sage gleich, dass oben erwaehnte Fehlerquellen vermehrt auftreten. Aber ich fange mit der Seite an, bei der alles knorke ist (wenn man die richtigen Versionen nimmt): De Valence v Langley Fox Building Partnership (W). Diese hat einen Link zu Langley Fox Building Partnership v De Valence. Von dort fuehren zwei Links zu Chartaprops v Silberman und Kruger v Coetzee. Letzteres hat keine weiterfuehrenden Links und Ersteres hat nur einen Ausgang zu South African law of agency. Dies ist dann eine normale Seiten mit normal vielen Links und das setzt dann die Kaskade in Gang.

Zieht man auf jedem Linklevel bei den richtigen Versionen die oben erwaehnten Fehler in Betracht, so ist auch Prytanis (king of Sparta) ein „Spaetzuender“. Jeweils mit nur einem Link weiterfuehrend geht die Linkkette zu Polydectes, dann weiter zu Eunomus um zu Charilaus und den Ausgangspunkt der Kaskade zu gelangen. Wuerde allerdings Greek language nicht faelschlicherweise rausgeschmissen werden, dann waere es mitnichten ein Spaetzuender.
Duer Copy propagation gilt das Selbe, auch wenn es etwas schwerer nachzuvollziehen ist, wo die Fehler passieren. Auf LL0 ist ein „gueltiger“ Link zu LL1. Auf LL1 gibt es derer zwei, aber einer fuehrt zurueck und auf LL2 dann wieder nur einer. Die Kaskade beginnt auf LL3.

Bei den anderen beiden Seiten konnte ich nicht im Detail nachvollziehen wo die Fehler passieren. Aber es sieht arg nach dem selben Fehlermechanismus aus und deswegen diskutiere ich das hier nicht weiter.

Wie bereits erwaehnt, kommen die Mehrzahl der 189 Seiten mit dem Maximum auf LL7 vermutlich durch den gleichen Mechanismus zutande.

Zum Abschluss dieses Beitrags das Folgende. Dadurch, dass ich mir hier die Extreme genau anschaue ist zu erwarten, dass von mir gemachte Fehler deutlich sichtbar werden. Dies deswegen, weil diese Seiten von sich aus schon nur wenige Links haben und dann durch meine Fehler die Situation noch „verschaerft“ wird. Fuer die allergrøszte Mehrzahl der Wikipediaseiten hat das aber keinen gravierenden Einfluss. Denn wenn ich von bspw. 31 Links auf einer Seite einen aus Versehen wegschmeisze, dann macht das groszen Unterschied bzgl. der Position des Maximums.

So viele interessante Sachen. Ich bin schon gespannt auf’s naechste Mal.

Beim letzten Mal wies ich auf einen Fehler hin, der mir bei der Bearbeitung der Rohdaten passiert ist. Da ich heraus fand wie dieser Fehler zustande kommt, konnte ich abschaetzen, wie grosz besagter Fehler im schlimmsten Fall sein kann.

Bevor ich Korrekturen durch menschengemachte Fehler (hauptsaechlich Grosz- und Kleinschreibung, aber auch ein paar andere Sachen) vornahm, hatte ich 189,887,300 Links. Am Ende des Prozesses der Vorbereitung der Rohdaten zur Analyse hatte ich nur noch 165,913,569 Links. Wenn man annimmt, dass ALLE Berichtigungen falsch sind, dann fuehrt dies zu einer Diskrepanz von 23,973,731 Links und das entspricht 14 % aller Links.

Ich denke aber, dass ein groszer Teil der Korrekturen richtig waren und dass der tatsaechliche Einfluss des Fehlers innerhalb des 10 %-Fehlers faellt.
Puh, nochmal Glueck gehabt, dass mein Bauchgefuehl meine ueber 20 Jahre Erfahrung mit der Analyse von Daten auch hier wieder so Pi-mal-Daumen richtig lag.

Auch wenn dies hier so ein bisschen unter „ferner liefen“ faellt, so ist das doch mitnichten eine unwichtige Sache. Fehler sind normal und immer vorhanden. Drei Punkte sind diesbezueglich aber sehr wichtig: dass man sich dem bewusst ist, dass man die Fehler angibt und dass man weisz woher die kommen. Diese drei Punkte zeigen, dass ein Forscher besagte Fehler „unter Kontrolle“ hat.

Leider werden Fehler in den meisten nicht-wissenschaftlichen Quellen nicht angegeben, oder wenn doch, dann nicht detailliert diskutieret. Wobei eine Fehlerdiskussion auch in den wissenschaftlichen Quellen meist nicht genau genug stattfindet. Ich gebe zu, dass das eher trocken ist und als Leser nimmt man halt an, dass das schon richtig gemacht wurde. Oft genug, wurde es aber nicht richtig gemacht.

Hier ist dann auch wieder ein (wichtiger) Unterschied zwischen Data Scientists und Data Analysts. Letztere geben zwar Fehler an, aber das ist dann meist nur das, was das Statistikprogramm ausspuckt. Dies hier ist aber ein systematischer Fehler, der nur durch die Arbeit mit den Rohdaten zu erkennen war. Und Letzteres machen Data Analysts nicht, weil die (mehr oder weniger) gute und bearbeitete Daten zugeschickt bekommen. Ich wuerde sogar so weit gehen und behaupten, dass Data Analysts sich der Wichtigkeit von Fehlerbetrachtungen nicht mal bewusst sind. Klar, die wissen darum, aber das bedeuten nicht, dass sie sich auch wirklich drum kuemmern (kønnen sie ja auch nicht, weil sie nicht mit den Rohdaten in Kontakt kommen).

Lange Rede kurzer Sinn: es ist OK Fehler zu machen und zu haben, so lange man das unter Kontrolle hat. D.h. dass die nicht das Signal dominieren und man weisz wo die herkommen. Und das ist in diesem Fall zum Glueck so.

Dies hier ist die etwas modifizierte Tabelle vom letzten Mal:

DatenpunktAnzahl Links in
meinen Daten
Tatsaechliche Anzahl
Links
Seite
A23Dieter Nohlen
B44VG-lista
C44List of Prokaryotic names with Standing in Nomenclature
D44Dehestan (administrative division)
E66Geographic Names Information System
F88Bakhsh

Man beachte, dass die Tabelle nun zwei Spalten mit (unterschiedlichen) Anzahl Links (des jeweiligen Datenpunkts hat). Beim letzten Mal schrieb ich, dass man die richtige Version einer Wikipediaseite nehmen muss um die Diskrepanz auszugleichen. Aber die Zahlen in dieser Tabelle beruecksichtigen dies bereits. Habe ich etwa geflunkert?

Nun … ja und nein.

Beim letzten Mal wollte ich die Sache einfach halten und habe nur eine (von zwei) Datenpunkten naeher beschrieben wo das die Erklaerung war. Ich tat dies, um darauf aufmerksam zu machen, dass die Betrachtung der richtigen Version sehr wichtig ist. Ich wollte das Ganze nicht unnøtig kompliziert machen, auch weil die weiterhin bestehenden Diskrepanzen eine ganz andere Ursache haben. Auszerdem erwartet ich nicht, dass ihr, meine lieben Leserinnen und Leser, den Links folgt und alles selber nachzaehlt.

Diese andere Ursache geht nun sehr weit zurueck, fast ganz an den Anfang dieses Projekts, als ich die Rohdaten fertig machte fuer die Analyse. Es ist ein Zusammenspiel zwischen dem Versuch des Korrigierens menschlicher Fehler und der Berucksichtigung von Umleitungen.

Zur Erinnerung: Ersteres schaute ob die Links einer Seite auch wirklich zu existierenden Seiten fuehrten, wenn nicht so versuchte ich es bspw. mit veraenderter Grosz- und Kleinschreibung (und ein paar anderen Sachen). Wenn das immer noch nicht klappte wurde angenommen, dass der Link ins Leere fuehrt und entfernt
Letzteres ist der Umstand, dass ein Link einen gewissen „Namen“ hat, dieser Name aber nicht direkt zur Seite fuehrt, sondern zu einer Umleitungsseite die dann zum gewuenschten Ziel mit einem etwas anders geschriebenen Titel geht.

Der Prozess der zur Diskrepanz fuehrt sei am Beispiel „Dieter Nohlen“ erklaert. Der Link geht zur richtigen Version und dort finde ich Links zu „Oberhausen„, „Germany„,  „Heidelberg University„, „electoral systems„, „political scientist“ und „political development„.
„Germany“ und „Heidelberg University“ sind so geschrieben, wie sie im Quelltext auftauchen, sind im Seitentext aber als „German“ und „University of Heidelberg“ zu sehen. Zusammen mit „Oberhausen“ kønnen diese Links tatsaechlich existierenden Seiten zugeordnet werden. Warum dies bei den anderen drei nicht der Fall ist, ist etwas umstaendlicher zu erklaeren.

Im Quelltext tauchen „electoral systems„, „political scientist“ und „political development“ mit genau diesen „Namen“ fuer die Links auf. Aber der erste Link geht zu „Electoral system“; Singular und grosz geschrieben, zwei eher subtile Unterschiede, fuer die ich genauer hinschauen musste, weil sie mir beim ersten Blick gar nicht aufgefallen sind.
Aber was bedeutet dies? Nun ja, das bedeutet, dass es es eine Umleitungsseite vom Plural zum Singular gibt und mein Algorithmus bekommt das i.A. auch richtig zugeordnet. Das Problem ist nun aber, dass die Umleitungsseite auch grosz geschrieben wird. Bei Umleitungsseiten habe ich aber von Menschen gemachte Fehler (Grosz- und Kleinschreibung in diesem Fall) nicht beruecksichtigt … *seufz*. Deswegen findet mein Algorithmus keine Umleitungsseite zu „electoral systems“, deklariert diesen Link als „tot“ und entfernt ihn aus der Liste der Links zu diesem Titel.
Die letzten beiden Links gehen beide zu „Political science“. Dorthin werden sie umgeleitet von „Political development“ und “ Political scientist“. Es ist also das gleiche Prinzip wie oben, eine Verkettung von Umleitung und menschengemachten Fehlern bei der Grosz- und Kleinschreibung … *doppelseufz*.

Das ist der Prozess, wie die Diskrepanz zustande kommt und ich kann das fuer alle Seiten in der Tabelle gut nachvollziehen, wann waehrend der Bearbeitung der Rohdaten die besagte Diskrepanz auftaucht.
Das ist ein systematischer Fehler, der beim naechsten Mal vermieden werden kann.

Das Weihnachtsgeschenk von neulich war natuerlich KEINE Originalausgabe von Newtons Principia.

Das Weihnachtsgeschenk war, dass ich mir die mal in Echt und ohne Glas dazwischen anschauen und sogar mit meinen Patschehaendchen betatschen durfte … Immer noch voll toll wa!

Ich fand es uebrigens ganz erstaunlich, wie gut das Papier erhalten war. In Film, Fernsehen und Computerspielen zerfallen alte Dokumente immer sofort zu Staub und sowas aehnliches erwartete ich. Klar, ich musste die Seiten sorgfaeltig behandeln und war extra vorsichtig, aber das Papier war normal handhabbar und fuehlte sich mitnichten bruechig an.
Diese haptische Erfahrung hat man natuerlich nicht, wenn man etwas in einer Vitrine sieht. Und deswegen war das so ein voll tolles Weihnachtsgeschenk :) .

Vor einiger Zeit wurde ich lieb darauf hingewiesen, dass im Osten Deutschlands aufgewachsene (in Norwegen lebende) Deutsche, wenn sie gefragt werden, wo sie herkommen „aus Ostdeutschland“ sagen.
Wenn ich ehrlich bin, habe ich etwas Entsprechendes tatsechlich noch nie wirklich jemanden sagen høren, wenn die Person aus Nord- oder Sueddeutschland kommt. Da wird die Himmelsrichtung im Allgemeinen weggelassen.

Wieauchimmer, das soll nur der Einstieg sein, denn ich stolperte ueber eine interessante Studie von Becker, S. O., Mergele, L. und Woessmann, L. mit dem Titel „The Separation and Reunification of Germany: Rethinking a Natural Experiment Interpretation of the Enduring Effects of Communism.“ im Journal of Economic Perspectives, 34 (2), p. 143–71, 2020. Wobei ich eher diese Version hier empfehle, denn die enthaelt (am Ende) mehr informative und leicht zu interpretierende Bilder.

Diese Studie ist durchaus lesenswert, aber es reicht auch, wenn man sich die Bilder anschaut. Man sieht dort deutlich, dass die gesellschaftliche, politische und økonomische „Landschaft“ im Osten Deutschlands bereits vor dem 2. Weltkrieg anders war.

Bspw. war der Anteil der Arbeiterklasse an der Bevølkerung VIEL høher als im Rest Deutschlands. Wir reden hier von Werten zwischen 50 bis 75 Prozent im gesamten Ostdeutschen Bereich, waehrend es in Westdeutschland (abgesehen vom Ruhrgebiet) nur 10 bis 30 Prozent sind! Damit war natuerlich auch der Anteil der Linkswaehler deutlich grøszer. Interessant, nicht wahr! Aber das wussten wir ja schon vorher, dass die beruehmteste „Arbeiter“partei in der Geschichte Deutschlands mitnichten fuer die Arbeiter stand.
Und diese groszen Unterschiede gelten auch fuer den Anteil der Protestanten, auszerehelichen Kindern oder Teilhabe der Frauen am Arbeitsleben.

Worauf ich hinaus will: die Ostdeutschen waren (in neuerer Zeit) schon immer anders; und wenn das naechste Mal wer sagt, dass das Spaetwirkungen des seit ueber 3 Jahrzehnten ueberwunden DDR-Regimes sind, dann kann ich ’n Vogel und diese Studie zeigen. Ist doch immer schøn, wenn man echte Fakten in der Hand haelt, nicht wahr.

… dass moderater Alkoholkonsum gut fuer einen ist.

Ich habe in den vorherigen Beitraegen in dieser Reihe viel aus der (Literatur)Anaylse von Hans Olav Fekjær in Addiction 108 (12), pp. 2051–2057, 2013 zitiert, weil alle dort dargestellten Sachverhalte so schøn den Selbstkorrekturmechanismus der Wissenschaft darstellen. Die gesamte „Geschichte“ geht im Allgemeinen ungefaeher so.

Eine Beobachtung (in diesem Falle besagte „Volksweisheit“) wird gemacht und sehr, sehr oft in vielen unabhaengigen Faellen (scheinbar) bestaetigt.
Diese Studien sind mal mehr, mal weniger gut und die weniger Guten fallen erstmal nicht auf. Bzw. wird den Schwaechen frueherer Studien damit begegnet, indem in neueren Studien immer mehr Størfaktoren in Betrachtung gezogen und „herausgerechnet“ werden.
Ueber viele Jahre scheint sich scheinbar ein bestimmtes „Bild“ einzustellen … aber dann schaut sich eine neue Generation von Forschern dieses „Bild“ mal mit grøszerem Abstand an und sieht die Ungereimtheiten.
Hierbei kann man im Allgemeinen nicht einmal die frueheren Forscher beschuldigen etwas falsch gemacht zu haben. Besagte Ungereimtheiten fallen naemlich nur auf, wenn man alles zusammen, und nicht einzeln (oder begrenzt auf bestimmte Arbeitsgebiete) betrachtet. Das konnten fruehere Forscher aber nicht machen, aus dem einfachen Grund, weil „alles“ ja noch gar nicht da und das „Bild“ erst am Entstehen war.

Fekjær raeumt nun durchaus ein, dass …

[t]here is solid evidence that light or moderate drinkers have a reduced risk of several diseases which are influenced by life-style factors.

Kommt aber nach Blick auf das „Gesamtbild“ auch zum Schluss …

[w]hether or not the lower risk is due to alcohol is a more complicated issue.
Taken together, the existing evidence does not seem to meet the criteria for inferring causality […].

Ganz konkret (als Zusammenfassung dessen was ich in vorherigen Artikeln ansprach):

[f]or almost all the diseases, we do not know of any plausible biological mechanism explaining a causal preventive role for alcohol. In theory there might be a common, as-yet undiscovered mechanism, but the diverse nature of the diseases makes it unlikely. Another criterion for causality which is almost completely lacking is the biological gradient, or dose–response relationship.

und zum Ende kann sich Fekjær ein abschlieszendes Kommentar bzgl. Beobachtungsstudien nicht verkneifen (Hervorhebung von mir):

Some recent studies attempt to overcome the problem by including more confounders than previously […]. Like others before them, the authors seem to be confident that all relevant confounders have been taken into account.

*lacht*

Dies soll es abschlieszend dazu sein.

Der andere Weg der Selbstkorrektur in der Wissenschaft ist die Anwendung neuer, besserer Methoden. Eine derartige neue Methode wurde bzgl. dieses spezifischen Themas, und weiter beschraenkt auf Herz- und Kreislauferkrankungen, von Holmes, M. V. et al. angewandt und im (ebenso detailliert besprochenen) dazugehørigen Artikel in BMJ, 2014; 349:g4164 vorgestellt.
Dieser Weg ist auch voll spannend und oft eindeutiger bzgl. der Schlussfolgerungen. Aber da beide Methoden in diesem konkreten Fall zum selben Ergebniss fuehren, gehe ich darauf nicht nochmal gesondert ein.

Tja, und das war’s dann mit dieser Miniserie. Ich hoffe, dass ihr, meine lieben Leserinnen und Leser, aehnlich viel Freude daran hattet wie ich beim Lesen und (zumindest teilweise) Verstehen der Artikel.

Hier stellte ich die Entdeckung vor, dass die Beziehung zwischen der Anzahl der durchschnittlichen Links pro Seite und der Anzahl der Zitierungen einem maechtigen Gesetz folgt. Zur Erinnerung nochmal das Resultat:

Es sieht aus, als ob es sehr viele Abweichungen bei ueber 1000 Zitierungen gibt, was Zweifel an der obigen Aussage aufkommen laeszt. Aber in dem zitierten Artikel erklaere ich, dass dies nur scheinbar so ist und die Abweichungen nur durch sehr wenige Seiten zustande kommen.

Aber darum soll es heute gar nicht gehen. Vielmehr interessiere ich mich ausnahmsweise mal fuer individuelle Seiten. Ich meine die sechs, mit A bis F markierten Datenpunkte. Das sind vielzitierte Seiten, also „Groszvieh“, die nur sehr wenige Links haben. Beim ersten kurzen Anschauen, dachte ich, dass es sich dabei bestimmt um sowas wie Voivodeship oder CinemaScore handelt. Beide wurden erstmals hier erwaehnt, ebenso im Zusammenhang mit einer Anomalie. Aber schauen wir mal genauer hin.

Hier ist eine Uebersicht der Daten fuer diese sechs Datenpunkte:

DatenpunktAnzahl
Zitierungen
Anzahl
Links
Seite
A36453Dieter Nohlen
B35694VG-lista
C38954List of Prokaryotic names with Standing in Nomenclature
D617824Dehestan (administrative division)
E625256Geographic Names Information System
F633258Bakhsh

Aha! Meine Vermutung war (grøsztenteils) richtig. Die Datenpunkte B, C und E sind (im weitesten Sinne) tatsaechlich sowas wie „Cinemascore“ — (mehr oder weniger) zusammenfassende, uebergeordnete Listen zu einem Thema.
Nehmen wir beispielsweise die norwegischen Charts: VG-lista. Da gibts halt nicht viel zu sagen und weiterfuehrende Links gehen nur zum allgemeinen “ record chart„, der Zeitung die das verøffentlicht — VG — und wo die Daten herkommen — Nielsen Soundscan International. Aber Moment mal! Das sind doch nur drei Links und in meinen Daten sollten das vier sein! Irgendwas stimmt hier nicht.

Hier muss man sich nun erinnern, dass die Wikipedia ein lebendes Dokument ist und dass ich mit der Version vom 20. Dezember 2020 arbeite. Man muss also auf „View History“ (der entsprechenden Seite) gehen und dort die richtige Version nehmen (in diesem Falle die vom 15. November 2020‎). Und schwuppdiwupp, ein zusaetzlicher Link nach Norway taucht auf.

Die Datenpunkte D und F sind tatsaechlich sowas wie „Voivodeship“ und die tauchten bereits bei den 50 meistzitierten Seiten auf und wurden dort kurz besprochen.

Heraus faellt nur Datenpunkt A: Dieter Nohlen. Dieser Politikwissenschaftler ist mir aber bereits auszerhalb von Wikipedia „ueber den Weg gelaufen“ und da wundert es mich gar nicht, dass er (oder seine Arbeiten) in fast viertausend anderen Zusammenhaengen zitiert wird.

So, das war’s dazu. Das Anschauen einzelner Seiten macht die Theorie immer ein bisschen greifbarer. Und auch wenn es sich (wie in diesem Fall) um „Ausreiszer“ handelt, so sagen auch diese etwas ueber die Struktur des Weltwissens aus :). Auszerdem lockert das die Besprechungen der manchmal doch etwas abstrakten Theorie ein bisschen auf.

Ich bin aber noch nicht ganz fertig mit diesen Ausnahmefaellen. Diese machten mich naemlich auf eine wichtige Sache aufmerksam. Aber dazu mehr beim naechsten Mal

Hiermit møchte ich die Diskussion bzgl. des Maximums der Gesamtverteilung der totalen Links per Linklevel abschlieszen. Dafuer zeige ich nochmal besagte Verteilung:

In den vorhergehenden Artikeln hatte ich dargelegt, warum das viel staerker zum Maximum hin ansteigt als man zunaechst vermuten wuerde. Dabei habe ich mich auf den Anstieg von LL1 zu LL2 konzentriert.
Man beachte, dass das im Diagramm etwas anders zu lesen ist. Dort ist die Anzahl der totalen Links pro Linklevel angezeigt. Die Links sind die „Ausgaenge“ (oder „Treppen“, wenn man im Bilde des Anstiegs bleiben will) zum naechsthøheren Level. Deswegen ist mit „Anstieg von LL1 zu LL2“ die Høhe des Balkens bei Linklevel 1 gemeint.

Wieauchimmer, der viel staerker als erwartete Anstieg kommt durch vielzitierte Seiten zustande. Nun ist es aber so, dass eine spezifische Startseite (deren Linknetzwerk individuell untersucht wird) auf LL1 mitnichten alle vielzitierten Seiten gesehen hat. Mglw. hat diese spezifische Startseite auf LL1 ueberhaupt keine vielzitierte Seite gesehen. Das bedeutet dann aber, dass in der Gesamtheit aller Wikipediaseiten auf LL2 wieder (oder vielmehr immer noch) vielzitierte Seiten auftreten kønnen. Das ist dann der Grund, warum auch der Anstieg von LL2 zu LL3 signifikant grøszer ist, als ein einfaches durchschnittliche-Anzahl-Links-pro-Seite-Bild vermuten laeszt.
Dito von LL3 zu LL4, aber der Effekt wird von Linklevel zu Linklevel geringer. Der Grund ist, dass ich einmal besuchte Seiten zwar in die Anzahl der totalen Links mit einbeziehe, diesen aber nicht wieder folge.

Zur Veranschaulichung denke man sich wieder die individuelle Seite und weiterhin nehmen wir der Einfachheit halber kurz an, dass es nur drei vielzitierte Seiten (mit jeweils 1000 Links) gibt. Diese individuelle Seite sieht nun auf LL0 eine dieser drei vielzitierte Seiten. Diese traegt dann auf LL1 1000 Links bei. Nun sieht diese individuelle Seite auf LL1 genau die selbe vielzitierte Seite nochmal. Dann zaehlt die zwar noch einmal zu den totalen Links auf LL1 aber da ich nicht nochmal auf diese Seite gehe, ist der Beitrag auf LL2 Null. Auf LL1 sieht die individuelle Seite nun aber die zweite und auf LL2 die dritte vielzitierte Seite. Jedes Mal beginnt das Spiel von vorn und auf LL3 ist besagtes Spiel dann vorbei.
Der Grund fuer Letzters ist natuerlich, dass selbst wenn ich alle drei vielzitierten Seiten sehe, so tragen diese NICHT mehr zur Anzahl der totalen Links auf LL4 bei, denn diesen drei vielzitierten Seiten folge ich ja nicht mehr.
Ich hacke auf diesem Aspekt so rum, weil das ein ganz wichtiges, wenn auch eher „technisches“ Detail ist. Das ist auch der Grund, warum ich die Anzahl neuer Links pro Linklevel „gemessen“ habe.

Wieauchimmer, im realen Netzwerk muss man natuerlich eher mit der Wahrscheinlichkeit, eine vielzitierte Seiten (von tausenden) pro Linklevel zu sehen, argumentieren.
Auf LL0 hat eine individuelle Seite eine Chance von ca. 20 % eine Seite mit mehr 3433 Zitierungen zu sehen. Dies obwohl die Anzahl der Links der meisten Seiten eher klein ist (15 Links war der Median). Auf LL1 ist die Chance eine vielzitierte Seite zu sehen grøszer als 20 %. Einfach weil ich auf LL1 die Links aller beim Aufstieg von LL0 zu LL1 geøffneten Seiten zusammenzaehle. Aber weil ja nun schon so einige von den meistzitierten Seiten angeschaut wurden (insb. die am allermeisten zitierten Seiten), tragen diese (wie oben bereits erwaehnt) nicht mehr zu den Links beim naechsten Level bei. Dieser Wegfall des Beitrags vielzitierter Seiten (weil ich die schonmal gesehen habe) ist der Grund, dass der Anstieg etwas geringer ausfaellt, trotzdem es auf LL1 eine høhere Wahrscheinlichkeit gibt eine vielzitierte Seite zu sehen.
Dito bis zum Linklevel 3.

Auf Linklevel 4 habe ich dann im Wesentlichen alle vielzitierten Seiten gesehen und die Anzahl der totalen Links zu LL5 ist gleich der durchschnittlichen Anzahl Links pro Seite. Danach nimmt die Anzahl der totalen Links pro Linklevel ab, einfach weil ich immer mehr Seiten schon gesehen habe.

Ich gebe zu, dass das mglw. ein bisschen langweilig ist oder zumindest ist das staendige Huepfen zwischen dem Bild der individuellen Seite und der Gesamtheit aller Seiten vllt. etwas schwer nachzuvollziehen. Aber das sagt eben so viel aus ueber die Vernetzung des Weltwissens. Deswegen ist es immer so wichtig auch fuer Details oder scheinbar offensichtliche Sachen eine Erklaerung zu haben, denn manchmal ist das gar nicht so offensichtlich. In kurz kann man das auch als „nach 3 Links komme ich von Trondheim zu Kevin Bacon“ ausdruecken. Man kann dann noch „und der Grund sind vielzitierte Seiten“ anfuegen. Aber der eigentliche (mglw. langweilige) Mechanismus ist das was oben steht. Zum Glueck finde ich sowas cool und voll interessant herauszufinden :) .

Damit habe ich das Maximum dieser Gesamtverteilung genug diskutiert. Aber ich bin mitnichten fertig mit der Verteilung der totalen Links.
Ein wichtiger Grund warum ich das so detailliert besprochen habe mit vielen Wiederholungen ist, dass uns die generelle Form dieser Verteilung auch bei anderen Messgrøszen begegnen wird. Dort sind dann im Wesentlichen die gleichen Mechanismen am Wirken und ich deswegen wollte ich das gleich zu Anfang geklaert haben.

Ich bin aber noch nicht ganz fertig mit den totalen Links pro Linklevel. Ich habe noch ein Interesse an ein paar individuellen Verteilungen dieser Grøsze, die als eine Art Anomalie gelten kønnen … naja, es faellt wohl eher unter „statistische Fluktuationen im Verhalten individueller Seiten“ aber interessant ist’s trotzdem und es sagt wieder was ueber die Vernetzung des Weltwissens aus :) .
Interessant ist auch der lange Schwanz der Verteilung und insbesondere, dass dieser so flach verlaeuft bei Linkleveln ueber ca. 50. Das ist ein weiteres kleines Detail, welches bei genauerer Betrachtung etwas merkwuerdig scheint. Auch dies muss ich an anderer Stelle diskutieren, u.a weil ich da dann die naechste Verteilung — Anzahl _neuer_ Links pro Linklevel — einfuehren muss.

In den letzten drei Artikeln habe ich etabliert, dass øfter zitierte Artikel ueberproportional haeufig zur Anzahl der totalen Links auf dem ersten Linklevel beitragen. Ich hatte aber noch nicht ganz konkret gezeigt, _wie_ grosz deren Einfluss ist. Dies hole ich mit dieser dreidimensionalen Visualisierung nach:

Das geht ja ab wie ’ne Rakete! Aber was sieht man hier eigentlich und wieso dreidimensional?

Mit dieser Abbildung møchte ich gerne zeigen, dass nur eine ganz kleine Anzahl an Wikipediaseiten besagten groszen Einfluss auf die Anzahl der totalen Links von LL1 zu LL2 haben. Dieser Einfluss der wenigen Seiten haengt aber mit der Anzahl der Zitierungen (dieser wenigen Seiten) zusammen. In den letzten Beitraegen habe ich immer nur Letzteres direkt betrachtet und als Masz fuer die Abzsisse genommen. Wie viele Seiten dies dann konkret beinhaltet war meist nicht wirklich relevant und ich habe das unter den Tisch fallen lassen. Beim letzten Mal schrieb ich dazu nur, dass alle Seiten die so-und-so-oft zitiert wurden, als ein „Ensemble“ zusammengefasst wurden. Nun møchte ich aber diese beiden Informationen verknuepfen und die Anzahl der Seiten ganz konkret als Masz fuer die Abzsisse benutzen. Und hier kommt die (zunaeckst etwas versteckte) dritte Dimension ins Spiel.

Die dritte Dimension ist die Nummer die ein Punkt erhaelt, wenn man von links, und bei Null, anfaengt zu zaehlen. Konkret bedeutet dies das Folgende.
Der erste Punkt ist das Ensemble aller null mal zitierten Seiten. Davon existieren 320,089 und das entspricht dem Wert auf der Abzsisse. Die Anzahl aller Links dieses Ensembles betraegt 872,568 und das ist der zugehørige Wert, den dieser Punkt auf der Ordinate hat. Das sieht man nur nicht, denn die geht bis 30 Milliarden.
Die Koordinaten des zweiten Punktes werden bestimmt durch die Summe aller Seiten die null Mal und aller Seiten die ein Mal zitiert werden. Von Letzteren habe ich 793,588 und der Wert auf der Abzsisse ist entsprechend 1,113,677. Ein Mal zitierte Seiten haben insgesamt 12,140,589 Links auf LL1. Dies wird wieder aufsummiert mit dem vorhergehenden Wert und entsprechend betraegt der Wert auf der Ordinate 13,013,157 fuer den zweiten Punkt.
So geht das weiter fuer jeden Punkt. Die Koordinaten werden berechnet aus der Summe der Koordinaten des vorhergehenden Punktes und den Werten fuer das entsprechende Ensemble. Aber das steht ja auch an den Achsen dran — kumulative Anzahl Seiten/Links.

Soweit zur Erklaerung, was man hier eigentlich sieht. Nun die Diskussion dessen was man hier sieht.

Zur Erinnerung: wir haben insgesamt 5,798,312 Seiten mit 27,434,866,722 Links auf LL1.
In dem Diagramm sieht man nun, dass die ersten ca. 5 Millionen Seiten (also mehr als 86 % aller Seiten) nur etwas mehr als ca. 922 Millionen Links auf LL1 beitragen (oder etwas weniger als 3.4 % aller Links).
Weiterhin sieht man, dass 50 % aller Links auf LL1 durch nur 3433 Seiten zustande kommen! … !!! … !!! !!! !!! Also nur 0.059 % aller Seiten sind fuer 50 % aller Links auf LL1 verantwortlich!

Letzteres sind Seiten mit mehr als 3143 Zitierungen, also durchaus „Groszvieh“.
Und wieviel „Mist“ von diesem „Groszvieh“ kommt, macht dieses Abbildung deutlich. Aber anders als oben behauptet sieht man das eigentlich gar nicht mehr, weil der Unterschied von 3433 Seiten auf der Abzsisse fuer die geringe Winkelaufløsung unserer Augen nur noch wie ein senkrechter Strich nach oben aussieht.

Dazu genug fuer heute. Beim naechsten Mal komme ich dann wieder zurueck auf die eigentliche Verteilung der totalen Links pro Linklevel.