Dies hier ist die etwas modifizierte Tabelle vom letzten Mal:

DatenpunktAnzahl Links in
meinen Daten
Tatsaechliche Anzahl
Links
Seite
A23Dieter Nohlen
B44VG-lista
C44List of Prokaryotic names with Standing in Nomenclature
D44Dehestan (administrative division)
E66Geographic Names Information System
F88Bakhsh

Man beachte, dass die Tabelle nun zwei Spalten mit (unterschiedlichen) Anzahl Links (des jeweiligen Datenpunkts hat). Beim letzten Mal schrieb ich, dass man die richtige Version einer Wikipediaseite nehmen muss um die Diskrepanz auszugleichen. Aber die Zahlen in dieser Tabelle beruecksichtigen dies bereits. Habe ich etwa geflunkert?

Nun … ja und nein.

Beim letzten Mal wollte ich die Sache einfach halten und habe nur eine (von zwei) Datenpunkten naeher beschrieben wo das die Erklaerung war. Ich tat dies, um darauf aufmerksam zu machen, dass die Betrachtung der richtigen Version sehr wichtig ist. Ich wollte das Ganze nicht unnøtig kompliziert machen, auch weil die weiterhin bestehenden Diskrepanzen eine ganz andere Ursache haben. Auszerdem erwartet ich nicht, dass ihr, meine lieben Leserinnen und Leser, den Links folgt und alles selber nachzaehlt.

Diese andere Ursache geht nun sehr weit zurueck, fast ganz an den Anfang dieses Projekts, als ich die Rohdaten fertig machte fuer die Analyse. Es ist ein Zusammenspiel zwischen dem Versuch des Korrigierens menschlicher Fehler und der Berucksichtigung von Umleitungen.

Zur Erinnerung: Ersteres schaute ob die Links einer Seite auch wirklich zu existierenden Seiten fuehrten, wenn nicht so versuchte ich es bspw. mit veraenderter Grosz- und Kleinschreibung (und ein paar anderen Sachen). Wenn das immer noch nicht klappte wurde angenommen, dass der Link ins Leere fuehrt und entfernt
Letzteres ist der Umstand, dass ein Link einen gewissen „Namen“ hat, dieser Name aber nicht direkt zur Seite fuehrt, sondern zu einer Umleitungsseite die dann zum gewuenschten Ziel mit einem etwas anders geschriebenen Titel geht.

Der Prozess der zur Diskrepanz fuehrt sei am Beispiel „Dieter Nohlen“ erklaert. Der Link geht zur richtigen Version und dort finde ich Links zu „Oberhausen„, „Germany„,  „Heidelberg University„, „electoral systems„, „political scientist“ und „political development„.
„Germany“ und „Heidelberg University“ sind so geschrieben, wie sie im Quelltext auftauchen, sind im Seitentext aber als „German“ und „University of Heidelberg“ zu sehen. Zusammen mit „Oberhausen“ kønnen diese Links tatsaechlich existierenden Seiten zugeordnet werden. Warum dies bei den anderen drei nicht der Fall ist, ist etwas umstaendlicher zu erklaeren.

Im Quelltext tauchen „electoral systems„, „political scientist“ und „political development“ mit genau diesen „Namen“ fuer die Links auf. Aber der erste Link geht zu „Electoral system“; Singular und grosz geschrieben, zwei eher subtile Unterschiede, fuer die ich genauer hinschauen musste, weil sie mir beim ersten Blick gar nicht aufgefallen sind.
Aber was bedeutet dies? Nun ja, das bedeutet, dass es es eine Umleitungsseite vom Plural zum Singular gibt und mein Algorithmus bekommt das i.A. auch richtig zugeordnet. Das Problem ist nun aber, dass die Umleitungsseite auch grosz geschrieben wird. Bei Umleitungsseiten habe ich aber von Menschen gemachte Fehler (Grosz- und Kleinschreibung in diesem Fall) nicht beruecksichtigt … *seufz*. Deswegen findet mein Algorithmus keine Umleitungsseite zu „electoral systems“, deklariert diesen Link als „tot“ und entfernt ihn aus der Liste der Links zu diesem Titel.
Die letzten beiden Links gehen beide zu „Political science“. Dorthin werden sie umgeleitet von „Political development“ und “ Political scientist“. Es ist also das gleiche Prinzip wie oben, eine Verkettung von Umleitung und menschengemachten Fehlern bei der Grosz- und Kleinschreibung … *doppelseufz*.

Das ist der Prozess, wie die Diskrepanz zustande kommt und ich kann das fuer alle Seiten in der Tabelle gut nachvollziehen, wann waehrend der Bearbeitung der Rohdaten die besagte Diskrepanz auftaucht.
Das ist ein systematischer Fehler, der beim naechsten Mal vermieden werden kann.

Leave a Reply