„Tote Links“, also links die zu Seiten „fuehren“ die es gar nicht gibt, sind rot unterstrichen. Auf dieser Seite findet man einige Beispiel dafuer. Um die zu finden, oder vielmehr um nicht aus Versehen echte Links diesen zuzuordnen, musste ich (fast) alles von dem machen, was ich in vorherigen Artikeln dieser Reihe beschrieben habe.

Weil dies aber nun fertig war, wurde die Aufgabe relativ einfach, denn ich brauchte nur fuer die verbliebenen 181,064,753 Links schauen, ob es eine Wikipediaseite mit dem selben Titel gibt. Dadurch fielen fast 10 % dieser Links weg und zurueck blieben 165,913,569.

Eine zweite Art von „Leiche“ sind Artikel die keine Links (im Text) enthalten. Zunaechst kønnte man denken, dass es sich dabei nur um sehr kurze Artikel zu obskuren Themen wie Vehicle registration plates of Qatar handelt. Das gibt es aber auch bei laengeren Seiten mit durchaus relevantem Thema. Ein Beispiel waere Organizational change fatigue. Und ebenso gibt es Artikel die so lang sind, dass ich mich frage, wie die KEINE Links haben kønnen; bspw. Ahn Sanghak.

Wieauchimmer, wenn solche „leeren“ Seiten NICHT woanders verlinkt waren, habe ich die rausgeschmissen. Das waren nicht viele. Gerade mal 2802.
Viele von diesen gehen zum Wiktionary; als Beispiel soll Flitterjigs genuegen. Aber oft sind es auch richtige Seiten; beispielsweise Phalke oder Prestwich Camera. Sollte ich jemals einen eigenstaendigen Wikipediaartikel schreiben (anstatt nur mal hier und da ’n Fehler zu berichtigen), muss ich dafuer sorgen, dass der an anderer Stelle zitiert wird.

Das war’s dann nun endlich mit den Vorbetrachtungen zu den Rohdaten und dem „Aufraeumen“ in diesen. Und hier sind die endgueltigen Zahlen, bzgl. der Daten an denen ich in die Analyse vollzogen habe: 5,798,312 Wikipediaseiten auf denen insgesamt 165,913,569 Links erscheinen und die Grøsze der strukturierten Daten betraegt 4.1 GB.
Aber bevor ich mit der eigentlichen Analyse anfangen konnte, musste ich noch ein paar … mhmmm … ich sag mal technische Probleme løsen. Dazu mehr in den kommenden Beitraegen in dieser Serie.

Abschlieszend zu den Rohdaten sei an dieser Stelle erwaehnt, dass ich in all den bisher beschriebenen Aktionen definitiv echte Links faelschlicherweise geløscht habe. Dies kann mehrere Gruende haben. Einer ist natuerlich, dass ich nur einen Teil der von Nutzern eingefuehrten Fehler berichtigt habe. Wikipedias interne (Such)Funktionen habe damit dann aber keine Probleme. Ein anderer Grund waere bspw. wenn ein (aelterer?) Artikel einen Link zu einem anderen Artikel hat, dieser aber nun zu etwas anderem umgeleitet wird. Eigentlich habe ich solche Umleitungen in Betracht gezogen, aber manchmal scheint das nicht geklappt zu haben. Die Prestwich Camera die ich oben verlinke ist so ein Fall.
Wieauchimmer, ich setze ja sowieso bei Daten aus der echten (Menschen)Welt einen Fehler von 10 % an und ich denke nicht, dass solche Faelle diesen uebersteigen.

Leave a Reply