{"id":10810,"date":"2021-08-07T13:37:21","date_gmt":"2021-08-07T11:37:21","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10810"},"modified":"2021-03-26T17:41:30","modified_gmt":"2021-03-26T15:41:30","slug":"kevin-bacon-vii-dead-links-walking","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/08\/kevin-bacon-vii-dead-links-walking\/","title":{"rendered":"Kevin Bacon &#8211; VII &#8211; Dead Links Walking"},"content":{"rendered":"<p>&#8222;Tote Links&#8220;, also links die zu Seiten &#8222;fuehren&#8220; die es gar nicht gibt, sind rot unterstrichen. <a href=\"https:\/\/en.wikipedia.org\/wiki\/Scutigera\" target=\"_blank\" rel=\"noopener\">Auf dieser Seite<\/a> findet man einige Beispiel dafuer. Um die zu finden, oder vielmehr um nicht aus Versehen echte Links diesen zuzuordnen, musste ich (fast) alles von dem machen, was ich in vorherigen Artikeln dieser Reihe beschrieben habe.<\/p>\n<p>Weil dies aber nun fertig war, wurde die Aufgabe relativ einfach, denn ich brauchte nur fuer die verbliebenen 181,064,753 Links schauen, ob es eine Wikipediaseite mit dem selben Titel gibt. Dadurch fielen fast 10 % dieser Links weg und zurueck blieben 165,913,569.<\/p>\n<p>Eine zweite Art von &#8222;Leiche&#8220; sind Artikel die keine Links (im Text) enthalten. Zunaechst k\u00f8nnte man denken, dass es sich dabei nur um sehr kurze Artikel zu obskuren Themen wie <a href=\"https:\/\/en.wikipedia.org\/wiki\/Vehicle_registration_plates_of_Qatar\" target=\"_blank\" rel=\"noopener\">Vehicle registration plates of Qatar<\/a> handelt. Das gibt es aber auch bei laengeren Seiten mit durchaus relevantem Thema. Ein Beispiel waere <a href=\"https:\/\/en.wikipedia.org\/wiki\/Organizational_change_fatigue\" target=\"_blank\" rel=\"noopener\">Organizational change fatigue<\/a>. Und ebenso gibt es Artikel die so lang sind, dass ich mich frage, wie die KEINE Links haben k\u00f8nnen; bspw. <a href=\"https:\/\/en.wikipedia.org\/wiki\/Ahn_Sanghak\" target=\"_blank\" rel=\"noopener\">Ahn Sanghak<\/a>.<\/p>\n<p>Wieauchimmer, wenn solche &#8222;leeren&#8220; Seiten NICHT woanders verlinkt waren, habe ich die rausgeschmissen. Das waren nicht viele. Gerade mal 2802.<br \/>\nViele von diesen gehen zum Wiktionary; als Beispiel soll <a href=\"https:\/\/en.wikipedia.org\/wiki\/Flitterjigs\" target=\"_blank\" rel=\"noopener\">Flitterjigs<\/a> genuegen. Aber oft sind es auch richtige Seiten; beispielsweise <a href=\"https:\/\/en.wikipedia.org\/wiki\/Phalke\" target=\"_blank\" rel=\"noopener\">Phalke<\/a> oder <a href=\"https:\/\/en.wikipedia.org\/wiki\/Prestwich_Camera\" target=\"_blank\" rel=\"noopener\">Prestwich Camera<\/a>. Sollte ich jemals einen eigenstaendigen Wikipediaartikel schreiben (anstatt nur mal hier und da &#8217;n Fehler zu berichtigen), muss ich dafuer sorgen, dass der an anderer Stelle zitiert wird.<\/p>\n<p>Das war&#8217;s dann nun endlich mit den Vorbetrachtungen zu den Rohdaten und dem &#8222;Aufraeumen&#8220; in diesen. Und hier sind die endgueltigen Zahlen, bzgl. der Daten an denen ich in die Analyse vollzogen habe: 5,798,312 Wikipediaseiten auf denen insgesamt 165,913,569 Links erscheinen und die Gr\u00f8sze der strukturierten Daten betraegt 4.1 GB.<br \/>\nAber bevor ich mit der eigentlichen Analyse anfangen konnte, musste ich noch ein paar \u2026 mhmmm \u2026 ich sag mal technische Probleme l\u00f8sen. Dazu mehr in den kommenden Beitraegen in dieser Serie.<\/p>\n<p>Abschlieszend zu den Rohdaten sei an dieser Stelle erwaehnt, dass ich in all den bisher beschriebenen Aktionen definitiv echte Links faelschlicherweise gel\u00f8scht habe. Dies kann mehrere Gruende haben. Einer ist natuerlich, dass ich nur einen Teil der von Nutzern eingefuehrten Fehler berichtigt habe. Wikipedias interne (Such)Funktionen habe damit dann aber keine Probleme. Ein anderer Grund waere bspw. wenn ein (aelterer?) Artikel einen Link zu einem anderen Artikel hat, dieser aber nun zu etwas anderem umgeleitet wird. Eigentlich habe ich solche Umleitungen in Betracht gezogen, aber manchmal scheint das nicht geklappt zu haben. Die Prestwich Camera die ich oben verlinke ist so ein Fall.<br \/>\nWieauchimmer, ich setze ja sowieso bei Daten aus der echten (Menschen)Welt einen Fehler von 10 % an und ich denke nicht, dass solche Faelle diesen uebersteigen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>&#8222;Tote Links&#8220;, also links die zu Seiten &#8222;fuehren&#8220; die es gar nicht gibt, sind rot unterstrichen. Auf dieser Seite findet man einige Beispiel dafuer. Um die zu finden, oder vielmehr um nicht aus Versehen echte Links diesen zuzuordnen, musste ich (fast) alles von dem machen, was ich in vorherigen Artikeln dieser Reihe beschrieben habe. Weil [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10810"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=10810"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10810\/revisions"}],"predecessor-version":[{"id":10980,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10810\/revisions\/10980"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=10810"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=10810"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=10810"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}