{"id":11742,"date":"2022-06-03T13:37:07","date_gmt":"2022-06-03T11:37:07","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11742"},"modified":"2022-02-13T16:01:36","modified_gmt":"2022-02-13T14:01:36","slug":"kevin-bacon-xxi-fehlerbetrachtung-i","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/06\/kevin-bacon-xxi-fehlerbetrachtung-i\/","title":{"rendered":"Kevin Bacon \u2013 XXI \u2013 Fehlerbetrachtung I"},"content":{"rendered":"<p>Dies hier ist die etwas modifizierte Tabelle <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11731\" target=\"_blank\" rel=\"noopener\">vom letzten Mal<\/a>:<\/p>\n\n<table id=\"tablepress-13\" class=\"tablepress tablepress-id-13\">\n<thead>\n<tr class=\"row-1 odd\">\n\t<th class=\"column-1\">Datenpunkt<\/th><th class=\"column-2\">Anzahl Links in <br \/>\nmeinen Daten<\/th><th class=\"column-3\">Tatsaechliche Anzahl<br \/>\nLinks<\/th><th class=\"column-4\">Seite<\/th>\n<\/tr>\n<\/thead>\n<tbody class=\"row-hover\">\n<tr class=\"row-2 even\">\n\t<td class=\"column-1\">A<\/td><td class=\"column-2\">2<\/td><td class=\"column-3\">3<\/td><td class=\"column-4\"><a href=\"https:\/\/en.wikipedia.org\/wiki\/Dieter_Nohlen\" rel=\"noopener\" target=\"_blank\">Dieter Nohlen<\/a><\/td>\n<\/tr>\n<tr class=\"row-3 odd\">\n\t<td class=\"column-1\">B<\/td><td class=\"column-2\">4<\/td><td class=\"column-3\">4<\/td><td class=\"column-4\"><a href=\"https:\/\/en.wikipedia.org\/wiki\/VG-lista\" rel=\"noopener\" target=\"_blank\">VG-lista<\/a><\/td>\n<\/tr>\n<tr class=\"row-4 even\">\n\t<td class=\"column-1\">C<\/td><td class=\"column-2\">4<\/td><td class=\"column-3\">4<\/td><td class=\"column-4\"><a href=\"https:\/\/en.wikipedia.org\/wiki\/List_of_Prokaryotic_names_with_Standing_in_Nomenclature\" rel=\"noopener\" target=\"_blank\">List of Prokaryotic names with Standing in Nomenclature<\/a><\/td>\n<\/tr>\n<tr class=\"row-5 odd\">\n\t<td class=\"column-1\">D<\/td><td class=\"column-2\">4<\/td><td class=\"column-3\">4<\/td><td class=\"column-4\"><a href=\"https:\/\/en.wikipedia.org\/wiki\/Dehestan_(administrative_division)\" rel=\"noopener\" target=\"_blank\">Dehestan (administrative division)<\/a><\/td>\n<\/tr>\n<tr class=\"row-6 even\">\n\t<td class=\"column-1\">E<\/td><td class=\"column-2\">6<\/td><td class=\"column-3\">6<\/td><td class=\"column-4\"><a href=\"https:\/\/en.wikipedia.org\/wiki\/Geographic_Names_Information_System\" rel=\"noopener\" target=\"_blank\">Geographic Names Information System<\/a><\/td>\n<\/tr>\n<tr class=\"row-7 odd\">\n\t<td class=\"column-1\">F<\/td><td class=\"column-2\">8<\/td><td class=\"column-3\">8<\/td><td class=\"column-4\"><a href=\"https:\/\/en.wikipedia.org\/wiki\/Bakhsh\" rel=\"noopener\" target=\"_blank\">Bakhsh<\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<!-- #tablepress-13 from cache -->\n<p>Man beachte, dass die Tabelle nun zwei Spalten mit (unterschiedlichen) Anzahl Links (des jeweiligen Datenpunkts hat). Beim letzten Mal schrieb ich, dass man die richtige Version einer Wikipediaseite nehmen muss um die Diskrepanz auszugleichen. Aber die Zahlen in dieser Tabelle beruecksichtigen dies bereits. Habe ich etwa geflunkert?<\/p>\n<p>Nun \u2026 ja und nein.<\/p>\n<p>Beim letzten Mal wollte ich die Sache einfach halten und habe nur eine (von zwei) Datenpunkten naeher beschrieben wo das die Erklaerung war. Ich tat dies, um darauf aufmerksam zu machen, dass die Betrachtung der richtigen Version sehr wichtig ist. Ich wollte das Ganze nicht unn\u00f8tig kompliziert machen, auch weil die weiterhin bestehenden Diskrepanzen eine ganz andere Ursache haben. Auszerdem erwartet ich nicht, dass ihr, meine lieben Leserinnen und Leser, den Links folgt und alles selber nachzaehlt.<\/p>\n<p>Diese andere Ursache geht nun sehr weit zurueck, fast ganz an den Anfang dieses Projekts, als ich die Rohdaten fertig machte fuer die Analyse. Es ist ein Zusammenspiel zwischen dem <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/07\/kevin-bacon-v-diese-verdammten-menschen\/\" target=\"_blank\" rel=\"noopener\">Versuch des Korrigierens menschlicher Fehler<\/a> und der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/06\/kevin-bacon-iii-irrelevante-information-c-keine-umleitungen\/\" target=\"_blank\" rel=\"noopener\">Berucksichtigung von Umleitungen<\/a>.<\/p>\n<p>Zur Erinnerung: Ersteres schaute ob die Links einer Seite auch wirklich zu existierenden Seiten fuehrten, wenn nicht so versuchte ich es bspw. mit veraenderter Grosz- und Kleinschreibung (und ein paar anderen Sachen). Wenn das immer noch nicht klappte wurde angenommen, dass der Link ins Leere fuehrt und entfernt<br \/>\nLetzteres ist der Umstand, dass ein Link einen gewissen &#8222;Namen&#8220; hat, dieser Name aber nicht direkt zur Seite fuehrt, sondern zu einer Umleitungsseite die dann zum gewuenschten Ziel mit einem etwas anders geschriebenen Titel geht.<\/p>\n<p>Der Prozess der zur Diskrepanz fuehrt sei am Beispiel &#8222;<a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Dieter_Nohlen&amp;oldid=922164617\" target=\"_blank\" rel=\"noopener\">Dieter Nohlen<\/a>&#8220; erklaert. Der Link geht zur richtigen Version und dort finde ich Links zu &#8222;<a title=\"Oberhausen\" href=\"https:\/\/en.wikipedia.org\/wiki\/Oberhausen\" target=\"_blank\" rel=\"noopener\">Oberhausen<\/a>&#8222;, &#8222;<a title=\"Germany\" href=\"https:\/\/en.wikipedia.org\/wiki\/Germany\" target=\"_blank\" rel=\"noopener\">Germany<\/a>&#8222;,\u00a0 &#8222;<a class=\"mw-redirect\" title=\"University of Heidelberg\" href=\"https:\/\/en.wikipedia.org\/wiki\/University_of_Heidelberg\" target=\"_blank\" rel=\"noopener\">Heidelberg University<\/a>&#8222;, &#8222;<a class=\"mw-redirect\" title=\"Electoral systems\" href=\"https:\/\/en.wikipedia.org\/wiki\/Electoral_systems\" target=\"_blank\" rel=\"noopener\">electoral systems<\/a>&#8222;, &#8222;<a class=\"mw-redirect\" title=\"Political scientist\" href=\"https:\/\/en.wikipedia.org\/wiki\/Political_scientist\" target=\"_blank\" rel=\"noopener\">political scientist<\/a>&#8220; und &#8222;<a class=\"mw-redirect\" title=\"Political development\" href=\"https:\/\/en.wikipedia.org\/wiki\/Political_development\" target=\"_blank\" rel=\"noopener\">political development<\/a>&#8222;.<br \/>\n&#8222;Germany&#8220; und &#8222;Heidelberg University&#8220; sind so geschrieben, wie sie im Quelltext auftauchen, sind im Seitentext aber als &#8222;German&#8220; und &#8222;University of Heidelberg&#8220; zu sehen. Zusammen mit &#8222;Oberhausen&#8220; k\u00f8nnen diese Links tatsaechlich existierenden Seiten zugeordnet werden. Warum dies bei den anderen drei nicht der Fall ist, ist etwas umstaendlicher zu erklaeren.<\/p>\n<p>Im Quelltext tauchen &#8222;<a class=\"mw-redirect\" title=\"Electoral systems\" href=\"https:\/\/en.wikipedia.org\/wiki\/Electoral_systems\" target=\"_blank\" rel=\"noopener\">electoral systems<\/a>&#8222;, &#8222;<a class=\"mw-redirect\" title=\"Political scientist\" href=\"https:\/\/en.wikipedia.org\/wiki\/Political_scientist\" target=\"_blank\" rel=\"noopener\">political scientist<\/a>&#8220; und &#8222;<a class=\"mw-redirect\" title=\"Political development\" href=\"https:\/\/en.wikipedia.org\/wiki\/Political_development\" target=\"_blank\" rel=\"noopener\">political development<\/a>&#8220; mit genau diesen &#8222;Namen&#8220; fuer die Links auf. Aber der erste Link geht zu &#8222;Electoral system&#8220;; Singular und grosz geschrieben, zwei eher subtile Unterschiede, fuer die ich genauer hinschauen musste, weil sie mir beim ersten Blick gar nicht aufgefallen sind.<br \/>\nAber was bedeutet dies? Nun ja, das bedeutet, dass es es eine Umleitungsseite vom Plural zum Singular gibt und mein Algorithmus bekommt das i.A. auch richtig zugeordnet. Das Problem ist nun aber, dass die Umleitungsseite auch grosz geschrieben wird. Bei Umleitungsseiten habe ich aber von Menschen gemachte Fehler (Grosz- und Kleinschreibung in diesem Fall) nicht beruecksichtigt \u2026 *seufz*. Deswegen findet mein Algorithmus keine Umleitungsseite zu &#8222;electoral systems&#8220;, deklariert diesen Link als &#8222;tot&#8220; und entfernt ihn aus der Liste der Links zu diesem Titel.<br \/>\nDie letzten beiden Links gehen beide zu &#8222;Political science&#8220;. Dorthin werden sie umgeleitet von &#8222;Political development&#8220; und &#8220; Political scientist&#8220;. Es ist also das gleiche Prinzip wie oben, eine Verkettung von Umleitung und menschengemachten Fehlern bei der Grosz- und Kleinschreibung \u2026 *doppelseufz*.<\/p>\n<p>Das ist der Prozess, wie die Diskrepanz zustande kommt und ich kann das fuer alle Seiten in der Tabelle gut nachvollziehen, wann waehrend der Bearbeitung der Rohdaten die besagte Diskrepanz auftaucht.<br \/>\nDas ist ein systematischer Fehler, der beim naechsten Mal vermieden werden kann.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Dies hier ist die etwas modifizierte Tabelle vom letzten Mal: Man beachte, dass die Tabelle nun zwei Spalten mit (unterschiedlichen) Anzahl Links (des jeweiligen Datenpunkts hat). Beim letzten Mal schrieb ich, dass man die richtige Version einer Wikipediaseite nehmen muss um die Diskrepanz auszugleichen. Aber die Zahlen in dieser Tabelle beruecksichtigen dies bereits. Habe ich [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11742"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=11742"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11742\/revisions"}],"predecessor-version":[{"id":11758,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11742\/revisions\/11758"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=11742"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=11742"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=11742"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}