{"id":10804,"date":"2021-07-23T13:37:48","date_gmt":"2021-07-23T11:37:48","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10804"},"modified":"2021-03-26T14:11:16","modified_gmt":"2021-03-26T12:11:16","slug":"schreiben-schreiben-schreiben-kevin-bacon-vi-disambiguierungsseiten","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/07\/schreiben-schreiben-schreiben-kevin-bacon-vi-disambiguierungsseiten\/","title":{"rendered":"Kevin Bacon &#8211; VI &#8211; Dis\u00adam\u00adbi\u00adgu\u00adie\u00adrungsseiten"},"content":{"rendered":"<p>Zu meiner Ueberraschung <a href=\"https:\/\/www.duden.de\/rechtschreibung\/Disambiguierung\" target=\"_blank\" rel=\"noopener\">gibt&#8217;s das Wort tatsaechlich<\/a> in der dtsch. Sprache und ich meine damit <a href=\"https:\/\/en.wikipedia.org\/wiki\/Donald_Fraser\" target=\"_blank\" rel=\"noopener\">solche Seiten<\/a> &#8212; eine andere Art der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10719\" target=\"_blank\" rel=\"noopener\">hier besprochenen<\/a> &#8222;Abkuerzungen&#8220;.<\/p>\n<p>Fuer die Analyse des Linknetzwerkes sind mir diese ein Dorn im Auge. Denn was haben <a href=\"https:\/\/en.wikipedia.org\/wiki\/Donald_Fraser_(geologist)\" target=\"_blank\" rel=\"noopener\">Donald Fraser (der Geologe)<\/a> und <a href=\"https:\/\/en.wikipedia.org\/wiki\/Don_Fraser_(figure_skater)\" target=\"_blank\" rel=\"noopener\">Don Fraser (der Eiskunstlaeufer)<\/a> gemeinsam? Vermutlich nix, aber auf solchen Seiten werden die (beinahe) direkt miteinander verbunden. Im gesamten Linknetzwerk &#8222;treffen&#8220; die beiden sicherlich frueher oder spaeter aufeinander, aber durch diese Seiten passiert das viel zu frueh. Das ist Schummeln und deswegen will ich die weg haben.<\/p>\n<p>Zum Glueck gibt es zwei interne Wikipediaseiten die (fast) alle Dis\u00adam\u00adbi\u00adgu\u00adie\u00adrungsseiten auflisten. <a href=\"https:\/\/en.wikipedia.org\/w\/index.php?title=Category:All_disambiguation_pages\" target=\"_blank\" rel=\"noopener\">Hier ist die eine<\/a> und <a href=\"https:\/\/en.wikipedia.org\/wiki\/Category:All_set_index_articles\" target=\"_blank\" rel=\"noopener\">dort ist andere<\/a>. Also baute ich mir erstmal einen <a href=\"https:\/\/en.wikipedia.org\/wiki\/Web_scraping\" target=\"_blank\" rel=\"noopener\">Datenmaehdrescher<\/a> der mir die relevante Information von den beiden Seiten beschaffte.<br \/>\nApropos, als Data Scientist ist es total normal fuer mich, spezielle, der Aufgabe angepasste, Werkzeuge zu schreiben um die Analyse ueberhaupt erst durchfuehren zu k\u00f8nnen. Das war ja <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2019\/09\/strom-i-einleitung-und-schnelles-abschalten\/\" target=\"_blank\" rel=\"noopener\">bei den Stromdaten<\/a> damals genauso. Was der Unterschied zu den Data Analysts ist, k\u00f8nnt ihr, meine lieben Leserinnen und Leser, euch sicher selber denken.<\/p>\n<p>Wieauchimmer, auf diese Art und Weise fand ich mehr als 400,000 Dis\u00adam\u00adbi\u00adgu\u00adie\u00adrungsseiten.<\/p>\n<p>Das Problem ist nun, dass die beiden Seiten NICHT alle Dis\u00adam\u00adbi\u00adgu\u00adie\u00adrungsseiten auffuehren. Denn dafuer muss bei der Erstellung einer solchen Seite eine bestimmte Markierung gesetzt werden und das machen Nutzer manchmal nicht.<\/p>\n<p>Ganz im Allgemeinen ist das uebrigens ein zweigeteiltes Elitenproblem! Zum Einen muss man wissen wie man die Wikipedia schreibt. Somit findet Wissen welches die sog. Elite nicht interessiert keinen Eingang. Ein Beispiel waere Folklore in den Favelas. Ich bin ueberzeugt, dass es die gibt, konnte dazu aber auf die Schnelle nix finden. Und was man nicht schnell findet gibt&#8217;s nicht &#8212; genauso wie die Ergebnisse auf Seite 2 der Suche nicht existieren.<br \/>\nZum Zweiten werden &#8222;kuenstliche&#8220; &#8222;Intelligenzen&#8220; mit diesen Daten trainiert! Und die Wikipedia ist vornehmlich <a href=\"https:\/\/en.wikipedia.org\/wiki\/Cisgender\" target=\"_blank\" rel=\"noopener\">Cisgender<\/a>, maennlich und <a href=\"https:\/\/de.wikipedia.org\/wiki\/Europide\" target=\"_blank\" rel=\"noopener\">europid<\/a>. Aber ich schwiffte ab.<\/p>\n<p>Ich habe dann ein paar Tage einen ursten Aufwand betrieben, um Heuristiken fuer Dis\u00adam\u00adbi\u00adgu\u00adie\u00adrungsseiten zu finden, die nicht in den beiden erwaehnten Listen zu finden sind. Ich fand so ca. 15,000 \u2026 und ich fand auch etliche Seiten die von diesen Heuristiken falsch erkannt wurden. Weil ca. 15,000 verglichen mit 400,000 zum Glueck nicht richtig viel ist, entschied ich mich deswegen die alle drin zu lassen und dem bereits mehrfach erwaehnten Fehler zuzufuehren \u2026 *seufz* \u2026 lieber lasse ich einen Schuldigen, dessen Schuld nicht eindeutig bewiesen ist gehen, als dass ich einen Unschuldigen aus Versehen einsperre \u2026 diese Meinung habe ich uebrigens auch bei anderen Themen.<\/p>\n<p>Unter den Seiten die ich drin lasse, fallen leider auch solche Seiten wie die <a href=\"https:\/\/en.wikipedia.org\/wiki\/Alphabetical_list_of_municipalities_of_Italy\" target=\"_blank\" rel=\"noopener\">Alphabetical list of municipalities of Italy<\/a> (7963 Links) oder die <a href=\"https:\/\/en.wikipedia.org\/wiki\/IUCN_Red_List_vulnerable_species_(Animalia)\" target=\"_blank\" rel=\"noopener\">IUCN Red List vulnerable species (Animalia)<\/a> (5244 Links) oder der <a href=\"https:\/\/en.wikipedia.org\/wiki\/Index_of_Singapore-related_articles\" target=\"_blank\" rel=\"noopener\">Index of Singapore-related articles<\/a> (welche mit 11,521 bei Weitem die meisten Links hat).<br \/>\nEbenso fand ich mehr als 286-tausend Artikel die als erstes eine Jahreszahl in sich haben und welche die Events in bestimmten Bereichen fuer jedes Jahr aufzaehlen. Als Beispiele seien <a href=\"https:\/\/en.wikipedia.org\/wiki\/1966_in_film\" target=\"_blank\" rel=\"noopener\">1966 in film<\/a> (1043 Links), <a href=\"https:\/\/en.wikipedia.org\/wiki\/1985_in_music\" target=\"_blank\" rel=\"noopener\">1985 in music<\/a> (1477 Links), <a href=\"https:\/\/en.wikipedia.org\/wiki\/2017%E2%80%9318_Isle_of_Man_Football_League\" target=\"_blank\" rel=\"noopener\">2017\u201318 Isle of Man Football League<\/a> (47 Links) genannt. Mit <a href=\"https:\/\/en.wikipedia.org\/wiki\/2027_in_rail_transport\" target=\"_blank\" rel=\"noopener\">2027 in rail transport<\/a> (33 Links) laeszt sogar die Zukunft schon von sich h\u00f8ren.<\/p>\n<p>Dann dachte ich (wieder einmal), dass ich alle Listen, Indices und Titel die mit Jahren anfangen rausfiltern k\u00f8nnte, und verbrachte einige Zeit damit Heuristiken dafuer zu finden. Leider fand ich auch hier wieder heraus, dass es da so viele Ausnahmen gibt, dass das unpraktisch war.<br \/>\nAndererseits, k\u00f8nnte bei all diesen Seiten durchaus argumentiert werden, dass die eine Berechtigung in der Analyse haben, weil sie thematisch sortiert sind. Anders als das Mr. Fraser Beispiel oben schaffen diese Seiten also keine &#8222;Abkuerzungen&#8220; zu thematisch nicht zusammenhaengenden Dingen. Dieser <em>ad hoc<\/em> Grund reichte mir, denn ich hatte genug davon davon mir Wikipediaseiten anzuschauen und rauszufinden warum die eine Ausnahme sind \u2026 *seufz*.<\/p>\n<p>Jut, nun hatte ich also alle Dis\u00adam\u00adbi\u00adgu\u00adie\u00adrungsseiten gefunden und konnte die (und Links dorthin) l\u00f8schen. An dieser Stelle habe ich mich dann auch nochmal um die <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10728\" target=\"_blank\" rel=\"noopener\">Umleitungen<\/a> gekuemmert. Die allermeisten hatte ich schon frueh mit den richtigen Links erstattet (bzw. gel\u00f8scht). Ein paar Sachen waren aber noch offen (bspw. hatte ich Umleitungen ganz am Anfang noch ohne <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10753\" target=\"_blank\" rel=\"noopener\">Ersetzung der Spezialbuchstaben<\/a> betrachtet). Auszerdem habe ich noch ein zweites Mal interne Seiten gel\u00f8scht (prinzipiell konnten welche auftauchen nach der Erstattung der Umleitungen) und mich auch nochmal um die <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10778\" target=\"_blank\" rel=\"noopener\">Korrektur von Nutzerfehler<\/a> gekuemmert.<br \/>\nDurch all das war aber nicht mehr viel zu holen. Die genauen Zahlen habe ich vergessen, aber mich duenkt die zuletzt beschriebene Aktion verkleinerte die Anzahl der Links um 12 \u2026 oder 16 oder so eine andere kleine Zahl. Aber &#8217;s ist natuerlich immer sch\u00f8n, wenn die Daten eine etwas bessere Qualitaet haben.<\/p>\n<p>Nach dieser Saeuberung der Daten blieben noch 5,801,114 Seiten zurueck (von ehemals 6,212,282) in denen insgesamt 181,064,753 Links erscheinen (von ehedem 188,777,960).<br \/>\nDie Gr\u00f8sze der strukturierten Daten konnte von 4.9 GB geringfuegig auf 4.5 GB verringert werden. Aber gerade hier zaehlt jedes bisschen :)<\/p>\n<p>Somit war ich beinahe am Ende der Vorbetrachtungen der Rohdaten angekommen. Es verblieben nur noch zwei Sachen. Links die keiner Wikipediaseite zugeordnet werden k\u00f8nnen und Seiten die keine Links haben und auch nicht zitiert werden. Beides kommt vor und keines davon muss ich mitschleppen. Erstere nicht, weil es da nix zu untersuchen gibt. Letztere nicht, weil deren Linknetzwerk genau null Verbindungen hat. Aber mehr dazu beim naechsten Mal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Zu meiner Ueberraschung gibt&#8217;s das Wort tatsaechlich in der dtsch. Sprache und ich meine damit solche Seiten &#8212; eine andere Art der hier besprochenen &#8222;Abkuerzungen&#8220;. Fuer die Analyse des Linknetzwerkes sind mir diese ein Dorn im Auge. Denn was haben Donald Fraser (der Geologe) und Don Fraser (der Eiskunstlaeufer) gemeinsam? Vermutlich nix, aber auf solchen [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10804"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=10804"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10804\/revisions"}],"predecessor-version":[{"id":10809,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10804\/revisions\/10809"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=10804"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=10804"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=10804"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}