{"id":10719,"date":"2021-06-07T13:37:09","date_gmt":"2021-06-07T11:37:09","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10719"},"modified":"2021-02-08T16:21:50","modified_gmt":"2021-02-08T14:21:50","slug":"kevin-bacon-iii-irrelevante-information-b-keine-abkuerzungen","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/06\/kevin-bacon-iii-irrelevante-information-b-keine-abkuerzungen\/","title":{"rendered":"Kevin Bacon &#8211; III &#8211; irrelevante Information (b) &#8211; keine Abkuerzungen"},"content":{"rendered":"<p>Beim <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10711\" target=\"_blank\" rel=\"noopener\">letzten Mal<\/a> bin ich einen groszen Teil der fuer die Bearbeitung der Problemstellung irrelevanten Information losgeworden. Anstatt die kompletten Texte der Wikipedia in die Betrachtungen einzubeziehen habe ich nur alle Titel und die dazugeh\u00f8rigen Links aus den Daten herausgezogen. Es stellte sich dann heraus, dass das immer noch eine zu grosze Datenmenge war um die zu bearbeiten. Auszerdem stimmte die Anzahl der Wikipediatitel mit fast 21 Millionen nicht ueberein mit den offiziellen ca. 6 Millionen.<\/p>\n<p>Letzteres machte mich stutzig und ich schaute mir die verbliebenen Daten mal genauer an. Als allererstes vielen mir zwei Dinge auf. Vor dem eigentlichen Titel gibt es im Code jeder Wikipedia noch mehr &#8222;Steuerelemente&#8220;. Dort k\u00f8nnen prinzipiell auch Links auftauchen. Ebenso muss nach dem Titel nicht direkt der Text der eigentlichen Seite anfangen. Und in diesem Teil k\u00f8nnen prinzipiell auch Links auftauchen.<br \/>\nDieses Problem war einfach zu l\u00f8sen denn das eigentliche Textfeld beginnt immer mit diesem Steuerelement:<\/p>\n<p><code>&lt;text bytes=<\/code><\/p>\n<p>Da konnte ich also einfach sagen, dass Links erst dann aufgenommen werden sollen, wenn diese Markierung passiert ist.<\/p>\n<p>Die zweite Sache die mir auffiel war \u2026 mhm \u2026 schwerwiegender und weniger einfach zu l\u00f8sen. Als Beispiel soll der Artikel ueber die <a href=\"https:\/\/en.wikipedia.org\/wiki\/Sprevane\" target=\"_blank\" rel=\"noopener\">Sprevane<\/a> dienen. Ganz am Ende, nach dem eigentlichen Artikel findet sich diese weiterfuehrende Infobox:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Sprevane_Infobox.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-10720 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Sprevane_Infobox-800x371.png\" alt=\"\" width=\"800\" height=\"371\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Sprevane_Infobox-800x371.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Sprevane_Infobox-1024x475.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Sprevane_Infobox-768x356.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Sprevane_Infobox.png 1097w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Solche Infoboxen gibt es auf vielen Seiten und zu vielen Themen. Das ist zwar gut und soll da auch stehen, aber fuer die Problemstellung ist das eher irrefuehrend. Ich wollte wissen, wie man aus den eigentlichen Texten von einer Wikipediaseiten zu jeder anderen kommt. Solche Infoboxen fuehlen sich da an wie &#8222;schummeln&#8220;, weil man damit ja gleich ganz total woanders &#8222;hinspringen&#8220; kann.<br \/>\nLange Rede kurzer Sinn, die wollte ich also nicht dabei haben. Dummerweise haben die keine Markierung im Quellcode.<\/p>\n<p>Zur Hilfe kam mir eine andere Sache, die ich auch nicht dabei haben wollte (und zwar von Anfang an nicht). Im obigen Beispiel ist es der mit &#8222;See also&#8220; bezeichnete Abschnitt. Das ist thematisch zwar auch immer passend, aber ebenso eine &#8222;unerlaubte Abkuerzung&#8220;.<br \/>\nNun haben aber nicht alle Artikel solche einen Abschnitt. Anstatt dessen gibt es andere, aehnliche Paragraphen, die in die selbe Kategorie fallen. Diese sind &#8222;References&#8220;, &#8222;Further reading&#8220;, &#8222;&#8218;External links&#8220; und &#8222;Sources&#8220;. In den allerallermeisten Faellen ist eins davon immer dabei. Und diese Abschnitte stehen (zumindest bei den vielen hunderten Stichproben die ich gemacht habe im Laufe des Projekts) auch immer ganz am Ende (vor m\u00f8glichen Infoboxen). Wenn doch ein paar ein paar ganz wenige &#8222;durchgehen&#8220;, entweder weil so ein Abschnitt doch nicht auftaucht, oder weil der nicht ganz am Ende steht, dann ist das auch nicht soo schlimm. Ist halt so bei Daten aus der echten Welt \u2026 das geht dann in den immer angenommenen 10-Prozent-Fehler. Ist ja schlieszlich keine Bruecke die ich hier baue.<br \/>\nUnd welche Blueten das treiben kann, kann man <a href=\"https:\/\/en.wikipedia.org\/wiki\/Anarchism#See_also\" target=\"_blank\" rel=\"noopener\">an diesem Beispiel<\/a>, welches alle fuenf &#8222;Endabschnitte&#8220; und gar sekundaere und tertiaere Quellenangaben hat o.O .<\/p>\n<p>Somit hatte ich also meine Markierung; ich h\u00f8rte einfach auf Links mit dazuzunehmen, wenn einer von den obigen fuenf Abschnitten erreicht war.<\/p>\n<p>Die Anzahl der Titel blieb mit 20,820,530 natuerlich die Selbe, aber die Anzahl aller in Betracht gezogenen Links reduzierte sich um ueber 15 % von urspruenglich 327,784,045 auf 277,321,420.<\/p>\n<p>Ich mache dies alles so im Detail, weil ich genau wissen m\u00f8chte, was meine Daten die ich letztlich analysieren werde eigentlich beinhalten. Denn das wird die Resultate beeinflussen!<\/p>\n<p>Ach ja, die Gr\u00f8sze der Daten in Textform reduziert sich durch diesen Schritt nochmals betraechtlich von 7.5 GB auf nur 6.0 GB. Die (relevante) Gr\u00f8sze der strukturierten Daten geht runter auf 8.9 GB (von ehemals 10.8 GB). Toll wa! Bald bin ich in Bereichen, wo ich alles gleichzeitig im Arbeitsspeicher halten kann :) .<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim letzten Mal bin ich einen groszen Teil der fuer die Bearbeitung der Problemstellung irrelevanten Information losgeworden. Anstatt die kompletten Texte der Wikipedia in die Betrachtungen einzubeziehen habe ich nur alle Titel und die dazugeh\u00f8rigen Links aus den Daten herausgezogen. Es stellte sich dann heraus, dass das immer noch eine zu grosze Datenmenge war um [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10719"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=10719"}],"version-history":[{"count":8,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10719\/revisions"}],"predecessor-version":[{"id":10742,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10719\/revisions\/10742"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=10719"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=10719"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=10719"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}