{"id":11032,"date":"2021-09-13T13:37:28","date_gmt":"2021-09-13T11:37:28","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11032"},"modified":"2021-04-11T15:36:16","modified_gmt":"2021-04-11T13:36:16","slug":"kevin-bacon-viii-titelspielereien-e-eitelkeit-2","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/09\/kevin-bacon-viii-titelspielereien-e-eitelkeit-2\/","title":{"rendered":"Kevin Bacon &#8211; VIII &#8211; Titelspielereien (e) &#8211; Eitelkeit 2"},"content":{"rendered":"<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10872\" target=\"_blank\" rel=\"noopener\">Beim letzten Mal<\/a> fuehrten Daten zur Verwunderung. Verwunderung fuehrte zu einem Beduerfnis die Daten zu erklaeren. Dieses Beduerfnis fuehrte zu Ueberlegungen wie die Daten erklaert werden k\u00f8nnten und weiteren Ueberlegungen unter welchen Annahmen ich erste Ueberlegungen ueberhaupt treffe \u2026 zumindest soweit ich es verstanden habe ist das Wissenschaft im Sinne <a href=\"https:\/\/en.wikipedia.org\/wiki\/Thomas_Kuhn\" target=\"_blank\" rel=\"noopener\">Thomas Kuhns<\/a> \u2026 Und dann habe ich das getestet und die falsche Hypothese (die typische Wortlaenge der englischen Sprache als Ursache der Beobachtungen) verworfen \u2026 Wissenschaft im Sinne <a href=\"https:\/\/en.wikipedia.org\/wiki\/Karl_Popper\" target=\"_blank\" rel=\"noopener\">Karl Poppers<\/a> \u2026 \u00e6hm \u2026 ich sage es lieber nochmal: soweit ich das verstanden habe \u2026 einraeumend, dass ich das mglw. ueberhaupt nicht verstanden habe, weil ich die Theorien des Paradigmenwechsels und des systematischen Fortschritts als sich ergaenzend ansehe und nicht als &#8222;Widersacher&#8220; \u2026 aber ich schweife ab, denn eigentlich wollte ich sagen: Science to the Rescue!<\/p>\n<p>Die Breite der Gausskurven im Diagramm des vorigen Beitrags stimmen allerdings nicht ueberein (sind aber auch nicht himmelweit voneinander verschieden). Das liegt mglw. daran dass bei den realen Wikipediaseiten in diesem Laengenbereich ein signifikanter Ueberlapp mit anderen Themen herrscht.<\/p>\n<p>Mich verwunderte nun das Folgende. Ich habe 2 Millionen Namen generiert. Dies geschah mehr oder weniger zufsaellig, ich wollte einfach nur eine aussagekraeftige Statistik haben. Wie man im Graphen sieht, ist die Amplitude der simulierten Daten (fast) genau so hoch wie die Amplitude der realen Daten (die roten Balken) \u2026 Was ist das denn fuer ein komischer Zufall? Bzw. wie viele Personenseiten gibt es denn ueberhaupt in der Wikipedia?<br \/>\nAlso musste ich wieder rein in den Wikipediahasenbau um eine Antwort auf diese Frage zu finden \u2026 \u2026 \u2026 Ich fand <a href=\"https:\/\/en.wikipedia.org\/wiki\/User:Smallbones\/1000_random_results\" target=\"_blank\" rel=\"noopener\">einen Artikel<\/a>, wo mal jemand 1001 zufaellige Artikel kategorisierte und diese informative Darstellung der Ergebnisse erstellte bzgl. der Anzahl der Artikel zu verschiedenen Themen in der Wikipedia \u2026<\/p>\n<div id=\"attachment_10877\" style=\"width: 680px\" class=\"wp-caption aligncenter\"><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Enlish_Wikipedia_Categories.png\" target=\"_blank\" rel=\"noopener\"><img aria-describedby=\"caption-attachment-10877\" decoding=\"async\" loading=\"lazy\" class=\"wp-image-10877 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/Enlish_Wikipedia_Categories.png\" alt=\"\" width=\"670\" height=\"294\" \/><\/a><p id=\"caption-attachment-10877\" class=\"wp-caption-text\"><a href=\"https:\/\/commons.wikimedia.org\/wiki\/File:Size_of_English_Wikipedia_(1000_vol)_noSub.svg\" target=\"_blank\" rel=\"noopener\">Quelle<\/a>, Autor: <a title=\"User:Mliu92\" href=\"https:\/\/commons.wikimedia.org\/wiki\/User:Mliu92\" target=\"_blank\" rel=\"noopener\">Mliu92<\/a>, Lizenz: <a href=\"https:\/\/creativecommons.org\/licenses\/by-sa\/4.0\/deed.en\" target=\"_blank\" rel=\"noopener\">CC BY-SA 4.0<\/a>, meinen Beduerfnissen angepasst<\/p><\/div>\n<p>Fast 28 % aller Wikipediaseiten betreffen ganz direkt Leute \u2026 wie so oft, ist die Menschheit auch auf der Wikipedia mit einer Nabelschau beschaeftigt und redet am meisten ueber sich selbst.<br \/>\nEs wird vermutet, dass die Faehigkeit zur Selbstreferenz ein wichtiger Bestandteil von Bewusstsein (und Intelligenz) ist \u2026 aber so ist das bestimmt nicht\u00a0 gemeint \u2026 *seufz*.<\/p>\n<p>Diese 28 % entsprechen beinahe 1.7 Millionen Seiten \u2026 was nahe dran ist an den oben erwaehnten 2 Millionen Fantasienamen und meiner Verwunderung somit eine Erklaerung entgegenstellt.<\/p>\n<p>Wie bereits frueher erwaehnt, gibt es auf Wikipedia total viel interne Seiten. Da ich nun schonmal dabei war, versuchte ich eine Seite zu finden, die alle Personenseiten auflistet. Nach laengerer Suche fand ich eine solche \u2026 <a href=\"https:\/\/en.wikipedia.org\/wiki\/Category:Living_people\" target=\"_blank\" rel=\"noopener\">aber nur fuer lebende Menschen<\/a>. Das sind aber nicht ganz eine Million. Und somit fragte ich mich: wo sind denn die ganzen Toten hin? \u2026 Nun ja, diese sind verstreut auf <a href=\"https:\/\/en.wikipedia.org\/wiki\/Category:Dead_people\" target=\"_blank\" rel=\"noopener\">vielen anderen internen Seiten<\/a>. Leider sind das Seiten wie <a href=\"https:\/\/en.wikipedia.org\/wiki\/Category:Date_of_death_unknown\" target=\"_blank\" rel=\"noopener\">diese hier<\/a> oder <a href=\"https:\/\/en.wikipedia.org\/wiki\/Category:Place_of_birth_missing\" target=\"_blank\" rel=\"noopener\">jene dort<\/a>, wo den dort eingetragenen Elementen die eine oder andere Information fehlt. Als letztes versuchte ich es dann mit den Tagen des Jahres (<a href=\"https:\/\/en.wikipedia.org\/wiki\/January_1\" target=\"_blank\" rel=\"noopener\">ein Beispiel<\/a>) wo dann auch immer die an dem Tag Verstrobenen aufgefuehrt sind.<\/p>\n<p>Zum Glueck hatte ich mir ja <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10804\" target=\"_blank\" rel=\"noopener\">neulich<\/a> schon einen Datenmaehdrescher gebaut und musste den fuer die neue Aufgabe nur ein bisschen modifizieren. Trotz all der Anstrengungen fand ich aber nur ein bisschen mehr als 100-tausend Seiten von Toten Leuten (eben nur die, die auch auf den entsprechenden Seiten gelistet sind).<br \/>\nIn der oben erwaehnten Untersuchung von 1001 zufaelligen Wikipediaseiten betrug das Verhaeltnis der Seiten zu lebenden bzw. toten Personen 5 zu 3. Ich muesste also ca. 600-tausend Seiten zu toten Menschen haben. Diese Diskrepanz habe ich nicht geschafft auszuraeumen. Auch nach laengerer Suche fand ich einfach keine Uebersichtsseite wie fuer die lebenden Leute.<\/p>\n<p>Naja \u2026 aber weil ich nun schonmal Daten dazu geerntet habe konnte ich mir mal angucken wie die Verteilung der Laenge dieser ganz konkreten Personennamentitel in echt aussieht. Und hier ist das Ergebnis (weisze Ovale sind die neuen Daten):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/06_real_names___.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-10888 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/06_real_names___.png\" alt=\"\" width=\"590\" height=\"458\" \/><\/a><\/p>\n<p>Aha \u2026 das Maximum stimmt mit allen anderen Maxima ueberein. Das bestaetigt meine Vermutung, dass Personennamen beim Hauptprozess eine wichtige Rolle spielen.<\/p>\n<p>Die Amplitude dieser neuen Daten ist aber signifikant kleiner als selbst die Amplitude der gruenen Gausskurve. Das liegt zum Teil daran, dass die ca. 1\/2 Million Seiten von toten Personen fehlen. Ein anderer Grund ist, dass die Verteilung der echten Namen zwei flache &#8222;Buckel&#8220; bei gr\u00f8szeren Laengen hat. Nur der Erste, bei einem Wert von ca. 23 Buchstaben im Namen, ist zu sehen, denn der Andere liegt so weit rechts, dass ich den abgeschnitten habe. Das macht nix, weil der ohnehin sehr klein und nicht wirklich signifikant ist. Das heiszt aber, dass die Titel von Wikipediapersonenseiten sich ein bisschen mehr auf laengere Namen verteilt als die von mir generierten Fantasienamen.<br \/>\nDies k\u00f8nnte durch Doppelnamen erklaert werden (auch wenn diese nur durch den ersten Buchstaben und einen Punkt abgekuerzt sind). Das betrifft mehr als 190-tausend Namen.<br \/>\nDesweiteren beinhalten die Titel von Wikipediapersonenseiten oft eine weitere Bemerkung. Als Beispiel m\u00f8ge wieder &#8222;<a href=\"https:\/\/en.wikipedia.org\/wiki\/Donald_Fraser_(geologist)\" target=\"_blank\" rel=\"noopener\">Donald Fraser (geologist)<\/a>&#8220; dienen. Das sind zwei zusaetzliche Klammern, ein extra Leerzeichen und (in diesem Fall) neun Buchstaben der Berufsbezeichnung. Letzteres fuehlt sich &#8222;typisch&#8220; an. 13 (das Maximum der Fantasienamen) + 10\/11\/12 und zack ist man mittendrin im Buckel. Ich fand mehr als 125-tausend Titel von Wikiepediapersonenseiten auf die das zutrifft.<br \/>\nVom Gefuehl her wuerde ich sagen, dass diese beiden Zahlen durchaus grosz genug sind, um die &#8222;Verbreiterung&#8220; zu laengeren Namen hin zu erzeugen.<\/p>\n<p>Ebenso wird durch die Verbreiterung die Amplitude kleiner. Wenn man die 600-tausend Titel die mir fehlen in Betracht zieht und die ca. 190-tausend + 125-tausend Namen die im &#8222;&#8220;Schwanz&#8220; der Verteilung sitzen, dann sollte man recht nahe an die Amplitude der gruenen Gausskurve herankommen.<\/p>\n<p>Den laengsten Titel einer Wikipediapersonenseite hat mit 84 Buchstaben uebrigens <a href=\"https:\/\/en.wikipedia.org\/wiki\/Agapius,_Atticus,_Carterius,_Styriacus,_Tobias,_Eudoxius,_Nictopolion_and_companions\" target=\"_blank\" rel=\"noopener\">diese Seite hier<\/a> \u2026 SCHUMMLER!<\/p>\n<p>Genug davon! Ich denke ich habe eine hinreichende Erklaerung fuer das Maximum der Verteilung der Laenge der Wikipediatitel gefunden. Das freut mich sehr. Die anderen zwei Prozesse die &#8222;das Signal erzeugen&#8220; bleiben mysteri\u00f8s. Schade eigentlich, aber ich habe echt keine Idee, was das sein k\u00f8nnte und da ich eigentlich am Linknetzwerk arbeiten wollte habe ich auch keinen Nerv noch mehr dazu zu machen.<\/p>\n<p>Ach uebrigens bestaetigt der Stichprobe der 1001 Wikipediaseiten das was ich eingangs zu im <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10872\" target=\"_blank\" rel=\"noopener\">vorigen Artikel<\/a> Annahme II sage \u2026 *seufz*.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim letzten Mal fuehrten Daten zur Verwunderung. Verwunderung fuehrte zu einem Beduerfnis die Daten zu erklaeren. Dieses Beduerfnis fuehrte zu Ueberlegungen wie die Daten erklaert werden k\u00f8nnten und weiteren Ueberlegungen unter welchen Annahmen ich erste Ueberlegungen ueberhaupt treffe \u2026 zumindest soweit ich es verstanden habe ist das Wissenschaft im Sinne Thomas Kuhns \u2026 Und dann [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11032"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=11032"}],"version-history":[{"count":1,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11032\/revisions"}],"predecessor-version":[{"id":11035,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11032\/revisions\/11035"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=11032"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=11032"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=11032"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}