{"id":12170,"date":"2022-11-07T13:37:47","date_gmt":"2022-11-07T11:37:47","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12170"},"modified":"2022-09-14T12:07:04","modified_gmt":"2022-09-14T10:07:04","slug":"kevin-bacon-xxx-bei-selbstreferenzen-nichts-neues","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/11\/kevin-bacon-xxx-bei-selbstreferenzen-nichts-neues\/","title":{"rendered":"Kevin Bacon \u2013 XXX \u2013 Doch was Unerwartetes bei den Selbstreferenzen"},"content":{"rendered":"<p>Wie schon bei den <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/06\/kevin-bacon-xxii-spaetzuender\/\" target=\"_blank\" rel=\"noopener\">totalen<\/a> und den <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12056\" target=\"_blank\" rel=\"noopener\">neuen Links<\/a>, schaute ich mir auch bei den Selbstreferenzen an, wo jeweils das Maximum der indivduellen Verteilung lag. Und hier erlebte ich diese Ueberraschung:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/78_position_of_maximum_self_references.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12176 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/78_position_of_maximum_self_references.png\" alt=\"\" width=\"580\" height=\"461\" \/><\/a><\/p>\n<p>Ich meine natuerlich, dass sich das so unerwartet lang hin zieht. Diese Ueberraschung stellt sich dann aber gar nicht mehr als so interessant dar, wenn man das in Bezug setzt zur Anzahl der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12101\" target=\"_blank\" rel=\"noopener\">totalen Links<\/a>. Man nehme bspw. LL<sub>10<\/sub>; dort gibt es noch insgesamt 222 Selbstzitate \u2026 bei immer noch ueber 200 Milliarden (!) Links total \u2026 ja gut, rein statistisch sollte das schonmal passieren. Nichtsdestotrotz komme ich nochmal kurz auf drei Seiten die zu den Messwerten ganz am Ende fuehren zurueck \u2026 weil&#8217;s kurios ist.<\/p>\n<p>Wenn man die Anzahl aller Links auf einem Linklevel in Betracht zieht, dann &#8222;tuemmeln&#8220; sich die Selbstreferenzen um Bereich des Erwarteten &#8212; sehr zum Anfang dieses Diagramms.<br \/>\nIch bin also ein &#8222;Opfer&#8220; des Gegenteils des <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/05\/kevin-bacon-xviii-groszvieh-macht-definitiv-mehr-mist-als-kleinvieh-zum-zweiten\/\" target=\"_blank\" rel=\"noopener\">hier als &#8222;logarithmische Komprimierung&#8220; beschriebenen<\/a> Effektes geworden: der logarithmischen Streckung und des Schaffens von (unn\u00f8tiger (?)) Aufmerksamkeit zu hohen Linkleveln und den dortigen kleinen Werten.<\/p>\n<p>Wieauchimmer, die eigentliche Ueberraschung liegt vielmehr ganz am Anfang &#8212; buchstaeblich im ersten Balken: der ist naemlich urst hoch! <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12101\" target=\"_blank\" rel=\"noopener\">Sagte ich nicht<\/a>, dass es nur ca. 80k Selbstreferenzen (und alle sind Artefakte) auf LL<sub>0<\/sub> gibt? Der Balken hat aber eine Amplitude von fast 500-tausend.<br \/>\nUm dies aufzuklaeren muss ich nochmals etwas weiter ausholen, was eigentlich hinter dem obigen Diagramm steckt.<\/p>\n<p>Als ich das bei den totalen Links zum ersten Mal einfuehrte, erklaerte ich, wie dies zustande kam. Ich schaute mir fuer jede Seite an, auf welchem Linklevel diese die meisten totalen Links hatte. War besagtes Maximum bspw. auf LL<sub>5<\/sub>, so ging der Zaehler des Balkens bei LL<sub>5<\/sub> um eins hoch. Wenn man sich die beispielhaft gezeigten individuellen Verteilungen <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/06\/kevin-bacon-xxii-spaetzuender\/\" target=\"_blank\" rel=\"noopener\">nochmals<\/a> anschaut, so sind das richtig sch\u00f8ne Kurven mit einem klaren Anfang, Maximum, Mittelteil und Ende.<br \/>\nBei den neunen Links wird im Wesentlichen die gleiche Situation herrschen (von der Gr\u00f8sze der Zahlen auf der Ordinate natuerlich abgesehen). Es gibt keinen Grund anzunehmen, dass dies dort anders sein sollte; dafuer sind diese beiden &#8222;Messgr\u00f8szen&#8220; zu aehnlich.<\/p>\n<p>Bei den Selbstreferenzen laufe ich aber in das Problem, dass ich davon nur so wenige habe. Erstmal k\u00f8nnte das kein Problem, sein, denn auch bei kleinen Zahlen kann man (mehr oder weniger) &#8222;sch\u00f8ne Kurven&#8220; haben. So wie im linken Diagramm in diesem Bild (Achtung: es gibt keine Werte zwischen den Punkten; die Linien sind nur da, damit man dem Verlauf eines Datensatzes besser folgen kann):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/79_examples_self_references_per_LL.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12180 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/79_examples_self_references_per_LL-800x316.png\" alt=\"\" width=\"800\" height=\"316\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/79_examples_self_references_per_LL-800x316.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/79_examples_self_references_per_LL-1024x404.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/79_examples_self_references_per_LL-768x303.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/79_examples_self_references_per_LL.png 1138w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Bei der <a href=\"https:\/\/en.wikipedia.org\/wiki\/1916_Democratic_National_Convention\" target=\"_blank\" rel=\"noopener\">1916 Democratic National Convention<\/a> (schwarze Kurve im linken Diagramm) geht die Anzahl der Selbstreferenzen hoch, hat ein klar definiertes Maximum ungefaehr da wo auch das Maximum der totalen Links ist und geht dann schnell runter auf Null. Das ist also so wie oben beschrieben.<br \/>\nDas <a href=\"https:\/\/en.wikipedia.org\/wiki\/10th_Iowa_Infantry_Regiment\" target=\"_blank\" rel=\"noopener\">10th Iowa Infantry Regiment<\/a> (rote Kurve im linken Diagramm) duempelt recht lange bei kleinen Werten vor sich hin aber dann gibt es auch hier ein klares Maximum. Die Kurve folgt im Groben dem beschriebenen Schema.<br \/>\nIm Wesentlichen dito fuer die <a href=\"https:\/\/en.wikipedia.org\/wiki\/10th_Irish_Film_%26_Television_Awards\" target=\"_blank\" rel=\"noopener\">10th Irish Film &amp; Television Awards<\/a> (blaue Kurve im linken Diagramm). Es gibt ein sehr breites (zweigeteiltes) Maximum gleich zum Anfang, aber die generellen Strukturen einer &#8222;sch\u00f8nen Kurve&#8220; sind durchaus erkennbar.<\/p>\n<p>Wichtig hieran sind zwei Sachen. Zum einen, dass &#8222;die Statistik&#8220; (was immer das auch sein mag), also die Flaeche unter der Kurve, noch grosz genug ist um (relativ) gute Aussagen treffen zu k\u00f8nnen. Zum Anderen verteilt sich besagte Statistik ueber einen (mehr oder weniger) ausgedehnten Bereich. Letzteres ist n\u00f8tig um ueberhaupt von einer &#8222;Kurve&#8220; (welche analysierbar ist) sprechen zu k\u00f8nnen.<\/p>\n<p>Was aber mindestens genauso haeufig vorliegt, sieht man im rechten Diagramm (ACHTUNG: selbe Farben, unterschiedliche Seiten!). Ich habe die Linien weg gelassen, damit man das Ausmasz der Misere besser wahr nimmt.<br \/>\nFuer das <a href=\"https:\/\/en.wikipedia.org\/wiki\/1916_Furman_Baptists_football_team\" target=\"_blank\" rel=\"noopener\">1916 Furman Purple Hurricane football team<\/a> versammeln sich (fast) alle Selbstreferenzen auf LL<sub>1<\/sub> (plus eine einzige auf LL<sub>3<\/sub>). Ein Punkt ist keine Kurve (und immer das Maximum).<br \/>\nBei den <a href=\"https:\/\/en.wikipedia.org\/wiki\/10th_Lambda_Literary_Awards\" target=\"_blank\" rel=\"noopener\">10th Lambda Literary Awards<\/a> verteilen sich die Werte zwar auf mehr als ein Linklevel, aber &#8222;die Statistik&#8220; ist nicht so doll. Ist das ein &#8222;echtes&#8220; Maximum bei LL<sub>3<\/sub>, blosz weil der Punkt dort mit einem Wert von zwei um eins h\u00f8her ist als die Punkte bei LL<sub>1<\/sub> bzw. LL<sub>4<\/sub>?<br \/>\nUnd beides gleichzeitig liegt fuer das <a href=\"https:\/\/en.wikipedia.org\/wiki\/10th_Kisei\" target=\"_blank\" rel=\"noopener\">10th Kisei<\/a> vor.<\/p>\n<p>Ich frag mich was es mit der Haeufung von 10&#8217;ern in den Beispielen auf sich hat. Naja, kommt sicherlich dadurch zustande, dass ich diese nur semi-zufaellig ausgewaehlt habe. <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/01\/kevin-bacon-xiv-alles-wird-zahl\/\" target=\"_blank\" rel=\"noopener\">Nicht vergessen<\/a>, auch wenn ich hier die kompletten Titel hinschreibe, so arbeite ich intern mit Nummern. Und ich habe die Nummern fuer die Beispiele nicht aus allen 6 Millionen m\u00f8glichen gezogen sondern nur unter den ersten 50-tausend die genommen, die fuer die Beispiele gepasst haben und auch repraesentativ waren. Das k\u00f8nnte ja sein, dass es im Wikipediaquellcode &#8217;ne Art lose Reihenfolge gibt. Dafuer spricht, dass alle Beispiele hier mit Zahlen anfangen und diese Zahlen alle &#8217;ne &#8222;1&#8220; am Anfang haben.<\/p>\n<p>Wieauchimmer, ich schwoff ab. Mit dem bisher Gesagten laeszt sich die Form der Verteilung ganz oben teilweise erklaeren. Um beim dort erwaehnten Beispiel zu bleiben: ich finde es durchaus plausibel, dass 222 Seiten auf ein paar Linkleveln ein Mal, aber auf LL<sub>10<\/sub> zwei Mal zitiert werden und somit zum Balken bei LL<sub>10<\/sub> in besagter Verteilung beitragen.<\/p>\n<p>Auch auf das Mysterium des (relativ) hohen Balkens bei LL<sub>0<\/sub> werfen die obigen Aussagen etwas Licht. Der Grund liegt darin, dass wenn eine individuelle Verteilung &#8222;flach&#8220; ist, dann wird das Maximum an den Anfang gelegt. Beispiel: eine Seite hat jeweils drei Selbstreferenzen auf\u00a0LL<sub>5<\/sub>, LL<sub>17<\/sub> und LL<sub>23<\/sub>; das Maximum wird nun zu LL<sub>5<\/sub> &#8222;gelegt&#8220; obwohl die anderen beiden Messwerte ja gleich grosz sind \u2026 aber so ist das nun mal.<br \/>\nHier komme ich zu den bekannten 83.435 Seiten mit Selbstreferenzen auf LL<sub>0<\/sub> zurueck. Davon haben 75.786 Seiten das Maximum nicht bei LL<sub>0<\/sub>. Es bleiben also 7649 Seiten die entweder keine weiteren Selbstreferenzen oder auf keinem Linklevel mehr als eine Selbstreferenz haben.<\/p>\n<p>Von den 474.653 Seiten die im Balken bei LL<sub>0<\/sub> bleiben damit noch 467.004 uebrig die nicht darunter fallen. Wie gesagt, das Obige wirft nur _etwas_ Licht auf das Mysterium.<br \/>\nDer Beitrag ist aber schon so lang und deswegen verschiebe ich die Aufklaerung dieses seltsamen Sachverhalts auf das naechste Mal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wie schon bei den totalen und den neuen Links, schaute ich mir auch bei den Selbstreferenzen an, wo jeweils das Maximum der indivduellen Verteilung lag. Und hier erlebte ich diese Ueberraschung: Ich meine natuerlich, dass sich das so unerwartet lang hin zieht. Diese Ueberraschung stellt sich dann aber gar nicht mehr als so interessant dar, [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12170"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=12170"}],"version-history":[{"count":5,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12170\/revisions"}],"predecessor-version":[{"id":12184,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12170\/revisions\/12184"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=12170"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=12170"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=12170"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}