{"id":12511,"date":"2023-01-13T13:37:22","date_gmt":"2023-01-13T11:37:22","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12511"},"modified":"2026-06-07T14:49:44","modified_gmt":"2026-06-07T12:49:44","slug":"kevin-bacon-xxxiii-ausnahmen-und-methodik","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/01\/kevin-bacon-xxxiii-ausnahmen-und-methodik\/","title":{"rendered":"Kevin Bacon &#8211; XXXIII &#8211; Ausnahmen und Methodik"},"content":{"rendered":"<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12276\" target=\"_blank\" rel=\"noopener\">Beim letzten Mal<\/a> zeigte ich zum Abschluss zwei repraesentative Verteilung der Selbstreferenzen pro Linklevel. Ich wollte damit darauf hinaus, dass diese Verteilungen sich ueber viele Linklevel nach einem maechtigen Gesetz verhalten. Bevor ich darauf beim naechsten Mal zurueck komme und das Ganze systematisch betrachte, m\u00f8chte ich zunaechst mithilfe dieses Diagramms \u2026<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/85_stuff_to_talk_about_self_references_index_distribution.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12522 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/85_stuff_to_talk_about_self_references_index_distribution.png\" alt=\"\" width=\"591\" height=\"464\" \/><\/a><\/p>\n<p>\u2026 auf zwei Sachen eingehen.<\/p>\n<p>Die erste sind die wenigen Ausnahmen vom oben Gesagten. Naja, eigentlich sind es viele, aber die allermeisten der vielen Ausnahmen k\u00f8nnen alle unter einer Kategorie zusammengefasst werden (und diese Kategorie liegt auch noch in der Natur der Sache) und deswegen zaehlen die alle zusammen nur als eine Ausnahme \u2026 aber vielleicht sollte ich einfach nur erklaeren.<\/p>\n<p>In dem Diagramm sehen wir die Verteilungen der Selbstzitate fuer LL<sub>0<\/sub> (schwarze Punkte), LL<sub>1<\/sub> (rote Quadrate) und LL<sub>9<\/sub> (blaue Diamanten). Wie immer bei diesen Verteilungen zaehlte ich (in diesem Fall) wieviele Seiten es gab (Ordinate), die auf dem gegebenen Linklevel so viele Selbstreferenzen erhielten, wie auf der Abzsisse angezeigt.<br \/>\nNicht gezeigt sind die Punkte fuer null Selbstreferenzen; die sind naemlich im Wesentlichen fuer alles weitere unwichtig und lassen sich ohnehin nicht gut bei einer logarithmischen Achse darstellen..<\/p>\n<p>Der erste Ausnahmefall ist LL<sub>0<\/sub>. Dort sollte es ueberhaupt keine Selbstreferenzen geben (man ist ja noch keinen Schritt im Linknetzwerk voran geschritten). Wir wissen <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/10\/kevin-bacon-xxviii-selbstzitierungen\/\" target=\"_blank\" rel=\"noopener\">von frueher<\/a>, dass der eine Punkt mit einem Wert von ca. 80k durch Artefakte zustande kommt.<\/p>\n<p>Kurioserweise erlaubt mir dieses Artefakt den zweiten Ausnahmefall zu erklaeren, denn genau so sieht das auch aus, wenn man sehr weit im Linknetzwerk vorangeschritten ist. Dort liegt der Grund aber darin, dass dann die Chance fuer eine Selbstreferenz URST winzig ist. Entsprechend klein wird die &#8222;Signalstaerke&#8220; und die Werte auf der Abzsisse liegen dann nur noch bei 1 (oder vielleicht mal 2) \u2026 also ich habe nur noch bei einer Selbstzitierung (und bei null) ein Signal.<br \/>\nWorauf ich hinaus will ist das Folgende: beim naechsten Mal interessiert mich der Anstieg der Verteilung in der doppellogarithmischen Darstellung (welcher dem Exponenten des Potenzgesetzes entspricht). Diesen erhalte ich durch lineare Regression; aber lineare Regression bei Werten die im Wesentlichen &#8222;Rauschen&#8220; sind ist nicht sinnvoll.<br \/>\nDeswegen wuerde ich obige Aussage nur unter starkem Vorbehalt fuer als gueltig auf hohen Linkleveln ansehen. Vermutlich ja, aber die Daten geben das einfach nicht her.<\/p>\n<p>Die dritte Ausnahme ist die Verteilung zu LL<sub>1<\/sub>, diese verhaelt sich naemlich eindeutig nicht nach einem Potenzgesetz, denn selbst mit beiden Augen zudruecken kann ich die Daten da nicht mit einer linearen Funktion (bei doppellogarithmischer Darstellung) beschreiben. Das gilt bedingt mglw. auch fuer die Verteilungen bei LL<sub>2<\/sub> und LL<sub>3<\/sub>, bei Letzteren kann ich aber auch mit gutem Gewissen eine Gerade durch relevante Abschnitte der Daten legen, die gilt halt nur nicht bei all zu kleinen Linkleveln.<br \/>\nWas passiert hier? Nun ja, das ist einfach zu erklaeren: von <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/08\/kevin-bacon-vii-dead-links-walking\/\" target=\"_blank\" rel=\"noopener\">gaaaanz frueher<\/a> wissen wir dass jede Ursprungsseite im Durchschnitt 30 (neue) Seiten auf LL<sub>1<\/sub> hat. Ja, <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/05\/kevin-bacon-xviii-groszvieh-macht-definitiv-mehr-mist-als-kleinvieh-zum-dritten\/\" target=\"_blank\" rel=\"noopener\">auch von frueher<\/a> wissen wir, dass es auch (Ursprungs)Seiten gibt, die deutlich mehr (oder weniger) als diese 30 Seiten auf LL<sub>1<\/sub> haben. Aber nach unten bin ich ohnehin begrenzt (weniger als null geht nicht) und nach oben liegt die Grenze bei so ca. 1000 Seiten \u2026 das ist zwar deutlich mehr, aber <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/11\/kevin-bacon-x-vorne-hinten-links-rechts-oben-unten-links-b\/\" target=\"_blank\" rel=\"noopener\">davon gibt es nur sehr wenige<\/a>.<\/p>\n<p>Wieauchimmer, von jeder Seite auf LL<sub>1<\/sub> kann die Ursprungsseite nur eine Selbstreferenz bekommen. Das limitiert wie weit eine Seite auf der Abszisse &#8222;reichen kann&#8220;; wenn ich nur 30 Seiten auf LL<sub>1<\/sub> habe, dann kann ich keine 31 Selbstreferenzen bekommen.<br \/>\nEbenso sollte dies indirekt zu einer Ueberh\u00f8hung des Signals gegenueber einer Geraden (und damit einer konvexen Kruemmung der Daten) fuehren. Indirekt deswegen, weil das natuerlich nicht der Mechanismus ist, der zu besagter Ueberh\u00f8hung des Signals fuehrt. Vielmehr ist es so, dass ja gerade auf LL<sub>1<\/sub> sicherlich viele Seiten auf die Ursprungsseite zurueck verweisen, einfach weil das thematisch sehr oft nahe liegt. Ich habe also ohnehin schon ein h\u00f8heres Signal und das &#8222;draengelt&#8220; sich, durch ersteren Mechanismus, dann auch noch alles bei kleinen Werten auf der Abszisse.<\/p>\n<p>So, genug zu den Ausnahmen.<\/p>\n<p>Wichtiger fuer&#8217;s naechste Mal ist eigentlich alles zu LL<sub>9<\/sub>. Da ist naemlich eine der oben erwaehnten Regressionsgeraden drin (die dicke orange Linie). Die sieht schick aus, nicht wahr; so richtig sch\u00f8n mitten durch den (bei doppellogarithmischer Darstellung) linearen Teil der Daten.<br \/>\nUnd hier liegt der Hase im Pfeffer! Denn ich habe ja rechts davon auch noch Daten \u2026 aber das sind nur ganz wenige, einzelne Seiten, die so viele Selbstreferenzen erhalten \u2026 und diese &#8222;passen&#8220; ja offensichtlich nicht zu dem worauf ich hinaus will mit dem linearen Teil. Aber die wuerden natuerlich bei einer linearen Regression ueber alle Daten mit einebzogen werden und zu einer Gerade fuehren, die ueberhaupt nicht mehr &#8222;gut passt&#8220;.<br \/>\nWaehrend des Studiums\u00a0 habe ich gelernt das zu ignorieren und das Lineal an den linearen Teil so anzulegen, dass die Linie richtig liegt und die Daten gut (genug) beschreibt \u2026 vulgo: schick aussieht \u2026 wenn ich den Anstieg und das absolute Glied einfach ablese (ohne was formal zu berechnen).<br \/>\nUnd genau das habe ich fuer alle (relevanten) Verteilungen gemacht. Ich habe vom Ende (und wenn n\u00f8tig auch vom Anfang) so lange Punkte weggeschnitten, bis die Regressionsgerade schick aussah. Wie oben geschrieben, ist das kein schummeln, sondern wurde von Physikern schon immer so gemacht. Auszerdem ist das Potenzgesetz ohnehin nicht ueberall gueltig und der Bereich der Gueltigkeit ergibt sich daraus wo die Gerade die Daten gut beschreibt. Dennoch wollte ich den Prozess mal erwaehnt haben, denn letztlich habe ich die Geraden durch linere Regression erhalten.<\/p>\n<p>Und damit bin ich dann auch bei der letzten Sache \u2026 dem orange-durchsichtigen Band um die dicke Linie. Bei der linearen Regression erhaelt man fuer die Parameter der Geraden einen &#8222;Fehler&#8220; \u2026 vulgo: die plus\/minus Werte \u2026 und das orange Band kennzeichnet diesen Bereich. Die Regressionsgerade k\u00f8nnte also irgendwie liegen, solange es innerhalb dieses Bandes ist. Die wahrscheinlichste Gerade ist die eingezeichnete.<br \/>\nBeim naechsten Mal lasse ich die Baender weg, aber ich komme nochmal auf den &#8222;Fehler&#8220; des Anstiegs zurueck. Deswegen wollte ich das hier mal erwaehnt haben.<\/p>\n<p>So, das war jetzt viel mehr als ich urspruenglich dachte. Im naechsten Beitrag wird&#8217;s voll interessant :)<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim letzten Mal zeigte ich zum Abschluss zwei repraesentative Verteilung der Selbstreferenzen pro Linklevel. Ich wollte damit darauf hinaus, dass diese Verteilungen sich ueber viele Linklevel nach einem maechtigen Gesetz verhalten. Bevor ich darauf beim naechsten Mal zurueck komme und das Ganze systematisch betrachte, m\u00f8chte ich zunaechst mithilfe dieses Diagramms \u2026 \u2026 auf zwei Sachen [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[27],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12511"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=12511"}],"version-history":[{"count":6,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12511\/revisions"}],"predecessor-version":[{"id":12530,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12511\/revisions\/12530"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=12511"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=12511"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=12511"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}