{"id":12667,"date":"2023-03-23T13:37:07","date_gmt":"2023-03-23T11:37:07","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12667"},"modified":"2023-01-31T23:50:41","modified_gmt":"2023-01-31T21:50:41","slug":"kevin-bacon-xxxviii-ill-be-back","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/03\/kevin-bacon-xxxviii-ill-be-back\/","title":{"rendered":"Kevin Bacon &#8211; XXXVIII &#8211; I&#8217;ll be back"},"content":{"rendered":"<p><a href=\"https:\/\/www.youtube.com\/watch?v=-YEG9DgRHhA\" target=\"_blank\" rel=\"noopener\">Obligatorischer Videoschnipsel<\/a>.<\/p>\n<p>Neben den in <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12638\" target=\"_blank\" rel=\"noopener\">den letzten<\/a> zwei <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12647\" target=\"_blank\" rel=\"noopener\">Beitraegen diskutierten<\/a> Aussteigern gibt es auch das entgegengesetzte Phaenomen: Seiten die nach dem Abbruch der Kette von Selbstzitierungen dann auf einem h\u00f8heren Linklevel pl\u00f8tzlich wieder neue Selbstreferenzen aufweisen.<br \/>\nBevor ich naeher darauf eingehe, muss ich zunaechst zwei Sachen nochmals explizit sagen. Zum Einen, sind bei den <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12583\" target=\"_blank\" rel=\"noopener\">Daten<\/a> mit denen die Entwicklungsparameter bestimmt wurden weder Aussteiger noch reaktivierte Seiten dabei. Sobald fuer eine Seite die Kette von Selbstreferenzen abgebrochen ist, wurde besagte Seite nicht weiter beruecksichtigt bei den erwaehnten Daten.<br \/>\nZum Anderen k\u00f8nnen (so wie bei den Aussteigern) auch hier wieder Doppelzaehlungen auftreten. Eine Kette an Selbstreferenzen kann mehrfach abbrechen und reaktiviert werden. Aber wie bei den den Aussteigern denke ich nicht, dass diese all zu sehr ins Gewicht fallen.<\/p>\n<p>Zunaechst ist zu sagen, dass es zahlenmaeszig erstaunlich viele Reaktivierungen gibt:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/98_self_references_exits_and_reactivations_per_LL.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12673 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/98_self_references_exits_and_reactivations_per_LL.png\" alt=\"\" width=\"581\" height=\"459\" \/><\/a><\/p>\n<p>Ab LL<sub>11<\/sub> dann sogar mehr als Aussteiger und bei spaeteren Linkleveln bis zu einer Gr\u00f8szenordnung mehr. Aber die absoluten Zahlen sind dann schon nur noch im Bereich von hundert oder weniger Seiten.<\/p>\n<p>Mhmm \u2026 was mache ich denn nun mit diesen Daten? Ist ja auch ein bisschen peinlich, denn die letzten Mal wollte ich zu viel simulierte Seiten los werden und nun sollen die wieder dazu kommen? \u2026 Mist \u2026 ich komme wohl nicht drumrum mir das mal genauer anzuschauen. Mir sind die vielen Verteilungen aber langsam ueber, weswegen ich das heute mal &#8218;wieder als \u00a0<a href=\"https:\/\/en.wikipedia.org\/wiki\/Heat_map\" target=\"_blank\" rel=\"noopener\">Heatmaps<\/a> darstelle. Es gibt zwei Aspekte von Interesse: wie lang eine reaktivierte Kette wird und wieviele Seiten im Durchschnitt dazu kommen \u2026 pro Linklevel natuerlich.<br \/>\nIch vermute aber, dass Reaktivierungen in der Mehrzahl &#8222;Blips&#8220; sind, also wenn eine Seite eher aus &#8222;Versehen&#8220; noch ein Mal (und nur ein Mal) zitiert wird. Diese Vermutung wird durch die Daten bestaetigt:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12687 size-large\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_-1024x395.png\" alt=\"\" width=\"1024\" height=\"395\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_-1024x395.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_-800x309.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_-768x297.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_-1536x593.png 1536w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/99_self_references_heatmap_chain_length_after_reactivation_.png 1712w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/a><\/p>\n<p>Zwei Dinge sind zu beachten. Zum Einen geht die Skala fuer das Linklevel erst bei 2 los. Auf LL<sub>1<\/sub> kann nix reaktiviert werden, weil ja (von Artefakten abgesehen) keine Seite auf LL<sub>0<\/sub> Selbstreferenzen haben kann. Das bedeutet, dass der frueheste Ausstieg auf LL<sub>1<\/sub> und die frueheste Reaktivierung auf LL<sub>2<\/sub> stattfinden kann.<br \/>\nZum Anderen ist die Farbskala logarithmisch \u2026 also die Farbskala an sich ist natuerlich linear, aber praesentiert logarithmische Werte.<\/p>\n<p>Wie man sieht, ist die Aussage mit den &#8222;Blips&#8220; bereits hier zu 50 % bestaetigt. Dies aeuszert sich in dem roten Bereich in der linken unteren Ecke. Es werden zwar ganz viele Seiten reaktiviert (im Maximum fast 500-tausend) die Laenge der reaktivierten Kette ist aber nur eins.<br \/>\nIrgendwie war das zu erwarten. Auf LL<sub>2<\/sub> bis so ca. LL<sub>5<\/sub> sind die Seiten <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/01\/kevin-bacon-xxxv-beschleunigter-abstieg\/\" target=\"_blank\" rel=\"noopener\">thematisch<\/a> noch relativ nah und aufgrund der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/10\/kevin-bacon-xxviii-selbstzitierungen\/\" target=\"_blank\" rel=\"noopener\">totalen Anzahl<\/a> an zur Verfuegung stehenden Seiten kann dann doch nochmal die eine oder andere Selbstreferenz auftreten.<\/p>\n<p>Dem schlieszt sich ein schmales gruenes Band an welches fuer Seiten mit &#8222;mittellangen&#8220; Ketten steht. Hier kommt aber die Logarithmushaftigkeit der Farbskale ins Spiel, denn &#8222;gruen&#8220; bedeutet, dass es sich dabei nur noch um hunderte, bis h\u00f8chstens ein paar wenige tausende Seiten handelt. Auf das gruene Band folgt ein relativ breiter blauer Bereich an laengeren Ketten. Davon gibt es dann aber meist nur eine einzige Seite die derart reaktiviert wird.<\/p>\n<p>Die Anzahl der durchschnittlichen Selbstreferenzen die dazu kamen hat mich etwas ueberrascht:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12696 size-large\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__-1024x399.png\" alt=\"\" width=\"1024\" height=\"399\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__-1024x399.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__-800x311.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__-768x299.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__-1536x598.png 1536w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/100_self_references_heatmap_average_number_self_references_after_reactivation__.png 1703w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/a><\/p>\n<p>Der Durchschnitt berechnete sich auf die folgende Weise. Fuer jede Seite mit einer gegebenen (reaktivierten) Kettenlaenge sind alle in dieser Kette enthaltenen Selbstreferenzen aufsummiert worden. Am Ende wurde dieser Wert durch die Anzahl der relevanten Seiten und besagte Kettenlaenge dividiert. Das ist also zwei Mal &#8222;durchgeschnitten&#8220;.<\/p>\n<p>Die Ueberraschung liegt nun darin, dass die durchschnittlich dazukommende Anzahl an Selbstreferenzen unabhaengig von der Kettenlaenge ungefaehr Eins betraegt. Mit Ausnahme der nicht-blauen Punkte am linken Rand; aber dazu komme ich gleich.<br \/>\nEigentlich ist das nicht komplett ueberraschend. Fuer relativ kurze Ketten hatte ich das erwartet und das waeren dann die fehlenden 50 % fuer die Bestaetigung der Aussage mit den &#8222;Blips&#8220;. Also das ist gut.<br \/>\nSeiten die lange reaktivierte Ketten (also die separaten Punkte ueber dem &#8222;blauen Feld&#8220;) aufweisen, haette ich aber zunaechst erwartet, dass es sich dabei um wichtige Seiten handelt und die einen entsprechend (viel?) h\u00f8heren Durchschnitt an Selbstreferenzen aufweisen.<br \/>\nEin Beispiel waere der oberste Datenpunkt bei LL<sub>14<\/sub>. Diese Seite weist eine Kette auf die ueber 43 weitere Linklevel geht. Aber jedes Mal wird die Seite nur ein einziges Mal zitiert. Ich vermute, dass es sich hierbei auch wieder um eine Art von Artefakt handelt.<\/p>\n<p>Wenn ich aber laenger drueber nachdenke, dann passt diese Ueberraschung nicht mit den &#8222;Blips&#8220; zusammen. Warum sollte die Kette an Selbstreferenzen fuer eine wichtige Seite abbrechen und dann stark weitergehen? Da scheint es durchaus sinnvoller zu sein, dass ein paar wenige Seiten oftmals hintereinander &#8222;blipsen&#8220;. Rein statistisch gesehen wuerde ich das bei fast 6 Millionen Seiten durchaus fuer m\u00f8glich halten.<\/p>\n<p>Der nicht-blaue Streifen am linken Rand hingegen drueckt diese Vermutung dann doch aus. Aus der ersten Heatmap sehen wir, dass die nicht-blauen Punkte durch relativ wenige Seiten zustande kommen. Es ist durchaus leicht vorstellbar, dass spaeter (relativ) vielzitierte Seiten auf LL<sub>1<\/sub> keine Selbstzitate haben. Einfach weil die Anzahl der dort &#8222;verfuegbaren Seiten&#8220; welche die Ursprungsseite zitieren k\u00f8nnen stark begrenzt ist. Und dann geht&#8217;s halt los mit der Kette auf LL<sub>2<\/sub> oder LL<sub>3<\/sub>.<br \/>\nDer rote Punkt an sich kommt durch nur 10 Seiten zustande. Da braeuchte nur eine einzige mit vielen Selbstzitaten auf LL<sub>2<\/sub> dabei sein und das wuerde einen hohen Durchschnittswert ergeben.<br \/>\nEin anderes Beispiel sind die zwei gruenen Datenpunkte darueber. Die kommen jeweils durch nur eine Seite zustande auf die das Vermutete dann wohl zutrifft.<br \/>\nDer Rest des nicht-blauen Bereichs ist im Wesentlichen eine Variation dessen, dass hier relativ wenige Seiten zum Signal beitragen und deswegen schon eine Ausnahme den Durchschnitt stark verschieben kann.<\/p>\n<p>Lange Rede kurzer Sinn: Reaktivierungen spielen an sich nur fuer kleine Werte von Selbstzitierungen ein Rolle. Das kann in der totalen Anzahl an Selbstreferenzen pro Linklevel durchaus einen signifikanten Beitrag zur Folge haben aber nicht in der Gesamtheit der Datenpunkte der einzelnen Verteilungen.<br \/>\nDas ist natuerlich gut, denn die ich versuchte ja eigentlich Seiten los zu werden, weil ich insgesamt zu viele simuliere. Andererseits k\u00f8nnte es durchaus sein, dass bei mittelhohen Linklevel solche Reaktivierungen zum <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12627\" target=\"_blank\" rel=\"noopener\">Signal im &#8222;Schwanz&#8220;<\/a> beitragen..<\/p>\n<p>So, das soll genug sein fuer heute. Beim naechsten Mal schauen wir mal kurz auf die Ausreiszer und dann sollte es das endlich gewesen sein mit den Selbstreferenzen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Obligatorischer Videoschnipsel. Neben den in den letzten zwei Beitraegen diskutierten Aussteigern gibt es auch das entgegengesetzte Phaenomen: Seiten die nach dem Abbruch der Kette von Selbstzitierungen dann auf einem h\u00f8heren Linklevel pl\u00f8tzlich wieder neue Selbstreferenzen aufweisen. Bevor ich naeher darauf eingehe, muss ich zunaechst zwei Sachen nochmals explizit sagen. Zum Einen, sind bei den Daten [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12667"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=12667"}],"version-history":[{"count":9,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12667\/revisions"}],"predecessor-version":[{"id":12697,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12667\/revisions\/12697"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=12667"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=12667"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=12667"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}