{"id":13011,"date":"2023-08-23T13:37:35","date_gmt":"2023-08-23T11:37:35","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13011"},"modified":"2023-04-15T23:05:52","modified_gmt":"2023-04-15T21:05:52","slug":"kevin-bacon-lii4-jaeger-der-verlorenen-artefakte-falsche-fuffziger","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/08\/kevin-bacon-lii4-jaeger-der-verlorenen-artefakte-falsche-fuffziger\/","title":{"rendered":"Kevin Bacon &#8211; LII<sub>4<\/sub> &#8211; Jaeger der verlorenen Artefakte &#8211; falsche Fuffziger"},"content":{"rendered":"<p>Beim <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12987\" target=\"_blank\" rel=\"noopener\">vorvorletzten Mal<\/a> beschrieb ich, wie ich potentielle Kandidaten fuer &#8222;Ketten&#8220; von Wikipediaseiten (vormals als &#8222;Artefakte&#8220; bezeichnet) im Linkfrequenzsignal entdecken kann. Dann &#8222;setzte&#8220; ich mich auf zwei Linklevel und beschrieb <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13002\" target=\"_blank\" rel=\"noopener\">die letzten<\/a> beiden <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13007\" target=\"_blank\" rel=\"noopener\">Male<\/a> welche Resultate eine solche Analyse zur Folge hat und wie die zu interpretieren sind.<br \/>\nDabei machte ich auf vier generelle (!) &#8222;Phaenomene&#8220; aufmerksam die alle zu einem &#8222;Kandidatensignal&#8220; fuehren:<br \/>\n&#8211; Ketten aus Seiten die alle den selben &#8222;Familiennamen&#8220; haben (bis auf eine unterschiedliche Zahl),<br \/>\n&#8211; &#8222;Patchworkfamilien&#8220; in denen die Seiten eine Kette bilden aber alle unterschiedliche Namen haben,<br \/>\n&#8211; &#8222;Anhaenger&#8220; zu den ersten Beiden und<br \/>\n&#8211; Seiten die aus welchem Grund auch immer ein &#8222;Kandidatensignal&#8220; haben (bspw. &#8222;Anhaenger&#8220; zu Seiten die NICHT zu einer Kette geh\u00f8ren) aber nicht zu den ersten Beiden geh\u00f8ren.<\/p>\n<p>Nachdem diese viele Vorarbeit geleistet ist, kann ich ganz ohne Umschweife vorstellen, wie sich all das von Linklevel zu Linklevel veraendert:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/128_hunt_for_artifacts_results_per_LL_.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13053 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/128_hunt_for_artifacts_results_per_LL_-800x312.png\" alt=\"\" width=\"800\" height=\"312\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/128_hunt_for_artifacts_results_per_LL_-800x312.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/128_hunt_for_artifacts_results_per_LL_-1024x399.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/128_hunt_for_artifacts_results_per_LL_-768x299.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/128_hunt_for_artifacts_results_per_LL_.png 1152w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Im linken Diagramm sieht man die &#8222;Entwicklung&#8220; der ersten beiden Phaenomene. Das rechte Diagramm zeigt pro Linklevel die Anzahl aller potentiellen Kandidaten (schwarz), wieviele sich davon in regularen &#8222;Familien&#8220; (rot) bzw. &#8222;Patchworkfamilien&#8220; (blau) aufhalten und wie viele &#8222;Anhaenger&#8220; (orange) es gibt. Das vierte Phaenomen ist nicht von Interesse, folgt aber aus den Zahlen der ersten drei.<br \/>\nDie gestrichelten Linien bei den Grafen zu den &#8222;Patworkfamilien&#8220; dient nur der Fuehrung des Auges und kommt dadurch zustande, dass die entsprechenden Werte an der Stelle Null sind.<\/p>\n<p>Zunachst ist zu sagen, dass bei kleinen Linkleveln die Kategorisierungen vermutlich immer schlechter werden, insb. fuer die &#8222;Patchworkfamilien&#8220;. Auf LL<sub>5<\/sub> ergibt die Analyse 50-tausend &#8222;Patchworkfamilien&#8220;, aber ich nehme an, dass die alle nicht echt sind und es sich hierbei nur um die Ketten mit 2 Elementen handelt, welche ich ja bereits beim letzten Mal als &#8222;verdaechtig&#8220; und vermutlich (oft) unechte Ketten einstufte. Es sind also mehr oder weniger regulaere Seiten die aus welchem Grund auch immer ein Kandidatensignal haben mit &#8217;nem Anhaenger dazu<br \/>\nIndirekt bestaetigt wird diese Vermutung durch den gewaltigen (!) &#8222;Absturz&#8220; dieses Grafen innerhalb der \u2026 mhm \u2026 ich sag jetzt mal naechsten 5 Linklevel. Das bedeutet nicht, dass das Problem auf LL<sub>10<\/sub> nicht mehr auftritt, aber zumindest, dass dessen Einfluss deutlich schwaecher ausfaellt.<\/p>\n<p>Ab LL<sub>47<\/sub> gibt es dann nur noch eine Familie, welche natuerlich das wohlbekannte \u201eS\u00e3o Paulo FC\u201c-Artefakt ist in welchem sich dann auch die noch verbleibenden Kandidaten alle aufhalten. Letzteres drueckt sich darin aus, dass ab LL<sub>48<\/sub> die rote und schwarze Kurve im rechten Diagramm deckungsgleich sind. Der Unterschied von einem Linklevel kommt daher, weil von der anderen Familie die sich bis LL<sub>47<\/sub> haelt nur noch das Endelement vorhanden ist. Weil es aber ganz allein steht und auch nicht als Anhaenger dem \u201eS\u00e3o Paulo FC\u201c-Artefakt zugeordent werden kann, faellt es unter das vierte Phaenomen. Dies wiederfaehrt auch dem \u201eS\u00e3o Paulo FC\u201c-Artefakt auf LL<sub>67<\/sub> wo es noch einen Kandidaten, aber keine Familien (oder Anhaenger) mehr gibt.<\/p>\n<p>Wichtiger Einschub: was ich im letzten Absatz schrieb war die besser zu verstehende Version; die Realitaet sieht ein klein wenig komplizierter aus (aendert aber Obiges nur so geringfuegig, dass ich die vereinfachte Erklaerung ueber der richtigen vorzog). Es ist bekannt, dass die letzten Nachzuegler erst <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/06\/kevin-bacon-xxiii-aussteiger\/\" target=\"_blank\" rel=\"noopener\">auf LL<sub>72<\/sub> aussteigen<\/a>. Das bedeutet, dass die sich auf LL<sub>72<\/sub> im Jahr 1930 des \u201eS\u00e3o Paulo FC\u201c-Artefakts befinden und von dort nicht wegkommen. Das bedeutet, dass das Jahr 1930 auf LL<sub>71<\/sub> die letzten drei Zitate erhaelt, bevor die drei Nachzuegler im naechsten Schritt ins Jahr 1930 springen. Die Kette h\u00f8rt also NICHT bei LL<sub>67<\/sub> sondern geht noch ein paar Schritte weiter.<br \/>\nABER auf LL<sub>67<\/sub> befindet sich das Maximum des Jahres 1930. Danach ist das durchschritten und die Seite wird nicht mehr als Kandidat erkannt.<br \/>\nLange Rede kurzer Sinn: alles Gesagte muss um ein paar Linklevel verschoben werden, weil das Maximum der Linkfrequenz einer Kettenseite nicht das Ende bedeutet. Nachzuegler generieren fuer ein paar Schritte mehr noch ein Antwortsignal (welches aber nicht mehr als Signal zur Erkennung von Kettenseiten herangezogen werden kann) und halten eine Kette die paar Schritte noch &#8222;im Rennen&#8220;. Aber das ist nur &#8217;ne Kleinigkeit die qualitativ nix aendert und quantitativ nur ein Offset ist den man leicht hinzufuegen kann und deswegen handle ich das nur als Einschub ab.<\/p>\n<p>Wieauchimmer, das war der einfache Teil. Nun geht&#8217;s um das erklaerungsbeduerftige Detail, dass die Anzahl der &#8222;Patchworkfamilien&#8220; nicht monoton abnimmt. Das haengt auch mit dem eben Beschriebenen zusammen und ich erklaere genau anhand des Beispiels von LL<sub>22<\/sub> (mit einer &#8222;Patchworkfamilie&#8220;) zu LL<sub>23<\/sub> (mit fuenf &#8222;Patchworkfamilie&#8220;).<\/p>\n<p>Dafuer schauen wir zunaechst auf die regulaeren Familien von denen es auf LL<sub>22<\/sub> 15 gibt und zwei von denen haben nur 2 &#8222;Familienmitglieder&#8220;. Im naechsten Schritt fallen die also (wie oben beschrieben) &#8222;raus&#8220;. Von Interesse ist nur die Familie welche auf LL<sub>22<\/sub> aus <a href=\"https:\/\/en.wikipedia.org\/wiki\/2000%E2%80%9301_Hyderabad_C.A._season\" target=\"_blank\" rel=\"noopener\">2000\u201301 Hyderabad C.A. season<\/a> und <a href=\"https:\/\/en.wikipedia.org\/wiki\/2001%E2%80%9302_Hyderabad_C.A._season\" target=\"_blank\" rel=\"noopener\">2001\u201302 Hyderabad C.A. season<\/a> besteht wobei die zeitlich frueheste Seite, also die 2001-02 season, das Endelement ist auf dem man &#8222;sitzt und schaut&#8220; wenn man sich auf LL<sub>24<\/sub> befindet.<br \/>\nDeren Linkfrequenzen sind zusammen mit den Linkfrequenzen dreier relevanter Anhaenger in diesem Diagramm zu sehen (<em>cf.<\/em> text):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/129_tags_to_patchwork_families.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13054 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/129_tags_to_patchwork_families.png\" alt=\"\" width=\"582\" height=\"456\" \/><\/a><\/p>\n<p>Das Endelement der obigen regulaeren Kette hat sieben Anhaenger. Vier davon werden NUR vom Endelement zitiert und verhalten sich wie erwartet (haben ihr Maximum in der Linkfrequenz also auf LL<sub>24<\/sub>): <a href=\"https:\/\/en.wikipedia.org\/wiki\/Fathima_Reddy\" target=\"_blank\" rel=\"noopener\">Fathima Reddy<\/a>, <a href=\"https:\/\/en.wikipedia.org\/wiki\/Parth_Satwalkar\" target=\"_blank\" rel=\"noopener\">Parth Satwalkar<\/a>, <a href=\"https:\/\/en.wikipedia.org\/wiki\/Renjith_Menon\" target=\"_blank\" rel=\"noopener\">Renjith Menon<\/a> und <a href=\"https:\/\/en.wikipedia.org\/wiki\/Vijay_Kumar_(cricketer)\" target=\"_blank\" rel=\"noopener\">Vijay Kumar (cricketer)<\/a>.<br \/>\nInteressanter ist der fuenfte Anhaenger <a href=\"https:\/\/en.wikipedia.org\/wiki\/Mangalapally_Srinivas\" target=\"_blank\" rel=\"noopener\">Mangalapally Srinivas<\/a> welcher von BEIDEN obigen seasons zitiert wird. Deswegen faellt das Maximum der Linkfrequenz von dieser Seite auf LL<sub>23<\/sub>; massiv zitiert durch die 2001-02 season (auf der man &#8222;sitzt und schaut&#8220; auf LL<sub>23<\/sub>) und ein paar Zitate durch das Endelement, in dem sich auf LL<sub>23<\/sub> schon ein paar &#8222;vorauseilende&#8220; Seiten befinden. Weil das Maximum aber nicht VOR LL<sub>23<\/sub> liegt wird <em>Mangalapally Srinivas<\/em> immer noch als Kandidat erkannt und faellt aus der Analyse nicht raus.<br \/>\nDie verbleibenden beiden Anhaenger <a href=\"https:\/\/en.wikipedia.org\/wiki\/Mohammad_Ghouse_Baba\" target=\"_blank\" rel=\"noopener\">Mohammad Ghouse Baba<\/a> und <a href=\"https:\/\/en.wikipedia.org\/wiki\/Shivaji_Yadav\" target=\"_blank\" rel=\"noopener\">Shivaji Yadav<\/a> werden auch von zeitlich spaeteren seasons (in der Kette also frueheren Seiten) zitiert, haben das Maximum deswegen auf LL<sub>22<\/sub> und fallen aus der Analyse raus, weil sie auf LL<sub>23<\/sub> dadurch NICHT mehr als Kandidaten gehandelt werden.<\/p>\n<p>Die ersten 5 Anhaenger bilden zusammen mit der <em>2000\u201301 Hyderabad C.A. season<\/em> fuenf &#8222;Patchworkfamilien&#8220; auf LL<sub>23<\/sub> und der entsprechende Zaehler geht nach oben.<br \/>\nDie Kombination aus Endelement und Anhaenger fuehrt also zu falschen (?) &#8222;Patchworkfamilien&#8220; \u2026 aber das diskutierte ich ja bereits beim letzten Mal.<\/p>\n<p>Wie oben erwaehnt, vermute ich, dass bei kleinen Linkleveln unheimlich viele solcher falschen &#8222;Patchworkfamilien&#8220; vorkommen. Prinzipiell liesze sich das fixen, indem man sich die Historie anschaut und Seiten die auf dem vorhergehenden Linklevel noch Anhaenger waren nicht als Element fuer &#8222;2 Mitglieder Patchworkfamilien&#8220; zulaeszt. Da habe ich aber keine Lust drauf und das wuerde vermutlich auch nicht sooo einen riesigen Unterschied machen. Letzteres weder nach LL<sub>10<\/sub> (weil man Endelemente von regulaeren Familien braucht und davon nie uebermaeszig viele auf einmal enden) und auch nicht vor LL<sub>10<\/sub> denn da ist so viel &#8222;Schmu&#8220; dabei (siehe oben), dass das Beseitigen falscher &#8222;Patchworkfamilien&#8220; auch nicht mehr viel aus macht.<\/p>\n<p>Im Allgemeinen ist das Konzept der &#8222;Patchworkfamilien&#8220; gut um Ketten zu finden und es funktioniert auch. Die technische Umsetzung k\u00f8nnte geaendert werden oder ich k\u00f8nnte alle &#8222;Patchworkfamilien&#8220; mit nur 2 Mitgliedenr raus schmeiszen. Dadurch wuerden vermutlich aber auch etliche wahre Patchworkfamilien raus fliegen und das l\u00f8st auch nicht das Problem mit ECHTEN &#8222;Patchworkfamilien&#8220; plus Anhaeger. Wie man&#8217;s dreht und wendet, man wuerde einen Nachteil gegen einen anderen tauschen und ich denke, dass sich die Ergebnisse qualitativ vermutlich nicht sehr aendern wuerden.<br \/>\nWegen all des eben Gesagten behalte ich &#8222;Patchworkfamilien&#8220; bei, aendere nix und bin mir der Nachteile bei der Betrachtung der Grafen bewusst.<\/p>\n<p>Das soll fuer heute genug sein. Beim naechsten Mal zeige ich, dass es auch &#8222;falsche echte Familien&#8220; gibt und gehe kurz darauf ein, warum trotz all diese Einschraenkungen das alles voll fetzig ist :) .<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim vorvorletzten Mal beschrieb ich, wie ich potentielle Kandidaten fuer &#8222;Ketten&#8220; von Wikipediaseiten (vormals als &#8222;Artefakte&#8220; bezeichnet) im Linkfrequenzsignal entdecken kann. Dann &#8222;setzte&#8220; ich mich auf zwei Linklevel und beschrieb die letzten beiden Male welche Resultate eine solche Analyse zur Folge hat und wie die zu interpretieren sind. Dabei machte ich auf vier generelle (!) [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13011"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13011"}],"version-history":[{"count":5,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13011\/revisions"}],"predecessor-version":[{"id":13097,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13011\/revisions\/13097"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13011"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13011"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13011"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}