{"id":14806,"date":"2026-04-13T13:37:29","date_gmt":"2026-04-13T11:37:29","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=14806"},"modified":"2026-02-27T16:53:24","modified_gmt":"2026-02-27T14:53:24","slug":"kevin-bacon-anhang-a2-reproduzierbarkeit-20-kfkaa-ketten-formerly-known-as-artefakte-b","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2026\/04\/kevin-bacon-anhang-a2-reproduzierbarkeit-20-kfkaa-ketten-formerly-known-as-artefakte-b\/","title":{"rendered":"Kevin Bacon &#8211; Anhang A2 &#8211; Reproduzierbarkeit 20: KFKAA (Ketten Formerly Known as Artefakte) (B)"},"content":{"rendered":"<p>Nach den theoretischen Vorbetrachtungen zu den Aenderungen bzgl. der Reproduktion der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?s=LII+jaeger+der+verlorenen+artefakte\" target=\"_blank\" rel=\"noopener\">thematisch zusammenhaengenden Ketten<\/a> vom <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=14719\" target=\"_blank\" rel=\"noopener\">letzten Mal<\/a>, kann ich heute ohne Umschweife sofort mit den Resultaten loslegen.<\/p>\n<p>Im linken Diagramm \u2026<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/256_reproduced_number_of_families.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-14814 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/256_reproduced_number_of_families-800x319.png\" alt=\"\" width=\"800\" height=\"319\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/256_reproduced_number_of_families-800x319.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/256_reproduced_number_of_families-1024x409.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/256_reproduced_number_of_families-768x307.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/256_reproduced_number_of_families.png 1135w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>\u2026 sieht man die Anzahl der &#8222;regulaeren Familien&#8220;, also solche Ketten von Wikipediaseiten die alle (fast) den gleichen Titel haben (welcher im Wesentlichen dem Thema der Kette entspricht).<\/p>\n<p>Die grauen Punkte sind die alten Resultate und von (sehr) kleinen Linkleveln abgesehen, reproduziert der neue Algorithmus bei selber Datenlage (rote Punkte, Ende 2020 Daten) die alten Resultate (mit geringsten Unterschieden ueber den Rest der Kurve \u2026 ich komme darauf zurueck). Und die neueren Daten (blaue Punkte, Ende 2023 Daten) wiederum reproduzieren im Wesentlichen die alten Daten.<br \/>\nIm Diagramm deutlich sichtbar\u00a0 ist, dass der alte Algorithmus &#8217;ne Gr\u00f8szenordnung mehr regulaere Familien um LL<sub>5<\/sub> aufsammelt. Ich komme auch darauf zurueck.<\/p>\n<p>Die &#8222;Patchworkfamilien&#8220; nun werden bei selbem (neuen) Algorithmus reproduziert; das rote Signal hat im Wesentlichen die gleiche Staerke und den gleichen Verlauf wie das blaue Signal.<br \/>\nAber man sieht einen sichtbaren Unterschied zu den mittels des alten Algorithmus produzierten Resultats. Auch darauf komme ich zurueck.<\/p>\n<p>Die Grundlage einer Familie sind die Kettenseiten an sich und deren Entwicklung per Linklevel fuer die Daten aus verschiedenen Jahren und verschiene Algorithmen sieht man hier:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/257_reproduced_candidates_in_families.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-14817 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/257_reproduced_candidates_in_families-800x645.png\" alt=\"\" width=\"800\" height=\"645\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/257_reproduced_candidates_in_families-800x645.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/257_reproduced_candidates_in_families-1024x826.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/257_reproduced_candidates_in_families-768x619.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/257_reproduced_candidates_in_families.png 1136w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Ich beginne mit der Diskussion des linken, oberen Diagramms; der totalen Anzahl an potentiellen Kettenseitenkandidaten. Der gewaltige Unterschied zwischen der roten und blauen Kurve kommt durch die (deutlich) gaenderte Datenlage zustande. Ich hatte das bereits kurz beim letzten Mal anklingen lassen (siehe der Kettenk\u00f8nig \u2026 die Tage des Meshir, Tobi, Koiak und Paremhat, die es in den 2020 Daten noch nicht gab) und werde das im Zuge zweier andere Diagramme genauer beleuchten.<\/p>\n<p>Der neue Algorithmus reproduziert mit den 2020-Daten im Wesentlichen die Resultate des alten Algorithmus es gibt aber wieder eine signifikanten Abweichung bei (sehr) kleinen Linkleveln. Das ist einfach zu erklaeren: die Suchparameter wurden leicht veraendert. Wenn ich mit dem neuen Algorithmus die alten Suchparameter benutze, komme ich auf die selbe Anzahl an potentiellen Kettenseitenkandidaten fuer alle Linklevel. Das war zu erwarten (aber es ist wichtig, dass ich das geprueft habe). Ab LL<sub>19<\/sub> waren die Ergebnisse ohnehin die selben, auch bei geaenderten Parametern.<br \/>\nOder anders: mit den urspruenglichen Parametern hab ich fuer (sehr) kleine Linklevel viele falsche positive Ergebnisse (vulgo: &#8222;Muell&#8220;) aufgesammelt. Was uebrigens der Grund war, warum ich die aenderte. Das heiszt natuerlich NICHT, dass der neue Algorithmus keinen &#8222;Muell&#8220; mehr aufsammelt. Es ist nur deutlich weniger.<\/p>\n<p>Damit ist das geklaert und das gilt in dem selben Linklevelbereich mal mehr (&#8222;Patchworkfamilien&#8220;) mal weniger (bei den regularen Familien \u2026 aber nicht unbedingt null) fuer alle anderen Diagramme.<\/p>\n<p>Damit geht es zu den regularen Familien und da kann ich die Resultate in &#8222;Kernfamilie&#8220; (die mit dem gleichen &#8222;Familiennamen, also die eigentliche Kette; rechtes oberes Diagramm) und &#8222;Anhaenger&#8220; zur Kette (also Seiten die einen anderen Titel haben, aber von den eigentlichen Kernkettenseiten zitiert werden; linkes unteres Diagramm) unterteilen.<\/p>\n<p>Zunaechst die &#8222;Kernfamilien&#8220;. In den 2020 Daten ist der Grund fuer den Unterschied bei (sehr) kleinen Linkleveln zwischen den roten (neuer Algorithmus) und den grauen (alter Algorithmus) Punkten ein anderer als oben erklaert (wobei Obiges mglw. auch eine kleine Rolle spielt). Vielmehr kommt der Unterschied durch eine Aenderung im Algorithmus an sich zustande, denn Ketten mit zwei oder weniger Seite werden jetzt &#8222;rausgeschmissen&#8220;. Und tatsaechlich, wenn ich eine Stichprobe bei LL<sub>5<\/sub> mache (das Maximum in der Linkfrequenz ist also NACH LL<sub>5<\/sub>), dann finde ich urst viele aussortierte Zwei-Seiten-Ketten mit dem gleichen &#8222;Familiennamen&#8220;. Ich hab das jetzt nicht nachgezaehlt, aber mein Bauchgefuehl sagt mir, dass das schon hinhaut.<br \/>\nDer selbe Prozess stoppt aber nicht bei h\u00f8heren Linkleveln sondern passiert immer und immer wieder genau dann, wenn die Anzahl der &#8222;Mitglieder&#8220; einer regulaeren Familie auf zwei zusammenschrumpft. Das sieht man aber natuerlich nicht im Diagramm, weil ein Unterschied von zwei Seiten von den dicken roten Quadraten ueberdeckt wird.<\/p>\n<p>Jetzt erstmal schnell zu den &#8222;Anhaengern&#8220; in den 2020 Daten: alter und neuer Algorithmus liefern die gleichen Resultate. Unterschiede ergeben sich aus dem eben Beschriebenen: wenn eine Familie zu klein wird, wird diese nicht mehr als Familie angesehen und ihr werden damit auch keine &#8222;Anhaenger&#8220; zugeteilt.<\/p>\n<p>Jetzt die 2023 Daten (blaue Punkte). Ich erwaehnte bereits, dass dies durch eine deutliche geaenderte Datengrundlage zustande kommt. Und ich muss eigentlich auch nur die Besonderheiten der &#8222;Meshir-Kette&#8220; betrachten, um die Form der blauen Kurve im rechten oberen und linken unteren Diagramm zu erklaeren.<br \/>\nDer neue Algorithmus findet zunaechst alle Seiten einer Kette. Danach werden regulaere Familien daran erkannt, dass die den gleichen Titel haben. Der gleiche Titel wird via eines Histogramms der W\u00f8rter in ALLEN Titeln der Seiten der Kette bestimmt. Die W\u00f8rter mit den meisten &#8222;Treffern&#8220; in besagtem Histogramm werden als der &#8222;Familienname&#8220; angesehen. Danach werden die Seiten welche ALLE W\u00f8rter des Familiennamens im Titel haben der &#8222;Kernfamilie&#8220; zugeordnet. Alle Seiten wo das nicht der Fall ist werden als Anhaenger angesehen. Das funktioniert sehr gut bei Familien die solch eine Namensstruktur haben wie unser guter alter Bekannter, das \u201eS\u00e3o-Paulo-FC-Artefakt\u201c (alle Titel gleich, bis auf eine Jahreszahl). Die allermeisten regularen Familien verhalten sich auch tatsaechlich so.<\/p>\n<p>Bei der Meshir-Kette ist das jetzt anders. Alle Monate haben gleich viele Tage und damit (zunaechst) gleich viele Seiten in der Kette. Das heiszt, der Algorithmus erkennt, dass der Familienname (zu Recht), &#8222;Meshir&#8220;, &#8222;Tobi&#8220;, &#8222;Koiak&#8220; und &#8222;Paremhat&#8220; zur gleichen Zeit enthalten muss (weil diese W\u00f8rter alle gleichhaeufig vorkommen) \u2026 was natuerlich nicht geht, weswegen hier (zu Recht) eine regulaere Familie erkannt wird, aber ohne Kernfamilie sondern nur mit Anhaengern. Die Seiten der Meshir-Kette werden im obigen rechten Diagramm also zunaechst gar nicht mitgezaehlt und deswegen geht die blaue Kurve runter, weil immer mehr Kernkettenseiten &#8222;rausfallen&#8220;.<br \/>\nJe h\u00f8her das Linklevel umso mehr Seiten fallen auch aus der Meshir-Kette raus. Wenn dann bspw. &#8222;Paremhat&#8220; ein Mal seltener im Histogramm auftritt als &#8222;Meshir&#8220;, &#8222;Tobi&#8220; und &#8222;Koiak&#8220;, wird &#8222;Paremhat&#8220; als Teil des Familiennames gestrichen. Das geht immr so weiter, bis tatsaechlich NUR noch &#8222;Meshir&#8220; den Spitzenplatz im Histogramm einnimmt und der Familienname dann NUR noch aus &#8222;Meshir&#8220; besteht.<\/p>\n<p>Wenn das von LL<sub>36<\/sub> zu LL<sub>37<\/sub> passiert, kann der Algorithmus pl\u00f8tzlich Seiten einer Kernkette zuordnen (eben alle eigentlichen Meshir-Seiten) und es kommt zu einem Sprung in den beiden blauen Kurven. Nach oben bei der Anzahl der Kernfamilienseiten (dahin werden die Meshir-Seiten pl\u00f8tzlich einsortiert) und nach unten bei den Anhaengern (denn da zaehlen die Meshir-Seiten pl\u00f8tzlich nicht mehr mit dazu). Der Sprung betraegt nicht genau 30, weil die Dynamik der Kurve ja auch von anderen Seiten abhaengig ist.<\/p>\n<p>P\u00f8\u00f8\u00f8\u00f8h \u2026 was fuer ein Ritt \u2026 an der Stelle hab ich mich entschieden diesbezueglich doch noch einen dritten Artikel folgen zu lassen.<\/p>\n<p>Aber das rechte untere Diagramm, die Seiten in Patchworkfamilien, muss noch kurz besprochen werden. Hier sind die roten und blauen Punkte beinahe deckungslgleich \u2026 es gibt naemlich keinen &#8222;Mesir-Fall&#8220;, die Datengrundlage ist also sehr aehnlich.<\/p>\n<p>Man sieht aber einen systematischen Unterschied von einem Faktor ca. zwei bis ca. vier zum alten Algorithmus. Fuer (sehr) kleine Linklevel ist der obige Grund sicherlich wieder, dass durch die Suchparameteraenderung weniger &#8222;Muell&#8220; eingesammelt wird.<br \/>\nZunaechst wuerde ich vermuten, dass das aber nicht die Erklaerung fuer die spaetere Diskrepanz sein (denn wie gesagt, irgendwann erkennen alter und neuer Algorithmus die selbe Anzahl an Kettenseitenkandidaten). Dann sehe ich aber, dass die rote Kurve sowieso nur bis ungefaehr in den Bereich geht wo alter und neuer Algorithmus unterschiedlich viele Seiten erkennen. Mglw. ist das also doch ein Teil der Erklaerung fuer den Unterschied, zusammen mit der Tatsache, dass Zwei-Seiten-Ketten rausfliegen. Ich wuerde das als des Raetsels L\u00f8sung anerkennen\u00a0 \u2026 das muesste aber wer anderes genauer untersuchen.<\/p>\n<p>Kurios sind in den alten Daten die (grauen) Punkte um LL<sub>42<\/sub>. Denn die haben einen Wert von eins \u2026 h\u00f8h? &#8222;Ketten&#8220; mit einer Seite? das geht doch gar nicht \u2026 doch doch, das geht im alten Algorithmus, denn es gibt Seiten die sich selbst zitieren und damit als &#8222;Patchworkfamilien&#8220; (falsch) &#8222;erkannt&#8220; werden, weil sie ja von einer potentiellen Kettenseite (eben sich selber) zitiert werden. Und das zieht sich nicht durch von kleineren Linkleveln, weil das mglw. urpsruenglich zu regulaeren Familien geh\u00f8rende Seiten waren \u2026 oder sowas.<\/p>\n<p>Aber das ist nun wirklich genug fuer heute.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nach den theoretischen Vorbetrachtungen zu den Aenderungen bzgl. der Reproduktion der thematisch zusammenhaengenden Ketten vom letzten Mal, kann ich heute ohne Umschweife sofort mit den Resultaten loslegen. Im linken Diagramm \u2026 \u2026 sieht man die Anzahl der &#8222;regulaeren Familien&#8220;, also solche Ketten von Wikipediaseiten die alle (fast) den gleichen Titel haben (welcher im Wesentlichen dem [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/14806"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=14806"}],"version-history":[{"count":7,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/14806\/revisions"}],"predecessor-version":[{"id":14823,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/14806\/revisions\/14823"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=14806"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=14806"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=14806"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}