{"id":13113,"date":"2023-10-19T13:37:55","date_gmt":"2023-10-19T11:37:55","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13113"},"modified":"2023-04-19T14:44:50","modified_gmt":"2023-04-19T12:44:50","slug":"kevin-bacon-lvi-qualitativ-stimmts","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/10\/kevin-bacon-lvi-qualitativ-stimmts\/","title":{"rendered":"Kevin Bacon &#8211; LVI &#8211; qualitativ stimmt&#8217;s"},"content":{"rendered":"<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13091\" target=\"_blank\" rel=\"noopener\">Beim letzten Mal<\/a> erklaerte ich, dass man mittels der Anzahl den \u201eVolumenanteil\u201c der Kettenseiten an allen Zitaten als Ordnungsparameter gewinnen kann. Ich zeigte wie sich die Anzahl der zitierten Seiten entwickelt und schloss mit drei Problemen ab:<\/p>\n<blockquote><p>Zum Ersten zitieren Kettenseiten auch andere Seiten. Zum Zweiten bewegt sich das Ensemble nicht als <a href=\"https:\/\/en.wikipedia.org\/wiki\/Dirac_delta_function\" target=\"_blank\" rel=\"noopener\">Diracsche \u03b4-Funktion<\/a> durch die Kette, sondern mit endlicher Breite (es kommt also zum Ueberlapp bei den Zitaten). Zum Dritten gibt es mehr als eine Kette.<\/p><\/blockquote>\n<p>Bzgl. der zitierten Seiten an sich ist das nicht so schlimm, muss aber diskutiert werden bzgl. des &#8222;Volumenanteils&#8220; der Kettenseiten an allen Zitaten.<br \/>\nErsteres ist handhabbar, denn der Anteil der Ketten an allen zitierten Seiten ist bei fruehen Linkleveln sehr klein, und bei spaeten deutlich gr\u00f8szer. Fuer eine Abschaetzung nehme ich 5 Millionen Seiten am Anfang. Die Anzahl der Ketten ist unbekannt, aber aus <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13011\" target=\"_blank\" rel=\"noopener\">den Ergebnissen die ich habe<\/a>\u00a0 _ueber_abschaetze ich die auf 5000 fuer kleine Linklevel. Wenn man das so macht, erhaelt man einen &#8222;Volumenanteil&#8220; von 0.1 %.<br \/>\n<em>Nota bene<\/em>: hier darf man NICHT die Anzahl aller Kettenseiten nehmen sondern nur die Anzahl der Ketten, denn auf jedem Linklevel (auch auf kleinen) wird immer nur eine Seite (oder zwei) einer Kette zitiert \u2026 \u2026 \u2026 OKOK, streng genommen muesste man die Anzahl der Familien mit der Breite des jeweiligen Kettensignals multiplizieren; das waere aber nur ein konstanter Faktor fuer alle Linklevel und kann somit weggelassen werden)<br \/>\nBei hohen Linkleveln gibt es NUR noch Ketten. Jede von diesen <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/05\/kevin-bacon-xx-sauberes-groszvieh\/\" target=\"_blank\" rel=\"noopener\">zitiert im Durchschnitt<\/a> 10 bis 30 andere Seiten was ich zu 50 Zitaten _ueber_abschaetze. Das fuehrt zu einem Volumenanteil von 2 %. Das ist immer noch wenig, aber fast anderthalb Gr\u00f8szenordnungen besser und ich denke durchaus &#8222;messbar&#8220;.<br \/>\nBei einer realistischen Abschaetzung (weniger Familien am Anfang und weniger durchschnittliche Zitate per Seite) verbessert sich das Signal um etwas mehr als zwei Gr\u00f8szenordnungen.<\/p>\n<p>Das Zweite Problem k\u00f8nnte man vermutlich durch extremes <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12818\" target=\"_blank\" rel=\"noopener\">Erbsenzaehlen<\/a> verhindern. Da habe ich aber sowas von gar keine Lust drauf und muss dann halt damit leben, dass das Signal insb. bei h\u00f8heren Linkleveln stark schwankt. So lange das qualitativ alles stimmt, reicht mir das und ich tue einfach so, als wenn sich das Ensemble wie eine Diracsche \u03b4-Funktion durch die Ketten bewegt.<\/p>\n<p>Das dritte Problem ist massiv, denn ich kenne die Anzahl der Familien fuer kleine Linklevel nicht bzw. <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13011\" target=\"_blank\" rel=\"noopener\">enthaelt diese Zahl<\/a> waerend des Phasenuebergangs <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13055\" target=\"_blank\" rel=\"noopener\">gewisse Unsicherheiten<\/a>.<br \/>\nDie erste Sache kann ich aus den bereits oben verlinkten bisherigen Ergebnissen abschaetzen und ich setze die Anzahl Anzahl der Familien auf konstant 1000 fuer Linklevel kleiner LL<sub>9<\/sub>. Bzgl. der zweiten Sache k\u00f8nnte ich wieder durch Erbsenzaehlen die Unsicherheit minimieren \u2026 oder an die Sache herangehen wie ich es bezueglich des zweiten Problems mache: es reicht mir, wenn das qualitativ stimmt.<\/p>\n<p>Ach so, ganz wichtig ist das was ich <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13011\" target=\"_blank\" rel=\"noopener\">hier im &#8222;[w]ichtige[n] Einschub&#8220;<\/a> sagte. Denn auch wenn ich eine Kette nicht mehr erkenne, so bewegen sich die Nachzuegler noch drei weitere Linklevel darin und das muss man mitzaehlen. Das fuehrt dann bspw. dazu, dass bis LL<sub>11<\/sub> die Anzahl der Familien als 1000 angenommen wird.<\/p>\n<p>Nimmt man nun die Anzahl der Familien und dividiert diese durch die Anzahl der zitierten Seiten (beides pro Linklevel) erhaelt man den &#8222;Volumenanteil&#8220; der Kettenseiten an allen Zitaten (wie so oft dienen die Linien zwischen den Punkten nur zur Besserung Fuehrung des Auges):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/132_Volumenanteil__.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13111 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/132_Volumenanteil__.png\" alt=\"\" width=\"579\" height=\"449\" \/><\/a><\/p>\n<p>AHA! Das ist zwar alles ein bisschen krumm und schief, aber die Werte sind klein bei kleinen Linkleveln, nehmen ab LL<sub>9<\/sub> sehr schnell zu und erreichen schon bei LL<sub>12<\/sub> einen Plateauwert. Die Zunahme betraegt etwas mehr als eine Gr\u00f8szenordnung zwischen dem &#8222;Grundniveau&#8220; bei kleinem Linkleveln und dem ungefaehren Mittelwert des Plateaus (die graue, gestrichelte Linie ist NICHT der genaue, berechnete Mittelwert; die habe ich nur so Pi-mal-Daumen reingelegt). Besagte Zunahme ist also echt und so wie das qualitativ aussieht wuerde ich das von einem Ordnungsparameter erwarten.<br \/>\nWie erwartet schwankt der Plateuwert. Die Schwankungen betragen nur ca. einen Faktor zwei um den Mittelwert. Qualitativ kann man sagen, dass der Wert konstant ist \u2026 wie ich es von einem Ordnungsparameter erwarten wuerde. Das ist ein GANZ wichtiger Unterschied zur Anzahl der zitierten Seiten, welche ja auch bei groszen und ganz groszen Linkleveln stetig abnimmt (also NICHT konstant ist).<\/p>\n<p>Ich gehe nur bis LL<sub>66<\/sub> weil ich nur bis dort die Familien gezaehlt habe. Eigentlich geht das noch ein paar Linklevel weiter; siehe der Hinweis auf den &#8222;wichtigen Einschub&#8220; oben. Das tut aber nix zur Sache.<br \/>\nApropos ganz hohe Linklevel; ich wuerde NICHT sagen, dass der &#8222;Volumenanteil&#8220; ab LL<sub>50<\/sub> einen weiteren Sprung macht. Hier ist nur noch das \u201eS\u00e3o Paulo FC\u201c-Artefakt ueber UND dessen Signal in der Linkfrequenz ueberlappt ueber mehrere Jahre. Ab LL<sub>50<\/sub> wird demnach nur noch eine Familie durch die Zitate aller (ueberlappenden) Jahre geteilt. Weil dann aber mehr und mehr Vorlaefer &#8222;raus fallen&#8220; nimmt der Teiler irgendwann immer mehr ab und das sieht aus wie&#8217;n stetiger Anstieg.<\/p>\n<p>Eine Sache bleibt noch und das ist der kleine Absolutwert des Plateaus. Bei &#8222;Volumenanteil&#8220; wuerde ich erwarten, dass der gegen Eins geht, die gestrichelte Linie liegt aber bei 0.002, also 1\/500 von 1.<br \/>\nDas machte mich etwas stutzig aber zumindest einen Teil des Raetsels konnte ich schnell l\u00f8sen und ist wieder &#8222;nur&#8220; Problem #2. Wenn sich das Ensemble durch die Ketten bewegt tut es das eben nicht wie eine Diracsche \u03b4-Funktion. Vielmehr sind immer mehrere Kettenseiten &#8222;aktiviert&#8220; weil die Antwortfunktion (in Form der Linkfrequenz) eine endliche Breite hat. Bei obigen Betrachtungen habe ich diesen Aspekt ja mit Absicht auszer Acht gelassen. Ich wuerde sagen, dass 10 Linklevel im Schnitt ueberdeckt werden \u2026 eigtl. 11 mit Reflexionen (von denen ich annehme, dass die meistens auftreten) und 9 ohne Reflexion und dann weniger wenn man sich dem Ende einer Kette naehert \u2026 alles nicht so einfach, aber 10 Linklevel Ueberdeckung fuehlt sich brauchbar an und damit kann man leicht rechnen. Diesen Sachverhalt mit einbezogen wuerde die gestrichelte Linine bei 0.02 liegen.<\/p>\n<p>Nun wird fuer den &#8222;Volumenanteil&#8220; die Anzahl der Familien durch die Anzahl der zitierten Seiten geteilt. Bei einem Wert von 0.02 wuerde das aber durchschnittlich 50 zitierten Seiten entsprechen. Das liegt zwar immer noch innerhalb meiner ersten (konservativen) Abschaetzung waere aber ca. einen Faktor zwei gr\u00f8szer als was ich von normalen Wikipediaseiten annehmen wuerde. Und ehrlich gesagt, so k\u00f8nnte das schon so sein, denn die Ketten sind ja oft Listen die etwas aus einem bestimmten Jahr aufzaehlen. Ich griff zufaellig <a href=\"https:\/\/en.wikipedia.org\/wiki\/1885_in_Australian_literature\" target=\"_blank\" rel=\"noopener\">1885 in Australian literature<\/a> heraus und zaehle 31 Links \u2026 mhmmm \u2026 das liegt zwar an der oberen Grenze fuer normale Seiten aber doch noch ca. den Faktor 2 entfernt von 50.<br \/>\nDeswegen schaute ich mal systematisch und die Kettenseiten auf LL<sub>20<\/sub> (22 an der Zahl) haben im Durchschnitt tatsaechlich 40 Links. Fuer LL<sub>10<\/sub> sind es sogar 44 Links und von den dort gefundenen 1860 Kettenseiten (ACHTUNG: das <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13011\" target=\"_blank\" rel=\"noopener\">hier<\/a> und <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13055\" target=\"_blank\" rel=\"noopener\">hier<\/a> Gesagte gilt aber fuer eine Abschaetzung muss ich das nicht betrachten \u2026 zumal die &#8222;falschen Ketten&#8220; (und deren Links) ja sowieso in der obigen Rechnung mit benutzt werden) haben ueber 15 % mehr als 50 Links. So hat bspw. die <a href=\"https:\/\/en.wikipedia.org\/wiki\/List_of_members_of_the_3rd_Jatiya_Sangsad\" target=\"_blank\" rel=\"noopener\">List of members of the 3rd Jatiya Sangsad<\/a> 605 Links. Wenn das oft genug passiert, wird der (durchschnittlichen) Wert des Divisors fuer den &#8222;Volumenanteil&#8220; genug angehoben um naeher an die 50 zu kommen.<br \/>\nWieauchimmer, 40 oder 44 durchschnittliche Links pro Kettenseite bring die gestrichelte Linie nahe genug an die Eins, sodass ich diese Diskrepanz als gel\u00f8st betrachte.<\/p>\n<p>Dies alles besprochen halte ich fest, dass man als einen (!) Ordnungsparamater den &#8222;Volumenanteil&#8220; der Kettenseiten an allen Zitaten hernehmen kann UND dass dieser sich so verhaelt wie man das erwarten wuerde. Leider ist der &#8222;Volumenanteil&#8220; umstaendlich zu berechnen und mit gewissen Nachteilen behaftet. Deswegen stellt sich die Frage: geht das nicht auch einfacher? \u2026 Und die Antwort ist JA! Sogar ueberraschend viel einfacher. Aber das muss genau diskutiert und mit einem bestaetigten Ordnungsparameter (dem &#8222;Volumenanteil&#8220;) verglichen werden, weswegen ich das auf das naechste Mal verschiebe.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim letzten Mal erklaerte ich, dass man mittels der Anzahl den \u201eVolumenanteil\u201c der Kettenseiten an allen Zitaten als Ordnungsparameter gewinnen kann. Ich zeigte wie sich die Anzahl der zitierten Seiten entwickelt und schloss mit drei Problemen ab: Zum Ersten zitieren Kettenseiten auch andere Seiten. Zum Zweiten bewegt sich das Ensemble nicht als Diracsche \u03b4-Funktion durch [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13113"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13113"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13113\/revisions"}],"predecessor-version":[{"id":13123,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13113\/revisions\/13123"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13113"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13113"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13113"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}