{"id":13335,"date":"2024-01-19T13:37:11","date_gmt":"2024-01-19T11:37:11","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13335"},"modified":"2024-01-02T19:03:16","modified_gmt":"2024-01-02T17:03:16","slug":"kevin-bacon-lxi-fast-vergessen-zum-ersten-neue-links","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2024\/01\/kevin-bacon-lxi-fast-vergessen-zum-ersten-neue-links\/","title":{"rendered":"Kevin Bacon &#8211; LXI &#8211; Fast vergessen zum Ersten (neue Links)"},"content":{"rendered":"<p>Da schrieb ich beim letzten Mal, dass \u2026<\/p>\n<blockquote><p>[i]ch [\u2026] mich darauf [freue], diese Maxiserie nach fast drei Jahren abzuschlieszen<\/p><\/blockquote>\n<p>und prompt faellt mir auf, dass im <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/04\/kevin-bacon-i-vorwort\/\" target=\"_blank\" rel=\"noopener\">allerersten Beitrag<\/a> nur eine einzige Frage konkret \u2026 nun ja \u2026 nicht gestellt wird, sondern ich sag jetzt mal im Raum haengt und ich die nie behandelt habe.<br \/>\nSo ziemlich alles was ich behandelte &#8222;erzaehlten&#8220; mir die Daten selbst und ich musste die zu den Antworten geh\u00f8renden Fragen oft genug erstmal finden. Was natuerlich erklaert, warum ich besagte Frage bisher nicht behandelt habe, denn ich stellte sie ja nicht konkret und die Antwort dazu ist bisher nicht &#8222;aus den Daten gefallen&#8220;.<\/p>\n<p>Worueber rede ich eigentlich? Nun ja, im ersten Beitrag gab ich an, wie man von Trondheim zu Kevin Bacon gelangt und tue das sogleich als wenig von Interesse ab:<\/p>\n<blockquote><p>[f]uer so ein paar konkrete Fragen war dieses Spielzeug ganz nett.<\/p><\/blockquote>\n<p>Vielmehr \u2026<\/p>\n<blockquote><p>[\u2026] wollte [ich] wissen, wie alles mit allem anderen zusammenhaengt.<\/p><\/blockquote>\n<p>Die im Raum haengende, nicht gestellte, konkrete Frage ist dann natuerlich: wieviele &#8222;Schritte&#8220; braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?<br \/>\nUnd ich muss sogleich sagen, dass ich diese Frage NICHT direkt (!) beantworten kann, denn dafuer habe ich die Daten nicht.<\/p>\n<p>Fuer eine direkte Beantwortung waere es fuer jede Seite n\u00f8tig zu wissen, wann diese von jeder anderen Seite gesehen wird. Theoretisch kann man diese Information sammeln, das wuerde aber ein (dreidimensionales) Datenfeld der Gr\u00f8sze 6 Millionen zum Quadrat mal 100 erfordern \u2026 jede Seite zu jeder anderen Seite mal die Anzahl der erwarteten Linklevel.<br \/>\nDas ist der technische Grund gewesen, warum ich die <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/04\/kevin-bacon-xvii-groszen-von-interesse-b\/\" target=\"_blank\" rel=\"noopener\">Linkfrequenz<\/a> einfuehrte (die sich spaeter auf verschiedenste Weisen als extrem erfolgreich herausstellte). Bei der Linkfrequenz handelt es sich um eine Art &#8222;Projektion&#8220; (mit (gewaltiger) Informationsminderung) des originalen 3D-Datenfeldes auf nur 2 Dimensionen, was die ben\u00f8tigte Gr\u00f8sze um mehr als sechseinhalb Gr\u00f8szenordnungen vermindert (nur noch 6 Millionen mal 100). Dennoch erfordert das immer noch ca. 2 GB Arbeitsspeicher \u2026 womit man sich ausrechnen kann, dass die originale Idee ungefaehr 10 Petabyte (!) RAM braucht. Sportlich, nicht wahr.<br \/>\nJaja, man k\u00f8nnte das originale Problem immer nur eine Seite auf einmal machen, dann reichen auch 2 GB RAM \u2026 aber das Ergebniss will ja auch gespeichert werden zur nachfolgenden weiteren Analyse \u2026 und da braucht man dann doch wieder die 10 Petabyte (nur nicht als RAM sondern auf der Festplatte).<\/p>\n<p>Wieauchimmer, ich kann die Frage gluecklicherweise indirekt angehen und meiner Meinung nach auch zufriedenstellend beantworten. Dafuer sind endlich mal die neuen Links pro Linklevel von Interesse (die ja bisher eher weniger &#8222;fruchtbar&#8220; waren) und (wieder einmal) die Linkfrequenz. Aber wie immer ist das zumindest in Teilen nicht so einfach.<\/p>\n<p>Ich beginne mit der Anzahl der neuen Links pro Linklevel. Korrekter: mit der Summe dieser Gr\u00f8sze ueber alle Seiten und das Ganze per Linklevel. Das wurde <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/09\/kevin-bacon-xxv-das-ende\/\" target=\"_blank\" rel=\"noopener\">hier schonmal gezeigt<\/a> und die diagrammisierte das bis LL<sub>10<\/sub> mit linearer (linker) Ordinate in diesem Bild als schwarze Kurve nochmals (man beachte das schwarze (!) &#8222;x10<sup>12<\/sup>&#8222;, welches ausdrueckt, dass die Werte fuer die schwarze Kurve damit multipliziert werden muessen um die (tatsaechliche) Anzahl der neuen Links (pro Linklevel) zu erhalten \u2026 das ist aber im hiesigen Zusammenhang eher eine Formalitaet, da mich der Wert an sich ja gar nicht weiter interessiert):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/150_cumulative_ratio_of_new_links_seen__.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13530 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/150_cumulative_ratio_of_new_links_seen__.png\" alt=\"\" width=\"620\" height=\"455\" \/><\/a><\/p>\n<p>Zur Erinnerung: von einer Urpsrungsseite ausgehend, druecken die neuen Links auf jedem Linklevel aus, wieviele von allen Links die ich auf dem gegebenen Linklevel sehe, auf keinem vorherigen Linklevel auftauchten. Das (bestimmte) Integral unter dieser Kurve ergibt dann die Anzahl aller Wikipediaseiten (unabhaengig von der Ursprungsseite). Das Integral der obigen schwarzen Kurve ist dann also die Anzahl aller Wikipediaseiten zum Quadrat (da die Kurve ja das Summensignal ueber alle Seiten ist).<\/p>\n<p>Kurzer Einschub und Achtung: ich lasse in allen Betrachtungen diesbezueglich die Archipele auszer acht \u2026 die haben natuerlich ein gr\u00f8szeres Integral weil die ja zumindest Teile des Archipels UND das grosze &#8222;Gesamtnetzwerk&#8220; sehen, wohingegen die Seiten im Gesamtnetzwerk keine Archipelseiten sehen. Das sollte aber keinen all zu groszen Unterschied machen.<\/p>\n<p>Wenn ich nun besagtes Summensignal durch das Integral unter der Kurve teile, dann erhaelt man den durchschnittlichen Anteil der Wikipediaseiten die eine Seite auf einem Linklevel NEU sieht. Wenn man das dann von einem Linklevel zum naechsten aufaddiert, so sagt dieser kumulative Anteil ganz direkt und ohne Umschweife aus, wieviel Prozent aller Wikipediaseiten im Durchschnitt bis zu dem gegebenen Linklevel gesehen wurden.<\/p>\n<p>Dieser kumulative Anteil ist in der roten Kurve dargestellt und der geht natuerlich bis 100 % (mehr als alle Seiten sehen geht nicht). Fuer die (nicht gestellte) Frage des allerersten Beitrags von Interesse ist, wenn dieser kumulative Anteil 50 % ueberschreitet; wenn es also einem Muenzwurf entspricht, ob bei einer gegebenen Ursprungsseite eine andere Seite schon erreicht wurde.<\/p>\n<p>An der roten Kurve kann man ablesen, dass das im Durchschnitt zwischen dem dritten und vierten Linklevel passiert. Wobei der Wert auf LL<sub>3<\/sub> mit 35 % bereits recht grosz ist und meine Stichproben aus dem allerersten Beitrag \u2026<\/p>\n<blockquote><p>[\u2026] nach mehreren Versuchen [habe ich] immer drei Verbindungen (in seltenen Faellen zwei oder vier) [erhalten] \u2026<\/p><\/blockquote>\n<p>\u2026 zu bestaetigen scheint.<\/p>\n<p>Kurzer Einschub: <a href=\"https:\/\/www.sixdegreesofwikipedia.com\/\" target=\"_blank\" rel=\"noopener\">sixdegreesofwikipedia.com<\/a> benutzt die gesamte Wikipediaseite um die Wege zwischen zwei Seiten zu finden zu finden; also auch die langen Listen mit oftmals nichtmal relatierten Links die am Ende einer Wikipediaseite auftauchen. Ich hingegen schmeisze insbesondere (aber icht nur) Letztere bei meiner Analyse raus, weil mich nur die &#8222;Konversation&#8220;, also der eigentliche Text, interessiert. Das hat zur Folge, dass der kumulative Anteil &#8222;meiner&#8220; Wikipedia ein bisschen nach rechts verschoben sein sollte, weswegen die rote Kurve auf LL<sub>3<\/sub> erst 35 % hat, waehrend mir die Stichproben das Gefuehl geben, dass ich schon ueber 50 % lag.<\/p>\n<p>So weit so gut. Das ist aber nur die eine Richtung; wieviele Schritte muss eine Seite im Durchschnitt machen um irgendeine andere Seite zu sehen. Im Durchschnitt sollte das auch andersrum gelten, also wieviele Schritte muessen ANDERE Seiten machen um die eine Seite zu sehen \u2026<\/p>\n<p>\u2026 aber fuer spezifische Seiten gilt das nicht zwangslaeufig. So <a href=\"https:\/\/www.sixdegreesofwikipedia.com\/?source=Magdeburg&amp;target=Pencil\" target=\"_blank\" rel=\"noopener\">braucht man<\/a> drei Schritte um von <a href=\"https:\/\/en.wikipedia.org\/wiki\/Magdeburg\" target=\"_blank\" rel=\"noopener\">Magdeburg<\/a> nach <a href=\"https:\/\/en.wikipedia.org\/wiki\/Pencil\" target=\"_blank\" rel=\"noopener\">Pencil<\/a> zu gelangen, aber man schafft den <a href=\"https:\/\/www.sixdegreesofwikipedia.com\/?source=Pencil&amp;target=Magdeburg\" target=\"_blank\" rel=\"noopener\">Rueckweg<\/a> mit nur zwei Schritten<\/p>\n<p>Hier kommt nun die Linkfrequenz ins Spiel, denn diese misst auf welchen Linklevel eine gegebene Seite von anderen Seiten gesehen wird (also der &#8222;Rueckweg&#8220; der Situation die den neuen Links entspricht). Leider schlaegt die oben erwaehnte Informationsminderung (die vonn\u00f8ten war um eine derartige Gr\u00f8sze ueberhaupt zu messen) hier voll zu. Die Interpretation der Daten scheint zwar einfach und &#8222;geradeaus&#8220;, aber das muss im Detail betrachtet werden, damit man auch wirklich versteht, warum das rauskommt, was rauskommt.<br \/>\nWeswegen ich das auf das naechste Mal verschiebe.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Da schrieb ich beim letzten Mal, dass \u2026 [i]ch [\u2026] mich darauf [freue], diese Maxiserie nach fast drei Jahren abzuschlieszen und prompt faellt mir auf, dass im allerersten Beitrag nur eine einzige Frage konkret \u2026 nun ja \u2026 nicht gestellt wird, sondern ich sag jetzt mal im Raum haengt und ich die nie behandelt habe. [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13335"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13335"}],"version-history":[{"count":7,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13335\/revisions"}],"predecessor-version":[{"id":13533,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13335\/revisions\/13533"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13335"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13335"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13335"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}