{"id":13553,"date":"2024-02-13T13:37:41","date_gmt":"2024-02-13T11:37:41","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13553"},"modified":"2024-01-08T00:30:52","modified_gmt":"2024-01-07T22:30:52","slug":"kevin-bacon-lxi-fast-vergessen-zum-dritten-untergruppen-analysieren","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2024\/02\/kevin-bacon-lxi-fast-vergessen-zum-dritten-untergruppen-analysieren\/","title":{"rendered":"Kevin Bacon &#8211; LXI &#8211; Fast vergessen zum Dritten (Untergruppen analysieren)"},"content":{"rendered":"<p>Die Frage &#8222;wie vielen Links muss eine Wikipediaseite im Durchschnitt folgen um eine andere Wikipediaseite zu sehen&#8220; wurde sowohl von der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13335\" target=\"_blank\" rel=\"noopener\">einen Richtung<\/a> (ausgehend von einer Seite), als auch von der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13502\" target=\"_blank\" rel=\"noopener\">anderen Richtung<\/a> (kommend von anderen Seiten) beantwortet. Beide Ergebnisse stimmen ueber alle Wikipediaseiten gesehen ueberein (zumindest so lange, wie &#8222;Mehrfachsichtungen&#8220; die Linkfrequenz nicht zu sehr dominieren).<br \/>\nAndererseits wissen wir, dass nicht alle Seiten gleich sind und es stellt sich dann die Frage, ob Seiten mit vielen Links (oder Zitaten) frueher beliebige andere Seiten sehen (von anderen Seiten gesehen werden), als Seiten mit wenigen Links (oder Zitaten). Rein logisch und auch intuitiv wuerde ich das mit Ja beantworten. Das will ich aber in den Daten sehen und deswegen arbeitete ich beim letzten Mal aus, wie bspw. &#8222;wenige Links&#8220; oder &#8222;mittelviele Zitate&#8220; objektiv zu interpretieren sind. Die entsprechenden Seiten wurden in die sechs Untergruppen UWL, UWZ, UML, UMZ, UVL und UMZ zusammengefasst.<\/p>\n<p>In den Abkuerzungen steht das &#8222;U&#8220; fuer &#8222;Untergruppe&#8220;, &#8222;W&#8220;, &#8222;M&#8220; und &#8222;V&#8220; fuer &#8222;wenige&#8220;, &#8222;mittelviele&#8220; und &#8222;viele&#8220; und &#8222;L&#8220; und &#8222;Z&#8220; ensprechend fuer &#8222;Links&#8220; und &#8222;Zitate&#8220;. Das ist leicht verstaendlich; dennoch gebe ich zwei Beispiele, denn ich werde ab sofort nur noch diese Abkuerzungen verwenden.<br \/>\nDie Seiten in der &#8222;UWL&#8220; kennzeichnen sich alle dadurch aus, dass sie \u2026 in der Tabelle vom letzten Mal nachschau \u2026 null bis maximal 5 \u2026 also <strong>W<\/strong>enige, <strong>L<\/strong>inks zu anderen Seiten haben. Wieviele Zitate die Seiten in der UWL haben ist aber NICHT festgelegt (das wird an spaeterer Stelle uebrigens nochmal wichtig).<br \/>\nDie Seiten in der &#8222;UMZ&#8220; kennzeichnen sich alle dadurch aus, dass sie 20 bis maximal 1000, also <strong>M<\/strong>ittelviele, <strong>Z<\/strong>itate zu anderen Seiten haben. Wieviele Links die Seiten in der UMZ haben ist NICHT festgelegt.<\/p>\n<p>Nach der Vorrede kann ich ohne weitere Abschwiffe gleich das erste Ergebniss zeigen. Dieses Diagramm zeigt, wie schnell die Seiten in den Untergruppen beliebige (!) andere Seiten (also auch die der eigenen Gruppe) sehen (die Linien dienen wieder nur der besseren Visualisierungen, denn es gibt keine gebrochenen Linklevel):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/154_subgroups_new_links.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13577 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/154_subgroups_new_links.png\" alt=\"\" width=\"599\" height=\"443\" \/><\/a><\/p>\n<p>Die Kurven beginnen natuerlich bei LL<sub>0<\/sub> und gehen deutlich weiter als bis LL<sub>6<\/sub>. Von Interesse ist aber nur der Punkt, an dem die Seiten in den Untergruppen (als (Untergruppen)Ensemble gesehen) im Durchschnitt die Haelfte aller Seiten gesehen haben. Zur Erinnerung: wenn man alle Seiten zusammen betrachtet, lag dieser Uebergang zwischen dem 3. und 4. Linklevel (aber etwas naeher an LL<sub>3<\/sub> als an LL<sub>4<\/sub>).<br \/>\nEs gibt natuerlich kein &#8222;zwischen&#8220; zwei Linkleveln. Das ist so zu verstehen, dass im Durchschnitt bis LL<sub>3<\/sub> die meisten Seiten noch NICHT 50 % aller anderen Seiten gesehen haben, waehrend auf LL<sub>4<\/sub> die meisten Seiten (im Durchschnitt) sehr wohl 50 % aller anderen Seiten gesehen haben.<br \/>\n&#8222;Naeher an LL<sub>3<\/sub>&#8220; ist so zu verstehen wie der Ordinatenwert fuer diese Stelle ist: bis dahin wurden (im Durchschnitt) fast 40 % aller anderen Seiten schon gesehen. Es sollten also bereits merkbar viele Seiten auftreten (aber noch nicht die Mehrzahl), bei denen (im uebetragenen Sinne) bereits ein Muenzwurf ausreicht um zu entscheiden ob (im Durchschnitt) eine beliebige andere Seiten gesehen wurde oder nicht. Waehrend die ueber 80 % auf LL<sub>4<\/sub> bedeuten, dass das Ensemble aller Seiten diesbezueglich einen riesigen Schritt gemacht hat und nun die Mehrzahl der Seiten (im Durchschnitt) vier von fuenf beliebigen andere Seiten gesehen hat.<\/p>\n<p>Hier nun sehen wir zwei wichtige Dinge:<br \/>\n1.: die Ergebnisse fuer die Gruppen (wenige, mittelviele, viele Links \/ Zitate) unterscheiden sich wie erwartet; Seiten mit mehr Links sehen eine beliebige andere Seite eher als Seiten mit weniger Links. Das war erwartet (siehe oben). Dennoch freut es mich, dass die Unterschiede so deutlich sind \u2026 ich waere etwas ratlos gewesen, wenn dem nicht so gewesen waere.<br \/>\n2.: die Ergebnisse fuer die der paarweisen Untergruppen liegen nahe genug beisammen, sodass ich das als &#8222;das ist innerhalb des Fehlers gleich&#8220; betrachten, und zunaechst nicht auseinanderklamuesern muss. Man sieht zwischen den paarweisen Untergruppen kleine Unterschiede (am gr\u00f8szten sind die fuer die zwei Gruppen mit den wenigen Links \/ Zitaten), aber darauf gehe ich an anderer Stelle ein.<\/p>\n<p>Prima! Nun andersrum: wie schnell werden die Seiten der Untergruppen von anderen Seiten gesehen:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/155_subgroups_link_frequency.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13580 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/155_subgroups_link_frequency-800x301.png\" alt=\"\" width=\"800\" height=\"301\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/155_subgroups_link_frequency-800x301.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/155_subgroups_link_frequency-1024x386.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/155_subgroups_link_frequency-768x289.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/155_subgroups_link_frequency.png 1195w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Im linken Diagramm zunaechst eine &#8222;gr\u00f8bere&#8220; Uebersicht um zu zeigen, dass die Untergruppen bzgl. des kumulativen Anteils jeweils h\u00f8here &#8222;Schlussprozente&#8220; erreichen. Zur Erinnerung: ueber alle Seiten gesehen wird im Durchschnitt ueber das gesamte Linknetzwerk aller Seiten jede Seite fast 2 1\/2 Mal von jeder anderen Seite gesehen.<br \/>\nFuer die Untergruppen war zu erwarten, dass die nach der Anzahl der (von anderen Seiten erhaltenen) Zitate sortierten Gruppen auch entsprechend h\u00f8here Schlussprozente haben. Ist ja logisch, eine Seite die nur ein Mal zitiert wird, wird letztlich auch nur ein Mal von allen anderen Seiten gesehen (wenn auch vermutlich auf unterschiedlichen Linkleveln). Eine Seite die 1000 Zitate von anderen Seiten erhaelt hat hingegen eine (hohe) Chance im Linknetzwerk einer Urpsrungsseite mehrfach aufzutreten und wird somit mehrfach von jeder (Ursprungs)Seite gesehen. Dieses Phaenomen spiegelt sich in den &#8222;Schlussplateaus&#8220; der hellfarbigen Kurven im linken Diagramm wider.<\/p>\n<p>Das gleiche Verhalten ist ebenso im Durchschnitt der Untergruppen zu erwarten, die nach der Anzahl der Links sortiert wurden. Zur Erinnerung: (im Durchschnitt!) gibt es (<a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/05\/kevin-bacon-xviii-groszvieh-macht-definitiv-mehr-mist-als-kleinvieh-zum-dritten\/\" target=\"_blank\" rel=\"noopener\">wie wir seit langem wissen<\/a>) einen Zusammenhang zwischen der Anzahl der Links und der Anzahl der Zitate, welche mittels eines maechtigen Gesetzes mit positivem Exponenten beschrieben werden kann. Das bestaetigt sich in der (normal) roten und (normal) blauen Kurve.<br \/>\nFuer die (normal) lila Kurve, also die Seiten der UVL, gilt dies jedoch nicht. Das ist ein wichtiger Unterschied und ich komme darauf an anderer Stelle zurueck.<\/p>\n<p>Im rechten Diagramm zeige ich den hier und heute interessanten Bereich von Nahem. Von den Ergebnissen fuer die UVL abgesehen gilt i.A. das Gleiche was ich bzgl. den Ergebnissen zum kumulativen Anteil der neuen Links sagte. Die Unterschiede sind deutlich zu sehen und verhalten sich wie erwartet. Paarweise gesehen sind die Kurven fuer die UWL \/ UWZ bzw. UML \/ UMZ zwar nicht so sch\u00f8n beisammen wie beim kumulativen Anteil der neuen Links aber hier und heute sind mir die Diskrepanzen klein enug genug um das innerhalb des Fehlers als das Gleiche zu betrachten. Letzteres gilt wie gesagt fuer die UVL und UVZ nicht.<\/p>\n<p>Somit ist fuer heute festzuhalten: Seiten die bestimmten Untergruppen zuzuordnen sind, verhalten sich anders und die Andersartigkeit ist i.A. wie erwartet.<br \/>\nNichtsdestotrotz gibt es unerwartete Unterschiede die erklaert geh\u00f8ren. Das dauerte eine Weile bis ich die Erklaerung beisammen hatte und ist das was ich in diesem Beitrag schon mehrfach andeutete. Mehr dazu beim naechsten Mal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die Frage &#8222;wie vielen Links muss eine Wikipediaseite im Durchschnitt folgen um eine andere Wikipediaseite zu sehen&#8220; wurde sowohl von der einen Richtung (ausgehend von einer Seite), als auch von der anderen Richtung (kommend von anderen Seiten) beantwortet. Beide Ergebnisse stimmen ueber alle Wikipediaseiten gesehen ueberein (zumindest so lange, wie &#8222;Mehrfachsichtungen&#8220; die Linkfrequenz nicht zu [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13553"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13553"}],"version-history":[{"count":10,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13553\/revisions"}],"predecessor-version":[{"id":13585,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13553\/revisions\/13585"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13553"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13553"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13553"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}