{"id":13528,"date":"2024-02-07T13:37:50","date_gmt":"2024-02-07T11:37:50","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13528"},"modified":"2024-01-07T22:04:39","modified_gmt":"2024-01-07T20:04:39","slug":"kevin-bacon-lxi-fast-vergessen-zum-dritten-untergruppen-definieren","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2024\/02\/kevin-bacon-lxi-fast-vergessen-zum-dritten-untergruppen-definieren\/","title":{"rendered":"Kevin Bacon &#8211; LXI &#8211; Fast vergessen zum Dritten (Untergruppen definieren)"},"content":{"rendered":"<p>Beim <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13502\" target=\"_blank\" rel=\"noopener\">letzten Mal<\/a> kuendigte ich eine Untergruppenanalyse an \u2026 natuerlich mit Blick auf die Frage wieviele Schritte eine Seite im Durchschnitt machen muss um eine andere Seite zu erreichen.<\/p>\n<p>Bzgl. der Untergruppen schrieb ich zunaechst was von &#8222;wichtigen&#8220; und &#8222;unwichtigen&#8220; Seiten, aber das sind natuerlich schwer (bzw. gar nicht) zu quantifizierende Begriffe.<br \/>\nHier kommt mir nun zu Hilfe, dass ich mich bereits an einem aehnlich schwer zu quantifizierenden Begriff, <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?s=messbare+relevanz\" target=\"_blank\" rel=\"noopener\">naemlich der Relevanz<\/a>, abgearbeitet habe. Dort nahm ich einen &#8222;Umweg&#8220; ueber die Anzahl der Zitate die eine Seite erhielt um dieser dann einen &#8222;Relevanzwert&#8220; zuzuordnen. Ungefaehr so mache ich das hier auch.<\/p>\n<p>Wie in den letzten beiden Artikeln dargelegt muss die Frage aus zwei &#8222;Richtungen&#8220; beantwortet werden; wie schnell erreicht eine Seite andere Seite und wie schnell erreichen andere Seiten (die) eine Seite.<br \/>\nDie Zugeh\u00f8rigkeit einer Seite zu einer bestimmten Gruppe laeszt sich dann durch die Anzahl der Links die die Seite hat bzw. die Zitate die diese (direkt) von anderen Seiten bekommt bestimmen. Anstatt Gruppen fuer &#8222;unwichtige&#8220;, &#8222;mittelwichtige&#8220; und &#8222;wichtige&#8220; Seiten habe ich nun also Gruppen fuer Seiten mit &#8222;wenigen&#8220;, &#8222;mittelvielen&#8220; und &#8222;vielen&#8220; Links bzw. Zitaten.<\/p>\n<p>Wieviele Links bzw. Zitate das jeweils sein muessen scheint zunaechst immer noch subjektiv zu sein, aber ich versuche heute darzulegen inwieweit das &#8222;objektiviert&#8220; werden kann (um mich dann beim naechsten Mal der eigtl. Untergruppenanalyse zu widmen).<br \/>\nDazu nehme ich <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/11\/kevin-bacon-x-vorne-hinten-links-rechts-oben-unten-links-b\/\" target=\"_blank\" rel=\"noopener\">zwei vorhergehende<\/a> Resultate <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/11\/kevin-bacon-xi-messbare-relevanz-a\/\" target=\"_blank\" rel=\"noopener\">zu Hilfe<\/a>: die Kurven der kumulativen Links \/ Zitate per Seite in (logarithmischer) Abhaengigkeit von der Anzahl eben diesen Links \/ Zitate.<\/p>\n<p>Zur Erinnerung: die Kurven berechnete ich aus den Histogrammen. Bei Letzteren war die Anzahl der <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/11\/kevin-bacon-x-vorne-hinten-links-rechts-oben-unten-links-a\/\" target=\"_blank\" rel=\"noopener\">Links pro Seite<\/a> bzw. <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/10\/kevin-bacon-ix-citation-not-missing-c-maechtige-gesetze\/\" target=\"_blank\" rel=\"noopener\">Zitate die eben diese erhielt<\/a> auf der Abzsisse abgetragen, waehrend die Ordinate nur &#8222;zaehlte&#8220;, wie oft eine Seite mit so vielen Links \/ Zitaten in der Wikipedia vorkommt.<br \/>\nFuer die &#8222;kumulativen Kurven&#8220; wird die Abzisse beibehalten. Fuer jeden Wert auf der Abzsisse rechnete ich dann zunaechst das Produkt aus diesem Wert (also die Anzahl der Links \/ Zitate) mit dem entsprechenden &#8222;Zaehler&#8220; des Histogramms aus. Das Produkt deswegen, weil bspw. 23 Seiten mit jeweils 10 Links zum kumulative-Links-Signal 230 &#8222;Punkte&#8220; beitragen. Wie fuer kumulative Kurven ueblich, addierte ich schlussendlich die Werte von links (also null) beginnend auf und nach &#8222;Normierung&#8220; auf 100 % hatte ich die entsprechenden Diagramme.<\/p>\n<p>Von Interesse ist jetzt die S-Form der Kurven (bei logarithmischer Abzsisse). Es gibt drei deutlich unterscheidbare Bereiche.<br \/>\n&#8211; Einen Anfang, bei dem trotz der hohen Anzahl von Seiten das Signal nur sehr langsam ansteigt, weil diese nur sehr wenige Links \/ Zitate haben.<br \/>\n&#8211; Einen mittleren Bereich, in dem die Kurve linear ansteigt. Weil die Abzsisse logarithmisch ist, bedeutet das, dass &#8222;in Echt&#8220; der Anstieg der Kurve URST KRASS ist, trotzdem die Anzahl der Seiten nach einem maechtigen Gesetz abnimmt \u2026 obige Multiplikation ist dafuer verantwortlich.<br \/>\n&#8211; Ein Ende, in dem trotz der hohen Anzahl an Links \/ Zitaten das Signal (wieder) nur sehr langsam waechst, weil es da nur sehr wenige Seiten gibt die so viele Links \/ Zitate haben. Also die umgekehrte Situation zum Anfang.<\/p>\n<p>Diese drei Bereiche entsprechen den oberen Gruppen \u2026 wobei das Adjektiv &#8222;mittelviele&#8220; unguenstig gewaehlt ist \u2026 aber mir faellt kein anderes ein. Das folgende Diagramm verdeutlicht die Situation und macht (hoffentlich) klar, dass man die obige (zunaechst) subjektiv erscheinende Situation &#8222;objektivieren&#8220; kann (man beachte die unterschiedlichen Abzsissen):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/153_Subgroups.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13542 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/153_Subgroups.png\" alt=\"\" width=\"552\" height=\"508\" \/><\/a><\/p>\n<p>Die Tabelle enthaelt die &#8222;Kennwerte&#8220; fuer die drei gewaehlten Bereiche (wenige, mittelviele, viele) die dann in nochmal zwei Untergruppen (Anzahl Links oder Zitate) unterteilt sind:<\/p>\n\n<table id=\"tablepress-15\" class=\"tablepress tablepress-id-15\">\n<thead>\n<tr class=\"row-1 odd\">\n\t<th class=\"column-1\">Gruppe<\/th><th class=\"column-2\">||<\/th><th class=\"column-3\">Abkuerzung<\/th><th class=\"column-4\">Links von \u2026 bis<\/th><th class=\"column-5\">umfasst so viele Seiten<\/th><th class=\"column-6\">||<\/th><th class=\"column-7\">Abkuerzung<\/th><th class=\"column-8\">Zitierungen von \u2026 bis<\/th><th class=\"column-9\">umfasst so viele Seiten<\/th>\n<\/tr>\n<\/thead>\n<tbody class=\"row-hover\">\n<tr class=\"row-2 even\">\n\t<td class=\"column-1\">\"wenige\"<\/td><td class=\"column-2\">||<\/td><td class=\"column-3\">U(ntergruppe) W(enige) L(inks) = UWL<\/td><td class=\"column-4\">0 \u2026 5<\/td><td class=\"column-5\">778,958 (13.43 %)<\/td><td class=\"column-6\">||<\/td><td class=\"column-7\">U(ntergruppe) W(enige) Z(itate) = UWZ<\/td><td class=\"column-8\">0 \u2026 3<\/td><td class=\"column-9\">2,198,825 (37.92 %)<\/td>\n<\/tr>\n<tr class=\"row-3 odd\">\n\t<td class=\"column-1\">\"mittelviele\"<\/td><td class=\"column-2\">||<\/td><td class=\"column-3\">UML<\/td><td class=\"column-4\">16 \u2026 100<\/td><td class=\"column-5\">2,515,857 (40.9 %)<\/td><td class=\"column-6\">||<\/td><td class=\"column-7\">UMZ<\/td><td class=\"column-8\">20 \u2026 1k<\/td><td class=\"column-9\">1,149,358 (18.95 %)<\/td>\n<\/tr>\n<tr class=\"row-4 even\">\n\t<td class=\"column-1\">\"viele\"<\/td><td class=\"column-2\">||<\/td><td class=\"column-3\">UVL<\/td><td class=\"column-4\">1k \u2026 Schluss<\/td><td class=\"column-5\">2,380 (0.04 %)<\/td><td class=\"column-6\">||<\/td><td class=\"column-7\">UVZ<\/td><td class=\"column-8\">10k \u2026 Schluss<\/td><td class=\"column-9\">703 (0.01 %)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<!-- #tablepress-15 from cache -->\n<p>Am Diagramm und den Zahlen in der Tabelle sieht man, dass die Gruppen NICHT identisch sind, ja deutliche Unterschiede aufweisen. Das fetzt, macht es das ganze naemlich interessant.<br \/>\nNatuerlicherweise befinden sich viele der Seiten die nach der Anzahl der Links eingruppiert wurden auch in der gleichen Gruppe bezueglich der Zitate. Der Grund liegt im <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/05\/kevin-bacon-xviii-groszvieh-macht-definitiv-mehr-mist-als-kleinvieh-zum-dritten\/\" target=\"_blank\" rel=\"noopener\">&#8222;maechtigen Zusammenhang&#8220;<\/a> zwischen der Anzahl der Links und der Anzahl der Zitate.<br \/>\nGenauer gesagt sind 562,474 der Seiten in der Gruppe mit wenigen Links auch in der Gruppe mit wenigen Zitaten. In den Gruppen mit den &#8222;mittelvielen&#8220; Links \/ Zitaten sind es 863,304 Seiten. Allerdings sind es nur 33 Seiten in der Gruppen mit den vielen Links \/ Zitaten. Letzteres erklaert sich daraus, dass in diesem Bereich der oben erwaehnte &#8222;maechtige Zusammenhang&#8220; fuer viele (die meisten?) der sich dort befindenden Seiten nicht mehr gilt.<\/p>\n<p>Das Verhalten dieser sechs Gruppen wird beim naechsten Mal jeweils paarweise analysiert. Die Statistik fuer die ersten beiden sollte gut genug sein, sodass ich dort trotz der Unterschiede nur geringe Diskrepanzen erwarte, was die &#8222;Richtung&#8220; der Beantwortung der Frage angeht.<br \/>\nAugrund des geringen Ueberlapps wuerde mich bei den Gruppen mit den vielen &#8222;Links \/ Zitaten unterschiedliche Resulte nicht verwundern \u2026 ich k\u00f8nnte mir sogar denken, dass die relativ grosz sind \u2026 aber das dann erst beim naechsten Mal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim letzten Mal kuendigte ich eine Untergruppenanalyse an \u2026 natuerlich mit Blick auf die Frage wieviele Schritte eine Seite im Durchschnitt machen muss um eine andere Seite zu erreichen. Bzgl. der Untergruppen schrieb ich zunaechst was von &#8222;wichtigen&#8220; und &#8222;unwichtigen&#8220; Seiten, aber das sind natuerlich schwer (bzw. gar nicht) zu quantifizierende Begriffe. Hier kommt mir [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13528"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13528"}],"version-history":[{"count":6,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13528\/revisions"}],"predecessor-version":[{"id":13575,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13528\/revisions\/13575"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13528"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13528"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13528"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}