{"id":13581,"date":"2024-02-23T13:37:36","date_gmt":"2024-02-23T11:37:36","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13581"},"modified":"2024-01-10T01:08:37","modified_gmt":"2024-01-09T23:08:37","slug":"kevin-bacon-lxi-fast-vergessen-zum-dritten-untergruppenunterschiede-erklaeren","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2024\/02\/kevin-bacon-lxi-fast-vergessen-zum-dritten-untergruppenunterschiede-erklaeren\/","title":{"rendered":"Kevin Bacon &#8211; LXI &#8211; Fast vergessen zum Dritten (Untergruppenunterschiede erklaeren)"},"content":{"rendered":"<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13553\" target=\"_blank\" rel=\"noopener\">Beim letzten Mal<\/a> zeigte ich (unzureichend vereinfachend und zusammenfassend), dass Seiten mit wenigen Links im Durchschnitt laenger brauchen um zu einer beliebigen anderen Wikipediaseite zu gelangen als Seiten mit vielen Links. Unter Beruecksichtigung der &#8222;umgedrehten Situation&#8220; gilt i.A. das Gleiche fuer Seiten mit vielen Zitaten.<br \/>\nDafuer hatte ich alle Wikipediaseiten <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13528\" target=\"_blank\" rel=\"noopener\">(paarweise) in Untergruppen eingeteilt<\/a> und mir das Verhalten eben jener genauer angeschaut. Besagtes Verhalten ist wie erwartet, zeigt aber kleinere Abweichungen (und mindestens eine gr\u00f8szere) die ich beim letzten Mal erwaehnte aber nicht weiter untersuchte (oder erklaerte).<br \/>\nEbenso liesz ich (mit Absicht) einen wichtigen Vergleich weg, denn ich zeigte nicht, inwiefern die Resultate fuer die beiden &#8222;Richtungen&#8220;, aus denen das Verhalten des kumulativen Anteils der neuen Links bzw. der Linkfrequenz betrachtet werden muss, uebereinstimmen. Ueber alle Seiten betrachtet sind die entsprechenden Kurven <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13502\" target=\"_blank\" rel=\"noopener\">(beinahe) deckungslgleich<\/a> (und sollten es auch sein) \u2026 zumindest fuer die fruehen Linklevel bei denen \u201eMehrfachsichtungen\u201c in der Linkfrequenz noch (sehr) selten vorkommen und eben diese damit fuer einen solchen Vergleich noch nicht unbrauchbar gemacht haben.<\/p>\n<p>Beide Sachen hole ich heute und beim naechsten Mal nach. Ich teile das auf zwei Artikel auf, denn ich beschraenke mich fuer diesen Artikel nur auf die Resultate fuer die Untergruppen mit wenigen Links bzw. Zitaten. Dies deswegen, weil ich zur Diskussion der Unterschiede (mal wieder) Verteilungen heranziehen muss, diese aber nicht auf die uebliche Art und Weise darstellen kann. Damit es dadurch nicht zu Verwirrungen kommt muss das genau diskutiert. Das macht den heutigen Artikel recht land und deswegen trenne ich das auf.<\/p>\n<p>Aber nun Butter bei die Fische! Der Vergleich der kumulativen Kurven fuer die beiden &#8222;Richtungen&#8220; fuer die Untergruppen mit wenigen Links (UWL) und wenigen Zitaten (UWZ):<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/156_small_subgroups_cumulative_new_links_and_link_frequency.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13594 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/156_small_subgroups_cumulative_new_links_and_link_frequency.png\" alt=\"\" width=\"554\" height=\"443\" \/><\/a><\/p>\n<p>AHA! Im Gegensatz zu dem was ich oben schrieb bzgl. aller Seiten, sind die Kurven hier definitv nicht (beinahe) deckungsgleich; nicht mal bis LL<sub>3<\/sub>! Ist ja interessant und daraus folgt, dass zwei Unterschiede in den Kurven erklaert werden muessen: 1. der Intragruppenabstand zwischen zwei Kurven die zu einer &#8222;Richtung&#8220; geh\u00f8ren und 2. der Intergruppenabstand zwischen den Kurven der zwei verschiedenen &#8222;Richtungen&#8220;.<\/p>\n<p>Dafuer muessen wir zurueck zu den Verteilungen der Links und\u00a0 Zitate gehen. Natuerlich nicht fuer alle Seiten sondern nur fuer die, die sich in den beiden Untergruppen befinden.<br \/>\nHier tut sich nun aber ein Problem auf mit Hinblick auf die Unterguppen mit den vielen Links \/ Zitaten. Diese enthalten naemlich nur wenige Seiten. Die entsprechenden Verteilung bspw. fuer die UVZ waeren dann nur 703 Striche die alle nur bis eins gehen. Auszerdem erfahren diese Striche auch noch &#8222;logarithmische Komprimierung&#8220; und &#8222;verschmieren ineinander&#8220;.<\/p>\n<p>Das ist zunaechst nix Schlimmes, denn fuer Histogramme fasst man oft ohnehin alle Messungen mit Werten (einer bestimmten Charakteristik, hier bspw. der Anzahl der Links) die nahe beisammen liegen in einem &#8222;Eimer&#8220; zusammen. Alle &#8222;Eimer&#8220; sind gleich grosz (bspw. 1 bis 5 Links, 6 bis 10 Links usw.)\u00a0 und das Histogramm selber zaehlt fuer jeden Balken dann wie viele Messungen in dem &#8222;Eimer&#8220; sind.<br \/>\nDie Wahl der Gr\u00f8sze dieser &#8222;Eimer&#8220; kann mitunter trickreich sein. Bisher brauchte ich das nicht machen, weil es so viele Wikipediaseiten gibt und die entsprechenden Verteilungen auch ohne &#8222;Eimer&#8220; aussagekraeftig waren. Bei nur (bspw.) 703 Seiten ist dem aber nicht mehr so.<\/p>\n<p>Die &#8222;Eimer&#8220; l\u00f8sen das erste Problem, die Balken der Verteilung wuerden bei gut gewaehlter &#8222;Eimergr\u00f8sze&#8220; unterschiedlich grosz ausfallen. Nun ist es aber so, dass die Abzsisse fuer die Histogramme (wie so oft) logarithmisch ist. Wenn man nicht gerade gigantische &#8222;Eimergr\u00f8szen&#8220; heran zieht, tritt also weiterhin das Problem der &#8222;logarithmischen Komprimierung&#8220; auf. Ganz davon abgesehen, dass wenn &#8222;Eimer&#8220; fuer hohe Gr\u00f8szenordnungen gewaehlt werden (bspw. von 100-tausend bis 110-tausend) die gleiche &#8222;Eimergr\u00f8sze&#8220; sich ueber mehrere Gr\u00f8szenordnungen bei kleinen Werten erstreckt (in diesem Fall vier von 1 bis 10k).<br \/>\nDie von mir gewaehlte L\u00f8sung besteht darin, dass ich die Gr\u00f8sze der Eimer davon abhaengig mache, in welcher Gr\u00f8szenordnung sie sich auf der Abzisse befinden. Ich nenne das &#8222;magnitudal bins&#8220; oder &#8222;Gr\u00f8szenordnungseimer&#8220;.<\/p>\n<p>Das h\u00f8rt sich vermutlich komplizierter an, als es ist. Kurzgesagt teile ich jede Gr\u00f8szenordnung (also von 0 \u2026 9, 10 \u2026 99, 100 \u2026 999 usw.) auf der Abzsisse in neun, jeweils gleich grosze &#8222;Eimer&#8220;\u00a0 ein. In der ersten Gr\u00f8szenordnung &#8222;fallen&#8220; die Seiten in jeden &#8222;Eimer&#8220; wie gehabt. In der zweiten Gr\u00f8szenordnung &#8222;fallen&#8220; in den ersten &#8222;Eimer&#8220; alle Seiten die zehn oder mehr Links \/ Zitate haben, aber weniger als 20. Der zweite &#8222;Eimer&#8220; ist entsprechend fuer alle Seiten mit 20 bis 29 Links \/ Zitaten und der neunte fuer alle Seiten mit 90 bis 99 Links \/ Zitate. Bei 100 erfolgt der Uebergang zur naechsten Gr\u00f8szenordnung und der entsprechende erste &#8222;Eimer&#8220; ist nun zehn Mal so grosz &#8212; also eine Gr\u00f8szenordnung mehr &#8212; (denn dieser enthaelt alle Seiten mit 100 bis 199 Links \/ Zitaten).<\/p>\n<p>Das l\u00f8st alle Probleme fuehrt aber zu einer kleinen Verkomplizierung, die man im Hinterkopf behalten muss. Beim Uebergang von einer Gr\u00f8szenordnung zur naechsten wachsen die Balken des Histogramms pl\u00f8tzlich sprunghaft an. Der Grund liegt natuerlich darin, weil in besagten Balken pl\u00f8tzlich zehn Mal mehr Seiten stecken als noch einen &#8222;Schritt&#8220; vorher. Gedanklich muss man die Balken an solchen Grenzen also entsprechend verkleinern.<br \/>\nIm hiesigen Zusammenhang spielt das keine all zu grosze Rolle, denn es reicht zu sehen, ob eine Untergruppe mehr Seiten links (oder rechts) vom &#8222;Maximum&#8220; der Verteilung der anderen Untergruppe hat. Letzteres ist auch der Grund, weswegen ich die Histogramme normiere.<\/p>\n<p>Genug geredet, hier sind sie, die Verteilungen der Links und Zitate der UWL und UWZ:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large.png\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13595 size-large\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large-1024x500.png\" alt=\"\" width=\"1024\" height=\"500\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large-1024x500.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large-800x390.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large-768x375.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large-1536x749.png 1536w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/157_small_subgroup_magnitudal_links_citations_distributions_large.png 1599w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/a><\/p>\n<p>Fetzt wa! Bei den grauen Balken (Verteilung der Links der UWZ) sieht man beim Wert 10 auf der Abzsisse deutlich das Phaenomen, was man im Hinterkopf behalten muss. Nicht ganz so deutlich sieht man es auch an dem entsprechenden roten Balken (Verteilung der Zitate der UWL). Aber eigentlich will ich damit ja die Intra- und Intergruppenabstaende erklaeren. Darum der Reihe nach.<br \/>\nAch so, ich hab die Abzsisse bei 1000 abgeschnitten. Danach gibt es zwar noch ein paar Balken, die sind aber so klein, dass sie v\u00f8llig irrelevant sind.<\/p>\n<p>Zunaechst der Intragruppenabstand. Die Kurve fuer den kumulativen Anteil der neuen Links der UWZ (schwarz) liegt unter der Kurve fuer die UWL (hellschwarz \u2026 vulgo: grau). Das geht natuerlich nur, wenn die Seiten in der UWZ mehr (neue) Links sehen als die Seiten in der UWL. An den Histogrammen sehen wir, dass dem tatsaechlich so ist.<br \/>\nIst ja auch eigentlich auch ganz klar, denn die Seiten der UWL wurden deswegen in die UWL einsortiert, weil diese 5 Links oder weniger hatten. Deswegen gibt es im Histogramm keine schwarzen Balken bei Werten mit 6 oder mehr auf der Abzsisse.<br \/>\nDas spielte aber bei den Seiten in der UWZ ueberhaupt keine Rolle, denn diese wurden nach der Anzahl der Zitate (0 bis 3) ausgesucht. Deswegen sind die grauen Balken ueberall zu finden und das ist entscheidend fuer den Intragruppenabstand.<\/p>\n<p>Weil die UWZ Seiten (als Ensemble) signifikant viel mehr Seiten schon &#8222;ab Start&#8220; (also LL<sub>0<\/sub>) sehen (das ist was obiges Histogramm u.a. aussagt), verzweigt das Linknetzwerk auf kleinen Linkleveln schneller und somit ist die kumulative Kurve bzgl. der neuen Links der UWZ ueber der entsprechenden Kurve der UWL. Das macht auch nix, dass die beiden Untergruppen unterschiedlich viele Seiten enthalten, denn die kumulativen Kurven sind ja &#8222;normiert&#8220;.<\/p>\n<p>Beim Intergruppenabstandes der kumulativen Kurven bzgl. der Linkfrequenz (die rote \/ hellrote Kurve(n)) geht die Argumentation genau so. Die Seiten der UWZ wurden danach ausgewaehlt, dass sie 3 oder weniger Links haben (deswegen keine rosa Balken rechts davon). Fuer die Seiten der UWL war das aber kein Kriterium und im Histogramm sehen wir an den roten Balken, dass diese von mehr Seiten gesehen werden, weswegen die entsprechende kumulative Kurve der UWL h\u00f8her liegt als die der UWZ.<\/p>\n<p>Nun zum Intergruppenabstand. Dafuer betrachte ich nur die hellrote und die graue Kurve (eigtl. muessten alle vier Kombinationen von (hell)rot zu (hell)schwarz untersucht werden, aber das ist immer das selbe Prinzip und gibt keinen weiteren Erkenntnissgewinn).<\/p>\n<p>Die hellrote Kurve entsteht dadurch, dass die Seiten der UWZ (neue) Links sehen. Die graue Kurve entsteht dadurch, dass die Seiten der UWZ von anderen Seiten zitiert werden. Im Histogramm muessen fuer den Intergruppenabstand also die Balken der Links und der Zitate der UWZ verglichen werden. Man sieht nun, dass die UWZ sehr viele graue Balken rechts von den hellroten Balken hat. Die weitere Argumentation ist dann wie Oben.<\/p>\n<p>Fuer die schwarze und rote kumulative Kurve(n) ist die Argumentation qualitativ die selbe. Quantitativ muss man aber im Histogramm etwas genauer hinschauen, denn die roten Balken erstrecken sich auch rechts von den schwarzen Balken (obwohl die schwarze Kurve ueber der roten liegt). In diesem Fall sieht man aber, dass der gr\u00f8szte rote Balken definitiv links vom gr\u00f8szten schwarzen Balken liegt und die roten Balken rechts vom letzten schwarzen Balken sind nicht sehr hoch. All das bedeutet, dass im Durchschnitt die Seiten der UWL NICHT von mehr Seiten gesehen werden als sie (neue) Links haben. Die zwei h\u00f8chsten roten Balken sagen aus, dass die meisten Seiten nur ein bzw. zwei\u00a0 Mal zitiert werden, waehrend die zwei h\u00f8chsten schwarzen Balken aussagen, dass viele (mglw. gar die allermeisten) der selben Seiten mindestens vier oder fuenf Links haben. Die wenigen Seiten mit mehr als fuenf Zitaten spielen da dann auch keine Rolle mehr.<\/p>\n<p>Jut \u2026 das soll reichen hierzu. Beim naechsten Mal das Gleiche fuer die anderen beiden Untergruppen und mit der ganzen Vorrede hier kann ich die Diskussion dort kuerzer halten :)<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Beim letzten Mal zeigte ich (unzureichend vereinfachend und zusammenfassend), dass Seiten mit wenigen Links im Durchschnitt laenger brauchen um zu einer beliebigen anderen Wikipediaseite zu gelangen als Seiten mit vielen Links. Unter Beruecksichtigung der &#8222;umgedrehten Situation&#8220; gilt i.A. das Gleiche fuer Seiten mit vielen Zitaten. Dafuer hatte ich alle Wikipediaseiten (paarweise) in Untergruppen eingeteilt und [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13581"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13581"}],"version-history":[{"count":5,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13581\/revisions"}],"predecessor-version":[{"id":13605,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13581\/revisions\/13605"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13581"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13581"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13581"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}