Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – LXII – Zusammenpacken … rømisch I

Mit dem vorigen Beitrag møchte ich die „formalen“ Betrachtungen in der Kevin Bacon Maxiserie nach (heute auf den Tag genau) zwei Jahren und elf Monaten abschlieszen. Aber keine Sorge, die drei Jahre kriege ich sicherlich noch voll, denn zwei zu Kevin Bacon gehørende Sachen habe ich noch. Die kommen aber in den „Anhang“, denn bzgl. des Wikipedialinknetzwerkes werde ich nix Neues anfangen.

Zum Einen bin ich vor kurzem auf eine Datenquelle gestoszen, in der fuer jede Seite die tatsaechlichen „so-oft-wurde-ich-angeschaut“-Zahlen zu finden sind. Damit kann ich schauen ob meine Vermutung, dass die Anzahl der (internen) Zitate die eine Seite erhaelt (wie oft diese also auf andenen Seiten verlinkt ist), mit der „Beliebtheit“ (oder auch „Wichtigkeit“) korreliert, stimmt.

Zum Anderen muss ich schauen, ob die Resultate i.A. reproduzierbar sind. Dafuer habe ich mir zum Einen die Wikipedia nochmal beschafft (das war schon im Dezember, also ziemlich genau drei Jahre spaeter). Auszerdem gehe ich gerade durch die vielen (Analyse)Programme welche ich im Zuge dieses Projektes schuf durch und schreibe die nochmal neu aber (hoffentlich) klarer, strukturierter und allgemeiner (oder spezifischer, falls gegeben) … also i.A: besser (hoffentlich). Ebenso verpasse ich den Programmen eine ausfuerhliche Dokumentation. Damit ich das dann auch mal der Welt zur Verfuegung stellen kann.
Beides zusammen genommen ist also eine gute Gelegenheit den neuen Code auf seine Richtigkeit und die vorherigen Ergebnisse auf ihre Reproduzierbarkeit zu ueberpruefen. Das werde ich dann aber i.A. nur noch kurz zeigen à la „Hier ist alt, hier ist neu, passt schon“.

Wieauchimmer, das ist Zukunftsmusik. Der heutige Beitrag soll die Serie „im Geiste“ abschlieszen mittels eines zusammenfassenden Rueckblicks.

Los ging alles mit einer fixen (und definitiv NICHT konkreten) Idee und ich dachte damals, dass das Ganze in sechs Beitraegen fertig wird … HAHA!
Die fuer die Realisierung der Idee nøtigen Rohdaten waren schnell gefunden und in den Beitragen III bis VII sortierte ich all den Kram raus, der fuer die Analyse irrelevant war. Am Ende blieben 5,798,312 Seiten zur Analyse uebrig und so schnell ging’s (mehr als) sechs Beitraege zu schreiben. Dabei hatte ich noch nicht mal angefangen mich damit zu beschaeftigen, womit ich mich urspruenglich beschaeftigen wollte. Auszerdem konnte hier zum ersten Mal ein Phaenomen beobachtet werden, welches im weiteren Verlauf der Maxiserie mit schøner Regelmaeszigkeit auftauchte: eine weitere Unterteilung der „Kapitel“, wenn ein Thema zu viel wurde fuer einen einzigen Beitrag.

Aber dann ging’s endlich richtig los … ich „sprang“ in die Daten um zu schauen, was die mir so erzaehlen … und wurde sofort abgelenkt vom urspruenglichen Ziel, denn ich schaute mir zunaechst an, was man machen kann ohne dass man das Linknetzwerk aller Seiten „abschreitet“.

Die Analyse der Laenge der Titel fand zwar alles unter dem selben rømischen Numeral statt, umfasste aber sechs Beitraege … und brachte mir sogar eine „Superabschweifung“ in Form eines Geburtstagsbeitrags ein :) .

Bei der Analyse wie oft eine Seite (intern) von anderen Seiten zitiert machte mich sofort auf zwei Phaenomene aufmerksam, welche im weiteren Verlauf der Maxiserie immer wieder zur Erklaerung anderer Phaenomene herangezogen wurden. Zum Einen, dass ein paar wenige Seiten urst krass viel øfter zitiert werden als die „durchschnittliche Seite“. Zum Anderen, dass es Seiten gibt die kuenstlich aufgeblaeht sind, einfach weil jemand bspw. zu allen „Dørfern“ eines Landes eine Wikipediaseite mit zwei Saetzen erstellt hat, welche dann immer das lokale Wort fuer „Dorf“ verlinken. Die Wichtigkeit dieser Beobachtungen war mir zu dem Zeitpunkt aber natuerlich noch nicht bewusst.
Desweiteren traten bereits hier doppelllogarithmischer Diagramme und (ein) maechtige(s) Gesetz(e) auf … deren Bedeutsamkeit sich durch die ganze Serie zog und nicht unterschaetzt werden darf!
Unter rømisch zehn tat ich das Gleiche fuer die Anzahl der Links und sehr aehnliche Resultate.

Was mich auf die Idee brachte dies „zusammen zu ziehen“ und die „Relevanzdiskussion“ mal mit Zahlen anzugehen weisz ich nicht mehr. Dabei traten aber zwei Dinge zutage, welche sich ebenso mehr als ein Mal bemerkbar machen sollten.
Zum Einen, dass die Analyse und das Verstaendniss der Daten oft relativ grosze Abstraktionsgrade erfordert. Der Sprung von der Anzahl der Zitate einer Seite zum (lueckenlosen) „Relevanzwert“ einer Seite war da noch recht einfach … was mglw. fuer die kurz darauf folgende „komprimierte Relevanz“ nicht mehr gesagt werden kann.
Zum Anderen, dass es Anomalien in den Daten gibt, die gesonderte, detaillierte Betrachtungen erfordern um sie erklaeren zu kønnen. Zum Glueck bin ich so „gestrickt“, dass mir sowas keine Ruhe laeszt und derartige, oft (eigtl. immer) zeitaufwaendige „Abschweifungen“ von der Masse der Daten hin zu „Minoritaeten“, sollte mir im Weiteren Verlauf der Serie die besten Erlebnisse und Entdeckungen bescheren … wenn auch oftmals nach vielem Haareraufen.

Dann ging es aber endlich weiter … naja … nicht so richtig, denn das Linknetzwerk musste ja erstmal „abgeschritten“ werden, bevor ich mich der urspruenglichen Idee widmen konnte. Dafuer „mathematisierte“ ich von „Kapitel“ XII bis XV das Problem und der einzige „technische“ Artikel der ganzen Serie ist dem „Geniestreich“ gewidmet, der das „Abschreiten“ (und damit die Realisierung der Idee) ueberhaupt erst møglich machte.

Das wahrhaft technische habe ich euch, meinen lieben Leserinnen und Lesern, gar nicht „angetan“ und „versteckte“ es in nur einem einzigen Beitrag. Ich wollte aber wenigstens einen Beitrag haben bzgl. der tatsaechlichen Umsetzung des „Geniestreichs“ in funktionierenden Code, war es doch das, was mir in diesem langen Projekt die grøszte Zufriedenheit brachte. Ich musste naemlich so viele Sachen lernen, von denen ich vorher nicht die geringste Ahnung hatte um sehr spezifische, sehr technische Probleme zu løsen von denen ich vorher noch nicht mal wusste, dass es die gibt. Der Weg zum besagten, nicht nur funktionierenden, sondern auch praktikabel schnellen (!) Code war so befriedigend, dass ich ernsthaft ueberlegte, das Projekt an der Stelle zur Ruhe zu legen … dachte ich doch, dass das nicht getoppt werden kønnte … damit lag ich zwar richtig, aber zu dem Zeitpunkt konnte ich natuerlich noch nichts von den Entdeckungen (und weiteren, zu ueberkommenden Problemen) ahnen, welche mir fast genausoviele intellektuelle Orgasmen bescheren sollten :) .

Ach ja, an der Stelle sollte ich nochmal erwaehnen, dass erst dieser Code die praktische Durchfuehrbarkeit des Projektes ermøglichte. Der „Geniestreich“ machte es prinzipiell møglich, aber erste Implementierungen haetten ein halbes Jahrhundert gebraucht um zu Ergebnissen zu gelangen. Durch besagten Code konnte das auf ca. vier Monate Gesamtrechenzeit reduziert werden (und ca. 2 Monte tatsaechliche Rechenzeit, weil ich mehr als einen Laptop 24/7 damit beschaeftigt hielt).
Und ja, ich bin da bis heute maechtig stolz auf mich … meiner Meinung nach durchaus berechtigt denn bevor ich damit anfing dachte ich immer, dass ich gewisse erwartete Probleme nie im Leben løsen kønnte, weil ich dafuer nicht genug Kompetenz habe … und dann hab ich mir die Kompetenz zu eigen gemacht und das doch geschafft … toll wa :) .

Bevor es dann mit den Untersuchungen der Resultate des „Abschreitens“ des Linknetzwerks aller Wikipediaseiten los gehen konnte, stellte ich in Kapitel XVII die Grøszen vor, deren Entwicklung bei besagter Linknetzwerkanalyse ueberhaupt untersucht wurden. Am schwierigsten … oder eher abstraktesten war dabei die Grøsze, die ich „Linkfrequenz“ nannte. Spaeter stellte sich heraus, dass es sehr gut war, dass ich das mit untersuchte, denn war diese doch sehr sehr „fruchtbar“.

An dieser Stelle breche ich fuer heute ab und fuege dem (urspruenglichen) Titel ein „rømische I“ hinzu. Wie so oft gibt’s mehr zu erzaehlen als in einen Artikel passt … aber es war ja auch (bzw. ist immer noch) eine sehr langanhaltende Serie.

Posted by Tentacel on 2024-03-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Dritten (konkrete Beispiele)

In den vorherigen Beitraegen habe ich untersucht, wie schnell man (im Durchschnitt) von den spezifischen Seiten einer Untergruppe zu irgendeiner (!) anderen Seite kommt … u.U.

Eine Sache die von Interesse ist kann ich leider nicht untersuchen: wie schnell kommt man von den spezifischen Seiten einer Untergruppe zu den spezifischen Seiten einer anderen Untergruppe … u.U. Ich wuerde bspw. vermuten, dass ich am schnellsten von Seiten mit vielen Links zu Seiten mit vielen Zitaten komme.
Die dafuer nøtige Information faellt bei der Netzwerkanalyse an. Die konnte aber leider nicht gespeichert werden, denn das wuerde ca. 100 TB erfordern. Ich hatte schon angefangen und das programmiert, denn ich hatte ein paar Ideen, wie man die Information verlustfrei (!) komprimieren kønnte … ich habe mir also meinen eigenen „Zip“-Algorithmus ueberlegt. Ich war maechtig stolz auf die Ideen die ich hatte, aber leider ist die Entropie in den entsprechenden Daten so grosz, dass ich das Datenvolumen auf maximal 1/3 reduzieren kønnte. Ungefaehr 30 TB sind immer noch zu viel. Dies insb. im Lichte dessen, dass erstens die Ergebnisse vermutlich nicht viel mehr Erkentnissgewinn zur Folge gehabt haetten, als das was ich mittels der neuen Links und der Linkfrequenz herausbekommen habe, ich zweitens nicht gewusst haette, was ich sonst noch mit den Daten machen soll, und dass ich drittens dann die gesamte (mehrmonatige) Netzwerkanalyse nochmal haette durchlaufen lassen muessen.

Anstatt dessen schau ich heute mal, wie ein „Nutzererlebniss“ aussieht, denn das ist ja doch anders als die abstrakten Betrachtungen vorher … naja … abstrakt bleibt es vermutlich, denn ich zeige immer noch Diagramme.

Da ich ein Nutzer der Wikipedia (meist mehrfach pro Tag) und ganz normal^{[Citation needed]} bin, nehme ich meine eigene Erfahrung diesbezueglich als repraesentativ an.
Zunaechst ist dann zu sagen, dass ich praktisch gesehen die meistzitierten Seiten nie aufrufe. Klar, die laenderspezifischen Seiten sind sicherlich interessant fuer Millionen von Schulkindern pro Jahr, aber danach schauen die auch nie wieder drauf. Sicher, Japan schaute ich mir an im Zuge der Vorbereitung auf meine grosze Reise im Jahre 2023; aber Letztere war auszergewøhnlich und ich habe die Seite nie in einem anderen Zusammenhang besucht.
Desweiteren schaue ich mir nie die am wenigsten zitierten Seiten an … auszer im Rahmen dieses Projekts, da habe ich buchstaeblich tausende von denen gesehen. Aber ansonsten wuerde ich nie im Leben drauf kommen mich ueber Bacon in Ohio zu informieren.

Vielmehr schaue ich als Nutzer nach „normalen“ Seiten … hier ’ne Stadt … dort ’ne Person … und ab und zu mal ein Dingens (sehr weitgefasst). Beispielhaft dafuer nehme Kevin Bacon (wen auch sonst), das durch Monty Python beruehmt gewordene Trondheim, das Erzbistum Magdeburg und den guten alten Bleistift.

In diesem Diagramm zeige ich mittels der farbigen Baender nochmals die Bereiche der sechs Untergruppen und wie sich die vier Beispiele dazu verhalten:

Interessant! Ich haette nicht erwartet, dass Trondheim so beliebt ist.
Wieauchimmer, man sieht, dass die von mir als „normal“ empfundenen Seiten das zumindest teilweise mglw. gar nicht sind. Pencil und Kevin Bacon liegen bzgl. der Anzahl der Zitate von andere Seiten in der „mittelvielen“ Gruppe (die ich unterbewusst als „normal“ betrachte … hier sieht man aber einen der Gruende, warum ich fuer den Namen der Gruppen dieses Adjektiv nicht benutzen wollte). Man kønnte argumentieren, dass sie nahe genug an der gleichen Gruppe bzgl. der Anzahl der Links liegen, denn prinzipiell kønnte man da auch etwas (mehr) Spielraum einraeumen, wenn man die Grenzen fuer die Gruppen festlegt. Diese Argumentation kønnte man auch fuer Magdeburg vornehmen (auch bzgl. der Zitate), aber definitiv nicht fuer Trondheim. Letzteres liegt genau zwischen zwei Gruppen bzgl. beider Charakteristika.

Ganz schøn viele „kønnte“ in obigen Saetzen. Letztlich ist das aber nicht so wichtig. Fuer mich sind das „normale“ Seiten und ich wollte nur mal schauen wo die liegen. Von Interesse sind die kumulativen Anteile:

Bemerkung: mit „Zitate“ meine ich natuerlich die Linkfrequenz, aber das ist so viel zu schreiben und ich wollte es nicht abkuerzen … und das Diagramm war schon fertig … und so schlimm ist das nicht, denn Letztere kommt ja wegen Ersteren zustande.

OI! … alle vier Beispiele werden ungefaehr ein Linklevel „schneller“ von anderen Seiten gesehen (kumulativer Anteil Zitate, helle Kurven), als dass sie andere Seiten erreichen (kumulativer Anteil neue Links, nicht-helle Kurven) … *kurzer Blick auf das erste Diagramm* … das sollte mich eigtl. nicht verwundern, denn alle Beispiele haben (signifikant) mehr als Links als Zitate.

Wenn wir mal zur Analyse der Untergruppen zurueck schauen, so liegt der „50-Prozent-Uebergang“ der Beispiele bzgl. der Links an ca. der Stelle der Untergruppen mit den vielen Links / Zitaten. Das ist interessant, denn einige der obigen „das kønnte man auch dort und dort einordnen“ tendierten eher zur Untergruppe mit den „mittelvielen“ Links. Andererseits sprechen wir hier von vier Beispielen im Vergleich zu einer Gruppe mit ueber 2 Millionen Seiten.
Bzgl. des kumulativen Anteils der Linkfrequenz liegen die Beispiele zwischen den Untergruppen mit vielen bzw. mittelvielen Zitaten; Kevin Bacon und Pencil liegen naeher an Letzterer waehrend Trondheim und Magdeburg naeher an Ersterer liegen … was dem Erwartungsbild (nach dem ersten Diagramm) entspricht.

Alles in allem erwartete ich bei den vier Beispielen nix fundamental Unerwartetes und das ist dann auch eingetreten.

SO … nun aber … jetzt bin ich wirklich durch und beim naechsten Mal fang ich tatsaechlich (und endlich?) an „zusammen zu packen“.

Posted by Tentacel on 2024-03-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Dritten (die letzten Untergruppenunterschiede erklaeren)

Nach den langen Erklaerungen vom vorletzten und letzten Mal kann ich heute die Betrachtungen bzgl. der Inter- und Intragruppenunterschiede der kumulativen Kurven der Untergruppen mit den vielen Links / Zitaten (UVL / UVZ) …

… tatsaechlich ziemlich kurz halten. Dafuer zeige ich sofort die Histogramme …

… und muesste vermutlich gar nicht viel weiter dazu sagen.

Die schwarze und graue Kurve liegen (beinahe) aufeinander, weil die allermeisten Seiten der UVL aehnlich viele Links haben wie ein signifikanter Anteil der Seiten der UVZ. Die schwarzen Balken gehen naemlich sehr schnell runter. Deswegen wuerde ich vermuten, dass die allermeisten Seiten der UVL eher 10 als bspw. 15 Links haben. Und 10 ist gar nicht so weit weg von den 5, 6 oder 7 Links, welche die meisten Seiten der UVZ haben. Auszerdem sieht man bei genauem Hinschauen ja auch, dass die schwarze kumulative Kurve ein klein bisschen høher liegt als die graue kumulative Kurve. So qualitiativ betrachtet passt das schon mit Hinblick auf dessen, was ich beim letzten Mal schrieb.

Die rote kumulative Kurve liegt nun unter der schwarzen kumulativen Kurve, weil im roten Histogramm betraechtliche Anteile (weit) links von 1000 Zitaten (dem høchsten Balken im schwarzen Histogramm … auch wenn dort die Links gezaehlt werden) liegen. Bzgl. der hellroten Kurve gilt umgekehrt (also høher und rechts) das Gleiche.

Und hier offenbart sich dann auch, warum der UVZ / UVL Intergruppenabstand der kumulativen Kurven berechnet aus der Linkfrequenz so grosz ist, dass ich diese Betrachtungen ueberhaupt erst anstellen musste. Die meisten Seiten der UVZ haben zehntausend Mal mehr Zitate als die meisten Seiten der UVL. Das Maximum des roten Histogramms liegt bei null, aber auch ein oder zwei Zitate sind nicht viel, verglichen mit den mindestens zehntausend Zitaten die alle Seiten der UVZ haben.

Toll wa! So schnell geht das bei guter Vorbereitung.

Posted by Tentacel on 2024-03-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Dritten (noch mehr Untergruppenunterschiede erklaeren)

Weil ich beim letzten Mal alles so lang und breit erklaert habe, kann ich sofort und ohne viel Aufhebens (oder nochmalige Wiederholung) daran anknuepfen und zeige ohne Umschweife die kumulativen Kurven fuer die Untergruppen mit den mittelvielen Links / Zitaten (UWL / UWZ):

Rein qualitativ wuerde ich daraus die folgenden Dinge vermuten bzgl. der Histogramme. Weil die beiden schwarzfarbigen Kurven beinahe aufeinander liegen, sollten die Histogramme fuer die Links in den wesentlichen Eigenschaften gleich sein fuer beide Untergruppen. Die rote Kurve schmiegt sich anfangs sehr an die beiden zuvor genannten Kurven an. Deswegen wuerde ich vermuten, dass auch das entsprechende Histogramm der Zitate der UML den vorherigen beiden Histogrammen aehnlich ist.
Bzgl. der Verteilung der Zitate der UMZ wuerde ich denken, dass diese „rechtslastig“ ist, im Vergleich zu den anderen drei Verteilungen, weil die kumulative Kurve erhøht ist. Aber genug der vielen Worte hier sind die Histogramme:

Ich bleibe bei einer qualitativen Diskussion der Ergebnisse und auf den ersten Blick scheint alles so zu sein wie oben vermutet. Der jeweils høchste schwarze und graue Balken sind an der gleichen Stelle und das Histogramm entwickelt sich auch aehnlich.
Der høchste rote Balken liegt nur um einen „Eimer“ daneben und entwickelt sich auch aehnlich. Das wuerde mich nicht wundern, wenn ein so geringfuegiger Unterschied im Histogramm bei den kumulativen Kurven keinen groszen Unterschied hinterlaeszt. Ob eine Seite nun 10 oder 20 neue Links sieht … vom Bauchgefuehl haut das schon hin.
Die grøszte Schwierigkeit scheint darin zu liegen zu erklaeren, warum die hellrote kumulative Kurve sich nicht auch an die anderen Kurven anschmiegt. Die Histogramme sehr doch aehnlich aus, ja der høchste Balken ist an der selben Stelle. Ich denke, dass die Erklaerung darin zu suchen ist, dass es keine hellroten Balken links von 20 Zitaten gibt, waehrend alle anderen Histogramme dort doch betraechliche Anteile haben (was die kumulativen Kurven entsprechend „runter zieht“).

Nun schrieb ich im letzten Satz das Wort „scheinbar“ nicht umsonst, denn die eigentliche Schwierigkeit sieht man erst beim genaueren hinschauen: auch wenn das Maximum des schwarzen und des grauen Histogramms an der selben Stelle ist, so sind die grauen Balken rechts davon doch ungefaehr immer doppelt so hoch wie die schwarzen Balken. Wenn man da mal drueber nachdenkt, dann sollte das doch zu einer høheren kumulativen (grauen) Kurve fuehren, … tut es aber augenscheinlich nicht.
Das bereitete mir erhebliches Kopfzerbrechen und ich musste von einer qualitativen Betrachtung zumindest zu einer teilweisen quantitativen Betrachtung uebergehen um die Erklaerung fuer das NICHTvorhandensein von etwas Erwartetem zu finden … aber der Reihe nach.

Zunaechst verweise ich auf die beiden Diagramme vom letzten Mal und zur vereinfachten Diskussion beschraenke mich auf die Daten fuer die neuen Links (das Folgende ist aber analog bzgl. allem was mit der Linkfrequenz zusammen haengt).
Die kumulativen Kurven gehen etwas, aber nicht weit auseinander. Die Kurven sind aber definitiv nicht (beinahe) deckungsgleich wie hier. Bei den entsprechenden Histogrammen sieht man, dass es sehr viele (und hohe) grauen Balken rechts vom Ende der schwarzen Balken gibt. Genauer gesagt haben ca. 75 % aller Seiten der UMZ mehr Links als die Seiten der UML. Das ist betraechtlich.
Fuer die kumulativen Kurven zaehlt aber letztlich nicht nur der Unterschied in der Anzahl der Seiten, sondern das Produkt aus der Anzahl der Seiten in jedem „Eimer“ mit der Anzahl der Links fuer die dieser „Eimer“ steht. Oder anders: jede Seite im høchsten grauen Balken (Anzahl Links = 10 bis 20) ist doppelt bis viermal so viel „wert“ wie die Seiten im letzten schwarzen Balken (Anzahl Links = 5).

Worauf ich hinaus will ist der Fakt, dass die Histogramme doch schon DEUTLICH unterschiedlich sind, es aber dennoch nur zu einem relativ geringen Abstand in den kumulativen Kurven fuehrt. Damit kann ich zurueck zur obigen Schwierigkeit gehen.
Ca. 65 % der Seiten der UMZ sind in den (grauen) Balken rechts vom Maximum des Histogramms „einsortiert“. Fuer die Seiten der UML liegt der Wert bei ca. 45 %. Das ist ein Unterschied von gerade Mal 20 %. Klar, 20 % ist schon nicht mehr wenig. Andererseits kommt der Name des „ca.-10-Prozent-Fehlers“ nicht von irgendwo her; alles was nur so wenig von den Erwartungen abweicht ist schwer vom „Rauschen“ zu unterscheiden … und 20 % ist gerade mal doppelt so grosz. Auszerdem kann man in der grauen kumulativen Kurve ja auch eine kleine „Erhøhung“ erkennen … nur eben nicht so deutlich wie im entsprechenden Diagramm vom letzten Mal.

Ich brauchte Stunden (und musste eine Nacht drueber schlafen) um darauf zu kommen … wobei ich viel Zeit damit verbracht habe erstmal nochmal alles auszurechnen und das entsprechende Programm auf Fehler zu ueberpruefen, weil ich dachte, ich hatte irgendwo einen gemacht. Aber so ist das nun Mal, wenn man nach Wissen strebt und es bereitet mir trotz des vielen Haare raufens grosze Freude :) .
Wieauchimmer, ich nehme aus den hier sehr kurz gehaltenen Betrachtungen mit, dass die Unterschiede in den Verteilung ziemlich grosz sein muessen, um wenigsten moderate „Spuren“ in den kumulativen Kurven zu hinterlassen.
Das ist aber auch gut so, denn dadurch wird meine Aussage, dass ein Unterschied von einem Balken nicht so viel ausmacht, direkt (oder indirekt … ach ich will da jetzt nicht drueber nachdenken) bestaetigt.

Ebenso ist das auch nicht gegenteilig zu dem was ich oben bzgl. der jeweils hellroten Balken / Kurve schon sagte. Bei der schwarzen und grauen Kurve liegen jeweils ca. 20 % der Seiten links vom høchsten Balken, waehrend es ueberhaupt gar keine hellroten Balken dort gibt. Die rosa Kurve wird also in keinster Weise von solchen „kleinteiligen“ Anteilen „herunter gezogen“. Hinzu kommt, dass bei genauer Betrachtung die hellrote kumulative Kurve anfangs ja dann doch gar nicht all zu weit weg ist von bspw. der schwarzen kumulativen Kurve. Qualitiativ wuerde ich sagen haut das alles hin und mein Bauchgefuehl sagt mir, dass die obige Erklaerung bzgl. des Nichtvorhandenseins eines groszen Unterschieds zwischen der grauen und der schwarzen kumulativen Kurve nicht geaendert werden muss.

Uff, jetzt ist das doch so viel geworden … naja … dann muss die Erklaerung fuer die groszen Intragruppenunterschiede der UVL und UVZ (welche diese Betrachtungen ja ueberhaupt erst herbeifuehrten) noch bis zum naechsten Mal warten.

Posted by Tentacel on 2024-03-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Dritten (Untergruppenunterschiede erklaeren)

Beim letzten Mal zeigte ich (unzureichend vereinfachend und zusammenfassend), dass Seiten mit wenigen Links im Durchschnitt laenger brauchen um zu einer beliebigen anderen Wikipediaseite zu gelangen als Seiten mit vielen Links. Unter Beruecksichtigung der „umgedrehten Situation“ gilt i.A. das Gleiche fuer Seiten mit vielen Zitaten.
Dafuer hatte ich alle Wikipediaseiten (paarweise) in Untergruppen eingeteilt und mir das Verhalten eben jener genauer angeschaut. Besagtes Verhalten ist wie erwartet, zeigt aber kleinere Abweichungen (und mindestens eine grøszere) die ich beim letzten Mal erwaehnte aber nicht weiter untersuchte (oder erklaerte).
Ebenso liesz ich (mit Absicht) einen wichtigen Vergleich weg, denn ich zeigte nicht, inwiefern die Resultate fuer die beiden „Richtungen“, aus denen das Verhalten des kumulativen Anteils der neuen Links bzw. der Linkfrequenz betrachtet werden muss, uebereinstimmen. Ueber alle Seiten betrachtet sind die entsprechenden Kurven (beinahe) deckungslgleich (und sollten es auch sein) … zumindest fuer die fruehen Linklevel bei denen „Mehrfachsichtungen“ in der Linkfrequenz noch (sehr) selten vorkommen und eben diese damit fuer einen solchen Vergleich noch nicht unbrauchbar gemacht haben.

Beide Sachen hole ich heute und beim naechsten Mal nach. Ich teile das auf zwei Artikel auf, denn ich beschraenke mich fuer diesen Artikel nur auf die Resultate fuer die Untergruppen mit wenigen Links bzw. Zitaten. Dies deswegen, weil ich zur Diskussion der Unterschiede (mal wieder) Verteilungen heranziehen muss, diese aber nicht auf die uebliche Art und Weise darstellen kann. Damit es dadurch nicht zu Verwirrungen kommt muss das genau diskutiert. Das macht den heutigen Artikel recht land und deswegen trenne ich das auf.

Aber nun Butter bei die Fische! Der Vergleich der kumulativen Kurven fuer die beiden „Richtungen“ fuer die Untergruppen mit wenigen Links (UWL) und wenigen Zitaten (UWZ):

AHA! Im Gegensatz zu dem was ich oben schrieb bzgl. aller Seiten, sind die Kurven hier definitv nicht (beinahe) deckungsgleich; nicht mal bis LL₃! Ist ja interessant und daraus folgt, dass zwei Unterschiede in den Kurven erklaert werden muessen: 1. der Intragruppenabstand zwischen zwei Kurven die zu einer „Richtung“ gehøren und 2. der Intergruppenabstand zwischen den Kurven der zwei verschiedenen „Richtungen“.

Dafuer muessen wir zurueck zu den Verteilungen der Links und Zitate gehen. Natuerlich nicht fuer alle Seiten sondern nur fuer die, die sich in den beiden Untergruppen befinden.
Hier tut sich nun aber ein Problem auf mit Hinblick auf die Unterguppen mit den vielen Links / Zitaten. Diese enthalten naemlich nur wenige Seiten. Die entsprechenden Verteilung bspw. fuer die UVZ waeren dann nur 703 Striche die alle nur bis eins gehen. Auszerdem erfahren diese Striche auch noch „logarithmische Komprimierung“ und „verschmieren ineinander“.

Das ist zunaechst nix Schlimmes, denn fuer Histogramme fasst man oft ohnehin alle Messungen mit Werten (einer bestimmten Charakteristik, hier bspw. der Anzahl der Links) die nahe beisammen liegen in einem „Eimer“ zusammen. Alle „Eimer“ sind gleich grosz (bspw. 1 bis 5 Links, 6 bis 10 Links usw.) und das Histogramm selber zaehlt fuer jeden Balken dann wie viele Messungen in dem „Eimer“ sind.
Die Wahl der Grøsze dieser „Eimer“ kann mitunter trickreich sein. Bisher brauchte ich das nicht machen, weil es so viele Wikipediaseiten gibt und die entsprechenden Verteilungen auch ohne „Eimer“ aussagekraeftig waren. Bei nur (bspw.) 703 Seiten ist dem aber nicht mehr so.

Die „Eimer“ løsen das erste Problem, die Balken der Verteilung wuerden bei gut gewaehlter „Eimergrøsze“ unterschiedlich grosz ausfallen. Nun ist es aber so, dass die Abzsisse fuer die Histogramme (wie so oft) logarithmisch ist. Wenn man nicht gerade gigantische „Eimergrøszen“ heran zieht, tritt also weiterhin das Problem der „logarithmischen Komprimierung“ auf. Ganz davon abgesehen, dass wenn „Eimer“ fuer hohe Grøszenordnungen gewaehlt werden (bspw. von 100-tausend bis 110-tausend) die gleiche „Eimergrøsze“ sich ueber mehrere Grøszenordnungen bei kleinen Werten erstreckt (in diesem Fall vier von 1 bis 10k).
Die von mir gewaehlte Løsung besteht darin, dass ich die Grøsze der Eimer davon abhaengig mache, in welcher Grøszenordnung sie sich auf der Abzisse befinden. Ich nenne das „magnitudal bins“ oder „Grøszenordnungseimer“.

Das hørt sich vermutlich komplizierter an, als es ist. Kurzgesagt teile ich jede Grøszenordnung (also von 0 … 9, 10 … 99, 100 … 999 usw.) auf der Abzsisse in neun, jeweils gleich grosze „Eimer“ ein. In der ersten Grøszenordnung „fallen“ die Seiten in jeden „Eimer“ wie gehabt. In der zweiten Grøszenordnung „fallen“ in den ersten „Eimer“ alle Seiten die zehn oder mehr Links / Zitate haben, aber weniger als 20. Der zweite „Eimer“ ist entsprechend fuer alle Seiten mit 20 bis 29 Links / Zitaten und der neunte fuer alle Seiten mit 90 bis 99 Links / Zitate. Bei 100 erfolgt der Uebergang zur naechsten Grøszenordnung und der entsprechende erste „Eimer“ ist nun zehn Mal so grosz — also eine Grøszenordnung mehr — (denn dieser enthaelt alle Seiten mit 100 bis 199 Links / Zitaten).

Das løst alle Probleme fuehrt aber zu einer kleinen Verkomplizierung, die man im Hinterkopf behalten muss. Beim Uebergang von einer Grøszenordnung zur naechsten wachsen die Balken des Histogramms pløtzlich sprunghaft an. Der Grund liegt natuerlich darin, weil in besagten Balken pløtzlich zehn Mal mehr Seiten stecken als noch einen „Schritt“ vorher. Gedanklich muss man die Balken an solchen Grenzen also entsprechend verkleinern.
Im hiesigen Zusammenhang spielt das keine all zu grosze Rolle, denn es reicht zu sehen, ob eine Untergruppe mehr Seiten links (oder rechts) vom „Maximum“ der Verteilung der anderen Untergruppe hat. Letzteres ist auch der Grund, weswegen ich die Histogramme normiere.

Genug geredet, hier sind sie, die Verteilungen der Links und Zitate der UWL und UWZ:

Fetzt wa! Bei den grauen Balken (Verteilung der Links der UWZ) sieht man beim Wert 10 auf der Abzsisse deutlich das Phaenomen, was man im Hinterkopf behalten muss. Nicht ganz so deutlich sieht man es auch an dem entsprechenden roten Balken (Verteilung der Zitate der UWL). Aber eigentlich will ich damit ja die Intra- und Intergruppenabstaende erklaeren. Darum der Reihe nach.
Ach so, ich hab die Abzsisse bei 1000 abgeschnitten. Danach gibt es zwar noch ein paar Balken, die sind aber so klein, dass sie vøllig irrelevant sind.

Zunaechst der Intragruppenabstand. Die Kurve fuer den kumulativen Anteil der neuen Links der UWZ (schwarz) liegt unter der Kurve fuer die UWL (hellschwarz … vulgo: grau). Das geht natuerlich nur, wenn die Seiten in der UWZ mehr (neue) Links sehen als die Seiten in der UWL. An den Histogrammen sehen wir, dass dem tatsaechlich so ist.
Ist ja auch eigentlich auch ganz klar, denn die Seiten der UWL wurden deswegen in die UWL einsortiert, weil diese 5 Links oder weniger hatten. Deswegen gibt es im Histogramm keine schwarzen Balken bei Werten mit 6 oder mehr auf der Abzsisse.
Das spielte aber bei den Seiten in der UWZ ueberhaupt keine Rolle, denn diese wurden nach der Anzahl der Zitate (0 bis 3) ausgesucht. Deswegen sind die grauen Balken ueberall zu finden und das ist entscheidend fuer den Intragruppenabstand.

Weil die UWZ Seiten (als Ensemble) signifikant viel mehr Seiten schon „ab Start“ (also LL₀) sehen (das ist was obiges Histogramm u.a. aussagt), verzweigt das Linknetzwerk auf kleinen Linkleveln schneller und somit ist die kumulative Kurve bzgl. der neuen Links der UWZ ueber der entsprechenden Kurve der UWL. Das macht auch nix, dass die beiden Untergruppen unterschiedlich viele Seiten enthalten, denn die kumulativen Kurven sind ja „normiert“.

Beim Intergruppenabstandes der kumulativen Kurven bzgl. der Linkfrequenz (die rote / hellrote Kurve(n)) geht die Argumentation genau so. Die Seiten der UWZ wurden danach ausgewaehlt, dass sie 3 oder weniger Links haben (deswegen keine rosa Balken rechts davon). Fuer die Seiten der UWL war das aber kein Kriterium und im Histogramm sehen wir an den roten Balken, dass diese von mehr Seiten gesehen werden, weswegen die entsprechende kumulative Kurve der UWL høher liegt als die der UWZ.

Nun zum Intergruppenabstand. Dafuer betrachte ich nur die hellrote und die graue Kurve (eigtl. muessten alle vier Kombinationen von (hell)rot zu (hell)schwarz untersucht werden, aber das ist immer das selbe Prinzip und gibt keinen weiteren Erkenntnissgewinn).

Die hellrote Kurve entsteht dadurch, dass die Seiten der UWZ (neue) Links sehen. Die graue Kurve entsteht dadurch, dass die Seiten der UWZ von anderen Seiten zitiert werden. Im Histogramm muessen fuer den Intergruppenabstand also die Balken der Links und der Zitate der UWZ verglichen werden. Man sieht nun, dass die UWZ sehr viele graue Balken rechts von den hellroten Balken hat. Die weitere Argumentation ist dann wie Oben.

Fuer die schwarze und rote kumulative Kurve(n) ist die Argumentation qualitativ die selbe. Quantitativ muss man aber im Histogramm etwas genauer hinschauen, denn die roten Balken erstrecken sich auch rechts von den schwarzen Balken (obwohl die schwarze Kurve ueber der roten liegt). In diesem Fall sieht man aber, dass der grøszte rote Balken definitiv links vom grøszten schwarzen Balken liegt und die roten Balken rechts vom letzten schwarzen Balken sind nicht sehr hoch. All das bedeutet, dass im Durchschnitt die Seiten der UWL NICHT von mehr Seiten gesehen werden als sie (neue) Links haben. Die zwei høchsten roten Balken sagen aus, dass die meisten Seiten nur ein bzw. zwei Mal zitiert werden, waehrend die zwei høchsten schwarzen Balken aussagen, dass viele (mglw. gar die allermeisten) der selben Seiten mindestens vier oder fuenf Links haben. Die wenigen Seiten mit mehr als fuenf Zitaten spielen da dann auch keine Rolle mehr.

Jut … das soll reichen hierzu. Beim naechsten Mal das Gleiche fuer die anderen beiden Untergruppen und mit der ganzen Vorrede hier kann ich die Diskussion dort kuerzer halten :)

Posted by Tentacel on 2024-02-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Dritten (Untergruppen analysieren)

Die Frage „wie vielen Links muss eine Wikipediaseite im Durchschnitt folgen um eine andere Wikipediaseite zu sehen“ wurde sowohl von der einen Richtung (ausgehend von einer Seite), als auch von der anderen Richtung (kommend von anderen Seiten) beantwortet. Beide Ergebnisse stimmen ueber alle Wikipediaseiten gesehen ueberein (zumindest so lange, wie „Mehrfachsichtungen“ die Linkfrequenz nicht zu sehr dominieren).
Andererseits wissen wir, dass nicht alle Seiten gleich sind und es stellt sich dann die Frage, ob Seiten mit vielen Links (oder Zitaten) frueher beliebige andere Seiten sehen (von anderen Seiten gesehen werden), als Seiten mit wenigen Links (oder Zitaten). Rein logisch und auch intuitiv wuerde ich das mit Ja beantworten. Das will ich aber in den Daten sehen und deswegen arbeitete ich beim letzten Mal aus, wie bspw. „wenige Links“ oder „mittelviele Zitate“ objektiv zu interpretieren sind. Die entsprechenden Seiten wurden in die sechs Untergruppen UWL, UWZ, UML, UMZ, UVL und UMZ zusammengefasst.

In den Abkuerzungen steht das „U“ fuer „Untergruppe“, „W“, „M“ und „V“ fuer „wenige“, „mittelviele“ und „viele“ und „L“ und „Z“ ensprechend fuer „Links“ und „Zitate“. Das ist leicht verstaendlich; dennoch gebe ich zwei Beispiele, denn ich werde ab sofort nur noch diese Abkuerzungen verwenden.
Die Seiten in der „UWL“ kennzeichnen sich alle dadurch aus, dass sie … in der Tabelle vom letzten Mal nachschau … null bis maximal 5 … also Wenige, Links zu anderen Seiten haben. Wieviele Zitate die Seiten in der UWL haben ist aber NICHT festgelegt (das wird an spaeterer Stelle uebrigens nochmal wichtig).
Die Seiten in der „UMZ“ kennzeichnen sich alle dadurch aus, dass sie 20 bis maximal 1000, also Mittelviele, Zitate zu anderen Seiten haben. Wieviele Links die Seiten in der UMZ haben ist NICHT festgelegt.

Nach der Vorrede kann ich ohne weitere Abschwiffe gleich das erste Ergebniss zeigen. Dieses Diagramm zeigt, wie schnell die Seiten in den Untergruppen beliebige (!) andere Seiten (also auch die der eigenen Gruppe) sehen (die Linien dienen wieder nur der besseren Visualisierungen, denn es gibt keine gebrochenen Linklevel):

Die Kurven beginnen natuerlich bei LL₀ und gehen deutlich weiter als bis LL₆. Von Interesse ist aber nur der Punkt, an dem die Seiten in den Untergruppen (als (Untergruppen)Ensemble gesehen) im Durchschnitt die Haelfte aller Seiten gesehen haben. Zur Erinnerung: wenn man alle Seiten zusammen betrachtet, lag dieser Uebergang zwischen dem 3. und 4. Linklevel (aber etwas naeher an LL₃ als an LL₄).
Es gibt natuerlich kein „zwischen“ zwei Linkleveln. Das ist so zu verstehen, dass im Durchschnitt bis LL₃ die meisten Seiten noch NICHT 50 % aller anderen Seiten gesehen haben, waehrend auf LL₄ die meisten Seiten (im Durchschnitt) sehr wohl 50 % aller anderen Seiten gesehen haben.
„Naeher an LL₃“ ist so zu verstehen wie der Ordinatenwert fuer diese Stelle ist: bis dahin wurden (im Durchschnitt) fast 40 % aller anderen Seiten schon gesehen. Es sollten also bereits merkbar viele Seiten auftreten (aber noch nicht die Mehrzahl), bei denen (im uebetragenen Sinne) bereits ein Muenzwurf ausreicht um zu entscheiden ob (im Durchschnitt) eine beliebige andere Seiten gesehen wurde oder nicht. Waehrend die ueber 80 % auf LL₄ bedeuten, dass das Ensemble aller Seiten diesbezueglich einen riesigen Schritt gemacht hat und nun die Mehrzahl der Seiten (im Durchschnitt) vier von fuenf beliebigen andere Seiten gesehen hat.

Hier nun sehen wir zwei wichtige Dinge:
1.: die Ergebnisse fuer die Gruppen (wenige, mittelviele, viele Links / Zitate) unterscheiden sich wie erwartet; Seiten mit mehr Links sehen eine beliebige andere Seite eher als Seiten mit weniger Links. Das war erwartet (siehe oben). Dennoch freut es mich, dass die Unterschiede so deutlich sind … ich waere etwas ratlos gewesen, wenn dem nicht so gewesen waere.
2.: die Ergebnisse fuer die der paarweisen Untergruppen liegen nahe genug beisammen, sodass ich das als „das ist innerhalb des Fehlers gleich“ betrachten, und zunaechst nicht auseinanderklamuesern muss. Man sieht zwischen den paarweisen Untergruppen kleine Unterschiede (am grøszten sind die fuer die zwei Gruppen mit den wenigen Links / Zitaten), aber darauf gehe ich an anderer Stelle ein.

Prima! Nun andersrum: wie schnell werden die Seiten der Untergruppen von anderen Seiten gesehen:

Im linken Diagramm zunaechst eine „grøbere“ Uebersicht um zu zeigen, dass die Untergruppen bzgl. des kumulativen Anteils jeweils høhere „Schlussprozente“ erreichen. Zur Erinnerung: ueber alle Seiten gesehen wird im Durchschnitt ueber das gesamte Linknetzwerk aller Seiten jede Seite fast 2 1/2 Mal von jeder anderen Seite gesehen.
Fuer die Untergruppen war zu erwarten, dass die nach der Anzahl der (von anderen Seiten erhaltenen) Zitate sortierten Gruppen auch entsprechend høhere Schlussprozente haben. Ist ja logisch, eine Seite die nur ein Mal zitiert wird, wird letztlich auch nur ein Mal von allen anderen Seiten gesehen (wenn auch vermutlich auf unterschiedlichen Linkleveln). Eine Seite die 1000 Zitate von anderen Seiten erhaelt hat hingegen eine (hohe) Chance im Linknetzwerk einer Urpsrungsseite mehrfach aufzutreten und wird somit mehrfach von jeder (Ursprungs)Seite gesehen. Dieses Phaenomen spiegelt sich in den „Schlussplateaus“ der hellfarbigen Kurven im linken Diagramm wider.

Das gleiche Verhalten ist ebenso im Durchschnitt der Untergruppen zu erwarten, die nach der Anzahl der Links sortiert wurden. Zur Erinnerung: (im Durchschnitt!) gibt es (wie wir seit langem wissen) einen Zusammenhang zwischen der Anzahl der Links und der Anzahl der Zitate, welche mittels eines maechtigen Gesetzes mit positivem Exponenten beschrieben werden kann. Das bestaetigt sich in der (normal) roten und (normal) blauen Kurve.
Fuer die (normal) lila Kurve, also die Seiten der UVL, gilt dies jedoch nicht. Das ist ein wichtiger Unterschied und ich komme darauf an anderer Stelle zurueck.

Im rechten Diagramm zeige ich den hier und heute interessanten Bereich von Nahem. Von den Ergebnissen fuer die UVL abgesehen gilt i.A. das Gleiche was ich bzgl. den Ergebnissen zum kumulativen Anteil der neuen Links sagte. Die Unterschiede sind deutlich zu sehen und verhalten sich wie erwartet. Paarweise gesehen sind die Kurven fuer die UWL / UWZ bzw. UML / UMZ zwar nicht so schøn beisammen wie beim kumulativen Anteil der neuen Links aber hier und heute sind mir die Diskrepanzen klein enug genug um das innerhalb des Fehlers als das Gleiche zu betrachten. Letzteres gilt wie gesagt fuer die UVL und UVZ nicht.

Somit ist fuer heute festzuhalten: Seiten die bestimmten Untergruppen zuzuordnen sind, verhalten sich anders und die Andersartigkeit ist i.A. wie erwartet.
Nichtsdestotrotz gibt es unerwartete Unterschiede die erklaert gehøren. Das dauerte eine Weile bis ich die Erklaerung beisammen hatte und ist das was ich in diesem Beitrag schon mehrfach andeutete. Mehr dazu beim naechsten Mal.

Posted by Tentacel on 2024-02-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Dritten (Untergruppen definieren)

Beim letzten Mal kuendigte ich eine Untergruppenanalyse an … natuerlich mit Blick auf die Frage wieviele Schritte eine Seite im Durchschnitt machen muss um eine andere Seite zu erreichen.

Bzgl. der Untergruppen schrieb ich zunaechst was von „wichtigen“ und „unwichtigen“ Seiten, aber das sind natuerlich schwer (bzw. gar nicht) zu quantifizierende Begriffe.
Hier kommt mir nun zu Hilfe, dass ich mich bereits an einem aehnlich schwer zu quantifizierenden Begriff, naemlich der Relevanz, abgearbeitet habe. Dort nahm ich einen „Umweg“ ueber die Anzahl der Zitate die eine Seite erhielt um dieser dann einen „Relevanzwert“ zuzuordnen. Ungefaehr so mache ich das hier auch.

Wie in den letzten beiden Artikeln dargelegt muss die Frage aus zwei „Richtungen“ beantwortet werden; wie schnell erreicht eine Seite andere Seite und wie schnell erreichen andere Seiten (die) eine Seite.
Die Zugehørigkeit einer Seite zu einer bestimmten Gruppe laeszt sich dann durch die Anzahl der Links die die Seite hat bzw. die Zitate die diese (direkt) von anderen Seiten bekommt bestimmen. Anstatt Gruppen fuer „unwichtige“, „mittelwichtige“ und „wichtige“ Seiten habe ich nun also Gruppen fuer Seiten mit „wenigen“, „mittelvielen“ und „vielen“ Links bzw. Zitaten.

Wieviele Links bzw. Zitate das jeweils sein muessen scheint zunaechst immer noch subjektiv zu sein, aber ich versuche heute darzulegen inwieweit das „objektiviert“ werden kann (um mich dann beim naechsten Mal der eigtl. Untergruppenanalyse zu widmen).
Dazu nehme ich zwei vorhergehende Resultate zu Hilfe: die Kurven der kumulativen Links / Zitate per Seite in (logarithmischer) Abhaengigkeit von der Anzahl eben diesen Links / Zitate.

Zur Erinnerung: die Kurven berechnete ich aus den Histogrammen. Bei Letzteren war die Anzahl der Links pro Seite bzw. Zitate die eben diese erhielt auf der Abzsisse abgetragen, waehrend die Ordinate nur „zaehlte“, wie oft eine Seite mit so vielen Links / Zitaten in der Wikipedia vorkommt.
Fuer die „kumulativen Kurven“ wird die Abzisse beibehalten. Fuer jeden Wert auf der Abzsisse rechnete ich dann zunaechst das Produkt aus diesem Wert (also die Anzahl der Links / Zitate) mit dem entsprechenden „Zaehler“ des Histogramms aus. Das Produkt deswegen, weil bspw. 23 Seiten mit jeweils 10 Links zum kumulative-Links-Signal 230 „Punkte“ beitragen. Wie fuer kumulative Kurven ueblich, addierte ich schlussendlich die Werte von links (also null) beginnend auf und nach „Normierung“ auf 100 % hatte ich die entsprechenden Diagramme.

Von Interesse ist jetzt die S-Form der Kurven (bei logarithmischer Abzsisse). Es gibt drei deutlich unterscheidbare Bereiche.
– Einen Anfang, bei dem trotz der hohen Anzahl von Seiten das Signal nur sehr langsam ansteigt, weil diese nur sehr wenige Links / Zitate haben.
– Einen mittleren Bereich, in dem die Kurve linear ansteigt. Weil die Abzsisse logarithmisch ist, bedeutet das, dass „in Echt“ der Anstieg der Kurve URST KRASS ist, trotzdem die Anzahl der Seiten nach einem maechtigen Gesetz abnimmt … obige Multiplikation ist dafuer verantwortlich.
– Ein Ende, in dem trotz der hohen Anzahl an Links / Zitaten das Signal (wieder) nur sehr langsam waechst, weil es da nur sehr wenige Seiten gibt die so viele Links / Zitate haben. Also die umgekehrte Situation zum Anfang.

Diese drei Bereiche entsprechen den oberen Gruppen … wobei das Adjektiv „mittelviele“ unguenstig gewaehlt ist … aber mir faellt kein anderes ein. Das folgende Diagramm verdeutlicht die Situation und macht (hoffentlich) klar, dass man die obige (zunaechst) subjektiv erscheinende Situation „objektivieren“ kann (man beachte die unterschiedlichen Abzsissen):

Die Tabelle enthaelt die „Kennwerte“ fuer die drei gewaehlten Bereiche (wenige, mittelviele, viele) die dann in nochmal zwei Untergruppen (Anzahl Links oder Zitate) unterteilt sind:

Gruppe	\|\|	Abkuerzung	Links von … bis	umfasst so viele Seiten	\|\|	Abkuerzung	Zitierungen von … bis	umfasst so viele Seiten
"wenige"	\|\|	U(ntergruppe) W(enige) L(inks) = UWL	0 … 5	778,958 (13.43 %)	\|\|	U(ntergruppe) W(enige) Z(itate) = UWZ	0 … 3	2,198,825 (37.92 %)
"mittelviele"	\|\|	UML	16 … 100	2,515,857 (40.9 %)	\|\|	UMZ	20 … 1k	1,149,358 (18.95 %)
"viele"	\|\|	UVL	1k … Schluss	2,380 (0.04 %)	\|\|	UVZ	10k … Schluss	703 (0.01 %)

Am Diagramm und den Zahlen in der Tabelle sieht man, dass die Gruppen NICHT identisch sind, ja deutliche Unterschiede aufweisen. Das fetzt, macht es das ganze naemlich interessant.
Natuerlicherweise befinden sich viele der Seiten die nach der Anzahl der Links eingruppiert wurden auch in der gleichen Gruppe bezueglich der Zitate. Der Grund liegt im „maechtigen Zusammenhang“ zwischen der Anzahl der Links und der Anzahl der Zitate.
Genauer gesagt sind 562,474 der Seiten in der Gruppe mit wenigen Links auch in der Gruppe mit wenigen Zitaten. In den Gruppen mit den „mittelvielen“ Links / Zitaten sind es 863,304 Seiten. Allerdings sind es nur 33 Seiten in der Gruppen mit den vielen Links / Zitaten. Letzteres erklaert sich daraus, dass in diesem Bereich der oben erwaehnte „maechtige Zusammenhang“ fuer viele (die meisten?) der sich dort befindenden Seiten nicht mehr gilt.

Das Verhalten dieser sechs Gruppen wird beim naechsten Mal jeweils paarweise analysiert. Die Statistik fuer die ersten beiden sollte gut genug sein, sodass ich dort trotz der Unterschiede nur geringe Diskrepanzen erwarte, was die „Richtung“ der Beantwortung der Frage angeht.
Augrund des geringen Ueberlapps wuerde mich bei den Gruppen mit den vielen „Links / Zitaten unterschiedliche Resulte nicht verwundern … ich kønnte mir sogar denken, dass die relativ grosz sind … aber das dann erst beim naechsten Mal.

Posted by Tentacel on 2024-02-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Zweiten (Linkfrequenz)

Zur Wiederholung: beim letzten Mal formulierte ich die Frage …

[…] wieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?

… und nahm die (kumulative) Anzahl der neuen Links zur Hilfe um diese zu beantworten. Aber das war nur eine Haelfte der Antwort, denn die neuen Links zeigen nur,

[…] wieviele Schritte […] eine [Urpsrungs]Seite im Durchschnitt machen [muss] um irgendeine andere Seite zu sehen […].

Die andere „Haelfte“ der Antwort muss schauen,

[…] wieviele Schritte […] ANDERE Seiten machen [muessen] um die eine Seite zu sehe.

Da sollte im Durchschnitt das Gleiche bei rauskommen, aber im konkreten Fall muss dem nicht so sein. Ich gab beim letzten Mal ein Beispiel und erwaehnte bereits, dass ich fuer die zweite Haelfte der Antwort die Linkfrequenz nutzen werde,

denn diese misst auf welchem Linklevel eine gegebene Seite von anderen Seiten gesehen wird […].

Leider wird bei der Linkfrequenz ein groszer Teil der urspruenglichen Information „verlustbehaftet komprimiert„, denn diese misst nur, OB eine Seite von einer anderen Seite (auf einem gegebenen Linklevel) gesehen wird. Weder beinhaltet die Linkfrequenz Information darueber wie oft die andere Seite die eine Seite (auf einem gegebenen Linklevel) sieht, noch ob die andere Seite die eine Seite bereits auf einem vorherigen Linklevel gesehen hat. Ersteres ist im hiesigen Zusammenhang nicht schlimm, denn das interessiert mich nicht. Letzteres ist fuer obige Frage allerdings von allergrøsztem Interesse.

Oder anders: in der Linkfrequenz einer Seite kommt es zu Mehrfachzaehlungen durch „Mehrfachsichtungen“. Bspw. kann die andere Seite die eine Seite sowohl auf LL₅ als auch auf LL₂₃ sehen. Die zweite Sichtung duerfte ich in Anbetracht dessen das was ich hier beantworten will NICHT mehr mitzaehlen. Aber eben genau diese Information, dass (im Beispiel) mindestens ein „Punkt“ des Wertes auf LL₂₃ eine „wiederholte Sichtung“ ist, fehlt.

Mehrfachsichtungen sollten i.A. keine all zu grosze Rolle spielen auf sehr kleinen Linkleveln. Das liegt daran, weil bei kleinen Linkleveln, die zitierten Seiten thematisch nahe an der Ursprungsseite liegen. Da kommt es dann zwar bestimmt zu Mehrfachsichtungen „thematisch naher“ Seiten, das sind aber im Groszen und Ganzen nur ein paar Seiten und alle anderen Seite der Wikipedia tauchen noch gar nicht auf.
Andererseits verzweigt sich das Linknetzwerk extrem schnell und schon nach ein paar wenigen Linkleveln sieht man nicht mehr nur Seiten zu einem Thema, sondern zu sehr sehr sehr vielen Themen (und die Linkfrequenzen der entsprechenden Seiten gehen um eins hoch). Viele von diesen Seiten sieht man dann auf den darauffolgenden Linkeveln nochmal (auch wenn man dem Link nicht nochmal folgt) und deren Linkfrequenz geht (fuer das entsprechende Linklevel) wieder um eins hoch. Letzteres liegt einfach an der schieren Menge an gleichzeitig erreichten Seiten, welche schonmal gesehene Seiten (wieder) zitieren.

Eine wichtige Schlussfolgerung aus dem eben Gesagten ist, dass der (durchschnittliche) kumulative Anteil der Linkfrequenz nach genuegend Linkleveln die 100 % (deutlich) uebersteigen (sollte). Das wiederum hat eine weitreichende Konsequenz, denn anders als bei den neuen Links kann ich nun nicht mehr das Integral unter der (Summen)Kurve benutzen um den durchschnittlichen (nicht kumulativen) Anteil pro Linklevel auszurechnen.

Das bereitete mir zunaechst Kopfzerbrechen, aber letztlich kam ich dann auf die folgende, hoffentlich plausible Methode um eben diesen durchschnittlichen Anteil (pro Linklevel) auszurechnen (und daraus dann den kumulativen Anteil).
In kurz: das Summensignal der Linkfrequenz muss auf jedem Linklevel zwei Mal (!) durch die Anzahl aller Seiten geteilt werden.

Fuer die etwas laengere Erklaerung denke man sich zunaechst die Linkfrequenz EINER Seite auf einem sehr niedrigen Linklevel (bspw. LL₁). Diese Seite kann prinzipiell von allen (fast) 6 Millionen anderen Seiten gesehen werden. Um den durchschnittlichen Anteil der Seiten zu bekommen die diese Seite auf dem Linklevel sehen, muss ich die erste Division durch (fast) 6 Millionen ausfuehren.
Das Summensignal ist nun aber die Summe (Doh!) der Linkfrequenzen ALLER ((fast) 6 Millionen) Seiten. Daher die zweite Division.
Aber Achtung (kurzer Einschub): wenn man nur bestimmte Untergruppen (z.B. vielzitierte Seiten) betrachtet, dann ist der Nenner bei der zweiten Division natuerlich NICHT (fast) 6 Millionen sondern NUR durch die Anzahl der Seiten in der Untergruppe. Die Situation bzgl. der erste Division aendert sich bei Untergruppen nicht. Ich greife damit aber vor und das wird erst im naechsten (oder vllt. uebernaechsten) Artikel wichtig; ich wollte das nur hier schon erwaehnen, damit es erledigt ist.

Diese ganze Huette ist der Grund, warum ich das Thema mit den neuen Links angefangen habe; bei denen ist das alles viel einfacher zu verstehen und ich musste nicht lang und breit erklaeren, wie ich die Information von Interesse aus den Daten gepolkt habe. Die Linkfrequenz ist aber nicht aus Unueberlegtheit mit „Informationsverlust“ konzipiert worden. Vielmehr stand ich vor dem Dilemma, dass das Datenvolumen der Resultate der Linknetzwerkanalyse ohne diese „verlustbehaftete Komprimierung“ der Information mindestens etliche hundert Terabyte (mich duenkt gar im niedrigen Petabyte Bereich) betragen haette.
Aber nun ist alles zum Verstaendniss wichtige gesagt und ich kann das gleiche Diagramm wie beim letzten Mal zeigen; die Summe aller Linkfrequenzen fuer kleine Linklevel und der durchschnittliche kumulative Anteil der Seiten die eine andere Seite bis zum gegebenen Linklevel gesehen haben:

Wie beim letzten Mal gilt, dass die schwarze Kurve mit einer Billion multipliziert werden muss. Aber auch heute ist die nicht wirklich von Interesse, denn die wurde bereits hier besprochen (das ist uebrigens kein Plateau, das sieht nur so aus, weil da so wenig passiert).
Wieauchimmer, die rote Kurve zeigt die Groesze die hier von Interesse ist und die Form ist die selbe „S“-Kurve wie beim letzten Mal. Ebenso wie beim letzten Mal (und wie erwartet) wird der 50 % Anteil zwischen dem 3. und 4. Linklevel ueberschritten. Und letztlich, wie erwaehnt, fuehren die Mehrfachzaehlungen dazu, dass der endgueltige kumulative Anteil 100 % uebersteigt; genauer gesagt wird im Durchschnitt jede Seite (fast) zweieinhalb Mal von jeder anderen Seite gesehen.

Jetzt ist noch von Interesse, inwieweit die Ergebnisse vom letzten Mal mit den Ergebnissen von heute uebereinstimmen. Wie gesagt, das sollte im Durchschnitt (!) das Gleiche sein (bis der Einfluss von Mehrfachzaehlungen zu grosz wird und einen Vergleich nicht mehr zulassen). Deswegen habe ich das hier mal zusammen aufgetragen:

Ich muss sagen, dass mir ein Stein vom Herzen gefallen ist, als ich sah, dass beide Kurven bis LL₃ (beinahe) deckungsgleich sind. Ich haette naemlich nicht gewusst, wie eine signifikante Diskrepanz zu erklaeren ist.

So … damit ist die implizite Frage des ersten Beitrags beantwortet. Ich bin aber noch nicht fertig, denn zwischen dem allerersten und diesem Beitrag habe ich viel gelernt ueber die Wikipedia. Eine der wichtigsten Erkenntnisse war, dass nicht alle Seiten gleich sind und die Dynamik von ein paar wenigen Seiten absolut dominiert wird (siehe bspw. hier, das zieht sich aber durch etliche Beitraege).
Oder anders: es gibt „wichtige“ und „unwichtige“ Seiten … und mglw. auch „mittelwichtige“ … womit sich die Frage stellt, ob das Ergebniss fuer alle Seiten gleich aus sieht? Mein Bauchgefuehl sagt erstmal nein … aber dann will mein Bauch auch gerne wissen ob er richtig liegt und wie die Unterschiede aussehen.

Lange Rede kurzer Sinn: im Durchschnitt ist alles fertig und die Frage beantwortet, ich werde aber das Verhalten von Untergruppen noch naeher untersuchen. Dazu werde ich beim naechsten Mal zunaechst drei Untergruppen definieren (Spoiler: das hat rein GAR NIX mit „wichtig“ oder „unwichtig“ zu tun) um mir deren Verhalten beim uebernaechsten Mal genauer anzuschauen.
Aufgrund der bereits geleisteten Vorarbeit wird das dann auch alles mit weniger Geschreibe zu erledigen sein (hoffe ich).

Posted by Tentacel on 2024-01-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXI – Fast vergessen zum Ersten (neue Links)

Da schrieb ich beim letzten Mal, dass …

[i]ch […] mich darauf [freue], diese Maxiserie nach fast drei Jahren abzuschlieszen

und prompt faellt mir auf, dass im allerersten Beitrag nur eine einzige Frage konkret … nun ja … nicht gestellt wird, sondern ich sag jetzt mal im Raum haengt und ich die nie behandelt habe.
So ziemlich alles was ich behandelte „erzaehlten“ mir die Daten selbst und ich musste die zu den Antworten gehørenden Fragen oft genug erstmal finden. Was natuerlich erklaert, warum ich besagte Frage bisher nicht behandelt habe, denn ich stellte sie ja nicht konkret und die Antwort dazu ist bisher nicht „aus den Daten gefallen“.

Worueber rede ich eigentlich? Nun ja, im ersten Beitrag gab ich an, wie man von Trondheim zu Kevin Bacon gelangt und tue das sogleich als wenig von Interesse ab:

[f]uer so ein paar konkrete Fragen war dieses Spielzeug ganz nett.

Vielmehr …

[…] wollte [ich] wissen, wie alles mit allem anderen zusammenhaengt.

Die im Raum haengende, nicht gestellte, konkrete Frage ist dann natuerlich: wieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?
Und ich muss sogleich sagen, dass ich diese Frage NICHT direkt (!) beantworten kann, denn dafuer habe ich die Daten nicht.

Fuer eine direkte Beantwortung waere es fuer jede Seite nøtig zu wissen, wann diese von jeder anderen Seite gesehen wird. Theoretisch kann man diese Information sammeln, das wuerde aber ein (dreidimensionales) Datenfeld der Grøsze 6 Millionen zum Quadrat mal 100 erfordern … jede Seite zu jeder anderen Seite mal die Anzahl der erwarteten Linklevel.
Das ist der technische Grund gewesen, warum ich die Linkfrequenz einfuehrte (die sich spaeter auf verschiedenste Weisen als extrem erfolgreich herausstellte). Bei der Linkfrequenz handelt es sich um eine Art „Projektion“ (mit (gewaltiger) Informationsminderung) des originalen 3D-Datenfeldes auf nur 2 Dimensionen, was die benøtigte Grøsze um mehr als sechseinhalb Grøszenordnungen vermindert (nur noch 6 Millionen mal 100). Dennoch erfordert das immer noch ca. 2 GB Arbeitsspeicher … womit man sich ausrechnen kann, dass die originale Idee ungefaehr 10 Petabyte (!) RAM braucht. Sportlich, nicht wahr.
Jaja, man kønnte das originale Problem immer nur eine Seite auf einmal machen, dann reichen auch 2 GB RAM … aber das Ergebniss will ja auch gespeichert werden zur nachfolgenden weiteren Analyse … und da braucht man dann doch wieder die 10 Petabyte (nur nicht als RAM sondern auf der Festplatte).

Wieauchimmer, ich kann die Frage gluecklicherweise indirekt angehen und meiner Meinung nach auch zufriedenstellend beantworten. Dafuer sind endlich mal die neuen Links pro Linklevel von Interesse (die ja bisher eher weniger „fruchtbar“ waren) und (wieder einmal) die Linkfrequenz. Aber wie immer ist das zumindest in Teilen nicht so einfach.

Ich beginne mit der Anzahl der neuen Links pro Linklevel. Korrekter: mit der Summe dieser Grøsze ueber alle Seiten und das Ganze per Linklevel. Das wurde hier schonmal gezeigt und die diagrammisierte das bis LL₁₀ mit linearer (linker) Ordinate in diesem Bild als schwarze Kurve nochmals (man beachte das schwarze (!) „x10¹²„, welches ausdrueckt, dass die Werte fuer die schwarze Kurve damit multipliziert werden muessen um die (tatsaechliche) Anzahl der neuen Links (pro Linklevel) zu erhalten … das ist aber im hiesigen Zusammenhang eher eine Formalitaet, da mich der Wert an sich ja gar nicht weiter interessiert):

Zur Erinnerung: von einer Urpsrungsseite ausgehend, druecken die neuen Links auf jedem Linklevel aus, wieviele von allen Links die ich auf dem gegebenen Linklevel sehe, auf keinem vorherigen Linklevel auftauchten. Das (bestimmte) Integral unter dieser Kurve ergibt dann die Anzahl aller Wikipediaseiten (unabhaengig von der Ursprungsseite). Das Integral der obigen schwarzen Kurve ist dann also die Anzahl aller Wikipediaseiten zum Quadrat (da die Kurve ja das Summensignal ueber alle Seiten ist).

Kurzer Einschub und Achtung: ich lasse in allen Betrachtungen diesbezueglich die Archipele auszer acht … die haben natuerlich ein grøszeres Integral weil die ja zumindest Teile des Archipels UND das grosze „Gesamtnetzwerk“ sehen, wohingegen die Seiten im Gesamtnetzwerk keine Archipelseiten sehen. Das sollte aber keinen all zu groszen Unterschied machen.

Wenn ich nun besagtes Summensignal durch das Integral unter der Kurve teile, dann erhaelt man den durchschnittlichen Anteil der Wikipediaseiten die eine Seite auf einem Linklevel NEU sieht. Wenn man das dann von einem Linklevel zum naechsten aufaddiert, so sagt dieser kumulative Anteil ganz direkt und ohne Umschweife aus, wieviel Prozent aller Wikipediaseiten im Durchschnitt bis zu dem gegebenen Linklevel gesehen wurden.

Dieser kumulative Anteil ist in der roten Kurve dargestellt und der geht natuerlich bis 100 % (mehr als alle Seiten sehen geht nicht). Fuer die (nicht gestellte) Frage des allerersten Beitrags von Interesse ist, wenn dieser kumulative Anteil 50 % ueberschreitet; wenn es also einem Muenzwurf entspricht, ob bei einer gegebenen Ursprungsseite eine andere Seite schon erreicht wurde.

An der roten Kurve kann man ablesen, dass das im Durchschnitt zwischen dem dritten und vierten Linklevel passiert. Wobei der Wert auf LL₃ mit 35 % bereits recht grosz ist und meine Stichproben aus dem allerersten Beitrag …

[…] nach mehreren Versuchen [habe ich] immer drei Verbindungen (in seltenen Faellen zwei oder vier) [erhalten] …

… zu bestaetigen scheint.

Kurzer Einschub: sixdegreesofwikipedia.com benutzt die gesamte Wikipediaseite um die Wege zwischen zwei Seiten zu finden zu finden; also auch die langen Listen mit oftmals nichtmal relatierten Links die am Ende einer Wikipediaseite auftauchen. Ich hingegen schmeisze insbesondere (aber icht nur) Letztere bei meiner Analyse raus, weil mich nur die „Konversation“, also der eigentliche Text, interessiert. Das hat zur Folge, dass der kumulative Anteil „meiner“ Wikipedia ein bisschen nach rechts verschoben sein sollte, weswegen die rote Kurve auf LL₃ erst 35 % hat, waehrend mir die Stichproben das Gefuehl geben, dass ich schon ueber 50 % lag.

So weit so gut. Das ist aber nur die eine Richtung; wieviele Schritte muss eine Seite im Durchschnitt machen um irgendeine andere Seite zu sehen. Im Durchschnitt sollte das auch andersrum gelten, also wieviele Schritte muessen ANDERE Seiten machen um die eine Seite zu sehen …

… aber fuer spezifische Seiten gilt das nicht zwangslaeufig. So braucht man drei Schritte um von Magdeburg nach Pencil zu gelangen, aber man schafft den Rueckweg mit nur zwei Schritten

Hier kommt nun die Linkfrequenz ins Spiel, denn diese misst auf welchen Linklevel eine gegebene Seite von anderen Seiten gesehen wird (also der „Rueckweg“ der Situation die den neuen Links entspricht). Leider schlaegt die oben erwaehnte Informationsminderung (die vonnøten war um eine derartige Grøsze ueberhaupt zu messen) hier voll zu. Die Interpretation der Daten scheint zwar einfach und „geradeaus“, aber das muss im Detail betrachtet werden, damit man auch wirklich versteht, warum das rauskommt, was rauskommt.
Weswegen ich das auf das naechste Mal verschiebe.

Posted by Tentacel on 2024-01-19 at 13:37 under Kevin Bacon.
Comment on this post.

Der Max Planck hat’s gesagt: … zum Kevin Bacon

Auf Seite 109 in seiner Wissenschaftliche[n] Selbstbiographie schreibt Max Planck das Folgende:

[…] exact science demands more than a gift of intuition and willingness to work hard. It demands also very involved, painstaking, tedious attention to details […].

Gleich darauf folgt:

[…] when the pioneer in science sends forth the groping feelers of his thoughts, he must have a vivid intuitive imagination, for new ideas are not generated by deduction, but by an artistically creative imagination.

Und das erinnerte mich zum Ersten an den einen kleinen Balken in einem Wald von Balken der ein bisschen høher war als erwartet und wo mein Magengefuehl mir sagte, dass da was sein muss. Aber erst ein „tedious attention to details“ gekoppelt mit „a vivid intuitive imagination“ brachte die „Archipele“ zum Vorschein.
Ich wollte da zunaechst mit dem beruehmten „zehn Prozent Fehler“ drueberbuegeln und mich nicht weiter beschaeftigen … zum Glueck gewann der Wissenschaftler in mir die Oberhand.

Zum Anderen gilt das Gleiche bzgl. des (damals so bezeichneten) São Paulo FC-Artefakts. Dieses war letztlich nur der Anfang fuer meine (sicher oftmals) ermuedende Aufmerksamkeit fuer Details und befeuerte (spaeter) meine Fantasie welche dann die „Familien“ sichtbar machte.

Das sind nur die zwei grøszten (mglw. gar besten) Beispiele. Insgesamt sind diese beiden Mechanismen bei so ziemlich allen Sachen, die ich innerhalb der Kevin Bacon Maxiserie behandel(t)e (aber nicht nur da), am Werk gewesen. Natuerlich in unterschiedlicher Auspraegung und ich vermute (befuerchte), dass (leider?) die Detail“verliebtheit“ viel haeufiger in den Beitraegen auftritt als die Phantasie.

Posted by Tentacel on 2024-01-17 at 13:37 under Kevin Bacon.
Comment on this post.