Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (i) – die Relevanzdiskussion neu betrachtet

Beim letzten Mal war ich mir noch unsicher, ob ich versuche die Relevanzbetrachtungen zu reproduzieren. Ich dachte, dass man da ohnehin nix sieht. Aber dann packte mich (mal wieder) mein Ehrgeiz und es passierte etwas Aehnlichs wie bei der Simulation von Namen.
Oder vielmehr passierte viel mehr, denn ich schrieb nicht nur den entsprechenden Programmcode neu. Denn beim Neuschreiben verallgemeinerte ich auch alles und entdeckte dabei, dass die Relevanzdiskussion nur ein spezifischer Fall ist, wie die Daten auf diese Art betrachtet werden kønnen. Deswegen der Reihe nach …

… und los geht’s gleich mit dem was eigentlich betrachtetet wird.
Damals interpretierte ich die Anzahl der Zitate die eine Seite von anderen Seiten erhielt als ein Masz fuer die „Relevanz“ einer Seite. In den zweidimensionalen Falschfarbenbildern repraesentierten die Spalten der Abzsisse und auch die Reihen der Ordinate besagte Anzahl an Zitaten.
Ein Beispiel zur Veranschaulichung: man denke sich eine Seite die insgesamt 3 Zitate erhalten hat. Diese Zitate kamen von einer Seiten die selber nur einmal zitiert wurde, einer Seite mit 23 Zitaten und einer Seite mit 23517 Zitaten. Die erste Zahl entscheidet wo man auf der Abzsisse „landet“; in diesem Fall in Spalte #4 (die Zaehlung geht bei Null los, denn es gibt Seiten die keiner zitiert). Nach oben in dieser Spalte geht der Zaehler in den Zellen #2, #24 und #23518 um eins hoch, denn diese Zellen liegen in den Reihen auf der Ordinate die einem, 23 und 23517 Zitaten (welche die Seiten haben die die allererste Seite zitieren) entsprechen.
Wenn man das fuer alle Wikipediaseiten macht, dann baut sich das zweidimensionale Falschfarbenbild der Reihe nach auf. Bei manchen Zellen geht der Zaehler viele Male um eins nach oben (und die wurden damals rot im Falschfarbenbild) und bei anderen (den meisten) gar nicht (die blieben damals blau).
Oder anders: ich schaute damals wie „relevant“ die Seiten waren, die (andere) Seiten mit einem gegebenen „Relevanzwert“ zitiert haben und hier hatte ich das im Detail besprochen.

Nun ist die Anzahl der Zitate aber nur eins (von zwei) Merkmalen die eine Seite kennzeichnen. Das andere ist die Anzahl der Links.
Zur besseren (wenn auch definitiv nicht richtigen) Veranschaulichung, kønnte man sich besagte Anzahl der Links als eine Art „Recherchewert“ vorstellen. Je mehr Links eine Seite hat, um so besser ist diese recherchiert.
Dann kønnte man schauen, wie gut die Seiten recherchiert sind, die (andere) Seiten mit einem gegebenen „Relevanzwert“ zitiert haben. Man wuerde hier also die Anzahl der Links ueber der Anzahl der Zitate auftragen.
Dieses Diagramm ist aber nicht symmetrisch, denn die Relation wie die Daten zustande kommen geht nur in eine Richtung — (die auf der Ordinate abgetragenen Seiten zitieren die auf der Abszisse abgetragenen Seiten). Man kann das „Links-ueber-Zitate“-Falschfarbenbild also nicht „rueckwaerts“ lesen, wenn man wissen will wie „relevant“ die Seiten waren, die (andere) Seiten mit einem gegebenen „Recherchewert“ zitiert haben. Um das zu untersuchen muss man „Zitate-ueber-Links“-Falschfarbenbild erstellen.
Als Letztes kann man dann auch noch schauen, wie gut die Seiten recherchiert sind, die (andere) Seiten mit einem gegebenen „Recherchewert“ zitiert haben. Das entspricht einem „Links-ueber-Links“-Falschfarbenbild.

Oder anders: die „Bedeutung“ der Achse kann sich aendern, je nachdem, was darauf abgetragen ist. Das wiederum ist ein maechtiges Werkzeug, mit dem man viel ueber die Daten herausfinden kann. Damals ist mir das entgangen und ich entdeckte das erst jetzt, beim nochmals drueber nachdenken.

Nun ist das Kevin Bacon Projekt aber eigentlich abgeschlossen und ich habe auch keine Lust mehr, das alles detailliert zu untersuchen. Andererseits møchte ich besagtes Werkzeug genau besprechen.
In den naechsten paar Beitraegen wird Letzteres passieren und dabei werde ich „zweigleisig“ Diagramme und Falschfarbenbilder praesentieren. Um der Reproduzierbarkeit gerecht zu werden, werde ich Falschfarbenbilder vergleichen, bei denen die „Bedeutung“ beider Achsen der Anzahl der Zitate entspricht, die aber zum Einen aus den Daten von 2020 und zum Anderen aus den Daten von 2023 generiert wurden.
Dies wird aber nur einen (relativ kleinen) Teil ausmachen, denn ich møchte auch die Falschfarbenbilder aller anderen Achsenbedeutungskombinationen vorstellen. Auch dabei werde ich den Vergleich anfuehren, allerdings sind solche Bilder ja auch dann neu, selbst wenn sie mit Daten aus dem Jahre 2020 entstanden sind.

Bei all dem (denn das wird schon genug), werde ich nicht (nochmal) alles genau anschauen. Im Wesentlichen habe ich vor, nur besagte Falschfarbenbilder rein zu stellen als Veranschaulichung dessen, was das Werkzeug kann und ich habe vor den Fokus der Diskussion auf Letzteres zu legen.
Andererseits muss ich auch auf ein paar Dinge im „Dunstkreis“ dieses Werkzeugs eingehen. Auch hier habe ich vor 2020-Daten mit 2023-Daten zu vergleichen.

Das soll reichen fuer heute. Und weil’s systematisch vonstatten gehen soll, muss ich beim naechsten Mal zunaechst den „Relevanzwert“ nochmals genauer betrachten (und dabei zum „Bedeutungswert“ verallgemeinern).

Posted by Tentacel on 2024-10-11 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 3: Anzahl Seiten pro Anzahl Zitate / Links

Als naechstes hatte ich mir damals die Histogramme bzgl. der Zitate die eine Seite erhaelt und danach bzgl. der Links die eine Seite hat angeschaut. Beim naeheren Anschauen des Histogramms bzgl. der Zitate wurde ich zum ersten Mal bewusst auf maechtige Gesetze aufmerksam. Hier und heute vergleiche ich in diesen beiden Diagrammen …

… die angesprochenen Histogramme, gebildet mit den alten und mit den neuen Daten (man beachte die unterschiedlichen Abzsissen!). Man sieht, dass sich nix Wesentliches veraendert hat.
Bei den Zitierungen gibt es nur zwei neue Seiten, die mehr als 1 Million Zitate haben. Insb. die zweite Seite davon, mit ueber 5 Millionen Zitaten, spielt gleich nochmal eine Rolle. Bei den Links hat sich die Anzahl der Seiten mit wenigen Links etwas vermindert. Keine dieser Aenderungen wuerde ich jetzt aber derart einschaetzen, dass qualitativ, oder auch quantitativ (innerhalb gegebener Grenzen), andere Schlussfolgerungen aus den Daten zu ziehen sind.

Danach hatte ich mir den kumulativen Anteil der Seiten und Zitate / Links angeschaut (als Diagramm kuriosweise zuerst bzgl. der Links und dann nachgeliefert bzgl. der Zitate). Hier der Vergleich der alten Kurven mit den neuen Kurven diesbezueglich (man beachte wieder die unterschiedlichen Abzsissen):

Wieder kann im Wesentlichen gesagt werden, dass sich nix geaendert hat. Wie auch, denn diese Kurven folgen ja aus den obigen Histogrammen.
Im Detail geschaut scheint bzgl. der Zitate die blaue Kurve fuer grosze Werte auf der Abzsisse etwas „abzusacken“. Das ist schnell geklaert und einzig und allein durch die eine, oben erwaehnte Seite zurueckzufuehren. Diese haeuft naemlich ueber 5 Millionen Zitate nur auf sich selber an und das macht dann den „Knick und Sprung“ ganz am Ende und „schiebt“ den Rest der Kurve nacht unten. Weil’s nur eine einzige Seite ist, hat das keine Auswirkungen auf die rote Kurve und nimmt man diese Seite raus, sind die blauen Kurven beinahe deckungsgleich.
Bzgl. der Links ist die leichte „Verschiebung nach unten“ bei der neuen roten Kurve durch die gerungfuegig geringere anzahl an Seiten mit wenigen Links zu erklaeren.

Das soll reichen fuer heute :) . Ich bin mir noch nicht sicher, ob ich mir die Relevanzbetrachtungen nochmal anschaue, denn diese folgen mittelbar ja auch nur aus obigen Histogrammen. Auszerdem hatte ich da „nur“ bunte 2D-Falschfarbendarstellungen bei denen ich genau „reinzoomen“ musste um Details zu besprechen. Oder anders: bei denen sieht man bei so kleinen Veraenderungen ohnehin keinen Unterschied (und „reingezoomt“ hatte ich nur bei Anomalien die vermutlich immer noch da sind und wenn nicht mir auch nix ueber das Grosze und Ganze verraten). Solche „bunten Karten“ kann ich auch nicht zum besseren Vergleich uebereinander legen. Vermutlich werd ich da also nicht nochmal drueber schauen mit den neuen Daten … allerdings dachte ich zunaechst genau so bzgl. der Simulation von Namen … mhm mhm mhm.

Posted by Tentacel on 2024-09-05 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 2: Titelspielereien (doch nochmal Namen simuliert)

Als ich mich das erste Mal mit der Verteilung der Laenge der Wikipediaartikeltitel beschaeftigte, simulierte ich sehr viele Namen um etwas genauer zu untersuchen und meinte beim letzten Mal bzgl. der Simulation:

Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten abhaengig und wuerde heute genauso ausfallen.

Und damit lag ich zwar nicht komplett daneben … es war aber auch nicht ganz richtig, denn ich kam sehr wohl auf andere Ergebnisse. Dazu weiter unten mehr.

Zunaechst møchte ich aber nochmal darauf eingehen, wieviele Vornamen man braucht um 50 Prozent aller Babies einen Namen zu geben (wenn diese nach der Beliebtheit ihrer Vornamen sortiert werden). Das war selbst mir zu periphaer vor drei Jahren und ich hatte das deswegen in den damaligen Geburtstagsbeitrag ausgelagert (ich meine das zweite Bild). Dabei hatte ich aber nur Daten betrachtet die „ueber alle Babies gehen“ (also eine Art „Summensignal“).
Jetzt beim Neuschreiben der Programme fuegte ich eine Funktion ein, welche mir auch die zwei Teile dieses „Summensignals“ separat ausspuckt. Oder anders: ich habe jetzt auch nach Maechen und Jungs getrennte Ergebnisse und das sieht so aus:

Das „Summensignal“ (graue Punkte) ist das Selbe wie beim vor drei Jahren (auszer, dass drei weitere Jahre dazugekommen sind). Ich fand es aber erstaunlich, dass die Variation bei den Maedchennamen immer ca. 1.5 bis fast 3 Mal grøszer ist (siehe die blauen Punkte). Maedchennamen machen also den Hauptteil am Summensignal aus und deswegen bringe ich das hier doch nochmal, denn das habe ich ja damals ueberhaupt nicht gesehen.
Nun stellt sich natuerlich die Frage warum das so ist, welche ich hier aber nicht beantworten kann (einfach weil ich’s nicht weisz und nicht wuesste wie ich an entsprechende Daten kommen kønnte). Aber zwei potentielle Ursachen fallen mir ein. Zum Einen, kønnten Jungs staerker irgendwelchen Namenstraditionen unterliegen als Maedchen; der Uroppa hiesz schon so und deswegen heiszt der Enkel auch so. Zum Anderen kønnte es aber auch sein, dass es mglw. mehr Maedchennamen als Jungsnamen gibt; der „Maedchennamentopf“ ist also „grøszer“. Das wuerde nicht mal unbedingt mit dem Anstieg ab ca. Mitte der 80er Jahre im Konflikt stehen, denn das Verhaeltniss der Namen bleibt (so ungefaehr) das Gleiche. Besagter Anstieg haengt mglw. mit dem demographische Wandel in den USA zusammen, was zu einem (viel) mehr an Namen fuehrt. Aber dieses „Mehr an Namen“ verteilt sich (mehr oder weniger) gleichmaeszig ueber Jungs- als auch Maedchennamen.

Das war das Ergebnis das sich nicht aenderte. Im gleichen Geburtstagseintrag zeigte ich aber auch die Parameter der Gausskurven fuer jaehrliche Simulationen … und die haben sich geaendert. Hier sieht man das fuer die Position des Zentrums …

… welches im Mittel jetzt sogar noch besser mit dem beim letzten Mal erwaehnten „Hauptprozess“ uebereinstimmt … und hier fuer die Amplitude und Standardabweichung besagter jaehrlichen Gaussfits:

Zum Glueck liegen die Ergebnisse nicht nur in der selben Grøszenordnung, sondern auch innerhalb des selben (sehr engen) Bereichs. Auszerdem sind die allgemeinen Merkmale (wann die Kurven hoch oder runter gehen bzw. so ungefaehr gleich bleiben) im Wesentlichen auch die Gleichen. Ja es gibt Abweichungen (die ja auch der Grund sind, warum ich das hier doch nochmal bringe) aber weil sich das alles ohnehin in sehr engen (Zahlen)Bereichen befindet sind sowieso nur die grøszeren Trends von Interesse und deswegen aendert sich an meinen damaligen Aussagen nix.

Aber es machte mich natuerlich sehr stutzig, dass bei gleichen Ausgangsdaten (zur Erinnerung: fuer diese Simulationen benutzte ich externe Namensdaten und nicht die Wikipedia und an denen hat sich nix geaendert seit 2021) und eigentlich (und auch uneigentlich) gleicher Methode ueberhaupt etwas anderes raus kam.
Es stellte sich heraus, dass der Fehler bei mir lag. Zur Erinnerung: beim zufaelligen „Ziehen“ von Namen aus dem groszen Namenstopf war die Wahrscheinlichkeit einen bestimmten Namen zu ziehen davon abhaengig wie oft der (im jeweiligen Jahr) an Babies vergeben wurde. Fuer 1880 gab es also viele Marys und Johns im Namenstopf, aber nur sehr wenige Wilmas und Zachariahs.
Wie oft ein Name im Topf vorkommt berechnete ich nun so, dass ich die Anzahl der Babies mit einem gewissen Namen durch die Anzahl aller Babies teilte (so weit so gut) und dann mit der Anzahl der Namen die ich insgesamt simulieren wollte multiplizierte (immer noch so weit so gut). Aber weil ich bei meinem selbtgeschriebenen „Namen-aus-dem-Topf-zieh“-Algorithmus nur mit ganzen Zahlen arbeiten konnte, hab ich bei dezimalen Wahrscheinlichkeiten einfach alles nach der ganzen Zahl abgeschnitten. Fuer Namen die im Namenstopf oft genug vorkommen macht das keinen groszen Unterschied. 23517.5 ist nicht viel anders als 23517 … das kann man sogar fuer 10.9 noch argumentieren … mglw. sogar noch fuer 5.5 oder auch fuer 3.9 (selbst hier ist der Fehler ja nicht mal 25 %).

Aber bei all zu kleinen Zahlen kann das Abschneiden der Dezimalstellen im Groszen und Ganzen zu Problemen fuehren, denn es gibt recht viele Namen die bei meinem „selbstgestrickten“ Algorithmus nur ein- oder zweimal im Namenstopf waren und deswegen im Extramfall nur halb so oft gezogen wurden, wie sie haetten gezogen werden sollen.
Beim nochmal Neuschreiben des Programms habe ich das nicht nochmal selbst geschrieben, sondern geschaut was in den vielen umfangreichen Mathebibliotheken von Python zu finden ist und ein entsprechendes Modul benutzt. Besagtes Modul macht alles richtig und deswegen sieht es jetzt anders aus, weil die „Ziehwahrscheinlichkeit“ nun auch fuer sehr selten vorkommende Namen richtig ist.
Zum Glueck ist es aber so, dass sehr selten vorkommende Namen nur sehr selten gezogen werden (selbst wenn mein erster Algorithmus die sogar noch seltener gezogen hat) und deswegen sind die ersten Ergebnisse nicht komplett falsch sondern nur im Detail.

So, das soll jetzt dazu reichen und ich verbleibe wie beim letzten Mal:

[…] wenn ich das richtig sehe, dann gibt’s beim naechsten Mal nicht so viel zu schreiben … aber ich sollte lieber nix versprechen, was ich vermutlich nicht halten kann.

Posted by Tentacel on 2024-07-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 2: Titelspielereien (bestaetigt … und verbessert)

Ganz unabhaengig von der Linknetzwerkanalyse betrachte ich damals die Titellaengen etwas genauer. Hier von Interesse ist nur die Verteilung derselben und daran hat sich wenig geaendert:

Das Integral unter der Kurve ist jetzt etwas grøszer (entsprechend der Anzahl der dazugekommenen Artikel), aber die Form ist so sehr die Gleiche, dass es fast schon das Selbe ist … mhmm … sprachlich gesehen ist „fast das Selbe“ sowas wie „fast schwanger“ … also Quatsch … aber ihr, meine lieben Leserinnen und Leser wisst sicherlich worauf ich hinaus will … aber ich schwoff ab.

Wenn man annimmt, dass alle neuen Artikel sich im Durchschnitt wie alle bereits vorhandenen Artikel „verhalten“ (und das schlieszt die Artikeltitel ein) war das zu erwarten. Und dies ist eine sehr sinnvolle Annahme und jede andere Annahme muss SEHR gut begruendet sein! Natuerlich sind Abweichungen vom Durchschnitt denkbar. „Nichtdurchschnittlich“ ist es bspw., wenn in den drei dazwischen liegenden Jahren nur Artikel ueber chemische Verbindungen mit langen Namen neu hinzugekommen waeren. So eine Anomalie ist an sich natuerlich interessant, aber die Wahrscheinlichkeit dafuer ist gering und deswegen verteilen sich Laengen der neuen Artikeltitel im Wesentlichen so wie die alten.

Damals konnte ich die Form der Verteilung mittels dreier (gaussverteilter) Prozesse anpassen. Fuer den staerksten dieser drei Prozesse versuchte ich die (Haupt)Ursache zu finden und landete letztlich auf Namen von (mehr oder weniger) beruehmten Leuten.
Dafuer simulierte ich vor drei Jahren zunaechst sehr viele Namen und konnte tatsaechlich (innerhalb vernuenftiger Grenzen) das Zentrum und die Amplitude des ersten erwaehnten Prozesses nachempfinden. Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten abhaengig und wuerde heute genauso ausfallen.

Danach kam ich dann drauf mal zu schauen, ob es bei der Wikipedia vielleicht eine Kategorienseite mit links zu Seiten von Leuten gibt. Die gibt es, aber leider verteilen sich die fast 2 Millionen Seiten zu Leuten auf etlichen tausend Kategorien, weil die vielen Menschen alle fuer unterschiedliche Sachen beruehmt sind.
Einen leider nur halben Ausweg war die Kategorieseite aller lebenden Menschen. Halb deswegen, weil sich dort nur ca. 60 Prozent aller Seiten zu Leuten finden lassen. Das restliche Drittel sind schon verstorbene Menschen und die entsprechende Kategorieseite listet leider nicht die Links zu den Seiten sondern wieder nur die (vielen) Kategorieseiten unter die diese Leute fallen (fielen?).
Aber mit den 2/3 konnte ich zumindest eingeschraenkt arbeiten und die Verteilung der Titellaengen von Seiten zu lebenden Menschen hatte das Zentrum auch an der richtigen Stelle (weil aber so viele fehlten war die Amplitude nur halb so grosz wie die des erwaehnten Hauptprozesses).

Als ich die entsprechenden Programme nochmal schrieb, schaute ich wieder ueber viele Kategorieseiten und stolperte letztlich ueber die Kategorien Births per year und Deaths per year. Da sind die Leute zwar auch nicht direkt aufgelistet, aber die Links zu den Unterkategorien der Leute die in den entsprechenden Jahr geboren / gestorben sind ist systematisch und mit systematischen Sachen kann ich arbeiten.
Und siehe da …

… ich konnte die allermeisten Seiten zu Leuten finden (und nicht nur ca. 60 %). Das sind sicherlich immer noch nicht alle Seiten zu Leuten, denn Autoren muessen die in den entsprechenden Kategorien eintragen, aber ich wuerde schaetzen, dass mir weniger als 5 % fehlen.
Und das Gute ist, dass sich nicht nur das Zentrum nicht verschiebt, sondern die Amplitude der neuen Daten 2/3 der Amplitude des besagten staerksten Prozesses erreicht. Damit ist das Ergebnis nahe genug dran, dass das fuer sich selber spricht und ich das so stehen lassen kann und (anders als damals) nicht rumdiskutieren muss, warum ich denke, dass die Daten (trotz merklich kleinerer Amplitude) vermutlich dennoch richtig sind.

Genug fuer heute … wenn ich das richtig sehe, dann gibt’s beim naechsten Mal nicht so viel zu schreiben … aber ich sollte lieber nix versprechen, was ich vermutlich nicht halten kann.

Posted by Tentacel on 2024-07-17 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 1: neue Daten

Wie erwaehnt fehlt in diesem Projekt noch eine grosze und wichtige Sache: sind die Ergebnisse reproduzierbar?

Diese Frage konnte natuerlich nicht mit den selben Daten beantwortet werden und deshalb lud ich mir Ende November 2023 die Wikipedia nochmal runter. Der Prozess war wie beim ersten Mal, nur dass drei Jahre mehr Daten drin waren. Deswegen ist die entpackte Datei nun ca. 90 GB grosz (die drei Jahre juengeren Daten sind „nur“ 75 GB grosz).

Alles was ich damals tat um die relevanten Daten aus der riesigen Datei zu popeln und diese fuer die eigentliche Linknetzwerkanalyse vorzubereiten, machte ich nochmal. Die Programme dazu liesz ich im Wesentlichen unveraendert (die sind jetzt nur besser strukturiert und der Code ist besser kommentiert).
Vor drei Jahren konnte ich die urspruenglichen 75 GB letztlich auf eine nur 1.4 GB grosze (Text)Datei reduzieren. Die Zahl gab ich damals nicht an und mit der Wikipedia vom November 2023 erhøhte sich die Grøsze dieser Datei nur auf 1.6 GB

Damals verblieb ich mit 5,798,312 Wikipediaseiten und 165,913,569 Links. Die neuen Daten enthalten 6,269,403 Seiten und 198,870,985 Links.
Das kønnen wir mit der beim letzten Mal vorgestellten Information vergleichen. Am Ende der Untersuchungsperiode kamen bei der Wikipedia ca. 13-tausend neue Seiten pro Monat dazu. Drei Jahre entsprechen 36 Monaten und somit ca. 468-tausend neuen Seiten. An den Zahlen oben sieht man, das es in echt 471,091 neue Seiten waren … das ist fast schon erschreckend, wie genau die relativ grobe Abschaetzung das abbildet.

Damit fuehrte ich vom Konzept die selbe Linknetzwerkanalyse durch. Im entsprechenden Code veraenderte ich an den Analysestellen nichts. Aber zu den technische interessanten Details fuegte ich noch eine (gar nicht mal so) kleine coole Sache hinzu: die Anzahl der an der Berechnung teilnehmenden Kerne ist nun mittels der Angabe nur einer Zahl einstellbar und nicht mehr hartgecoded … cool wa. Auszerdem schrieb ich ein paar kleine Helferprogramme, welche eine (mehr oder weniger … ehrlich gesagt eher in die Richtung mehr als in die Richtung weniger) automatische Analyse erlauben. Und weil die Hardware sich in den letzten drei Jahren auch „verdoppelte“ (ich habe nun 8 anstatt nur vier Cores) waren diese Aenderungen extra cool, denn ohne weiteres Brimborium, konnte die Linknetzwerkanalyse auf noch mehr Cores gleichzeitig laufen und war noch schneller fertig.

Damit ist das was ich vor drei Jahren ueber mehrere Beitraege und Monate abhandelte auch schon fertig. Trotz der wenigen Zeilen hier war’s fuer mich ein ziemlicher Brocken Arbeit, denn ich ~~musste~~ habe den Code der Programme die all diese Aufgaben uebernehmen besser strukturiert, kommentiert und dokumentiert (und zum Teil auch mit ein paar kleinen Funktionalitaeten erweitert; s.o.). Prinzipiell haette ich das nicht machen brauchen, aber fuer mich zaehlt das zum Abschluss eines Projekts dazu … das muss _meinen_ aesthtetischen Beduerfnissen und allgemein _meinen_ Anspruechen genuegen.
Das ist dann auch der Grund, warum diese Teilaufgabe so schleppend voran geht, denn der Analysecode den ich ueber die drei Jahre schrieb ist katastrophal. Ich dachte doch urspruenglich, dass das nur ein paar wenige Wochen dauert. Und deswegen programmierte ich viele kleine Programme die kleine Aufgaben machen und kommentierte das oft nicht gut genug und ’ne Dokumentation hatte ich schon gar nicht. Zum Glueck habe ich die Angewohnheit schon beim coden Kommentare zu schreiben (weil ich (sicher zurecht) befuerchte, dass ich vergesse warum ich bestimmte Sachen so gecoded habe wie ich sie gecoded habe). Das kommt mir jetzt zu Gute, denn ansonsten waere ich komplett verloren in dem Codedurcheinander. Aber das geht viel besser und deswegen møchte ich das auch viel besser haben (s.o.) und beim wieder drueber gucken sehe ich auch, dass viele Programme in allgemeineren Programmen zusammengefasst werden kønnen.

Waehrend also der Code fuer die erste beiden Teile (relevante Daten sammeln und die Linknetzwerkanalyse) beinahe unveraendert blieb, schreibe ich (bin immer noch dabei) fuer die Analyse der Resultate der Linknetzwerkanalyse im Wesentlichen alles komplett neu. Klar, das was die Programme ausspucken ist das Selbe … MUSS das Selbe sein, denn ansonsten habe ich was falsch gemacht (was uebrigens auch nochmal Zeit kostet zu kontrollieren, denn ich muss die neuen Programme mit den Daten von Ende 2020 laufen lassen und dann mit den damaligen Ergebnissen vergleichen) … aber ich bin VIEL mehr zufrieden mit dem Code an sich.

Das soll reichen fuer heute. Beim naechsten Mal gibt’s dann wieder (mindestens) ein Diagramm.

Posted by Tentacel on 2024-06-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A1 – Popularitaetswettbewerb 2

Beim letzten Mal stellte ich eine neue Datenquelle vor, welche die Anzahl der Seitenaufrufe pro Tag fuer jede Wikipediaseite hat. Das ist von Interesse, denn in den Analysen der vorhergehenden Jahre behauptete ich oft, dass i.A. Seiten mit mehr Zitaten populaerer sind. Das ist durchaus eine plausible Behauptung, allein schon weil oefter zitierte Seiten eine grøszere Chance haben angeklickt zu werden, einfach weil die øfter von Nutzern gesehen werden. Der Quelltext enthaelt allerdings keine Information darueber, dass das auch „in Echt“ (also extern und nicht nur via internen Zitaten von einer Seite zur naechsten) gilt.

Die neuen Daten erlauben mir das nun direkt zu testen indem man sich die Aufrufe einer Seite in Abhaengigkeit von der Anzahl der (Wikipedia internen) Zitate (oder Links) anschaut.
Das ist das Prinzip, aber natuerlich ist das nicht ganz so einfach. Zunaechst einmal muss man die beim letzten Mal erwaehnten natuerlichen und unnatuerliche Artefakte in den Daten „rausmitteln“. Das ist einfach, denn dafuer muss nur die durchschnittliche Anzahl an Seitenaufrufen pro Monat berechnet werden (fuer jede Seite). Es ist leicht einzusehen, dass das nix am allgemeinen Prinzip aendert, die Interpretierbarkeit des Diagramms hingegen deutlich erleichtert.

Ich vermutete aber, dass das immer noch nicht ausreicht, denn ich ging davon aus, dass selbst die durchschnittlichen monatlichen Seitenaufrufe massiv streuen. Oder anders: ich erwartete eine dichte Punktwolke ohne viel Struktur, wie schon bei der Abhaengigkeit der Anzahl der Links von der Anzahl der Zitate von „damals“. Die Løsung lag (wieder) in einer gruppenweise Mittelung der durchschnittlichen Seitenaufrufe. „Gruppenweise“ bedeutet hier (wieder), dass alle Seiten die eine gegebene Anzahl an Zitaten / Links haben eine Gruppe ausmachen. Die durchschnittlichen Seitenaufrufe aller Mitglieder der Gruppe wurden dann gemittelt.
Das sagt nicht mehr unbedingt viel ueber einzelne Seiten aus, denn die Information die in der Streuung der Werte liegt geht komplett verloren. Aber individuelle Seiten interessieren mich ohnehin nicht wirklich. Diese Herangehensweise erhøht die Interpretierbarkeit allerdings deutlich, wenn man auf allgemeine Erwartungen (oder Verhalten) bei einer gegebenen Situation (die Anzahl der Zitate / Link) aus ist.

Und hier ist nun endlich das Diagramm:

Voll super wa! Fuer bis zu ca. 1000 Zitate / 500 Links verhaelt sich die Anzahl der durchschnittlichen monatlichen Seitenaufrufe nach einem maechtigen Gesetz. Danach gilt das nicht mehr i.A. denn die Punkte streuen zu sehr. Letzteres liegt daran, weil ich bei sehr vielen Zitaten / Links nicht mehr genuegend Seiten fuer eine gute Statistik habe. Die obige Behauptung ist aber weiterhin i.A. gueltig, denn Seiten mit mehr als ca. 1000 Zitaten / 500 Links halten sich eher im oberen, als im unteren Teil des Diagrams auf (und bei logarithmischer Achse „haut das doppelt rein“ … streng genommen zehnfach, denn es ist ja ’ne logarithmische Achse).

Natuerlich haette ich die blauen Punkte gar nicht einzeichnen muessen, denn wir wissen ja, dass die Anzahl der Links nach einem maechtigen Gesetz von der Anzahl der Zitate abhaengt. Ich wollte das aber zeigen, denn besagte Abhaengigkeit fuehrt zu unterschiedlichen Anstiegen der blauen und roten „Kurve“.

So … viel mehr gibt’s dazu nicht zu sagen. Es ist fein zu sehen, dass die plausible Behauptung tatsaechlich stimmt.

Damit werde ich dann ab dem naechsten Mal die Reproduzierbarkeit der Ergebnisse angehen … nach ueber drei Jahren wird das dann aber zu einem unregelmaeszigeren Publikationsrhytmus fuehren, denn das mache ich zusammen mit dem neu schreiben der Analyseprogramme und das dauert ’ne Weile.

Posted by Tentacel on 2024-05-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A1 – Popularitaetswettbewerb 1

Ich war schon dabei zusammen zu packen, als ich ueber diese Seite (mglw. muss man nach dem klicken auf den Link die Seite nochmal refreshen um das zu sehen, was man sehen sollte) stolperte, auf der man fuer jede Wikipediaseite schauen kann, wie oft die pro Tag angeschaut wurde. Mein erster Gedanke war: das fetzt ja! Mein zweiter Gedanke war: moment Mal, damit kann ich doch direkt schauen, ob meine Annahme, dass Seiten mit mehr (Wikipedia internen) Zitaten populaerer sind, stimmt. Das konnte ich vorher naemlich nicht, weil diese Information nicht Teil des Wikipedia Quelltextes ist.

Das dortige Interface ist zwar fein, wenn man mal mit ein paar wenigen Seiten rumspielen will, aber ich wollte natuerlich die Daten fuer alle Seiten haben. Dies brachte mich (wieder) zu einer Seite, die ich bereits gaaaaanz am Anfang dieses Projekts vorstellte und dort gibt es einen Direktlink zu den Analytics data files. Von dort geht es dann weiter zu „Pageview complete“ … um dort dann mit zwei verschiedenen Rohdatenquellen konfrontiert zu werden: alte Daten und neue Daten.
Um eine etwas kompliziertere Angelegenheit kurz zu machen: es dauerte eine kleine Weile, bis ich da durchgeschaut hatte und die Datenlage ist etwas uneinheitlich und von Artefakten geplagt.

Dies hier ist ein Beispiel fuer ein unnatuerliches Artefakt (und indirekt eine Mthodenaenderung), in dem man die Klickzahlen fuer Cat und Dog fuer Juli und August 2017 sehen kann. Bei den Hunden ist alles knorke; eine im wesentlichen flach verlaufende Kurve mit ein paar Spitzen in denen ca. 2 1/2 mal so viele Leute sich fuer Hunde interessieren. Letzteres erregt mein Misstrauen erstmal nicht, denn ein Faktor von 2.5 passiert schon mal, gerne auch mehrfach. Das lohnt sich meistens nicht weiter zu untersuchen, denn vllt. gab’s da ’n Artikel ueber ’n Hund in ’ner Lokalzeitung irgendwo, oder eine Netflix-Dokumentation und solche Sachen.
Bei den Katzen hingegen sieht man einen massiven Ansteig um 1 1/2 Grøszenordnungen (!) an nur einem einzigen Tag. Es stellte sich heraus, dass Bots regelmaeszig die Wikipedia durchqueren und dann sowas verursachen. Mal mit mehr, mal mit weniger starken (aber immer deutlich herausstechenden) Klickzahlen.
Solche unnatuerlichen Peaks sind also im Wesentlichen bei allen Seiten dabei … … … bis die Wikipedia eine Methode gefunden hat die Bots zu erkennen und seitdem sind die NICHT mehr mit dabei.

Ein Beispiel fuer ein natuerliches (!) Artefakt ist der Film Tenet. Heutzutage liegt der taegliche Zaehler bei ein paar Tausend Klicks. Als der Film rauskam zeigt dieser aber bis zu ca. 50 Mal so viel an. Ist ja ganz natuerlich (insb. fuer diesen Film) und logisch, beschreibt aber nicht das normale Verhalten.

Ein weiteres Beispiel einer Methodenaenderung sind Nutzer von unterschiedlichen Hardwareplattformen. Am Anfang gab’s keine Mobilfunkversion, dann wurde das nicht unterschieden und alles nur in eine Zahl gepackt und in den neuesten Daten haben Nutzer der „mobilen Wikipedia“ ihre eigenen Klickzaehler.

Ich versuchte Artefakte in den Daten zu erkennen und „rauszurechnen“ … aber das ist alles nicht so eindeutig und fuer das was ich damit erreichen will war es mir zu viel Aufwand. Deswegen beschloss ich davon auszugehen, dass die unnatuerlichen Artefakte sich im Mittel gleich ueber alle Seiten verteilen bzw. im Groszen und Ganzen nicht weiter auffallen.
Ersteres ist durchaus eine plausible Annahme, muesste streng genommen aber nachgewiesen werden. Letzteres ergibt sich daraus, dass unnatuerliche Artefakte selten auftreten (eine weitere Annahme, die eigtl. geprueft werden muesste, aber wenn die oft auftreten wuerden, dann waeren die Statistiken prinzipiell unbrauchbar) und sich ueber’s Jahr gesehen im Mittel … øhm … herausmitteln … bzw. im „Fehler verschwinden“. Im Wesentlichen gilt das Gleiche (das Selbe?) auch fuer natuerliche Artefakte.
Probleme gibt es nur bei Seiten die erst seit kurzem existieren, denn da stellen potentielle (natuerliche) Artefakte einen signifikanten Anteil der Daten und hatten noch keine Zeit sich „rauszumitteln“. Andererseits habe ich ca. 6 Millionen Seiten insgesamt und pro Monat gibt’s nur … … … ja wie viele neue Seiten gibt’s denn eigentlich pro Monat?

Zum Glueck kann man das aus diesen Daten extrahieren, wenn man die zwei folgenden (wieder: durchaus plausiblen) Dinge annimmt. Eine neue Seite hat vor dem Tag ihrer „Geburt“ null Klicks. Am Erstverøffentlichungstag wird die Seite mindestens ein Mal angeklickt; naemlich vom Schøpfer selbst. Ersteres muss man nicht mal nachpruefen, denn das geht nicht anders. Bei Letzterem bin ich mir unsicher, es fuehlt sich aber richtig an; die Wikipedia ist ja nicht mein Weblog, bei dem Artikel im Voraus geschrieben um dann am Tag der Verøffentlichung nicht gelesen zu werden. Falls nicht, dann kønnte man argumentieren, dass ’ne Seite eben erst dann „wirklich geboren“ wird, wenn der erste Leser drauf klickt.
Und hier sieht man die Anzahl der neuen Seiten pro Monat seit Beginn der verfuegbaren Daten (minus ein Monat, denn als Ende 2007 die allerersten Klickzahlen registriert wurden, gab es bereits ca. 3.5 Millionen Seiten):

Die groszen Abszissenstriche kennzeichnen den Januar eines Jahres und die kleinen Abzsissenstriche liegen genau in der Mitte (also zwischen Juni und Juli). Die Jahreszahl ist auf die Mitte eines Jahres zentriert. Auszerdem habe ich natuerlich NUR die Seiten betrachtet, welche in die Kevin Bacon Analysen der letzten Jahre eingeflossen sind.

Was man im Diagramm sieht ist, dass die Anzahl neuer Seiten pro Monat _drastisch_ abgenommen hat. Die Gerade habe ich nur zum Vergleich reingelegt und bei logarithmischer Ordinate entspraeche die einem exponentiellen Abstieg … und wenn man genau hinschaut, ist das tatsaechliche Gefaelle schneller! An dem laengerfristigen Trend konnten auch die Schreibspurts (die pløtzlich auftretenden Spitzen) nur relativ kurzfristig was aendern. Bis Mitte ca. 2015 setzte sich der Trend fort und stabilisierte sich dann auf ca. zehntausend neue Seiten pro Monat, mit _ganz_ leicht steigender Tendenz (ca. 13k pro Monat Ende 2020).

Mit Blick auf Artefakte in neuen Seiten ist im Wesentlichen nur das letzte Jahr relevant. Wir reden hier also von nicht mehr als ca. 150-tausend Seiten oder ungefaehr 2.5 Prozent der ca. 6 Millionen Seiten die in meine Betrachtungen eingflossen sind. Jut … muss ich mir also keine Sorgen deswegen machen.

Das soll reichen fuer heute. Beim naechsten Mal zeig ich dann das, was ich eigtl. zeigen wollte.

Posted by Tentacel on 2024-05-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXII – Zusammenpacken … rømisch IV

Beim letzten Mal fasste ich meine Erlebnisse mit den Selbstzitierungen zusammen und lande damit heute dann endlich bei der letzten untersuchten Grøsze, der Linkfrequenz.

Im ersten Kapitel dazu (XLII) fuehrte ich etablierte Analysen durch und bereits hier stellte sich heraus, dass die Resultate anders sind, als bei den anderen Grøszen. Oder anders: mehr Raetsel die es zu løsen galt. Und auch gleich hier machte sich ein „alter Bekannter“ — das „São-Paulo-FC-Artefakt“ — nicht nur nach langem „Schnueffeln“ sondern sofort und unmittelbar bemerkbar … zusammen mit anderen „Artefakten“, bei denen es schien, dass diese vom allgemeinen „Verhalen“ verdammt aehnlich Ersterem waren.

Das war nicht unerwartet, aber um das erklaeren zu kønnen, widmete ich Kapitel XLIII zunaechst dem besseren Verstaendnis des „Originals“. Diese Vorarbeit erlaubte es mir dann in Kapitel XLIV und XLV ohne weitere Umschweife die Betrachtungen auf die anderen „Artefakte“ zu erweitern.

Letztlich muendete all das in Kapitel XLVI (Teil 1 … oder A … oder wie ich das sonst immer kennzeichnete, denn hier unterliesz ich eine Zaehlung der (zwei) Teile und gab denen nur andere Titel) in einer neuen Betrachtungsweise der Daten, die ich bisher nicht unternommen hatte: das Histogramm der Integrale unter den Kurven der Seiten. Bei den totalen und neue Links bzw. den Selbstreferenzen kam da nicht viel bei rum. Wenn man weisz, wonach man gucken muss und die Erklaerung schon kennt, dann sieht man bei den totalen (und neuen) Linsk bereits das Archipel im „Schwanz“ der Histogramme. Aber das geht flieszend ineinander ueber und wenn man die Erklaerung noch nicht kennt, dann ist das schwer auseinander zu popeln.
Bei der Linkfrequenz hingegen trennt sich das Archipel ganz eindeutig vom Rest der Seiten und die neue Betrachtungsweise erlaubte eine vorherige Frage viel leichter zu beantworten (und damit das vormals erhaltene Ergebnis zu bestaetigen): welche Seiten gehøren zum Archipel? Dem widmete ich dann Teil 2 des selben Kapitels.

Danach ging es in Kapitel XLVII weiter mit einer weiteren (mittlerweile) Standardanalyse: wie sehen denn die vielen einzelnen Verteilungen aus? Das war aber schwer zu interpretieren und ich betrachtete in den zwei Teilen von Kapitel XLVIII die Idee einer „kollektiven Wanderung“ etwas genauer. Das war zwar durchaus interessant, aber da kam aber nicht wirklich viel bei raus.
Das Gleiche kann gesagt werden bzgl. der Abhaengigkeit des Wertes der Linkfrequenz auf einem Linklevel vom Wert auf dem vorherigen Linklevel, dem ich mich in Kapitel XLIX widmete. Das legte „nur“ eine weitere „Kuriositaet“ dar, die man bei linearen Skalen in den entsprechenden Diagrammen deutlich sah, aber nicht mit den sonst oft ueblichen doppellogarithmischen Skalen. Mal davon abgesehen, dass ich sowas immer verstehen møchte, widmete ich der „Kuriositaet“ nicht nur Kapitel L sondern auch Kapitel LI, denn es illustrierte so schøn die Wichtigkeit unterschiedlicher Ordinaten- und Abzsisseneinteilungen und wie solche unterschiedliche Informationen zu Tage førdern. Auszerdem gab mir die Beschaeftigung mit dieser „Kuriositaet“ die entscheidende Idee, wie ich weitere „Artefakte“ in den Daten aufstøbern kann.

Das ging ich dann sehr ausfuehrlich in den sechs Teilen des Kapitels LII an und das wichtigeste Ergebnis war, dass die „Artefakte“ gar keine Artefakte sind, sondern ein reales und oft (genug) auftretendes Phaenomen sind … auch wenn das nicht sofort zu erkennen ist und man das erstmal aus den Daten rauspolken muss. Ich nannte das dann „Familien“.
Dies kam dann entsprechend dem supertollen Erlebnis der Entdeckung der Archipele nahe … nur nicht ganz, weil ich besagtes Phaenomen schon lange erwartet hatte, aber vorher nicht wusste, wo ich da „ran komme“. Dafuer musste ich erst die erforderlichen „Werkzeuge“ (in Form der richtigen Analysen) „entwicklen“.

Das alles fuehrte mich dann doch nochmal auf die viel frueher bereits untersuchte, dann aber sogleich verworfene, Idee eines Phasenuebergangs innerhalb des Wikipedialinknetzwerks zurueck. Da ich nun alles viel besser verstand und von mehr „Seiten“ betrachtet hatte, konnte ich die Idee in den Kapiteln LIII bis LVII, nochmals angehen. Diesmal sehr viel erfolgreicher, denn ich fand sogar Groeszen, die als Ordnungsparameter angesehen werden kønnen. Ich bin da zwar sehr zufrieden mit meiner Arbeit (und mir), aber letztlich konnte ich damit leider nicht viel weiter mit anfangen.

Kapitel LVIII diente dann nur noch einem „Ueberbleibsel“ bzgl. der Linkfrequenz; einer bis dahin noch nicht durchgefuehrten Standardanalyse. Eine kleine Abweichung in dem Ergebnis betrachtete ich in Kapitel LIX (wieder einmal) sehr detailliert.

Das war’s dann mit der Linkfrequenz und ich dachte, dass es das dann auch im Groszen und Ganzen mit Kevin Bacon war. Aber in den vielen Monaten seit ich angefangen hatte, wurde ich mit einer (fuer mich) neuen „Diagrammart“ vertrau: doppellogarithmischen Plots bei denen die Ordinate den aufsummierten Wert der entsprechenden Grøsze darstellt. Damit schaute ich mir alle vorhergehenden Ergebnisse nochmal an und Kapitel LX wurde dadurch acht Teile lang.
Von einer Ausnahme abgesehen, kam dabei nichts total Bemerkenswertes heraus. Das ist aber auch gut, denn es waere doch sehr peinlich gewesen und haette mich in Erklaerungsnot gebracht, wenn die „neuen“ Diagramme all zu hohe Abweichungen von den ersten Ergebissen aufgewiesen haetten. Vielmehr wurden diese bestaetigt, in vielen Faellen sogar (weit) ueber den vorher als gueltig akzeptierten Bereich hinaus.
Die Ausnahme waren nur die Archipele, bei denen diese Art von Diagramm etwas Neues zutage førderten. Letztlich lag das aber „nur“ an der verminderten Unsicherheit durch die neue Art der Betrachtung und ich fand recht schnell eine Erklaerung.

Und dann dachte ich schon wieder, dass ich fertig war … nur um zu merken, dass ich die einzige … zugegeben, nicht direkt gestellte, aber implizit gegebene … Frage aus dem allerersten Beitrag noch gar nicht beantwortet hatte:

[W]ieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?

Auf die Beantwortung der Frage „warf“ ich mich dann nochmal mit groszem Elan und betrachtete das sehr detailliert. Deswegen besteht Kapitel LXI auch aus acht Teilen.

Das war’s dann aber wirklich (fast) … und mit diesem Beitrag ist’s nun auch tatsaechlich genau drei Jahre her, dass die Kevin Bacon Maxiserie los ging. Inklusive diesem hier verøffentlichte ich 136 Artikel unter dem Kevin Bacon Titel … Das ist ein „sportliche“ Abweichung von meiner ersten Abschaetzung, dass ich wohl nach sechs Artikeln fertig bin.

Damit kann Kevin Bacon als abgeschlossen angesehen werden … aber noch nicht als zu Ende, denn wie erwaehnt, war’s das noch nicht ganz … es folgt ein Anhang, mit Sachen die mir waehrend des Schreibens der Zusammenfassung untergekommen und noch interessant sind … aber … wait for it … das sollen nur ein paar wenige Artikel werden … tihihi.

Posted by Tentacel on 2024-04-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXII – Zusammenpacken … rømisch III

Beim letzten Mal stoppte ich die Zusammenfassung genau vor dem Beginn zu den Untersuchungen bzgl. der sog. Selbstzitierungen (pro Linklevel) … also auf welchem Linklevel die Ursprungsseite einer Linknetzwerkanalyse (von anderen Seiten) wie oft zitiert wird. Bevor ich damit anfing dachte ich nicht, dass da all zu viel zu holen sei und Kapitel XXVIII und XXIX schienen das zunaechst zu bestaetigen.
Doch dann schaute ich mir in Kapitel XXX ein relativ kleines Detail genauer an; buchstaeblich nur ein einziger Balken in einem Balkendiagramm voll mit Balken, der etwas høher war als erwartet … und das war der Anfang eines (intellektuell) wunderbaren Abstechers, denn dadurch wurde ich auf ein komplett neues, bisher vøllig verstecktes Phaenomen im Linknetzwerk der Wikipedia aufmarksam: Wissensarchipelen.

Ich wollte die Diskrepanz in der Høhe des oben erwaehnten Balkens erklaeren kønnen und den Mechanismus der dazu fuehrt aufklaeren. Ich begann die Entdeckungsreise mit der einfachsten Idee, dass es Seiten gibt die nicht vom Rest der Wikipediaseiten zitiert werden. Diese allererste „Insel“ des „Archipels“ erfuhr unmittelbar eine Erweiterung um solche Seiten, die zwar auch nicht von „auszen“ zitiert werden, aber sehr wohl von besagter ersten Insel.
Mit diesem einfachen Mechanismus konnte ich ueber 95 % der Diskrepanz des Balkens erklaeren. Ich ueberlegte ernsthaft, ob ich mich dem Rest widmen sollte, denn das faellt doch alles in den 10-Prozent-Fehler. Aber da packte mich die Entdeckerlust noch mehr und ich erweiterte das einfach Archipelmodell erheblich.
Ich bin bis heute stolz auf die Ideen und auch (wieder) die Diagramme, denn noch einmal sind diese eine so schøne Illustration, wie wissenschaftlicher Erkentnissgewinn zustande kommt: eine kleinen Diskrepanz weckt die Kuriositaet der Forscherin welche sich das mal genau anschaut um dann zunaechst einfache Ideen „daran“ auszuprobieren, welche im Verlauf der Untersuchungen weiterentwickelt werden. Und am Ende ist die Diskrepanz erklaert, aber das eigentlich coole ist nicht die Erklaerung an sich, sondern dass man etwas vøllig Neues und Unerwartetes entdeckt hat, von dessen Existenz man vorher nichts ahnte.

Ich baute dann noch ein schøn rekursives Programm, mit dem ich alle Inseln des Archipels finden konnte und schwuppdiwupp … war nicht nur die Gueltigkeit des erheblich erweiterten Archipelmodells nachgewiesen, sondern (nach ein paar weiteren, einfacheren Ueberlegungen) die Diskrepanz zu 99.996788 % erklaert … Hurrah … Wait! What? … 15 Seiten die zur Diskrepanz beitragen entzogen sich den Erklaerungen und ich benøtigte einen Spaziergang um eine Idee zu bekommen was das fuer Seiten sein kønnten … die Idee stellte sich zum Glueck als richtig heraus … Spaziergaenge sind voll fetzig und regen mein Gehirn oft an :) .

Das war’s dann mit der Aufklaerung des Diskrepanz in der Høhe eines Balkens und das einzige Mal, bei dem ich mich nicht nur mit einer Erklaerung zufrieden gab die gut genug ist, sonder alles bis auf die letzte Zahl genau untersuchte.
Aber das das war’s noch nicht mit den Archipeln. Denn nach deren Entdeckung habe ich natuerlich deren Eigenschaften untersucht und mir eine zugehørige Kuriositaet angeschaut.

Dies alles zaehlt definitiv zu den schønsten Dingen die mir im Laufe des Kevin Bacon Projektes passiert sind … und der Besprechung dieser Erfahrung widmete ich einen eigenen Weihnachtsbeitrag :) .

Zu den Selbstreferenzen schloss ich in Kapitel XXXII ein paar lose Enden ab und dachte das war’s dann … um genau dort festzustellen, dass die einzelnen, linklevelabhaengigen Verteilungen der Selbstreferenzen sich vøllig anders verhalten als bei den totalen (oder neuen) Links.

Das fuehrte mich auf eine weitere laaange Abschweifung, denn ich hatte deswegen die Idee, dass man dieses Verhalten ja mglw. mittels relativ einfacher Formeln und nur ein paar wenigen Parametern simulieren kønnte.
Deswegen untersuchte ich zunaechst ab Kapitel XXXIII die Eigenschaften dieser Verteilungen um besagte Parameter naeher zu bestimmen. Dabei entdeckte ich, dass das Sprichwort „Vom Hundertsten ins Tausendste kommen“ eine empirische Grundlage hat und sogar quantifizierbar ist … und erstellte das vllt. schønste Diagramm der ganzen Maxiserie.
In Kapitel XXXVI Teil 3 und Teil 4 fand dann endlich die Simulation statt, die eigtl. recht ordentlich ist. Gruende fuer Abweichungen von den Messungen diskutierte ich in den Kapiteln XXXVII und XXXVIII.
Das war zwar alles ganz nett und ich habe viel Zeit damit verbracht, aber ich bin selber nicht so richtig zufrieden mit dem Ganzen. Das ist aber nicht falsch zu verstehen. Ich bin zufrieden, dass das klappte und die Ergebnisse ganz gut sind. Aber es stellte sich kein so supertolles Entdeckergefuehl ein wie bei den Archipelen zuvor. Aber so ist das ja oft, man kann nicht immer nur und jederzeit das Allerfetzigste machen.

Die Selbstreferenzen schloss ich in Kapitel XXXIX mit dem Blick auf (mehr) Kuriositaten ab um in Kapitel XL nochmal kurz auf die totalen (und neuen) Links zurueck zu kommen. Letzteres geschah, weil ich im Zuge der vorherigen Betrachtungen eine Untersuchung der Daten durchfuehrte, die mir vorher nicht in den Sinn kam. Das ist ja nur natuerlich und sollte noch øfter passieren. Dabei kam aber nicht viel raus … bis auf Kapitel XLI, in dem ich wieder einmal (die Ursache von) Fehler(n) genauer betrachtete.

So … nun ist auch dieser Beitrag schon wieder so lang … ich dachte, dass ich die Zusammenfassung in nur einem (wenn auch etwas laengeren) Beitrag packen kønnte … aber das ist fuer Herr Bacon ja nix Neues, dass es mal (deutlich) laenger als erwartet dauert und laenger wird. Deswegen geht’s beim naechsten Mal mit den Untersuchungen zur letzten Grøsze, der sog. Linkfrequenz weiter. Und vielleicht bin ich dann ja auch beim naechsten Mal mit der Zusammenfassung fertig.

Posted by Tentacel on 2024-04-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LXII – Zusammenpacken … rømisch II

Beim letzten Mal fasste ich die Geschehnisse in der Kevin Bacon Maxiserie bis dahin zusammen, dass alles am Platz war um mich der eigentlichen Aufgabe zu widmen, mit der das hier alles startete: wie entwickelt sich das Wikipedialinknetzwerk, gesehen ueber ALLE Wikipediaseiten.

Zunaechst widme ich in den Kapitel XVIII bix XXV meine Aufmerksamkeit der Entwicklung der Anzahl aller Links die eine Seite (pro Linklevel) sieht. Dabei stiesz ich unmittelbar auf die Beobachtung, dass sich das ueberhaupt nicht so verhaelt, wie ich das mit „durchschnittlichen Ueberschlagsrechnungen“ erwartet haette. Die genauere Untersuchung førderte letztlich ganz klar zu Tage, wie krass ein paar wenige Seiten die anfaengliche Dynamik ganz massiv beherrscht. Wie bereits beim letzten Mal geschrieben, konnte dieser Fakt …

[…] im weiteren Verlauf der Maxiserie immer wieder zur Erklaerung anderer Phaenomene herangezogen [werden].

Ebenso erhielt ich im Zuge dieser Untersuchungen eins der schønsten Resultate insgesamt: ein maechtiges Gesetz an einer Stelle an der ich das nicht erwartete. Das musste (sehr viel) spaeter etwas modifiziert werden … aber auf logische Weise und letztlich wurde besagtes schøne Resultat damit sogar ueber die urspruenglich sicheren Grenzen bestaetigt.

Kapitel XXI widmete ich dann zum Ersten Mal einer detaillierten Fehlerbetrachtung. Dort (also allgemein bei allen Fehlerbetrachtungen, nicht nur in diesem konkreten Kapitel) ging ich insb. auch auf von „mir verursachte“ Unzulaenglichkeiten in den Erklaerungen ein bzw. inwiefern meine Erklaerungen unzulaenglich sind. Von „mir verursacht“ ist in Anfuehrungszeichen, weil ich gewisse Dinge in den Daten nicht mit Absicht herbeifuehrte. Diese kamen aber durch die von mir durchgefuehrte Vorbereitung der Daten vor der Linknetzwerkanalyse zustande (bzw. den Code der dieser Vorbereitung zugrunde liegt). In allen Faellen haette ich dagegen gar nichts unternehmen kønnen, da ich von den Umstaenden die letztlich zu den Unzulaenglichkeiten fuehrten nix wissen konnte. Das deswegen, weil die dazugehørenden Phaenomene nicht oft genug auftreten, als dass es mir bei den wenigen tausend Wikipediaseiten die ich mir im Detail anschaute untergekommen waere. Sollte das nochmal gemacht werden, sind das aber natuerlich vermeidbare Fehlerquellen; ein weiterer (und wichtiger) Grund Fehlerbetrachtungen durchzufuehren und (intellektuell / wissenschaftlich) ehrlich zu bleiben.
Solche Fehlerbetrachtungen kamen im Laufe der Maxiserie ein paar Mal vor und liegen mir durchaus am Herzen. Dies nicht weil ich so toll bin, sondern viel mehr im Gegenteil, weil ich’s nicht bin. So ziemlich jedes Mal wenn ich die durchfuehrte haderte ich zunaechst mit mir ob ich das jetzt wirklich aufschreiben soll. Zum Einen, weil ich ungern Fehler zugebe. Zum Zweiten, weil die diskutierten Dinge in Bezug auf die Gesamtheit aller Daten ohnehin in den „10-Prozent-Fehler“ fallen. Und zum Dritten, weil das vermutlich niemandem aufgefallen waere, ich diese Niemandin aber mit der extra Betrachtung drauf aufmerksam mache.
Weil ich es aber schaffte meine (intellektuellen / emotionalen) Unsicherheiten zu ueberwinden liegen mir diese Betrachtungen so nah am Herzen … mal davon abgesehen, dass es (nicht nur) aufgrund der oben genannten Gruende sehr wichtig ist, dass man sowas macht.

In Kapitel XXII schaute ich mir „Kuriositaeten“ an … viel zu holen gab’s bei denen weder hier, noch wenn ich das spaeter fuer andere Grøszen machte. Letztlich sind es Einzelfaelle deren Besonderheiten sich zwar individuell erklaeren lassen, die aber (deutlich) aus dem allgemeinen Muster (und damit meinem Interesse) heraus fallen.

Kuriositaten stehen im Gegensatz zu (wenn auch oft seltenen, aber) systematisch auftretenden Diskrepanzen. Auf eine gewisse Art und Weise trifft dies auf die Untersuchungen zum Ende des Linknetzwerks aller Seiten in Kapitel XXIII zu. Ich schreibe das deswegen, weil ich durch diese zum allerersten Mal ueber das (erst viel spaeter wichtig werdende) “ São-Paulo-FC-Artefakt“ stolperte.
Doch zunaechst bemuehte ich mich in Kapitel XXIV darum, eine Zustandsaenderung in den Daten zu sehen, weil das die Beobachtungen auf coole und interessante Weise erklaert haette. Auch diese Idee wurde spaeter nochmal wichtig, aber zu dem Zeitpunkt stellte sich noch waehrend des Schreibens und Untersuchens heraus, dass ich das beobachtete Phaenomen streng (und auch weniger streng) genommen so nicht erklaeren sollte. Das Kapitel endete also mit einer „Negierung“ all dessen worueber es handelte.
Letzteres war aber nicht so schlimm, denn zum Ersten verdeutlichte es doch meinen obigen, allgemeinen Punkt (zur Fehlerbetrachtung). Zum Zweiten bin ich immer voll zufrieden mit mir, wenn ich nach langen, detaillierten und durchaus muehsamen Untersuchungen eine bessere Erklaerung fuer eine Beobachtung finde. Zum Dritten hatte es einige der fetzigsten Diagramme (eins davon sogar bewegt!) in der ganzen Maxiserie zur Folge. Auf die bin ich bis heute stolz. Natuerlich sehen sie cool aus und es steckt ’ne Menge Arbeit drin, aber viel mehr verdeutlichen sie so schøn den ganzen Weg von einer Beobachtung, ueber die Realisierung (und Visualisierung) zum Teil sehr abstrakter Ideen, hin zum Erkentnissgewinn. Auch das wird innerhalb der Serie mehrfach geschehen und voll fetzige Erkentnisse zur Folge haben.
Ach ja, besagte abstrakte Ideen konnten (sehr viel) spaeter mittels einer anderen Betrachtung der Daten deutlich weniger abstrakt verallgemeinert werden.

In Kapitel XV beendete ich denn (endlich) die Untersuchungen zur Anzahl aller Links pro Linklevel und begann mit der Untersuchung der Entwicklung der neuen Links pro Linklevel. Das ging bis Kapitel XXVIII und war eher „unfruchtbar“. Das ist auch nicht zuletzt darin sichtbar, dass es fuer diese Kapitel keine Unterkapitel gibt. Ich sah eben nix Neues, musste nix wirklich Unerwartetes erklaeren und die Beobachtungen benøtigten keine intellektuell reizenden (wenn auch mglw. eher abstrakten) Ideen zur Erklaerung.

Fuer mich war zu dem Zeitpunkt ziemlich genau ein Jahr vergangen, seit ich mit dem ganzen Projekt angefangen hatte. Aufgrund der enttaeuschenden Ergebnisse bzgl. der neuen Links dachte ich, dass ich wohl bald zum Ende kommen werde. Ich konnte ja nicht ahnen, dass sich diese Einschaetzung mit der Analyse der Selbstzitierungen als fulminant falsch heraus stellen sollte … aber darin steckt so viel Tolles, dass es den Rahmen dieses Beitrags sprengen wuerde und ich es auf’s naechste Mal verschiebe.

Posted by Tentacel on 2024-04-07 at 13:37 under Kevin Bacon.
Comment on this post.