Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 12: Reaktivierungen

Uff … vor einer Weile war ich dabei die „Ausgangspositionen“ zu reproduzieren. Damals ging’s danach mit ganz vielen Verteilungen weiter. Ich denke aber, dass es sinnvoller ist das noch ein wenig hinten anzustellen und erst mal alles was ich sonst noch habe, was mehr oder weniger ins Thema „Ausgaenge“ passt, abzuhandeln. Dazu muss ich aber zeitlich etwas vorspringen, denn erst im Zuge meiner versuchten Simulation der Entwicklung der Selbstreferenzen von einem Linklevel zum naechsten, schnitt ich besagtes Thema damals wieder an; auf zwei verschiedene Weisen.

Die erste Weise war in Form der Abhaengigkeit der Anzahl der „Ausstiege“ in den Selbstreferenzkurven von der Anzahl der Selbstreferenzen an sich (pro Linklevel). Ich schaute mir das aber nicht fuer alle Linklevel an (recht schnell gibt’s da naemlich nix mehr zu holen … einfach weil’s bei hohen Linkleveln so wenige Selbstreferenzen gibt), sondern nur fuer ein paar beispielhaft Ausgewaehlte. Deswegen reproduziere ich hier auch nur drei der Beispiele:

Hier jibt’s auszer „Reproduktion jelungen“ nuescht zu sagen … wuerd ich mal sagen. Fein, dass das auch mal schnell geht.

Die zweite Weise war in der Form von „Reaktivierungen“. Kurze Wiederholung (zur „Reaktivierung“ des bereits Gelernten … hihi) Eine „Reaktivierung“ findet statt, wenn eine Kurve bereits auf einem niedrigen Linklevel ausgestiegen ist und dann auf einem høheren Linklevel doch nochmal einen Wert ungleich Null annimmt. Das kann nur bei den Selbstreferenzen passieren und die letzten zwei Beitraege wurden geschrieben, weil ich mir damals nicht bewusst war, dass das møglich ist (im Nachhinein haette ich mir das aber durchaus denken kønnen), was zu einem (schwerwiegenden) Fehler fuehrte.

Wenn ich jetzt nach den Reaktivierungen pro Linklevel schaue sei so viel gesagt, dass ich nach „Reaktivierungen“ (!) derart schaue, dass ein Wert bei einem gegebenen Linklevel UNgleich Null sein muss, aber beim direkt davor liegenden GLEICH Null. Das bedeutet, auf LL₀ kann es keine Reaktivierungen geben. Das bedeutet auszerdem, dass das allererste Auftreten einer Selbstreferenz IMMER als „Reaktivierung“ detektiert wird, abgesehen von Seiten die auf LL₀ eine Selbstreferenz haben (von denen gibt es aber nicht so viele). Das geht mehr oder weniger direkt in die Sache(n) hinein, die ich ausfuehrlich die letzten zwei Male diskutierte … was hier aber wenig zur Sache tut, denn man kønnte das einfach so interpretieren wie bei flachen Kurven: ein Wert von Null auf LL₀ wird als erster „Ausgang“ gezaehlt und alles andere danach ist ’ne „Reaktivierung“ … deswegen geh ich da nicht weiter drauf ein.

Und das Ergebnis ist das hier:

Ja, das liegt in der Natur der Sache, dass das dem Diagramm der Selbstreferenzen“ausgaenge“ pro Linklvel sehr aehnlich sieht.
Auf den ersten und zweiten Blick wirken die 2020 Daten und die 2023 Daten ziemlich gleich und ich wuerde sagen, dass auch hier die Reproduktion gelungen ist. Aber beim dritten Blick finde ich’s schon interessant, dass bei Linkleveln ueber ca. LL₄₀ die 2023 Daten systematisch ungefaehr ’ne Grøszenordnung unter den 2020 Daten liegen.
Wir sprechen hier aber von kleinen absoluten Zahlen. Wenn man bspw. sowieso schon nur 10 Seiten hatte die auf LL₅₀ „reaktiviert“ wurden, dann muss da nicht viel passieren, damit die dort nicht mehr auftauchen.
Andererseits, scheint das (wie gesagt) systematisch zu sein und wer anders sollte das mglw. mal genauer untersuchen.

Huch … das ging auch schøn schnell … naja, ’nem geschenkten Gaul usw. … dann soll’s damit auch reichen reichen fuer heute.

Posted by Tentacel on 2025-09-17 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 11: schwerwiegender Fehler bei den damaligen Ausgaengen (Teil 2)

Direkt an das letzte Mal (also ohne Wiederholungen) anknuepfend:

Super! Reproduziert … … … … … … … … … aber hmmmm … hier stimmt doch was nicht!

Am Anfang des letzten Artikels beschrieb ich die alte Vorwaertsmethode doch gar nicht mit „schaue wann der NAECHSTE Wert Null ist“ (auch wenn ich derart die damaligen Daten reproduzieren konnte; siehe das dritte Diagramm beim letzten Mal), sondern „schaue wo der ERSTE Wert Null ist“. Ich muss also die „wenn der Wert auf einem gegebenen Linklevel UNgleich Null ist“ Bedingung zu „wenn der Wert auf einem gegebenen Linklevel GLEICH Null ist“ modifizieren und NUR dies benutzen um nach „Ausgaengen“ zu suchen. Das sieht dann so aus:

Verdammt! Wenn ich das was ich sagte (und meinte) ordentlich implementiere, dann sieht das zwar von der Form aehnlich aus, aber liegt im Wesentlichen ueberall ([zum Teil sehr deutlich] mehr als) eine Grøszenordnung UNTER den Ergebnissen von damals (und damit auch unter den Ergebnissen der Rueckwaertsmethode).
Aber da stimmt immer noch was nicht … ich kønnte mich da zwar gewaltig taeuschen, aber ich kann mich nicht erinnern, dass ich damals „schau ob der NAECHSTE Wert Null ist“ implementiert hatte. Wie bin ich dann aber auf die Ergebnisse gekommen?
Ueber die Antwort stolperte ich in anderen Beitraegen (die ich vermutlich naechstes Mal versuchen werde zu reproduzieren) und die ist trivial — ich hab (unbewusst) geschummelt:

[…] die Skala fuer das Linklevel [geht] erst bei 2 los. Auf LL₁ kann nix reaktiviert werden.

Oder anders: ich fange an „Ausgaenge“ erst ab LL₁ zu suchen (anstatt bei LL₀). Und wenn ich schummel, dann erhalte ich tatsaechlich die Ergebnisse wie damals (siehe das erwaehnte dritte Diagramm im vorhergehenden Beitrag). Das entspricht naemlich dem Algorithmus „schaue ob der NAECHSTE Wert Null ist“, angefangen bei LL₀, denn dabei steht man zwar am Anfang auf LL₀ schaut aber als allererstes auf LL₁.

Oder noch anders: die urspruengliche (!), damals benutzte (?) Vorwaertsmethode war ueberhaupt nicht so wie ich die beschrieben hatte. Vielmehr implementiere ich das damals mit der UNZULAESSIGEN (!) Zusatzinformation, dass Selbstreferenzen ohnehin nicht vor LL₁ losgehen kønnen. Das ist aus zwei Gruenden unzulaessig. Zum Einen gibt es durchaus Seiten die Selbstreferenzen auf LL₀ haben (auch wenn ich das als Artefakte des Dateneinsammelns erkannt habe). Zum Zweiten macht das die Vorwaertsmethode nur fuer Selbstreferenzen (und nicht allgemein) brauchbar, denn alle anderen Grøszen von Interesse MUESSEN auf LL₀ anfangen.

Und hier liegt der schwerwiegende Fehler. Ich habe urspruenglich eine Methode benutzt die zum Ersten nicht gut ist und nur (wie im Nachhinein erkannt) mit Zusatzannahmen ordentliche Ergebnisse liefert. Zum Zweiten bei richtiger Implementierung (also ohne Zusatzannahmen oder erweiterte oder modifizierte Bedingungen, also genau so wie ich die Methode beschrieben habe) Ergebnisse zur Folge hat, die etwas vøllig anderes liefern als das was ich eigtl. suche. Und zum Dritten erhielt ich damals nur deswegen irgendwie (?) richtige (?) Ergebnisse, weil ich durch „schummeln“, die Diskrepanzen des zweiten Punktes unbewusst und unerkannt, also aus Versehen, kompensiert habe.

DAS ist eine Art Fehler die wissenschaftliche Arbeiten fundamental zu Fall bringen.

Mich duenkt (bin mir aber nicht ganz sicher) ich erwaehnte das Folgende bereits an anderer Stelle. Im Wesentlichen kønnen alle Fehler in der Wissenschaft in zwei Kategorien eingeordnet werden.
1.: Berichtigungen,
2.: die Methode ist komplett falsch weil zugrundeliegende Annahmen oder Methoden Quatsch sind.

Berichtigungen sind OK und wichtig. Die kønnen auch die Methode kritisieren und kønnen flapsig als „man muss aber diesen Effekt auch beachten und dann korrigiert das Ergebniss 5 % nach unten“ bezeichnet werden. Rein vom „Rechnerischen“ kønnte man das bzgl. der Korrekturen an Newtons Vorhersagen durch Einsteins Gravitationstheorie sagen. Und rein vom Rechnerischen ist das auch OK und die Menschenhheit hat mittels Netwons Theorie Menschen auf den Mond gebracht. Aber …

… Newton meinte von seiner Gravitationstheorie, dass diese das Universum beschreibt, waehrend Einstein zeigte, dass die grundlegenden Annahmen Newtons, ein universales Koordinatensystem, auf das man von ueberall aus Bezug nehmen kann und instantan wirkende Kraefte, komplett ueberhaupt nicht der Realitaet entsprechen. Newtons Theorie geht von so falschen Annahmen aus, dass Einstein die Theorie komplett zu Fall gebracht hat.
Newtons Theorie funktioniert verdammt gut fuer alles was uns im normalen Leben interessiert, denn da sind seine Annahmen zwar (auch) nicht realisiert, aber weil nur kleine Gravitationsfelder und Geschwindigkeiten vorliegen ist das nicht so schlimm und es fuehrt nur zu winzigkleinen Fehlern, wenn man so tut als ob sie realisiert sind. Das fuehrt aber NICHT dazu, dass Einsteins Gravitationstheorie nur zu einer Berichtigung wird, denn selbst bei kleinen Gravitationsfeldern und Geschwindigkeiten beschreibt Newtons Theorie das Universums nicht wirklich, denn Newtons Theorie laeszt bspw. Gravitationswellen nicht zu.

Und der Punkt bleibt selbst dann bestehen, wenn aus Newtons Theorie die „richtigen Zahlen rausfallen“. Ein anderes Beispiel was meinen Punkt mglw. etwas besser illustriert sind „KI“ Chatbots. Wir sind laengst nicht mehr in der Lage die von echten Menschen zu unterscheiden (wenn wir es nict vorher wissen). Oder anders: es „fallen die richtigen Zahlen“ bei einem Gespraech mit denen raus. Das macht solche „KI“ Chatbots noch laengst nicht zu Menschen. Auch dann nicht, wenn sie in Roboter installiert werden, die aueszerlich nicht von Menschen unterschieden werden kønnen (wenn „die Zahlen“ also noch „richtiger“ werden). Und das Argument bleibt auch dann bestehen, wenn man die Anfuehrungszeichen weg laeszt und man irgendwann echte Intelligenzen (nur eben auf Silizium basierend) hat, denen man dann meiner Meinung nach sogar Persønlichkeitsrechte einraeumen muss … das sind immer noch keine Menschen … selbst dann nicht wenn wir sie wie Menschen behandeln (siehe bspw. der Film Her … „die Zahlen“ als noch „richtiger richtiger“ werden) … es sei denn natuerlich, wir veraendern die Definition von „Mensch“ (und damit die zugrundliegende Theorie) fundamental.

Und wer mir jetzt mit „Aber aber aber! Newton ist richtig, denn wir bauen damit doch Bruecken und bringen Menschen auf den Mond und ich soll mal bitte nicht so’n Erbsenzaehler sein“ kommt, den verweise ich auf Aristoteles. Denn der hat gesagt, dass jeder bewegte Gegenstand AUTOMATISCH zur Ruhe kommt, wenn man den in Ruhe laeszt. DAS beschreibt die Welt um mich herum, wie ich sie den ganzen Tag sehe und erlebe, VIEL besser als Newtons erstes Gesetz. Deswegen war es DIE akzeptierte Wahrheit bzgl. dessen wie die Welt funktioniert fuer Jahrtausende. Als Newton formulierte, dass dem NICHT so ist, war es damals auch direkt als Widerlegung von Aristoteles gemeint. Und wer mir so kommt, møge mir bitte detailliert darlegen, warum er das auf Newton, aber nicht auf Aristoteles bezieht … Aber ich schwoff ab.

Oder anders: „KI“ Chatbots als Menschen zu behandeln, oder mit Netwons Gravitationstheorie (bisher ausschlieszlich) Maenner auf den Mond zu bringen, reproduziert zwar was wir messen, es beschreibt aber nicht das Universum.

Und deswegen hab ich das beim letzten Mal (und hier) alles so detailliert ausgebreitet. Auf den ersten Blick sieht’s so aus als ob die zwei Methoden um „Ausgaenge“ zu finden nicht viel anders sind und alle Unterschiede in den Ergebnissen natuerlich erklaert werden kønnen. Als ich aber genauer hinschaute erkannte ich, dass eine ordentliche Implementierung der urpsruenglich diskutierten Vorwaertsmethode eigentlich vøllig andere Ergebnisse zur Folge hat und das damals nur durch weitere, nicht erkannte, Fehler (bzw. unzulaessige Zusatzannahmen) kompensiert wurde.

Und DAS ist ein schwerwiegender Fehler der zweiten Art und ich kann hier eigentlich nur sagen: Reproduktion NICHT geglueckt.

Solche Fehler passieren und das ist auch erstmal nix Schlimmes. Es ist durchaus auch ein Zeichen von Fortschritt, denn ein Fehler wird ja erst dann zum Fehler wenn man den als solchen erkennt (vorher ist’s einfach nur richtig und die Wahrheit). In der Wissenschaft sollte man das dann halt nur eingestehen und genau diskutieren um zu erkennen was falsch gemacht wurde, damit man aehnliche Fehler an anderer Stelle nicht wiederholt.

So, nun hab ich alles gesagt, was ich sagen wollte un kann mit ruhigem Gewissen beim naechsten Mal endlich die naechste Reproduzierung angehen.

Posted by Tentacel on 2025-08-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 11: schwerwiegender Fehler bei den damaligen Ausgaengen (Teil 1)

Letztes Mal reproduzierte ich die „Aussteiger“. Dabei benutzte ich aber eine etwas andere Herangehensweise als damals. Ich erwaehnte nur kurz, dass die damalige Herangehensweise etwas „haarig“ war in Bezug auf Selbstreferenzen, da die entsprechenden Kurven nicht nur und ausschlieszlich am Ende des (seitenabhaengigen) Linknetzwerks „aussteigen“, sondern das auch schon auf fruehen Linkleveln tun kønnen … um dann u.U. auch wieder „reaktiviert“ zu werden auf nachfolgenden Linkleveln.
Wieauchimmer, da beide Herangehsenweisen zur Ermittling der „Aussteiger“ bei den anderen Grøszen von Interesse zum selben Ergebnis fuehren, und auch das Diagramm der Selbstreferenzen auf den ersten Blick nicht all zu unterschiedlich war, habe ich mich darum zunaechst gar nicht weiter gekuemmert und nur mit …

[d]eswegen sind die roten Balken im linke[n] Diagramm hier nicht identisch zum damaligen Diagramm

… kommentiert.

Natuerlich hat mir das keine Ruhe gelassen, und ich wollte schauen wie grosz die Diskrepanz ist. … … … Und ach du Schreck! … da hab ich ja einen wirklich ernstzunehmenden Fehler gemacht.
Aber der Reihe nach und heute nur mit den 2020 Daten denn hier muss nix in dem Sinne reproduziert werden, denn ich will ja den Fehler diskutieren.

Zur Erinnerung: die neue Herangehensweise findet den „Ausgang“ derart, dass vom Ende einer Kurve, in Richtung Anfang gehend, geschaut wird, bei welchem Linklevel der Wert der Kurve zum ersten Mal UNgleich Null ist. Die damalige Herangehensweise hingegen schaute vom Anfang einer Kurve, in Richtung Ende gehend, bei welchem Linklevel der Wert der Kurve zum ersten Mal GLEICH Null wird.
Wie gesagt, ist das, von den Selbstreferenzen abgesehen, kein Problem, da alle anderen Grøszen von Interesse „durchgehende“ Kurven haben und beide Methoden das selbe Ergebnis liefern. Aber es geht ja um genau diese Selbstreferenzen.

Hier sieht man den Unterschied der Aussteiger-per-Linklevel-Kurven-der-Selbstreferenzen wenn man das wie damals macht (schwarze Punkte, vorwaerts nach der erste Null suchend) bzw. besser (rote Quadrate, rueckwaerts nach dem ersten Wert der ungleich Null ist suchend):

Achtung: Damals hatte ich das Linklevel beim dem zum ersten Mal null Selbstreferenzen auftreten als „Ausgang“ deklariert, waehrend es nach der neuen Methode das Linklevel direkt davor ist was ja noch einen Wert ungleich null hat. Die Punkte von damals wurden dahingehend um ein Linklevel nach Links verschoben; das gilt auch fuer alle folgenden Diagramme.

Das scheint anfangs qualitativ (!) recht gut uebereinzustimmen (davon abgesehen, dass ich damals „flache“ Kurven nicht extra bedacht hatte). Quantitativ gibt’s zwar zum Teil zahlentechnisch grosze Unterschiede die man wg. der logarithmischen Skala (fast) nicht wahr nimmt, das ist aber nicht so wichtig, denn alles was ’n Unterschied von ’nem Faktor weniger als ’ne Grøszenordnung hat ist schon OK.
Was mich zu Werten ueber LL₁₀ bringt; denn ab dort erhaelt man mit der (neuen) Rueckwaertsmethode ca. ’ne Grøszenordnung mehr „Ausgaenge“ als mit der (alten) Vorwaertsmethode.

Aber das ist NICHT der schwerwiegende Fehler, denn das ist erklaerbar mittels „Reaktivierungen“. Es passiert dass eine Kurve die schon „ausgestiegen“ ist, auf einem høheren Linklevel „reaktiviert“ wird. Das ist dann meistens nur das eine einzige Linklevel (oder vllt. auch mal zwei oder drei), auf dem pløtzlich nochmal eine Selbstreferenz auftaucht. Das fuehrt dann natuerlich zu einem weiteren „Ausgang“ (es ist halt nur nicht der erste „Ausgang“ fuer eine gegebene Kurve) der von der Rueckwaertsmethode erkannt wird, wenn es denn der Letzte ist.
Damit die Vorwaertsmethode so weit hinten einen „Ausgang“ registriert, muss die entsprechende Kurve ohne Unterbrechung mindestens eine Selbstreferenz auf jedem Linklevel bis dorthin gehabt haben. Eine so lange ununterbroche Kette von Selbstreferenzen zu haben hat natuerlich eine sehr kleine Wahrscheinlichkeit, weswegen die Vorwaertsmethode bspw. auf LL₃₅ nur einen „Ausgang“ registriert, waehrend die Rueckwaertsmethode 45 „Ausgaenge“ aufspuert (wovon der eine von der Vorwaertsmethode darunter ist).
In anderen Worten: die Diskrepanz hat eine Erklaerung die aus der Natur der unterschiedlichen Methoden kommt, und insb. weil es sich hierbei um eher kleine absolute Zahlen handelt, macht mich der Unterschied nicht wirklich stutzig.

Nun arbeite ich aber an der Reproduzierbarkeit und da ist’s kontraproduktiv die Methode zu aendern (auch wenn es die bessere Methode ist). Das wurmte mich und deswegen setzte ich mich ran und hackte kurz die Vorwaertsmethode zusammen. Weil ich gute Vorarbeit geleistet habe ging das recht fix. … … … Und hier ging der „Aerger“ los.

Alles fing damit an, dass ich mittlerweile von „flachen“ Kurven (also solchen die keine einzige Selbstreferenz haben) gelernt hatte. Damals hatte ich die ueberhaupt nicht beachtet. Nun wollte ich die aber mit unterbringen. Deswegen muss ich nochmal kurz auf die Rueckwaertsmethode zu sprechen kommen und erklaeren warum die der Vorwaertsmethode ueberlegen (und vorzuziehen) ist um die „Ausgaenge“ zu bestimmen.

Es gibt bei der Rueckwaerrtsmethode nur zwei Bedingungen und alles andere folgt zwingend aus denen. Erstens: geh rueckwaerts, Zweitens: der erste Wert ungleich Null ist der Ausgang. Simpler als das geht’s nicht. Und wenn man mal nachdenkt ist die erste Bedingung keine richtige Bedingung denn man kann eine Dynamik nicht erforschen, wenn man sich nicht bewegt; man braucht also zwingend eine „Bewegungsrichtung“. Wichtig ist nur zu wissen, wann man stoppen muss (wann man also das gefunden hat wonach man sucht). Ich sage jetzt also mal, dass es nur EINE Bedingung gibt … einfacher geht’s nicht.
Man sieht leicht, dass da automatisch der „wahre Ausgang“ rausfaellt, denn bei der Rueckwaertsmethode muss man sich nicht drum kuemmern ob eine Kurve mehrere vorherige „Ausgaenge“ hat und dann nochmal „reaktiviert“ wird. Auszerdem folgt automatisch dass eine Kurve flach ist wenn man bis LL₀ kommt und kein einziger Wert ueber Null liegt.

Nun zurueck zur Vorwaertsmethode; im Namen liegt bereits die „Bewegungsrichtung“, womit das gegessen ist. Oben schrieb ich, dass ich schaute, wann der erste Wert Null wird als „Ausgangsbedingung“. Das alleine ist zunaechst eine genauso simple Regel aehnlich bei der Rueckwaertsmethode. Die ist aber leider nur notwendig und nicht hinreichend. Insb. dann wenn man flache Kurven unterscheiden will, denn bei denen liegt ja bereits auf LL₀ der Wert Null vor … ich kann aber nicht entscheiden ob eine Kurve flach ist, ohne durch alle Linklevel durchgegangen zu sein.
Deswegen muss man eine zweite Bedingung anfuehren und die Erste etwas modifizieren: ein „Ausgang“ liegt vor, wenn der Wert auf einem gegebenen Linklevel UNgleich Null und der Wert auf dem naechsten (!) Linklevel GLEICH Null ist. Kommt man am Ende aller Linklevel an und beide Bedinungen lagen nie gleichzeitig vor, hat man (automatisch) eine flache Kurve (fuer die die „gleich Null“ Bedingung ueberall gilt).

Damit erhaelt man dieses Diagramm:

Das sieht auf den ersten Blick ganz gut aus. Es gibt ein rotes Quadrat bei LL_{minus 1} fuer die flachen Kurven und deswegen stimmen die Werte bei LL₀ nicht ueberein (denn frueher hatte ich beides in LL₀ zusammengefasst). Das ist also OK … Aber Moment mal! Wieso findet die neue Vorwaertsmethode einen Wert bei LL₂₇ (und ein paar anderen Linkleveln) die alte aber nicht? Und ueberhaupt scheinen die schwarzen Punkte und Quadrate etwas gegeneinander verschoben zu sein! (Das sieht man bei linearer Ordinate deutlich deutlicher). Beides sollte nicht vorkommen, ich muss hier also was „falsch“ machen … Hinweis: ich habe damals was (maechtig) falsch gemacht.

Also suchte ich nach dem alten Code … und konnte den nicht finden. Ich bin mir ziemlich sicher, dass der irgendwo ist, aber der alte Code ist so ein Saustall (was ja die Motivation fuer den Reproduktionsteil des ganzen Projekts ist, weil ich eben auch den Code ordentlich machen wollte, damit ich das publizieren kann), dass ich den entsprechenden Teil nicht mittels Schlagwortsuche gefunden hab und ich wollte nicht durch mehrere tausend Linien Code lesen. Auszerdem gibt es eine gewisse Wahrscheinlichkeit, dass ich den tatsaechlich geløscht habe … das liegt an einer gewissen Eigenheit meines Modus Operandi, aber da geh ich jetzt nicht naeher drauf ein.

Also ueberlegte ich was ich damals gemacht haben kønnte und zum Glueck war mein (neuer) Code jetzt „gut sortiert“ und mittels nur einer winzigen Aenderung konnte ich die „Wert auf einem gegebenen Linklevel muss UNgleich Null“-Bedingung rausschmeiszen … denn an die hatte ich damals ja gar nicht gedacht. Es bleibt also nur „Wert auf dem naechsten Linklevel muss GLEICH Null sein“ uebrig. Und siehe da …

… das passt … Hurra! Also auszer von den Werten bei LL_{minus 1} und LL₀ abgesehen, aber die stimmen in der Summe mit dem alten Wert bei LL₀ ueberein. Super! Reproduziert … … … … … … … … … aber hmmmm … hier stimmt doch was nicht! … … … Der Beitrag ist nur jetzt schon so lang, sodass ich den Rest der Diskussion auf’s naechste Mal verschiebe.

Posted by Tentacel on 2025-08-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 10: da ist die Tuer

Ich schreibe diesen Beitrag etliche Wochen vor meiner Reise in den fernen Osten. In der Woche bevor dieser Artikel hier erscheint bin ich nach Plan schon zurueck. Von eurer Warte, meine lieben Leserinnen und Leser, dehnte die Sommerpause sich um eben diese Woche aus weil … øhm … ich nehme an, dass ich da noch halb im Jetlag bin (auch wenn der eigtl. in die richtige Richtung geht beim Rueckflug) … und auszerdem ist’s im Sommer warm und bei høherer Temperatur dehnt sich i.A. alles aus (also auch die Sommerpause).

Aber nun geht’s weiter und zwar mit dem was ich damals als Aussteiger bezeichnete. Oder anders: ich schaute (damals) wieviele Seiten ab welchem Linklevel keine totalen Links mehr haben. Konzeptionell ist diese Herangehsensweise etwas „haarig“, denn bei den Selbstreferenzen kønnen Seiten „mittendrin“ keine Selbstreferenzen mehr haben, aber zu einem spaeteren Linklevel dann doch wieder. Das habe ich in einem anderen Zusammenhang als „Reaktivierungen“ bezeichnet und diesen Aspekt lasse ich heute zunaechst auszen vor.
Um dieser „Haarigkeit“ zu entkommen, drehte ich bei der Neuprogrammierung des hierzu gehørigen Analyseprogramms den Ansatz einfach um: ich schaue von hinten, ab welchen Linklevel eine Grøsze von Interesse einen Wert UNGLEICH Null hat. Das ist im Wesentlichen das Gleiche, mit dem kleinen Unterschied, dass alle Grafen hier um eins nach Links verschoben sind, denn der letzte Wert ungleich Null kommt ja genau ein Linklevel vor dem ersten Nullwert (mit der Ausnahme der Selbstreferenzen).

Das war alles was ich damals machte. Aber schon bei den Maximumspositionen, „sehe“ ich auch hier nicht mehr nur die Position des Ausgangs, sondern auch den Wert (einer gegebenen Grøsze von Interesse), den die Seiten am Ausgang haben. Anders als beim letzten Mal (wo ich diese neue Sache erst einfuehrte), mache ich da nicht mehrere Artikel draus, sondern handle das heute alles auf einmal ab.

Und jetzt geht’s los, wie so oft, zunaechst mit den totalen Links:

Aha! Bzgl. der Position des Ausgangs (linkes Diagramm), reproduzieren die 2023 Daten die Form der Verteilung der 2020 Daten. Ein paar Balken am Anfang mit ungefaehr gleicher Høhe, dann erstmal nix, dann ein „Wald“ mit kurzen Balken und am Ende ein hoher „Berg“ (auch mit ungefaehr gleich hohen Balken). Letzteres bedeutet, dass alle Seiten ungefaehr zum gleichen Zeitpunkt aussteigen und war der erste Hinweis auf Ketten (oder „Familien“) von Seiten (damals dauerte es noch eine Weile, bis ich das in einem anderen Zusammenhang erkannte). Oder anders: Reproduktion gelungen.
In den 2023 Daten scheint es mindestens eine Kette zu geben, die 10 Linklevel laenger ist, als die laengste Kette in den 2020 Daten. Da dies aber keine „kollektive Eigenschaft“ ist, die man ueber alle Seiten „mitteln“ kann, sondern aus dem Verhalten individueller Seiten folgt ist das jetzt nicht verwunderlich, dass das nicht reproduziert wird. Ich komme da vllt. spaeter nochmal drauf zurueck, falls ich mir die Ketten nochmal anschaue … weisz ich jetzt aber noch nicht.

Ach ja Mensch! Jetzt hab ich vergessen zu sagen, dass bzgl. des am weitesten links liegenden Balkens (bei einem Wert auf der Ordinate von minus eins) das Selbe gilt wie bei den Maximapositionen: dieser Balken ist „flachen“ Verteilungen zuzuordnen! Zu Details lese man den oben verlinkten entsprechenden Beitrag.

Weiter nun mit dem Diagramm auf der rechten Seite – der Anzahl der totalen Links am Ausgang … also der Ausgangswert … was natuerlich nicht hinhaut, weil ein Ausgangswert eigtl. meist der allererste Wert ist, von dem alles aus geht. Wieauchimmer, das wird nun scheinbar (!) ueberhaupt nicht reproduziert und das wundert mich gar nicht. Das haette nur dann (mehr oder weniger) direkt (!) reproduziert werden kønnen, wenn es keine laengere Kette als damals gaebe. Die Seiten der neuen Kette haben natuerlich eine ganz andere Anzahl an Links.
Interessant sind zwei Sachen in den 2023 Daten. Zum Einen hat die Verteilung mehr Balken. Es gibt also mehr Seiten die als Ausgang fungieren als bei den 2020 Daten. Wenn man drueber nachdenkt war das durchaus zu erwarten und die Anzahl der Balken ist jetzt zwar ’ne halbe Grøszenordnung mehr, aber das liegt vor allem daran, weil die 2020 Verteilung so wenige Balken hat. Waere letzte doppelt so grosz, dann haette man nur einen Unterschied von ca. einem Faktor 2 und das wuerde nicht verwundern.
Die zweite Sache ist da schon deutlich interessanter, denn es gibt in den 2023 Daten ZWEI sehr hohe Balken mit ca. 4 Millionen und ca. 2 Millionen Seiten die dort aussteigen. Das kønnte ein Hinweis sein, dass es ZWEI Ketten mit … mhmmmm … ich denke der selben Laenge gibt (oder vielleicht plusminus eins) und ca. 1/3 aller Seiten landen etwas frueher in Kette #1 (und sind mit der etwas frueher fertig), waehrend die anderen 2/3 Kette #2 etwas frueher abarbeiten um dann zuletzt in Kette #1 zu sein und mit der abzuschlieszen.
Das kønnte man mal naeher untersuchen … und wie oben erwaehnt, das mache in diesem Falle sogar ich, falls ich mich den Ketten nochmals zuwende.

Festzuhalten bzgl. des rechten Diagramms ist das Folgende: in den den individuellen Eigenschaften wird der Wert am Ausgang NICHT reproduziert, aber bzgl. der _kollektiven_ Eigenschaften dann doch. Es gibt keine Seiten die massenhaft Links am Ausgang haben; alles tuemmelts sich um ca. den Wert 15 auf der Ordinate. Und auch wenn die Anzahl der Balken in den 2023 Daten signifikant grøszer ist, so ist besagte Anzahl nicht mal eine Grøszenordnung (oder gar mehr) grøszer … aber das haengt direkt mit der ersten Aussage zusammen. Die letzte Eigenschaft, dass die allermeisten Seiten auf nur einer Seite am Ende landen wird zwar nicht direkt reproduziert, aber aus einer werden halt zwei und ich wuerde das dann doch als gelungene Reproduktion anerkennen (selbst wenn die beiden zugehørigen Balken indviduell andere Werte auf der Ordinate haben … was ja aber eine individuelle Eigenschaft ist).

Nun die neuen Links:

Bzgl. der Position des Ausgangs (linkes Diagramm) sieht das natuerlich so aus wie bei den totalen Links (selbstverstaendlich verschoben um eins nach links auf der Ordinate) … und das muss auch so sein.
Die Verteilung der Werte am Ausgang bestaetigt das oben Gesagte (zwei sehr hohe Balken, vermutlich durch zwei gleich lange laengste Ketten). Dass es hier deutlich weniger Balken insgesamt gibt ist dem Umstand geschuldet, dass alle Seiten am Ende einfach schon (fast) alle Seiten des Wikipdianetzwerkes gesehen haben und einfach nix Neues mehr uebrig ist.
Oder anders: in beiden Faellen ist die Reproduktion auch hier gelungen (wenn man die zwei vermuteten, gleich langen laengste Ketten mit in Betracht zieht).

Die Selbstreferenzen hatte ich damals untersucht, aber in einem anderen Zusammenhang und mit der oben beschriebenen „haarigen“ Herangehensweise. Deswegen sind die roten Balken im linke Diagramm hier …

… nicht identisch zum damaligen Diagramm. Ansonsten ist die Interpretation beider Grafen unkompliziert, weswegen ich mir das spare. Damit bleibt nur zu sagen: Reproduktion in beiden Faellen gelungen.

Und zum Abschluss die Linkfrequenz:

Zu meiner Ueberraschung hatte ich das damals gar nicht untersucht und sehe erst jetzt, dass hier ein paar interessante Dinge passieren. Zunaechst waere da die „Doppelspitze“ im linken Diagramm. Eine „Spitze“ nahe des Urpsrung hat man auch bei den totalen und neuen Links. Dort befinden sich dann aber weniger als 10-tausend Seiten, waehrend hier fast 500-tausend in dem Bereich zusammen kommen. Und „das dicke Ende“ kommt dort dann auch erst ganz am Ende.
Bei den Selbstreferenzen hat man zwar einen „dicken Berg“ ziemlich am Anfang (aber nicht nahe des Urpsrungs), der ist aber nicht durch ein deutliches „Tal“ von einer zweiten „Spitze“ getrennt. Ich denke, dass das hier wieder die Archipele sind … das muesste aber mal wer anders genauer untersuchen.
Anderweitig reproduzieren die 2023 Daten aber die 2020 Daten.

Das rechte Diagram ist auch sehr interessant. In den 2020 Daten scheint der Verlauf DREI klar zu unterscheidenden, maechtigen Gesetzen zu folgen. Und zwar mit ziemlich abrupten (anstatt „ruckelfreien“) Uebergaengen. Wenn man genau hinschaut, dann wird das auch in den 2023 Daten reproduziert. ABER dort kommt es zwei Mal zu einer Verschiebung der Punkte nach rechts. Ein Mal von ca. 20 zu ca. 30 und beim zweiten Mal von ca. 250 bis ca. 350 auf der Ordinate (die zwei leicht erkennbaren Stufen). Wobei das keine konstante Verschiebung nur um die angegebenen Werte ist, denn das ist ’ne logarithmische Skala und die Verschiebung muss sich „logarithmisch proportional“ (was immer das auch heiszen mag … ich hab mir den Begriff gerade erst ausgedacht) durchziehen, damit das so „parallelverschoben“ aussieht.
Wenn man die „Parallelverschiebung“ in Gedanken rueckgaengig macht, dann scheinen die blauen Quadrate recht genau (so genau wie das Pi mal Daumen geht) wieder auf den roten Punkten zu landen; inklusive des Knicks um ca. 45 auf der Ordinate, bei dem der Uebergang von einem maechtigen Gesetz zum anderen stattfindet.
Alles in allem ist das schon eine kuriose Sache, die hier in den 2023 Daten passiert … aber wenn man die in Betracht zieht (und somit auszer Acht laeszt), dann wuerde ich sagen, dass die 2023 Daten die 2020 Daten reproduzieren.

Das ist genug fuer heute … mal schauen ob ich mir noch den Spezialfall der „haarigen“ Herangehensweise fuer die Selbstreferenzen anschaue und dann gleich die „Reaktivierungen“ mit abhandle, oder ob ich naechstes Mal doch zu was ganz anderem uebergehe.

Posted by Tentacel on 2025-07-29 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 9b (Nachtrag): kumulative Maximumswerthaeufigkeiten

Beim letzten Mal schrieb ich:

Das muesste man sich mal in kumulativer Darstellung anschauen […].

mit dem expliziten Hinweis:

[…] mach ich aber nicht mehr.

Natuerlich hat mir das keine Ruhe gelassen und ich hab das jetzt doch noch gemacht.

Das Gute ist, dass ich dadurch fix noch zwei Analysewerkzeuge ~~geschrieben~~ gehackt habe, die ich sowieso øfter mal brauche und das ist gut, dass die jetzt mal systemati- und generalisiert (ich bin mir ziemlich sicher, dass man das so nicht machen kann … ich lass das dennoch einfach mal so stehen) sind.

Weil ich heute weder beschreiben muss, was man hier …

… sieht (denn das ist das Gleiche wie beim letzen Mal … mglw. sogar das Selbe, aber da bin ich mir nicht ganz so sicher, denn es sieht ja anders aus), noch was kumulative, doppellogarithmische Diagramme sind und warum man das so machen will (wenn ihr, meine lieben Leserinnen und Leser das nicht mehr wisst, muesst ihr nur dem Link im ersten Zitat folgen), muss ich fast gar nix dazu schreiben.

Nur zwei Sachen seien gesagt. Zum Einen habe ich mich jetzt doch an die kumulative Darstellung gemacht, um zu schauen ob die Punkte im langen Schwanz des urspruenglichen Histogramms zu den Selbstreferenzen dem maechtigen Gesetz folgen, welches man aus den Daten zwischen Maximumswerthaeufigkeiten von 1 und 100 (im urpsruenglichen Histogramm) erwartet. Im Diagramm links unten sieht man wieder einmal, wie krass kumulative log-log-Darstellungen sind, denn das besagte maechtige Gesetz kann man nun ueber FUENF (!) zusaetzliche (!) Grøszenordnungen als gegeben annehmen.
Zum Zweiten reproduzieren die 2023 Daten wieder die 2020 Daten. Aber das war zu erwarten, denn die Diagramme hier benutzen schlieszlich die selbe Datengrundlage.

Naechstes mal dann … was anderes.

Posted by Tentacel on 2025-06-17 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 9b: Maximumswerthaeufigkeiten

Beim letzten Mal reproduzierte ich die Verteilungen der Linklevelpositionen der Maxima der ursprungsseitenabhaengigen Linklevelverteilungen der vier Messgrøszen von Interesse. Damit ich nicht so viel schreiben muss, kuerzte ich das einfach als Maximapositionen ab. Beim Neuschreiben der entsprechenden Analyseprogramme bemerkte ich, dass bei der Auswertung bzgl. der Maximapositionen auch automatisch die Werte der Maxima anfallen. Das hatte ich damals komplett uebersehen und darum stelle ich die entsprechenden Verteilungen hier und heute zum ersten mal vor.

Los geht’s mit den totalen Links. Im linken Diagramm …

… ist die erwaehnte Verteilung der Werte, welche die Maxima der jeweiligen Linklevelverteilungen annehmen, dargestellt. Man sieht sofort, dass da nicht so viel zu holen ist. Bei den Werten „flach“, 0 und 1 auf der Abzsisse tummeln sich ein paar Seiten. Ich nehme an, dass das Seiten selben Seiten sind, die auch bei diesen kleinen Werten ihr Maximum haben. Die haben also keine Links („flach“) einen Link oder zwei und dann setzt die Linkkette sich nicht weiter zu allen anderen Seiten des Wikipedialinknetzwerkes fort.

Alle andere Seiten haben vøllig unstrukturiert zwischen 60 Millionen und 90 Millionen (sieht man nicht, weil rote Vierecke drueber liegen) (2020 Daten) bzw. 75 Millionen und 122 Millionen (2023 Daten) totale Links. Bei ’ner logarithmischen Abzsisse wuerde das breite Gebiet mit den vielen Punkten uebrigens recht schmal werden. Das liegt also alles ungefaehr im gleichen Bereich.
Letzteres wundert mich nicht, denn die allermeisten Seiten sehen frueher oder spaeter ja doch das komplette Linknetzwerk. Das heiszt also, wenn eine Ursprungsseite ihr Maximum in der Verteilung der totalen Links sieht, dann tragen da immer mehr oder weniger gleich viele Seiten (auf dem jeweiligen Linklevel) zu den totalen Links bei. Und im Mittel haben die immer gleich viele Links. Dass die Verteilung bei linearer Abzsisse doch recht breit ist, ist einfach dem „zufaelligen Wandern“ durch das Linknetzwerk geschuldet.

Die 2023 Daten sind etwas nach rechts verschoben (und die Verteilung ist etwas verbreitert), einfach weil es mehr Seiten gab und diese Extraseiten tragen gleichmaeszig bei (fast) allen Ursprungsseiten zum Signal bei.
Wichtig festzuhalten ist, dass auch in diesem Fall die 2023 Daten die 2020 Daten reproduzieren (wenn man das Mehr an Daten in Betracht zieht).

Aber letztlich sieht man hier nicht viel. Es gibt keine Struktur in den Daten und auch keinen schønen „Berg“ wie beim letzten Mal.Deswegen habe ich mir mal angeschaut, wie haeufig jeder Maximumswert auftritt.
Bei den 2020 Daten gibt es zwischen 90 Millionen und 60 Millionen genuegend Werte, dass die ca. 5.8 Millionen Wikipediaseiten fuenf mal „reinpassen“ wuerden, ohne sich „auf die Fuesze zu treten“. Oder anders: prinzipiell kønnte jeder Maximumswert nur ein einziges Mal auftauchen. In der Realitaet „treten“ die sich aber ein paar Mal „auf die Fuesze“ denn es gibt nur ca. 4.6 Millionen unike Maximumswerte.
Jedenfalls, sieht man diese Verteilung der Maximumswerthaeufigkeiten im rechten Diagramm, mit doppellogarithmischen Achsen … und hier reproduzieren die 2023 Daten die 2020 Daten ganz genau, trotzdem Erstere viel mehr Seiten beinhalten.

Wie so oft herrscht auch hier wieder ein maechtiges Gesetz … oder vielmehr zwei, denn ueber die ersten drei Werte geht das deutlich schneller nach unten als ueber den Rest. Andererseits sind maechtige Gesetzmaeszigkeiten im Kevin Bacon Projekt alte (und haeufige … Wortspielkasse!) Bekannte, sodass das euch, meine lieben Leserinnen und Leser, sicher nicht mehr wundert.

Deswegen geht’s gleich weiter mit den neuen Links:

Davon abgesehen, dass die Werte anders sind, gibt’s zur Verteilung der Maximumswerte nichts weiter zu sagen. Die Verteilung der Maximumswerthaeufigkeiten ist da schon deutlich spannender. Die hat so ’ne elegante Kurve bei Werten zwischen 1 und ca. 20.
Wenn man diese Verteilung mit denen der totalen Links vergleicht, sieht man, dass die Haeufigkeiten bei Werten kleiner als vier auf der Abzsisse kleiner, und zwischen 4 und ca. 20 auf der Abzsisse deutlich erhøht ist. Danach liegen die Kurven im Wesentlichen uebereinander. Man muss schonein bisschen genauer hinschauen um Unterschiede auszumachen … diese Unterschiede kønnten relevant sein um Phaenomene im Linknetzwerk zu erklaeren und sollten naeher untersucht werden … aber nicht mehr von mir.
Dazu abschlieszend sei nur zu sagen, dass in beiden Faellen die 2023 Daten wieder die 2020 Daten reproduzieren.

Nun zu den Selbstreferenzen:

Høh? … Das kommt mir irgendwie sehr bekannt vor! Nach laengerem Ueberlegen bin ich zu der Ueberzeugung gekommen, dass die Bekanntheit taeuscht.
In den Diagrammen in den verlinkten Beitragen sind die Verteilungen der Anzahl der Selbstreferenzen pro Linklevel gezeigt. Wenn man also ’ne dicke fette (und sehr laaaaaange) Matrix nimmt, bei der die Linklevel auf der horizontalen Achse und jede Seite auf der vertikalen Achse aufgetragen sind, dann habe ich fuer die dort dargestellten Diagramme vertikale Schnitte gemacht; fuer jedes Linklevel einen Schnitt. Bei den Darstellungen hier hab ich die selbe Matrix „zerschnitten“, aber in horizontaler Richtung; fuer jede Seite einen Schnitt. Bei den untersuchten Dingen handelt es sich also buchstaeblich um zwei verschiedene (und orthogonale!) Dimensionen.

Das das aehnlich aussieht liegt nun einfach nur daran, dass das was ich messe, sich in beiden Faellen nach Potenzgesetzen verhaelt. Hier: es gibt viele Seiten die einen Maximumswert von nur (ich sag jetzt mal) 5 Selbstzitierungen haben und nur wenige mit einem Maximumswert von 1000. Dort: es gib nur wenige Seiten die auf einem gegebenen (relativ kleinen!) Linklevel 1000 Selbstreferenzen haben, und viele die auf einem gegebenen (relativ kleinen!) Linklevel nur 5 Selbstzitierungen aufweisen. Hørt sich aehnlich an, sieht aehnlich aus, sind aber zwei total verschiedene Sachen.

Zur Maximumswerthaeufigkeitsverteilung gibt’s nix zu sagen, was nicht schon gesagt wurde. Interessant ist nur der sehr lange Schwarz zu sehr hohen Werten auf der Abzsisse. Das muesste man sich mal in kumulativer Darstellung anschauen … mach ich aber nicht mehr.

Ach ja … auch hier wieder: Reproduktion erfolgreich.

Als Letztes noch die Linkfrequenz:

Øhm … joa … da muss ich nix weiter zu sagen. … … … Ah doch: der „vertikale Strich“ am linken Rand im linken Diagramm ist wieder die „Abkuerzung“ zu den Archipelen. Das sieht man bei linearer Abzsisse nur nicht so gut.
Und ansonsten kann ich mich auch hier bzgl. der Reproduktion nur wiederholen: hat geklappt.

Das soll reichen fuer heute … bin gespannt, was es naechstes Mal wird.

Posted by Tentacel on 2025-06-03 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 9a: Maximapositionen

Via „Spaetzuender“ (auch als „grobe Abweichler“ bezeichnet) bin ich damals auf die Idee gekommen, mir mal anzuschauen auf welchen Linkleveln eigentlich die meisten Seiten das Maximum in der Kurve einer gegebenen Grøsze von Interesse haben.

Fuer die Anzahl der totalen Links ist das hier reproduziert:

Wie erwartet gibt es zwischen den 2020-Daten und den 2023-Daten keine wesentlichen Unterschiede; insb. veraendern sich die Grøszenverhaeltnisse der Balken von Linklevel zu Linklevel nicht. Das ist also als reproduziert anzusehen.
Die blauen Balken bei LL₁ und LL₉ sehen zwar deutlich grøszer / kleiner aus, aber man beachte die logarithmische Ordinate. Da sind im ersten Fall also nicht mal 10 Seiten dazu bzw. im zweiten Fall deutlich weniger als 10 Seiten „abhanden“ gekommen … die viel kleinere Erhøhung bei LL₄ entspricht fast einer Million Seiten. Logarithmische Achsen sind schon was Feines, nicht wahr! Die halten irrelevante Information von einem weg … man muss aber auch aufpassen, dass andere irrelevante Information nicht ueberinterpretiert wird.

Ansonsten gibt es nur eine Sache zu sagen und das ist ein wichtiger Unterschied im Vergleich zum damaligen Diagramm. Dort war naemlich der Balken bei LL₀ zu hoch und es stellte sich dann heraus, dass es ueber 5-tausend Seiten OHNE Links gibt die da drin mitgezaehlt wurden … und nur ca. 100 Seiten mit einem echten Maximum der totalen Links auf LL₀. Erstere haben eine flache totale-Links-per-Linklevel Verteilung; ohne Links als Ausgangspunkt kommt man nicht auf andere Seiten mit mehr Links … es startet also alles bei Null und bleibt auch dabei. Das wurde von meinem Algorithmus faelschlicherweise als „Maximum“ auf LL₀ interpretiert.
Wieauchimmer, solche Seiten werden jetzt richtig erkannt und auf die „flach“-Position auf der Abzsisse gesondert dargestellt … und das gilt fuer alle Diagramme in diesem Beitrag.

Nun zu den neuen Links. Die Verteilung der Maximaspositionen der entsprechenden Kurven hatte ich damals der gleichgearteten Verteilung der totalen Links gegenuebergestellt. Das wiederhole ich heute nicht, denn es ist nur von Interesse ob Erstere reproduziert werden. … Und ich wuerde mal sagen …

… das man das so sehen kann. Ich muss das nicht weiter besprechen, denn ich wuerde nur das weiter oben Geschriebene wiederholen. Heraus sticht nur die eine (!) neue Seite mit dem Maximum auf LL₁; aber auch das wurde oben schon behandelt.

Nun zu den Selbstreferenzen. Damals wurde ich stutzig, denn der LL₀-Balken war zu hoch. Nur durch diesen einen Balken entdeckte ich dann die Archipele! Aber das dauert noch ein bisschen, bevor ich dort angelangt bin.
Hier ist die Reproduktion (sagt man das so?) der Verteilung der Maximaspositionen der Selbstreferenzkurven aller Seiten:

Uff! Der Balkenwald wird dichter. Aber wenn man genau hinschaut, dann sieht man, dass die roten und blauen Balken auch hier wieder im Wesentlichen uebereinstimmen. Mit møglicherweise (!) einer kleinen, møglicherweise (!) systematischen, Abweichung zwischen LL₈ und … mhm … schwer zu sagen … ich sag jetzt mal LL₁₉. Bis auf einen Balken sind dort naemlich alle blauen Balken kleiner, es gibt also kein „rauschendes Auf und Ab“ … das kønnte was sein, das lohnt sich also mglw. mal naeher zu untersuchen (ich werde das aber nicht tun) … ich wuerde aber erstmal nicht unbedingt ’ne Wette drauf abschlieszen, dass da wirklich ein echtes Phaenomen hinter ist. „Statistik“ macht manchmal komische Sachen (ich erinnere an dieser Stelle an die wohlbekannte, 5σ sichere, „Entdeckung“ des Θ⁺-Pentaquarks in den Nullerjahren, die sich dann als falsch herausstellte).
Alles in allem gilt auch hier: Reproduktion (wenn man das so sagt) gelungen.

Als Letztes bleibt die Verteilung der Maxima der Linkfrequenzkurven. Damals war es die erste konkrete Bestaetigung, dass da irgendwie mehr am „São Paulo FC“-Artefakt sein muss (und es war, aber so weit bin ich auch hier noch laengst nicht). Die Reproduktion (ich sag das jetzt einfach so) …

… ist wieder als erfolgreich anzusehen … auch wenn dabei der Balkenwald zu dicht wurde um noch was zu erkennen, weswegen ich (wie so oft) auf ein Streudiagramm fuer das Histogramm zurueckgriff.

Im Wesentlichen hat man das gleiche Resultat wie bei allen anderen Verteilungen: die 2023-Daten reproduzieren die 2020-Daten. Es gibt møglicherweise (!) eine kleine, møglicherweise (!) systematische, Abweichung kurz nach LL₄₀. Die 2020-Daten „beulen“ sich da etwas aus. Aber insgesamt sprechen wir von nur sehr wenigen beteiligten Seiten und ich wuerde hier noch weniger drauf wetten, dass da was ist. Das sollte mal wer untersuchen … lohnt sich mglw.

Puuuh … das war jetzt ’n ganz schøner Ritt. Aber ich habe viel geschafft.
Nun ist’s aber so, dass auch in diesem Fall die Auswerteprogramme neu von mir geschrieben und generalisiert wurden. Deswegen faellt jetzt bei der Analyse eine weitere Sache an, die mir bei den damaligen Betrachtungen ueberhaupt nicht in den Sinn kam: wenn ich die Position des Maximums kenne, dann kenne ich auch den WERT des Maximums und da kann man sich die Verteilungen doch auch mal anschauen. DAS, meine lieben Leserinnen und Leser, verschiebe ich aber auf’s naechste Mal.

Posted by Tentacel on 2025-05-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 8: (Verteilungen pro Linklevel II): neue Links / Selbstzitate / Linkfrequenz

Beim letzten Mal gruebelte ich noch, hatte mich dann aber relativ schnell entschieden, doch zunaechst die Reproduzierung(en) der noch ausstehenden Linklevelverteilungen, der anderen drei untersuchten Grøszen von Interesse, vorzunehmen.

Im Nachhinein sehe ich, dass ich das thematisch alles schon in diesen Beitrag haette packen sollen. Hab ich nicht gemacht und deswegen hole ich das jetzt alles auf einmal nach. Andererseits lag in meinen urspruenglichen Betrachtungen eine Art „Fluss“, und Ausgangspunkt waren oft eben diese Linklevelverteilungen. Den „Fluss“ dessen was aus den den (totalen) Links pro Linklevel folgte støre ich mit dem Beitrag hier. Und wenn ich die Reproduzierung von Folgesachen der anderen drei Grøsze angehe, dann hat der „Fluss“ keinen natuerlichen Ausgangspunkt sondern ich muss immer hierauf verweisen … aber ich schweife ab, denn wie die Existenz dieses Artikels zeigt, ist die „Flusssache“ anscheinend dem „Themapunkt“ untergeordent.

Es geht gleich los mit der (Summe der) neuen Links pro Linklevel:

Damals hatte ich die schnell abgehandelt, als ich die (Summe der) totalen Links pro Linklevel abschloss. Es gab bei dieser Verteilung naemlich nicht viel zu holen. Und auch bzgl. der Reproduzierung gibt’s nix Neues zu sagen (Wortspielkasse! … wegen „nix Neues bei neuen Links“ … tihihihi … falls das unklar sein sollte) was nicht schon bzgl. der totalen Links gesagt wurde.

Deswegen geht es sogleich weiter mit den Selbstzitaten pro Linklevel:

Hier ist der damalige Beitrag dazu und es gibt i.A. (nocheinmal) nicht viel zu sagen, was im Wesentlichen nicht bereits frueher gesagt wurde. Zwei Sache stechen aber hervor, wenn man genauer hinschaut und mal drueber nachdenkt.
Waehrend die Kurven (im Wesentlichen!) uebereinander liegen, es sich also nicht viel aenderte, so gibt es auf Linklevel 0 tausend Mal mehr Selbstzitate. DAS ist signifikant und sollte untersucht werden … aber nicht von mir.
Auszerdem scheint mir der „Einbruch“ roten Kurve bei Linkleveln grøszer als ungefaehr 20 systematisch zu sein. Das kønnte taeuschen, ich denke aber, dass das eine genauere Untersuchungen wert ist … ihr, meine lieben Leserinnen und Leser ahnt es bestimmt schon (und seid sicherlich ein bisschen traurig deswegen): diese naehere Untersuchung werde ich auch nicht mehr vornehmen.

Ich hatte mich damals dann in einem Muster „verlaufen“, was gar nicht da war (sozusagen eine Fata Morgana). Ich kann mich nicht erinnern, dass ich das jemals wieder aufgegriffen haette. Zum Glueck hatte ich auch geschrieben:

[…] sollte ich nix weiter in diese Richtung finden, dann erwaehne ich das still und heimlich einfach nicht mehr.

Folgt mir! Liegt mir zu Fueszen! Benennt eure Kinder nach mir, denn ich bin ein Prophet! … … … oh … ich schwoff ab und wollte eigtl. sagen, dass das damit auch „reproduziert“ ist, denn es gibt hier eigtl. nix zu reproduzieren.

Nun die (Summe der) Linkfrequenz pro Linklevel:

Damals hatte ich das mit der gleichen Kurve bzgl. der totalen Links verglichen. Ich denke, dass das an dieser Stelle unnøtig ist, und sei es aus dem gleichen Grund wie oben: es gibt auch hier bzgl. der Veraenderungen in den 2023 Daten nix weiter zu sagen, was nicht schon gesagt wurde.

Sehr gut … Das ging diesmal fix und mehrere Sachen schaffte ich in einen Beitrag zu packen … das passiert ja nicht so haeufig.

Posted by Tentacel on 2025-05-05 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 7: Durschnittliche Merkmalsanzahlen

Die beim letzten Mal reproduzierten Untersuchungen fuehrten mich damals zu einem der wichtigsten Kevin Bacon Resultate ueberhaupt: die durchschnittliche Anzahl der Zitate unterliegt einem maechtigen Gesetz. Oder anders: das ist bei doppellogarithmischen Achsen linear! Krass wa!

Wichtig: bei diesen Untersuchungen wurde davon ausgegangen, dass die Anzahl der Zitate die UNabhaengige Grøsze ist. Oder anders an einem Beispiel: alle Links einer Seite mit 5 Zitaten hab ich genommen und auf einen „Haufen“ geworfen. Auf diesen Haufen kamen NUR die Links von Seiten mit 5 Zitaten (egal wieviele Links das waren). Auf einem anderen Haufen haeufte ich alle Links aller Seiten mit 6 Zitaten an; usw. Fuer den Durchschnitt teilte ich am Ende einfach die Anzahl aller Links in einem gegebenen Haufen mit der Anzahl aller Seiten die zu diesem Haufen beigetragen haben.
Ich habe das nochmal so ausfuehrlich beschrieben, damit sichtbar wird, dass ich damals auch hier wieder NICHT die umgedrehte Konstellation betrachtet habe. Oder anders: wird das das Gleiche, wenn man die Anzahl der Zitate einer Seite durchschnittifiziert, wenn man die Anzahl der Links der besagten Seite als unabhaengige Grøsze hernimmt?

Tja … und hier sieht man nun beide Sachen:

Tada! Das ist auf den ersten Blick nicht das Gleiche … aber ich kann euch, meinen lieben Leserinnen und Lesern versichern, dass es sehr wohl das Gleiche ist.

Am wichtigsten ist, dass die Anstiege der linearen Teile der Daten im Groszen und Ganzen uebereinstimmen. Aufgrund unterschiedlicher Skalen sieht man das nur nicht so gut. Aber wenn man das gleich skaliert dann ist’s im Wesentlichen das gleiche Ergebniss … ich hab das jetzt zwar nicht konkret ausgerechnet, aber ich hab ’n Lineal an’n Monitor gehalten und parallel verschoben (bei richtiger Achsenskalierung) und das war im Wesentlichen das gleiche … OKOK … es war kein Lineal und Parallelverschiebung, sondern ’n Blatt Papier an den Monitor gehalten, dann hab ich (MIT LINEAL) den einen Anstieg „durchgepaust“, das Papier an der Unterkante des Monitors zum naechsten Graphen (parallel)verschoben, dort den Anstieg abgepaust … und das hatte zwar kleine Abweichungen, aber innerhalb der Genauigkeit aller Untersuchungen (und insb. der „Pausmethode“) wuerd ich sagen, dass das alles gleich war.
Und das SOLLTE auch so sein (was der Grund ist, warum das so wichtig ist), dass die Anstiege gleich sind. Auch wenn das in den beiden Faellen aus anderen Gegebenheiten so ist, denn die Anzahl der Seiten mit einem gegebenen Zitatewert ist unabhaengig von der Anzahl der Seiten mit dem selben LINKwert. Aber im Mittel ueber (sehr) viele Seiten, sollte das das Gleiche sein.
Dass dem wirklich so ist fetzt und bestaetigt im Nachhinein, dass mein Ansatz mit dem Mittelwert gar nicht so falsch ist … das ist wichtig, denn darauf basierten ein paar Schlussfolgerungen und Erklaerungen im weiteren Verlauf des Kevin Bacon Projekts.

Warum das auf den ersten Blick so ungleich aussieht, ist das unterschiedliche Verhalten des Verlaufs der beiden Durchschnitte bei hohen Werten auf der Abszisse. Was natuerlich nicht weiter verwunderlich ist, eben wg. besagter Unabhaengigkeit und weil wir hier in den Bereich kommen, wo oft nur sehr wenige, in vielen Faellen einzelne, Seiten einen ganzen Datenpunkt ausmachen … da kann man also mittels einer Durchschnittifizierung keine „versteckte“ Information „rauskitzeln“.

Ach ja, es ist eine reine Formalitaet (denn man sieht’s ja), aber ich sollte erwaehnen, dass die 2023 Daten die 2020 Daten reproduzieren.

Sooo … das ging schøn schnell heute.

Damals hatte ich dann nur noch den Rest der Verteilung der totalen Links angeschaut und da war nix weiter zu holen und ich hatte die gesamten Verteilungen bereits reproduziert. Und dann folgte (wie so oft) eine kurze Betrachtung der „Ausreiszer“, die ich hier auch nicht wiederholen werde. Dito, bzgl. der daran anschlieszenden Fehlerbetrachtungen.

Tjoa … jetzt muss ich ueberlegen ob ich mir erstmal die Linklevelverteilungen fuer die anderen drei Grøszen von Interesse anschaue (und damit dem damaligen „Spielplan“ vorgreife), oder „chronologisch“ weitermache.
Ich tendiere zu Ersterem, aber das muss ich nicht jetzt entscheiden.

Posted by Tentacel on 2025-04-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 6: Beitrag zur Anzahl Links auf LL₁

Die Sachen die ich beim letzten Mal reproduzierte (und leicht erweiterte) machten mich damals stutzig, denn die Kurven hatten fuer meinen Geschmack einen viel zu starken Anstieg. Deswegen untersuchte ich (damals) wie stark Seiten mit unterschiedlichen Anzahlen an Zitaten und Links auf Linklevel 0 zur Anzahl der totalen Links auf Linklevel 1 beitragen.
Das wollte ich jetzt natuerlich nochmal machen und die entsprechenden Programme hatte ich schon vor Monaten geschrieben. Leider habe ich diesmal nicht richtig hingeschaut und das als „Beitrag zur Anzahl der total Links auf LL₀“ (man beachte den Linklevelindex!) gelesen (anstatt „auf LL₁„). Dadurch hab ich dann Zeit verschwendet, weil besagte Programme vermeintlich falsche Zahlen lieferten. Der Fehler klaerte sich nach ca. 2 Stunden auf.

Aber der Reihe nach und als Erstes nochmal kurz worum es heute geht. Wenn ich an ’ne Sache rangehe, mache ich oft erstmal ’ne Fermi Abschaetzung. Etwas genauer: ich schau mir Mittelwerte an und ueberlege mir wie diese Sache aussehen sollte, wenn man nur mit den Mittelwerten rechnet. Damals kam aber ganz schnell heraus, dass die durchschnittliche Anzahl der Links und Zitate, gemittelt ueber ALLE Seiten, einen VIEL kleineren Anstieg der totalen Links verursachen sollte. Ich hatte dann relativ schnell die Idee, dass mglw. Seiten die extrem oft zitiert werden einen ueberproportionalen Anteil an dem Anstieg haben kønnten, der mitnichten mittels einer Mittelwertsueberschlagsrechnung erfasst werden kann.
Oder anders (mit Zahlen): eine Seite die auf LL₀ fuenf mal zitiert wird und die fuenftausend Links hat, traegt auf LL₁ 25-tausend (totale) Links bei. Der Beitrag einer Seite mit nur einem Link, die aber 250-tausend Mal zitiert wird, ist hingegen zehn Mal so hoch.

Das soll reichen zu dem was man hier (wieder) sieht; mehr Details gibt es in den entsprechenden Artikeln von damals.
Ach ja, wenn ich schon dabei bin sollte ich auch auf einen Fehler hinweisen. Bei der Kurve bzgl. des kumulativen Beitrags habe ich damals die Werte fuer NULL mal zitierte Seiten mit dazugezaehlt. Die tragen aber NICHT bei, weil die ja nicht zitiert werden. Das fuehrt aber NICHT zu einer Aenderung des Anstiegs der Kurve, sondern nur zu einer konstanten Verschiebung von weniger als 1 Million … da die Ordinate bis fast 40 Milliarden geht, sieht man das gar nicht und HIER ist das jetzt alles richtig!

Aber nun die Diagramme. Zunaechst das zur Reproduzierbarkeit …

… bei der (wie damals) als Unterscheidungsmerkmal der betrachteten Seiten die Anzahl der Zitierungen herangenommen wurde. Die schwarzen Punkte (linke Ordinate) repraesentieren die Summe aller Produkte von Anzahl Links und Anzahl Zitierungen aller Seiten mit einer gegebenen Anzahl Zitate auf LL₀. Die Punkte der 2023 Daten sind im Wesentlichen die Gleiche wie die fuer die 2020 Daten.
In den 2023 Daten gibt es aber mehr Seiten mit unterschiedlichen Anzahlen an Zitierungen. Wegen der logarithmischen Komprimierung sieht man die entsprechendne Punkte nicht. Die sind aber ein Grund, warum die kumulative Anzahl Links auf LL₁ (blaue Punkte, rechte Ordinate) der 2023 Daten schneller waechst als die der 2020 Daten. Desweiteren liegen die schwarzen Punkte ein bisschen ueber den grauen Punkten. Man muss genau hinschauen und sieht es vermutlich am besten am Anfang um 10 Zitate rum … der Unterschied ist gering, aber echt. Oder anders: es gibt in den 2023 Daten nicht nur mehr Seiten mit anderen / unterschiedlichen Zitaten als in den 2020 Daten, sondern auch mehr Seiten die bspw. 5 Zitate haben. Und das „haut dann rein“ bei den kumulativen Kurven … denn das liegt ja schon in der Definition der kumulativen (!) Kurven.
Aber alles „geht mit ~~rechten~~ linken Dingen zu“, denn die Form der Anstiege (im Wesentlichen linear) aendert sich nicht.

Damals nicht betrachtet hatte ich, wie das Ganze aussieht, wenn man die Anzahl der Links herannimmt als Unterscheidungsmerkmal der betrachteten Seiten. Aber das ist ja das Schøne, wenn man die entsprechenden Programme nochmal neu schreibt und dabei allgemeiner fasst; es „fallen mehr Sachen raus“. Auf den ersten Blick das sieht das …

… erstmal sehr aehnlich zum obersten Diagramm aus, sowohl qualitativ als auch quantitativ. Letzteres natuerlich nur bzgl. der Ordinate. Insb. verhalten sich die 2023 Daten nicht anders als die 2020 Daten (innerhalb der zu erwartenden Grenzen).
Auf den zweiten Blick sieht die Verteilung der schwarzen Punkte dann aber doch anders genug aus, sodass ich da mal „reingezoomt“ habe:

Tatsaechlich! bei vielen Zitaten „gehen die Punkte hoch“, waehrend sie „runter“ gehen bei vielen Links … da kann wer anders mglw. was mit machen, ich lasse das hier nur noch ohne weitere Kommentare stehen.

An der Stelle liesz ich damals die durchschnittliche Anzahl Links (bei gegebener Anzahl an Zitaten) folgen. Das verschiebe ich auf den naechsten Beitrag, weil dies eines der wichtigsten Ergebnisse ueberhaupt war, welches oft zur Erklaerung anderer Phaenomene herangezogen wurde.

Ich kam dann damals nochmals auf die Beitraege der einzelnen Seiten (gruppiert nach der Anzahl der Zitate) zurueck und schaute mir das in einem zweidimensionalen Grafen an, in dem Information ueber eine dritte Dimension (besagte Gruppierung) in den einzelnen Punkten „versteckt“ war.
Das war wichtig, denn diese Kurve zeigte ungeheuer beeindruckend wie stark _ganz_ wenige Seiten mit vielen Zitaten die Dynamik der total Links insb. am Anfang beeinflussen … womit der Grund der oben erwaehnten Stutzigkeit gefunden war.
Hier sind die entsprechenden Kurven:

Bzgl. dessen wie dieses Diagramm zu lesen ist verweise ich auf den damaligen, verlinkten, Beitrag. Nur drei Sachen seien gesagt.
Zum Einen schaue ich mir nicht nur die Gruppierung nach Anzahl der Zitate (rote Punkte) an, sondern auch nach Anzahl der Links (schwarze Punkte).
Zum Zweiten unterscheiden sich die 2023 Daten nur insofern, dass sie sich weiter nach rechts „ausdehnen“. Das liegt natuerlich wieder daran, weil es in den 2023 Daten mehr Seiten gibt.
Zum Dritten scheint die Dynamik der Kurven in denen die Seiten nach der Anzahl der Links gruppiert sind, etwas „ruhiger“ zu sein als die der Kurven in denen die Seiten nach Anzahl der Zitate gruppiert sind. Oder anders: die roten Kurven verlaufen ab ungefaehr 5 Millionen auf der Abzsisse etwas „flacher“ (nicht viel) als die schwarzen Kurven um dann zum Ende einen „Extraschub“ hinzulegen und staerker zu „beschleunigen“. Am Endergebnis aendert das nix, kønnte aber mglw. durchaus von Interesse sein sich mal naeher anzuschauen … fuer andere … nicht (mehr) fuer mich.

Das soll genug sein fuer heute. Wie bereits erwaehnt: beim naechsten Mal dann die durchschnittlichen Links / Zitate bei gegebener Anzahl Zitate / Links.

Posted by Tentacel on 2025-04-11 at 13:37 under Kevin Bacon.
Comment on this post.