Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – LX – log-log-Plots ueber Integrale (viii): Vorsicht mit den Integralen!

Bei den linklevelabhaengigen Verteilungen der totalen Links hatten wir einen Fall, bei dem die „integrierten log-log-Plots“ nicht so „funktioniert“ haben wie ich das bei allen anderen Beispielen gesehen habe. Aber das war erwartet, weil schon bei den urspruenglichen Untersuchungen nix rum kam. Im Allgemeinen konnte man sehen, dass dieser Ansatz zu mehr oder weniger guten Geraden fuehrt und (mit sinnvollen Abstrichen) haut das schon ganz gut hin.

Ein unerwartetes, im Wesentlichen nichts hergebendes Ergebniss erhaelt man mit dieser Methode, wenn man sich die Links auf LL_i+1 in Abhaengigkeit von den Links auf LL_i anschaut:

Im linken Diagramm sind, wieder in blassen Farben, die urspruenglichen (Roh)Daten und die wichtige (und ueberraschende) Information war hier, dass diese einen „Orbit“ beschreiben … DAS sieht man nun ueberhaupt nicht bei den integrierten Daten im rechten Diagramm.
Zunaechst kønnte man das ja mglw. darauf schieben, dass ja NUR die Ordinate integriert ist, aber mglw. muesste man das auch fuer die Abzsisse machen. Da tritt man dann zwar in ein „konzeptuelles Wespennest“, aber das hat mich nicht davon abgehalten mich damit mal ein paar Stunden zu beschaeftigen … das Resultat: das ist zwar anders als im rechten Diagramm, ist diesem aber aehnlich und hat auch keinen „Orbit“ zur Folge.
Auf den ersten Blick sieht es auch so aus, dass man hier nicht mal die Anstiege aus den Integralen richtig raus bekommt (aus dem Bereich vor den jeweiligen Plateaus). Wobei das aber hier bei den (totalen) Links vermutlich letztlich auch wieder nur daraus folgt, was ich zum ganz zuerst verlinkten Thema schrieb … das gehørt schlieszlich zusammen.

Interessant ist, dass das was ich hier im rechten Diagramm zeige, (mit Abstrichen) bei den Selbstzitierungen funktioniert. Das war so wenig ueberraschend, dass ich dazu beim letzten Mal nicht mal ein Bild zeigte und das in drei Saetzen schnell abhandelte.
Wenn man mal drueber nachdenkt, dann ist das aber nicht weiter verwunderlich, denn die Selbstreferenzen sind nicht von sich selber, sondern von der Anzahl der (totalen) Links abhaengig. Bei Selbigen hingegen ist die Anzahl direkt von sich selbst abhaengig … ach das ist alles kompliziert und vermutlich hat das auch gar nix miteinander zu tun … was einer der Gruende ist, warum ich das oben als „konzeptuelles Wespennest“ darstelle … jemand der schlauer ist als ich, kann das mathematisch sicherlich alles herleiten, ich will mir aber darueber nicht weiter den Kopf zerbrechen

Lange Rede kurzer Sinn: hier bringt der „Integralansatz“ nix.

Dann war da noch die Summe der totalen Links einer Seite ueber alle Linklevel:

Achtung: im rechten Diagramm ist die untere Abzsisse fuer die grauen und roten Daten und zeigt nur einen Ausschnitt der gesamten (integrierten) Daten (blaue Punkte). Fuer Letztere gilt die obere, blaue Abzsisse.
Und JA, auch im rechten Diagramm sind die Abzsissen logarithmisch. Hier draengt sich aber alles so sehr zusammen, dass das irrelevant ist.

Ich muss hier nicht viele weitere Worte drueber verlieren, denn es ist ziemlich eindeutig, dass hier auch mit dem „Integralansatz“ nix zu holen ist. Das gilt auch dann, wenn man die Grenzen des Integrals invertiert oder die ersten vier (dominierenden) Datenpunkte weg laeszt bei den Betrachtungen (ich hab’s naemlich versucht).

Als naechstes war da die Summe der Linkfrequenzen ueber alle Linklevel, von dem nur der „Archipelteil“ interessant war:

Das sieht ja erstmal knorke aus, ABER hier muss man vorsichtig sein … der Reihe nach.

Die gestrichelten Geraden sind wieder von Hand reingelegt und die Anstiege sind ca. 2.25 fuer die Rohdaten und ca. 1.125 fuer die integrierten Daten. Das haut also ganz gut hin.
Aufgrund von Diskrepanzen zwischen realen Daten und reiner Mathematik fallen die integrierten Daten bei Summenwerten von ueber 100 so stark ab. Wie schon vormals (nicht im Detail) diskutiert, liesze sich das „reparieren“ und dann liegen die auch auf der (gestrichelten, blauen) Gerade. Das ist also nur ein kleinerer Grund fuer die Vorsicht
Wichtiger ist, dass die „Huegel“ in den Rohdaten (auf der Abzsisse bei Werten von ca. 25 und 50) zu deutlichen Abweichungen von der Regressionsgeraden im integrierten Signal fuehren. Auch vormals gab es Abweichungen von der Geraden, aber waren das dann „glatte“ Kurven mit mehr oder weniger starker Kruemmung und ich meinte dann, dass man die Abweichungen parametrisieren (a.k.a. wegdiskutieren“ kønnte).

Lange Rede kurzer Sinn: der „Integralansatz“ ist zwar durchaus … ich sag jetzt mal: erfolgreich. Aber wenn man das genau macht, dann darf man bei solchen Faellen die (abrupten und signifikaten) Abweichungen vom Erwartungsbild nicht einfach in einen „Parameter“ packen, sondern muss das ordentlich betrachten und diskutieren … was ich hier nicht mache, weil ich keine Lust mehr habe.

Als Letztes dann noch ein paar Beispiele fuer die linklevelabhaengigen Histogramme bzgl. der Linkfrequenz pro Seite:

Zu meiner Ueberraschung ist hier (auf den ersten Blick) nuescht linear; weder bei normalen (linkes Diagramm) noch bei invertierten Grenzen (rechtes Diagramm) des Integrals.
Naja, bei invertierten Integralgrenzen gibt es zumindest fuer die ersten paar Linklevel mglw. lineare Teilbereiche, aber viel ist da nicht „zu holen“.
Auszerdem ist die Dynamik im rechten Diagramm echt klein; die zugehørige Ordinate geht gerade mal ueber ein bisschen mehr als eine Grøszenordnung.
Lange Rede kurzer Sinn: der „Integralansatz“ kann hier vllt. ein paar Resultate liefern, die kønnen aber nicht auf den ganzen Datensatz verallgemeinert werden.

So, das soll genug sein fuer heute und mit dem „Integralansatz“. … … … Da hat es die letzten zwei Beitraege dann doch noch geklappt mit den …

[…] Artikel mit Bildern und (meist) nicht ganz so viel Text […]

… naja, fast … viel Text ist’s immer noch, aber ich handle ja doch recht viel ab in nur zwei Artikeln; relativ gesehen ist‘ also wenig Text … tihihi.

Ich bin ueber den „Integralansatz“ erst im Laufe der Maxiserie gestolpert und habe mir das erst jetzt zum Ende alles nochmal damit angeschaut. Es ist beruhigend, dass ich damit hauptsaechlich meine vorherigen Ergebnisse bestaetige (und ein paar neue Erkentnisse erhalte). Aber wie mehrfach erwaehnt, wollte ich nicht alles nochmal im Detail machen. Ich habe naemlich wirklich keine Lust mehr und freue mich darauf, diese Maxiserie nach fast drei Jahren abzuschlieszen.
Aber keine Sorge, Letzteres passiert noch nicht heute, denn ich møchte nochmal auf alles zurueck schauen und das wird dann mindestens noch ein (vllt. zwei) Artikel.

Posted by Tentacel on 2024-01-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (vii): alles Relevante zu den Selbstzitierungen

Da ich viele Phaenomene schon ausfuehrlich diskutiert habe, kann ich heute ein paar Sachen zu den Selbstzitierungen kurz abhandeln.

Auch wenn es vorher schon los ging, so ist hier erst dieser vorherige Beitrag relevant, in dem ich linklevelabhaengige doppellogarithmischen Histogramme systematisch zeigte. Das muss ich nicht nochmal im Detail wiederholen und zeige in diesem Diagramm …

… nur ein paar repraesentative (integrierte) Histogramme. Links (mit den blassen Farben) zur Wiederholung die „Rohdaten“ und rechts die integrierten Daten.

Eigentlich gibt’s hier nichts weiter zu sagen, denn wieder bestaetigen die integrierten Daten die vormaligen Resultate mit høherer Genauigkeit.
Ich hatte damals besprochen, dass bei den ersten Linkleveln der lineare Zusammenhang nicht all zu gut ist; hier sieht man, dass es gut genug ist mindestens ab LL₄.
Ich habe die Anstiege nicht nochmal „vermessen“ (was ja vormals zu diesem ganz wunderbaren Resultat fuehrte), aber das sieht schon richtig aus und am wichtigsten ist ohnehin, dass die Anstiege mit zunehmendem Linklevel auch hier steiler werden.
Als Letztes ist noch zu sagen, dass man auch mittels Integralen nix machen kann, wenn da nix ist. Siehe die Daten zu LL₁₉.

Danach hatte ich den Startpunkt fuer die Simulation mit den realen Daten verglichen. Das war damals sehr gut und ist auch bei den Integralen sehr gut. Ich habe da zwar ein Diagramm, aber der Informationsinhalt ist so trivial, dass ich das nicht nochmal zeigen muss.

Aehnlich schnell und ohne Diagramm kann ich abhandeln, wie die integrierten Daten der durchschnittlichen Anzahl der Selbstzitierungen auf LL_i+1 in Abhaengigkeit von LL_i aussehen. Wieder bestaetigen die integrierten Daten vorherige Resultate. Es liegt aber die gleiche Situation wie bei den durchschnittlichen Links pro Zitat vor. Deswegen muss ich das nicht nochmal im Detail besprechen und das zugehørige Diagramm ist auch nicht so spannend.

Als Letztes zu den Selbstreferenzen noch drei repraesentative Beispiele bzgl. der Seiten die von einem Linklevel zum naechsten „aussteigen“ aus der „Selbstreferenzkette“:

Die Daten sind gegeneinander verschoben und die „Rohdaten“ sind die Punkte mit den blassen Farben. Da man nur Phaenomene die bereits mehrfach besprochen wurden sieht, habe ich mir nicht mal mehr die Muehe gemacht „Regressionsgeraden“ von Hand rein zu legen … ich wollte das schlieszlich nicht alles nochmal machen, sondern nur gucken, was eine Integration zur Folge hat und das hier sieht alles gut und wie erwartet aus.

Das ging ja ausnahmsweise _wirklich_ mal schnell heute … fetzt ja.
Beim naechsten Mal schliesze ich die log-log-Plots ab und zeige ein paar Beispiele, bei denen eine Integration der falsche, oder zumindest ein nicht nuetzlicher Ansatz ist.

Posted by Tentacel on 2024-01-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (vi): Neues vom Archipel

OIOIOI! Was fuer ein tolles Weihnachtsgeschenk, denn das hier heute ist sooo geil! Der Integralansatz hat naemlich bei der Verteilung der Grøsze der Archipele zu mehreren neuen Erkentnissen gefuehrt. Aber der Reihe nach.

Zur Erinnerung nochmal das Diagramm von damals:

Das sind erstmal wieder „nur“ zwei „Histogramme mit Schwanz“. Damals unterschied ich zwischen der Verteilung bei der das No-way-home-Archipel (in kurz: nwhA) auszen vor gelassen wurde (schwarze Punkte) und der wo das mit drin war. Achtung: auch wenn ich hier die Einzahl benutze, so besteht das nwhA eigtl. aus mehreren No-way-home-ArchipelEN; inklusive mehreren zehntausend einzelnen Seiten.
Ich berechnte nie die Anstiege (der von Hand hereingelegten Linien), aber fuer die schwarzen Punkte (blaue Linie) ist selbiger ungefaehr -3.3 und fuer die roten Punkte (Linie in oliv) ca. -2.5. Das ist ein deutlicher Unterschied, aber aufgrund der Datenlage wollte ich nicht aussschlieszen, dass die linearen Bereiche der beiden Histogramme den gleichen (wenn nicht gar den selben) Anstieg haben — siehe die (parallel verschobene) gestrichelte Linie in oliv, welche die schwarzen Punkte nicht unbedingt viel schlechter beschreibt.

Die integrierten Daten (normale Integralgrenzen) sehen nun so aus:

OIOIOIOIOI! Das fetzt ja! Denn auf einmal treten mehrere Sachen deutlich hervor.

Zum Ersten sieht man, dass die Histogramme aus ZWEI Abschnitten mit unterschiedlichen Anstiegen bestehen. Diese Information war im obigen Diagramm komplett im „Zappelschwanz“ versteckt. Toll wa!
Ich bezeichne den (jeweiligen) linken Abschnitt als „normale“ Archipele und den (jeweiligen) rechten Abschnitt als „grosze“ Archipele.

Zum Zweiten sind besagte Abschnitte ganz klar mittels vier Geraden (in doppellogarithmischer Darstellung) zu beschreiben. Aber Achtung: die zwei Geraden der jeweils ersten Abschnitte (die blaue und olive Linie) haben unterschiedliche Anstiege waehrend die der jeweils zweiten Abschnitte hingegen den gleichen Anstieg haben (die lila, gestrichelten Linien) … nun ja, innerhalb des Fehlers interpretiere ich das als den gleichen Anstieg; mathematisch betraegt der Unterschied aber nur ca. 0.1 und das habe ich bei allen vorhergehenden Untersuchungen immer als „das ist schon irgendwie das Gleiche“ durchgehen lassen.
Wieauchimmer, da faellt (fast) nix aus der Reihe mit einer Kruemmung oder groszen „Ausreiszern“

Aus diesen Beiden folgt das Dritte: die Seiten die die Daten der ersten Abschnitte ausmachen unterliegen jeweils anderen Potenzgesetzen, waehrend fuer die groszen Archipele der zweiten Abschnitte nur EIN Potenzgesetz gilt. Das ist nicht ungewøhnlich, dass fuer Daten-am-Ende-und-irgendwie-weit-auszerhalb-der-normalen-Verteilung andere Gesetze gelten und das tritt (relativ) haeufig auf; kurioserweise gelten (in anderen Zusammenhaengen) fuer solche Daten oft maechtige Gesetze waehrend das oft nicht den Rest (und Groszteil) der Messungen beschreiben.
Wieauchimmer, vom Bezuhgsrahmen ist abhaengig wann „grosze Archipele“ beginnen.

Viertens folgt aus dem kleineren Anstieg der zweiten Abschnitte, dass es deutlich mehr grosze Archipele gibt als es geben sollte im Vergleich mit den normalen Archipelen; das untermauert die Vermutung eines anderen Mechanismus fuer grosze Archipele.
Ich denke NICHT, dass diese Aussage (eines anderen zugrundeliegenden Mechanismus) fuer die ersten Abschnitte gilt, obwohl diese auch unterschiedliche Anstiege haben. Weiter unten erklaere ich warum.

Diese vier Sachen sind so fetzig, weil das ueberhaupt nicht ersichtlich ist im urspruenglichen Diagramm.

Fuenftens stimmen die Anstiege der Geraden der ersten Abschnitte mit -2.5 fuer die schwarzen Punkte (blaue Linie) bzw. -1,6 fuer die roten Punkte (Linie in oliv) „mathematisch (fast) perfekt“ mit den frueheren Ergebnissen ueberein. Dadurch werden diese (wieder mal) untermauert, aber (wieder mal) mit grøszerer „Sicherheit“.

Das wiederum fuehrt zu Sechstens: der obige erwaehnte Unterschied im Anstieg der beiden Verteilungen ist echt. Hier kann man das nicht mehr mit „innerhalb des Fehlers kønnte das auch gleich sein“ wegdiskutieren. Wenn man das No-way-home-Archipel auszen vor laeszt scheint ein anderer Mechanismus am wirken zu sein … zumindest war das meine erste Vermutung. Die bereitete mir aber aber „Bauchschmerzen“ denn auch wenn ich das fuer „grosze Archipele“ akzeptieren konnte (s.o.) so sind die schwarzen Punkte ja bei den roten Daten mit drin und ich konnte mir nicht erklaeren warum Seiten (in Archipelen) auszerhalb des nwhA sich anders verhalten sollten als wenn ich alles zusammen betrachte.

Diese Unstimmigkeit liesz mich (wieder einmal) nicht los und ich gruebelte (wieder einmal) tagelang darueber nach, wie das erklaert werden kønnte. Ich muss ganz ehrlich sagen, dass ich stolz auf mich bin, dass ich eine møgliche Erklaerung fand.
In kurz: das Phaenomen der Archipele kann _nur_ in seiner Ganzheit betrachten werden und sollte NICHT in das nwhA und Archipele auszerhalb desselbigen unterteilt werden.

Aber der Reihe nach und zunaecht muss man sich erinnern, dass ich („historisch“ gesehen) zuallererst das nwhA gefunden habe. Das reichte aber nicht aus um die damals untersuchte Diskrepanz zu erklaeren und ich stellte weitere Ueberlegungen an, bei denen ich das nwhA zunaechst auszen vor liesz und erst am Ende wieder alles verknuepfte. Die schwarzen Daten oben sind nun die Daten bei denen das nwhA NICHT mit dabei ist und die roten Punkte bei denen alles verknuepft ist.
Ich erwaehnte damals, dass das nwhA viele Verbindungen mit Archipelen hat welche in besagten (hier) „schwarzen Daten“ dargestellt sind; aber das sieht man NUR, wenn man wieder alles verknuepft.
Das muss man im Hinterkopf behalten bei den folgenden Erklaerungen, aber bevor ich zu denen komme, muss ich noch auf etwas anderes hinweisen.

Fuer die folgenden Ueberlegungen gilt, dass mich NUR der Anstieg und NICHT die „Amplitude“ der Kurven interessiert. Oder anders: die schwarzen Daten gehen schneller nach unten, aufgrund besagten (staerkeren) Anstiegs und das interessiert mich. Gleichzeitig sind sie auch nach unten „verschoben“ einfach weil die Anzahl der Archipele die in den roten Daten enthalten sind viel grøszer ist als die Anzahl der Archipele welche die schwarze Daten ausmachen. Diese absolute Verschiebung interessiert mich NICHT und fuer das was ich hierunter schreibe, nehme ich an, dass die „Amplituden“ gleich grosz sind.
Auszerdem rede ich im folgenden immer nur ueber die ersten Abschnitte in den obigen (integrierten) Daten.

Die schwarzen Daten unterliegen einem Potzengesetz welches schneller abfaellt als das Potenzgesetz welches die roten Daten beschreibt. Wenn besagte Gesetze nun in der Wahrscheinlichkeitsinterpretation betrachtet werden (mit dem was ich eben schrieb bedeutet dies Aussage, dass man sich denken soll, dass beide Verteilungen insgesamt gleich viele Archipele enthalten), dann heiszt das, dass die Wahrscheinlichkeit fuer ein „schwarzes Archipel“ der Grøsze 4 so grosz ist wie ein „rotes Archipel“ der Grøsze 6. Oder ein „schwarzes Archipel“ der Grøsze 10 ist so wahrscheinlich wie ein „rotes Archipel“ der Grøsze 18. Man sieht das, wenn man einfach zwei gleiche Funktionswert fuer die schwarzen bzw. roten Daten anschaut und vergleicht welche Archipelgrøszen dazu gehøren.
Oder anders: die blaue Linie ist von der roten Linie gesehen nach links „verschoben“ … aber nicht parallel verschoben (denn dann waeren die Anstiege ja gleich), sondern abhaengig vom Wert der Archipelgrøsze unterschiedlich, mit zunehmenden Unterschied je grøszer das Archipel … das ist also eher eine Rotation nach links, wobei die Kurve beim Archipelgrøszenwert zwei festgehalten wird (das ist also der „Drehpunkt“).

Ich schreibe das hier auf, als ob das das natuerlichste von der Welt waere. Ich brauchte aber eine ganze Weile bevor ich da drauf gekommen bin und verfolgte ein paar „Sackgassen“ bevor ich diesen Durchbruch hatte.
Und wenn man mal drueber nachdenkt, dann ist das schon erstmal komisch; warum sollte die Verschiebung vom Wert auf der Abszisse abhaengen. Ich komme darauf zurueck, aber um zu verstehen warum das sinnvoll ist, muessen wir wieder zu den Archipelen und den Seiten aus denen diese bestehen zurueck kommen.

Zunaechst das nwhA und davon sind fuer das zugrundeliegende Prinzip das ich beschreiben will nur die …

[…] „Einwohner“ der (isolierten) „Insel der […] Unzitierten“ […]

… von Interesse; also nur die Seiten, welche nach „drauszen“ zitieren aber nicht zitiert werden. Dieser Satz nach dem Semikolon ist wichtiger als er aussieht, denn diese Seiten zitieren auch zu den nicht-nwhA-Archipelen. Den Prozess „sehe“ ich aber nicht in den „schwarzen Daten“, denn selbige habe ich dadurch erhalte, indem ich die Seiten aus denen das nwhA besteht auszen vor gelassen habe. Oder anders: „Einwohner“ der „Insel der Unzitierten“ sind sowas aehnliches wie die „Anhaenger“ im Zusammenhang mit „Kettenseiten“, nur dass der „Zitierpfeil“ andersrum ist.
Ein Bild sagt oft (aber nicht immer) meht als 1000 Worte:

Schwarze Kugeln mit Doppelpfeilen gehøren zu einem NICHT-nwhA-Archipel, die lila Kugeln mit einem Pfeil hin zu Ersterem sind „Einwohner“ der „Insel der Unzitierten“.
Was wir hier sehen ist das was ich oben schrieb und was in den roten Daten ausgedrueckt ist: man darf nur alles zusammen betrachten. Die „schwarzen Daten“ sind Teil eines grøszeren Verbunds (die „roten Daten“), aber dieser Verbund ist „abgeschnitten“ wenn die Grøsze der Archipele bei den „schwarzen Daten“ bestimmt wurde.
Oder anders: wenn ein NICHT-nwhA-Archipel die Grøsze 6 hat, so ist dem nur scheinbar (!) so, denn eigentlich „kleben“ an vier Seiten dieses Archipels noch jeweils ein „Einwohner“ der „Insel der Unzitierten“ dran und die eigentliche Grøsze des gesamten Archipels ist 10.
Die ersten beiden schwarzen Punkte haben kein „Anhaengsel“, denn die sind ja der „Drehpunkt“.

TADA! Das ist die Erklaerung dafuer, warum die „schwarzen Daten“ KEINEM anderen Mechanismus unterliegen als die „roten Daten“ (denn das waere nicht sinnvoll), warum die aber dennoch durch ein anderes Potenzgesetz beschrieben werden.
Der Unterschied zwischen einem Anstieg von -2.6 und -3.3 wird genuegend gut durch (etwas-mehr-als)-eine-gruene-Kugel-pro-schwarzer-Kugel beschrieben. Das habe ich durchgerechnet. In Wahrheit ist das natuerlich oft komplizierter, wenn mal zwei (oder auch mal keine) Exraseite an eine schwarze Kugel „angeklebt“ wird. ABER die „Insel der Unzitierten“ besteht aus ca. 320k „Einwohnern“ und dominiert das nwhA zu 90 Prozent. Solche komplizierteren Gegebenheiten kønnen in diesem einfachen Bild also ohne Beschraenkung der Allgemeinheit (oder so … ich habe das jetzt bestimmt nicht richtig gebraucht) auszen vor gelassen werden.

Gibt’s einen „Beweis“ dafuer?
Nun ja, keinen Beweis, denn dafuer muesste ich nachverfolgen, welche Seite wo „dranklebt“. Aber meiner Meinung nach starke Indizien, welche obiges Modell unterstuetzen.
Zum Einen verweise ich wieder auf die „Anhaenger“ bei den Kettenseiten. Einzelne Seiten die einfach an ’nem ausgedehnteren Konstrukt „dranhaengen“ sind ein bereits etabliertes Phaenomen.
Zum Zweiten sieht man es zwar nicht im Diagramm (wg. der logarithmischen Komprimierung), aber es „fehlen“ bei den „roten Daten“ bei der Archipelgrøsze 1 ca. 22-tausend Archipele. Das sind keine 320k (plus 1k aus den „schwarzen Daten“) sondern nur 299-tausend Archipele an der Stelle.
Zugleich sind es nur ca. 15-tausend Seiten die sich auf allen NICHT-nwhA-Archipelen „tummeln“ … das kønnte einem so vorkommen, als ob sich …

[…] (etwas-mehr-als)-eine-gruene-Kugel-pro-schwarzer-Kugel […]

… an diese ca. 15-tausend Seiten „ranklebt“. Fetzt wa!

Fuer diese zugrundeliegende „atomistische“ Erklaerung kann man in der Natur Beispiele finden (ich nenne mal nur Kohlenwasserstoffe) und deswegen klingt das Modell fuer mich durchaus plausibel. und ich hoffe, das war alles halbwegs verstaendlich erklaert.
Wie gesagt, bin ich voll stolz auf mich (und freu mich auch sehr dolle), dass ich das rausgefunden habe.

Ach so, das erklaert auch, warum der „Knick“ zu „groszen Archipelen“ bei den schwarzen Daten viel eher kommt als bei den roten Daten; die Archipele sind im eigentlich Verbund schon viel grøszer und damit in einem Bereich der wirklich einem anderen Mechanismus unterliegt.

Nochmal ach so: die „schwarzen Daten“ gibt es nur deshalb, wie ich das ganze urspruengliche Thema nach und nach „explorativ“ bearbeitet habe und nach und nach verschiedene Dinge entdeckte. In der Wissenschaft erzaehlt man dann am Ende alles halb „rueckwaerts“ und laeszt diese vorantastenden Schritte des langsamen Verstehens weg. Dadurch wird alles kuerzer und logischer und ergibt ein konsistentes Bild. Das ist aber nicht der Prozess des Forschens, den ich in dieser Maxiserie ja (mit Absicht) explizit darstelle.

Wieauchimmer, der Integralansatz ist hier sehr fruchtbar und das Alles sollte weiter untersucht werden … aber nicht von mir.

Das soll genug sein fuer heute. Mal schauen, was es naechstes Mal wird und ich wuensche erholsame Feiertage :)

Posted by Tentacel on 2023-12-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (v): fuenf von vielen Verteilungen

Hier schaute ich mir zum ersten Mal linklevelabhaengige Verteilungen einer Grøsze (in dem Fall der totalen Links) an. Ich gehe hier nicht weiter drauf ein, denn auch wenn ich da viel zu schrieb, kam am Ende nicht viel bei rum (auszer, dass das „São Paulo Artefakt“ dadurch mehr Aufmerksamkeit erhielt … aber „entdeckt“ wurde dieses schon eher).

Wieauchimmer, bei diesen vielen Histogrammen kam damals schon nix bei rum und wenn ich das als Integral betrachte …

… dann aendert sich daran wenig (Achtung: die Ordinate ist hier kein Zaehler fuer absolute Zahlen, sondern als kumulative Wahrscheinlichkeit (mit normalen Integralgrenzen) dargestellt).
Die fuenf Beispiele sind repraesentativ und selbst wenn man in den „Uebergang“ rein zoomt sieht man nix Spannendes.

Weil bei den neuen Links pro Linklevel im Wesentlichen die gleiche Situation vorliegt, schaue ich mir die dazugehørigen Verteilungen nicht nochmal als Integral an. Waere ja albern, denn das habe ich damals beim ersten „Durchgang“ auch nicht gemacht.

Und das soll’s fuer heute schon gewesen sein … ausnahmsweise ging’s schnell.

Posted by Tentacel on 2023-12-17 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (iv): durchschnittliche Anzahl Links pro Zitat

Hier schaute ich zum mir ersten Mal die Abhaengigkeit der Links einer Seite von der Anzahl der Zitate die diese erhaelt an. Es war ein „Blob“. Dann berechnete ich die durchschnittliche Anzahl an Links ueber alle Seiten die eine gegebene Anzahl an Zitaten erhalten hatten und der Blob verschwand und ich erhielt das erste wahrhaft ueberraschende Ergebniss in dieser Maxiserie: der Zusammenhang folgt auch einem maechtigen Gesetz. Besagtes Ergebnis ist in diesem Diagramm nochmals in grau wiedergegeben …

… und die (von Hand reingelegte) Regressionsgerade (lila, nicht durchgehende Linie) fuehrt zu einem Exponenten von +0.5.

Weil es „aufwaerts“ geht, muessen die Grenzen fuer das Integral invertiert werden um etwas Vernuenftiges zu erhalten (wie beim vorletzten Mal gezeigt) und besagtes Integral sind die Rechtecke in oliv. Die dazugehørige (auch von Hand reingelegte) Regressionsgerade in blau hat einen Anstieg von ca. +1.4 (eine Aenderung von ca. 5.5 Grøszenordnungen auf der Ordinate und ca. 4 Grøszenordnungen auf der Abszisse) … was ja wohl mal (beinahe) das mathematisch perfekt zu erwartende Resultat war. Das Integral bestaetigt also meine urpsruenglichen Ergebnisse … cool wa.

Bei den Rohdaten fangen die Daten zu „zappeln“ an ab ca. 500 Zitaten und haben eine ganz betraechtlich Varianz ab ca. 2000 Zitaten. Das liegt daran, weil es nicht so viele Seiten gibt, die derart viele Zitate erhalten und ich diskutierte das im damaligen Artikel.
Das Integral geht aber bis 200 Zitiaten schøn gerade weiter was natuerlich toll ist … um dann ueber nur eine halbe Grøszenordnung (also ziemlich abrupt in diesem Zusammenhang) in eine Parallele zur Abszisse ueber zu gehen. Dies fuehrte mich zunaechst dazu zu sagen, dass die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus nicht zulaessig ist.
Aber dann schaute ich mir die Rohdaten nochmal nur fuer diesen Bereich an und kam zu dem Schluss, dass das DOCH auch bei ueber 2000 Zitaten gilt. Dort waechst die Anzahl der Links im wesentlichen nach dem gleichen Potenzgesetz wie vorher. Warum zeigt sich das aber nicht in den integrierten Daten?

Nach etwas gruebeln kam ich auf die Antwort (die hier bereits erwaehnt wurde): es gibt dort nicht genuegend Daten! Im Beispiel beim vorletzten Mal wurden zunehmend mehr „Messungen“ je høher der „Messwert“ auf der Abzsisse war. (Vermutlich viel zu) Vereinfachend gesagt, befanden sich im Abschnitt 10 bis 100 auf der Abzsisse beim letzten Mal zehn Mal weniger „Messungen“ im Vergleich mit Abschnitt 100 bis 1000. Damit kann die Summe ueber letzteren Abschnitt zehn Mal grøszer werden und in einem log-log-Plot waechst das linear.
HIER aber nimmt die Anzahl der Daten mit zunehmender Anzahl Zitate ab und der „Integralansatz“ hørt auf zu funktionieren!

Die Mathematik ist hier also nicht „kaputt“ und auch die Daten sind es nicht. Vielmehr ist die Bildung der Summe der vøllig falsche Ansatz um Informationen aus den Daten mit mehr als 2000 Zitaten heraus zu bekommen. Das ist AUCH eine ganz wichtige Erkentniss.

Fuer ein Modell muesste in diesem Fall also zunaechst in Betracht gezogen werden, wie wahrscheinlich eine Seite mit einer gegebenen Anzahl Zitate ist. Fuer die Anzahl der durchschnittlichen Seiten gilt dann aber wieder das Potenzgesetz und die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus ist eben DOCH gueltig.

Etwas ganz anderes, aber sehr wichtiges: alles in Betracht ziehend sieht man hier, dass der „Integralansatz“ auch dann funktioniert, wenn die Ordinate NICHT nur eine „Abzaehlung von Ereignissen“ repraesentiert. Oder anders: bisher hatte ich nur Histogramme gezeigt, da zaehlt man auf der Ordinate wie oft eine „Messung“ mit einem bestimmten Ergebniss auftritt.
Die durchschnittliche Anzahl an Links ist aber nix was so „abgezaehlt“ werden kønnte.
Dennoch funktioniert der „Integralansatz“ und das fetzt (und ist wichtig). ABER das hier kan auf gar keinen Fall als kumulative Wahrscheinlichkeit interpretiert werden! Das ist natuerlich der Grund warum das Integral NICHT linear bis zum Ende ist, obwohl die Rohdaten das durchaus sind.

Das soll reichen fuer heute. Bisher laeuft’s ja nicht so doll mit …

[…] ich schaue mir das nicht nochmal im Detail an; das werden also Artikel mit Bildern und (meist) nicht ganz so viel Text […]

Liegt halt daran, dass …

[…] es was Neues oder Interessantes zu sehen gibt.

Fetzt ja auch, nicht wahr :) … Andererseits gehe ich ueber Dinge deren Diskussion ueber mehrere Artikel ging nur kurz nochmal rueber und beim letzten Mal habe ich sogar zwei Sachen in nur einen Beitrag gepackt … das ist ja schon was :)

Posted by Tentacel on 2023-12-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (iii): Zitierungen und Links pro Seite

Hier zeigte ich das erste Mal einen doppellogarithmischen Plot. Dabei untersuchte ich, wieviele Zitierungen eine Seite erhalten hat und erstellte davon ein Histogramm. Zu meiner (damaligen) Ueberraschung folgte das einem maechtigen Gesetz. Im linken Diagramm in diesem Bild …

… ist in grau nochmals das vormalige Resultat wiedergegeben und die gestrichelte lila Linie deutet besagtes maechtiges Gesetz an. Wie beim vorletzten Mal erwaehnt, kann die Information im „Schwanz“ nicht benutzt werden. Deswegen integrierte ich die Daten (bzw. addierte diese, woraus die Benutzung des Wortes kumulativ folgt). Bei normalen Grenzen fuer das Integral (also von x bis x_max, bzw. Anzahl Zitierungen von Interesse bis zur maximalen Anzahl Zitierungen) sind das die roten Datenpunkte.
Hier passiert nun eine Sache, die im Folgenden vermutlich øfter auftreten wird: das sieht zwar immer noch halbwegs linear aus (die blaue Linie), aber wenn man genauer hinschaut ist das doch ein bisschen gekruemmt. Das folgt also nicht komplett einem maechtigen Gesetz, aber in diesem Fall ist die Abweichung vllt. klein genug, sodass diese mglw. (stueckweise) parametrisiert werden kønnten und die allgemeine Aussage erhalten bleibt.

Ich hab beide Linien nur mit dem Auge reingelegt weil ich keine Lust mehr auf genaue Analysen habe.
Fuer die Rohdaten erhalte ich einen Anstieg von ungefaehr -2. Nach der Mathematik muesste ich dann fuer die integrierten Daten einen Anstieg von -1 erhalten. Ich „messe“ ca. -5/4. Das passt also nicht ganz genau, aber ich wuerde das als gut genug gelten lassen. Gut ist, dass der (fast) lineare Zusammenhang fuer die roten Punkte auf der Abzsisse (fast) zwei Grøszenordnungen laenger gilt.
Mit obiger Aussage bzgl. der Parametrisierung behaupte ich, dass der Prozess der „Integralisierung“ hier erfolgreich (genug) ist, auch wenn nicht alles bis auf’s letzte i-Tuepfelchen genau passt.

Ganz kurz zu den Punkten in oliv: bei denen hatte ich die Integralgrenzen „invertiert“ (also von 1 bis x). Beim letzten Mal hatte ich das nur fuer das Beispiel mit dem positiven Exponenten gezeigt. Hier fuert die „Invertierung“ der Integralgrenzen zu aehnlichen „Phaenomenen“ wie ebenda besprochen wurden. Deswegen gehe ich da nicht nochmal im Detail drauf ein; ich wollte das aber mal gezeigt haben.

Damit kann ich zum rechten Diagramm uebergehen. Die Rohdaten sind das Histogramm bzgl. der Links pro Seite und das zeigte ich hier zum ersten Mal. Ich empfehle das damalige Bild nochmals anzuschauen, denn dort benutzte ich noch ein Balkendiagramm anstatt Punkte und mit Ersterem sieht die (von Hand hereingelegte) Linie (hier nochmal reproduziert in Form der gestrichelten, lila Linie) durchaus vernuenftig aus … weil zwischen 100 und 1000 kleinere Balken im „Balkenwald“ einfach nicht sichtbar sind. Deswegen habe ich das hier Punkte benutzt und dann sieht die Linie nicht mehr ganz so vernuenftig aus.
Und tatsaechlich, wenn man zum Integral uebergeht (wieder die roten Daten), dann sieht man da doch schon eine deutliche Kruemmung. Das ist also nicht wie im linken Diagramm, wo eine gewisse „Linearitaet“ durchaus angenommen werden kønnte.

Die blaue gestrichelte Linie ist die lila Linie nur parallel nach oben verschoben. Wenn ich das so mache, kønnte ich unter Umstaenden (wieder) fuer eine (stueckweise) parametrisierte Linearitat argumentieren … beim ersten draufschauen haut das durchaus hin. … Die Mathematik stimmt dann also nicht mehr.

Das ist also eher ein „vermutlich-nicht-linear-oder-ganz-vielleicht-mit-Augen-zudruecken-stueckweise-parametrisiert-linear-aber-wenn-dann-anders-als-ein-einfacher-log-log-Plot-vermuten-lassen-wuerde“-Fall.
Das fetzt natuerlich auch, denn auch wenn das meine damalige Aussage stark veraendert, vermutlich sogar negiert, so kommt man mittels „Integralisierung“ den wahren Gegebenheiten damit doch naeher.

Das soll genug sein fuer heute. Ist ja schøn, dass gleich die ersten zwei Faelle zwischen die zwei „Kategorien“ (Bestaetigung und Falsifizierung vorherger Ergebnisse) fallen. Das erste Diagramm ist naeher an der Bestaetigung, das zweite naeher an der Falsifizierung … aber ganz so einfach ist’s natuerlich nie … was das Ganze ja ueberhaupt erst interessant macht, nicht wahr :) .

Ich bin gespannt, was das naechste Mal bringt.

Posted by Tentacel on 2023-12-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (ii): zwei einfache Beispiele

Ich versprach beim letzten Mal Freude und die kann man anhand dieses Diagramms erfahren:

Und wie so oft sage ich hier zunaechst mein beruehmtes: aber der Reihe nach … tihihi.

Die grauen, als „Rohdaten“ beschriftete, Punkte sind das Resultat einer Simulation. Bei dieser unterlag die Wahrscheinlichkeit einen gegebenen, ganzzahligen (!) „Messwert“ im Intervall [1, 10k] zu erhalten einem simplen Potenzgesetz mit einem Exponent von -2.23 und keinen Vorfaktoren oder anderweitigen Konstanten.
Ich machte 100-tausend „Messungen“ und zaehlte wie oft jeder Messwert auftrat. Hier ist also in den grauen Punkten (mal wieder) ein Histogramm zu sehen und das verhaelt sich wie erwartet; eine Gerade im log-log-Plot … zumindest bis zu Messwerten von ca. 100 (ganz konkret geschah der „Schnitt“ bei 130). Auch erwartet ist der „Schwanz“ bei Messwerten ueber 100 hinaus. Mit bspw. 1000^-2.23 = 2 x 10^-7 ist die Wahrscheinlichkeit zwar sehr klein aber eben nicht null und bei 100k Messungen ist das nicht unplausibel den Wert 1000 ein Mal zu messen. Das ist also ECHT! Das sind KEINE Ausreiszer!

Die hohen Messwerte muss ich aber „abschneiden“, um mittels linearer Regression (lila, nicht durchgehende Kurve) den Anstieg der Geraden zu -2.2028 ermitteln zu kønnen. Das ist gar nicht mal so schlecht, bedeutete aber in diesem konkreten Fall, dass ich 133 Messwerte ignorieren muste … schade eigentlich, nicht wahr.

Aber keine Sorge, Rettung naht in Form der blauen Punkte welche so berechnet wurden:

Weil es sich hierbei um diskrete Werte handelt kann das Integral als eine einfache Summe berechnet werden. Ich werde das aber weiterhin als Integral bezeichnen (und betrachten).
Die Grenzen des Integrals sind so zu verstehen, dass der Wert desselbigen bei einem gegebenen Messwert x die Summe ueber ALLE f(x) von dem gegebenen Messwert bis zum maximalen Messwert ist.

Das kann man auch anders ausdruecken, indem man f(x) derart normiert, dass die Flaeche unter der Kurve 1 wird (der Anstieg aendert sich dadurch ja nicht). Dann kann f(x) direkt als die Wahrscheinlichkeit angesehen werden x zu messen. Das ist leicht zu verstehen, insb. wenn man in Betracht zieht was (wie oben beschrieben) bei der Simulation passiert, wenn eine „Messung“ gemacht wurde.
Bei dieser „Wahrscheinlichkeitsinterpretation“ entspricht ein Integralwert zu einem gegebenen x der Wahrscheinlichkeit, dass eine Messung einen Wert produzieren wird der grøszer oder gleich x ist.
Diese Interpretation ist in vielen Situationen sehr hilfreich weswegen ich die hier erwaehne. Wirklich sinnvoll ist die aber nur fuer negative Exponenten (kleiner als -1).
Fuer positive Exponenten kommt man mit einer solchen Interpretation ganz schøn in die Bredouille; auch wenn die Mathematik natuerlich erhalten bleibt. Was der Grund ist, warum ich diese Interpretation eher vermeide und solche Normierungen im Weiteren nicht vornehme.

Zurueck zum Diagramm; man sieht leicht, dass ich bei den blauen Punkten auch Werte ueber 130 benutzen kann um den Anstieg selbiger zu ermitteln. Dieser betraegt -1.2486 und da es sich hierbei um das Integral handelt muss man dran denken, dass dieser um eins erniedrigt werden muss um den Exponenten zu erhalten.
Der Unterschied zum wahren (hier NICHT in Anfuehrungszeichen, da ich den exakten Exponenten fuer die Simulationen kenne) Wert betraegt fuer die „Rohdaten“ 0.0272 und fuer das Integral nur 0.0186. Letzteres ist also ca. 50% genauer. Der Unterschied hier ist aber nicht so wichtig (kann in anderen Zusammenhaengen aber wichtig werden.

Das Integral hat zwei (!) viel wichtigere Konsequenzen die weit ueber den kleineren Unterschied hinaus gehen. Zum Ersten muss ich KEINE (oder in anderen Zusammenhaengen weniger) Messwerte ausschlieszen UND zum Anderen ist der lineare Zusammenhang (hier auf der Abszisse) ueber zwei weitere Grøszenordnungen zu erkennen.
Ersteres ist selbsterklaerend und Letzteres ist krass urst gut, denn dadurch werden Ergebnisse robuster (und man kann denen dadurch noch mehr vertrauen).

In einer zweiten Simulation aenderte ich das Vorzeichen (aber nicht den Wert) des Exponenten; grosze Messwerte sind damit viel wahrscheinlicher als kleine Messwerte und das spiegelt sich in den grauen Punkten (linke Abszisse) in diesem Diagramm wider:

Der grøszte Unterschied zum ersten Diagramm ist, dass es keinen „Schwanz“ (der in diesem Fall zu kleineren Werten gehen muesste) gibt. Demnach kann ich auch keine Messwerte „ignorieren“ bei der linearen Regression (lila, nicht durchgehende Kurve) und selbige fuehrt zu einem Anstieg von +1.8832 … was ganz schøn schlecht ist.

Wenn man nun das Integral mit den Grenzen wie oben bildet, erhaelt man die schwarze Kurve (rechte Abszisse). Da passiert erstmal gar nichts und dann ganz pløtzlich passiert was sehr schnell. Das wird verstaendlich, wenn man (ausnahmsweise) die „Wahrscheinlichkeitsinterpretation“ her nimmt. Bei derartigen Grenzen besagte diese, dass der Integralwert zu einem gegebenen Messwert angibt, wie grosz die Wahrscheinlichkeit ist, diesen oder einen høheren Messwert zu erhalten. Weil hohe Messwerte sehr viel wahrscheinlicher sind als kleine Messwerte aendert sich der Integralwert zunaechst nicht stark und dann pløtzlich urst dolle.
Die schwarzen Punkte bilden sicherlich keine Gerade und diese „komische Sache“ fuehrte bei mir zu gehørigem Kopfzerbrechen … worauf ich ja aber im nicht Detail eingehen wollte. Ich sage nur so viel: die Mathematik ist hier nicht „kaputt“. Das ist nur eine der Sachen bei der kontinuierliche Mathematik die von minus Unendlich bis plus Unendlich reicht mit echten diskreten Messwerten „kollidiert“, die nicht mal bis Null (wichtig!) und sicher nicht bis Unendlich reichen. Man kann das fixen und dann wird das wieder schøn gerade, auch bei diesen Grenzen … das war zwar interessant auszuknobeln, aber wie gesagt, das soll hier nicht das Thema sein.

Anstatt das kompliziert zu machen gebe ich die viel einfachere Løsung (welche man in den blauen Punkten (auch rechte Abszisse) sieht) direkt an — „invertierte“ Integralgrenzen:

In der „Wahrscheinlichkeitsinterpretation“ wuerde das der Aussage entsprechen, dass der Integralwert zu einem gegebenen x angibt, einen Messwert _kleiner_ oder gleich x zu erhalten … aber wie erwaehnt, kann man die „Rohdaten“ bei positiven Exponenten NICHT mehr streng als Wahrscheinlichkeiten interpretieren (auszer in ganz konkreten Beispielen mit endlichen Messungen). Ich fand das nur so anschaulich, weswegen ich das erwaehne … aber das „vergesst“ ihr, meine lieben Leserinnen und Leser, ganz schnell wieder und merkt euch nur die schnelle Løsung um auch bei positiven Exponenten Geraden in log-log-Plots von Integralen zu erhalten.
Zum Glueck tritt dieser Fall zumindest bei der Analyse des Wikipedianetzwerkes nicht so haeufig auf.

Wieauchimmer, die lineare Regression des Integrals fuehrt zu einem Anstieg der blauen Punkte von +3.2282, was auch um eins reduziert werden muss und dann sehr nah am wahren Wert ist … das ist mal echt urst cool, wa!

Genug fuer heute. Beim naechsten Mal fange ich an, nochmal durch (fast) alle doppellogarithmischen Diagramme durch zu gehen. Das werden also ein paar Artikel. ABER ich schaue mir das nicht nochmal im Detail an; das werden also Artikel mit Bildern und (meist) nicht ganz so viel Text wie hier … mit der Ausnahme, wenn es was Neues oder Interessantes zu sehen gibt.

Posted by Tentacel on 2023-11-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LX – log-log-Plots ueber Integrale (i): ein bisschen Mathe

Heute geht’s mal schnell, denn ich mache nur die mathematische Einfuehrung zu dem was in den kommenden Artikeln kommt.

Hier begruendete ich, warum ich so gerne doppellogarithmische Plots zeige. Kurz zusammengefasst ist das so eine tolle Darstellungsweise, weil ich bei einem funktionalen Zusammenhang welcher einem Potenzgesetz …

… folgt, dann eine lineare Funktion …

… erhalte und der Anstieg der linearen Funktion in doppellogarithmisher Darstellung entspricht dem Exponenten in normaler Darstellung.
Das ist schon fetzig … aber beinhaltet oft auch einen subjektiven Faktor. Man muss naemlich schauen, welche im „Schwanz rumzappelnden“ Datenpunkte ignoriert werden muessen, damit die Gerade schøn passt; siehe bspw. hier, hier oder hier.

Nun beinhaltet der Schwanz aber mglw. noch Information. Ich brauchte viele Stunden mit Nachdenken, Probieren und Neuanalysiern bevor ich das Folgende wenigstens halbwegs verstanden hatte. Darauf gehe ich aber nicht naeher ein und sage kurz und knapp, dass man an besagte Information ran kommen kann, wenn man die Funktionswerte integriert.

Unter der Annahme, dass eine Grøsze sich nach einem maechtigen Gesetz verhaelt, ist das anhand eines Beispiels schnell erklaert. Mathematisch ist das sowieso ganz einfach, denn das Integral eines Potenzgesetzes …

… ist immer noch ein Potenzgesetz, nur mit einem um eins erhøhten Exponenten (und einem leicht veraenderten Vorfaktor, der interessiert hier aber nicht weiter und ich lasse den im Folgenden weg). Jaja, das ist ein unbestimmtes Integral und ich habe die Konstante weggelassen … das wird aber letztlich unten ein bestimmtes Integral, die Grenzen muessen aber diskutiert werden, und es geht doch sowieso nur um den Exponenten.

Obige Aequivalenz gilt natuerlich weiterhin …

… und das ist mal urst geil, denn unser Exponent A ist auch beim Integral der Funktionswerte unveraendert der Anstieg im log-log-Plot nur eben um eins erhøht … das absolute Glied ist anders, aber das interessiert uns meist eh nicht weiter.

Die Mathematik ist schøn (im aesthetischen Sinne) simpel und war nicht der Grund warum ich so lange brauchte das halbwegs zu verstehen. Vielmehr lag es daran, weil die Resultate aus der Anwendung besagter Mathematik auf meine bisherigen Ergebnisse nochmal interpretiert und verstanden werden mussten; Letzteres galt insb. fuer „komische“ Sachen … aber wie gesagt, darauf wollte ich nicht weiter eingehen … das passt hier nicht rein.

Warum mich das alles nun so sehr begeistert wird beim naechsten Mal ersichtlicher … *froi*.

Posted by Tentacel on 2023-11-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LIX – Kleinteilige Erklaerungen zum Abschied

Beim letzten Mal zeigte ich dasVerhaeltnis der totalen Links zur Linkfrequenz (per Linklevel) und …

[e]inzig von Interesse ist, dass das Maxium […] [dieses Verhaeltnisses] bei LL₄ liegt, waehrend die [Verhaeltnisse der totalen Links zu den neuen Links bzw. den Selbstreferenzen] den grøszten Wert erst bei LL₅ erreichen […]

Zur Erklaerung erinnere ich an die Entwicklung der totalen Links in Abhaengigkeit vom Linklevel. Das Maximum der Verteilung liegt bei LL₄. Der Unterschied zum Wert bei LL₅ ist aber eher klein (was wichtig ist).
In diesem Diagramm …

… sieht man nun, wie sich die drei anderen Grøszen von Interesse in Abhaengigkeit von den totalen Links entwickeln. Ich gebe zu, es ist etwas unuebersichtlich, ich gehe da aber Schritt fuer Schritt durch.

Das Folgende ist zu beachten (davon abgesehen, dass die Linien wieder nur der Visualisierung dienen, zwischen den Punkten gibt es keine Werte):
– Da die Anzahl der Selbstreferenzen (blau) so klein ist, brauchen die ihre eigene Ordinate (rechts) und die Zahlen der beiden Ordinaten unterscheiden sich um (ueber) 6 Grøszenordnungen!
– Die Zahlen zur Anzahl der totalen Links auf der Abzsisse sind nochmal (mehr als) einen Faktor 10 grøszer als die der Linkfrequenz (rot).
– Die Kurve der neuen Links (schwarz) und der Selbstreferenzen „geht“ im Uhrzeigersinn, die der Linkfrequenz hingegen im mathematisch positiven Drehsinn.

Im Allgemeinen gilt, dass die Anzahl der totalen Links immer grøszer ist als die der anderen drei Grøszen und fuer Letztere gilt, dass deren Zahlen „nach oben“ gehen wenn ich mehr totale Links habe und nach unten wenn derer weniger werden. Fuer alle Grøszen gelten aber unterschiedliche Limitierungen und deren „Dynamik“ von einem Linklevel zum naechsten ist unterschiedlich … hier wird’s jetzt kleinteilig

Die Selbstreferenzen sind am einfachsten zu erklaeren. Die Chance eine Selbstreferenz zu erhalten ist umso grøszer je naeher man am „Ursprung“ (also bei kleinen Linkleveln) ist. Deswegen macht die blaue Kurve als Einzige auch gleich auf LL₁ einen solchen „Satz nach oben“. Die blaue Kurve steigt im Wesentlichen nur deswegen nach LL₁ noch weiter an, weil dann (zunaechst) immer urst krass mehr totale Links zur Verfuegung stehen und davon eben auch welche Selbstreferenzen sind. Aber nach LL₃ ist damit Schluss, die Chance eine Selbstreferenz zu erhalten ist zu klein und trotz weiter wachsender totaler Links nimmt der Wert der Selbstreferenzen nach LL₃ ab. Weil die totalen Links bis LL₄ weiter wachsen, nimmt auch das Verhaeltniss weiter zu.
Dass Selbiges aber auch noch zu LL₅ waechst, trotz abnehmender totaler Links, liegt daran, weil die Selbstreferenzen schneller weniger werden. Die Anzahl Letzterer reduziert sich in diesem Schritt auf nur ca. 1/3 (von ca. 29M auf ca. 9M) waehrend die Anzahl der totalen Links nur auf etwas mehr als 4/5 reduziert wird (von ca. 390T auf ca. 330T).
Nach dem Maximum geht die Kurve aber wieder runter, weil sich der eben erwaehnte Umstand umkehrt; die totalen Links nehmen schneller ab als die Anzahl der Selbstreferenzen. Ich gebe zu, das sieht man nur bedingt im Grafen.
Sobald das Linknetzwerk sicher im Bereich der Zitierketten ist pegelt sich alles ein und beide Grøszen vermindern sich gleich schnell (wenn auch mit unterschiedlichen absoluten Werten), woraus die (mehr oder weniger) gerade Linie bei høheren und hohen Linkleveln folgt.

Bei den neuen Links liegt im Wesentlichen die gleiche Situation vor. Bis LL₄ nimmt deren Anzahl zu, vor allem weil es einfach immer mehr totale Links gibt und davon sind halt etliche auch neu. Wenn man die Zahlen bis LL₄ aufsummiert und durch die Anzahl alle Seiten teilt sieht man, dass jede Ursprungsseite bis dorthin (im Durchschnitt) bereits ueber 4 Millionen neue Links gesehen hat. Von LL₄ zu LL₅ liegt die gleiche Situation wie bei den Selbstreferenzen vor (aber aus anderen Gruenden). Eine Ursprungsseite sieht zwar immer noch viele totale Links (deren Anzahl nimmt nur geringfuegig ab) aber bis LL₄ sind bereits 2/3 aller møglichen Links gesehen worden, es sind also nicht mehr viele ueber die als „neu“ gelten kønnen. Deswegen geht das Verhaeltniss der beiden Grøszen weiter nach oben; wie bei den Selbstreferenzen, so nehmen auch die neuen Links auf LL₅ schneller ab als die totalen Links.
Dann werden diese beiden Grøszen bis ca. LL₁₀ „im Gleichschritt“ weniger woraus das „Plateau“ folgt (und was man im Grafen wieder nur bedingt sehen kann). Der „Absacker“ im Verhaeltniss bei ungefaehr LL₁₀ liegt darin, weil dort das Ensemble aller Wikipediaseiten (relativ schnell) zu groszen Teilen in die Zitierketten uebergegangen ist. Und da gibt es dann nur noch ein paar weniger neue Links und deren Anzahl im Verhaeltniss zu den totalen Links ist immer gleich, weil im Durchschnitt alle Seiten gleich viele totale Links (ca. 10 bis 30) haben und in einer Zitierkette im Durchschnitt immer nur ein neuer Link zu sehen ist.

Auf zur Linkfrequenz und dafuer muss man sich (wieder mal) erinnern, wie diese zustande kommt … das kann man hier nachlesen und ich baue darauf auf … in kurz ist die Linkfrequenz die „gedeckelte“ Anzahl der totalen Links … aber der Reihe nach.
Auf LL₄ gibt es in der Summe fast 400 Billiarden totale Links. Bei ca. 6 Millionen Ursprungsseiten bedeutet dies, dass jede Ursprungsseite auf LL₄ die Links zu ca. 65 Millionen Wikipediaseiten sieht. Von Ausnahmen (die bei diesen Zahlen aber nicht so schwerwiegend sind, dass sie die hier getaetigten Aussagen ungueltig machen wuerden) abgesehen, bedeutet das im Wesentlichen, dass jede Ursprungsseite auf LL₄ jede (!) andere Seite 10 Mal sieht. Fuer die Linkfrequenz wird die dann nur ein mal gezaehlt (deswegen gedeckelt). Der wirkliche Wert der (Summe der) Linkfrequenz (aller Seiten, per Linklevel) auf LL₄ liegt bei ca. 24 Billiarden was nahe genug dran ist an der eben durchgefuehrten Ueberschlagsrechnung (nicht mal ein Faktor 2 Unterschied … gut wa!).
Oder anders: wenn hinreichend viele totale Links vorhanden sind, ist der Linkfrequenzzaehler fuer alle Seiten maximal, weil sie eben von jeder Ursprungsseite aus kommend „gesehen“ werden.

Das ist der wesentliche Unterschied zu den Selbstreferenzen und den neuen Links. Wie oben gesagt ist die Anzahl der Ersteren von den totalen Links abhaengig, besagte Anzahl wird aber dadurch (massiv) eingeschraenkt, weil die Wahrscheinlichkeit fuer eine Selbstreferenz mit zunehmendem Linklevel rapide (!) abnimmt. Der erste Teil dieser Aussage gilt auch fuer neue Links, deren Anzahl wird aber deswegen eingeschraenkt, weil jeder ein Mal gesehene Link beim zweiten Mal nicht mehr neu ist und deswegen nicht mehr gezaehlt wird.

Fuer die Linkfrequenz gilt keine dieser Einschraenkungen. Und deshalb bleibt deren Zaehler auf LL₅ grosz, bei gleichzeitiger (hinreichend kleiner) Abhnahme der Anzahl der totalen Links, was zu einem kleineren Verhaeltnis dieser beiden Grøszen fuehrt, anstatt zu einem weiter ansteigenden.
Danach geht’s dann ganz fix in die „Zitierkettenphase“ mit dem Umstand, dass in den Zitierketten im Wesentlichen die totalen Links (fast) der Linkfrequenz entsprechen.

Zum Abschluss dazu sei gesagt, dass das alles bekannt ist. Hier kommen aber einige der vorhergehenden Erkentnisse zusammen und alle werden gebraucht um so eine kleine Diskrepanz eines um ein Linklevel verschobenen Maximums zu verstehen.

Schade, dass es so ein antiklimaktischer Ausstieg aus der Analyse der Daten zum Wikipedialinknetzwerk ist. Aber so ist das nun mal in der Wissenschaft. Das Allermeiste ist kleinteilig, muss genau betrachtet werden und ist fuer Auszenstehende oft eher langweilig … siehe auch hier und hier. Und so war es ja eigentlich schon auf der ganzen „Reise“ … viel „Routine“, gesprinkelt mit ein paar coolen Entdeckungen.

Das ist aber noch nicht ganz das Ende von Kevin Bacon. Ich møchte noch eine Sache ansprechen und eine Zusammenfassung schreiben … und vielleicht auch noch ein bisschen Meta diskutieren, aber da bin ich mir gerade noch nicht so sicher.

Posted by Tentacel on 2023-11-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – LVIII – Nur eine Sache noch nicht gezeigt …

… und das ist das Verhaeltnis der totalen Links zur Linkfrequenz per Linklevel.
Zur Erinnerung: bei den neuen Links kam ich zu dem Schluss, dass besagtes Verhaeltnis im Wesentlichen konstant ist (auch wenn man da drei „Stufen“ ausmachen kann).
Bei den Selbstreferenzen war ich ueberrascht, dass das auch einen konstanten Wert annimmt. Durch die Entdeckung der „Zitierketten“, dass aus diesen heraus populaere Seiten zitiert werden und dass die Anzahl der totalen Links im Durchschnitt sehr aehnlich ist fuer Kettenseiten, ist das Ueberraschende als aufgeklaert anzusehen. Bezugnehmend auf die erwaehnten „Stufen“ bei den neuen Links, spekuliere ich bzgl. der Selbstreferenzen, ob es zwischen LL₉ und LL₂₂ mglw. einen Mechanismus gibt (welchen ich mittels des Analogons einer „Strømung“ versuche zu veranschaulichen), der fuer die Form der Kurve verantwortlich ist. Ich denke, dass ich da meiner eigenen Mustererkennung auf den Leim gegangen bin. Das Einzige was da sein kønnte ist wieder im Zusammenhang der Zitierketten zu sehen, denn in dem Bereich geht die Menge dieser viel schneller nach unten als nach LL₂₂. Aber das ist kein extra Mechanismus sondern nur dem Umstand geschuldet, dass es deutlich mehr kurze als (sehr) lange Zitierketten gibt. Damit sind die zwei Sachen auch geklaert und die „Stufen“ sind nicht als eigenstaendiges Phaenomen sondern nur als Schwankungen der „Messwerte“ anzusehen.

Diese beiden bereits behandelten Verhaeltnisse sind in diesem Diagramm nochmals zum Vergleich in blassschwarz und blassblau eingetragen, zusammen mit dem was ich oben „verspreche“ (on kraeftigem rot):

Das ist eigentlich vøllig langweilig. Wie nach vorherigen Untersuchungen zu erwarten war, geht die Kurve sehr schnell dem Grenzwert 1 entgegen. Von allen Verhaeltnisses ist bei der die Linkfrequenz im Nenner steht am kleinsten. Auch dies kann wieder durch dadurch erklaert werden, dass die Linkfrequenz im wesentlichen die „gedeckelte“ Anzahl der totalen Links ist, ein Umstand auf den ich bei den erwaehnten vorherigen Untersuchungen genauer eingegangen bin. Dies fuehrt dazu, dass der Wert des Nenners fuer diesen Fall, „naeher“ an den Wert des Zaehlers kommt.
Ach ja, die „Multiplikationswerte“ im Diagramm bedeuten, dass man fuer die gegebene Kurve den an der Ordinate abgelesenen Wert damit multiplizieren muss, um auf den wirklichen Wert fuer das jeweilige Verhaeltnis zu erhalten.

Einzig von Interesse ist, dass das Maxium der roten Kurve bei LL₄ liegt, waehrend die anderen beiden Kurven den grøszten Wert erst bei LL₅ erreichen (das Gezappel des Verhaeltnisses der neuen Links um den Wert 15 (x5) interpretiere ich als „Plateau das den Høchstwert annimmt“). Die Erklaerung dafuer ist einleuchtend und folgt aus der schrittweisen Entwicklung der Grøszen innerhalb des (gesamten) Linknetzwerkes.

Die Erklaerung ist leider eher weniger spannend und sehr kleinteilig. Aber das ist ja nix Neues und trifft auf etliche Beitraege in dieser Maxiserie zu.
Weil hier viele Erkentnisse zusammen kommen und gleichzeitig bedacht werden muessen, mache ich mich da deswegen beim naechsten Mal trotzdem dran.

Posted by Tentacel on 2023-11-07 at 13:37 under Kevin Bacon.
Comment on this post.