Via „Spaetzuender“ (auch als „grobe Abweichler“ bezeichnet) bin ich damals auf die Idee gekommen, mir mal anzuschauen auf welchen Linkleveln eigentlich die meisten Seiten das Maximum in der Kurve einer gegebenen Grøsze von Interesse haben.
Fuer die Anzahl der totalen Links ist das hier reproduziert:
Wie erwartet gibt es zwischen den 2020-Daten und den 2023-Daten keine wesentlichen Unterschiede; insb. veraendern sich die Grøszenverhaeltnisse der Balken von Linklevel zu Linklevel nicht. Das ist also als reproduziert anzusehen.
Die blauen Balken bei LL1 und LL9 sehen zwar deutlich grøszer / kleiner aus, aber man beachte die logarithmische Ordinate. Da sind im ersten Fall also nicht mal 10 Seiten dazu bzw. im zweiten Fall deutlich weniger als 10 Seiten „abhanden“ gekommen … die viel kleinere Erhøhung bei LL4 entspricht fast einer Million Seiten. Logarithmische Achsen sind schon was Feines, nicht wahr! Die halten irrelevante Information von einem weg … man muss aber auch aufpassen, dass andere irrelevante Information nicht ueberinterpretiert wird.
Ansonsten gibt es nur eine Sache zu sagen und das ist ein wichtiger Unterschied im Vergleich zum damaligen Diagramm. Dort war naemlich der Balken bei LL0 zu hoch und es stellte sich dann heraus, dass es ueber 5-tausend Seiten OHNE Links gibt die da drin mitgezaehlt wurden … und nur ca. 100 Seiten mit einem echten Maximum der totalen Links auf LL0. Erstere haben eine flache totale-Links-per-Linklevel Verteilung; ohne Links als Ausgangspunkt kommt man nicht auf andere Seiten mit mehr Links … es startet also alles bei Null und bleibt auch dabei. Das wurde von meinem Algorithmus faelschlicherweise als „Maximum“ auf LL0 interpretiert.
Wieauchimmer, solche Seiten werden jetzt richtig erkannt und auf die „flach“-Position auf der Abzsisse gesondert dargestellt … und das gilt fuer alle Diagramme in diesem Beitrag.
Nun zu den neuen Links. Die Verteilung der Maximaspositionen der entsprechenden Kurven hatte ich damals der gleichgearteten Verteilung der totalen Links gegenuebergestellt. Das wiederhole ich heute nicht, denn es ist nur von Interesse ob Erstere reproduziert werden. … Und ich wuerde mal sagen …
… das man das so sehen kann. Ich muss das nicht weiter besprechen, denn ich wuerde nur das weiter oben Geschriebene wiederholen. Heraus sticht nur die eine (!) neue Seite mit dem Maximum auf LL1; aber auch das wurde oben schon behandelt.
Nun zu den Selbstreferenzen. Damals wurde ich stutzig, denn der LL0-Balken war zu hoch. Nur durch diesen einen Balken entdeckte ich dann die Archipele! Aber das dauert noch ein bisschen, bevor ich dort angelangt bin.
Hier ist die Reproduktion (sagt man das so?) der Verteilung der Maximaspositionen der Selbstreferenzkurven aller Seiten:
Uff! Der Balkenwald wird dichter. Aber wenn man genau hinschaut, dann sieht man, dass die roten und blauen Balken auch hier wieder im Wesentlichen uebereinstimmen. Mit møglicherweise (!) einer kleinen, møglicherweise (!) systematischen, Abweichung zwischen LL8 und … mhm … schwer zu sagen … ich sag jetzt mal LL19. Bis auf einen Balken sind dort naemlich alle blauen Balken kleiner, es gibt also kein „rauschendes Auf und Ab“ … das kønnte was sein, das lohnt sich also mglw. mal naeher zu untersuchen (ich werde das aber nicht tun) … ich wuerde aber erstmal nicht unbedingt ’ne Wette drauf abschlieszen, dass da wirklich ein echtes Phaenomen hinter ist. „Statistik“ macht manchmal komische Sachen (ich erinnere an dieser Stelle an die wohlbekannte, 5σ sichere, „Entdeckung“ des Θ+-Pentaquarks in den Nullerjahren, die sich dann als falsch herausstellte).
Alles in allem gilt auch hier: Reproduktion (wenn man das so sagt) gelungen.
Als Letztes bleibt die Verteilung der Maxima der Linkfrequenzkurven. Damals war es die erste konkrete Bestaetigung, dass da irgendwie mehr am „São Paulo FC“-Artefakt sein muss (und es war, aber so weit bin ich auch hier noch laengst nicht). Die Reproduktion (ich sag das jetzt einfach so) …
… ist wieder als erfolgreich anzusehen … auch wenn dabei der Balkenwald zu dicht wurde um noch was zu erkennen, weswegen ich (wie so oft) auf ein Streudiagramm fuer das Histogramm zurueckgriff.
Im Wesentlichen hat man das gleiche Resultat wie bei allen anderen Verteilungen: die 2023-Daten reproduzieren die 2020-Daten. Es gibt møglicherweise (!) eine kleine, møglicherweise (!) systematische, Abweichung kurz nach LL40. Die 2020-Daten „beulen“ sich da etwas aus. Aber insgesamt sprechen wir von nur sehr wenigen beteiligten Seiten und ich wuerde hier noch weniger drauf wetten, dass da was ist. Das sollte mal wer untersuchen … lohnt sich mglw.
Puuuh … das war jetzt ’n ganz schøner Ritt. Aber ich habe viel geschafft.
Nun ist’s aber so, dass auch in diesem Fall die Auswerteprogramme neu von mir geschrieben und generalisiert wurden. Deswegen faellt jetzt bei der Analyse eine weitere Sache an, die mir bei den damaligen Betrachtungen ueberhaupt nicht in den Sinn kam: wenn ich die Position des Maximums kenne, dann kenne ich auch den WERT des Maximums und da kann man sich die Verteilungen doch auch mal anschauen. DAS, meine lieben Leserinnen und Leser, verschiebe ich aber auf’s naechste Mal.
Ich lasse das mal gelten, denn um das (westliche) Schwarzeis anlecken zu kønnen, muss ich ja auch davor stehen:
Ist nun auch schon wieder etwas laenger her (die Zeit rast!). Und eigtl. ist das auch nicht der Geschmack der eigentlichen Gletscherzunge die ich mit meiner eigenen Zunge teste, sondern nur ein dicker Brocken, der kurz bevor ich kam vom groszen Ganzen abgefallen ist … ich stuetze mich also wieder mal auf die Transitivitaet.
Beim letzten Mal gruebelte ich noch, hatte mich dann aber relativ schnell entschieden, doch zunaechst die Reproduzierung(en) der noch ausstehenden Linklevelverteilungen, der anderen drei untersuchten Grøszen von Interesse, vorzunehmen.
Im Nachhinein sehe ich, dass ich das thematisch alles schon in diesen Beitrag haette packen sollen. Hab ich nicht gemacht und deswegen hole ich das jetzt alles auf einmal nach. Andererseits lag in meinen urspruenglichen Betrachtungen eine Art „Fluss“, und Ausgangspunkt waren oft eben diese Linklevelverteilungen. Den „Fluss“ dessen was aus den den (totalen) Links pro Linklevel folgte støre ich mit dem Beitrag hier. Und wenn ich die Reproduzierung von Folgesachen der anderen drei Grøsze angehe, dann hat der „Fluss“ keinen natuerlichen Ausgangspunkt sondern ich muss immer hierauf verweisen … aber ich schweife ab, denn wie die Existenz dieses Artikels zeigt, ist die „Flusssache“ anscheinend dem „Themapunkt“ untergeordent.
Es geht gleich los mit der (Summe der) neuen Links pro Linklevel:
Damals hatte ich die schnell abgehandelt, als ich die (Summe der) totalen Links pro Linklevel abschloss. Es gab bei dieser Verteilung naemlich nicht viel zu holen. Und auch bzgl. der Reproduzierung gibt’s nix Neues zu sagen (Wortspielkasse! … wegen „nix Neues bei neuen Links“ … tihihihi … falls das unklar sein sollte) was nicht schon bzgl. der totalen Links gesagt wurde.
Deswegen geht es sogleich weiter mit den Selbstzitaten pro Linklevel:
Hier ist der damalige Beitrag dazu und es gibt i.A. (nocheinmal) nicht viel zu sagen, was im Wesentlichen nicht bereits frueher gesagt wurde. Zwei Sache stechen aber hervor, wenn man genauer hinschaut und mal drueber nachdenkt.
Waehrend die Kurven (im Wesentlichen!) uebereinander liegen, es sich also nicht viel aenderte, so gibt es auf Linklevel 0 tausend Mal mehr Selbstzitate. DAS ist signifikant und sollte untersucht werden … aber nicht von mir.
Auszerdem scheint mir der „Einbruch“ roten Kurve bei Linkleveln grøszer als ungefaehr 20 systematisch zu sein. Das kønnte taeuschen, ich denke aber, dass das eine genauere Untersuchungen wert ist … ihr, meine lieben Leserinnen und Leser ahnt es bestimmt schon (und seid sicherlich ein bisschen traurig deswegen): diese naehere Untersuchung werde ich auch nicht mehr vornehmen.
Ich hatte mich damals dann in einem Muster „verlaufen“, was gar nicht da war (sozusagen eine Fata Morgana). Ich kann mich nicht erinnern, dass ich das jemals wieder aufgegriffen haette. Zum Glueck hatte ich auch geschrieben:
[…] sollte ich nix weiter in diese Richtung finden, dann erwaehne ich das still und heimlich einfach nicht mehr.
Folgt mir! Liegt mir zu Fueszen! Benennt eure Kinder nach mir, denn ich bin ein Prophet! … … … oh … ich schwoff ab und wollte eigtl. sagen, dass das damit auch „reproduziert“ ist, denn es gibt hier eigtl. nix zu reproduzieren.
Nun die (Summe der) Linkfrequenz pro Linklevel:
Damals hatte ich das mit der gleichen Kurve bzgl. der totalen Links verglichen. Ich denke, dass das an dieser Stelle unnøtig ist, und sei es aus dem gleichen Grund wie oben: es gibt auch hier bzgl. der Veraenderungen in den 2023 Daten nix weiter zu sagen, was nicht schon gesagt wurde.
Sehr gut … Das ging diesmal fix und mehrere Sachen schaffte ich in einen Beitrag zu packen … das passiert ja nicht so haeufig.
Spirit of the Tao ist so obskur, dass es nicht mal ’nen Wikipediaeintrag hat.
Hier ein anderer Link … aber wer weisz, wie lange es den geben wird, deswegen eine Zusammenfassung der dortigen Zusammenfassung:
– zwei Teenager die nicht verwandt, aber miteinander aufgewachsen sind entwickeln krasse Drachenkraefte
– eine gute und eine bøsen Gruppierung versuchen diese Kraefte fuer sich zu bekommen
– die Wege der Teenager trennen sich
– es stellt sich raus, dass es die Drachenkraefte schon seit Uhrzeiten gibt und die Erde beschuetzen (erst gegen die Dinosaurier, dann gegen die Menschen und jetzt manifestiert sich das nochmal gegen Letztere)
– eine weitere Gruppierung tritt auf
– Aliens die die „Erde“ fressen wollen kommen hinzu und sind „ueber Bande“ mit der Gruppe verbunden von der wir zunaechst annahmen, dass das die Guten sind
– natuerlich jede Menge Kaempfe (gern in Innenstaedten) zwischendurch
– die Teenager vertragen sich wieder
– der Drache (und die Aliens) werden besiegt, aber die Menschheit zum groeszten Teil vernichtet
– Jahre spaeter: ein paar Menschen haben ueberlebt und leben jetzt im Einklang mit der Natur; unsere beiden Protagonisten haben eine Tochter gezeugt
Hørt sich erstmal bekloppt an, aber zu meiner Ueberraschung stellte sich auch nach den ersten paar Ausgaben heraus, dass da fuer einen Comic eigtl. voll viel Substanz vorhanden ist. Mich duenkt, dass die Erschaffer wirklich ’nen Plan hatten mit den vielen verrueckten Sachen; inklusive durchaus plausibler Charakter- und Weltentwicklung. Dies gilt um so mehr, wenn man betrachtet wie wenig das bei anderen Serien aus dem Image-Verlag der Fall war (mit wenigen Ausnahmen die dann auch nur fuer einzelne Ausgaben gelten).
Leider kam das bei den Lesern nicht so gut an und nach nur 15 Ausgaben wurde Spirit of the Tao wieder eingestellt. Ich bin froh, dass die Handlungsstraenge wenigstens abgeschlossen wurden, auch wenn es am Ende total ueberhastet ist und die Qualitaet der Erzaehlung darunter natuerlich leidet.
Durchaus interessant: aus den Covern springen einen die 90’er Jahre førmlich an. Ich bin ehrlich und gebe zu, dass das auf den jungen Mann, der ich damals war, die sicherlich erwuenschte Wirkung hatte. Heutzutage ist’s fuer mich eher nostalgisch.
Auch interessant: das erste hier gezeigte Cover (nicht allein fuer sich, aber im Zusammenhang). Zunaechst ist zu sagen, dass dieses Cover mal wieder der unsaeglichen Herangehensweise des (damaligen!) Splitter Verlags geschuldet und nur ’ne Vergrøszerung eines Panels ist. Das sieht aber hier so komisch aus, weil’s eine Art „Hochglanz-„metall“-ueberzug“ bekommen hat. Das muss unheimlich teuer gewesen sein und widerspricht eigtl. dem was man mit solcherart Comics verbindet: relativ billig, dafuer fast ueberall zu kriegen… was ja leider heutzutage auch nicht mehr gilt, kann mich nicht erinnern, wann ich das letzte Mal ’n anderes Comic als die Micky Maus im Supermarkt gesehen haette. Kurz nachdem das eingefuehrt war der Splitter Verlag dann pleite. Das war vllt. das letzte „Aufbaeumen“ vor dem „letzten Atemzug“.
Zum Glueck fuer mich, wurde die Serie vom Infinity Verlag nach nicht all zu langer Pause fortgesetzt.
Die beim letzten Mal reproduzierten Untersuchungen fuehrten mich damals zu einem der wichtigsten Kevin Bacon Resultate ueberhaupt: die durchschnittliche Anzahl der Zitate unterliegt einem maechtigen Gesetz. Oder anders: das ist bei doppellogarithmischen Achsen linear! Krass wa!
Wichtig: bei diesen Untersuchungen wurde davon ausgegangen, dass die Anzahl der Zitate die UNabhaengige Grøsze ist. Oder anders an einem Beispiel: alle Links einer Seite mit 5 Zitaten hab ich genommen und auf einen „Haufen“ geworfen. Auf diesen Haufen kamen NUR die Links von Seiten mit 5 Zitaten (egal wieviele Links das waren). Auf einem anderen Haufen haeufte ich alle Links aller Seiten mit 6 Zitaten an; usw. Fuer den Durchschnitt teilte ich am Ende einfach die Anzahl aller Links in einem gegebenen Haufen mit der Anzahl aller Seiten die zu diesem Haufen beigetragen haben.
Ich habe das nochmal so ausfuehrlich beschrieben, damit sichtbar wird, dass ich damals auch hier wieder NICHT die umgedrehte Konstellation betrachtet habe. Oder anders: wird das das Gleiche, wenn man die Anzahl der Zitate einer Seite durchschnittifiziert, wenn man die Anzahl der Links der besagten Seite als unabhaengige Grøsze hernimmt?
Tja … und hier sieht man nun beide Sachen:
Tada! Das ist auf den ersten Blick nicht das Gleiche … aber ich kann euch, meinen lieben Leserinnen und Lesern versichern, dass es sehr wohl das Gleiche ist.
Am wichtigsten ist, dass die Anstiege der linearen Teile der Daten im Groszen und Ganzen uebereinstimmen. Aufgrund unterschiedlicher Skalen sieht man das nur nicht so gut. Aber wenn man das gleich skaliert dann ist’s im Wesentlichen das gleiche Ergebniss … ich hab das jetzt zwar nicht konkret ausgerechnet, aber ich hab ’n Lineal an’n Monitor gehalten und parallel verschoben (bei richtiger Achsenskalierung) und das war im Wesentlichen das gleiche … OKOK … es war kein Lineal und Parallelverschiebung, sondern ’n Blatt Papier an den Monitor gehalten, dann hab ich (MIT LINEAL) den einen Anstieg „durchgepaust“, das Papier an der Unterkante des Monitors zum naechsten Graphen (parallel)verschoben, dort den Anstieg abgepaust … und das hatte zwar kleine Abweichungen, aber innerhalb der Genauigkeit aller Untersuchungen (und insb. der „Pausmethode“) wuerd ich sagen, dass das alles gleich war.
Und das SOLLTE auch so sein (was der Grund ist, warum das so wichtig ist), dass die Anstiege gleich sind. Auch wenn das in den beiden Faellen aus anderen Gegebenheiten so ist, denn die Anzahl der Seiten mit einem gegebenen Zitatewert ist unabhaengig von der Anzahl der Seiten mit dem selben LINKwert. Aber im Mittel ueber (sehr) viele Seiten, sollte das das Gleiche sein.
Dass dem wirklich so ist fetzt und bestaetigt im Nachhinein, dass mein Ansatz mit dem Mittelwert gar nicht so falsch ist … das ist wichtig, denn darauf basierten ein paar Schlussfolgerungen und Erklaerungen im weiteren Verlauf des Kevin Bacon Projekts.
Warum das auf den ersten Blick so ungleich aussieht, ist das unterschiedliche Verhalten des Verlaufs der beiden Durchschnitte bei hohen Werten auf der Abszisse. Was natuerlich nicht weiter verwunderlich ist, eben wg. besagter Unabhaengigkeit und weil wir hier in den Bereich kommen, wo oft nur sehr wenige, in vielen Faellen einzelne, Seiten einen ganzen Datenpunkt ausmachen … da kann man also mittels einer Durchschnittifizierung keine „versteckte“ Information „rauskitzeln“.
Ach ja, es ist eine reine Formalitaet (denn man sieht’s ja), aber ich sollte erwaehnen, dass die 2023 Daten die 2020 Daten reproduzieren.
Sooo … das ging schøn schnell heute.
Damals hatte ich dann nur noch den Rest der Verteilung der totalen Links angeschaut und da war nix weiter zu holen und ich hatte die gesamten Verteilungen bereits reproduziert. Und dann folgte (wie so oft) eine kurze Betrachtung der „Ausreiszer“, die ich hier auch nicht wiederholen werde. Dito, bzgl. der daran anschlieszenden Fehlerbetrachtungen.
Tjoa … jetzt muss ich ueberlegen ob ich mir erstmal die Linklevelverteilungen fuer die anderen drei Grøszen von Interesse anschaue (und damit dem damaligen „Spielplan“ vorgreife), oder „chronologisch“ weitermache.
Ich tendiere zu Ersterem, aber das muss ich nicht jetzt entscheiden.
Ja ich weisz, es ist schon laenger her. Ich war aber mit anderen Sachen beschaeftigt und durch die (stark) verminderte Anzahl an Beitraegen pro Monat ergab sich bisher einfach keine Gelegenheit endlich mal die Feinstaubmessungen fertig zu machen.
Rein technisch bastelte ich zunaechst noch rum, damit der Mikrokontroller die Ergebnisse auf eine externe SD-Karte speichert. Auszerdem fand ich auch noch heraus, wie ich (Teil)Ergebnisse mittels Radiouebertragung auslesen kann. Ersteres funktionierte prima, Letzteres war zwar voll spannend, aber hab ich aus anderen Gruenden nie wirklich benutzt.
All das (Sensor, Mikrokontroller, periphaerer Kram) verpackte ich in ein U-førmiges Regenrinnenstueck, machte ueber die Enden so ’ne Art sehr grobmaschigen Stoff drueber (damit mir da nix reinkrabbelt und ’n Kurzschluss verursacht) und haengte das Ganze drauszen auf. Es war der 14. Januar 2021, ein Donnerstag.
Und am 23. Januar holte ich alles wieder rein. Urspruenglich sollte das nur ein Testlauf sein … aber aufgrund der Verkettung von Umstaenden kam ich nie dazu nochmal wirklich was Laengeres zu machen. Zum Einen lag es daran, dass der Zaehler fuer die Uhr des Mikroprozessors „ueberlaeuft“. Und dann arbeitet der nicht mehr richtig. Ich haette das einfach nur alle zwei Wochen oder so resetten muessen, und ich hatte auch schon ueberlegt wie das gemacht werden kønnte … aber die Testergebnisse fanden zu einer interessanten Zeit statt (es war kalt und alle heizten wie verrueckt) und die waren trotzdem nicht wirklich spannend.
Dennoch, hier sind sie nun:
Aha! Das wackelt ja ganz schøn. Man sieht schnell, dass an kalten Tagen (Temperaturen unter dem Gefrierpunkt) die Feinstaubbelastung deutlich grøszer ist, als an warmen Tagen. Das war zu erwarten, denn dann waermen die Leute hier ihre Wohnungen mittels Holzøfen auf (zum Glueck keine Kohle!) um Strom zu sparen.
Die abgeschnittenen Spitzen scheinen einem Muster zu folgen (immer so gegen 21 Uhr oder halb 2 Uhr rum). Ich kriege das nicht richtig zugeordnet. Die wahrscheinlichste Erklaerung ist, dass das wieder vom Duschen kommt, denn der Sensor hing nur ca. einen Meter vom Badfenster entfernt und das ist beim Duschen immer auf. Aber ich kriege das nicht mehr nachvollzogen und das kønnte auch nur ein „Schluckauf“ sein, denn um die Zeit rum ist die Partikeldichte ohnehin hoch und vielleicht hat sich da was festgesetzt. Das wuerde ich aus dem Abhandensein solcher Spitzen an warmen Tagen schlieszen. Andererseits erklaert das nicht eine der høchsten Spitzen morgens 10 Uhr und es ist auch komisch, dass das immer zur ungefaehr gleichen Zeit passiert.
Ich erzaehle das so (relativ) detailliert, denn hieran sieht man, warum ich nicht so richtig zufrieden bin. Das-grosze-Drauszen ist ein offenes System ueber das ich nicht nur keine Kontrolle habe, sondern bei dem ich noch nicht mal weisz, was da passiert. Deswegen kann ich die Beobachtungen nicht zuordnen und das ist unbefriedigend … und dadurch wie gesagt der Hauptgrund, warum ich das nach dem Testlauf nie weiterverfolgt habe.
Eine systematische Sache sieht man allerdings an kalten Tagen. Ich zoome mal bei einem Tag rein:
In der Nacht ist die Partikeldichte gering — die Øfen sind aus. Ab ca. halb acht steigt sie langsam bis ca. 18 Uhr an. Bzw. kønnte man insb. auch die schwarze Kurve so interpretieren, dass der Anstieg schon bis ca. 10 Uhr fertig ist und dann die Werte um einen gewissen Plateauwert zappeln. Mhmmmmm … das kønnten dann Rentner sein, die es sich nach dem Aufstehen schonmal gemuetlich warm in der Stube machen.
Ab ca. 18 Uhr dann springt die Partikeldichte auf einen ca. 2 bis 5 Mal høheren Wert. Nun sind auch alle anderen Leute zu Hause und das Abendbrot ist gekocht und gegessen und beim gemuetlichen Entspannen vor dem Fernseher wollen auch diese Menschen es schøn warm haben. Der ca. 2 bis 5 Mal høhere Wert ergibt in dem Bild durchaus Sinn. Ich wuerde einen solchen Wert auch ganz grob abschaetzen als das Verhaeltniss aus den Leuten die tagsueber nicht zu Hause sind, und solchen die es sind (warum auch immer).
Ab ca. 21 Uhr fangen die Leute an kein Holz mehr nachzulegen. Die Feinstaubdichte geht runter und gegen 23 Uhr sind die meisten Øfen wieder aus.
Die kleine Spitze bei ca. 1 Uhr war vermutlich tatsaechlich ich, beim heiszen duschen.
Aber das zappelt alles so doll hin und her. Ich hatte gehofft, dass ich damit die Feinstaubbelastung durch Autos messen kønnte (vor allem Dieselautos und Abrieb der Strasze wg. Spikes an den Reifen). Kann ich aber nicht, bzw. scheint das im Dreck der Holzøfen unter zu gehen.
Mehr seh ich hier nicht und somit war’s das dann mit dem ganzen Thema. Die Messungen in der Kueche waren durchaus spannend, weil es viel zu entdecken und erklaeren gab. Warum ich das Ganze aber eigentlich machte dann letztlich nicht. Andererseits gebe ich zu, dass sich auch hier „der Weg ist das Ziel“ einstellte. Das ganze Knobeln an der Hard- und Software hat mir mal wieder viel mehr gegeben als die Messergebnisse am Ende.
Hurra! Damit ist das endlich abgeschlossen!
Die Sachen die ich beim letzten Mal reproduzierte (und leicht erweiterte) machten mich damals stutzig, denn die Kurven hatten fuer meinen Geschmack einen viel zu starken Anstieg. Deswegen untersuchte ich (damals) wie stark Seiten mit unterschiedlichen Anzahlen an Zitaten und Links auf Linklevel 0 zur Anzahl der totalen Links auf Linklevel 1 beitragen.
Das wollte ich jetzt natuerlich nochmal machen und die entsprechenden Programme hatte ich schon vor Monaten geschrieben. Leider habe ich diesmal nicht richtig hingeschaut und das als „Beitrag zur Anzahl der total Links auf LL0“ (man beachte den Linklevelindex!) gelesen (anstatt „auf LL1„). Dadurch hab ich dann Zeit verschwendet, weil besagte Programme vermeintlich falsche Zahlen lieferten. Der Fehler klaerte sich nach ca. 2 Stunden auf.
Aber der Reihe nach und als Erstes nochmal kurz worum es heute geht. Wenn ich an ’ne Sache rangehe, mache ich oft erstmal ’ne Fermi Abschaetzung. Etwas genauer: ich schau mir Mittelwerte an und ueberlege mir wie diese Sache aussehen sollte, wenn man nur mit den Mittelwerten rechnet. Damals kam aber ganz schnell heraus, dass die durchschnittliche Anzahl der Links und Zitate, gemittelt ueber ALLE Seiten, einen VIEL kleineren Anstieg der totalen Links verursachen sollte. Ich hatte dann relativ schnell die Idee, dass mglw. Seiten die extrem oft zitiert werden einen ueberproportionalen Anteil an dem Anstieg haben kønnten, der mitnichten mittels einer Mittelwertsueberschlagsrechnung erfasst werden kann.
Oder anders (mit Zahlen): eine Seite die auf LL0 fuenf mal zitiert wird und die fuenftausend Links hat, traegt auf LL1 25-tausend (totale) Links bei. Der Beitrag einer Seite mit nur einem Link, die aber 250-tausend Mal zitiert wird, ist hingegen zehn Mal so hoch.
Das soll reichen zu dem was man hier (wieder) sieht; mehr Details gibt es in den entsprechenden Artikeln von damals.
Ach ja, wenn ich schon dabei bin sollte ich auch auf einen Fehler hinweisen. Bei der Kurve bzgl. des kumulativen Beitrags habe ich damals die Werte fuer NULL mal zitierte Seiten mit dazugezaehlt. Die tragen aber NICHT bei, weil die ja nicht zitiert werden. Das fuehrt aber NICHT zu einer Aenderung des Anstiegs der Kurve, sondern nur zu einer konstanten Verschiebung von weniger als 1 Million … da die Ordinate bis fast 40 Milliarden geht, sieht man das gar nicht und HIER ist das jetzt alles richtig!
Aber nun die Diagramme. Zunaechst das zur Reproduzierbarkeit …
… bei der (wie damals) als Unterscheidungsmerkmal der betrachteten Seiten die Anzahl der Zitierungen herangenommen wurde. Die schwarzen Punkte (linke Ordinate) repraesentieren die Summe aller Produkte von Anzahl Links und Anzahl Zitierungen aller Seiten mit einer gegebenen Anzahl Zitate auf LL0. Die Punkte der 2023 Daten sind im Wesentlichen die Gleiche wie die fuer die 2020 Daten.
In den 2023 Daten gibt es aber mehr Seiten mit unterschiedlichen Anzahlen an Zitierungen. Wegen der logarithmischen Komprimierung sieht man die entsprechendne Punkte nicht. Die sind aber ein Grund, warum die kumulative Anzahl Links auf LL1 (blaue Punkte, rechte Ordinate) der 2023 Daten schneller waechst als die der 2020 Daten. Desweiteren liegen die schwarzen Punkte ein bisschen ueber den grauen Punkten. Man muss genau hinschauen und sieht es vermutlich am besten am Anfang um 10 Zitate rum … der Unterschied ist gering, aber echt. Oder anders: es gibt in den 2023 Daten nicht nur mehr Seiten mit anderen / unterschiedlichen Zitaten als in den 2020 Daten, sondern auch mehr Seiten die bspw. 5 Zitate haben. Und das „haut dann rein“ bei den kumulativen Kurven … denn das liegt ja schon in der Definition der kumulativen (!) Kurven.
Aber alles „geht mit rechten linken Dingen zu“, denn die Form der Anstiege (im Wesentlichen linear) aendert sich nicht.
Damals nicht betrachtet hatte ich, wie das Ganze aussieht, wenn man die Anzahl der Links herannimmt als Unterscheidungsmerkmal der betrachteten Seiten. Aber das ist ja das Schøne, wenn man die entsprechenden Programme nochmal neu schreibt und dabei allgemeiner fasst; es „fallen mehr Sachen raus“. Auf den ersten Blick das sieht das …
… erstmal sehr aehnlich zum obersten Diagramm aus, sowohl qualitativ als auch quantitativ. Letzteres natuerlich nur bzgl. der Ordinate. Insb. verhalten sich die 2023 Daten nicht anders als die 2020 Daten (innerhalb der zu erwartenden Grenzen).
Auf den zweiten Blick sieht die Verteilung der schwarzen Punkte dann aber doch anders genug aus, sodass ich da mal „reingezoomt“ habe:
Tatsaechlich! bei vielen Zitaten „gehen die Punkte hoch“, waehrend sie „runter“ gehen bei vielen Links … da kann wer anders mglw. was mit machen, ich lasse das hier nur noch ohne weitere Kommentare stehen.
An der Stelle liesz ich damals die durchschnittliche Anzahl Links (bei gegebener Anzahl an Zitaten) folgen. Das verschiebe ich auf den naechsten Beitrag, weil dies eines der wichtigsten Ergebnisse ueberhaupt war, welches oft zur Erklaerung anderer Phaenomene herangezogen wurde.
Ich kam dann damals nochmals auf die Beitraege der einzelnen Seiten (gruppiert nach der Anzahl der Zitate) zurueck und schaute mir das in einem zweidimensionalen Grafen an, in dem Information ueber eine dritte Dimension (besagte Gruppierung) in den einzelnen Punkten „versteckt“ war.
Das war wichtig, denn diese Kurve zeigte ungeheuer beeindruckend wie stark _ganz_ wenige Seiten mit vielen Zitaten die Dynamik der total Links insb. am Anfang beeinflussen … womit der Grund der oben erwaehnten Stutzigkeit gefunden war.
Hier sind die entsprechenden Kurven:
Bzgl. dessen wie dieses Diagramm zu lesen ist verweise ich auf den damaligen, verlinkten, Beitrag. Nur drei Sachen seien gesagt.
Zum Einen schaue ich mir nicht nur die Gruppierung nach Anzahl der Zitate (rote Punkte) an, sondern auch nach Anzahl der Links (schwarze Punkte).
Zum Zweiten unterscheiden sich die 2023 Daten nur insofern, dass sie sich weiter nach rechts „ausdehnen“. Das liegt natuerlich wieder daran, weil es in den 2023 Daten mehr Seiten gibt.
Zum Dritten scheint die Dynamik der Kurven in denen die Seiten nach der Anzahl der Links gruppiert sind, etwas „ruhiger“ zu sein als die der Kurven in denen die Seiten nach Anzahl der Zitate gruppiert sind. Oder anders: die roten Kurven verlaufen ab ungefaehr 5 Millionen auf der Abzsisse etwas „flacher“ (nicht viel) als die schwarzen Kurven um dann zum Ende einen „Extraschub“ hinzulegen und staerker zu „beschleunigen“. Am Endergebnis aendert das nix, kønnte aber mglw. durchaus von Interesse sein sich mal naeher anzuschauen … fuer andere … nicht (mehr) fuer mich.
Das soll genug sein fuer heute. Wie bereits erwaehnt: beim naechsten Mal dann die durchschnittlichen Links / Zitate bei gegebener Anzahl Zitate / Links.
Richtig so!
Das gehørt sich naemlich nicht, in øffentlichen Toiletten das Klopapier zu klauen!
Wenn ich mich richtig erinnere (kann gerade nicht nachschauen), dann habe ich das im Besucherzentrum zum Hiroshima Peace Memorial Park, gleich nebem dem Hiroshima Peace Memorial, entdeckt.
In den Schriftzeichen darunter ist es uebrigens kein Verbrechen mehr, sondern nur noch unhöflich / unanständig / unverschämt / ungezogen … oder wieuachimmer man das englische „rude“ uebersetzen mag.
Nach den Relevanzbetrachtungen folgten damals drei Monate lang technische Beitraege auf die ich hier nicht nochmal eingehen muss. Aber danach ging es dann endlich los mit den Linknetzwerkeigenschaften und zunaechst betrachtete ich den Anstieg der Verteilung der Anzahl der (totalen) Links (und hier auch) pro Linklevel. Nur daraus folgten naemlich etliche sehr interessante Erkenntnisse und das muss ich ueber die naechsten paar Beitraege reproduzieren (ich versuche mich kurz zu halten).
Wie immer: die damals naeher betrachteten grøbsten Abweichungen schaue ich mir nicht nochmal an. Dito bzgl. der damals daran anschlieszenden Fehlerbetrachtung.
Der Anfang ist schnell gemacht, denn bei der Summe (ueber alle Seiten) der totalen Links pro Linklevel ist nicht viel passiert:
Der grøszte Unterschied liegt im Ende, das von 72 Linkleveln in den 2020 Daten zu 83 Linkleveln in den 2023 Daten gewandert ist. Ansonsten sind die Unterschiede marginal (also wie erwartet) und die Form der Kurve bleibt erhalten.
Um den starken Anstieg am Anfang zu erklaeren stellte ich mal damals die Anzahl der Links ueber der Anzahl der Zitate fuer alle Seiten dar … und erhielt einen „schwarzen Klumpen“. Hier …
… habe ich das reproduziert und wieder gibt es keine groszen Unterschiede. Auszer im Diagramm an sich, denn damals ist mir nicht aufgefallen, dass die „Nullwerte“ (also entweder keine Zitate oder keine Links) abgeschnitten wurden. Wieder ist wichtig, dass die Form des „schwarzen Klumpens“ im Wesentlichen erhalten bleibt; sogar der kleine „Pøppel“ der oben rausschaut und insb. die „Abbruchkante“ auf der rechten Seite.
In diesem Diagramm ist eine Information versteckt, die ich damals nicht weiter betrachtet hatte: die Anzahl der Seiten mit eindeutigen Zitate-Links-Kombinationen. Ein Beispiel: man nehme an, dass es 8 Seiten gibt, die 23 Zitate und 5 Links haben. Diese 8 Seiten sind alle in nur einen einzigen Punkt gequetscht.
Weil ich die Programme die das auswerten nochmal neu geschrieben habe, hab ich’s jetzt eingebaut, dass diese Information mit „ausgespuckt“ wird … und das sieht dann so aus:
ACHTUNG: bei diesen „flachen“ Bildern „versteckt“ sich jeweils eine Dimension in den Punkten an sich; im linken Diagramm die Anzahl der Links und im rechten Diagramm die Anzahl der Zitate. Mit dem Zahlen aus dem obigen Beispiel haette man dann im linken Diagramm einen Punkt bei den Koordinaten (23, 8) und im rechten Diagramm bei den Koordinaten (5, 8). Weil aber die Information jeweils einer Dimension verloren geht, kønnte im linken Diagramm direkt darunter ein Punkt sein, der die sieben Seiten repraesentiert die AUCH 23 Zitate haben, aber mit 42-tausend Links. Diese sieben Seiten wuerden im rechten Diagramm dann natuerlich auch „eins unter“ dem urspruenglichen Beispielpunkt sein, aber natuerlich viel weiter rechts davon (also mitnichten in der inmittelbaren Naehe). Im Gegensatz dazu kønnte ebenso auf unserem urspruenglichen Beispielpunkt (im linken Diagramm) ein weiterer Punkt liegen, der die 8 Seiten repraesentiert die AUCH 23 Zitate haben, aber 23,517 Links. (Hausaufgabe: man ueberlege sich wo dieser Punkt im rechten Diagramm liegen wuerde).
Eigentlich sollte man das also dreidimensional darstellen. Aber zum Einen sind solcherart Darstellungen mit logarithmischen Achsen schwer zu machen (es geht sicher, aber nur mit rumtricksen und ich hab da gerade keine Lust drauf). Zum Anderen sind 3D-Diagramme gedacht interaktiv zu sein. Man soll die „in die Hand“ nehmen und Drehen und Wenden, um die Daten von allen Seiten zu betrachten. Das geht natuerlich hier nicht und deswegen lasse ich das gleich bleiben (es geht sicher, aber dafuer braucht man bestimmt irgend ’ne Erweiterung (so wie bei LaTeX-Formeln oder Tabellen) und ich versuche Erweiterungen so weit wie møglich zu vermeiden).
Ich diskutiere jetzt nur noch das Offensichtlichste. Zunaechst sehen die Einhuellenden aus wie die Anzahl der Seiten pro Links oder Zitierungen. Wenn man die entsprechenden Kurven normiert, ist dem aber nicht nicht so (muesst ihr, meine lieben Leserinnen und Leser einfach mal glauben, ich wollte das naemlich nicht auch noch diagrammisieren, weil’s jetzt nicht so wichtig ist). Ich habe das jetzt nicht kontrolliert, aber wenn man alle Punkte zu einem gegebenen Wert auf der Abzsisse aufsummiert, sollte man die erwaehnten Kurven erhalten.
Wenn man aber genauer hinschaut, dann sieht man, dass die Einhuellenden sich nicht so verhalten wie sie „sollten“. Nach allem was ich in diesem Projekt gesehen habe, wuerde ich „maechtige Gesetze“ erwarten. Bei der Einhuellenden im linken Bild kann man das nicht mal mit viel Fantasie sehen. Im rechten Diagramm liegt eine solche Situation zwar durchaus vor, aber es gibt da so ’ne Delle mittendrin. Ich hatte an anderer Stelle (hab jetzt keine Lust das raus zu suchen) vermutet, dass in der Wikipedia zwischen Ende 2020 und Ende 2023 mglw. eine grosze „Løschaktion“ stattgefunden hat. Meine erste Annahme war deswegen, dass diese Delle ein Resultat dessen sein kønnte.
Andererseits gibt es bei der Anzahl der Seiten pro Links an der Stelle in auch eine Delle (nur nach AUSZEN wølbend und nicht wie hier, nach innen … also eher einen Buckel). Bei der Reproduzierung sieht man das nicht so gut, weil die Punkte so dick sind. Im urspruenglichen Beitrag ist’s in den Abweichungen zur eingezeichneten geraden Linie relativ gut zu erkennen. Ich hatte das damals nicht weiter betrachtet (und werde das auch heute nicht tun) weil die Abweichungen so klein sind … aber obiges (neues) Diagramm deutet ja eher darauf hin, dass hier irgendwas vor sicht geht. Das was vor sich geht hat zwar keinen all zu groszen Effekt, ist mit den richtigen Methoden und „Werkzeugen“ aber messbar. Ist also sowas Aehnliches wie das Higgs Boson … tihihi.
Damit sei abschlieszend zur Delle zu sagen, dass die also vermutlich KEIN Resultat einer „Løschaktion“ ist, eben weil sie in der Kurve der Anzahl der Seiten pro Links erhalten bleibt.
Aber das soll dazu reichen. Da kann man bestimmt noch andere fetzige Sachen mit machen (bspw. wie die Verteilungen der einzelnen Spalten und Zeilen aussehen), aber wieder einmal ueberlasse ich das Anderen.
Wie damals, werden mich auch beim naechsten Mal die Anzahl der Links in Abhaengigkeit von der Anzahl der Zitate weiter beschaeftigen.