Archive for Mai, 2024

Beim letzten Mal stellte ich eine neue Datenquelle vor, welche die Anzahl der Seitenaufrufe pro Tag fuer jede Wikipediaseite hat. Das ist von Interesse, denn in den Analysen der vorhergehenden Jahre behauptete ich oft, dass i.A. Seiten mit mehr Zitaten populaerer sind. Das ist durchaus eine plausible Behauptung, allein schon weil oefter zitierte Seiten eine grøszere Chance haben angeklickt zu werden, einfach weil die øfter von Nutzern gesehen werden. Der Quelltext enthaelt allerdings keine Information darueber, dass das auch „in Echt“ (also extern und nicht nur via internen Zitaten von einer Seite zur naechsten) gilt.

Die neuen Daten erlauben mir das nun direkt zu testen indem man sich die Aufrufe einer Seite in Abhaengigkeit von der Anzahl der (Wikipedia internen) Zitate (oder Links) anschaut.
Das ist das Prinzip, aber natuerlich ist das nicht ganz so einfach. Zunaechst einmal muss man die beim letzten Mal erwaehnten natuerlichen und unnatuerliche Artefakte in den Daten „rausmitteln“. Das ist einfach, denn dafuer muss nur die durchschnittliche Anzahl an Seitenaufrufen pro Monat berechnet werden (fuer jede Seite). Es ist leicht einzusehen, dass das nix am allgemeinen Prinzip aendert, die Interpretierbarkeit des Diagramms hingegen deutlich erleichtert.

Ich vermutete aber, dass das immer noch nicht ausreicht, denn ich ging davon aus, dass selbst die durchschnittlichen monatlichen Seitenaufrufe massiv streuen. Oder anders: ich erwartete eine dichte Punktwolke ohne viel Struktur, wie schon bei der Abhaengigkeit der Anzahl der Links von der Anzahl der Zitate von „damals“. Die Løsung lag (wieder) in einer gruppenweise Mittelung der durchschnittlichen Seitenaufrufe. „Gruppenweise“ bedeutet hier (wieder), dass alle Seiten die eine gegebene Anzahl an Zitaten / Links haben eine Gruppe ausmachen. Die durchschnittlichen Seitenaufrufe aller Mitglieder der Gruppe wurden dann gemittelt.
Das sagt nicht mehr unbedingt viel ueber einzelne Seiten aus, denn die Information die in der Streuung der Werte liegt geht komplett verloren. Aber individuelle Seiten interessieren mich ohnehin nicht wirklich. Diese Herangehensweise erhøht die Interpretierbarkeit allerdings deutlich, wenn man auf allgemeine Erwartungen (oder Verhalten) bei einer gegebenen Situation (die Anzahl der Zitate / Link) aus ist.

Und hier ist nun endlich das Diagramm:

Voll super wa! Fuer bis zu ca. 1000 Zitate / 500 Links verhaelt sich die Anzahl der durchschnittlichen monatlichen Seitenaufrufe nach einem maechtigen Gesetz. Danach gilt das nicht mehr i.A. denn die Punkte streuen zu sehr. Letzteres liegt daran, weil ich bei sehr vielen Zitaten / Links nicht mehr genuegend Seiten fuer eine gute Statistik habe. Die obige Behauptung ist aber weiterhin i.A. gueltig, denn Seiten mit mehr als ca. 1000 Zitaten / 500 Links halten sich eher im oberen, als im unteren Teil des Diagrams auf (und bei logarithmischer Achse „haut das doppelt rein“ … streng genommen zehnfach, denn es ist ja ’ne logarithmische Achse).

Natuerlich haette ich die blauen Punkte gar nicht einzeichnen muessen, denn wir wissen ja, dass die Anzahl der Links nach einem maechtigen Gesetz von der Anzahl der Zitate abhaengt. Ich wollte das aber zeigen, denn besagte Abhaengigkeit fuehrt zu unterschiedlichen Anstiegen der blauen und roten „Kurve“.

So … viel mehr gibt’s dazu nicht zu sagen. Es ist fein zu sehen, dass die plausible Behauptung tatsaechlich stimmt.

Damit werde ich dann ab dem naechsten Mal die Reproduzierbarkeit der Ergebnisse angehen … nach ueber drei Jahren wird das dann aber zu einem unregelmaeszigeren Publikationsrhytmus fuehren, denn das mache ich zusammen mit dem neu schreiben der Analyseprogramme und das dauert ’ne Weile.

Bei hohen Sachen møchte man ja gerne wissen, wie hoch die sind. Bei besonderen Dingen gibt man das in Meter an … der Fernsehturm, der Berg, die Statue. Bei den allermeisten Gebaueden ist es hingegen von grøszerem Interesse zu wissen wie viele Stockwerke das hat. Ja klar, Gebaeude mit gleicher Anzahl an Stockwerken sind oft unterschiedlich hoch, aber mir geht es um eine „Essenz der Sache“ die ich mit dem folgenden Beispiel versuche zu illustrieren.

Auf dem Dorf (bzw. auch in der kleinen Stadt) erschien mir damals, als junger Mensch, der drei- oder mglw. sogar fuenf(!)støckige Plattenbau als ziemlich hoch. Dann kam ich als (sehr) junger Erwachsener in ’ne richtige Stadt und dort waren dann die 10-støckigen Bauten ziemlich hoch. (Von heute aus gesehen) Nicht sehr viel spaeter ging’s ab und zu mal in die Hauptstadt und dort hielt ich mich dann in einem 17-Støcker auf; dieser schien mir als ziemlich hoch. Nun als mittelalterlicher Mann kam ich nach Japan und die wirklich hohen Gebaude dort machten im Wesentlichen den gleichen Eindruck auf mich: ziemlich hoch … die hatten aber viel mehr als 17 Stockwerke … nur „fuehlte“ es sich nicht als soooo viel mehr an.
Worauf ich hinaus will ist, dass all diese Gebaeude in Metern zwar immer høher werden, aber deren „gefuehlte Grøsze“ nimmt irgendwie nicht im selben Masze zu.

Ein Ausweg aus dem Dilemma bietet die oben erwaehnte (und im vorigen Paragraph verwendete) Zaehlweise in Stockwerken. Mir „sagt“ 17 Stockwerke mehr als 50 Meter. Wie hoch sind eigentlich 50 Meter (ziemlich hoch wuerde ich mal sagen) und was ist der Unterschied zu 30 Metern (was ja immer noch ziemlich hoch ist)?

Da stellte sich dann in Japan aber ein Problem: das sind so viele Stockwerke, dass man zwar auf die Idee die zu zaehlen kommt, sich aber schnell beim Zaehlen mit den Augen auf der Fassade „verirrt“, denn es gibt keine „Anheftungspunkte“ die anders aussehen als die anderen, immer gleichen Fenster. Dieses Problem tritt bei einem 17 Stockwerken (noch) nicht (so stark) auf.

Damit komme ich zum heutigen Bild, denn als wir in Sapporo aus dem Bahnhof traten und unser Hotel suchten, tauchte dort dieses (ziemlich hohe) Hochhaus auf …

… und zu meiner Freude waren die Stockwerke nummeriert. Toll wa!

Und mit der Stockwerknummer 49 macht das schon ’nen ganz anderen Eindruck, als der ziemlich hohe 17-Støcker in Berlin.
Wie viel høher das ist, wird einem auch insb. dann etwas bewusster, wenn man bedenkt, dass Letzterer gar nicht mit im Bild gewesen waere (weil ich bei 19 Stockwerken abschneide). Das ist dann eine andere „Perspektive“, die man durch die blosze Angabe der Høhenmeter nicht wirklich bekommen haette.

Auszerdem ist es ebenso eine gute Visualisierung gewisser, kleiner Eindruecke (Wortspielkasse!) meiner Japanreise.

Ich war schon dabei zusammen zu packen, als ich ueber diese Seite (mglw. muss man nach dem klicken auf den Link die Seite nochmal refreshen um das zu sehen, was man sehen sollte) stolperte, auf der man fuer jede Wikipediaseite schauen kann, wie oft die pro Tag angeschaut wurde. Mein erster Gedanke war: das fetzt ja! Mein zweiter Gedanke war: moment Mal, damit kann ich doch direkt schauen, ob meine Annahme, dass Seiten mit mehr (Wikipedia internen) Zitaten populaerer sind, stimmt. Das konnte ich vorher naemlich nicht, weil diese Information nicht Teil des Wikipedia Quelltextes ist.

Das dortige Interface ist zwar fein, wenn man mal mit ein paar wenigen Seiten rumspielen will, aber ich wollte natuerlich die Daten fuer alle Seiten haben. Dies brachte mich (wieder) zu einer Seite, die ich bereits gaaaaanz am Anfang dieses Projekts vorstellte und dort gibt es einen Direktlink zu den Analytics data files. Von dort geht es dann weiter zu „Pageview complete“ … um dort dann mit zwei verschiedenen Rohdatenquellen konfrontiert zu werden: alte Daten und neue Daten.
Um eine etwas kompliziertere Angelegenheit kurz zu machen: es dauerte eine kleine Weile, bis ich da durchgeschaut hatte und die Datenlage ist etwas uneinheitlich und von Artefakten geplagt.

Dies hier ist ein Beispiel fuer ein unnatuerliches Artefakt (und indirekt eine Mthodenaenderung), in dem man die Klickzahlen fuer Cat und Dog fuer Juli und August 2017 sehen kann. Bei den Hunden ist alles knorke; eine im wesentlichen flach verlaufende Kurve mit ein paar Spitzen in denen ca. 2 1/2 mal so viele Leute sich fuer Hunde interessieren. Letzteres erregt mein Misstrauen erstmal nicht, denn ein Faktor von 2.5 passiert schon mal, gerne auch mehrfach. Das lohnt sich meistens nicht weiter zu untersuchen, denn vllt. gab’s da ’n Artikel ueber ’n Hund in ’ner Lokalzeitung irgendwo, oder eine Netflix-Dokumentation und solche Sachen.
Bei den Katzen hingegen sieht man einen massiven Ansteig um 1 1/2 Grøszenordnungen (!) an nur einem einzigen Tag. Es stellte sich heraus, dass Bots regelmaeszig die Wikipedia durchqueren und dann sowas verursachen. Mal mit mehr, mal mit weniger starken (aber immer deutlich herausstechenden) Klickzahlen.
Solche unnatuerlichen Peaks sind also im Wesentlichen bei allen Seiten dabei … … … bis die Wikipedia eine Methode gefunden hat die Bots zu erkennen und seitdem sind die NICHT mehr mit dabei.

Ein Beispiel fuer ein natuerliches (!) Artefakt ist der Film Tenet. Heutzutage liegt der taegliche Zaehler bei ein paar Tausend Klicks. Als der Film rauskam zeigt dieser aber bis zu ca. 50 Mal so viel an. Ist ja ganz natuerlich (insb. fuer diesen Film) und logisch, beschreibt aber nicht das normale Verhalten.

Ein weiteres Beispiel einer Methodenaenderung sind Nutzer von unterschiedlichen Hardwareplattformen. Am Anfang gab’s keine Mobilfunkversion, dann wurde das nicht unterschieden und alles nur in eine Zahl gepackt und in den neuesten Daten haben Nutzer der „mobilen Wikipedia“ ihre eigenen Klickzaehler.

Ich versuchte Artefakte in den Daten zu erkennen und „rauszurechnen“ … aber das ist alles nicht so eindeutig und fuer das was ich damit erreichen will war es mir zu viel Aufwand. Deswegen beschloss ich davon auszugehen, dass die unnatuerlichen Artefakte sich im Mittel gleich ueber alle Seiten verteilen bzw. im Groszen und Ganzen nicht weiter auffallen.
Ersteres ist durchaus eine plausible Annahme, muesste streng genommen aber nachgewiesen werden. Letzteres ergibt sich daraus, dass unnatuerliche Artefakte selten auftreten (eine weitere Annahme, die eigtl. geprueft werden muesste, aber wenn die oft auftreten wuerden, dann waeren die Statistiken prinzipiell unbrauchbar) und sich ueber’s Jahr gesehen im Mittel … øhm … herausmitteln … bzw. im „Fehler verschwinden“. Im Wesentlichen gilt das Gleiche (das Selbe?) auch fuer natuerliche Artefakte.
Probleme gibt es nur bei Seiten die erst seit kurzem existieren, denn da stellen potentielle (natuerliche) Artefakte einen signifikanten Anteil der Daten und hatten noch keine Zeit sich „rauszumitteln“. Andererseits habe ich ca. 6 Millionen Seiten insgesamt und pro Monat gibt’s nur … … … ja wie viele neue Seiten gibt’s denn eigentlich pro Monat?

Zum Glueck kann man das aus diesen Daten extrahieren, wenn man die zwei folgenden (wieder: durchaus plausiblen) Dinge annimmt. Eine neue Seite hat vor dem Tag ihrer „Geburt“ null Klicks. Am Erstverøffentlichungstag wird die Seite mindestens ein Mal angeklickt; naemlich vom Schøpfer selbst. Ersteres muss man nicht mal nachpruefen, denn das geht nicht anders. Bei Letzterem bin ich mir unsicher, es fuehlt sich aber richtig an; die Wikipedia ist ja nicht mein Weblog, bei dem Artikel im Voraus geschrieben um dann am Tag der Verøffentlichung nicht gelesen zu werden. Falls nicht, dann kønnte man argumentieren, dass ’ne Seite eben erst dann „wirklich geboren“ wird, wenn der erste Leser drauf klickt.
Und hier sieht man die Anzahl der neuen Seiten pro Monat seit Beginn der verfuegbaren Daten (minus ein Monat, denn als Ende 2007 die allerersten Klickzahlen registriert wurden, gab es bereits ca. 3.5 Millionen Seiten):

Die groszen Abszissenstriche kennzeichnen den Januar eines Jahres und die kleinen Abzsissenstriche liegen genau in der Mitte (also zwischen Juni und Juli). Die Jahreszahl ist auf die Mitte eines Jahres zentriert. Auszerdem habe ich natuerlich NUR die Seiten betrachtet, welche in die Kevin Bacon Analysen der letzten Jahre eingeflossen sind.

Was man im Diagramm sieht ist, dass die Anzahl neuer Seiten pro Monat _drastisch_ abgenommen hat. Die Gerade habe ich nur zum Vergleich reingelegt und bei logarithmischer Ordinate entspraeche die einem exponentiellen Abstieg … und wenn man genau hinschaut, ist das tatsaechliche Gefaelle schneller! An dem laengerfristigen Trend konnten auch die Schreibspurts (die pløtzlich auftretenden Spitzen) nur relativ kurzfristig was aendern. Bis Mitte ca. 2015 setzte sich der Trend fort und stabilisierte sich dann auf ca. zehntausend neue Seiten pro Monat, mit _ganz_ leicht steigender Tendenz (ca. 13k pro Monat Ende 2020).

Mit Blick auf Artefakte in neuen Seiten ist im Wesentlichen nur das letzte Jahr relevant. Wir reden hier also von nicht mehr als ca. 150-tausend Seiten oder ungefaehr 2.5 Prozent der ca. 6 Millionen Seiten die in meine Betrachtungen eingflossen sind. Jut … muss ich mir also keine Sorgen deswegen machen.

Das soll reichen fuer heute. Beim naechsten Mal zeig ich dann das, was ich eigtl. zeigen wollte.

Ich versuche es heute mal anders.

Spinner (nicht nur die ueblichen) erkennt man mitunter nicht sofort. Das liegt daran, dass diese oft zunaechst nicht unplausibel klingende Geschichten erzaehlen und auf den ersten Blick zwingend erscheinende Sachzusammenhaenge darlegen. Dies dient dann meistens (immer?) als Einleitung fuer Unerhørtes.
Ein einfaches und legitimes Mittel um solchen Spinnern nicht auf den Leim zu gehen, ist in solchen Faellen der Merksatz: fuer eine so krass auszergewøhnliche Sache haette ich gerne ein paar gleich krass auszergewøhnliche Beweise (bevor ich die als richtig in Betracht ziehe).

Ein (all zu) einfaches Beispiel sind UFOs. Ein paar verwackelte Bilder von Lichtern am Himmel reichen da nicht als Beweis. Insb. nicht mehr heutzutage, wo alle Leute mit Kameras in der Tasche rumlaufen. Und hier liegt der Knackpunkt, denn wenn pløtzlich entsprechend viele UFO-Videos ueberall (nicht nur in spezifischen UFO-Foren!) auftauchen wuerden, waere das sehr auszergewøhnlich. Das ist aber nur eine notwendige Bedingung um die Existenz von UFOs anzuerkennen. Hinreichend wird es auch dann, wenn man annimmt, dass so viele Videos nicht systematisch gefaelscht werden kønnten (das ist im Wesentlichen der Grund fuer die Klammer im vorvorhergehenden Satz).

Nun ist es aber auch hier so, dass ich der Aussage zwar durchaus zustimme, dem aber wieder vorsichtig begegnen møchte (wenn auch mglw. etwas weniger vorsichtig verglichen mit den zwei vorherigen Aussagen in dieser Miniserie). Es braucht nicht notwendigerweise massenweise Beweise fuer auszergewøhnliche Ereignisse. Im obigen Beispiel reicht ein einziges UFO, welches direkt vor meinen Fueszen landet. … Andererseits waere das ja an sich auch eher auszergewøhnlich.
Deswegen meine ich das eher in dem Sinne, wie es in der Mathematik (oder vielmehr (nach Popper) in allen Wissenschaften) passiert. In der Mathematik reicht ein einziges Gegenbeispiel (anstatt vielen) aus, um eine Theorie zu widerlegen. Das ist dann aber nur eine banale Rechnung die das Gegenbeispiel liefert.

Fuer Wissenschaften die „empirischer“ sind ist das folgende Beispiel aussagekraeftiger: wenn ein „Blips“ in einer Messung auftritt, der zu einer auszergewøhnlichen Aussage fuehren wuerde, dann ist der nicht zu verwerfen, sondern zu untersuchen. Denn wieder gilt, WENN der „Blips“ richtig ist, dann kønnte die Theorie falsch sein und das muss man wissen. Ist andererseits der „Blips falsch (also nur ein Messfehler oder statistische Fluktuation), dann ist das um so besser, denn dann ist mein Weltbild noch mehr gefestigt.
Aber ein „Blips“ an sich ist nichts auszergewøhnliches und den zu untersuchen auch nicht.

Oder noch anders, naemlich postmodern: sich widerstreitende Aussagen sind beide in ihren jeweils geltenden Systemen richtig und entsprechend falsch (und damit auszergewøhnlich) im jeweils anderen System. Ich kann dadurch aber viel lernen um andere Menschen besser zu verstehen, wenn ich das nicht mit der obigen Aussage sofort verwerfe.

Wie auch bei den anderen zwei Artikeln, faellt es mir schwer mich konkret auszudruecken. Schade … aber ich lass das mal so stehen und hoffe, dass ihr, meine lieben Leserinnen und Leser, das schon versteht was ich meine, auch wenn die passenden Worte fehlen.

Mit Kochen und Duschen (bzw. Brotbuechse fertig machen) sind viele Ereignisse die zu erhøhten Partikelkonzentrationen in meiner Kuche fuehren identifiziert. Ein paar kleinere, regelmaeszig auftretende Spitzen sind aber noch nicht gekennzeichnet. Um nicht all zu lange um den heiszen Brei herum zu reden, handelt es sich dabei ums fruehstuecken und das tritt in zwei „Formen“ auf. Die erste „Form“ ist relativ gut erkennbar, …

… denn obwohl sich das Signal (PM10, bei PM2.5 passiert fuer diese Ereignisse im Wesentlichen nix) mit ca. 4 µg pro Kubikzentimer nur wenig aus dem Untergrund hervorhebt, so ist es doch deutlich zu erkennen, denn besagter Untergrund vor und ein paar Stunden nach dem Ereignis ist im Wesentlichen null. Desweiteren erkennt man in der blauen Kurve eine spontane Temperaturerhøhung, die bei der Identifizierung des Vorfalls hilft.

Die zweite „Form“ …

… ist laengst nicht so gut zu sehen, denn das Untergrundsignal vorher und nachher ist relativ grosz (mglw. durch immer noch vorhandene Braten-brutzel-Partikel vom Abend zuvor). Das eigentliche Signal geht darin zwar nicht „unter“, aber es tritt auch nicht so deutlich daraus hervor, wie im ersten Fall. Auszerdem tritt auch keine klar erkennbare Veraenderung in der Temperatur auf. Die beiden Beispieldiagramme zeigen, dass man aber dennoch etwas sieht und weil diese Art von Ereignis immer zum gleichen Zeitpunkt auftritt ist es leicht mit dem Fruehstueck zu identifizieren.

Das erklaert dann auch, warum manchmal ein sprunghafter Temperaturanstieg diese Ereignisse begleitet (da backe ich mir Brøtchen im Ofen auf) und manchmal nicht (denn ich backe mir nicht jeden Tag Brøtchen auf).

Wenn man das in der Uebersicht eintraegt …

… stellt sich nur eine Frage: warum habe ich an dem Wochenende (31.10. und 01.11.) so frueh Fruehstueck gegessen?
Zunaechst dachte ich, dass ich in dem Zeitraum vielleicht ein urst spannendes Spiel gezockt habe (sowas laeszt mich durchaus auch mal frueher aufstehen). Ich schaute aber nach und dem war nicht so. Genaugenommen ist es so, dass ich am 31.10. ein Spiel abgeschlossen habe, fuer das ich ganz sicher nicht frueh aufgestanden waere. Andererseits kønnte auch das genau die Erklaerung sein, warum ich frueh aufgestanden bin. Dadurch, dass mich besagtes Spiel nicht so fesselte, bin ich am 30.10. vermutlich relativ frueh ins Bett gegangen und entsprechend frueh wieder wach gewesen. Am 31.10. war ich in der gleichen Situation, denn ich war fertig mit dem Spiel  am fruehen Abend und habe da sicherlich noch nicht mit dem naechsten Spiel angefangen … joa das hørt sich durchaus plausibel an.
Weiterhin ist zu bedenken, dass da gerade mal der erste Covidsommer vorbei war und Normalitaet sich noch nicht wieder eingestellt hatte. Das erklaert aber eher im Groszen und Ganzen, warum ich mir bspw. am Montag dem 01.10. Brøtchen aufbacke.

Nun sind nur noch ein paar wenige Sachen unerklaert … dazu mehr beim naechsten Mal.

Eigtl. war ich schon fertig mit Superman bzgl. dessen was ich mit dieser Miniserie dachte; ich habe die Comics auch nicht nochmal gelesen.

Aber seit ein paar Monaten haengen bei mir in der Stube drei Bilderrahmen, in denen ich die Cover von Comics zeige und die Motive wechsle ich unregelmaeszig aus. Nun entschied der Wuerfel beim letzten Tausch, dass es (mal wieder) Zeit ist Superman aufzuhaengen … … … au weia, das kann man auch anders interpretieren … und ich waehlte dieses Motiv:

Sehr schnell stellte sich heraus, dass das wohl eins meiner (bisher unentdeckten) Lieblingscover sein muss. Ich kann es gar nicht so richtig erklaeren warum. Klar, es enthaelt einen meiner Lieblingshelden (der andere ist Alpha Cenurion (B)) und es ist relativ „klassisch“ aufgebaut wuerd ich sagen (zwei Helden in Action eben) … aber irgendwie steckt dahinter noch mehr weswegen es mir so gefaellt. Vielleicht die Farbkombination? Oder die „klassische Kraft“ die in den Posen und Gesichtsausdruecken der Helden steckt? Die zu erahnende, (noch) unsichtbare, von unseren Helden zu ueberkommende Gefahr, welche sich nur durch die (mich duenkt) Klebstoffstrahlen bemerkbar macht? Ich weisz es nicht und lass es einfach mal so stehen.