Ich war schon dabei zusammen zu packen, als ich ueber diese Seite (mglw. muss man nach dem klicken auf den Link die Seite nochmal refreshen um das zu sehen, was man sehen sollte) stolperte, auf der man fuer jede Wikipediaseite schauen kann, wie oft die pro Tag angeschaut wurde. Mein erster Gedanke war: das fetzt ja! Mein zweiter Gedanke war: moment Mal, damit kann ich doch direkt schauen, ob meine Annahme, dass Seiten mit mehr (Wikipedia internen) Zitaten populaerer sind, stimmt. Das konnte ich vorher naemlich nicht, weil diese Information nicht Teil des Wikipedia Quelltextes ist.

Das dortige Interface ist zwar fein, wenn man mal mit ein paar wenigen Seiten rumspielen will, aber ich wollte natuerlich die Daten fuer alle Seiten haben. Dies brachte mich (wieder) zu einer Seite, die ich bereits gaaaaanz am Anfang dieses Projekts vorstellte und dort gibt es einen Direktlink zu den Analytics data files. Von dort geht es dann weiter zu „Pageview complete“ … um dort dann mit zwei verschiedenen Rohdatenquellen konfrontiert zu werden: alte Daten und neue Daten.
Um eine etwas kompliziertere Angelegenheit kurz zu machen: es dauerte eine kleine Weile, bis ich da durchgeschaut hatte und die Datenlage ist etwas uneinheitlich und von Artefakten geplagt.

Dies hier ist ein Beispiel fuer ein unnatuerliches Artefakt (und indirekt eine Mthodenaenderung), in dem man die Klickzahlen fuer Cat und Dog fuer Juli und August 2017 sehen kann. Bei den Hunden ist alles knorke; eine im wesentlichen flach verlaufende Kurve mit ein paar Spitzen in denen ca. 2 1/2 mal so viele Leute sich fuer Hunde interessieren. Letzteres erregt mein Misstrauen erstmal nicht, denn ein Faktor von 2.5 passiert schon mal, gerne auch mehrfach. Das lohnt sich meistens nicht weiter zu untersuchen, denn vllt. gab’s da ’n Artikel ueber ’n Hund in ’ner Lokalzeitung irgendwo, oder eine Netflix-Dokumentation und solche Sachen.
Bei den Katzen hingegen sieht man einen massiven Ansteig um 1 1/2 Grøszenordnungen (!) an nur einem einzigen Tag. Es stellte sich heraus, dass Bots regelmaeszig die Wikipedia durchqueren und dann sowas verursachen. Mal mit mehr, mal mit weniger starken (aber immer deutlich herausstechenden) Klickzahlen.
Solche unnatuerlichen Peaks sind also im Wesentlichen bei allen Seiten dabei … … … bis die Wikipedia eine Methode gefunden hat die Bots zu erkennen und seitdem sind die NICHT mehr mit dabei.

Ein Beispiel fuer ein natuerliches (!) Artefakt ist der Film Tenet. Heutzutage liegt der taegliche Zaehler bei ein paar Tausend Klicks. Als der Film rauskam zeigt dieser aber bis zu ca. 50 Mal so viel an. Ist ja ganz natuerlich (insb. fuer diesen Film) und logisch, beschreibt aber nicht das normale Verhalten.

Ein weiteres Beispiel einer Methodenaenderung sind Nutzer von unterschiedlichen Hardwareplattformen. Am Anfang gab’s keine Mobilfunkversion, dann wurde das nicht unterschieden und alles nur in eine Zahl gepackt und in den neuesten Daten haben Nutzer der „mobilen Wikipedia“ ihre eigenen Klickzaehler.

Ich versuchte Artefakte in den Daten zu erkennen und „rauszurechnen“ … aber das ist alles nicht so eindeutig und fuer das was ich damit erreichen will war es mir zu viel Aufwand. Deswegen beschloss ich davon auszugehen, dass die unnatuerlichen Artefakte sich im Mittel gleich ueber alle Seiten verteilen bzw. im Groszen und Ganzen nicht weiter auffallen.
Ersteres ist durchaus eine plausible Annahme, muesste streng genommen aber nachgewiesen werden. Letzteres ergibt sich daraus, dass unnatuerliche Artefakte selten auftreten (eine weitere Annahme, die eigtl. geprueft werden muesste, aber wenn die oft auftreten wuerden, dann waeren die Statistiken prinzipiell unbrauchbar) und sich ueber’s Jahr gesehen im Mittel … øhm … herausmitteln … bzw. im „Fehler verschwinden“. Im Wesentlichen gilt das Gleiche (das Selbe?) auch fuer natuerliche Artefakte.
Probleme gibt es nur bei Seiten die erst seit kurzem existieren, denn da stellen potentielle (natuerliche) Artefakte einen signifikanten Anteil der Daten und hatten noch keine Zeit sich „rauszumitteln“. Andererseits habe ich ca. 6 Millionen Seiten insgesamt und pro Monat gibt’s nur … … … ja wie viele neue Seiten gibt’s denn eigentlich pro Monat?

Zum Glueck kann man das aus diesen Daten extrahieren, wenn man die zwei folgenden (wieder: durchaus plausiblen) Dinge annimmt. Eine neue Seite hat vor dem Tag ihrer „Geburt“ null Klicks. Am Erstverøffentlichungstag wird die Seite mindestens ein Mal angeklickt; naemlich vom Schøpfer selbst. Ersteres muss man nicht mal nachpruefen, denn das geht nicht anders. Bei Letzterem bin ich mir unsicher, es fuehlt sich aber richtig an; die Wikipedia ist ja nicht mein Weblog, bei dem Artikel im Voraus geschrieben um dann am Tag der Verøffentlichung nicht gelesen zu werden. Falls nicht, dann kønnte man argumentieren, dass ’ne Seite eben erst dann „wirklich geboren“ wird, wenn der erste Leser drauf klickt.
Und hier sieht man die Anzahl der neuen Seiten pro Monat seit Beginn der verfuegbaren Daten (minus ein Monat, denn als Ende 2007 die allerersten Klickzahlen registriert wurden, gab es bereits ca. 3.5 Millionen Seiten):

Die groszen Abszissenstriche kennzeichnen den Januar eines Jahres und die kleinen Abzsissenstriche liegen genau in der Mitte (also zwischen Juni und Juli). Die Jahreszahl ist auf die Mitte eines Jahres zentriert. Auszerdem habe ich natuerlich NUR die Seiten betrachtet, welche in die Kevin Bacon Analysen der letzten Jahre eingeflossen sind.

Was man im Diagramm sieht ist, dass die Anzahl neuer Seiten pro Monat _drastisch_ abgenommen hat. Die Gerade habe ich nur zum Vergleich reingelegt und bei logarithmischer Ordinate entspraeche die einem exponentiellen Abstieg … und wenn man genau hinschaut, ist das tatsaechliche Gefaelle schneller! An dem laengerfristigen Trend konnten auch die Schreibspurts (die pløtzlich auftretenden Spitzen) nur relativ kurzfristig was aendern. Bis Mitte ca. 2015 setzte sich der Trend fort und stabilisierte sich dann auf ca. zehntausend neue Seiten pro Monat, mit _ganz_ leicht steigender Tendenz (ca. 13k pro Monat Ende 2020).

Mit Blick auf Artefakte in neuen Seiten ist im Wesentlichen nur das letzte Jahr relevant. Wir reden hier also von nicht mehr als ca. 150-tausend Seiten oder ungefaehr 2.5 Prozent der ca. 6 Millionen Seiten die in meine Betrachtungen eingflossen sind. Jut … muss ich mir also keine Sorgen deswegen machen.

Das soll reichen fuer heute. Beim naechsten Mal zeig ich dann das, was ich eigtl. zeigen wollte.

Ich versuche es heute mal anders.

Spinner (nicht nur die ueblichen) erkennt man mitunter nicht sofort. Das liegt daran, dass diese oft zunaechst nicht unplausibel klingende Geschichten erzaehlen und auf den ersten Blick zwingend erscheinende Sachzusammenhaenge darlegen. Dies dient dann meistens (immer?) als Einleitung fuer Unerhørtes.
Ein einfaches und legitimes Mittel um solchen Spinnern nicht auf den Leim zu gehen, ist in solchen Faellen der Merksatz: fuer eine so krass auszergewøhnliche Sache haette ich gerne ein paar gleich krass auszergewøhnliche Beweise (bevor ich die als richtig in Betracht ziehe).

Ein (all zu) einfaches Beispiel sind UFOs. Ein paar verwackelte Bilder von Lichtern am Himmel reichen da nicht als Beweis. Insb. nicht mehr heutzutage, wo alle Leute mit Kameras in der Tasche rumlaufen. Und hier liegt der Knackpunkt, denn wenn pløtzlich entsprechend viele UFO-Videos ueberall (nicht nur in spezifischen UFO-Foren!) auftauchen wuerden, waere das sehr auszergewøhnlich. Das ist aber nur eine notwendige Bedingung um die Existenz von UFOs anzuerkennen. Hinreichend wird es auch dann, wenn man annimmt, dass so viele Videos nicht systematisch gefaelscht werden kønnten (das ist im Wesentlichen der Grund fuer die Klammer im vorvorhergehenden Satz).

Nun ist es aber auch hier so, dass ich der Aussage zwar durchaus zustimme, dem aber wieder vorsichtig begegnen møchte (wenn auch mglw. etwas weniger vorsichtig verglichen mit den zwei vorherigen Aussagen in dieser Miniserie). Es braucht nicht notwendigerweise massenweise Beweise fuer auszergewøhnliche Ereignisse. Im obigen Beispiel reicht ein einziges UFO, welches direkt vor meinen Fueszen landet. … Andererseits waere das ja an sich auch eher auszergewøhnlich.
Deswegen meine ich das eher in dem Sinne, wie es in der Mathematik (oder vielmehr (nach Popper) in allen Wissenschaften) passiert. In der Mathematik reicht ein einziges Gegenbeispiel (anstatt vielen) aus, um eine Theorie zu widerlegen. Das ist dann aber nur eine banale Rechnung die das Gegenbeispiel liefert.

Fuer Wissenschaften die „empirischer“ sind ist das folgende Beispiel aussagekraeftiger: wenn ein „Blips“ in einer Messung auftritt, der zu einer auszergewøhnlichen Aussage fuehren wuerde, dann ist der nicht zu verwerfen, sondern zu untersuchen. Denn wieder gilt, WENN der „Blips“ richtig ist, dann kønnte die Theorie falsch sein und das muss man wissen. Ist andererseits der „Blips falsch (also nur ein Messfehler oder statistische Fluktuation), dann ist das um so besser, denn dann ist mein Weltbild noch mehr gefestigt.
Aber ein „Blips“ an sich ist nichts auszergewøhnliches und den zu untersuchen auch nicht.

Oder noch anders, naemlich postmodern: sich widerstreitende Aussagen sind beide in ihren jeweils geltenden Systemen richtig und entsprechend falsch (und damit auszergewøhnlich) im jeweils anderen System. Ich kann dadurch aber viel lernen um andere Menschen besser zu verstehen, wenn ich das nicht mit der obigen Aussage sofort verwerfe.

Wie auch bei den anderen zwei Artikeln, faellt es mir schwer mich konkret auszudruecken. Schade … aber ich lass das mal so stehen und hoffe, dass ihr, meine lieben Leserinnen und Leser, das schon versteht was ich meine, auch wenn die passenden Worte fehlen.

Mit Kochen und Duschen (bzw. Brotbuechse fertig machen) sind viele Ereignisse die zu erhøhten Partikelkonzentrationen in meiner Kuche fuehren identifiziert. Ein paar kleinere, regelmaeszig auftretende Spitzen sind aber noch nicht gekennzeichnet. Um nicht all zu lange um den heiszen Brei herum zu reden, handelt es sich dabei ums fruehstuecken und das tritt in zwei „Formen“ auf. Die erste „Form“ ist relativ gut erkennbar, …

… denn obwohl sich das Signal (PM10, bei PM2.5 passiert fuer diese Ereignisse im Wesentlichen nix) mit ca. 4 µg pro Kubikzentimer nur wenig aus dem Untergrund hervorhebt, so ist es doch deutlich zu erkennen, denn besagter Untergrund vor und ein paar Stunden nach dem Ereignis ist im Wesentlichen null. Desweiteren erkennt man in der blauen Kurve eine spontane Temperaturerhøhung, die bei der Identifizierung des Vorfalls hilft.

Die zweite „Form“ …

… ist laengst nicht so gut zu sehen, denn das Untergrundsignal vorher und nachher ist relativ grosz (mglw. durch immer noch vorhandene Braten-brutzel-Partikel vom Abend zuvor). Das eigentliche Signal geht darin zwar nicht „unter“, aber es tritt auch nicht so deutlich daraus hervor, wie im ersten Fall. Auszerdem tritt auch keine klar erkennbare Veraenderung in der Temperatur auf. Die beiden Beispieldiagramme zeigen, dass man aber dennoch etwas sieht und weil diese Art von Ereignis immer zum gleichen Zeitpunkt auftritt ist es leicht mit dem Fruehstueck zu identifizieren.

Das erklaert dann auch, warum manchmal ein sprunghafter Temperaturanstieg diese Ereignisse begleitet (da backe ich mir Brøtchen im Ofen auf) und manchmal nicht (denn ich backe mir nicht jeden Tag Brøtchen auf).

Wenn man das in der Uebersicht eintraegt …

… stellt sich nur eine Frage: warum habe ich an dem Wochenende (31.10. und 01.11.) so frueh Fruehstueck gegessen?
Zunaechst dachte ich, dass ich in dem Zeitraum vielleicht ein urst spannendes Spiel gezockt habe (sowas laeszt mich durchaus auch mal frueher aufstehen). Ich schaute aber nach und dem war nicht so. Genaugenommen ist es so, dass ich am 31.10. ein Spiel abgeschlossen habe, fuer das ich ganz sicher nicht frueh aufgestanden waere. Andererseits kønnte auch das genau die Erklaerung sein, warum ich frueh aufgestanden bin. Dadurch, dass mich besagtes Spiel nicht so fesselte, bin ich am 30.10. vermutlich relativ frueh ins Bett gegangen und entsprechend frueh wieder wach gewesen. Am 31.10. war ich in der gleichen Situation, denn ich war fertig mit dem Spiel  am fruehen Abend und habe da sicherlich noch nicht mit dem naechsten Spiel angefangen … joa das hørt sich durchaus plausibel an.
Weiterhin ist zu bedenken, dass da gerade mal der erste Covidsommer vorbei war und Normalitaet sich noch nicht wieder eingestellt hatte. Das erklaert aber eher im Groszen und Ganzen, warum ich mir bspw. am Montag dem 01.10. Brøtchen aufbacke.

Nun sind nur noch ein paar wenige Sachen unerklaert … dazu mehr beim naechsten Mal.

Eigtl. war ich schon fertig mit Superman bzgl. dessen was ich mit dieser Miniserie dachte; ich habe die Comics auch nicht nochmal gelesen.

Aber seit ein paar Monaten haengen bei mir in der Stube drei Bilderrahmen, in denen ich die Cover von Comics zeige und die Motive wechsle ich unregelmaeszig aus. Nun entschied der Wuerfel beim letzten Tausch, dass es (mal wieder) Zeit ist Superman aufzuhaengen … … … au weia, das kann man auch anders interpretieren … und ich waehlte dieses Motiv:

Sehr schnell stellte sich heraus, dass das wohl eins meiner (bisher unentdeckten) Lieblingscover sein muss. Ich kann es gar nicht so richtig erklaeren warum. Klar, es enthaelt einen meiner Lieblingshelden (der andere ist Alpha Cenurion (B)) und es ist relativ „klassisch“ aufgebaut wuerd ich sagen (zwei Helden in Action eben) … aber irgendwie steckt dahinter noch mehr weswegen es mir so gefaellt. Vielleicht die Farbkombination? Oder die „klassische Kraft“ die in den Posen und Gesichtsausdruecken der Helden steckt? Die zu erahnende, (noch) unsichtbare, von unseren Helden zu ueberkommende Gefahr, welche sich nur durch die (mich duenkt) Klebstoffstrahlen bemerkbar macht? Ich weisz es nicht und lass es einfach mal so stehen.

Beim letzten Mal gab’s den Blumenkohl, den Brokkoli und Romanesco.

Aber das sind nicht die einzigen leckeren Brassica Oleracea Kultivare. Ein weiterer Favorit von mir ist der Kohlrabi. Frisch aus dem Garten, mit einer nicht zu groszen Knolle … ein sehr genussreicher (und bestimmt gesunder) Snack auf die Hand.
Leider ist Kohlrabi hier in Norwegen fast unbekannt. Also es gibt schon eine Erdfrucht mit dem gleichen Namen: Kålrabi … aber das ist eigtl. eine Steckruebe die UNTER der Erde waechst! Das wird zu Mus zermanscht und kommt Weihnachten auf den Tisch. Alle Leute hier scheinen das urst zu møgen, aber ich find’s nicht so doll. Entsprechend enttaeuscht war ich, als ich’s das erste (und alle weiteren) Mal(e) vorgesetzt bekam.

Erst seit ein paar Jahren seh ich hier ab und zu echten Kohlrabi in den Geschaeften. Aber die Norweger kønnen damit anscheinend nix anfangen. Bzw. habe ich den Eindruck, dass die daraus „instinktiv“ das Kålrabimus machen wollen (obwohl es ja ein ganz anderes Gemuese ist). Deswegen sind die Kohlrabis im Geschaeft urst dick. Aber dicke Kohlrabiknollen schmecken nicht lecker, sind diese doch fast immer „holzig“ … so gesehen, ist es also kein Wunder, dass die Norweger damit nix anfangen kønnen … und ich kaufe solche qualitativ massiv minderwertigen Kohlrabis auch nicht (von den zwei Malen die ich’s probierte abgesehen), denn die schmecken als roher Snack fuer Zwischendurch nicht lecker.

Echter Kohlrabi heiszt in Norwegen Knutekål und die Verwirrung mit den Namen ist „dem Norweger“ (wer immer das auch ist) nicht unbekannt. In einem Buch von 1926 steht bereits:

Kålrabi er det […] mest kjendte navn på denne plante hos oss. […] [D]et [har] stadig vært forvekslinger med en annen plante nemlig knutekål, som også er blitt kalt kålrabi […]
Kålrabi [Steckruebe] […] ist bei uns der bekannteste Name fuer diese Pflanzen. […] Es kommt oft zu Verwechslungen mit einer anderen Pflanze, naemlich Knutekål [Kohlrabi], die auch kålrabi genannt wird […].

Schon komisch, dass es ausgerechnet im Lande eines Henrik Ibsen zu solcher Wortverwirrung kommt.

Zu meiner groszen Freude scheint das ueber der Grenze etwas anders zu sein. Ich kenn mich da zwar nicht aus, und weisz nicht, was die Schweden damit machen, aber ich fand dort auch Kohlrabi in vernuenftiger Grøsze zum rohen Verzehr nach der Heimkehr aus dem Laden … war natuerlich nicht ganz so lecker wie aus dem eigenen Garten … aber auch nicht holzig und durchaus fein, wenn man sonst nicht an dieses Gemuese kommt.

Genug der vielen Anekdoten. Zum Abschluss ist festzuhalten: Kohlrabi ist auch nur Blumenkohl.
Eigentlich wollte ich auch heute ueber mehr als nur ein Gemuese schreiben … und der Kohlrabi ist nicht das beim letzten Mal versprochene „etwas verrueckte“, denn eine Verwandschaft mit dem Blumenkohl scheint nicht all zu weit hergeholt. Aber es gab so viel zum Kohlrabi zu erzaehlen, dass ich das auf’s naechste Mal verschiebe.

Beim letzten Mal fasste ich meine Erlebnisse mit den Selbstzitierungen zusammen und lande damit heute dann endlich bei der letzten untersuchten Grøsze, der Linkfrequenz.

Im ersten Kapitel dazu (XLII) fuehrte ich etablierte Analysen durch und bereits hier stellte sich heraus, dass die Resultate anders sind, als bei den anderen Grøszen. Oder anders: mehr Raetsel die es zu løsen galt. Und auch gleich hier machte sich ein „alter Bekannter“ — das „São-Paulo-FC-Artefakt“ — nicht nur nach langem „Schnueffeln“ sondern sofort und unmittelbar bemerkbar … zusammen mit anderen „Artefakten“, bei denen es schien, dass diese vom allgemeinen „Verhalen“ verdammt aehnlich Ersterem waren.

Das war nicht unerwartet, aber um das erklaeren zu kønnen, widmete ich Kapitel XLIII zunaechst dem besseren Verstaendnis des „Originals“. Diese Vorarbeit erlaubte es mir dann in Kapitel XLIV und XLV ohne weitere Umschweife die Betrachtungen auf die anderen „Artefakte“ zu erweitern.

Letztlich muendete all das in Kapitel XLVI (Teil 1 … oder A … oder wie ich das sonst immer kennzeichnete, denn hier unterliesz ich eine Zaehlung der (zwei) Teile und gab denen nur andere Titel) in einer neuen Betrachtungsweise der Daten, die ich bisher nicht unternommen hatte: das Histogramm der Integrale unter den Kurven der Seiten. Bei den totalen und neue Links bzw. den Selbstreferenzen kam da nicht viel bei rum. Wenn man weisz, wonach man gucken muss und die Erklaerung schon kennt, dann sieht man bei den totalen (und neuen) Linsk bereits das Archipel im „Schwanz“ der Histogramme. Aber das geht flieszend ineinander ueber und wenn man die Erklaerung noch nicht kennt, dann ist das schwer auseinander zu popeln.
Bei der Linkfrequenz hingegen trennt sich das Archipel ganz eindeutig vom Rest der Seiten und die neue Betrachtungsweise erlaubte eine vorherige Frage viel leichter zu beantworten (und damit das vormals erhaltene Ergebnis zu bestaetigen): welche Seiten gehøren zum Archipel? Dem widmete ich dann Teil 2 des selben Kapitels.

Danach ging es in Kapitel XLVII weiter mit einer weiteren (mittlerweile) Standardanalyse: wie sehen denn die vielen einzelnen Verteilungen aus? Das war aber schwer zu interpretieren und ich betrachtete in den zwei Teilen von Kapitel XLVIII die Idee einer „kollektiven Wanderung“ etwas genauer. Das war zwar durchaus interessant, aber da kam aber nicht wirklich viel bei raus.
Das Gleiche kann gesagt werden bzgl. der Abhaengigkeit des Wertes der Linkfrequenz auf einem Linklevel vom Wert auf dem vorherigen Linklevel, dem ich mich in Kapitel XLIX widmete. Das legte „nur“ eine weitere „Kuriositaet“ dar, die man bei linearen Skalen in den entsprechenden Diagrammen deutlich sah, aber nicht mit den sonst oft ueblichen doppellogarithmischen Skalen. Mal davon abgesehen, dass ich sowas immer verstehen møchte, widmete ich der „Kuriositaet“ nicht nur Kapitel L sondern auch Kapitel LI, denn es illustrierte so schøn die Wichtigkeit unterschiedlicher Ordinaten- und Abzsisseneinteilungen und wie solche unterschiedliche Informationen zu Tage førdern. Auszerdem gab mir die Beschaeftigung mit dieser „Kuriositaet“ die entscheidende Idee, wie ich weitere „Artefakte“ in den Daten aufstøbern kann.

Das ging ich dann sehr ausfuehrlich in den sechs Teilen des Kapitels LII an und das wichtigeste Ergebnis war, dass die „Artefakte“ gar keine Artefakte sind, sondern ein reales und oft (genug) auftretendes Phaenomen sind … auch wenn das nicht sofort zu erkennen ist und man das erstmal aus den Daten rauspolken muss. Ich nannte das dann „Familien“.
Dies kam dann entsprechend dem supertollen Erlebnis der Entdeckung der Archipele nahe … nur nicht ganz, weil ich besagtes Phaenomen schon lange erwartet hatte, aber vorher nicht wusste, wo ich da „ran komme“. Dafuer musste ich erst die erforderlichen „Werkzeuge“ (in Form der richtigen Analysen) „entwicklen“.

Das alles fuehrte mich dann doch nochmal auf die viel frueher bereits untersuchte, dann aber sogleich verworfene, Idee eines Phasenuebergangs innerhalb des Wikipedialinknetzwerks zurueck. Da ich nun alles viel besser verstand und von mehr „Seiten“ betrachtet hatte, konnte ich die Idee in den Kapiteln LIII bis LVII, nochmals angehen. Diesmal sehr viel erfolgreicher, denn ich fand sogar Groeszen, die als Ordnungsparameter angesehen werden kønnen. Ich bin da zwar sehr zufrieden mit meiner Arbeit (und mir), aber letztlich konnte ich damit leider nicht viel weiter mit anfangen.

Kapitel LVIII diente dann nur noch einem „Ueberbleibsel“ bzgl. der Linkfrequenz; einer bis dahin noch nicht durchgefuehrten Standardanalyse. Eine kleine Abweichung in dem Ergebnis betrachtete ich in Kapitel LIX (wieder einmal) sehr detailliert.

Das war’s dann mit der Linkfrequenz und ich dachte, dass es das dann auch im Groszen und Ganzen mit Kevin Bacon war. Aber in den vielen Monaten seit ich angefangen hatte, wurde ich mit einer (fuer mich) neuen „Diagrammart“ vertrau: doppellogarithmischen Plots bei denen die Ordinate den aufsummierten Wert der entsprechenden Grøsze darstellt. Damit schaute ich mir alle vorhergehenden Ergebnisse nochmal an und Kapitel LX wurde dadurch acht Teile lang.
Von einer Ausnahme abgesehen, kam dabei nichts total Bemerkenswertes  heraus. Das ist aber auch gut, denn es waere doch sehr peinlich gewesen und haette mich in Erklaerungsnot gebracht, wenn die „neuen“ Diagramme all zu hohe Abweichungen von den ersten Ergebissen aufgewiesen haetten. Vielmehr wurden diese bestaetigt, in vielen Faellen sogar (weit) ueber den vorher als gueltig akzeptierten Bereich hinaus.
Die Ausnahme waren nur die Archipele, bei denen diese Art von Diagramm etwas Neues zutage førderten. Letztlich lag das aber „nur“ an der verminderten Unsicherheit durch die neue Art der Betrachtung und ich fand recht schnell eine Erklaerung.

Und dann dachte ich schon wieder, dass ich fertig war … nur um zu merken, dass ich die einzige … zugegeben, nicht direkt gestellte, aber implizit gegebene … Frage aus dem allerersten Beitrag noch gar nicht beantwortet hatte:

[W]ieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?

Auf die Beantwortung der Frage „warf“ ich mich dann nochmal mit groszem Elan und betrachtete das sehr detailliert. Deswegen besteht Kapitel LXI auch aus acht Teilen.

Das war’s dann aber wirklich (fast) … und mit diesem Beitrag ist’s nun auch tatsaechlich genau drei Jahre her, dass die Kevin Bacon Maxiserie los ging. Inklusive diesem hier verøffentlichte ich 136 Artikel unter dem Kevin Bacon Titel … Das ist ein „sportliche“ Abweichung von meiner ersten Abschaetzung, dass ich wohl nach sechs Artikeln fertig bin.

Damit kann Kevin Bacon als abgeschlossen angesehen werden … aber noch nicht als zu Ende, denn wie erwaehnt, war’s das noch nicht ganz … es folgt ein Anhang, mit Sachen die mir waehrend des Schreibens der Zusammenfassung untergekommen und noch interessant sind … aber … wait for it … das sollen nur ein paar wenige Artikel werden … tihihi.

Neulich stolperte ich ueber einen Artikel von Sisodiya, S. M. et al. im Journal of Medical Genetics, 44(6), 2007, p. 373–380 mit dem „Titel Genetic enhancement of cognition in a kindred with cone–rod dystrophy due to RIMS1 mutation„.

Dabei untersuchten die Autoren eine Familie in der einige der Mitglieder aus genetischen (und vererbbaren!) Gruenden ca. Mitte 20 blind werden. Das ist natuerlich schlecht fuer die Leute, aber das ist ein super Kandidat fuer Untersuchungen, in der  Mendelsche Randomisierung benutzt wird.

Das krasse weswegen der Beitrag diesen Titel hat ist nicht, dass die blind werden, sondern dass die Blinden im Durchschnitt ca. 20 IQ-Punkte schlauer waren, als ihre nicht-blinden Geschwister (und naeheren Verwandten). 20 IQ-Punkte Unterschied in die positive Richtung sind urst krass und nicht mal das Entfernen von Blei aus der Umwelt oder der Einsatz von Jodsalz kommt da ran (zumal letztere auch auf den Durchschnitts-IQ ganzer Populationen wirken und nicht direkt mit individuellen IQs in Verbindung gebracht werden kønnen). Aber weil das NUR die Blinden betrifft wird das noch krasser, denn obwohl …

[a] A genetic contribution to variation in human intelligence is well established […]

… ist es doch so, dass …

[…] the identities of the genes responsible remain elusive.

Oder anders:

[…] no definite genetic causes of enhanced cognition are established […].

Auf all das ging ich insb. in den Nachtraegen zur Intelligenzquotientreihe bereits ein. Ich schreibe hier aber schon wieder darueber, denn genau das Gegenteil dessen was im letzten Zitat „bemaengelt“ wird scheint bei dieser Familie der Fall zu sein und das entsprechende Gen ist wohl RIMS1. Krass wa! … … …

… … … Oder auch nicht, denn kurz nach dem ich obigen Artikel gelesen hatte, stolperte ich ueber „Dominant Cone Rod Dystrophy, Previously Assigned to a Missense Variant in RIMS1, Is Fully Explained by Co-Inheritance of a Dominant Allele of PROM1“ von Martin-Gutierrez, M. P. et al. in Investigative Ophthalmology & Visual Science, 63 (9), article 14, 2022.

Die Autoren benutzen bessere Techniken und (viel) groeszere Datensets (es ist urst krass viel passiert in den 15 Jahren zwischen den beiden Artikeln).
Das Resultat (in kurz): RIMS1 ist nicht fuer die Blindheit verantwortlich.
Das Resultat (in etwas laenger aber immer noch all zu verkuerzend und alle statistischen Argumente weglassend): es gibt ein weiteres Familienmitglied OHNE die RIMS1-Mutation, welches aber mittlerweile auch blind geworden ist. Leider (#1) stand dises nicht fuer weitere genetischen Untersuchungen zur Verfuegung, aber alle ANDEREN Blinden Familienmitglieder sind Traeger einer PROM1-Mutation, die viel deutlicher mit Blindheit assoziiert ist, als RIMS1. Leider (#2) geht es Martin-Gutierrez, M. P. et al. nicht im Geringsten um kognitive Faehigkeiten. Leider (#3) wurde mit dem (jetzt auch blinden) Familienmitgleid ohne RIMS1-Mutation damals kein IQ-Test durchgefuehrt … die krasse Sache die ich oben schrieb bleibt also mindestens halboffen.

Ich schreibe „halboffen“, denn im ersten Artikel scheint ja dennoch alles auf genetische Ursachen der erhøhten Intelligenz (und Blindheit) hinzudeuten. Die nicht-blinden Familienmitglieder sind naemlich normal intelligent … es ist halt nur mglw. nicht RIMS1 … und hier stoppe ich mich selbst, denn ich habe davon ueberhaupt keine Ahnung und verfalle in reine Spekulation ohne sicheres „Fundament“.

Nebenbemerkung: Martin-Gutierrez, M. P. et al. legen uebrigens gut dar, dass diese Missattribuierung jedem haette passieren kønnen und definitiv nicht Sisodiya, S. M. et al. in die Schuhe zu schieben ist, denn die ganze (nicht nur genetische) Situation in dieser Sache ist so ungewøhnlich und kann auch heute noch leicht mit statistisch-gesehen-muss-RIMS1-fuer-die-Blindheit-verantwortlich-sein verwechselt werden.

Lange Rede kurzer Sinn: es sieht fuer mich trotz aller Widrigkeiten so aus, dass man einer genetischen Ursache fuer krass erhøhte Intelligenz auf der Spur ist. Sollte dem so sein, bleibt diese leider auch hier wieder mit einem massiven Nachteil verbunden.

Es ist ja eine alte Weisheit, dass in Japan alles supermodern ist. Ein Aspekt davon ist, dass ich mir ’ne lokale (!) „Piepskarte“ fuer den øffentlichen Nahverkehr in Tokyo kaufen kann und die dann auch in Sapporo funktioniert … und in Kyoto … und in Hiroshim … und auch in Ishinomaki … (hab’s nicht probiert in Nagasaki).

In Dtschl. ist das so unvorstellbar, sich in Berlin BVG-Ticket zu kaufen und dass das dann auch in Hamburg zu gebrauchen ist, dass ich mich nicht erinnern kann, dass eine derartig futuristische Idee in all meinen Jahren auf diesem Planeten jemals in der øffentlichen Diskussion vorgekommen ist. Denn das geht ja gar nicht! Das waere ja der Untergang des Abendlandes, wenn sowas funktionieren wuerde. Und in Norwegen ist das nicht anders.

Aber darum soll es heute gar nicht gehen. Vielmehr geht es mir um diese, auf den ersten Blick furchterregenden Maschinen:

Das ist eine Busbeførderungsentgeldbezahlmaschine und ich sage es mal sofort: da piepst nix. Aber der Reihe nach.

Ich habe versucht so viele Aspekte der Reise wie møglich im Vorraus zu planen. Einfach um „logistische Probleme“ zu minimieren. Fuer die meisten Reiseziele (ob nun ganze Staedte oder ein Museum) schaute ich mir die drei W’s im Voraus an — wann / wie / womit (das wie bezieht sich auf die Reiseroute, nicht das Beførderungsmittel) komme ich da hin wo ich hin will. Das nahm mir meine Befuerchtungen und funktioniert ganz hervorragend, denn meistens faehrt ’ne U-Bahn … oder ’ne Straszenbahn.

Doch in Totorri wollten wir in die Wueste und da muss man ’nen Bus nehmen. Die obigen drei W’s sind auch bei Busfahrten schnell beantwortet und ich dachte zunaechst, dass ja dann wohl alles klar ist. Doch dann stolperte ich darueber, dass so ’ne Busfahrt ja auch bezahlt werden muss und meine „Piepskarte“ da nicht funktioniert.
Vielmehr ist es so, dass man, wenn man aussteigt, auf die Anzeigentafel schauen muss, wie teuer das dann wird. Das sind aber keine 90-Minuten-in-alle-Richtungen Tickets … sondern die Kombination aus Einsteige- und Aussteigehaltestelle bestimmen den Preis.
Das hørt sich kompliziert an (ich kann doch keine Japanisch lesen) … aber es wird noch besser, denn in die rot umrandete Box oben drauf auf der Maschine, muss man den Betrag PASSEND reinwerfen … und wo soll ich als Tourist denn MUENZEN herbekommen? Ich bezahle doch ueberall mit (Pieps)Karte bzw. bekommt man am Geldautomaten nur Zettel.

Es stellte sich dann heraus, dass die Anzeigentafeln auch und Englisch und somit fuer Leute wie mich lesbar sind. Auszerdem ist das Haltestellenpreisinformationssystem voll gut durchdacht, man findet sich also schnell zurecht. Ebenso voll gut ist die Løsung des Ich-hab-doch-nur-nen-zehntausend-Yen-Schein-Problems, denn den steckt man nur in den Schlitz am unteren Ende des grauen Kastens und die Maschine spuckt die richtige Anzahl an Muenzen aus.

Aber das wusste ich ja alles bei der ersten Busfahrt noch nicht. Entsprechend nervøs war ich und stellte mich ganz vorne an, um zu sehen wie die Anwohner das machen … dann wechselte ich nervøs mein Geld, zaehlte nervøs die Muenzen ab, liesz es nervøs in die rot umrandete Box fallen … und alles lief wie am Schnuerchen … so scheint das in Japan nunmal zu sein (fuer Touristen zumindest) … selbst mit so alter Technik.
Bei der naechsten Busfahrt war dann alles klar und ich war nicht mehr so nervøs, weil ich wusste wie gut das funktioniert.

Zum Abschluss sei noch dies gesagt: wenn ich das richtig verstanden habe, dann sind die Maschinen rein mechanisch, auch das interne Muenzensortiersystem, cool wa … selbst wenn es nicht aus Lego gemacht ist.

Beim letzten Mal stoppte ich die Zusammenfassung genau vor dem Beginn zu den Untersuchungen bzgl. der sog. Selbstzitierungen (pro Linklevel) … also auf welchem Linklevel die Ursprungsseite einer Linknetzwerkanalyse (von anderen Seiten) wie oft zitiert wird. Bevor ich damit anfing dachte ich nicht, dass da all zu viel zu holen sei und Kapitel XXVIII und XXIX schienen das zunaechst zu bestaetigen.
Doch dann schaute ich mir in Kapitel XXX ein relativ kleines Detail genauer an; buchstaeblich nur ein einziger Balken in einem Balkendiagramm voll mit Balken, der etwas høher war als erwartet … und das war der Anfang eines (intellektuell) wunderbaren Abstechers, denn dadurch wurde ich auf ein komplett neues, bisher vøllig verstecktes Phaenomen im Linknetzwerk der Wikipedia aufmarksam: Wissensarchipelen.

Ich wollte die Diskrepanz in der Høhe des oben erwaehnten Balkens erklaeren kønnen und den Mechanismus der dazu fuehrt aufklaeren. Ich begann die Entdeckungsreise mit der einfachsten Idee, dass es Seiten gibt die nicht vom Rest der Wikipediaseiten zitiert werden. Diese allererste „Insel“ des „Archipels“ erfuhr unmittelbar eine Erweiterung um solche Seiten, die zwar auch nicht von „auszen“ zitiert werden, aber sehr wohl von besagter ersten Insel.
Mit diesem einfachen Mechanismus konnte ich ueber 95 % der Diskrepanz des Balkens erklaeren. Ich ueberlegte ernsthaft, ob ich mich dem Rest widmen sollte, denn das faellt doch alles in den 10-Prozent-Fehler. Aber da packte mich die Entdeckerlust noch mehr und ich erweiterte das einfach Archipelmodell erheblich.
Ich bin bis heute stolz auf die Ideen und auch (wieder) die Diagramme, denn noch einmal sind diese eine so schøne Illustration, wie wissenschaftlicher Erkentnissgewinn zustande kommt: eine kleinen Diskrepanz weckt die Kuriositaet der Forscherin welche sich das mal genau anschaut um dann zunaechst einfache Ideen „daran“ auszuprobieren, welche im Verlauf der Untersuchungen weiterentwickelt werden. Und am Ende ist die Diskrepanz erklaert, aber das eigentlich coole ist nicht die Erklaerung an sich, sondern dass man etwas vøllig Neues und Unerwartetes entdeckt hat, von dessen Existenz man vorher nichts ahnte.

Ich baute dann noch ein schøn rekursives Programm, mit dem ich alle Inseln des Archipels finden konnte und schwuppdiwupp … war nicht nur die Gueltigkeit des erheblich erweiterten Archipelmodells nachgewiesen, sondern (nach ein paar weiteren, einfacheren Ueberlegungen) die Diskrepanz zu 99.996788 % erklaert … Hurrah … Wait! What? … 15 Seiten die zur Diskrepanz beitragen entzogen sich den Erklaerungen und ich benøtigte einen Spaziergang um eine Idee zu bekommen was das fuer Seiten sein kønnten … die Idee stellte sich zum Glueck als richtig heraus … Spaziergaenge sind voll fetzig und regen mein Gehirn oft an :) .

Das war’s dann mit der Aufklaerung des Diskrepanz in der Høhe eines Balkens und das einzige Mal, bei dem ich mich nicht nur mit einer Erklaerung zufrieden gab die gut genug ist, sonder alles bis auf die letzte Zahl genau untersuchte.
Aber das das war’s noch nicht mit den Archipeln. Denn nach deren Entdeckung habe ich natuerlich deren Eigenschaften untersucht und mir eine zugehørige Kuriositaet angeschaut.

Dies alles zaehlt definitiv zu den schønsten Dingen die mir im Laufe des Kevin Bacon Projektes passiert sind … und der Besprechung dieser Erfahrung widmete ich einen eigenen Weihnachtsbeitrag :) .

Zu den Selbstreferenzen schloss ich in Kapitel XXXII ein paar lose Enden ab und dachte das war’s dann … um genau dort festzustellen, dass die einzelnen, linklevelabhaengigen Verteilungen der Selbstreferenzen sich vøllig anders verhalten als bei den totalen (oder neuen) Links.

Das fuehrte mich auf eine weitere laaange Abschweifung, denn ich hatte deswegen die Idee, dass man dieses Verhalten ja mglw. mittels relativ einfacher Formeln und nur ein paar wenigen Parametern simulieren kønnte.
Deswegen untersuchte ich zunaechst ab Kapitel XXXIII die Eigenschaften dieser Verteilungen um besagte Parameter naeher zu bestimmen. Dabei entdeckte ich, dass das Sprichwort „Vom Hundertsten ins Tausendste kommen“ eine empirische Grundlage hat und sogar quantifizierbar ist … und erstellte das vllt. schønste Diagramm der ganzen Maxiserie.
In Kapitel XXXVI Teil 3 und Teil 4 fand dann endlich die Simulation statt, die eigtl. recht ordentlich ist. Gruende fuer Abweichungen von den Messungen diskutierte ich in den Kapiteln XXXVII und XXXVIII.
Das war zwar alles ganz nett und ich habe viel Zeit damit verbracht, aber ich bin selber nicht so richtig zufrieden mit dem Ganzen. Das ist aber nicht falsch zu verstehen. Ich bin zufrieden, dass das klappte und die Ergebnisse ganz gut sind. Aber es stellte sich kein so supertolles Entdeckergefuehl ein wie bei den Archipelen zuvor. Aber so ist das ja oft, man kann nicht immer nur und jederzeit das Allerfetzigste machen.

Die Selbstreferenzen schloss ich in Kapitel XXXIX mit dem Blick auf (mehr) Kuriositaten ab um in Kapitel XL nochmal kurz auf die totalen (und neuen) Links zurueck zu kommen. Letzteres geschah, weil ich im Zuge der vorherigen Betrachtungen eine Untersuchung der Daten durchfuehrte, die mir vorher nicht in den Sinn kam. Das ist ja nur natuerlich und sollte noch øfter passieren. Dabei kam aber nicht viel raus … bis auf Kapitel XLI, in dem ich wieder einmal (die Ursache von) Fehler(n) genauer betrachtete.

So … nun ist auch dieser Beitrag schon wieder so lang … ich dachte, dass ich die Zusammenfassung in nur einem (wenn auch etwas laengeren) Beitrag packen kønnte … aber das ist fuer Herr Bacon ja nix Neues, dass es mal (deutlich) laenger als erwartet dauert und laenger wird. Deswegen geht’s beim naechsten Mal mit den Untersuchungen zur letzten Grøsze, der sog. Linkfrequenz weiter. Und vielleicht bin ich dann ja auch beim naechsten Mal mit der Zusammenfassung fertig.

Beim letzten Mal war die eigentliche Sache noch offen und ich knuepfe ohne weitere Umschweife direkt daran an. Zur Erinnerung nochmal das Paradebeispiel eines Duschereignisses:

Die Diskussion der PM10 Werte steht noch aus und wenn man genauer hinschaut sieht man zwei Dinge die geschehen.

Das Erste ist eine ca. halbstuendige, leicht erhøhte PM10 „Aktivitaet“ ca. 20 Minuten vor dem groszen Signal. Die Aktivitaet ist immer da; manchmal etwas kuerzer, manchmal etwas laenger, und ich denke, dass es sich dabei um mein taegliches „Brote fuer den naechsten Tag schmieren und Kueche aufraeumen bevor es in die Dusche geht“ handelt.
An Tagen in denen ich nicht Dusche mache ich das auch, aber das sieht man dann nur in den Daten, wenn man danach sucht. Das liegt daran, weil dieses kleine Signal „unter geht“  im immer noch vorhandenen, viel grøszeren „Rauchsignal“ (NICHT RauSchsignal! … denn das ist definitv aus dem Rauschen raus) des Kochens … es ist aber da.

Die Pause von ca. 20 Minuten erklaert sich dadurch, dass da Ruhe in der Kueche ist und die ganze „Action“ hinter verschlossener Tuer im Badezimmer stattfindet.

Nach dem Øffnen der Tuer kommen die Wasserdampfpartikel mit einem Schlag an … und deren Konzentration nimmt auch ziemlich schnell wieder ab um dann fuer ein paar Stunden auf einer Art „Plateau“ um ca. 7 µg pro Kubikzentimeter zu „verharren“.
Diese Entwicklung laeszt sich leicht erklaeren: nach der „Freilassung“ (Spitze in der schwarzen Kurve), kondensiert der warme Wasserdampf an ALLEN Oberflaechen (Signal geht schnell runter). Gleichzeitig kuehlt besagter Dampf in der Stubenluft ab und tritt schnell in ein thermisches Gleichgewicht mit der Umgebung. Deswegen kommt es zu keiner weiteren Kondensation und die Konzentration bleibt gleich. Bzw. nimmt diese nur langsam ab, indem die Partikel (langsam) zu „Luftfeuchtigkeit“ werden bzw. weitere Kondensation an den kalten Fenstern stattfindet, deren Oberflaeche aber viel kleiner ist, als der aller Gegenstaende (und Waende) im Hauptraum.
Im obigen Diagramm ist das alles sehr ausgepraegt und ich nahm das mit Absicht eben als Paradebeispiel. So eine tolle „Anfangsspitze“ muss aber nicht auftreten. Die Erhøhung und „Plateaubildung“ gibt es aber immer.

Damit sind die Brotschmier- (B … an Tagen an denen ich mich nur gruendlich wasche, aber nicht dusche) und Duschereignisse (D … welches auch IMMER B enthaelt, aber nicht umgekehrt) betrachtet und das Ganze kann in der Gesamtuebersicht gekennzeichnet werden:

Es gibt ein D mit Fragezeichen (am 2020-11-04) und das hat das Fragezeichen deswegen, weil ich da dann drei Tage hintereinander dusche. Das kann schon sein und passiert ab und zu … ich erinnere mich nicht mehr und meine Notizen der Messkampagne sind mir abhanden gekommen *schaem*.
Ebenso ist das B am 2020-10-31 nur deswegen (relativ) gut erkennen weil ich ganz kurz vorher den ganzen, noch vorhandenen Rauch „weg lueftete“. Wenn ich mich richtig erinnere liegt der Grund darin, dass ich an dem Tag mit Absicht den Luefter beim Kochen nicht an machte. Diese deswegen, um zu schauen, wie sich das auswirkt (und es gab definitiv etwas in der Pfanne gebrutzeltes an dem Tag, daran erinnere ich mich sicher). Vor’m zu Bett gehen wollte ich dann aber doch fuer reine Luft sorgen.
Alle anderen B’s sieht man in der Gesamtuebersicht nur, weil ich das ran schreibe. Wie gesagt muss man da reinzoomen, genau hinschauen und wissen was man an der Stelle erwartet, um die B’s als „leichte Schultern“ im „Rauch“ zu sehen.

Das reicht bzgl. des Duschens. Wie man im Gesamtdiagramm ueber alle Tage aber sieht, ist noch nicht alles identifiziert … mehr dazu beim naechsten Mal.