Archive for the ‘Allgemein’ Category

.oO(Fast geschafft … das neue maechtige Werkzeug in aller Kuerze abzuhandeln).

Nachdem die Daten bedeutungskomprimiert und wertekomprimiert wurden, bleibt nur noch die spalten- bzw. reihenweise Normalisierung der komprimierten Daten uebrig. Die „Rohdaten“ wurden dieser Transformation bereits unterworfen und man konnte einige (nicht im Detail diskutierte) Phaenomene sehen. Damals fuehrte die Normierung der komprimierten Daten zur Entdeckung und Erforschung des „Blobs“. Das war durchaus spannend, aber so weit werde ich es heute nicht treiben.

Das hier ist allerdings der „dickste“ Brocken, denn bei zwei Achsenbedeutungen (Anzahl der Zitate oder Links), multipliziert mit zwei (um den verschiedenen „Achsenbedeutungskombinationen“ Rechnung zu tragen), multipliziert mit zwei Arten der Komprimierung (bedeutungskomprimiert oder wertekomprimiert), multipliziert mit zwei Arten der Normierung (reihen- oder spaltenweise), mal zwei Datensaetzen (2020 und 2023) will ich heute 32 Falschfarbenbilder abhandeln.

Zum Glueck kann das alles schøn „verpackt“ werden, wodurch im Wesentlichen keine 32 Bilder einzeln diskutiert werden muessen. Der „Wechsel“ zwischen den verschiedenen Datensaetzen ist bereits bekannt. Die folgenden Bilder sind zunaechst nach der Art der Normierung getrennt (erst die spaltenweise, dann die reihenweise Normierung). Eine weitere Trennung erfolgt nach der Art der Komprimierung (jeweils erst die Bedeutungs-, dann die Wertekomprimierung). Die vier (wechselnden) Falschfarbenbilder die uebrig bleiben sind in ein Gesamtbild gruppiert. Darin repraesentiert die Abzsisse der oberen beiden Bilder die Zitategruppe und der unteren beiden die Linksgruppe, waehrend die Ordinate der beiden linken Bilder die Zitategruppe und der beiden rechten Bilder die Linksgruppe darstellt.
Dank der Normierung kuemmert auch die Falschfarbenskala nicht all zu sehr, denn die geht immer von null bis eins. Und die Komprimierung erfolgte wie in den entsprechenden Beitraegen besprochen; jede Spalte / Reihe sollte ungefaehr ein Prozent der jeweiligen „Werte“ enthalten (mit wichtigen, zu beachtenden Ausnahmen, die in den besagten Beitraegen besprochen wurde!).

Dennoch bleibt der Aufwand grosz (ihr, meine lieben Leserinnen und Leser solltet lieber nicht fragen, wieviel Arbeit ich in die Erstellung der Falschfarbenbilder gesteckt habe) und deswegen werde ich nicht alles im Detail besprechen; insb. nicht bereits bekannte und diskutierte Phaenomene.

Genug der Vorrede und hinein ins Vergnuegen (und ein Vergnuegen ist es, denn man sieht so viel … irgendwie schade, dass ich das nicht mehr im Detail erforschen werde).

Hier sieht man die spaltenweise normierten, bedeutungskomprimierten Falschfarbenbilder:

Fetzt wa!
Das linke obere Bild ist der zu reproduzierende Teil und davon abgesehen, dass das damalige Farbschema Informationen hervorhebt die so nicht hervorgehoben werden sollten, ist alles wie erwartet.

Bei den beiden linken Bildern ist die grøszte Intensitaet in nur einer Spalte am jeweils unteren Rand. Das entspricht dem bereits sehr lange bekanntem Resultat, dass im Wesentlichen alle Seiten von anderen Seiten zitiert werden die selber nur (sehr) wenige Zitate erhalten.

Die beiden rechten Bilder sind da schon spannender. Die horizontalen hellen Streifen sind Artefakte durch die „Stufen“ in der Komprimierung. Die vertikalen dunklen Streifen (insb. im rechten unteren Bild) kommen durch die eine, sehr intensive, unterbrochene Reihe bei ca. Zitategruppe 8 zustande; eben weil die so viel „Intensitaet“ auf sich vereint, ist dann nicht mehr genug „uebrig“ fuer die restlichen Zellen in der Spalte. Dieser Streifen ist bereits in vorherigen Beitraegen aufgefallen und da hatte ich den auch schon nicht weiter untersucht. Im rechten unteren Bild sieht man noch eine helle Diagonale. Das ist ein (ebenso bereits bekanntes) Artefakt der Rohdatenverarbeitung und kommt durch Seiten die sich selbst zitieren zustande.
Ansonsten sagt die ungefaehr gleiche Intensitaet ueberall aus, dass es egal ist wie viele Zitate oder Links eine Seite selber hat, sie wird um Durchschnitt gleich oft von Seiten mit wenigen, mittelvielen, oder ganz vielen Links zitiert. Das ist an sich schon durchaus interessant. Das Wørtchen „ungefaehr“ ist aber wichtig, denn wenn man genau hinschaut, scheint es im rechten oberen Bild einen breiten Streifen von links oben nach rechts unten zu geben (besser zu sehen in den 2023 Daten). Das wuerde bedeuten, dass Seiten mit wenigen Zitaten ein bisschen øfter von Seiten mit weniger Links zitiert werden und Seiten mit vielen Zitaten øfter von Seiten mit mehr Links. Das kønnte als ’ne Art „Dynamik“ im Linknetzwerk interpretiert werden und ist mglw. hoch spannend naeher zu untersuchen.

Bei den spaltenweise normierten, wertekomprimierten Falschfarbenbildern …

… ergibt sich im Wesentlichen das Gleiche. Bei den beiden linken Bildern ist der intensive Bereich nur um eine Reihe nach oben gerueckt und „verschmiert“, aber das ist von vorher bekannt.
Im linken oberen Bild sieht man bereits den „Blob“, wenn man weisz wonach man schauen muss.

Damit kann ich zu den reihenweise normierten Falschfarbenbildern uebergehen. Zunaechst wieder die Bedeutungskomprimierten:

Das linke obere Bild ist wieder das was zu reproduzieren war und im Vergleich sieht man, warum die neue Farbpalette so viel besser ist. Wichtig: man sieht den „Blob“ ganz deutlich. .
Die beiden oberen Bilder werden im unteren (ca.) Drittel der 2023 Daten dunkler, was natuerlich wieder durch die Praeszenz der Wikipedia Hauptseite zu erklaeren ist. Die Hauptseite ist in den unteren Bildern der helle vertikale Strich und wenn man sich das genau anschaut, sieht man leicht, dass eben diese fuer die Intensitaetsveraenderungen auch hier verantwortlich ist.

Wenn man den Einfluss der Hauptseite „rausrechnet“ (und vom „Blob“ absieht), dann ist die Intensitaet bei diesen Bildern im Wesentlichen ueberall gleich. Bei der Interpretation dieses Ergebisses muss man sich daran erinnern, dass hier die REIHEN normiert sind. Man schaut also NICHT wie oben wo auf der Abzsisse sich die eine Seite von Interesse befindet um dann rauszufinden welche andere Seiten Erstere zitieren. Vielmehr schaut man zuerst wo auf der Ordinate die Seite von Interesse liegt und wen diese zitiert. Eine ungefaehr gleiche Intensitaet ueberall bedeutet dann also, dass es egal ist wieviele Zitate oder Links eine zitierende Seite hat, diese zitiert im Durchschnitt ungefaehr gleich viele Seiten mit wenigen Zitaten / Links, mittelvielen Zitaten / Links und vielen Zitaten / Links.
Es gibt natuerlich Ausnahmen; bspw. die etwas erhøhte „Aktivitaet in der „Region ueber dem Blob“ im linken oberen Bild. Diese Ausnahmen sind dann extra spannend und waeren zu untersuchen.

Nun gibt es zu den reihenweise normierten, wertekomprimierten Falschfarbenbildern …

… fast nix mehr zu sagen, weil da alles sehr aehnlich aussieht.
Von besonderem Interesse ist nur der „diagonale“ Streifen. Bei den bedeutungskomprimierten, Linksgruppe-ueber-Linksgruppe, bzw. Zitategruppe-ueber-Zitategruppe Bildern ist der tatsaechlich diagonal und von ’nem kleinen Knick abgesehen gilt das auch fuer die wertekomprimierte, Linksgruppe-ueber-Linksgruppe Darstellung. Aber im linken oberen Bild sieht man, dass dieser Streifen recht krumm ist (und wenn man zu den reihenweise normierten Bildern zurueck geht, sieht man das auch dort, nur nicht so deutlich). Auch das kønnte wieder als eine Art „Dynamik“ interpretiert werden, aber vermutlich andersgeartet als die oben erwaehnte (vllt. aber auch nicht).

Hach ja … spannend, spannend, spannend … und all das bringt das neue Werkzeug ans Tageslicht. Cool wa!

Fuer mich reichts aber damit. Dafuer dass ich das urspruenglich gar nicht machen wollte, sind da ganz schøn viele Beitraege draus geworden. Bevor ich mich an diese Sache setzte schrieb ich:

[…] ich [hatte] da[mals] „nur“ bunte 2D-Falschfarbendarstellungen bei denen ich genau „reinzoomen“ musste um Details zu besprechen. Oder anders: bei denen sieht man bei so kleinen Veraenderungen ohnehin keinen Unterschied (und „reingezoomt“ hatte ich nur bei Anomalien die vermutlich immer noch da sind und wenn nicht mir auch nix ueber das Grosze und Ganze verraten). Solche „bunten Karten“ kann ich auch nicht zum besseren Vergleich uebereinander legen. Vermutlich werd ich da also nicht nochmal drueber schauen mit den neuen Daten […].

Tja, da hab ich mich gehørig getaeuscht und ich bin froh, dass doch gemacht zu haben. Und beim naechsten Mal dann … uff … weisz ich gerade noch gar nicht … vermutlich muss ich erstmal wieder was in meinem Code aufraeumen und neu schreiben, bevor ich die naechste Sache bzgl. der Reproduzierbarkeit checken kann.

… von mir, fuer mich … zum 44. Geburtstag … auch wenn ich es mir bereits drei Wochen vorher selbst schenkte (im Erwachsenenalter nennt man das auch ganz profan „kaufen“):

Ihr meine lieben Leserinnen und Leser habt das was ich in diesem Beitrag schreibe sicherlich schon gehørt, denn ich liege damit allen in den Ohren die den Fehler begehen und mich davon erzaehlen lassen und ich erzaehle immer das Gleiche. Aber ich schreib das hier mehr fuer mich auf … wobei das ja nix Neues ist … ich schreib ja alles hier fuer mich.

Zunaechst einmal ist das mglw. das schwerste Buch das ich habe. So schwer, dass es den Raum kruemmt … *badum tss!* … andererseits macht das ja sowieso alles was irgend eine Form von Energie hat … ob mit oder ohne Ruhemasse.
Als die zierliche Buchladenkassenperson es aus dem „bestellte Buecher“-Regal wuchtete meinte sie, dass sich die Belegschaft ueber die fast drei kg die dieses Buch wiegt unterhalten haben als es angeliefert wurde. Ich konnte mich nicht zurueckhalten und machte den naheliegenden Witz, dass das bei einem Buch ueber die SCHWERkraft ja passend ist … *Grillengeraeusche* … ein Witz der auch auf norwegisch funktioniert. Aber die englische Sprache ist arm dran, denn dort hat die Gravitation zwar alles mit Schwerkraft und auch mit Schwere zu tun aber nichts mit den Wørtern die fuer Letzteres stehen … ist halt alles relativ … *tumbleweed* … … … so genug der Vaterwitze.

Von vorne sieht man nicht wo die viele Masse herkommt. Deswegen ein Bild von der Seite, mit einer Banane zum Vergleich:

Solange ich mich erinnern kann, dass ich denken kann, wollte ich die Einsteins Gravitationstheorie verstehen. Das war dann auch einer der Hauptgruende warum ich Physik studierte. Und die Ursache dafuer lag irgendwie (mal wieder) bei Captain Picard; bzw. allgemeiner drueckt das ’ne eigene Kategorie auf diesem Weblog aus … mit dem erklaerenden Geburtstagsbeitrag dazu. Und wenn man in der unmittelbaren Naehe von Neutronensternen, schwarzen Løchern und supermassiven Sternen ueberleben will, sollte man besser verstehen, was die mit dem Medium in dem man (und die) sich bewegen (diese ominøse Raumzeit) machen. Und auf die Frage warum man sich ueberhaupt in die Naehe von den Dingern wuerde bewegen wollen kann ich nur antworten: natuerlich um mal in die rein zu beiszen … macht ja sonst keiner.

Wieauchimmer, ich wollte mir die Allgemeine Relativitaetstheorie also schon sehr lange zu Gemuete fuehren, denn zu meiner Ueberraschung hatten wir dazu keinen Kurs waehrend des Studiums. Ich belegte damals zwar einen Kurs zur Kosmologie, aber der war, trotz eines ganz tollen Professors, nicht so doll … es fehlten einfach die Grundlagen und die sind … massiv (siehe oben) … okok … das soll nun wirklich der letzte Vaterwitz gewesen sein.
Waehrend des Studiums hatte ich dann andere, mitnichten nur mit der Physik oder dem Studium zusammenhaengende, Sachen zu tun. Aber waehrend dieser Zeit las ich mir auch ein Buch zur LASERtheorie durch (noch so eine Sache die mich brennend interessiert(e)) … ein erstes Zeichen des Erreichens des eigentlichen Studienziels … auch wenn ich zu dem Zeitpunkt noch mittendrin … und beim Lesen des LASERtheoriebuches auch in Paris … war … Letzteres halte ich in freudiger Erinnerung und das ist der Hauptgrund warum ich dieses Buch nicht ausruempeln kann, auch wenn ich es sicher nicht aus Spasz an der Freude nochmal lesen werde … aber ich schwoff ab (auch wenn ich darauf nochmal zurueckkommen werde).

Nach dem Studium (und dem ersten Doktor) fing ich an mir ein Buch zu den den mathematischen Grundlagen der Physik zu Gemuete zu fuehren … auch daran erinnere ich mich mit Freuden, war es doch mit vielen Aha-Momenten verbinden … aber das schloss ich nie ab, denn das Leben kam „dazwischen“ … oder vielmehr passierte einfach so. Kind, Auswandern, erster Jobb (und ich vøllig fehl am Platze), (nicht nur Ehe)Stress, Scheidung, Depression, mehrere Arbeitsplatzwechsel, neue tolle Hobbies (siehe bspw. hier, oder natuerlich auch auf Brettern schneebedeckte Huegel runtersausen), alte tolle Hobbies (Zocken!) mit denen ich mehr und mehr Zeit verbracht habe (und auch verbingen wollte und will) weil die so ’ne schøne Flucht aus dem Alltag erlauben und Erfolgsmomente bescheren (siehe hier … aber nicht nur sowas) … so wie das Leben halt ist.
Ueber die Jahre las ich hier und da … naja, eigentlich nur hier im Physik Journal … zwei, drei (oder lass es auch vier oder fuenf gewesen sein) Rezensionen zu Fach/Lehrbuechern ueber Einsteins beruehmte Theorie und dann bekam ich immer einen kleinen „Stich“, denn da war ja noch was offen und ich wollte schon gerne aber es fuehlte sich nicht so an, als ob ich kønnte.

… … … und pløtzlich war ich Mitte 40, und das Kind kommt (fast) ohne mich zurecht, und meine Arbeit ist cool, und mein Leben ist in vielen Punkten ganz anders als die Jahre davor (auf eine gute, wenn auch nicht erwartet, Weise) und fuehlt sich (wieder) voll gut an … so gut, dass ich zum ersten Mal seit 1 1/2 Jahrzehnten mich nicht nur fuehle als wuerde ich nicht von der Stelle kommen und nur versuchen irgendwie zurecht zu kommen, mit der Hoffnung, dass keiner durchschaut, dass ich mich nur irgendwie durchwurschtele …  sondern vielmehr ist ein wesentlicher Aspekt der Studienzeit ein wieder da: Ueberschussenergie (was sich zum Beispiel auf darin aeuszert, dass ich im Buero mittlerweile viel mehr stehe) … Fetzt wa!

Das alles war ein nicht all zu schneller Prozess, aber bei und vor allem nach der groszen Japanreise wurde ich mir dem mehr und mehr bewusst … und dann schlich sich die „offene Sache“ ab und an in meine Gedanken … aber nicht mehr mit einem kleinen „Stich“, sondern mehr in der Art „wenn ich nur wollte, dann kønnte ich das møglicherweise durchziehen“. Und ich wollte immer mehr … und dann gingen eines Tages meine Gedanken zurueck an das Buch zur LASERtheorie und ich erinnerte mich, dass ich das mglw. tatsaechlich schaffen kann … die Skepsis lag berechtigterweise daran, weil es definitiv nicht einfach ist, denn ansonsten haetten wir das ja schon zum Studium gehabt.
Und dann formte sich der konkrete Entschluss, dass ich mich mal informieren sollte was fuer Buecher es so gibt. Es dauerte noch ein paar Wochen, bevor ich mich ran setzte und die Rezensionen in (ueber) 20 Jahren Physik Journal durchforstete. Dort stiesz ich auf den oben abgebildeten „Schinken“. Ich dachte, dass das ja noch nicht bedeutet, dass ich das auch mache.
Ich las ein wenig mehr darueber und im Internet sind zwar sehr viele Menschen begeistert, aber einige beklagen sich darueber, dass es „alt“ ist. Na klar! Das ist 1973 das erste Mal erschienen und hat nie eine Ueberarbeitug erfahren. Aber es wird auch immer wieder hervorgehen, dass es so gut ist und die drei Autoren so weitsichtig in der Auswahl der Themen waren, dass dies dem Buch bis heute nicht wirklich schadet. Wobei natuerlich zu beachten ist, dass jemand der dazu forschen will sich die Entwicklungen auf dem Gebiet nach 1973 zu Gemuete fuehren sollte (und die waren zum Teil beachtlich!) … aber ich will ja nicht die allerneuesten Erkentnisse haben, damit ich auf dem Gebiet forschen kann. Vielmehr wollte ich die Grundlagen und fundamentalen Prinzipien und Ideen verstehen … und die haben sich nicht geaendert. Als ich dann in ein paar Kommentaren las, dass es ein „veralteter Lehrstil“ sei, wusste ich, dass es genau das richtige Buch fuer mich ist; ich bin schon zu Studienzeiten besser mit aelteren Buechern (und Lehrstilen) zurecht gekommen … und dann wusste ich, dass ich das Buch „nur“ noch beschaffen (und mich dann auch ransetzen) musste.

Nur wenige Tage spaeter juckten mir die Finger und kribbelte mir der Bauch vor Freude und ich hielt es nicht mehr aus. An diesem schønen Sommertag machte ich mich eher spontan als geplant auf zur Universitaetsbuchhandlung und bestellte tatsaechlich „Gravitation“ von Charles W. Misner, Kip S. Thorne und John Archibald Wheeler … die jahrzehntelange Idee war dabei sich ganz konkret zu „materialisieren“ (Witze zum „Beamen“ gehøren nicht hier her, denn das ist (Post)Quantenphysik, also am ganz anderen Ende des Universums mit dem sich die Gravitation beschaeftigt) … … … *froi*.

Gleich zu Anfang bekam ich mit, warum wir das nie im Studium hatten. Ach die meine Nase! Das ist wahrlich harter Tobakk! Man muss dafuer entweder superschlau sein (also nicht ich) um das waehrend des Studiums (wo man noch so viele andere Sachen hat) schon zu verstehen oder eben einen Doktorandenkurs zu dem Thema besuchen … was eigentlich auch wieder unter Ersteres faellt, denn dort selbstselektieren sich eigtl. auch nur die Superschlauen hin (ich bin nur zur einfachen Halbleiter(experimental)physik gegangen … wobei das natuerlich insb. fuer mich nicht minder fetzig war). Das Buch entspricht dann auch ganz konkret einem Kurs fuer Doktoranden … und noch (viel) mehr, denn Material fuer einen Doktorandenkurs macht nur ca. 1/3 des Buches aus und ist als „Track 1“ markiert … der Rest ist „Track 2“ und geht (weit) darueber hinaus.
Ich war mir vorher bewusst, dass das vermutlich meine heutigen zerebralen Faehigkeiten uebersteigt. Deswegen habe ich die Chance dieses Projekt abszuschlieszen anfangs auf ca. 20 % eingeschaetzt. Ich merke schon deutlich, wie sehr viel gedanklich schneller und mobiler ich mit ’ner 2 anstatt ’ner 4 als erste Zahl meines Alters war. Es fehlt natuerlich auch der Professor um Fragen zu stellen … hach … wie gern ich diese Møglichkeit des Fragens gerne haette, um Sachen besser zu verstehen … so wie im Studium … *seufz*.

Es ging dann (sehr) langsam voran und ich erkannte schnell, dass es ein laengeres Projekt wird, die ueber 1200 Seiten durchzuarbeiten … und das trotzdem ich mit dem Buch grosze Zeitraeume meines Tages verbringe und sogar mein geliebtes Zocken hinten anstelle … im Durchschnitt schaffe ich weniger als 10 Seiten pro Tag … aber eine Schnecke die jeden Tag ein kleines Stueckchen kriecht kommt auch voran.
Die ersten paar Wochen mochte ich die Erfolgschancen auch nicht (stark) erhøhen. Das lag nicht zuletzt daran, weil ich vieles eher „intuitiv“ als quantitav verstehe. Aber bei (fast) allen Formeln kann ich zumindest im Augenblick des „Bearbeitens“ verstehen wo die (mathematisch / konzeptionell) herkommen und was die bedeuten. Es ist aber so viel und so komplex (es werden vier Alfabete genutzt, weil die Symbole von dreien nicht ausreichen um all die verschiedenen Sachen und Ideen in kurze Zeichen zu packen!), dass ich Einzelheiten meist (aber nicht immer) schnell wieder vergesse. Bei Gebrauch gewisser Formeln muss ich dann nachschlagen und erinnere mich dann diffus dran, dass ich das ja beim ersten Auftreten durchgerechnet und verstanden habe und dass das schon stimmt und ich das jetzt auch einfach so verwenden kann, ohne dass ich das nochmal durchrechnen muss … aber das ist ja letztlich genau so wie beim Studium … … … *froi*

Zum Zeitpunkt des Schreibens sitze ich seit 12 Wochen an dem Buch und bin ungefaehr auf Seite 750 … also knapp 60 % durch … ich bin mal optimistisch und gebe mir eine 67 % Chance das Projekt komplett abzuschlieszen (70 % fuehlt sich zu hoch an, 65 % zu gering). Aber selbst wenn ich das Buch nicht komplett durchgearbeitet bekomme, weil es zu kompliziert wird, so ist das Projekt bereits erfoglreich. Mit den Grundlagen von Einsteins Gravitationstheorie bin ich naemlich durch und bei den Anwendungen angelangt … eben dem was in der Naehe von und in (nicht nur Neutronen)Sternen mit der Raumzeit und ueberhaupt dem Universum an sich passiert.

Fetzt wa! … Und das war dann jetzt doch anders (genug) als das was ich den Leuten erzaehl(t)e.

Die beim letzten Mal vorgestellte Wertekomprimierung wird heute in Falschfarbenbilder umgesetzt. Das Ganze geht schnell, denn das was man in solchen Darstellungen sieht und wie das zu interpretieren ist habe ich mehr oder weniger allgemein bereits mehrfach diskutiert. Beim vorletzten Mal besprach ich auszerdem im Detail, wie die Komprimierung auf solche Bilder wirkt und wie das zu verstehen ist. Ebenso muss der Einfluss der Wikipedia Hauptseite in den 2023 Daten nicht schon wieder auseinanderklamuesert werden.

Es gilt hier: dito … natuerlich mutatis mutandis in Betracht dessen, dass die Komprimierung (etwas) anders ist (und dadurch insb. die „Laenge“ der Ordinaten (vulgo: wieviele Zahlen drauf sind) deutlich unterschiedlich sein kann … aber das wurde auch bereits (mehrfach) betrachtet).
Die spannenden Sachen passieren, wenn man diese beiden Komprimierungen miteinander vergleicht (und damit meine ich NICHT eventuelle Intensitaetsunterschiede).

Zunaechst wieder die Falschfarbendarstellungen bei der die Abzsisse die (diesmal wertekomprimierte) Zitategruppen darstellt.

Das linke Bild ist im Wesentlichen das Gleiche wie beim vorletzten Mal. Dass rechte Bild hingegen ist von groeszerem Interesse, weil es null-komma-nix-nicht-mal-ein-winziges-bisschen von dem gleichen bedeutungskomprimierten Falschfarbenbild zu unterscheiden ist (abgesehen von der Beschriftung der Achsen). Der Grund dafuer war die Hausaufgabe vom letzten Mal:

Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. […]
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert.

Hiermit ist dann also auch …

[…] da muss ich dran denken, dass beim naechsten Mal zu kontrollieren

… abzuhaken :) .

Dank der vielen Vorarbeit war das auch schon alles dazu. Somit kann ich schnurstracks zur Falschfarbendarstellungen kommen, bei der die Abzsisse die (diesmal wertekomprimierte) Linksgruppen darstellt.

Im linken Bild gibt es diesmal einen wichtigen Unterschied: es gibt nicht nur einen hellen Streifen am unteren Ende des Diagramms, sondern einen hellen Bereich, der sich ueber die ersten … ich sag jetzt mal ungefaehr 5 bis 8 Zeilen hinzieht. Mit dem Blick auf die entsprechenden Diagramme vom letzten Mal wird natuerlich sofort klar, warum das so ist und ich gehe da nicht nochmal drauf ein. Das an sich ist von Interesse, wenn man die Gesamtheit des Wikipedia Linknetzwerks untersucht. Und wieder wurde das erst durch das neue Werkzeug sichtbar gemacht und man sieht es NUR in den werte(!)komprimierten Daten … cool wa!

Genug fuer heute … das war’s aber noch nicht ganz mit dem neuen Werkzeug, denn auch wenn die Komprimierung mehr hervorbringt, so sind doch grosze Teile der Falschfarbenbilder immer noch schwarz. Deswegen wendete ich auf die komprimierten Daten auch noch zwei Normierungen an … dazu mehr beim naechsten Mal (und ich versuche es auf nur noch einen Beitrag zu begrenzen … aber ihr, meine lieben Leser und Leserinnen, kennt mich ja, mich kurz fassen zaehlt nicht zu meinen Staerken).

Die duerfen naemlich im øffentlichen Nahverkehr in Kyoto keine Horden von Katzen transportieren:

Tihihihi … das Bild spricht fuer sich und deswegen werd ich dazu auch gar nichts weiter zu sagen.

OKOK … Der Text daneben sagt, dass nur Tiertransportbehaelter mit zulaessigen (maximalen) Abmessungen benutzt werden duerfen … das ist aber nicht halb so lustig wie meine urspruengliche Interpretation … genaugenommen ist das ueberhaupt nicht lustig und deswegen verbreite ich lieber meine urspruengliche Interpretation.

Wie bereits beim vorletzten Mal versprochen (und dann aus organisatorischen und didaktischen Gruenden einmal verschoben), gehe ich heute auf die zweite Art der Komprimierung ein.

Anders als bei der vorher behandelten Bedeutungskomprimierung, ist die Wertekomprimierung sehr einfach zu verstehen. Hierbei schaut man naemlich nur auf den Gesamtinhalt einer Spalte (oder Zeile) und setzt den ins Verhaeltniss zum Inhalt der gesamten Matrix. Im weiteren spreche ich nur von Spalten, aber wie vormals gilt das Gleiche auch fuer die Zeilen (mutatis mutandis … und ja, ich such nach Gelegenheiten diesen Ausdruck so oft wie møglich zu verwenden … ich find den so fein).

Der Inhalt der gesamten Matrix ist die Summe ueber alle (Gesamt)Spalteninhalte. Oder anders: das ist die Summe aller Zitate die alle Seiten haben … was natuerlich der Summe aller Links aller Seiten entspricht … was natuerlich der Summe ueber alle (Gesamt)Zeileninhalte ist … was natuerlich bedeutet, dass diese Zahl komplett unabhangig von den Achsenbedeutungen ist und dieser eine Wert sowohl fuer die Spalten- als auch die Zeilenkomprimierung zu benutzen ist.

Der Gesamtinhalt einer Spalte ist die Summe ueber alle Zellen der gegebenen Spalte. Es ist zu beachten, dass diese Werte davon abhaengig sind, welche Bedeutung die Abzsisse und Ordinate haben, obwohl es sich hierbei NICHT um eine Bedeutungkomprimierung handelt. Ich gehe darauf weiter unten etwas genauer ein.
Fuer jede Spalte wird dann der Anteil berechnet, den diese am Inhalt der gesamten Matrix hat und dieser Wert wird dann wie bei der Bedeutungskomprimierung herangezogen um zu ermitteln, wie wieviele Spalten aufaddiert werden muessen, um den festgelegten Komprimierungswert zu erreichen.

Insgesamt hat man also vier verschiedene Komprimierungen fuer die Spalten und Zeilen. Wenn die Abzsisse die Anzahl der Zitate (die eine Seite erhalten hat) repraesentiert, dann ist der Gesamtinhalt einer gegebenen Spalte unabhaengig davon, ob die Ordinate das Selbe repraesentiert, oder die Anzahl der Links einer Seite. Es gibt also nur zwei unterschiedliche Komprimierungen fuer die Spalten, entsprechend den zwei møglichen Bedeutungen; nennen wir diese hier mal kurz A und B. Das Gleiche gilt natuerlich fuer die Zeilen und diese zwei Komprimierungen nenn ich mal kurz 1 und 2. Beides kombiniert ergibt am Ende vier Falschfarbenbilder, mit den Komprimierungskombinationen A1, A2, B1 und B2.

Hier muss ich etwas weiter ausholen, denn auf den ersten Blick scheint das wie bei der Bedeutungskomprimierung zu sein; dort gab es auch vier Falschfarbenbilderkomprimierungskombinationen. Der wichtige Unterschied ist aber, dass die Bedeutungskomprimierung nur fuer eine Achse ausgerechnet werden muss und dann auch fuer die andere Achse gilt (so diese dann die selbe Bedeutung hat). Bei der Wertekomprimierung gilt das nicht und kurz gesagt liegt das daran, dass die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Oder anders: bei der Bedeutungskomprimierung hat man nur zwei Komprimierungen (A & 1) und die Kombinationen waeren AA, A1, 1A und 11. Es ist zu beachten, dass es bei der Wertekomprimierung KEINE AA-, BB-, 11-, oder 22-Komprimierungskombinationen gibt.

Ein Beispiel macht das hoffenlich anschaulicher. Man denke sich eine Seite die 5 Mal zitiert wird und selber 23 Zitate hat. Wenn die Abzsisse die Anzahl der Zitate repraesentiert wird diese Seite in Spalte 5 gezaehlt und wenn die Bedeutung der Abzsisse die Anzahl der Links ist in Spalte 23. Qualitativ ist das bei beiden Komprimierungsarten im Wesentlichen das Gleiche (auch wenn quantitativ was anderes bei raus kommt). Wichtig ist nun, dass, wie auch immer die Bedeutung der Abzsisse ist, diese Seite in jedem Fall zu der jeweiligen Spalte immer nur 5 „Punkte“ beitraegt, denn (und ich wiederhole mich hier) in den Falschfarbenbildern ist dargestellt, wie oft die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Nun wende man sich zur Ordinate. Hier findet sich diese Seite in Zeile 5 oder 23 wieder. Soweit erstmal kein Unterschied und das ist der Grund, warum man die Bedeutungskomprimierung nur fuer eine Achse ausrechnen musste. Weil diese Seite aber 23 andere Seiten zitiert, ist der Beitrag dieser Seite zur jeweils gegebenen Zeile 23 „Punkte“. Oder anders: ein und die selbe Seite traegt zu den Spalten anders bei als zu den Zeilen. Deswegen muss man jeweils zwei Anteilverteilungen (der jeweiligen Spalte / Zeilen) pro Achse berechnen.

Und jetzt passiert was kurioses … ist aber logisch, wenn man mal drueber nachdenkt, was ich euch, meinen lieben Leserinnen und Lesern als Hausaufgabe ueberlasse. Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. Das gilt nicht, wenn die Abzsisse die Anzahl der Links repraesentiert.
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert. Das passiert aber nicht wenn die Ordinate die Anzahl der Zitate repraesentiert.
Oder anders: wenn ich die Links ueber Zitate darstelle, so sollten die Falschfarbenbilder der Bedeutungs- und Wertekomprimierung identisch sein … da muss ich dran denken, dass beim naechsten Mal zu kontrollieren.

Ich erwaehne das, denn dieser Umstand ist hier und heute von Vorteil. Anstatt vier Anteilsverteilungen (und deren Komprimierungen) muss ich nur zwei zeigen, denn die anderen beiden sind ja schon im Beitrag vom vorletzten Mal zu sehen … man muss dann in Gedanken nur die Beschriftung der Ordinate aendern, aus „Anteil an allen Zitaten / Links (%)“ wird „Spaltenanteil (%)“ bzw. „Zeilenanteil (%)“ (ditomutatis mutandis … hehe … bei den Anteilen der komprimierten Gruppen).

Nun muss ich gar nicht mehr all zu viel sagen zu den folgenden Diagrammen, denn beim Beitrag zur Bedeutungskomprimierung hatte ich ausfuehrlich besprochen, wie man solche Diagramme liest und deren Informationsinhalt betrachtet.
Hier die Diagramme mit der neuen Information bzw. des Spalten- bzw. Zeilenanteils (bei entsprechender Bedeutung der jeweiligen Achse):

Form und Maximum der Kurve des Spaltenanteils (wenn die Abzsisse die Linksgruppen repraesentiert, linkes Diagramm) sind qualitativ wie bei der Bedeutungskomprimierung (aber quantitativ natuerlich anders). Das Einzige was (sogar im Wortsinne) heraus sticht ist der von der Wikipedia Hauptseite verursachte Punkt in den 2023 Daten. Das ist ja nun nicht mehr unerwartet, aber dieser macht den Unterschied in den beiden Komprimierungsmethoden deutlich, trotz aller qualitativen (und bei entsprechenden Achsenbedeutungen auch quantitativen) Aehnlichkeiten.

Die Kurve fuer den Zeilenanteil (wenn die Ordinate die Zitategruppen repraesentiert, rechtes Diagramm) ist hingegen vøllig anders; wenn man aber mal drueber nachdenkt dennoch logisch.
Hier sieht man auch, warum solche Diagramme wichtig sind, um die komprimierten Falschfarbenbilder vernuenftig zu interpretieren. Ich werde naemlich wieder ein Komprimierungsintervall von einem Prozent waehlen, aber die ersten zehn Zitategruppen liegen da extrem deutlich drueber.

Viel mehr gibt’s hierzu nicht zu sagen und ich kann ohne Umschweife zu den (auf ca. 1 %) komprimierten Gruppen kommen:

Hier muss ich nun fast gar nix mehr sagen, denn die Spruenge, warum einige Punkte unter, bzw. ueber ein Prozent liegen und wieso die Anzahl der komprimierten Gruppen nicht 100 betraegt, wurde ausfuehrlich beim letzten Mal diskutiert. Was ich im letzten Abschnitt bzgl. den extrem-deutlich-ueber-1-%-Anteilen der ersten zehn Zeilen sagte spiegelt sich natuerlich im rechten Diagramm wieder und ist der Grund, warum es hier gerade mal 66 komprimierte Gruppen gibt.

Alright … wenn’s nix zu sagen gibt, dann will ich das auch nicht unnøtig in die Laenge ziehen. Beim naechsten Mal gibt’s die dazugehørigen Falschfarbenbilder.

Ich bin so sehr mit Kevin Bacon beschaeftigt, dass ich gerade keine richtige Lust habe, lange Sachen fuer die Artikel dazwischen zu schreiben. Zum Glueck hab ich noch ’n paar Bilder in denen ich vor … bzw. in diesem Falle AUF …

… Dingen stehe. Das hier ist ’ne originale Appollo(leider-nur-test)kapsel mit mir oben drauf. Aber die Grøszenverhaeltnisse und so stimmen.

Arschcool wie ich bin … Wortspielkasse … warum wird gleich klar… hab ich natuerlich auch in der Wueste von Arizona (wo die Kapsel rum lag) schwarze Kleidung an. Es ist festzuhalten: ich war schon immer ziemlich fesch … auszerdem, ist die Kapsel echt winzig.

Beim letzten Mal schrieb ich, dass ich …

[…] die zweite Art der Komprimierung auf’s naechste Mal [verschiebe].

Als ich mir alles anschaute dachte ich mir allerdings dass es besser ist, wenn ich zunaechst die bedeutungskomprimierten Falschfarbenbilder zeige.

Wie immer „huepfen“ die Bilder zwischen den 2020-Daten und den 2023-Daten. Weil ich damals ein Prozent als Wert fuer die Komprimierung benutzte, tat ich das auch hier wieder. Vom letzten Mal wissen wir, dass das NICHT zu notwendigerweise zu 100 komprimierten Bedeutungsgruppen und zu „Spruengen zwischen einigen Spalten“ fuehrt. Auszerdem kann die Anzahl der komprimierten Gruppen bei den verschiedenen Datensaetzen unterschiedlich sein. Es ist wichtig dies im Hinterkopf zu haben, damit die dadurch verursachten „Effekte“ in den Bildern nicht die Interpretation der eigentlichen Information støren. So fuehren die besagten „Spruenge zwischen den Spalten“ zu Streifenstrukturen und die Unterschiede in der Anzahl der Gruppen zu Spruengen bei den Skalen der Achsen).
Und nicht vergessen: die durch die Abszisse repraesentierten Seiten werden von den durch die Ordinate repraesentierten Seiten zitiert.

(Auch) Wie immer fange ich mit dem Reproduzierbarkeitsteil an und der ist hier im linken Falschfarbenbild zu sehen, in dem die bedeutungskomprimierte Zitategruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen ist:

Huch! Im Vergleich zu damals sieht man ja nuescht! … nun ja … wenn man genau hinschaut sieht man schon die gleichen Merkmale wie damals … aber noch viel besser sieht man, warum ich die Farbpalette wechselte; wie gesagt, meine Lieblingsfarbpalette „luegt“ und gaukelt mir Informationen vor die eigentlich gar nicht da sind.
Ansonsten sieht man wieder die gewaltige Dominanz der Wikipedia-Hauptseite in den 2023-Daten.

Im rechten Bild ist die bedeutungskomprimierte Linksgruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen. Interessant ist der helle Punkt in der rechten unteren Ecke. Der tritt in beiden Datensaetzen auf und kommt deswegen NICHT durch die Wikipedia Hauptseite zustande. Als einzelner Punkt „ueberstraehlt“ dessen Intensitaet diese sogar! (Wobei die Summe ueber die gesamte Spalte sicherlich grøszer ist fuer die Hauptseite). Aber wie so oft in dieser Phase des bereits so lange andauernden Kevin-Bacon-Projekts: ich hab keine Lust (mehr) zu schauen, was das ist.
Ich weise nur darauf hin, dass dort in der Ecke anscheinend noch mehr passiert, denn dort treten etliche andere Pixel aus dem Schwarz hervor (wenn auch nicht ganz so deutlich) … eine weitere Erfolgsgeschichte fuer das neue Werkzeug :).

Weiter zu den Falschfarbenbildern, bei denen die Abszisse die komprimierten Linksgruppen repraesentiert:

Im linken Bild passiert nichts Unerwartetes. Dass die Hauptseite nicht am Ende der Abzsisse liegt (wie bei der Anzahl der Zitate), ist von vorher bekannt. Im Vergleich mit dem rechten Diagramm im oberen Bild spiegelt sich hier schøn wieder, dass die Information in diesen Bildern nicht symmetrisch ist und die Achsen nicht vertauscht werden kønnen.

Etwas spannender ist das rechte Falschfarbenbild. Sofort ins Auge fallen die hellen Punkte, welche alle in der selben Reihe liegen, und sowohl bei den 2020- als auch den 2023-Daten vorhanden sind (wenn auch an anderen Positionen auf der Abzsisse). Diese Punkte sind bereits vorher aufgetreten und ich wuerde spekulieren, dass die mit dem „helle[n] Punkt in der rechten unteren Ecke“ von weiter oben zu tun haben … ohne weitere Untersuchungen wuerde ich aber nicht drauf wetten. Falls dem so ist, ist es interessant, dass die zwar alle unterschiedliche Links, aber anscheinend (ungefaehr) gleich viele Zitate haben. Ihr meine lieben Leserinnen und Leser ahnt es sicherlich bereits: (i) ein weiteres Merkmal, enthuellt durch das neue Werkzeug, und (ii) ich werde das nicht weiter untersuchen.
Ansonsten sieht man hier deutlich, warum ich ueberhaupt erst auf die Idee der Komprimierung gekommen bin; hatte ich doch damals bereits in dem vielen Schwarz der unkomprimierten Daten doch noch Informationen vermutet. Die lila Tøne oberhalb der unteresten Reihen bestaetigen diese Vermutung. Das trifft uebrigens fuer alle Falschfarbenbilder zu, man sieht das nur nicht ueberall so gut (insb. bei den 2023-Daten, bei denen die hohe Intensitaet der Hauptseite die Farbskala festlegt und deswegen (fast) alles andere in den dunklen Bereich draengt).

Juti … ging ja schnell heute. Ich kann mich nur zitieren und sagen, dass …

[…] die zweite Art der Komprimierung […] [beim] naechste[n] Mal [behandelt wird].

Damals konnte ich in beim Hereinzoomen in die groszen, schwarzen Bereiche der Falschfarbenbilder helle Punkte wahrnehmen. Es stellte sich dann natuerlich die Frage, ob diese blosz einem „Rauschen“ entsprechen, oder ob es dort Information gibt. Zur Beantwortung der Frage „komprimierte“ ich die Daten: kurz gesagt, um die Signalstaerke zu erhøhen, addierte ich die Werte von mehreren Spalten / Reihen. Dabei habe ich natuerlich „Aufløsung“ verloren, weil ein erhøhtes Signal nicht mehr eindeutig einem Zitategruppewert zugeordnet werden konnte (denn diese Gruppen wurden ja gerade „komprimiert“).

Soweit zur Wiederholung. Beim letzten Mal schrieb ich:

[…] [die Komprimierung] konnte ich […] erweitern und generalisieren […]

… und darum geht es heute.

Zur Erinnerung: damals war ich mir nicht der Møglichkeiten dieser Analysemethode bewusst und schaute nur auf die Zitate-ueber-Zitate Daten. Die Komprimierung bestand dann darin, dass ich mir die Bedeutung jedes Wertes auf der Ordinate anschaute und damit ausrechnte wieviele Zitate die Seiten auf sich vereinten, die in der entsprechenden Spalte vertreten waren. Drei Beispiele: 100 Seiten die jeweils 5 Zitate haben, vereinen 5 x 100 = 500 aller Zitate auf sich. 50 Seiten die jeweils 10 Zitate haben, vereinen ebenso 10 x 50 = 500 aller Zitate auf sich. 5 Seiten die jeweils 23,517 Zitate haben, vereinen 5 x 23,517 = 117,585 Zitate auf sich.
Mit der Information rechnete ich dann aus, wieviele Spalten ich jeweils zusammenfassen muss, damit in einer zusammengefassten / komprimierten / „verschmolzenen“ Spalte immer ca. 1 % aller Zitate auftreten.

Soweit, so gut. Damals hatte ich mir nix weiter dabei gedacht, aber diese Art der Komprimierung nenne ich jetzt „Bedeutungskomprimierung“. Es wird naemlich nur darauf geachtet, wieviel der „kompletten Bedeutung“ eine Spalte auf sich vereint. Konkreter: wie hoch der Anteil an allen Zitaten (oder Links) aller Wikipediaseiten ist, die in der gegebenen Spalte steckt und die Achse gibt die Bedeutung vor.
Da damals Ordinate und Abzsisse die selbe Bedeutung hatten, konnte die obige Komprimierung 1:1 auf die Reihen angewandt werden.

Als ich dieses Thema das erste Mal behandelte hatte ich das nicht gezeigt, aber das Gesagte kann man auch in ein Diagramm packen. Hier ist so ein Diagramm zu sehen:

Fuer die Diskussion dessen was man hier sieht, ist es egal ob man auf die Daten aus 2020 oder aus 2024 schaut. Wenn wichtig, gehe ich auf die Unterschiede weiter unten kurz ein, aber fuer die allgemeine Besprechung macht das keinen Unterschied, denn wiedereinmal gibt es im Wesentlichen keine Unterschiede zwischen den Jahren.

Ich sollte auch erwaehnen, dass man hier noch gar keine Komprimierung sieht, sondern nur wie hoch der „Bedeutungsanteil“ einer jeden Spalte in den Falschfarbenbildern ist, wenn die Bedeutung besagter Spalte die Anzahl der Zitate ist. Auf der Abzsisse sind also die UNkomprimierten Zitategruppen abgebildet und das ist somit die Grundlage fuer die „Bedeutungskomprimierung“ im naechsten Schritt.

Bei lineaer Abzsisse (linkes Bild) sieht man, dass bei sehr kleinen Zitategruppen kurz sehr viel „passiert“. Bei logarithmischer Achse ist dieser Bereich „aufgespreizt“ und man sieht, dass einzelne Spalten bis zu (fast) 1 % aller Zitate auf sich vereinen. Dies obwohl die dazugehørenden Seiten nur (sehr) wenige Zitaten haben. Nur gibt es von denen so viele, dass da in der Summe ganz schøn viel zusammen kommt. Kleinvieh macht auch Mist (und nicht zu wenig).
Ein weiterer Vorteil der linearen Abzsisse ist, dass man am besten sieht, dass ab ca. Zitategruppe 200 der Bedeutungsanteil dann aber (sehr) klein wird und (mehr oder weniger) auf diesem kleinen Wert „verharrt“. Ausgenommen die allerletzten paar Punkte zieht sich dieses Verhalten der Kurve bis (weit) ueber Zitategruppe 5000 hin. Auch das ist einfach zu erklaeren, denn trotz zum Teil sehr hoher Anzahl an Zitaten, so bestehen gerade (sehr) hohe Zitategruppen aus nur wenigen Seiten (oft gar nur einer). Da summiert sich also in einer Spalte nicht viel auf, gesehen auf die weit ueber 100 Millionen Zitate insgesamt.
Ganz am Ende machen die Punkte dann nochmal ’nen Sprung nach oben. Bei den 2020 Daten faellt der recht klein aus, waehrend die allerletzte Zitategruppe bei den 2023 Daten ueber 2.5 % aller Zitate auf sich vereint. Das ist natuerlich wieder die Wikipedia Hauptseite die neuerdings von (fast) allen anderen Seiten zitiert wird.

Interessant ist, dass die 2023 Daten bis ca. Zitategruppe 20 etwas tiefer liegen als die 2020 Daten. Zunaechst dachte ich, dass die Hauptseite da einfach alles „runterdrueckt“, weil die so viele Zitate auf sich vereint. Aber dann haette man das auch bei høheren Zitategruppen sehen muessen. Deswegen rechnte ich den Anteil der letzten 17 Zitategruppen raus (vulgo: ich berechnete alles nochmal, aber ohne die). Waere meine Erklaerung richtig gewesen, dann haette der Verlauf der Kurven der beiden Daten im Wesentlichen gleich sein muessen. Mathematisch gesprochen, haette die Subtraktion der korrigierten 2023-Daten von den unkorrigierten 2020 Daten mehr oder weniger konstant sein muessen, mit einem Wert von null (plusminus Rauschen). Fuer Seiten in Zitategruppen grøszer als 100 ist dem auch so, aber die „Erniedrigung“ bei kleinen Zitategruppenwerten bleibt trotz Korrektur erhalten.
Dieses Ergbeniss deutet wieder auf eine „Hausmeisteraktion“ hin, bei der etliche Seiten geløscht wurden. So etwas vermutete ich bereits hier. … … … Da hat dieses neue Werkzeug wieder was aufgedeckt, fetzt wa!

Soweit zur Grundlage der Komprimierung. Wenn man die entsprechende Anzahl an Spalten dann miteinander „verschmilzt“, damit jede komprimierte Zitategruppe ungefaehr 1 % der Gesamtzitate enthaelt, erhaelt man diese zwei Diagramme:

Als erstes sei zu sagen, dass die 2020 Daten in 102 komprimierte Gruppen (ich lasse das Wørtlein „Zitate“ der Lesbarkeit jetzt weg) (bedeutungs)komprimiert (das Wørtlein „bedeutungs“ lasse ich auch weg) wurden und die 2023 in 101 Gruppen. Ich erklaere weiter unten, warum das nicht genau 100 (entsprechend 100 %) werden.
Im linken Diagramm sind auf der Abzsisse immer noch die UNkomprimierten Gruppe abgetragen, waehrend im rechten Diagramm einfach nur die (laufende) „Gruppenzahl“ der komprimierten Gruppen abgetragen ist. In beiden Faellen entsprechen die Punkte und Quadrate den komprimierten Gruppen.
Wie man an der Ordinate ablesen kann, wurde das „Versprechen“, dass die komprimierten Gruppen ungefaehr 1 % aller Zitate enthalten, eingeløst.

Auffaellig ist, dass im linken Diagramm der Abstand der Punkte anfangs sehr klein ist, dann zu nimmt und zum Ende hin wieder kleiner wird. Das ist leicht mit dem vorherigen Diagramm bzgl. der „Grundlagen der Komprimierung“ zu erklaeren. Kleine (unkomprimierte) Zitategruppen enthalten so viele Seiten, dass sie einen entsprechend hohen Anteil aller Zitate repraesentieren. Deswegen braucht man da nur wenige UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Spaeter ist es dann so, dass eine UNkomprimierte Gruppe immer weniger Seiten, (sehr) oft gar nur eine einzige, enthalten. Entsprechend mehr Gruppen muss man miteinander „verschmelzen“ um eine komprimierte Gruppe zu erhalten. Und da die „verschmolzenen“ unkomprimierten Gruppen ja alle in EINER komprimierten Gruppe landen, verschwinden die dann bei einer Abzsisse wie im linken Diagramm und der Abstand zwischen den Punkten nimmt zu. Zum Ende hin bestehen die Gruppen zwar auch nur aus einzelnen Seiten, aber weil die so viele Zitate haben, ist deren Anteil an allen Zitaten wieder grøszer und man braucht weniger UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Deswegen nimmt der Abstand zwischen den Punkten wieder ab.
Im rechten Diagramm tritt dieses Phaenomen natuerlich nicht auf, da alle komprimierten Gruppen den gleichen Abstand zueinander haben.

Der selbe Mechanismus erklaert auch, warum das am Anfang so zappelt bzw. warum es zu „Spruengen“ im Graf auf der rechten Seite kommt. Zur Veranschaulichung ein Beispiel.
Man denke sich vier, aufeinander folgende, UNkomprimierte Gruppe, die jeweils 0.9 %, 0.5 %, 0.3 % und 0.3 % aller Zitate enthalten (in dieser Reihenfolge).
Wuerde die 0.9 % Gruppe mit der 0.5 % Gruppe verschmelzen wuerde die komprimierte Gruppe 1.4 % aller Zitate repraesentieren. Aber 1.4 % ist weiter von 1 % entfernt als 0.9 %. Deswegen findet die Verschmelzung nicht statt, die 0.9 % Gruppe wird ihre eigene komprimierte Gruppe.
Nun verschmelzen die 0.5 % Gruppe und die erste 0.3 % Gruppe und bilden zusammen eine komprimierte Gruppe die 0.8 % aller Zitate auf sich vereint. Das ist noch nicht nah genug an 1 % dran, weswegen auch die zweite 0.3 % Gruppe mit denen verschmolzen wird. Alle drei zusammen vereinen nun 1.1 % aller Zitate auf sich. Das liegt zwar ueber 1 %, ist aber naeher dran als 0.8 % und deswegen bleibt diese Verschmelzung erhalten.
Weil beide Punkte im Diagramm direkt aufeinander folgen, der erste aber unter 1 % und der zweite ueber 1 % liegt, kommt es zu einem „Sprung“. Wie man im rechten Diagramm sieht, muessen solche Spruenge nicht nur nach oben, sondern kønnen auch nach unten gehen.

Und immer noch der selbe Mechanismus ist dann auch dafuer verantwortlich, dass es mehr als 100 komprimierte Gruppen gibt (und sogar unterschiedlich mehr). Das erklaer ich jetzt aber nicht haarklein und ihr, meine lieben Leserinnen und Leser møgt euch die Details selbst ueberlegen.

So weit so gut. Ich erklaere das hier so ausgiebig, weil sich dies in den entsprechenden Falschfarbenbildern in helleren Streifen aeuszern wird. Die erklaerte ich zwar damals bereits genauso, aber weil das hier in einem vøllig andersgeartetem Diagramm (und mit besserer Notation) auftritt, bin ich nochmal drauf eingegangen.

All das gesagt, kann ich ohne viele Worte die entsprechenden, relevanten Grafen zur Bedeutungskomprimierung der Linksgruppen zeigen:

Es ist bereits bekannt, dass’s ungefaehr drei Mal weniger Links- als Zitategruppen gibt. Interessant ist, dass so viele unkomprimierte Linksgruppen (deutlich) ueber 1 % aller Links repraesentieren. Deswegen waere es vllt. besser einen etwas høheren Anteil (bspw. 1.5 %) fuer die Komprimierung zu waehlen. Das Programm kann das jetzt, aber ich mache hier alles auch weiterhin mit 1 %.
Diesee hohe Werte sind dann auch der Grund, warum ich hier fuer beide Datensaetze weniger als 100 komprimierte Gruppen erhalte; 96 fuer die 2020 Daten und 97 fuer die 2023 Daten.

Ansonsten ist das qualitativ im Wesentlichen das Gleiche, sowohl zwischen den verschiedenen Datensaetzen, als auch im Vergleich mit den komprimierten Zitategruppen oben.
Ach so … im linken Diagramm scheinen kleine Linksgruppen der 2023 Daten um eins nach rechts verschoben zu sein, im Vergleich mit den 2020 Daten. Das liegt natuerlich wieder an der Wikipedia Hauptseite, die ja nun anscheinend auf (fast) allen Seiten auftaucht. Bei høheren Linksgruppenwerten sieht man das wegen der logarithmischen Achse nur nicht mehr.

Alles hier ist bereits neue (und interessante) Information die mir vorher gar nicht aufgefallen ist, weil sie mir gar nicht vor lag. Wieder „ans Licht gebracht“ wurde das alles durch das „neue Werkzeug“ … cool wa!

Weil die Daten hier nach der BEDEUTUNG der Achse komprimiert sind, werden beim Zitate-ueber-Zitate Falschfarbenbild die Reihen natuerlich auf exakt die selbe Art und Weise komprimiert wie die Spalten. Dito (mutatis mutandis), fuer das Links-ueber-Links Falschfarbenbild. Und bei „gemischter“ Bedeutung der Achsenkombinationen wird natuerlich die jeweils richtige Bedeutungskomprimierung fuer die entsprechenden Spalten oder Reihen benutzt. Aber diese ist dann die Selbe wie hier gezeigt. Das fuehrt bei den zwei „gemischten“ Achsenbedeutungskombinationen dennoch zu unterschiedlichen Ergebnissen, weil diese beiden Falschfarbenbilder ja nicht symmetrisch sind.

Uff … jetzt ist das doch schon wieder so viel geworden. Deswegen verschiebe ich die zweite Art der Komprimierung auf’s naechste Mal.

Ich wuensche euch, meinen lieben Leserinnen und Lesern, einen guten Rutsch und ein ganz hervorragendes 2025 :) .

Zum Ende meines diesjaehrigen Geburtstagsbeitrags schrieb ich:

[…] [D]as Thema […] werde ich anhand eines konkreten Beispiels an anderer Stelle nochmal aufgreifen.

Da ich bisher anderweitig beschaeftigt war, liesz die Antwort auf sich warten (und mir ist bewusst, dass der Abschluss der Hormesis-Reihe schon laenger her ist und dass auch die Feinstaubreihe noch in der Luft haengt).

Das konkrete Beispiel ueber das ich heute schreibe ist eine weitere „Anwendung“ des im Geburtstagsbeitrags anhand eines (anderen) Beispiels illustrierten Prinzips. Oder anders: wieder bleibt mir das „Hab dich!“ (bzw. hier eher „du bist ja doof“) im Halse stecken, wenn ich alles gruendlich durchdenke und mein Gegenueber deswegen besser verstehe.

In kurz geht es um diesen alten Gag …

Geklaut von hier, ’ne echte Originalquelle gibt’s sicher nicht.

… der sich (meist) ueber (US) Amerikaner lustig macht … und frueher hab ich kraeftig mitgelacht (und mitgemacht).

Irgendwann ist mir dann aber mal aufgefallen, dass ich …
… „1 Meter“ sage, mir aber eine Schrittlaenge vorstelle, und zu Fusz gehe …
… „5 Kilometer“ sage, mir aber die Strecke zwischen Buch und Grieben vorstelle, … bzw. heute bei 4 km an einen Spaziergang um den Theisendam denke … und das automatisch mit ca. 1 Stunde spazieren gehen gleichsetze … oder 20 Minuten Fahrrad fahren … oder durchgeweichten Stoffschuhen, aber trockenen Herbstschuhen, bei leichtem Regen, …
… „500 km“ sage, mir aber die Strecke Trondheim – Oslo vorstelle, … und das automatisch mit einer unbestimmten, definitiv nicht metrischen Menge Stress gleichsetze, weil das oft Fliegen bedeutet, …
… „einmal um die halbe Welt“ sage, mir aber die Strecke Norwegen – Japan vorstelle, … *opps* nun ist ja nicht mal mehr das erste metrisch, …

… … … .oO(genug der Laengen) … … …

… „ein halber Liter“ sage, mir aber ’ne Colaflasche vorstelle, …
… „25 kg“ sage, mir aber vorstelle wie schwer ein Sack Zement ist, …
… beim kochen definitiv NICHT „14.7868 Milliliter“ sage oder denke, sondern einfach ’n Essløffel voll benutze (gerne gehaeuft), …
… weisz, dass die Strecke Erde – Sonne ungefaehr 150 Millionen Kilometer sind, das aber (fast) nie benutze sondern (fast) immer an eine Astronomischen Einheit denke, …
… ich von Milli-, Micro, Nanosekunden weisz und oft genug damit zu tun hatte (und habe), ein Tag aber trotzdem 86,400 Sekunden enthaelt.

Ich møchte damit ausdruecken, dass das metrische System zwar toll ist, wenn man was zu rechnen hat und das mit Sachen die nicht in der eigenen „Werkstatt“ (im allerweitesten Sinne) gemacht wurden vergleichen muss. Aber im Alltag verdient es nicht unbedingt die Huldigungen, die es so oft bekommt … insb. von Leuten wie mir. Sobald ich eine „alltagstaugliche“ Zahl im Zusammenhang (Laenge, Masse, Zeit) høre, stelle ich mir Mehltueten anstatt Kilogram, Colaflaschen anstatt Volumen und Stress oder Zeiteinheiten anstatt Laengen vor … und letztere kønnen sogar noch unterschiedlich sein, je nach Verkehrsmittel … oder anders: ich stelle mir alles AUSZER metrischen Einheiten in meinem Alltag vor.

Und selbst das Rechnen ist physikalisch gesehen nur in kleinen Bereichen metrisch. Ich wuerde sagen bis zu Laengen von ca. 1/2 Million Kilometer, dann faengt man eher an in Lichtsekunden zu rechnen. Ab ca. 50 Millionen Kilometern in astronomischen Einheiten, ab ca. 1 Billion Kilometern in Lichtjahren und ab ca. 1 Billiarden Kilometern in Parsec … und irgendwann ist alles so weit weg, dass man nur noch in Rotverschiebung rechnet. Keine einzige dier Einheiten ist mit den anderen Einheiten mittels einer fein durch 10 teilbaren Konstante „verbunden“. Vielmehr ist es ein buntes Kuddelmuddel an Umrechnungsfaktoren. Und alle Umrechnungsfaktoren beziehen sich auf Dinge die man sich vorstellen kann (mehr oder weniger).

Dito, bei der Zeit. Im ganz Kurzen ist alles metrisch, aber schon die Minute hat 60 Sekunden … wenigstens bleibt der Faktor auch fuer die naechste Einheit erhalten. Und dann kommt der Tag mit seinen 24 Stunden … aber das basiert ja wenigstens alles noch auf der Zahl 6 … aber die 6 ist definitiv nicht metrisch. Und dann schwankt die Anzahl der Tage im Monat … und das Jahr laeszt sich weder in eine 10-er Zaehlung noch eine 6-er Zaehlung pressen (auch der franzøsische Revolutionskalendar løste Problem nicht in Gaenze). Dennoch, wird so vieles in Jahren angegeben. Und sobald man 10 Jahre voll hat, geht es wieder mit 10-Faktoren los … wobei eine Dekade oder ein Jahrhundert ja dann doch auch wieder nicht mit der „durch 1000 teilen“ Regel zusammen passt. Und ich hab auch noch nie jemanden sagen høren: ich bin jetzt 0.044 Millenia alt … vielleicht sollte ich damit anfangen, einfach um die Leute zu verwirren … tihihi.

Die gleichen Ueberlegungen zur Masse ueberlasse ich euch, meinen lieben Leserinnen und Lesern, zur Uebung als Hausaufgabe.

Die Einheitlichkeit (!) aller Masze (und Gewichte … wie man frueher sagte, auch wenn ein „Gewicht“ ja auch nur ein Masz fuer Masse ist) ueber die Dorf- und Landesgrenzen hinweg (und ebenso wichtig: ohne Aenderungen dieser Einheitlichkeit ueber die Jahre) ist wichtiger als der Umrechnungsfaktor zwischen den verschiedenen Einheiten der verschiedenen Skalen. Es ist fein, dass dieser im metrischen System ein Faktor 1000 ist. Das macht bestimmte technische Berechnungen auf gewissen, eher limitierten Skalen (siehe oben), einfacher.

Aber wenn alle Leute einheitlich irgend ein anderes System benutzen wuerden, weil sie damit aufgewachsen sind, dann waere das in den allermeisten Faellen genauso gut. Ich brauche naemlich nie ’ne Tonne Salz beim Kochen und wenn ich mal 10 Liter Milch brauche, dann schreibe ich nicht „10 Liter Milch“ auf den Einkaufszettel sondern nur „Milch x10“ (man beachte hier, dass ich die Maszeinheit weglasse). Heutzutage muss das naemlich nicht mehr im Laden abgemessen werden und ich kann mich drauf verlassen, dass eine Tuete Milch genauso viel Fluessigkeit enthaelt wie die die daneben steht. Und ja! Es liegt an genau der Vereinheitlichung, dass ich mich drauf verlassen kann. Was fuer eine das ist, ist aber egal und in den USA wuerden es dann eben nur zwei grosze Milchflaschen werden (da fehlt dann zwar ungefaehr 1 Liter, aber bei 10 Litern kommt’s darauf dann auch nicht mehr wirklich an bzw. ist das Kuchenrezept angepasst).

Zusammengefasst bedeutet das zwei Sachen:
1.: Wer im Glashaus sitzt (und selber alles als „Døner pro Fuszballfeld“ im Geiste wahrnimmt), sollte sich nicht ueber Leute lustig machen die das direkt, also ohne Umwege (mehr oder weniger) lebensferner Maszsysteme, tun.
2.: Das macht natuerlich im obigen Bilde auch schon den Ursprungsbeitrag unnuetz. Es kuemmert mich doch ueberhaupt nicht, wie viele Fuesze in einer Meile sind. Eine Meile bedeutet doch viel eher, dass ich das nicht laufen werde, sondern in 2 Minuten (eine Zeiteinheit) mit dem Auto (eine „Arbeitseinheit“ oder „Stresseinheit“ oder „Faulheitseinheit“ wenn man auch gehen kønnte) da bin.

All das Gesagte ist natuerlich anders zu sehen, wenn ich Zucker in andere Laender verschicken oder an der internationalen Raumstation mitbauen will … aber das sind lebensferne Sachen, die mit 99.999% des Lebens der aller-aller-aller-aller-aller-allermeisten Menschen nix zu tun haben … nicht mal dann, wenn sie in ferne Laender reisen, weil man sich dort dann recht schnell auf ein anderes Messsystem einstellt. Und fuer den Rest reicht es, wenn man sich auf ein System einigt, das muss aber mitnichten das Metrische sein.
Wenn man hingegen das Leben besagter aller-aller-…-allermeisten Menschen bedenkt frage ich mich dann doch, ob das Maszsystem der USA nicht vielleicht doch besser (da lebensnaeher) ist.

Da faellt mir ein, dass ich dazu mal was zur Temperatur hatte, bei der die Experten lange Zeit meinten, dass das ueberhaupt nicht objektiv gemessen werden kann (und im Alltag tun wir das immer noch nicht … da geht’s nur um warm oder kalt bzw. darum ob die Brøtchen noch weisz oder schon angebrannt sind).

So viel Geschrieben und zum Abschluss kann ich leider nur sagen, dass mich diese Erkenntnis zum „Spielverderber“ macht. Ich lache (nicht mehr) ueber Sachen die viele andere Menschen in meinem Umkreis voll witzig finden … und dann kann ich meinen Mund nicht halten und møchte den Leuten zwar nicht ihren Spasz nehmen, ihnen aber gerne klar machen, warum es sich lohnt, sich in andere Menschen hinein zu versetzen … und sehr schnell haben die Menschen um mich herum keine Lust mehr auf, als Moralpredigten wahrgenommene, lange Monologe von mir und fangen an sich selbst zu zensieren wenn ich dabei bin und erzaehlen keine Witze mehr … und damit habe ich dann doch den ganzen Spasz verdorben … *seufz*.

So … damit das nicht so traurig endet hier ein Beispiel wie man sich-lustig-machen weglassen kann und dabei dennoch lustig bleibt:

Geklaut von hier … und ich bin zu faul um den urspruenglichen Erschaffer (bzw. Quelle) zu suchen (zumal ich ohnehin nicht denke, dass das von Erfolg gekrønt waere).

Witzig!

Ich wuensche erholsame Feiertage :) .

Ja genau! Das war der Typ der „die unsichtbare Hand des Marktes“ erfunden hat. Auszderm schrieb er das urst bekannte, urst wichtige (da urst einflussreiche), von mir aber nicht gelesene Buch „The Wealth of Nations„. Bei aller Kritik die ich gerne und oft am kapitalistischen System aeuszere, erkenne ich doch an, dass es doch auch fuer den viele Reichtum um mich drumherum, der mir das Leben unendlich viel einfach macht als vor 200 Jahren, verantwortlich ist. Und dieser Mann hat das zum ersten Mal systematisch analysiert und aufgeschrieben und damit ganz massiv Politiker und damit die Entwicklung der (nicht nur) westlichen Welt beeinflusst. In den „social sciences“ (das kann man nicht 1:1 auf die Sozialwissenschaften im dtsch. uebertragen; es kommt aber sehr nahe) ist es von allen vor 1950 publizierten Buechern, das am zweithaeufigsten zitierte. Haeufiger zitiert ist nur „Das Kapital“.

Apropos Marx … auch wenn er gerne ueber Vulgaerøkonomen und deren Machwerke schimpft, so zaehlt er Smith nicht zu denen und lobt die Erkenntnisse die dieser Mann hatte … auch wenn er sie oft genug (und oft scharf) kritisiert.

Lange Rede kurzer Sinn: es ist nicht verwunderlich, dass ich bei meinem Besuch in Edinburgh das Grab dieses Mannes …

… besuchte. Fetzt wa!