Neulich stolperte ich ueber einen Artikel in dem der Autor Systeme vorstellte, die ueberraschend Turing-vollstaendig sind. Einige davon waren extrem technische Sachen (wie zum Beispiel das geschickte Rumschieben von Arbeitsspeicher). Andere Beispiele sind (mehr oder weniger) weithin bekannt (bspw. Computerspiele wie Minecraft oder Dwarf Fortress oder natuerlich die meisten (aber nicht alle) Programmiersprachen).
Und dann waren da ein paar Beispiele die ich so cool fand, dass ich die Idee dieses Artikels klaue als Inspiration nehme und daraus eine Miniserie mache.

Heute aber nur eine Einfuehrung, denn mich duenkt ich sollte wenigstens kurz darauf eingehen, was Turing-Vollstaendigkeit eigentlich bedeutet.

In kurz ist ein System Turing-vollstaendig, wenn die Regeln dieses Systems benutzt werden kønnen um jeden beliebigen Computeralgorithmus zu implementieren. Das wichtige an einem Computeralgorithmus ist, dass dieser eine endliche Anzahl von Instruktionen hat um eine Eingabe zu bearbeiten.

Nebenbemerkung: eine endliche Anzahl von Instruktionen bedeutet NICHT, dass besagter Algorithmus jemals endet — unendliche Schleifen møgen dies verhindern. Das ist das sogenannte Halteproblem … eines der der ersten Probleme die im allgemeinen Fall als unentscheidbar erkannt wurden. Aus gegebenem Algorithmus und Eingabe kann man im allgemeinen NICHT erkennen, ob das Programm jemals zum Ende kommt.
In vielen konkreten Faellen kann man das aber sehr wohl entscheiden. In Faellen wo es wichtig ist, dass eine Berechnung terminiert, werden sogar Programmiersprachen benutzt die bspw. unendliche Schleifen automatisch beenden, Solche Programmiersprachen sind dann aber meines Wissens nach meist NICHT Turing-vollstaendig (denn sie kønnen ja nicht jeden Computeralgorithmus ausfuehren).

Wenn ein System Turing-vollstaendig ist, so bedeutet das auch, dass dieses System jedes beliebige andere Turing-vollstaendige System emulieren kann … oder leichter einzupraegen: Can it run DOOM? … und die Antwort ist vermutlich: Yes, it can.

Aber Achtung! Turing-Vollstaendigkeit heiszt NICHT dass oben erwaehnte Emulierung einfach zu implementieren ist oder schnell laeuft oder konkret (wenn auch theoretisch) møglich ist. Die ersten beiden Einschraenkungen sind intuitiv zu verstehen. Die Letzte folgt daraus, dass Turing-Vollstaendigkeit eigentlich unendlich viel Arbeitsspeicher voraussetzt. Fuer alle praktischen Belange wird das ignoriert. Es kann dann aber doch der Grund sein, warum eine konkrete Emulierung nicht zu implementieren ist. Oder anders: DOOM laeuft heutzutage auf echt vielen Geraeten, das bedeutet aber nicht, dass man auf den selben Geraeten auch ein vollstaendiges Linux mit Multimedia- und Internetanwendungen laufen lassen kønnte.

So, das war jetzt alles aus der Welt der Computer. Dies deswegen, weil die Eigenschaft der Turing-Vollstaendigkeit dort „erfunden“ wurde und am einfachsten zu verstehen ist. In dieser Miniserie werde ich aber auch aus der Computerwelt heraus treten. Damit verbleibe ich bis zum naechsten Mal.

Wenn man Simon Stålenhags Bilder sieht, so kommen einem diese vertraut vor. Dies liegt zum Einen daran, dass vertraute Dinge zu sehen sind — ein Auto aus den 90’ern oder ein Wald wie am gegenueberliegenden Ende des Dorfackers. Zum Anderen liegt es aber auch daran, dass viele seiner Bilder urspruenglich im Internet verfuegbar waren. Dort wurden besagte Bilder irgendwie populaer, denn diese beinhalten auch nicht-familiaere Elemente wie Roboter oder futuristisch aussehende Maschinen und letztere beruehren Themen, die fuer den (mehr oder weniger) typischen Netizen in den Nullerjahren durchaus von Interesse waren.

Alles was beruehmt wird findet frueher oder spaeter den Weg in die klassischen Informationsverbreitungstechnologien und so wurde ein Buch draus:

Viele Jahre schlich ich drumherum und dann kaufte ich es neulich endlich.

Ich muss sagen, dass es mir sehr gut gefallen hat.
Am Interessantesten war aber die Stimmung, die von den kurzen Texten, und noch viel mehr von den Bildern selber, vermittelt wird. Irgendwie vertraut, irgendwie komisch, als ob man am Rande eines verwunschenen Waldes lebt. Das Unbekannte und Mysteriøse im Alltaeglichen … voll toll gemacht.

So fing es an, mit Freude ueber eine ca. 6 Euro teure Flasche.

So sieht’s jetzt aus:

Und der Preis ist auch auf ertraeglichere 2 Euro und 80 Cent oder so gefallen … Club Mate jetzt also zum Spaetipreis in Norwegen … auch bekannt als ganz normaler norwegischer Preis … *ein kleiner Seufzer*

Zunaechst sei zu sagen: Sexismus ist immer noch total praesent, auch in der westlichen Gesellschaft! Als Mann kann ich bzgl. direkter Erlebnisse nichts sagen, da ich das nicht erlebt habe. Ich weisz aber auch, dass das fuer Frauen auch heutzutage noch ganz anders aussieht.
Was ich sagen will: ich will und werde hier NICHT argumentieren, dass es keinen Sexismus mehr gibt! Deswegen ist das Thema im Titel auch spezifisch eingegrenzt.

Eine grosze Staerke (von vielen) von Joseph Hellers beruehmten Buch ist, dass es ganz genau die Zustaende in der gegebenen Gesellschaft beschreibt. Konkret natuerlich die ge- und erzwungene Kriegsgesellschaft in Form des Krieges selbst aber auch und des Militaers und der Bombercrews.
Oft scheint das total absurd und vøllig ueberspitzt zu sein. Aber wenn man mal drueber nachdenkt, dann wird man sich dem viel mehr bewusst, wie sehr unser Bild von solcher Zustaenden durch Propaganda gepraegt ist.

Wieauchimmer, Heller beschreibt auch, wie die Maenner die Frauen dort behandeln und es ist widerlich! Das sind Stellen, wo ich als (hoffentlich) moderner Mann darauf wartete, dass der Protagonist (den man mag und møgen møchte) oder der Autor was dagegen sagt. Aber nein! Diese „Erløsung“ kommt nie.

Erst relativ spaet erkannte ich, dass dies eigentlich ein ganz wichtige Sache im Buch und eine (siehe oben) Staerke desselben ist. Joseph Heller war seinen Zeitgenossen damit um Dekaden (!) voraus.

Als „Gegenbeispiel“ nehme man Mad Men; eine Serie, die alles Lob verdient hat, ich gebe aber zu, dass sie vermutlich nicht jedermans Geschmack trifft. Mad Men ist eine moderne Interpretation der Werbebranche der 60’er Jahre. Deswegen zeigt die Serie auch den Sexismus, was bei einer zeitgenøssischen Version sicherlich nicht der Fall gewesen waere. Aber zur besseren Identifizierung fuer die Zuschauer gibt es Frauen, die aus dem Schema ausbrechen und alle Maenner (und insb. der Protagonist) halten sich sehr mit dem Sexismus zurueck.

Letzteres war ja aber nicht so. Sexismus war bei Maennern durch die Erziehung „eingebaut“; das war total normal den Frauen an den Po oder durchaus auch die Brueste zu grabschen und sexuell eindeutige Bermekungen zu machen. Das sollte aber eigentlich nicht normal sein! Das hat nur niemand von den Maennern zugegeben!
Den Frauen war es natuerlich schon viel laenger klar, wie furchtbar diese Zustaende sind; den Feminismus gibt es schlieszlich schon seit mehr als hundert Jahren. Siehe Mary Wollstonecraft oder spaeter Emma Goldman oder die Suffragetten.
Und da schrieb Heller dann das was er sah. Ohne Entschuldigung und ohne Verschønerung aber auch ohne Bewertung. Letzteres wuerde nicht zum Buch und wie dieses aufgezogen und strukturiert ist passen. Aber allein durch die Art und Weise wie Heller die sexistischen Tatsachen beschreibt macht meiner Meinung nach klar, dass ihn das auch anekelte und das er sich nicht anders zu helfen weisz, als eben jene Beobachtungen ungeschønt auf’s Papier zu bringen. Er wusste sich (innerhalb des gewaehlten Mediums) nicht anders zu helfen, eben weil die Gesellschaft das in dieser Zeit nicht wirklich erlaubte, denn das war doch voll normal. Dazu sei zu sagen, dass Normalitaet unter gewissen Umstaenden uebrigens durchaus auch als eine Form von Propaganda (siehe oben) angesehen werden kann.

Das war jetzt eine lange Einfuehrung; dafuer ist aber der Punkt auf den ich eigentlich hinaus will ganz kurz.
Auch wenn Sexismus in der westlichen Gesellschaft immer noch existiert und immer noch alltaeglich, so ist insb. die Erziehung der Maenner seit Hellers Buch erschienen ist, ein gutes Stueck voran gekommen. Zumindest in meinem (weit gefassten) sozialen Habitat wuerde das niemand mehr als normal empfinden, wenn Maenner Frauen das antun, was Heller als ganz normal und alltaeglich in Catch-22 beschreibt. Ich wuerde sogar so weit gehen, dass es mindestens auch immer wen gibt (ob Mann oder Frau), der aufsteht und Nein! sagt, wenn so etwas doch passiert.
Und das ist natuerlich ganz fantastisch und ich bin froh, dass wir diese widerliche „Normalitaet zwischen den Geschlechtern“ von vor 70 Jahren (fast) vergessen haben, weil es eine neue, wenn auch noch laengst nicht komplett gute, so doch bessere, Normalitaet gibt.

Geburtstagsbeitrag! Und wieder lasse ich mich detailliert ueber ein Thema aus, welches mglw. nicht so richtig interessant ist fuer den Rest der Menschheit.

Heute geht es darum, wie oft und in welchem Zusammenhang meine Artikel zitiert wurden, die ich im Zuge meiner (zweiten) Doktorarbeit schrieb. Es ist also ’ne (richtig lange) Nabelschau; nicht im Wortsinne, aber im Sinne wie dieses Wort heutzutage gebraucht wird, mit allen Implikationen. Insb. ist wahr, dass die Untersuchungen welche zu diesem Beitrag fuehrten (und natuerlich auch das Schreiben dieses Beitrags) eine …

[…]  übertrieben[…], unfruchtbare[…] Beschäftigung mit der eigenen Person […] [war], die von wichtigeren Aufgaben ablenkt[e] und eine nötige Hinwendung zur Umwelt verhindert[e].

Gluecklichweise brauchte ich nur einen Nachmittag (mich duenkt das war im Februar 2022 (und ein klein bisschen waehrend des Schreibens)) um den Zitierungen hinterher zu forschen schnueffeln. Weil es aber einen ganzen Nachmittag dauerte beschraenkte ich mich eben auf meine „neuesten“ drei Artikel und tat mir das nicht auch noch fuer die Arbeiten meiner ersten Doktorarbeit an.

Bevor es los geht nur noch das: Selbstzitierungen zaehle ich natuerlich nicht mit.

Mein erster Artikel hat den Titel „A Running Reference Analysis Method to Greatly Improve Optical Backscatter Reflectometry Strain Data from the Inside of Hardening and Shrinking Materials“ … selbstverstaendlich steht der allen frei zur Verfuegung.

Zunaechst einmal gibt es Zitierungen in Arbeiten aus der selben Arbeitsgruppe, weil ich „Zeug“ habe „rumliegen“ lassen; vulgo: die im Titel erwaehnte Methode und die Software die ich schrieb. Da wird dann kurz erwaehnt, dass die „meine“ Methode benutzen.
Dazu zaehlen:
– Eine Masterarbeit mit dem Titel „Monitoring of Composite Repair on Risers„.

– Ein Beitrag auf einer … *seufz* … NATO-nahen Konferenze mit dem Titel „Sensing of Structural Damage with OBR Based Fibre-Optic Networks“ … und nein, das passt mir nicht in den Kram, aber schon aus grundsaetzlichen ethischen Gruenden kann ich eine solche Nutzung nicht verhindern … frei ist frei, ohne Wenn und Aber!
Dies ist ein sogenanntes „Proceedings Paper“. Davon halte ich nicht so richtig viel, denn auch wenn diese durchaus wissenschaftliche Arbeit praesentieren, so ist’s doch so, dass in Konferenzeproceedings oft genug auch Muell verøffentlicht wird, der woanders nicht durchkommen wuerde. Das weisz ich daher, weil ich selber mal „Reviewer“ fuer einen Proceedingsband war … das war noch bevor ich ein Diplom hatte.
In diesem Fall weisz ich, dass die Arbeit ordentlich ist, eben weil ich mit den Leuten zusammengearbeitet habe.

– Ein echter, peer-reviewed Artikel mit dem Titel „Embedded optical fibres for monitoring pressurization and impact of filament wound cylinders“ … *hust*

Bei den obigen Sachen bin ich mir nicht sicher ob ich die Zitierungen auch bekommen haette, wenn die involvierten Personen nicht mit mir zusammengearbeitet haetten. Deswegen habe ich die separat betrachtet.
Nun folgen „richtige“ Zitierungen.
– Zunaechst ein weiteres Proceedings“paper“ (also nicht wirklich wichtig) mit dem Titel „Large strain measurement method based on dynamic reference in distrbuted optical fiber“. Zu diesem finde ich nix weiter, nicht mal einen Link zu einer geschlossenen Zeitschrift.

Alle Artikel die folgen sind „echte“, peer-reviewed, Artikel in anerkannten wissenschaftlichen Zeitschriften.

– Als Erstes drei separate Artikel von (im wesentlichen) den gleichen Autoren.
1.: Expanding the range of the resolvable strain from distributed fiber optic sensors using a local adaptive reference approach … ich fand das nicht in freier Form :(
2.: Graphical Optimization of Spectral Shift Reconstructions for Optical Backscatter Reflectometry
3.: An Adaptive Reference Scheme to Extend the Functional Range of Optical Backscatter Reflectometry in Extreme Environments … *hust*
Leider scheinen die (Haupt)Autoren mit Kernkraft in Verbindung zu stehen … *seufz*.

Hier møchte ich einschieben, dass ’ne Zitierung laengst nicht bedeutet, dass die Autoren den Artikel auch wirklich gelesen, oder sogar verstanden haben. Manchmal Oft braucht man halt noch ’n Zitat fuer etwas das man macht, einfach um den Reviewern zu zeigen, dass man sich das besagte etwas nicht aus der losen Luft ausgedacht hat … selbst (oder gerade) dann, wenn man es sich aus der losen Luft ausgedacht hat. Der erste Artikel dieser Autoren macht ein bisschen diesen Eindruck, weil die auch eine optische Fiber in Epoxy gelegt haben. Andererseits werde ich im zweiten Artikel mehrfach erwaehnt und sogar in den richtigen Zusammenhaengen.

Apropos zweiter Artikel; die Autoren schreiben:

Previous studies have utilized […], human input emulation [my paper] to interact with commercial analysis software […]

Ja, das ist vøllig korrekt … ich habe einen Auto Clicker programmiert … aber so wie die das schreiben klingt es natuerlich deutlich beeindruckender … tihihi

Im dritten Artikel weisen die Autoren auf einen Nachteil meiner Methode hin. Dieser Nachteil kann leicht umgangen werden. Ich erwaehnte das aber nicht explizit, weil ich dachte, dass das klar ist und aus dem grundlegenden Prinzip folgt. So kann man sich taeuschen. Andererseits ist’s auch vøllig normal, dass man die Nachteile der Methoden anderer Wissenschaftler „grøszer“ macht als diese eigentlich sind. Einfach um die eigene Sache in ein besseres Licht zu stellen.
Dann schreiben sie aber auch:

To resolve spectral shifts beyond the range of a static reference measurement, a running reference approach has recently been proposed and used to successfully resolve large strains in optical fibers that were embedded in a hardening epoxy [my paper].

„Beyond“ hørt sich so nach „To boldly go where no one has gone before“ an … toll wa! Was ich alles zustande bringe :)

– Dann habe ich „A Review of Recent Distributed Optical Fiber Sensors Applications for Civil Engineering Structural Health Monitoring„. Witzig ist diese Stelle:

In […] [my paper], a novel post-processing methodology was introduced as a solution to the issue of “meaningless results” […]. […] the new data analysis method [was] baptized “running reference analysis method” […].

Da hab ich also was getauft … tihihi

Dieser Artikel ist uebrigens der Idealfall. Meine Methode wird als (gute) Løsung zu einem (relativ) weit verbreiteten Problem erkannt. Leider ist es ein Review und somit keine neue Forschung, in der meine Methode zur Anwendung kommt. Leider deswegen, weil es durchaus normal ist, dass spaetere Forscher dann nicht die originalen Verøffentlichungen, sondern dieses Review zitieren … *seufz*

– Weiter geht’s mit „A Sensitive and Fast Fiber Bragg Grating-Based Investigation of the Biomechanical Dynamics of In Vitro Spinal Cord Injuries„.
AAAGHGHAGRHGHGAHGRHA!!! DIE *piep* SCHREIBEN MEINEN NAMEN FALSCH!!!!
Lustig: das ist was ueber Rueckgratverletzungen. Weniger lustig: das macht den Eindruck, dass ich nur zitiert werde um die Literaturliste aufzumotzen (siehe oben) … *seufz*. Andererseits ist’s ja schøn, dass ich und nicht wer anders zitiert wird.

– Ganz toll ist „Monitoring of type IV composite pressure vessels with multilayer fully integrated optical fiber based distributed strain sensing„, denn die haben _meine_ Methode auch wirklich und erfolgreich angewendet:

A good correlation between measurement and reference spectrum reduces noise. Therefore, data analysis was performed applying the running reference method described in [my paper].

*stolz auf mich selbst sei*

– Leider kann ich nix weiter zu „In situ measurement of phase transformations and residual stress evolution during welding using spatially distributed fiber-optic strain sensors“ finden.
Auszerdem scheinen die Autoren mit den oben erwaehnten Kernkraftforschern in Verbindung zu stehen … *seufz*

– Der Artikel mit dem Titel „Performance Investigation of OFDR Sensing System With a Wide Strain Measurement Range“ … *hust* … hinterlaeszt einen schlechten Beigeschmack.
Das liegt aber nicht am Artikel selbst. Ein wirkliches Problem mit meiner Methode wird dargstellt. Aber auf mich machte es den Eindruck, als ob die Autoren meinen Artikel gelesen haben und dann bemerkten: „Well, shit, someone has solved our problem already“ … das weisz ich natuerlich, weil ich selbst auch schon in solchen Situationen war.
Wieauchimmer, was sie sagen stimmt, aber das liegt daran, dass ich niemals Zugang zu den Rohdaten habe. VERFICKTE PROPRIETAERE SOFTWARE! Deswegen musste ich eine pragmatische Løsung finden. Und darueber „schimpfen“ die Autoren.
Mir schien beim Lesen auch, dass die Autoren (anders als ich) die Rohdaten zur Verfuegung hatten, denn sie implementieren (und publizieren) einen Algorithmus den ich mir damals fast genauso auch ueberlegt hatte (so weit ich mich erinnern kann). Den ich aber nie zur Anwendung bringen konnte, eben weil ich die Rohdaten nicht hatte … verdammt!

– Der Artikel mit dem Titel „Guidelines on Composite Flexible Risers: Monitoring Techniques and Design Approaches“ regte mich dann doch auf. Ja, ich werde im richtigen Zusammenhang zitiert aber die grosze Errungenschaft meiner Methode wird indirekt einem der oben erwaehnten (ehemaligen) Kollegen zugeschrieben. Sicherlich, der hat meine Methode erfolgreich in dem fuer die Autoren wichtigen Zusammenhang benutzt; aber mein Verstaendnis ist, dass ich die allerersten Referenzen finde und diese dann richtig zitiere. Im Wesentlichen ist dies das gleiche Problem, was ich schon zu dem Reviewartikel schrieb. Da kann ich leider nix machen und ist natuerlich auch nicht Schuld meines Kollegen. Aber aufregen tut es mich trotzdem. … … … und wenn ich mal drueber nachdenke, dann stellt sich die Frage, ob ich ueberhaupt zitiert worden waere, wenn meine Kollegen nicht meine Methode benutzt haetten … mhmmm.

– Als Letztes fuer heute: „Generalized Cross-Correlation Strain Demodulation Method Based on Local Similar Spectral Scanning„.
Toll ist, dass ich auch vier Jahre spaeter noch zitiert werde. Denn meistens wird man (wenn ueberhaupt) im ersten Jahr nach der Verøffentlichung zitiert (und dann nicht mehr).
Nicht so toll ist, dass die Autoren meine Methode schlecht reden auf eine Art und Weise die falsch ist:

[…] the measurement range of this method is still small […]

Damit meinen, dass man nur ein paar sogenannte microstrain (die Maszeinheit bei diesen Messungen) messen kann. Und das ist vøllig falsch! In meinem Artikel zeige ich die erfolgreiche Messung von 17-tausend (!) Microstrain. Das ist mitnichten „small“. Und dies trotz extrem widriger Messumstaende.
Die Schuhe zog es mir dann aber aus, als ich die Ergebnisse ihrer eigenen Methode sah. Der høchste gezeigte Wert liegt bei 4000 microstrain. Das ist vier mal weniger als das was ich geschafft habe. Und die hatten sehr gute Messbedingungen!
Klar, deren Methode mag schneller sein und weniger Messungen erfordern, aber die falsche Art und Weise wie meine Methode durch den „Schmutz gezogen“ wird ist ja wohl mal komplett daneben! Andere Wissenschaftler die diesen Artikel lesen, nehmen das fuer bare Muenze und benutzen dann nicht meine Methode, selbst wenn diese besser waere.

Najut … an dieser Stelle verschiebe ich die Schau auf meine anderen beiden Artikel auf zukuenftige Beitraege. Es ist schlieszlich mein Geburtstag und da will ich mich nicht aufregen

Fuer die Anzahl der totalen Links schaute ich mir die Verteilungen pro Linklevel an. Dies fuehrte zu Betrachtungen bzgl. der beobachteten Resultate, welche ich in die Begriffe „Zustandsdichte“ und „Phasenuebergaenge“ verpackte. Mindestens Letzteres stellte sich schlussendlich als nicht haltbar heraus, aber die Betrachtungen waren durchaus interessant — das hat das Spielen mit Daten nunmal an sich.

Bei den neuen Links wuerde ich bei den Verteilungen pro Linklevel im Wesentlichen beinahe das Selbe erwarten. Der einzige bedeutende Unterschied, von den bereits beim letzten Mal erwaehnten Schwankungen abgesehen, sollte nur sein, dass die Verteilungen auf der Abszisse nach links verschoben sind. Der Grund liegt natuerlich darin, dass ich weniger neue als totale Links habe (was ja in dieser Reihe schon mehrfach erwaehnt wurde).

Als Konsequenz dieser Erwartungen folgt, dass die grundsaetzliche „Form“ der Verteilung erhalten bleiben muss.
Bei LL0 ist das trivial, denn ganz am Anfang sind im Wesentlichen alle Links auch neue Links … abgesehen von Selbstreferenzen, aber darauf komm ich an anderer Stelle zurueck (zum Glueck fallen die nicht so sehr ins Gewicht).

Der Vergleich der Verteilungen bei LL1 sieht so aus:

Siehste! Man sieht das was ich oben schrieb. Toll wa!

Ich gebe zu, dass auch LL1 irgendwie „geschummelt“ ist, denn die Situation ist ja immer noch sehr aehnlich zu LL0. Deswegen springe ich mal vorwaerts zu LL9 (und ihr, meine lieben Leserinnen und Leser muesst mir einfach glauben, dass das oben Geschriebene auch fuer alle Linklevel dazwischen gilt).

Aha! Die Verteilung der neuen Links ist nach links verschoben und beide Verteilungen haben drei „Berge“; es bleibt also auch eine „komplizierte“ Form erhalten. Der dritte Berg ist in der Verteilung der totalen Links visuell deutlich schmaler. Ich denke, dass es sich hierbei wieder um eine Art der logarithmischen Komprimierung handelt.

Da zu høheren Linkleveln hin nicht mehr viel passiert und weil diese Verteilungen bereits frueher so ausfuehrlich diskutiert wurden, schaute ich mir nur noch zwei Verteilungen an; bei LL20 und LL30. Alles lag innherhalb der Erwartungen und zum „Beweis“ sei nur noch LL30 gezeigt:

Die vielen zu sehenden Phaenomene und Effekte in den Daten diskutierte ich, im Zuge der Betrachtungen zu den totalen Links, bereits im Detail . Darauf aufbauend, und weil (wie zu erwarten war) keine grosze Unterschiede bei den Daten zu den neuen Links auftauchten, konnte ich die Diskussion diesmal zu kurz halten. Fuer erstere Betrachtungen brauchte ich 20 1/2 Beitraege in dieser Serie, die sich ueber 4 1/2 Monate erstreckten. Diesmal waren es nur 2 1/2 Beitraege ueber 2 Wochen. Ist ja auch mal schøn, wenn ich mich kurz halten kann.

Ganz fertig bin ich aber noch nicht mit den neuen Links. Die Spruenge in den oberen Bildern scheinen immer ueber ungefaehr eine Grøszenordnung zu gehen. Jaja, ich weisz, es sind nur zwei „Messpunkte“, aber dies kønnte ein Hinweis darauf sein, dass es mglw. auf jedem Linklevel einen (mehr oder weniger) konstanten Faktor zwischen der Anzahl der totalen Links und der Anzahl der neuen Links gibt. Prinzipiell kønnte ich mir einen Mechanismus denken, wieso das so sein sollte.
Aber ich greife vor und verschiebe diese Untersuchungen und Diskussion auf den naechsten Beitrag.

Da kønnte man natuerlich streiten.
Ist es der Computer? … was natuerlich vøllig falsch waere, denn das ist keine einzelne Erfindung.
Oder ist es das Rad … auch das ist meiner Meinung nach falsch, denn dies ist eine so grundlegende Sache (Zylinder aus irgendwas mit Loch drin) wie „das Haus“ und niemand wuerde „das Haus“ als wichtigste Erfindung der Menschheit ansehen.

Mhmm … man braeuchte vielleicht also noch eine Einschraenkung. Natuerlich nicht so’n Quark wie „was hat die Produktionskosten massiv verringert“. Das ist zwar gut und wichtig, aber nicht langfristig relevant; siehe bspw. die Rechenmaschine. Nach der kraeht heute kein Hahn mehr, obwohl diese eine Revolution in der Buchhaltung war (und eine gute Buchhaltung ist urst wichtig wenn man was auf groszem Maszstab produzieren will … und somit Wohlstand fuer alle Menschen erzeugt).
Es sollte also eine Erfindung (oder Entdeckung) sein, die an Bedeutung nichts verloren hat und solange es Menschen gibt auch niemals verlieren wird. Dabei denke ich natuerlich sofort wieder an meine Miniserie zum IQ zurueck und dabei insbesondere auf das was ich zum Abschluss dieses Beitrags schrieb. Zusammenfassend: je mehr Menschen ueberleben und in guten Bedingungen grosz werden, desto besser.

AHA! Impfungen dann also … naja fast, aber nicht ganz.
Vielmehr denke ich, dass das WC, die grøszte Erfindung der Menschheit ist … und natuerlich alles was damit zusammenhaengt, und wo das WC als Ausdruck und Thron … das bot sich einfach zu sehr an, als das ich das nicht schreiben konnte … dieses ganzen Systems steht. Jaja, ich weisz, dass ich sagte, dass man das beim Computer nicht machen kann, aber ihr, meine lieben Leserinnen und Leser, wisst sicherlich worauf ich hinaus will … und das WC funktioniert im Wesentlichen auch fuer sich allein.

Allgemeiner geht es darum, dass die Menschen (zumindest in entwickelten Laendern) dafuer gesorgt haben ihre biologischen Endprodukte „fachgerecht“ zu entsorgen. Das beinhaltet vor allem die raeumliche Trennung dieser Abfallprodukte von allen anderen Orten die im menschlichenen Beisammensein eine Bedeutung haben; vulgo: die Kanalisation. Im Wesentlichen hat erst das  WC, im Wortsinne als water-closet, den Anschluss eines jeden Hauses an die Kanalisation sinnvill gemacht. Ein Loch im Boden bei dem der biologische Abfall nicht wegtransportiert wird ist zwar schon was wert, aber nicht soo viel denn das liegt da ja noch alles rum und ist eine Quelle fuer Infektionskrankheiten wie Cholera und Typhus. An dieser Stelle sei erwaehnt, dass es keinen Impfstoff gegen Typhus gibt und der Choleraimpfstoff auch nicht so doll ist.

Zur raeumlichen Trennung kam dann spaeter natuerlich auch noch die Wasseraufbereitung. Diese waere aber ohne Ersteres wirkungslos … sauberes Wasser in verseuchte Wohnungen zu leiten bringt nunmal nix.

Aber all das ist heutzutage „unsichtbare“ Infrastruktur im Hintergrund unseres Lebens und deswegen haben wir das vergessen. Wir høren von den oben erwaehnten Krankheiten nur aus den Medien … und meistens kuemmert uns das nicht wirklich. Uns ist nicht mehr bewusst, wie viele Menschen durch diese Krankheiten dahingerafft wurden und wie wichtig John Snows Entdeckung war, dass ein Choleraausbruch in London mit einer kontaminierten Wasserpumpe in Verbindung stand. Letzteres war uebrigens eines der (mir bekannten) fruehesten Anwendungen von „Data Science“ und witzig ist, dass er seine Resultate erfolgreich testete, indem er den Henkel besagter Pumpe abmontierte … tihihi.

John Snows Entdeckung ist die Grundlage fuer die gigantische Wirksamkeit der konkreten Erfindung — des WC’s — welche vermutlich so viele Menschenleben (indirekt) gerettet und deren (direkten) Lebensumstaende massiv verbessert hat, wie keine andere Erfindung der Menschheit (inklusive Impfstoffen, aber diese sind natuerlich auch super wichtig).

Und wieder gilt: das ist gut, dass wir (als Gesellschaft) das vergessen haben, ist dies doch auch hier Ausdruck riesigen Fortschritts.
Leider gilt (wie so oft), dass ich da im Wesenlichen von den entwickelten Laendern spreche. All diese Sachen, welche wir als Selbstverstaendlichkeit hinnehmen und nicht drueber nachdenken, sind eben nicht selbstverstaendlich fuer all zu viele Menschen in weniger entwickelten Teilen der Erde … dies soll aber mitnichten den erreichten Fortschritt kleiner machen!

Bei den Betrachtungen zu den totalen Links pro Linklevel musste ich zunaechst eine Erklaerung finden, warum der Anstieg der totalen Links am Anfang so sehr viel staerker ist als erwartet.
Dies fuehrte letztlich dazu, dass ich den Zusammenhang zwischen der Anzahl der Zitierungen die eine Seite auf sich vereint und der Anzahl der totalen Links der selben Seite untersuchte. Die Quintessenz dieser Untersuchungen drueckt sich so klar in diesem schøne Ergebniss aus.

Das mache ich selbstverstaendlich nicht nochmal, denn das waere nicht sinnvoll. Der Grund ist, dass wenn ich nur eine Seite und nicht deren Linknetzwerk betrachte, alle Links auf dieser Seite neu sind. Dies ist natuerlich unabhaengig von der Anzahl der Zitierungen dieser Seite.

Danach schaute ich mir die „Spaetzuender“ an. Dies waren Seiten, bei denen das Maximum der indivduellen Verteilung der totalen Links pro Linklevel deutlich  vom Maximum der Summe der Verteilung abweicht.
So richtig _deutliche_ Abweichungen fand ich nicht, und die Seiten bei denen die Position des besagten Maximums am meisten abweicht, waren entweder „Rohrkrepierer“, „komische Seiten“ oder eine unguenstige Verkettung von Artefakten, welche aus der Datenaufbereitung stammten. Im verlinkten Artikel wurde dies alles genau beschrieben.

Im Gegensatz zu Ersterem, ist es durchaus sinnvoll, sich die Verteilung der Position(en) der Maxima der individuellen Verteilungen der _neuen_ Links pro Linklevel anzusehen. Hier ist das Ergebnis:

Zum Vergleich in gruen (nochmals) das Gleiche aber fuer die totalen Links … Wortspielkasse. Man erkennt, dass es keine groszen Unterschiede gibt.

Schon aus den Verteilungen der Summe der neuen bzw. totalen Links, konnte man vermuten, dass auch hier das Maximum um ein Linklevel nach „unten“ (bzw. nach links) verschoben sein wird.

So weit so gut. Verschiebt man nun deswegen die rote Verteilung gedanklich um eins nach rechts faellt aber auf, dass die Balken fuer die neuen Links rechts von LL4 alle grøszer sind als die der totalen Links. Das sieht man eigentlich (mal wieder) nur wegen der logarithmischen Ordinate. Aber man sieht es und dieser „Effekt“ ist systematisch und echt und bedarf deswegen einer Erklaerung. Diese folgt sofort.

Zunaechst einmal ist zu beachten, dass ein Balken nur aussagt, wieviele Seiten das Maximum der gegebenen individuellen Verteilung auf dieser Position haben — mehr nicht. Und auch wenn dies den lang und breit diskutierten Trends folgt, so unterliegen die individuellen Verteilungen fuer neue und totale Links natuerlich … ich sag jetzt mal Schwankungen.

Damit kann der „Effekt“ erklaert werden (aber man muss mit den genauen Werten arbeiten, denn wenn man rundet geht das Rechenstueck nicht auf). Im ersten „Maximumsbalken“ fuer neue Links auf LL3 „versammeln“ sich 1.103.028 Seiten. Im ersten „Maximumsbalken“ fuer die totalen Links auf LL4 hingegen 3.874.695 Seiten. Die Diskrepanz ist ziemlich grosz und bedarf einer eigenen Erklaerung. Aber es verwundert mich ueberhaupt nicht, denn hier ist definitiv noch das „Gebiet der vielzitierten Seiten mit vielen Links“ (siehe das schøne Ergebnis weiter oben). Deswegen bin ich hinreichend sicher, dass diese auch hier wieder die Erklaerung sind.
Wieauchimmer, besagte Diskrepanz muss woanders „aufgefangen“ werden, denn ich untersuchte ja ein und dieselben Seiten. Letzteres bedeutet, dass fuer beide Betrachtungen das Integral unter der „Kurve“ den selben Wert ergeben muss (die Anzahl aller Seiten). Auch wenn es gar nicht so aussieht, so findet sich das Meiste davon im zweiten „Maximumsbalken“ gleich danach (4.643.436 zu 1.901.207). Die ca. 30-tausend Seiten die noch fehlen sind dann ueber die anderen Balken (auch links vom Peak!) verteilt.

Ich habe das so genau diskutiert, weil ich zeigen wollte, dass man manchmal (oft?) sehr genau hinschauen muss und Rundungen nicht aufgehen. Haette ich die Zahlen auf hunderttausend (also die erste Stelle nach dem Komma) gerundet, dann sieht es naemlich ueberhaupt nicht so aus, als wenn das passt. Tut’s aber … zum Glueck.

Aber letztlich sind das alles Einzelheiten. Aber Einzelheiten gehøren zur „Data Science“ oft genug dazu :).

Zum Abschluss sei noch gesagt, dass ich (trotz des oben gesagten) nicht nochmal genau hinschaue, was denn das fuer Seiten sind, deren Maximum der Verteilung der neuen Links (z.B.) vier Linklevel ueber (oder unter) dem Maximum der allermeisten Seiten liegt. Ich bin mir sehr sehr sicher, dass ich im wesentlichen wieder nur auf die selben Effekte stosze wie bei den totalen Links und welche ich oben (nochmals) auffuehrte.

Hier ist es:

Und eigentlich kønnte man denken, dass ich dazu nicht viel mehr sagen muesste. Dieses Buch und dessen (unmittelbarer) Inhalt ist naemlich so bekannt, dass der Titel als gefluegeltes Wort in das kulturelle Unterbewusstsein eingegangen ist.

Andererseits møchte ich gerne sagen, dass ihr, meine lieben Leserinnen und Leser, dieses Buch unbedingt lesen solltet. Das ist naemlich so krass gut geschrieben, dass Joseph Heller (und auch das Buch an sich) alle Lobreden komplett und ohne Wenn und Aber verdient haben. Mit „gut geschrieben“ meine ich nicht nur die Sprache an sich, sondern auch die Struktur des Buches und des Textes und der Handlung … und auch dabei meine ich nicht nur die Struktur der Geschichte, sondern auch die Metastruktur, wie die Menschen und Situation(en) miteinander interagieren. Im Wesentlichen meine ich damit all das, was nicht under den oben erwaehnten _unmittelbaren_ Inhalt faellt.

Dies ist definitiv eins der (wenigen) Buecher bei denen ich bereue, dass ich die nicht schon vor einem halben Lebensalter gelesen habe, obwohl ich bereits damals davon gehørt hatte und um dessen kulturelle Bedeutung wusste.
Ebenso ist es eins der (wenigen) Buecher, die ich irgendwann noch (mindestens) einmal lesen werde. Das Lesen war ein wahrer intellektueller Genuss, mein Gehirn hatte seine helle Freude dabei … wobei ich sagen sollte, dass es auch sehr anstrengend zu lesen ist, eben aufgrund erwaehnter Situation, in der sich die Charaktere befinden und um die sich das Buch dreht.

Lange Rede kurzer Sinn: ich bin sehr froh, dass dieses Buch jetzt endlich in meinem Buecherregal steht.

… dieser Maxiserie ist noch nicht da, denn ich meine das Ende der Gesamtverteilung der totalen Links per Linklevel … hier nochmal zur Erinnerung:

Den „Schwanz“ der Verteilung (ich sag jetzt mal ab ca. LL25) sieht man natuerlich nur in der logarithmischen Darstellung und der verlaeuft ziemlich flach. Mit dem Wissen was wir bereits haben kønnen wir dies relativ leicht mittels einer Fermi-Abschaetzung erklaeren.
Wenn ich die Zahlen ganz grob aus dem Diagramm ablese, dann sehe ich, dass ich nach 25 Schritten nur noch ca. 500 totale Links habe. (Nicht vergessen: der grosze Wert auf der Ordinate muss durch ca. 6 Millionen dividiert werden, denn die Summe der totalen Links bildete ich ja ueber die Summe der Verteilungen aller Seiten). Zu dem Zeitpunkt habe ich dann aber die allermeisten Seiten schon besucht. Mein „Bauchgefuehl“ sagt mir, dass ich bei LL25 90 % dieser Links deswegen nicht weiter verfolge. Bleiben noch 50 neue, nicht besuchte Links uebrig.
Bei so hohen Linkleveln befinden sich vermutlich nur noch wenig zitierte Seiten (denn wenn die oft zitiert werden wuerden, haette ich die schon eher gesehen). Von frueher wissen wir, dass wir bei dieser Ueberschlagsechnung mit durchschnittlich 10 Links pro Seite rechnen kønnen. Das bedeutet dann, dass ich dann beim LL26 wieder 500 totale Links habe.
Schwuppdiwupp, ist der flach verlaufende Schwanz der Verteilung qualitativ (!) erklaert. Dabei ist zu bedenken, dass man bei einer Fermi-Abschaetzung versucht die Grøszenordnung richtig hin zu bekommen. Also waere ein Ergebniss von 50 oder 5000 auch gut gewesen.

Das ist ein guter Punkt, um endlich auf die naechste gemessene Grøsze ueber zu gehen: die Anzahl der _neuen_ Links pro Linklevel. Im linken Diagramm sieht man die Verteilung der Summe aller neuen Links pro Linklevel als rote Kurve:

Die Summe ist wieder so zu verstehen, dass ich die Anzahl der neuen Links aller Seiten aufaddiert habe, um obige Kurve zu erhalten.
Die rote Kurve ist sehr aehnlich der Verteilung der Summe der totalen Links (schwarze Kurve) … was zu erwarten war. Der grøszte Unterschied ist, dass die Amplitude pro Linklevel geringer ist … aber das muss ja so sein. Ebenso wird das Maximum (die zwei (!) høchsten Punkte) ein Linklevel eher erreicht … auch das war zu erwarten, wenn man mal drueber nachdenkt.

Im Diagramm auf der rechten Seite habe ich diese Verteilung mal grob „normiert“ auf die Anzahl aller Wikipediaseiten. Grob deswegen, weil ich 6 Millionen als Teiler genommen habe und nicht die wahre Anzahl (welche auch beruecksichtigen muesste, dass Seiten „rausfallen“ wenn deren Linkkette aufhørt). Das ist aber genug um die durchschnittliche Anzahl der neuen Links pro Linklevel zu sehen.
Der Verlauf dieser Kurve ist selbstverstaendlich (!) der Selbe. Aber durch die deutlich kleinere Skala sieht man (wieder), dass man zwischen Linklevel 20 und 45 durchaus mit ca. 10 neuen Links rechnen kann.
Auszerdem sieht man, dass die (normierte) Kurve ab LL48 parallel zur Abzsisse verlaeuft mit einem Wert von 1. Dies ist natuerlich Ausdruck des ausfuehrlich besprochenen Artefakts und soll nicht nochmal Thema sein.

Ich denke nicht, dass ich hier noch viel rausholen kann, aber ich schicke diese Zahlen mal durch die gleichen Analysen wie vorher. Daraus mach ich dann ’ne Zusammenfassung, auszer, wenn ich auf was Ungewøhnliches stosze.