Das zweite Ende der Gabel am Ende des Perseus Arms ist … nun ja … zweideutig, weil man auf der Karte an der mit “ ? “ markierten Position …

… nicht sehen kann, welches dieser beiden System weiter drauszen ist und wie man ueberhaupt die Achse legen soll, welche bestimmt was „weiter drauszen“ eigentlich bedeutet. Also flog ich zunaechst zum Dryeou Fruia FF-R d4-0 System und schaute mir die Galaxis von dort aus an (was fuer eine Ueberraschung):

Auf dem Weg zum obigen System kam ich bereits beim Dryeou Fruia EF-R d4-0 System vorbei, machte aber kein Bild. Da ich auf dem Rueckweg hier eh nochmal durch kam, holte ich dies dann nach und konnte dort sogar auf einem Himmelskørper landen.

Hach … ’s ist zwar dunkel, aber schon schøn hier drauszen :)

Mittlerweile bin ich wieder zurueck in Richtung Bubble. Nicht schnurstracks, denn ich scanne ja immer noch alle Himmelskørper von Wert wie bspw. Ammoniakwelt #175, ELW #106 und Ammoniakwelt #176:

Und auszerdem besuche ich natuerlich Rekorde, die mehr oder weniger auf dem Weg liegen. Und dann … mhmm … das entscheide ich, wenn’s soweit ist.

Die naechste Station und das eigentliche Ziel auf dieser Expedition war das System am Ende des Perseus Arms der Galaxis. Dummerweise ist dies diesmal etwas komplizierter. Wenn man sich naemlich in der Karte aller bekannten Systeme das Ende dieses Arms anschaut, dann ist das gegabelt …

… und es stellt sich die Frage, was denn nun das „richtige“ Ende ist. Ich entschied mich zu beiden zu reisen. Und hier …

… stehe ich auf dem (mich duenkt einzigen) Himmelskørper im Nyoijaa DC-D d12-0 System auf dem man landen kann und betrachte (wie immer) die weit entfernte Milchstrasze.
Besagtes System ist in der obigen Karte mit “ I “ markiert.

Nun raste ich erstmal, aber es soll gleich morgen weiter gehen zum anderen Ende des Perseus Arms.

Peppermint Patty

… fand ich frueher immer doof. Das lag bestimmt daran, …

… weil ihre Noten in der Schule schlecht waren und sie Sport toll fand. Aber …

… beim Lesen aller Peanut Strips wurden sie und Marcie zu meinen Lieblingscharakteren. Dies lag nicht zuletzt daran, …

… dass ich sie als eine sehr ehrliche und ehrlich positive Persønlichkeit, trotz aller Widrigkeiten, wahrnnehme :) .

Immer noch im selben System vom letzten Report hatte ich dann noch eine (ganz und gar nicht unheimliche) Begegnung der dritten Art:

Und dann waren hier auch wieder Lindigoticum Silicate Kristalle …

… und bei diesem Anblick, mit der Galaxis im Hintergrund, wurde ich mir zum ersten Mal bewusst, dass mir dieser spezielle Typ von Weltraumkristall bisher immer nur am Rande der Galaxis begegnet ist.

Und nun frage ich mich ob mich das beunruhigen sollte. Sind diese Kristalle Vorboten einer kommenden Invasion von auszerhalb der Galaxis, oder verlassen diese unsere Milchstrasze, weil irgenwas galaxisweit Schlimmes in naher Zukunft passieren wird?
Wobei „nahe Zukunft“ natuerlich kosmisch zu sehen ist. Dies beruhigt mich etwas, denn egal was es ist, zu meinen Lebzeiten wird das nicht mehr passieren.

Ich erreichte Ood Fleau ZJ-I d9-0, das System mit der grøszten x-Koordinate (im galaktischen Koordinatensystem) und dort empfing ich ganz unerwartet den Willkommensgrusz eines Flottentraegers:

Nach der langen Reise tat es gut mein Schiff mal wieder zu verlassen und mit anderen Menschen zu plauschen. Und die Besatzung des Flottentraegers freute sich auch sehr. Klar, GalNet reicht bis hierher, die wissen also, was in der Bubble passiert. Aber ansonsten haben sie nur sich selbst und da freuen die sich, wenn mal wer anderes da ist, denn so oft kommt hier niemand her.

Weil ich mich so darueber freute, dass hier wer anders ist, ist Magellan’s Pub auf dem obligatorischen Bild, vom Rande der Galaxis auf dieselbe blickend, mit drauf:

Ich hatte zwei Ideen bzgl. der drei Gaussverteilungen welche die Verteilung der Laenge der Wikipediatitel beschreiben. Heute geht es um eine er beiden Ideen: die Verteilung der Laenge der Wørter der englischen Sprache.

Dafuer brauchte ich aber den englischen Duden, das Merriam-Webster Dictionary. Dieses Buch ist gemeinfrei und bei Project Gutenberg erhaeltlich. Allerdings sind da auch die Definitionen der Wørter mit dabei; die brauche ich aber nicht. Ja, die mit zu betrachten waere sogar schaedlich, denn bestimmte Wørter kommen viel øfter in Texten vor als andere Wørter. Das wuerde die Verteilung kaputt machen, da die Laenge dieser Wørter viel zu oft gezaehlt werden wuerde. In anderen Zusammenhaengen ist das bestimmt von Interesse. Bspw. wenn man die durchschnittliche Anzahl der Buchstaben in einem Buch abschaetzen will. Oder wenn man wissen will, welche Wørter besonders oft gebraucht werden. Aber nicht bei der Problemstellung die hier betrachtet wird.

Zum Glueck hat sich jemand anders bereits die Muehe gemacht und die Wørter von den Definitonen getrennt. Diese Datei nahm ich mir her und schaute mir mal die Verteilung der Laenge der Wørter der englischen Sprache im Vergleich zur Laenge der Wikipediatitel an:

Bekannt vom letzten Mal sind die roten Balken (Verteilung der Laenge der Wikipediatitel, diesmal nur bis 30 Buchstaben), die gelbe Kurve (dies ist die erste, der drei oben erwaehnten, Gausskurven) und die blaue Kurve (die Summe besagter drei Gausskurven). Neu sind die schwarzen Punkte, welche die Verteilung der Laenge der Wørter im Merriam-Webster Dictionary darstellen und die gelbe Kurve.

Bevor ich zum Offensichtlichen komme ist zu sagen, dass die Verteilung der Laenge der Wørter der englischen Sprache tatsaechlich mit einer Normalverteilung zu beschreiben ist. Das dem so ist war meine Vermutung, denn ansonsten haette ich die Betrachtungen hier gar nicht ausfuehren muessen. Aber nach der Ueberraschung mit der „unnormalen“ Verteilung der Laenge der Wikipediatitel war ich mir gar nicht so sicher ob diese Vermutung ueberhaupt stimmt.

Das Offensichtliche ist nun, dass die englische Sprache viel zu wenige Wørter enthaelt um die roten Balken auch nur unter der gruenen Kurve zu fuellen. In dem oben verlinkten Wørterbuch befinden sich etwas mehr als 300-tausend Wørter. Weniger als in jedem einzelnen der vier laengsten Balken sind. Neuere Editionen umfassen ca. 470-tausend Wørter. Aber selbst wenn wir das auf 600.000 erweitern, wuerde das nicht ausreichen.

Nicht ganz so offensichtlich, aber beim zweiten Blick sieht man’s … naja … das war ehrlich gesagt das Erste, was mir aufgefallen ist … was wollte ich jetzt eigentlich sagen … ach ja: das Maximum der Verteilung der Laenge der Wørter in Merriam Webster liegt bei 10 Buchstaben. Das Maximum der gruenen Kurve liegt aber bei 13 Buchstaben. Das ist jetzt zwar kein himmelweiter Unterschied, aber dennoch deutlich. So deutlich, dass ich das nicht in irgendeinen „Fehler“ wuerde schieben wollen.

Lange Rede kurzer Sinn, die Laenge der Wørter der englischen Sprache an sich ist NICHT verantwortlich fuer den Verlauf der Verteilung der Laenge der Wikipediatitel. Das spielt sicherlich eine Rolle, aber die ist nicht ausschlaggebend im Groszen und Ganzen.

Bei anderen Wikipedias mag das anders sein. Ich habe aus Interesse mal die Wørter der dtsch. Sprache untersucht. Ganz den Vorurteilen entsprechend scheint die dtsch. Sprache  eher laengeren Wørtern zugeneigt zu sein. Bei kurzen Wørtern gibt es keinen signifikanten Unterschied zwischen dtsch. und englisch im Verlauf der Verteilungen. Aber rechts vom Maximum (also zu laengeren Wørtern hin) hat die dtsch. Sprache (rote Punkte im unteren Bild) definitiv einen Ueberschuss verglichen mit Englisch (schwarze Punkte im unteren Bild).

Ich denke, dass dies daran liegt, dass es im dtsch. viel mehr Kompositwørter gibt. OK, ich gebe zu, dass dieser Gedanke naheliegend war. Unterstuetzt wird diese Vermutung, dass sich die dtsch. Verteilung NICHT durch nur eine Gaussverteilung beschreiben laeszt, aber perfekt durch zwei. Das sind die  beiden orangen Kurven im Bild. Aber ACHTUNG: die høhere orange Kurve beschreibt NICHT die Verteilung der Laengen der Wørter im Englischen, sondern ist die erste Gausskurve zur Beschreibung der Verteilung der Laenge der Wørter in der dtsch. Sprache.
Das Maximum dieser ersten Gausskurve liegt dann bei wie beim englischen bei ca. 10 Wørtern und die Form aehnelt sehr dem Verlauf der englischen Verteilung. Diese Kurve scheint also die Verteilung normaler „Einzelwørter“ zu sein. Die Amplitude der zweiten Gausskurve ist viel kleiner und Selbige sehr breit, mit einem Maximum bei 17 Buchstaben. Und 10 Buchstaben plus 7 Buchstaben … das fuehlt sich an, als ob das durchaus so’n durchschnittliches zusammengesetztes Wort charakterisiert.
Ach so, ich habe die Funktionswerte normiert, damit ich die Verteilungen besser vergleichen konnte. Aber das steht ja auch an der Ordinate.
Nochmal ach so: die Verteilung der Laenge der Wørter der dtsch. Sprache ist nur ’ne (zugegeben gar nicht so schlechte) Abschaetzung, denn ich habe nur eine Quelle mit einem relativ limitierten Wortschatz (ca. 88-tausend) benutzt. Eben das, was ich mal schnell im Internet, ohne lange Suche, gefunden hatte.

Wieauchimmer … schade eigentlich, dass die Laenge der Wørter der englischen Sprache NICHT die Laenge der Titel der Wikipedia erklaeren. Denn damit habe ich nur noch eine Idee, Namen von Personen, zur Erklaerung der Form der Verteilung … dazu mehr beim naechsten Mal.

Rekorde bzgl. des laengsten bzw. kuerzesten Titel sind zwar nett, aber die haben wenig Aussagekraft, was man denn prinzipiell erwarten kann. Deswegen schaute ich mir mal die Verteilung der Laenge aller Titel aller Wikipediaseiten an. Diese Verteilung sieht so aus …

… und das ist ganz bestimmt keine Normalverteilung, denn die habe ich zum Vergleich mit eingezeichnet.

So richtig verwundert war ich erstmal nicht, denn ich hatte nix erwartet. Aber dann fragte ich mich doch, warum das keine Normalverteilung ist.
Prinzipiell muss das keine Gaussverteilung sein. Die Geschwindigkeitsverteilung der Konstituenten eines idealen Gases folgen einer Maxwell-Boltzmann-Verteilung. Wie oft die Erde pro Jahr von Meteoriten getroffen wird, die grøszer sind als 1 m folgt einer Poisson-Verteilung. Aber wenn ich nix weiter weisz, dann nehme ich erstmal eine Gaussverteilung an. Das war schon bei meinen vielen Muenzwuerfen und auch bei meinen Untersuchungen der Fibonaccifolge erfolgreich.
Mit dem „dicken“ Teil rechts vom Peak kønnte es eine Maxwell-Boltzmann-Verteilung sein. Ich habe versucht die Daten mit dieser Funktion anzupassen und das funktioniert nicht. Gut so, denn dann haette ich mir Gedanken machen muessen, warum die Verteilung der Anzahl der Buchstaben der Titel der Wikipediaseiten ausgerechnet einer Maxwell-Boltzmann-Verteilung folgt.

Wenn man sich die Verteilung aber nun genau anschaut, dann sieht man zwei „Schultern“. Die eine bei ca. 35 Buchstaben sieht auch das ungeuebte Auge. Die andere um ca. 23 Buchstaben sieht man eigentllich nur, weil die roten Balken nicht der blauen Kurve folgen.
Schultern sind oft ein Zeichen dafuer, dass das Gesamtsignal durch mehrere Prozesse zustande kommt. Ich persønlich kenne das aus der Halbleiterphysik, in der das Gesamtsignal optischer Halbleiter oft aus Rekombinationskanaelen unterschiedlicher Energie (vulgo: unterschiedliche Wellenlaenge) stammt.

Zur besseren Veranschaulichung stelle man sich eine RGB-Leuchtdiode vor. Diese besteht eigentlich aus drei Leuchtdioden, einer roten, einer gruenen und einer blauen, die nahe beineinander sind. Wenn nun alle drei von denen gleichzeitig an sind, nimmt das Auge das Gesamtsignal als weiszes Licht wahr. In dem Fall haben wir also drei Prozesse die unabhaegig voneinander sind und in der Summe etwas sehr anderes ergeben als einzeln betrachtet — naemlich besagtes weiszes Licht anstatt einer wohldefinierten Farbe.
Das Licht welches jede einzelne Leuchtdiode aussendet ist nun aber nicht streng „einfarbig“. Die Leuchtdioden emittieren nicht bei nur einen einzelnen Wellenlaenge sondern das Maximum der Emission liegt auf einem gewissen Wert (den wir dann bspw. als „rot“ sehen) und mit geringerer Wahrscheinlichkeit wird Licht høherer und niedrigerer Wellenlaenge ausgestrahlt. Die Wahrscheinlichkeit welche Wellenlaenge ausgestrahlt wird ist normalverteilt.
Kurzer Abstecher: ein Laser emittiert auf einer einzigen Wellenlaenge … naja, streng genommen emittiert auch ein Laser nicht auf ganz genau auf nur einer einzigen Wellenlaenge, aber fuer die meisten praktischen Betrachtungen ist das nicht so wichtig, denn die „Streuung“ um die Zentralwellenlaenge ist viel geringer als bspw. bei Leuchtdioden.
Lange Rede kurzer Sinn: man kann das weisze Licht einer RGB-Leuchtdiode mittels drei unabhaengigen normalverteilten Prozessen erklaeren.

Wenn ich nun die Daten mittels drei Gaussverteilungen anpasse, erhalte ich dieses Bild:

Die blaue Kurve entspricht der Summe der drei unabhaengigen Gaussverteilungen (gelb). Dass die Anpassung so gut ist, deutet darauf hin, dass meine Annahme dreier unabhaengiger (gaussverteilter) Prozesse mglw. richtig ist … andererseits, wenn man genuegend Normalverteilungen nimmt, kann man alles mehr oder weniger gut anpassen.

Die erste unabhaengige Verteilung dominiert den Peak und das Zentrum dieser liegt bei ungefaher 13.23 Buchstaben. Der zweite Prozess ist deutlich schwaecher (die Amplitude der Gaussfunktion ist nur ca. ein drittel so grosz) und das Zentrum liegt bei ca. 21.07 Buchstaben. Der dritte Prozess liegt mit einem Zentrum von ca. 25.81 Buchstaben allerdings ziemlich weit entfernt von den oben erwaehnten ca. 35 Buchstaben. Von der „Staerke“ aehnelt dieser dem zweiten Prozess, ist aber deutlich weniger „definiert“. Die, diesen Prozess beschreibende, Gausskurve ist sehr breit und ueberlappt signifikant die beiden anderen Prozesse.

Das ist natuerlich nicht „die ganze Geschichte“. Wenn die Tittellaenge deutlich mehr als 50 betraegt wird die Verteilung ueberhaupt nicht gut mit diesen drei Prozesen beschrieben. Das ist aber nicht unerwartet und tut relativ wenig zur Sache. Letzteres liegt natuerlich daran, weil es davon insgesamt so wenige gibt und die fallen dann unter das was ich im allerersten Satz bereits schrieb.

Nun ist natuerlich die Frage, was diese drei Prozesse sein kønnten?
Ehrlich gesagt, habe ich ueberhaupt keine Idee, was der dritte Prozess ist. Aber bei so einer breiten Gausskurve kønnte da alles møglich mit dazu zaehlen. Bei den ersten beiden Prozessen habe ich aber eine Vermutung: die englische Sprache an sich und Namen. Dazu mehr beim naechsten Mal.

Im selben System von meinem letzten Report begegnete ich dann auch noch diesen Tuetchen:

Es handelt sich dabei um Cobalteum Rhizome Pods. Und auszerdem gibt es hier auch noch (die beretis von frueher bekannten) Lindigoticum und Roseum Ice Kristalle:

Solche Sachen lockern die Monotonie auf und sind immer wieder schøn anzuschauen … insbesondere natuerlich mit der Galaxis als ganz fantastischem Hintergrund :)

Beim letzten Mal schaute ich mir die Wikipediaseiten mit den kuerzesten Titeln an.

Auf der anderen Seite gibt es Wikipediaseiten mit echt langen Titeln. Das Subcommittee on International Organizations of the Committee on International Relations hat 87 Buchstaben. Ein anderes Subcommittee, das United States Senate Foreign Relations Subcommittee on Multilateral International Development, Multilateral Institutions, and International Economic, Energy and Environmental Policy, hat fast 100 Buchstaben mehr (181 um genau zu sein). Aber den ersten Preis (oder vielmehr die Blume) nimmt, mit 250 Buchstaben, nach Hause die Wikipediaseite mit dem Titel: Cneoridium dumosum (Nuttall) Hooker F. Collected March 26, 1960, at an Elevation of about 1450 Meters on Cerro Quemazón, 15 Miles South of Bahía de Los Angeles, Baja California, México, Apparently for a Southeastward Range Extension of Some 140 Miles … das ist uebrigens der Titel einer wissenschaftlichen Arbeit *lol*.

Beim naechsten Mal schaue ich mir dann mal genauer an, wie sich die Verteilung der Laenge der Titel aussieht.

Nun hatte ich endlich die Rohdaten zur Analyse des Linknetzwerks fertig. Aber bevor ich dazu komme (und wieder erstmal ein paar technische Details besprechen werde), dachte ich mir, dass ich ja schonmal das was ich habe untersuchen kønnte.

Dabei musste ich mir auch keine Sorgen darum machen, ob das alles in den Arbeitsspeicher passt. Der Grund ist, dass ich immer nur ca. 100,000 Titel (mit den dazugehørigen Links) in eigenen, kleinen Dateien gespeichert habe. Die Daten darin passen garantiert in den Arbeitsspeicher und ich kann die der Reihe nach abarbeiten.
Das Linknetzwerk wird dadurch in keinster Weise analysiert, denn dafuer muss ich ALLES gleichzeitig bearbeiten … dazu aber mehr zu einem spaeteren Zeitpunkt.

Heute nun interessierte mich, was denn die kuerzesten Titel sind. Es stellte sich heraus, dass viele Buchstaben (im weitesten Sinne) und Zahlsymbole der Sprachen dieser Welt eigene Wikipediaseiten haben. Naja … wenn man alle Sprachen in Betracht zieht, dann haben nur ganz wenige Buchstaben eine eigene Seite … aber darauf will ich nicht hinaus.

Ein Beispiel ware die Nummer 5, der Buchstabe P, oder das umgedrehte S.
Die Laenge dieser Titel ist … eins … und davon gibt es 234 Seiten … das war einfach … tihihi.