Pru Euq IQ-U c4-2 AB 1 ist etwas Besonderes, denn dieser Gas giant with ammonia-based life haelt den Rekord fuer den grøszten orbitalen Umfang mit 143,720,526,434,355.78 m. An und fuer sich ist das nix Besonderes. Aber dieses Mal folgt dieser Rekord NICHT mit dem Rekord fuer die laengste Halbachse. DAS ist eine (sehr) seltene (Nicht-)Kombination. Sicher, die Laenge der Halbachse ist fast (aber nicht ganz) so lang wie die Rekordhalbachse fuer Planeten dieses Typs. Aber erst eine etwas andere Exzentrizitaet des Orbits macht diesen Rekord hier møglich. Mathematik, verewigt in der Himmelsmechanik … Toll wa!

Dieses Bild vom Rekordhalter …

… zeigt auch, dass all die Schønheit der Dunkelheit eigentlich nur in Verbindung mit (etwas) Licht wirklich zur Geltung kommt. Hier ist es das Licht (fast) der gesamten Galaxis. Und die blauen Punkte im Vordergrund … das ist meine Frigg.

Ueber „Das Kapital“ habe ich bereits mehrfach geschwaermt. Eine (eigentlich ueberhaupt nicht wichtige) Sache die ich noch zeigen wollte sind die vielen Titelseiten.

Bereits vor laengerer Zeit stellte ich die „Auszenhuelle“ meiner Ausgabe vor:

Aber innerhalb eines Buches kommt ja dann oft eine schøn aufgemachte Version. Das ist diese hier ist so eine:

Ich bitte den Gelbstich zu ignorieren. Das ist mein Kuechenlicht.
Besonders erwaehnenswert ist der historische Hinweis ganz oben. Bald weisz keiner mehr, welche Relevanz diese drei dort erwaehnten Organisationen mal hatten. Ach Mensch, _ich_ weisz das ja schon nicht mal mehr.

Gleich danach folgt die eigene Titelseite des ersten Buchs:

Und im Vorwort wird das Titelblatt der Erstausgabe gezeigt:

Abgerundet wird das Ganze mit dem Titelblatt der ersten Ausgabe der russischen Version:

Das ist jetzt zwar nichts super Besonderes, aber ich fand es erwaehnenswert

Eine ganz andere Art von Dunkelheit wird durch Y (Brown dwarf) Stars praesentiert. Hier ist BD+52 262B mit einer absoluten Helligkeit von gar winziglichen 29.59259 (!!!):

Das macht diesen ganz spezifischen Stern zum dunkelsten aller Sterne dieses Typs.

Ueberhaupt! Y Sterne sind voll interessant. Einige sind so kalt, dass man bei einer Temperatur um ca. 300 K darauf „rumlaufen“ kønnte. Das interssante ist, dass man diese Himmelskørper trotzdem „Sterne“ nennt. Dies verdeutlicht, dass dieser Begriff wenig mit „Strahlkraft“ an sich zu tun hat, sondern wie solche Massenansammlungen entstehen (waehrend des Kollaps einer Gaswolke). Und solch kalte Sterne gibt es sogar in der Naehe des Ursprungssystems. Cool wa … tihihi … im wahrsten Sinne des Wortes.

Beim letzten Mal bin ich einen groszen Teil der fuer die Bearbeitung der Problemstellung irrelevanten Information losgeworden. Anstatt die kompletten Texte der Wikipedia in die Betrachtungen einzubeziehen habe ich nur alle Titel und die dazugehørigen Links aus den Daten herausgezogen. Es stellte sich dann heraus, dass das immer noch eine zu grosze Datenmenge war um die zu bearbeiten. Auszerdem stimmte die Anzahl der Wikipediatitel mit fast 21 Millionen nicht ueberein mit den offiziellen ca. 6 Millionen.

Letzteres machte mich stutzig und ich schaute mir die verbliebenen Daten mal genauer an. Als allererstes vielen mir zwei Dinge auf. Vor dem eigentlichen Titel gibt es im Code jeder Wikipedia noch mehr „Steuerelemente“. Dort kønnen prinzipiell auch Links auftauchen. Ebenso muss nach dem Titel nicht direkt der Text der eigentlichen Seite anfangen. Und in diesem Teil kønnen prinzipiell auch Links auftauchen.
Dieses Problem war einfach zu løsen denn das eigentliche Textfeld beginnt immer mit diesem Steuerelement:

<text bytes=

Da konnte ich also einfach sagen, dass Links erst dann aufgenommen werden sollen, wenn diese Markierung passiert ist.

Die zweite Sache die mir auffiel war … mhm … schwerwiegender und weniger einfach zu løsen. Als Beispiel soll der Artikel ueber die Sprevane dienen. Ganz am Ende, nach dem eigentlichen Artikel findet sich diese weiterfuehrende Infobox:

Solche Infoboxen gibt es auf vielen Seiten und zu vielen Themen. Das ist zwar gut und soll da auch stehen, aber fuer die Problemstellung ist das eher irrefuehrend. Ich wollte wissen, wie man aus den eigentlichen Texten von einer Wikipediaseiten zu jeder anderen kommt. Solche Infoboxen fuehlen sich da an wie „schummeln“, weil man damit ja gleich ganz total woanders „hinspringen“ kann.
Lange Rede kurzer Sinn, die wollte ich also nicht dabei haben. Dummerweise haben die keine Markierung im Quellcode.

Zur Hilfe kam mir eine andere Sache, die ich auch nicht dabei haben wollte (und zwar von Anfang an nicht). Im obigen Beispiel ist es der mit „See also“ bezeichnete Abschnitt. Das ist thematisch zwar auch immer passend, aber ebenso eine „unerlaubte Abkuerzung“.
Nun haben aber nicht alle Artikel solche einen Abschnitt. Anstatt dessen gibt es andere, aehnliche Paragraphen, die in die selbe Kategorie fallen. Diese sind „References“, „Further reading“, „‚External links“ und „Sources“. In den allerallermeisten Faellen ist eins davon immer dabei. Und diese Abschnitte stehen (zumindest bei den vielen hunderten Stichproben die ich gemacht habe im Laufe des Projekts) auch immer ganz am Ende (vor møglichen Infoboxen). Wenn doch ein paar ein paar ganz wenige „durchgehen“, entweder weil so ein Abschnitt doch nicht auftaucht, oder weil der nicht ganz am Ende steht, dann ist das auch nicht soo schlimm. Ist halt so bei Daten aus der echten Welt … das geht dann in den immer angenommenen 10-Prozent-Fehler. Ist ja schlieszlich keine Bruecke die ich hier baue.
Und welche Blueten das treiben kann, kann man an diesem Beispiel, welches alle fuenf „Endabschnitte“ und gar sekundaere und tertiaere Quellenangaben hat o.O .

Somit hatte ich also meine Markierung; ich hørte einfach auf Links mit dazuzunehmen, wenn einer von den obigen fuenf Abschnitten erreicht war.

Die Anzahl der Titel blieb mit 20,820,530 natuerlich die Selbe, aber die Anzahl aller in Betracht gezogenen Links reduzierte sich um ueber 15 % von urspruenglich 327,784,045 auf 277,321,420.

Ich mache dies alles so im Detail, weil ich genau wissen møchte, was meine Daten die ich letztlich analysieren werde eigentlich beinhalten. Denn das wird die Resultate beeinflussen!

Ach ja, die Grøsze der Daten in Textform reduziert sich durch diesen Schritt nochmals betraechtlich von 7.5 GB auf nur 6.0 GB. Die (relevante) Grøsze der strukturierten Daten geht runter auf 8.9 GB (von ehemals 10.8 GB). Toll wa! Bald bin ich in Bereichen, wo ich alles gleichzeitig im Arbeitsspeicher halten kann :) .

Oft ist nichtmenschliches Leben (oder Strukturen die ich dafuer halte) welches sich im Vakuum des Alls aufhaelt riesig. Aber neulich stolperte ich ueber diese kleinen Racker:

Das sind Albulum Gourd Molluscs und wenn ich zu nahe komme, dann bewegen sie sich schnell von mir fort. Deswegen entschied ich mich nicht weiter zu støren und flog weiter.

Von Oochost KA-Q c21-0 1 aus hat man einen ganz fantastischen Blick auf Barnard’s Loop:

Der Planet selber ist nicht nur die High metal content world (auf der man landen kann) mit der grøszten Exzentrizitaet des Orbits. Sondern mit einem Wert von 0.999485 fuer diesen Parameter haelt sie diesen Rekord fuer ALLE Planeten auf denen man landen kann.
Zur Zeit befindet sich der Planet aber naeher am Apoapsis des Orbits. Deswegen kommt hier nicht so viel Licht an und ich musste die Oberflaeche mit den Lampen meines SRV illuminieren.

Vor einiger Zeit kaufte ich mir eine Playstation 4. Am Anfang ist die noch ganz jungfraeulich. Trotz lanjaehrigen Zockens (das muesste ich auch mal aktualisieren) auf der Playstation 3 wurde ich (verstaendlicherweise) so begrueszt:

Und als ich mir meine Pokale anschauen wollte wurde mir gesagt:

Gut zu wissen.

Zum Glueck (???) sind meine Pokale „auf dem Server“ gespeichert. Die Information konnte also schwuppdiwupps runtergeladen werden und dann war mein System auf dem aktuellen Stand.
Ich fand das ein bisschen witzig, denn „0 Trophies“ sehe ich nicht so oft.

Høhø! Voll lustig so’n Markow-Ketten-Generator. Sieht man doch wohl voll, dass das totaler Murks wird, wenn das naechste Wort nach einer Wahrscheinlichkeit berechnet wird.
Diese Domaene ist den Menschen vorbehalten, denn laengere, zusammenhaengende Texte zu schreiben erfordert ein ordentliches Textverstaendnis.

Nun ja, der heisze Scheisz ist seit ein paar Monaten GPT-3.

Hier sind etliche Beispiele fuer Dialoge, Horoskope, Gedichte, Kritiken etc. pp. zu finden.

Ganz toll ist auch, dass man GPT-3 sagen kann, dass es die Antwort in einem bestimmten Stil schreiben soll. Und dann kann man sich von Marie Curie Strahlung erklaeren lassen, H.G. Well zur Inspiration fuer seine Buecher befragen, oder Leibniz‘ Meinung bzgl. des wahren Entdeckers der Infinitesimalrechnung in Erfahrung bringen. Letzteres lohnt sich wirklich zu lesen. Aber Achtung, er hat da eine sehr spezifische Meinung und laeszt sich nicht die Butter vom Brot nehmen. Und wem das nicht reicht, der kann den Hulk fragen, warum er denn immer alles zerschmettern will.

Zur Zeit ist es noch so, dass eine Zusammenarbeit zwischen GPT-3 und einem Menschen (als Redakteur) die besten Ergebnisse liefert. Hier kann man eine Kurzgeschichte als Produkt einer solchen Kollaboration lesen.

Bei den Beispielen kønnte man ja jetzt sagen: „Ach das ist ja nur Quatsch, da ist das nicht so schlimm; richtige Informationen die auch in der Zeitung stehen sind auszer Reichweite von Maschinen“.
Ja, kønnte man sagen … aber dann empfehle ich diesen kurzen Artikel im Guardian dazu … lohnt sich zu lesen. Nicht des Inhalts, sondern der Implikationen wegen!

Ich erwaehnte, dass ich im Spirographnebel rumhing. Und weil es mir hier beim ersten Mal als ich hier war so gut gefallen hat, dachte ich mir, das ich mal auf dem selben Planeten wie damals landen muss … einfach weil’s so schøn war. Damals meinte ich, dass es hier niemals richtig Nacht wird … und das stimmt schon … aber dunkel wird es trotzdem auf der sonnenabgewandten Seite:

Amuesant finde ich, dass es scheint als ob Frigg fuer den Schatten auf den Ringen verantwortlich ist … tihihi … jajaja, mein SRV hat schon ein paar kraeftige Strahler :) .

Beim letzten Mal schrieb ich, dass die Wikipedia Rohdaten ca. 75 GB (75.4 GB um genauer zu sein) grosz sind. Das ist viel zu viel um das im Arbeitsspeicher zu haben.
Und selbst wenn man so viel Arbeitsspeicher haette, ist das meiste davon Information, die nicht relevant ist fuer die eigentliche Problemstellung.

Mein erstes Ziel war somit Information loszuwerden die ich garantiert nicht brauche.
Im Wesentlichen bedeutete dies, den Text und die „Steuerelemente“ loszuwerden. Letztlich ist ja ALLES Text und deswegen ist Letzteres so wichtig. Denn das ist der Code, der dem Browser klarmacht, dass bspw. ein Wort fett oder kursiv sein soll, an welche Stelle ein Bild kommt, was ein Link ist oder das eine Sequenz von Wørtern eigentlich der Titel sind (und vieles, vieles mehr).

Und die letzten beiden Sachen sind die einzigen Dinge an denen ich interessiert bin.

Und hier kommt eine andere Sache ins Spiel, die vøllig normal fuer einen Datascientist (aber oft nicht fuer einen Dataanalyst) ist: sich die Rohdaten anschauen um herauszufinden wie die Information darin ueberhaupt strukturiert ist.
In diesem Falle war das einfach, weil ich ja den „Quellcode“ der Wikipedia hatte. Das war also alles schon super toll durchstrukturiert, denn eine Maschine muss ja im Stande sein das zu interpretieren und richtig darzustellen. So schøn anzusehen Bilderhandschriften sind, so ist das nicht von Webbrowsern (ohne Weiteres) interpretierbar. Da sitzt erstmal ein Mensch und „uebersetzt“ die in einer solchen Seite vorhandene Struktur in allgemeine (maschineninterpretierbare) Regeln.

Dieser Prozess ist oft ermuedend und langweilig. Aber nicht minder oft lerne ich dabei auch ’ne ganze Menge … insb. natuerlich bei diesem Projekt, da die Rohdaten die Wikipedia sind … hach, was hab ich alles gelesen :) .
Oft fasst man sich auch an’n Kopp oder rauft sich die Haare (nicht nur im bildlichen Sinne!). Das beinhaltet dann meist von sog. „Nutzern“ erstellte Daten. Und davon hatte ich hier auch ’ne ganze Menge.

Wieauchimmer, ich will also den Titel einer Seite und die im Text vorhandenen Links.
Der „Code“ einer Wikipediaseite ist sehr sehr aehnlich dem HTML-Quelltext jeder anderen Webseite. Letzteren bekommt man in Firefox angezeigt, wenn man < CTRL + U > drueckt.
Das ist gut, denn bedeutet dies doch, dass der Titel leicht zu finden ist, denn dieser befindet sich immer zwischen diesen beiden „Markierungen“:

<title>  TitelDerWikipediaseite  </title>

Das meine ich mit Struktur und warum das kleine (aber starke) Wort „immer“ im vorherigen Satz steht.

Links sind etwas komplizierter und ich werde auch an anderer Stelle nochmal auf diese zurueck kommen. In HTML sehen Links so aus:

<a href="LinkZurSeite" title="NameDerSeite">Das was im Text steht und blau und unterstrichen ist</a>

Im Code der Wikipedias ist das deutlich kuerzer. Links befinden sich dort in doppelten eckigen Klammern:

[[TitelDerWikipediaseite | blauer, unterstrichener Text ]]

Der Teil rechts von der „Pipe“ (keine Ahnung wie < | > im dtsch. heiszt) ist optional. Links davon kann auch eine URL einer externen Seite stehen. Das kommt vor aber nicht so haeufig.
Wichtig ist, dass die Struktur (wieder) immerzu das Gleiche ist.

Wenn man den ganzen Text weg laeszt und nur den Titel einer Seite und die Links behaelt, kann ich die Datenmenge um 90 Prozent (!) reduzieren von 75.4 GB auf nur 7.5 GB.
Dummerweise ist das in Textform. Als Rohdaten ist Textform super. Bei der Datenanalyse kønnte ich auch direkt mit Text arbeiten, dass ist aber schwerfaellig. Es ist besser die Information in Datenstrukturen zu „verpacken“, sogenannte Zuordnungstabellen. Das ist eine Art „Metastruktur“ und erleichtert die Handhabung der Daten immens! Handhabung bedeutet hier, lesen und schreiben von Daten.
Das bedeutet ich muss nicht jedes Mal durch jede Zeile eines Textdokuments durchgehen, bis ich eine spezifische Seite (und deren Links) gefunden habe. Innerhalb der „Metastruktur“ sage ich dann bspw. nur …

Ich habe hier einen gewissen Titel; gib mir alle dazugehørigen Links an

… und das wird dann direkt gefunden. In einer Bibliothek wuerde ich sozusagen die Nummer des Buecherregals nehmen (als „Titel“)  und alle Buecher darin entsprechen den Links.

(Beinahe) dito, wenn ich etwas mit den Links machen muss (Spoiler: dazu mehr in einem spaeteren Artikel):

Ich habe hier einen gewissen Titel; løsche alle Links die ein "A" enthalten

Das Problem ist nun, dass die interne Praesentation der Metastruktur Platz braucht. Ich erkaufe also Nuetzlichkeit mit Speicher. So wie ein Buecherregal und die Luft zwischen den Buechern mehr Platz braucht als wenn man Buecher einfach nur auf dem Boden stapelt. Da frage ich mich doch, wieviel weniger Platz die (nicht digitalen) Dokumente (also auch sowas wie Bilder und chiesische Vasen, etc. pp.) dieser Welt brauchen wuerden, wenn das nicht in Regalen (und aehnlichem) sortiert waere. Das sieht man ja bspw. wenn beim Umzug alles in ein paar Kartons dicht gepackt ist. Und darauf folgt dann die Frage, wie grosz die Effizienzsteigerung der Verwaltung ist (sei es beim Staat, bei der Schule oder im eigenen Haushalt) eben durch die Nutzung von Metastrukturen/Buecherregalen.

Wieauchimmer, durch den erhøhten Speicherbedarf ist die obigen Angabe etwas irrefuehrend. Klar, die Information an sich braucht nur 7.5 GB. Damit ich damit aber was (vernuenftiges) machen kann, brauche ich besagte Datenstrukturen und dadurch erhøht sich der Speicherbedarf auf 10.8 GB.
Wenn ich im weiteren Angaben zur „Grøsze der Daten“ mache, dann meine ich damit ab sofort immer inklusive der Anordnung in Datenstrukturen.

So, das war ein ganz schøn technischer Abstecher. Die 10.8 GB sind immer noch zu viel um das alles gleichzeitig im Speicher zu behalten. Zum Glueck (irgendwie) enthaelt die reduzierte Information (die aussoprtierten Titel und Links, ohne den Text und Steuerelemente) noch ’ne ganze Menge „Zeug“ welches nicht gebraucht wird zur Bearbeitung des Problems gebraucht wird (oder gar zu nicht ganz richtigen Resultaten fuehren wuerde). Dazu aber mehr im naechsten Artikel.

Ach ja, in den reduzierten Daten habe ich 20,820,530 Titel und diese beinhalten insgesamt 327,784,045 Links.
Moment 20,820,530 Titel und jeder Titel entspricht einer Wikipediaseite? Ich sagte doch ganz am Anfang, dass es nur 6 Millionen gibt. Nun ja, beides ist richtig, aber mehr zur Løsung dieses Raetsels in einem der folgenden Artikel.