Ohne Analyse des Linknettzwerks konnte ich mir auch mal anschauen welche Wikipediaseiten denn am meisten (auf Wikipedia) zitiert werden. Hier ist die Liste, mit der dazugehørigen Nummer, wieviele der insgesamt 165,913,569 zitierten Links auf den jeweiligen Eintrag entfallen, und kurzen Kommentaren.

PlatzTitelAnzahl ZitierungenKommentar
1.United States325,128Die Wikipedia ist "westlich ausgerichtet" und da wundert mich das ueberhaupt nicht, dass die USA implizit oder explizit oft erwaehnt werden.
Ebenso ist vermutlich das was ich zu "France" auf Platz 6 sage auch hier gueltig.
2.List of sovereign states231,196Ich denke, dass dies von den Infokaesten an der Seite kommt, in denen Kurzinfos zu bestimmten Sachen stehen. Jede(s/r) Stadt, Land, Fluss gibt's nunmal in 'nem Land.
3.Association football187,590Fuszball ist urst beliebt in der Welt … kurzer Uberschlag: 150 Laender x 10 (mehr oder weniger beruehmte) Fuszballteams x 10 Spieler x 50 Jahre / 5 Jahr pro Spieleraustausch = 150,000 mal die das Wort "Fuszball" erwaehnt wird.
4.World War II168,323Sehr viele Aspekte der Kultur, Wirtschaft, Wissenschaft, prinzipiell des Lebens der "westlichen Welt" sind bis heute zutiefst gepraegt durch die Ereignisse des 2. Weltkriegs.
5.France148,004Mhmmm ... die "westliche Welt" ist durchaus sehr stark durch Frankreich gepraegt, aber dass das so stark ist, dachte ich nicht.
Allerdings ist auf Platz 86 "Communes of France". Da hat sich wohl mal wer hingesetzt und all den kleinen Kommunen Frankreichs eine Wikipediaseite eingerichtet. Diese Kommunen beinhalten (mehr oder weniger) beruehmte Dørfer und da wird dann natuerlich "France" sehr oft erwaehnt.
6.Animal146,783Sehr viele Viecher haben wenigstens kurze Wikipediaseiten. Und alle Viecher sind "Animals".
7.India134,738Indien hat viel Kultur, wir kriegen davon nur nicht so viel mit. Aber ich vermute, dass diese grosze Zahl an Zitierungen eine aehnliche Erklaerung hat wie bei Frankreich.
8.The New York Times126,873Diese Zeitung wird oft als Quelle im Text zitiert wobei erwaehnt wird, dass es von der NYT kommt.
9.New York City124,834Mhmmm … schwer zu sagen, aber kulturell gesehen (bzgl. der "westlichen Welt") passiert schon krass viel in NYC.
10.Germany124,204Siehe "France".
11.United Kingdom116,353Dito
12.Arthropod115,756Siehe "Animals" und echt viele Viecher sind Gliederfueszer.
13.Insect112,683Dito
14.London110,488Siehe "NYC".
15.AllMusic105,235Eine Datenbank wenn man irgendwas zu (moderner) Musik wissen will. Deswegen wird das sicherlich oft als Quelle herangenommen und entsprechend oft zitiert.
16.England100,034Siehe "France".
17.U.S. state97,697Siehe "List of sovereign states"
18.Italy95,747Siehe "France".
19.Australia94,704Dito
Aber ab hier wuerde ich sagen, dass Zitierungen durch kulturellen Einfluss weniger, aber durch Eintraege "beruehmter" Dørfer grøszer wird.
20.Iran93,917Siehe "Australia".
Aber siehe auch der Kommentar zu "Bakhsh".
21.Russia92,585Siehe "Australia".
22.Canada92,232Dito
23.Village91,064HA! Da sind sie, die ganzen Dørfer.
24.Japan90,303Zunaechst wuerde ich auch auf das Kommentar zu "Australia" verweisen. Dies hier kønnte aber eine Ausnahme sein, weil echt krass viel internetrelevantes Zeug aus Japan kommt.
Nicht zuletzt viele (oft gar nicht so sehr) Nischeninteressen, deren "Konsumenten" aber sehr internetaffin sind und dann zu jedem Detail eine eigene Wikipediaseite schreiben.
25.World War I89,374Siehe "World War II"
26.China83,106Siehe "Australia".
27.California80,179Dito, aber auch der erste Teil des Kommentars zu "Japan".
28.Moth79,915.oO(Ausgerechnet) … aber echt viele Krabbelviecher fallen in diese Tiergruppe.
29.National Register of Historic Places79,852Man denke nur, wie viele denkmalgeschuetzte Bauten es in Dtschl. gibt. Kein Wunder, dass das (US-amerikanische) Register so oft erwaehnt wird.
30.Catholic Church79,411Selbst Atheisten duerften zugeben, dass die "westliche" Kultur zutiefst gepraegt ist durch die katholische Kirche.
31.Poland77,109Siehe "Australia".
32.Midfielder71,978Siehe "Association football", wenn man in Betracht zieht, dass vermutlich die Haelfte aller Fuszballspieler irgendwann mal auf dieser Position gespielt haben.
33.Los Angeles70,852Hollywood ist dort … ansonsten siehe "NYC".
34.Spain70,150Siehe "Australia" … mit einer Tendenz zu siehe "France".
35.Lepidoptera64,204Siehe "Moth". Interessant ist, dass Motten eine Familie in dieser Ordnung sind, aber øfter zitiert werden.
36.Paris63,574Siehe "NYC".
37.Bakhsh63,325Haeh? Was?
Zusammen mit "Provinces of Iran" auf Platz 38, "Counties of Iran" auf Platz 39, "Dehestan (administrative division)" auf Platz 44 und "Iran Standard Time" auf Platz 48 dachte ich zunaechst, dass es sich hierbei um eine Propagandaoperation handeln muss. Aber dann sah ich ein aehnliches Muster bei den USA und bei Frankreich und aenderte meine Meinung dahingehend, dass da vermutlich ein paar Nerds freie Zeit hatten und die investiert haben etliche (zehn)tausend kurze Artikel zu alles und jedem im Iran zu schreiben. Das ist bei allen anderen Laendern vermutlich genauso.
Wir wissen, dass die Wikipedia von verhaeltnismaeszig wenigen Schreibern dominiert wird (ein paar Tausend). Deswegen wuerde ich diese Erklaerung fuer durchaus plausibel halten.
38.Provinces of Iran62,838Siehe "Bakhsh".
39.Counties of Iran62,763Siehe "Bakhsh".
40.Geographic Names Information System62,525Siehe "National Register of Historic Places".
41.Species62,452Siehe "Animal".
42.Brazil62,261Siehe "Australia".
43.The Guardian62,202Siehe "The New York Times".
44.Dehestan (administrative division)61,782Siehe "Bakhsh".
45.Billboard (magazine)61,428Siehe "AllMusic".
46.English language61,148Das Bedarf vermutlich keines Kommentars … oopsie.
47.Soviet Union60,530Das ist etwas ueberraschend. Die Soviet Union ist ein nicht mehr existierender Staat. Damit kann das nicht durch "Zeug das es in dem Land gibt" erklaert werden. Das muss dann wohl der historische kulturelle Einfluss sein.
48.Iran Standard Time60,447Siehe "Bakhsh".
49.Defender (association football)58,476Siehe "Midfielder", nur dass mglw. nicht ganz so viele Fuszballspieler mal auf dieser Position gespielt haben.
50.Washington, D.C.56,589Noch eine Ueberraschung, denn diese Stadt wuerde ich nicht als kulturell sehr einflussreich beschreiben. Mal abgesehen davon, dass diese Einschaetzung vøllig falsch sein kann, ist aber der "politische" Einfluss dieser Stadt gewaltig, deswegen wundert mich das dann doch nicht so sehr.

Im Wesentlichen haben wir also Zitierungen durch „Stadt / Land / Fluss / Tier“ und „beruehmte“ Leute (meist Sportler … *seufz*). Ab und zu auch durch eine uebergeordnete Kategorie wie „Englisch Language“. Dieses Muster setzt sich dann auch die naechsten 50 Plaetze fort.

Lustig ist, dass Polen dann „einen Iran pullt“ mit „Powiat“ und „Gmina„. … womit ich dann aber auch wieder bei dem bereits hier angesprochenen Elitenproblem bin und wie diese das Wissen der Welt kontrollieren.

Im Nachhinein betrachtet sind die Kategorien unter der die meistzitierten Seiten fallen dann aber keine grosze Ueberraschung (mit den angesprochenen Ausnamen (bspw. „Iran“, oder (aus anderen Gruenden) die Motte).

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich. Das entspricht einem Faktor von 3,500.

Hierbei handelt es sich aber nur im die paar Eisbrocken an der Spitze des sprichwørtlichen Eisberges. Deswegen zeige ich beim naechsten Mal die Verteilung der Zitierungen.

Nun bin ich fast zurueck von dieser Expedition und das viele Fliegen hat ganz schøn am Lack gekratzt:

Ach ja, der Planet links von Kassiopeia ist Prua Dryou JW-C d86 8, der Water giant mit der „grøszten“ Exzentrizitaet des Orbits. Der Wert ist 0.199999, weniger als die Exzentrizitaet des Merkurorbits im Ursprungssystem. Aber ich checkte die Nummern und alles schien korrekt.
Vielleicht sind ja runde Orbits (oder solche die auf den ersten Blick so scheinen) ein definierendes Merkmal von Water giants … tihihi.

Desweiteren entdeckte ich auch noch Ammoiakwelten #179 und #180:

Und von Ammoniakwelt #181 vergasz ich ein Bild zu machen, als ich sie durch mein Schiffsteleskop sah. Deswegen musste ich ins automatische Archiv um wenigstens etwas Information zu retten:

Endlich! Endlich! Endlich!

Ich habe ENDLICH ein System gefunden, in dem es nicht nur zwei erdaehnliche Welten gibt (was schon selten genug ist), sondern diese befinden sich in einer Binaerkonfiguration und umtanzen einander :) .

Hier ein Familienbild von ELW #108 und #109:

Und in der Systemkarte sieht es so aus:

Cool wa!

Die beiden ELWs befinden sich im Orbit um einen recht freundlichen Stern. Aber als ich im System aus dem Jumpspace kam, war ich natuerlich beim Gravitationszentrum, einem Neutronenstern. Deswegen haben die Fotos welche ich von meinem Schiff aus machte einen Blaustich:

Dies sind ELWs #107 (ganz woanders, aber auch in einem Neutronensternsystem), #108 und #109, von meinem Schiffsteleskop aus gesehen.

Auf dem Schuber …

… ist dieses Mal Schroeder zentral.

Aber diese Figur ist gar nicht soooo prominent in den Strips, wie ich immer dachte. Womit ich wieder bei dem waere, was ich im allerersten Beitrag dieser Serie bzgl. der kulturellen Relevanz der Peanuts sagte.

Ansonsten bin ich damit bei den 80’er Jahren angelangt und meiner Meinung nach ist die beste Zeit der Peanuts vorueber.

Es gibt noch ’ne ganze Menge echt tolle Geschichten und Momente, aber man kønnte sagen, dass die Peanuts sich zu diesem Zeitpunkt „niedergelassen“ haben. Oder anders: professionell (auf hohem und høchstem Niveau), aber Unerwartetes …

… habe ich nicht mehr erwartet (und auch nicht erhalten). Wobei das sicherlich auch an mir, dem Leser, liegt. Ich habe die Peanuts zu diesem Zeitpunkt jeden Tag seit (ueber) dreiszig Jahren begleitet. Da weisz ich halt auch schon was zu erwarten ist. So ist das eben im Leben. Das mindert nicht meine Freude an den Figuren, den Geschichten … der Kunst :) .

Beim Uebungsbuch in der Fahrschule war eine Schablone mit der man seine eigenen Antworten kontrollieren konnte. Diese Schablone war im Wesentlichen ein Papierstreifen mit Løchern drin und einer Markierung. Besagte Markierung musste an eine andere Markierung auf die Seite mit der jeweiligen Frage gehalten werden und das Papier deckte dann die falschen Antwortmøglichkeiten ab. … Ich habe mal kurz geschaut und die gibt es sogar heutezutage noch .oO(das haette ich jetzt nicht erwartet).
Nun war aber das Lochmuster der Schablone auswendig lernen viel einfacher und schneller als sich die Fragen durchzulesen und ueber die richtige Antwort nachzudenken. Klar, im Endergebnis hilft das nicht fuer die richtige Pruefung, aber es optimiert die Aufgabe innerhalb der gegebenen Rahmenbedingungen.

Ein anderes Beispiel ist, dass heutzutage (aber mehr oder weniger auch schon bei uns) Schueler und Studenten eben gerade NICHT mehr „fuer’s Leben“ lernen, sondern das Lernen darauf optimieren gute Noten zu haben. Klar, das sieht im Zeugnis und auf dem Diplom gut aus. Aber wenn diese Leute dann das Wissen in der Praxis selbststaendig anwenden und erweitern muessen ist’s damit oft nicht weit her.

Als Letztes seien hier Steuerschlupfløcher genannt. Die Steuererklaerung kann ja vøllig legal (wenn auch nicht moralisch richtig) sein und dennoch werden der Gemeinschaft Milliarden vorenthalten, weil das Finanzverhalten insb. reicher Akteure auf die Gegebenheiten (in diesem Fall die Steuergesetze) optimiert werden.

Worauf will ich eigentlich hinaus? Ganz einfach! Die drei Beispiele (und andere Dinge die in diese Kategorie fallen) werden im Allgemeinen zwar als Schummeln angesehen, aber von der Gesellschaft oft genug mit dem Kompliment „clever nachgedacht“ bedacht (wenn auch meist nicht direkt ausgesprochen). Es ist also ein zutiefst menschlicher Wesenszug kreativ zu sein, um das Verhalten derart zu optimieren, sodass es zum besten Resultat unter den jeweils gegebenen Umstaenden fuehrt. Selbst wenn dies NICHT bedeutet, dass das langfristig gut ist und vielmehr oft ein Hinweis auf falsche Anreize in besagten Umstaenden ist.

Nun wundert es mich aber, dass zum gleichen Verhalten gesagt wird, dass dieses „laecherlich“ oder „eine schlecht definierte Zielfunktion“ waere, oder dass man daran sieht, „wie weit weg kuenstliche Intelligenz noch vom Menschen ist“. Warum wird kreative Interpretation der gegebenen Umstaende zur Optimierung des eigenen Verhaltens so unterschiedlich bewertet?

Hier gibt es einen laengeren Artikel dazu (Achtung: der scheint wissenschaftlich, ist es aber nach (gar nicht mal so) strengen Kriterien NICHT). Dort werden 32 Anekdoten diesbezueglich erzaehlt. Ich gebe ein paar Beispiele.

Die Entwicklung starrer, langer Kørper welche sich durch Rad schlagen fortbewegen (durch Impulserhaltung) anstatt der Entwicklung von Schlaengelbewegungen. Was im Uebrigen auch die Evolution getan hat.

Algorithmen mit „falschen Funktionen“ welche durch die Tests kamen, weil besagte Algorithmen „tot spielten“ waehrend des Tests. Tot spielen ist in dem Falle, dass besagte Funktionen zufaellig aktiviert wurden und manchmal eben nicht waehrend des Tests und somit wurde der „defekte Algorithmus“ dann als vøllig OK betrachtet.

Ein anderes Beispiel (nicht aus dem Artikel) ist der Algorithmus der Tetris dadurch nicht verliert, indem das Spiel kurz vor dem Game Over (fuer immer) pausiert wird.

Dann war da auch der unbrauchbare Greifarm, der durch einen Trick dennoch benutzt werden kann.
Und dies faellt dann auch schon gar nicht mehr in die Kategorie „Schummeln“, sondern wuerde bei Menschen direkt mit dem (diesmal sogar ausgesprochenen) Lob „das war eine gute Idee“ bedacht.

Ein anderes Beispiel waere auf den „Ellbogen“ laufen. Kønnte man jetzt sagen: „na so eine dumme Idee“. Bis man drauf kommt, dass ja die „Fuesze“ durch irgendwelche Umstaende mglw. unbrauchbar sind. Und wenn ein Algorithmus dann von selbst drauf kommt, ohne dass ein Mensch bei der Programmierung dran gedacht hat, dann ist das meiner Meinung nach schon eine ziemlich kreative Leistung.

Worauf ich hinaus will ist das Folgende: wenn etwas wie ein Stueck Kuchen aussieht, sich wie ein Stueck Kuchen anfuehlt und wie ein Stueck Kuchen schmeckt, dann ist es vermutlich ein Stueck Kuchen.
Nur weil bei Computern und Robotern noch nicht alles in jeder denkbaren Situation zusammenspielt, wie bei uns biologischen Algorithmen und Maschinen nach Milliarden, zumindest hunderten von Millionen von Jahren evolutionaerer Optimierung, bedeutet das nicht, dass die das niemals kønnen werden.

Geburtstagsbeitrag! Und wie so oft zu dieser Gelegenheit lasse ich mich lang ind breit ueber ein Thema aus, was mich im Detail beschaeftigt(e), aber mglw. nicht so richtig interessant ist fuer den Rest der Menschheit.

Beim letzten Mal in dieser Reihe schrieb ich:

Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. […]

Und darum soll es heute gehen.

Wenn man sich die Popularitaet besagter 13 Vornamen anschaut, die seit 1880 am haeufigsten in den USA vergeben wurden, erhaelt man das linke Diagramm in diesem Bild:

Hier sieht man auch, warum ich erstmal annahm, dass Moden zwar kommen und gehen, dies aber ueber laengere Zeitraeume keinen groszen Unterscheid machen sollte. Sicher, Anfang des 20. Jahrhunderts waren „John“ und „Robert“ viel beliebter als „Michael“ oder „Christopher“ aber die Høhe der einzelnen Kurven aendert sich jetzt nicht so stark … auszer so ab ca. 2000 … mhmmm … das machte mich etwas stutzig und ich schaute mir mal die kumulative Wahrscheinlichkeit fuer diese 13 meistvergebenen Namen an (Diagramm auf der rechten Seite).
Dort scheint die Aussauge „da aendert sich nicht viel“ bis ungefaehr 1980 zu stimmen. Innerhalb gewisser Variation erhalten 15 % der Neugeborenen einen der dreizehn meistvergebenen Namen. Aber mit dem Beginn meiner Generation aenderte sich das … drastisch! … Das letzte Adjektiv ist durchaus angebracht, wenn man mal betrachtet wie stark die aufsummierte Wahrscheinlichkeit fuer die dreizehn (vormals) meistvergebenen Namen herunter geht.

Das ist dan auch der Grund, warum ich schrieb, dass gesellschaftliche Entwicklungen (traditionelle) Namen dann doch verdraengen. Die gesellschaftliche Entwicklung hier kønnte sein, dass die Jugendlichen welche von den sogenannten 69’ern gepraegt wurden. Damit meine ich weniger die Studenten welche „mittendrin“ waren, sondern die (oft deutlich) juengeren, sympathisierenden Jugendlichen, die noch zur Schule gingen. Ab Mitte der 70’er Jahre fingen diese an Kinder zu haben. Besagte Zeit hat das Vertrauen in und das Gehorchen von (traditionellen) Autoritaeten nachhaltig geschwaecht. Es ist nicht all zu weit hergeholt, dass sich das auch in der Namensgebung ausgedrueckt hat, denn die (damals) „frischen“ Eltern fuehlten sich nicht mehr so stark daran gebunden, den Sohn nach dem Opa zu benennen.

ABER: man kønnte durchaus argumentieren, dass die Entwicklung schon ab ca. dem den 50’er Jahren (schwer zu verorten ob Anfang, Mitte oder Ende) losging, wenn auch zunaechst zøgerlich. Dies kommt ziemlich genau zusammen mit der Etablierung des Individualismus (insbesondere in den USA), als „Gegenstueck“ zum sog. Kommunismus, im kalten Krieg. Im oberen Diagramm macht sich das nicht so bemerkbar innerhalb der (natuerlichen) Variation vor ca. 1980. Es ist aber deutlicher zu erkennen, wenn man sich anschaut, wie vieler Vornamen es bedurfte um 50 % der neugeborenen Kinder eines Jahres zu benennen:

Das ist zwar keine gerade Linie, aber dennoch bis ca. den 50’er Jahren eine ziemlich flache Kurve. Es brauchte nur ca. 75 Namen (plusminus ein paar) um besagte 50 % aller Kinder zu benennen. Ab den 50’er Jahren steigt die Kurve kontinuierlich und ab den 60’er Jahren uebersteigt es die vorherigen, etliche Jahrzehnte vorherrschenden (kleinen) Schwankungen. Mit dem Start der 80’er Jahre „geht dann die Post ab“.

Ach so, beim ersten Bild ist nur ein Frauenname dabei (der 14 Name waere auch ein Frauenname gewesen, aber mir gingen die Farben aus). Ich vermute, dass dies zwei Hauptursachen hat. Zum Einen denke ich, dass Maenner lange Zeit etablierte (darob eines besseren Wortes) Namen bekommen haben um eine „Familientradition“ beizubehalten oder einen Vater zu „ehren“ oder sowas. Kennt man ja aus Film und Fernsehen, mit den vielen Juniors. Von Frauen kenne ich das eigentlich gar nicht. Das Anhaengsel „Junior“ scheint es nur fuer Maenner zu geben. Dies fuehrt natuerlich zu mehr Vielfalt bei den Frauennamen und somit insgesamt weniger Frauen die den gleichen Namen haben (Ausnahme: „Mary“).
Zum Zweiten ist das mglw. auch ein Defizit in den Daten, denn ich habe insgesamt weniger Frauen in den Daten, es wurden also weniger Maedchengeburten gemeldet. Das wundert mich ueberhaupt nicht, denn Hausgeburten waren noch sehr sehr lange der Standard:

In the United States […] around 1900, when close to 100% of births were at home. Rates of home births fell to 50% in 1938 […].

Es gab also keine automatische Datenaufnahme. Und hier spielt dann der bereits beim letzten Mal erwaehnte historische Sexismus rein. Die Geburt eines Jungen wurde auch bei einer Hausgeburt gemeldet, denn dieser sollte ja mal der Erbe werden und das musste rechtlich abgesichert sein.

Fuer das urspruengliche Problem (Laenge der Wikipediatitel) spielt das aber aus zwei Gruenden keine Rolle. Zum Ersten ist die Verteilung der Laenge der Frauen und Maennernamen so gleich, dass man (beinahe) deckungsgleich sagen kønnte. Zum Zweiten ist die Meldung von der Geburt eines Maedchsen dann trotzdem immer noch ein gleichverteilter Prozess. Das bedeutet, dass die Wahrscheinlichkeit fuer die Meldung eines bestimmten Maedchennamens gleich bleibt, auch wenn die totale Anzahl gemeldeter Maedchengeburten geringer ist.

Ach so … der Titel dieses Beitrags wird ersichtlich, wenn man bedenkt, dass ca. 20- bis 30-jaehrige uns im 2. Weltkrieg von den Nazis befreiten. 20 bis 30 Jahre vorher war aber „John“ beliebter als „James“. Das kehrte sich erst ab den 30’er Jahren um. Der Unterschied war nun aber auch nicht so grosz … deswegen ist der Titel des Film zu 85 % richtig … tihihihi.
Es passt dann aber, dass James Dean als _DER_ Filmstar der 50’er bis heute bekannt ist.

Nun wollte ich aber wissen ob diese Veraenderungen einen bleibenden Effekt haben und wie stark dieser ist.

Bei meinen urspruenglichen Betrachtungen, bzgl. der Verteilung der Laenge der Wikipediaartikel und wie das Maximum erklaert werden kønnte, habe ich alle Vornamen, und wie oft diese in den letzten 140 Jahren vergeben wurden, aus allen Jahren zusammengezaehlt und die Waehrscheinlichkeit fuer meinen Namensgenerator nach diesen „totalen Zahlen“ berechnet. Ich erstellte 1 Million Frauen- und 1 Million Maennernamen und das (normalverteilte) Resultat ist im verlinkten Beitrag zu finden.
Nun kam oben aber heraus, dass sich die beliebtesten Namen eben doch aendern und ich wollte wissen, ob das einen deutlichen Einfluss auf die Verteilung der Laenge der Namen hat. Deswegen modifizierte ich den Namensgenerator derart, sodass fuer jedes Jahr jeweils 100-tausend Maenner- und Frauennamen erstellt wurden (mit den sich jaehrlich aendernden Wahrscheinlichkeiten). In den Resultaten sah ich einen Trend und dachte mir, dass das schon stimmen kønnte. Weil der Effekt aber relativ klein war, wollte ich nicht ausschlieszen, dass es sich mglw. doch um ein Artefakt handelt und nicht echt ist. Deswegen liesz ich meinen Laptop nochmal 15 Stunden oder so rødeln und erstellte pro Jahr jeweils 300-tausend Frauen- und Maennernamen. Die Statistik wurde dadurch viel besser … und die erwaehnten Resultate wurden reproduziert. Im Folgenden zeige ich die Resultate des 600-tausend Namen pro Jahr Laufes.

Die 140 Verteilungen bzgl. der Laenge der Namen sehen so aus:

Uffda! Das ist viel auf einmal und muss der Reihe nach betrachtet werden.
Erstens „verschmieren“ sich die Punkte sehr. Das war zu erwarten und faellt in der Physik immer erstmal unter das beruehmte „Rauschen“. Die Frage war nun, ob das Rauschen ein Signal enthaelt? Bspw. liegt die kleinste Anzahl der Namen mit 10 Buchstaben liegt im Jahre 2015 und die grøszte Anzahl im Jahre 1891. Bei den Namen mit 15 Buchstaben hingegen dreht sich das um (høhere Anzahl zu spaeteren Jahren).
Gibt es mglw. ueber die Jahre einen Trend hin zu laengeren Namen? Das waere dann ja genau das was ich wissen will. Weil nur zwei Buchstabenlaengen  nicht ausschlaggebend sind, schaute ich mir deswegen die aufsummierte Anzahl alle Namen mit Buchstabenlaengen links bzw. rechts des Maximums an.
Und hier kommt dann die zweite Beobachtung dazu. Jede individuelle Verteilung laeszt sich mit einer Normalverteilung beschreiben. Das ist gut, denn wenn es tatsaechlich eine „Umverteilung“ hin zu laengeren Namen gibt, dann sollte sich die Position des Maximums der jaehrlichen Gaussverteilung zu grøszeren Werten verschieben. Und diese beiden Resultate sind hier zu sehen:

Zwischen der letzten Dekade des 19. Jahrhunderst bis ca. zu den 40’er Jahren des 20. Jahrhunderts wurden kuerzere Namen (schwarze Punkte) unbeliebter. Dies ging einher mit erhøhter Popularitaet laengerer Namen (rote Quadrate). Beide Kurven scheinen aber nur auf den ersten Blick symmetrisch. Wenn man genauer hinschaut sieht man, dass die Popularietat laengerer Namen im besagten Zeitraum linear ansteigt und der Anstieg ziemlich kontant ist. Der Rueckgang der Popularitaet kuerzerer Namen hingegen verlaeuft in zwei Phasen. Zunaechst „zøgerlich “ bis ca. 1912 um danach umso staerker vonstatten zu gehen.

In den schwarzen Kurven betrachte ich aber nur die Daten links und rechts vom Maximum (Namen mit 12 und 13 Buchstaben). Die Beobachtung liesze sich erklaeren, wenn sich die Zunahme der laengeren Namen zunaechst aus besagtem Maximum „speist“. Dass Namen also nicht einheitlich bspw. einen Buchstaben laenger wurden, sondern die ersten 20 Jahre Namen der Laenge 12 (oder 13) staerker durch laengere Namen „ersetzt“ wurden als Namen mit weniger Buchstaben. Wie oben erwaehnt verschieben beide Prozesse die Position des Maximums. Ein „Schaufeln der Daten“ vom Maximum nach rechts sollte aber eine langsamere Aenderung zur Folge haben, denn der Anteil links vom Maximum ist ja „noch da“ und muss bei der Anpassung mit einer Normalverteilung beruecksichtigt werden.
Und das ist dann auch genau was ich in der blauen Kurve sehe. Die Position des Maximums der jaehrlichen Gausskurve verschiebt sich nach rechts, aber bis ca. 1912 ist die Aenderung dieser Aenderung langsamer als danach (bis ca. 1930, wenn dieser Prozess sich allgemein deutlich verlangsamt).
Dies macht sich natuerlich auch in der Amplitude (schwarze Punkte) und Breite (rote Quadrate) der jaehrlichen Gausskurven bemerkbar:

Bis ca. 1912 nimmt die Breite der Gausskurve zu und die Amplitude derselben ab. Genau so wie es nach der obigen Erklaerung sein sollte. Danach „erholt“ sich die Amplitude und die jaehrliche Gausskurve wird wieder schmaler. Letztere Beobachtungen bedeuten, dass es ab ca. 1912 NICHT zu einer gemeinsamen Verschiebung-um-einen-Buchstaben der gesamten Verteilung (oder zumindest des „kurzen“ Teils) kommt. Vielmehr ist es so, dass die Umverteilung vom Maximum (stark?) nachlaeszt und besagtes Maximum ab dann wieder (von links) aufgefuellt wird. Die „primaere Quelle“ des Umverteilungsprozesses „tauscht“ sozusagen den Platz mit der vormals „sekundaeren Quelle“ (und zwangslaeufig vice versa).

Interessant ist, dass die Amplitude auch nach 1940 weiter waechst, waehrend die Breite der Kurve weiter abnimmt. Es kommt also bis ca. 1960 zu einer teilweisen „Rueckbesinnung“. Laengere Namen werden zugunsten von Namen der Laenge 12 (oder 13) „aufgegeben“. Dies gilt auch (aber nicht so stark) fuer noch kuerzere Namen, wie man im Diagramm mit der aufsummierten Anzahl sieht.
Ab ca. den 70’er Jahren nimmt die Popularitaet laengere Namen weiter zu, aber laengst nicht so stark wie Anfang des 20. Jahrhunderts und ab ca. 2000 hat sich der Prozess stabilisiert.

Das hier sind zwar eher subtile Veraenderungen aber diese sind robust. Zwei Sachen (welche mir vermutlich fuer immer verborgen bleiben werde) wuerde ich gerne wissen.
1.: Fand das auch im echten Leben statt (denn die Namen hier sind ja nur simuliert)? Und als Modifikation: wie sieht das in anderen, vergleichbaren, westlichen Laendern aus?
2.: Was sind die Gruende fuer die Veraenderungen? Die Trends sind definitiv keine kurzfristigen Moden. Das zieht sich teilweise ueber Generationen hin. Aber ich spekulierte da bereits oben.

Damit sind diese Nebenbetrachtungen abgeschlossen. Beim naechsten Mal dann endlich wieder mehr zu den eigentlichen Wikipediadaten (denn das ist ja noch lange nicht abgeschlossen).

Apropos, die hier gesehenen Veraenderungen sind zwar robust, aber so gering, dass sich das in den Wikipediatiteln wenn ueberhaupt nur sehr wenig bemerkbar machen sollte. Dies vor allem deswegen, weil bereits das Vorhandensein von Doppelnamen (oder Berufsbezeichnungen) deutlich staerkere Auswirkungen haben sollten. Sowohl von der Menge (weil das 100-tausende sind) als auch vom Effekt (weil die „Verlaengerung“ eines Namens durch diese zwei Prozesse mehr als 10 mal grøszer ist als die oben beobachtete Verschiebung um 0.4 Buchstaben ueber 130 Jahre.

Aber das soll nun genug sein … ein wuerdiger Geburtstagsbeitrag in meinen Augen :)

Flyooe Phio ZK-F d11-7 A 1 haelt einen etwas ironischen Rekord … aber ich fange mal von vorne an.

Es gibt keinen „kuerzester Abstand vom Ankunftspunkt im System“ Rekord. In den Daten ist diese Charakteristik durch eine ganze Zahl ausgedrueckt. Der kleinste Wert ist 1 ls. Nun ja, der kleinste Wert ist vermutlich 0 ls fuer etliche Himmelskørper. Aber mein Algorithmus der durch die Daten des galaktischen Atlas geht, wertet Null als „False“ (oder „None“) aus und zaehlt solche Werte deswegen nicht mit.

Wieauchimmer, von den vielen Planeten die einen Abstand vom Ankunftspunkt im System von nur einer Sekunde haben waehlte ich (mehr oder weniger zufaellig) Flyooe Phio ZK-F d11-7 A 1. Der Grund war, dass dieser Planet die Eigenschaft hat, dass man auf dem landen kann UND weil der Planet um einen Weiszen Zwerg seine Bahn zieht. Und das wollte ich mir mal anschauen.

Als ich ankam, wurde ich auf die oben erwaehnte Ironie aufmerksam, denn ich merkte, dass der Orbit dieses Planeten komplett in der „verbotenen Zone“ um die Sternenleiche ist. Also der Bereich, in dem meine Kassiopeia mich automatisch aus dem Hyperraum schmeiszt, weil’s zu gefaehrlich ist so nah an einer Gravitationsquelle. Im Normalraum dauert die Reise aber viel zu lange, denn so weit war ich noch weg, als ich aus dem Hyperraum geschmissen wurde:

2.05 ls sind ca. 615 Millionen Meter. Meine maximale Geschwindigkeit im Normalraum ist ca. 150 m/s. Das bedeutet, dass ich fuer die Reise ca. 47 Tage brauchen wuerde. So lange reicht aber der Treibstoff in meinem Tank nicht, um die Maschine am laufen zu halten.

Das war wohl nix… aber wie das Bild zeigt, war’s wenigstens ein spektakulaerer Anblick :)

Es gibt nicht viel zu erzaehlen ueber den Planeten auf dem ich stehe — Rhadia OI-T d3-1 A 1

… auszer, dass es der Icy Body (auf dem man landen kann) mit der grøszten orbitalen Exzentrizitaet ist.
Deswegen nahm ich dies zum Anlass mal meine Triebwerke zu kontrollieren. Nicht weil die so viel benutzt werden. Ganz im Gegenteil! Im Hyperraum sind die ja sinnlos und deswegen nicht aktiviert. Vielmehr wollte ich kontrollieren, dass die sich nicht „kaputt stehen“ und mir um die Ohren fliegen, wenn ich sie nach laengerer Zeit wieder aktiviere and richtig Schub gebe.
Gluecklicherweise war alles in Ordnung.

Ansonsten ist bis auf die Entdeckung der Ammoniakwelten #177 und #178 …

… auch nix weiter passiert.

Beim letzten Mal fuehrten Daten zur Verwunderung. Verwunderung fuehrte zu einem Beduerfnis die Daten zu erklaeren. Dieses Beduerfnis fuehrte zu Ueberlegungen wie die Daten erklaert werden kønnten und weiteren Ueberlegungen unter welchen Annahmen ich erste Ueberlegungen ueberhaupt treffe … zumindest soweit ich es verstanden habe ist das Wissenschaft im Sinne Thomas Kuhns … Und dann habe ich das getestet und die falsche Hypothese (die typische Wortlaenge der englischen Sprache als Ursache der Beobachtungen) verworfen … Wissenschaft im Sinne Karl Poppers … æhm … ich sage es lieber nochmal: soweit ich das verstanden habe … einraeumend, dass ich das mglw. ueberhaupt nicht verstanden habe, weil ich die Theorien des Paradigmenwechsels und des systematischen Fortschritts als sich ergaenzend ansehe und nicht als „Widersacher“ … aber ich schweife ab, denn eigentlich wollte ich sagen: Science to the Rescue!

Die Breite der Gausskurven im Diagramm des vorigen Beitrags stimmen allerdings nicht ueberein (sind aber auch nicht himmelweit voneinander verschieden). Das liegt mglw. daran dass bei den realen Wikipediaseiten in diesem Laengenbereich ein signifikanter Ueberlapp mit anderen Themen herrscht.

Mich verwunderte nun das Folgende. Ich habe 2 Millionen Namen generiert. Dies geschah mehr oder weniger zufsaellig, ich wollte einfach nur eine aussagekraeftige Statistik haben. Wie man im Graphen sieht, ist die Amplitude der simulierten Daten (fast) genau so hoch wie die Amplitude der realen Daten (die roten Balken) … Was ist das denn fuer ein komischer Zufall? Bzw. wie viele Personenseiten gibt es denn ueberhaupt in der Wikipedia?
Also musste ich wieder rein in den Wikipediahasenbau um eine Antwort auf diese Frage zu finden … … … Ich fand einen Artikel, wo mal jemand 1001 zufaellige Artikel kategorisierte und diese informative Darstellung der Ergebnisse erstellte bzgl. der Anzahl der Artikel zu verschiedenen Themen in der Wikipedia …

Quelle, Autor: Mliu92, Lizenz: CC BY-SA 4.0, meinen Beduerfnissen angepasst

Fast 28 % aller Wikipediaseiten betreffen ganz direkt Leute … wie so oft, ist die Menschheit auch auf der Wikipedia mit einer Nabelschau beschaeftigt und redet am meisten ueber sich selbst.
Es wird vermutet, dass die Faehigkeit zur Selbstreferenz ein wichtiger Bestandteil von Bewusstsein (und Intelligenz) ist … aber so ist das bestimmt nicht  gemeint … *seufz*.

Diese 28 % entsprechen beinahe 1.7 Millionen Seiten … was nahe dran ist an den oben erwaehnten 2 Millionen Fantasienamen und meiner Verwunderung somit eine Erklaerung entgegenstellt.

Wie bereits frueher erwaehnt, gibt es auf Wikipedia total viel interne Seiten. Da ich nun schonmal dabei war, versuchte ich eine Seite zu finden, die alle Personenseiten auflistet. Nach laengerer Suche fand ich eine solche … aber nur fuer lebende Menschen. Das sind aber nicht ganz eine Million. Und somit fragte ich mich: wo sind denn die ganzen Toten hin? … Nun ja, diese sind verstreut auf vielen anderen internen Seiten. Leider sind das Seiten wie diese hier oder jene dort, wo den dort eingetragenen Elementen die eine oder andere Information fehlt. Als letztes versuchte ich es dann mit den Tagen des Jahres (ein Beispiel) wo dann auch immer die an dem Tag Verstrobenen aufgefuehrt sind.

Zum Glueck hatte ich mir ja neulich schon einen Datenmaehdrescher gebaut und musste den fuer die neue Aufgabe nur ein bisschen modifizieren. Trotz all der Anstrengungen fand ich aber nur ein bisschen mehr als 100-tausend Seiten von Toten Leuten (eben nur die, die auch auf den entsprechenden Seiten gelistet sind).
In der oben erwaehnten Untersuchung von 1001 zufaelligen Wikipediaseiten betrug das Verhaeltnis der Seiten zu lebenden bzw. toten Personen 5 zu 3. Ich muesste also ca. 600-tausend Seiten zu toten Menschen haben. Diese Diskrepanz habe ich nicht geschafft auszuraeumen. Auch nach laengerer Suche fand ich einfach keine Uebersichtsseite wie fuer die lebenden Leute.

Naja … aber weil ich nun schonmal Daten dazu geerntet habe konnte ich mir mal angucken wie die Verteilung der Laenge dieser ganz konkreten Personennamentitel in echt aussieht. Und hier ist das Ergebnis (weisze Ovale sind die neuen Daten):

Aha … das Maximum stimmt mit allen anderen Maxima ueberein. Das bestaetigt meine Vermutung, dass Personennamen beim Hauptprozess eine wichtige Rolle spielen.

Die Amplitude dieser neuen Daten ist aber signifikant kleiner als selbst die Amplitude der gruenen Gausskurve. Das liegt zum Teil daran, dass die ca. 1/2 Million Seiten von toten Personen fehlen. Ein anderer Grund ist, dass die Verteilung der echten Namen zwei flache „Buckel“ bei grøszeren Laengen hat. Nur der Erste, bei einem Wert von ca. 23 Buchstaben im Namen, ist zu sehen, denn der Andere liegt so weit rechts, dass ich den abgeschnitten habe. Das macht nix, weil der ohnehin sehr klein und nicht wirklich signifikant ist. Das heiszt aber, dass die Titel von Wikipediapersonenseiten sich ein bisschen mehr auf laengere Namen verteilt als die von mir generierten Fantasienamen.
Dies kønnte durch Doppelnamen erklaert werden (auch wenn diese nur durch den ersten Buchstaben und einen Punkt abgekuerzt sind). Das betrifft mehr als 190-tausend Namen.
Desweiteren beinhalten die Titel von Wikipediapersonenseiten oft eine weitere Bemerkung. Als Beispiel møge wieder „Donald Fraser (geologist)“ dienen. Das sind zwei zusaetzliche Klammern, ein extra Leerzeichen und (in diesem Fall) neun Buchstaben der Berufsbezeichnung. Letzteres fuehlt sich „typisch“ an. 13 (das Maximum der Fantasienamen) + 10/11/12 und zack ist man mittendrin im Buckel. Ich fand mehr als 125-tausend Titel von Wikiepediapersonenseiten auf die das zutrifft.
Vom Gefuehl her wuerde ich sagen, dass diese beiden Zahlen durchaus grosz genug sind, um die „Verbreiterung“ zu laengeren Namen hin zu erzeugen.

Ebenso wird durch die Verbreiterung die Amplitude kleiner. Wenn man die 600-tausend Titel die mir fehlen in Betracht zieht und die ca. 190-tausend + 125-tausend Namen die im „“Schwanz“ der Verteilung sitzen, dann sollte man recht nahe an die Amplitude der gruenen Gausskurve herankommen.

Den laengsten Titel einer Wikipediapersonenseite hat mit 84 Buchstaben uebrigens diese Seite hier … SCHUMMLER!

Genug davon! Ich denke ich habe eine hinreichende Erklaerung fuer das Maximum der Verteilung der Laenge der Wikipediatitel gefunden. Das freut mich sehr. Die anderen zwei Prozesse die „das Signal erzeugen“ bleiben mysteriøs. Schade eigentlich, aber ich habe echt keine Idee, was das sein kønnte und da ich eigentlich am Linknetzwerk arbeiten wollte habe ich auch keinen Nerv noch mehr dazu zu machen.

Ach uebrigens bestaetigt der Stichprobe der 1001 Wikipediaseiten das was ich eingangs zu im vorigen Artikel Annahme II sage … *seufz*.

Ihr, meine lieben Leserinnen und Leser, erinnert euch mglw. an diesen Schnullibulli von vor ueber 10 Jahren.

Nun ja … da kam vor einer Weile noch Schnullibulli Teil 2 dazu:

Mit ’nem Dr. rer. nat. und nem Dr. ing. (auch wenn Letzterer nicht direkt spezifiziert ist im Englischen) ist’s nun aber wirklich genug mit dem ganzen Quatsch!