Archive for the ‘Allgemein’ Category

Beim vorletzten Mal stellte ich nicht die Gruppe von Artikeln mit den wenigsten Zitierungen, weniger als zehn, vor. Das sei hiermit nachgeholt:

Diesmal ist die Ordinate linear, und man sieht, warum ich beim vorletzten Mal die logarithmische Darstellung waehlte. Die dort diskutierten Gruppen wuerden bei einer linearen Ordinate nur als ganz flache Balken, und damit wenig relevant erscheinen. Warum der subjektive Eindruck falsch ist, wurde beim letzten Mal ausgiebig diskutiert.

Wieauchimmer, in diesem Diagramm zeigt sich, dass die weitaus meisten Seiten entweder gar nicht, oder høchstens zwei Mal zitiert werden. Das hørt sich fuer mich sehr danach an, dass da jemand ueber „lokale Themen“ geschrieben und die untereinander zitiert hat (oder auch nicht). Das kann man aber nur bedingt oft machen. In Zahlen: 64.4 % aller Wikipediaseiten vereinen nur 7.6 % aller Zitierungen auf sich.

Die Frage ist dann, was das fuer Seiten sind. Aber dadurch, dass die nicht (oft) zitiert werden, gelangt man dort nicht durch Zufall hin. Und weil man davon keine Ahnung hat, sucht man die auch nicht direkt auf. Deswegen ein paar Beispiele.

Die 2014 Sark general election wird nur 2 mal zitiert. Aber nachdem ich das gefunden hatte, bin ich einigen der dortigen Links gefolgt und nun møchte ich die Gegend mal voll gerne besuchen. Das spricht doch total fuer die Relevanz dieser Seite, nicht wahr.
Das Dørflein Zaprężyn wird nur ein Mal zitiert … auch hier habe ich jetzt Lust da mal hinzufahren.
Ein anderes Dorf, Mirikənd wird ebenso nur ein Mal zitiert … øhm … dito … aber ich denke nicht, dass das mal was wird … auszerdem lernte ich dabei, dass Aserbaidschan eine Exklave hat.
Die Motte Eucrostis pruinosata wird ueberhaupt nicht zitiert und …
… das gleiche Schicksal ereilt Miss Lithuania 2008: Gabrielė Martirosian … die arme Dame.

Das Beispiel mit der Motte ist uebrigens eine gute Veranschaulichung eines fundamentalen Problems unserer Zeit. Die Menschheit weisz total viel, aber ein einzelner Mensch kann das gar nicht alles speichern. Es gibt so urst krass viel Wissen, welches in den Lagern (und Kellern) von Bibliotheken und Museen liegt. Deswegen gibt es auch sehr oft neue Entdeckungen aufgrund von Zeug was wir (als Menschheit) seit 100 Jahren oder laenger haben, was aber seitdem in besagten Kellern liegt. Manchmal gibt es dann eine (oft pensionierte) Person, welche die weltweite Authoritaet bzgl. bspw. einer bestimmten (praehistorischen) Spezies von Familie der Mollusken ist. Und wenn diese Person stirbt, geht all dieses Wissen verloren. Im Grunde genommen selbst dann, wenn das aufgeschrieben wurde, weil man Erfahrung (und die Zusammenhaengen zwischen verschiedenen Dingen) nicht wirklich (effektiv) kodifizeren kann.

Und das ist ueberhaupt eines der grøszten Probleme der Menschheit (und war es schon immer). Jeder Mensch muss alles selbststaendig und alleine lernen. Anders als im Film Matrix kann man Wissen leider nicht schnell in unsere Køpfe uebertragen. Was Sabine lernt kann Peter noch lange nicht.
Aber Computer kønnen das. Und wenn es mal richtige kuenstliche Intelligenzen gibt, dann kønnen die das mglw. auch. Oder anders (und viel konkreter): wenn ein selbstfahrendes Auto lernt, wie man im Berliner Stadtverkehr andere autofahrende Idioten erkennt, dann kønnen alle anderen selbstfahrenden Autos das ueber Nacht herunter laden und die wissen das dann einen Tag spaeter auch.

Andererseits bedeutet das aber auch das Folgende: sollten wir dieses Problem jemals geløst bekommen, dann wird die Post aber mal voll abgehen fuer die Menschheit! Der Fortschritt seit der Renaissance oder der industriellen Revolution wird dagegen aussehen wie’n Glass Wasser im Ozean.
Und ich halte das durchaus fuer durchfuehrbar. Denn ein anderes Menschheitsproblem ist in unserer Zeit (im Wesentlichen, wenn auch noch nicht ueberall im Praktischen) geløst worden: die Verteilung von Wissen. Wenn man was obskures wissen wollte, dann war das frueher alles ziemlich umstaendlich. Klar, gab (und gibt) es Bibliotheksverbuende, welche auch Buecher von einem Land ins andere schicken. Sicherlich kann man viel in Fachbuechern nachlesen. Aber hat man das auch gemacht? Sind diese Møglichkeiten des Informationstransfers auch massenhaft (vulgo: von der gesamten Menschheit) in Anspruch genommen worden? Oder war es doch eher so, dass nur ein paar hunderttausend (oder lass es auch ein paar Millionen sein) Menschen, welche (mehr oder weniger) zur (Wissens)Elite gehør(t)en, diesen Informationstranfermechanismen auch benutzten? Hier bestand also prinzipiell ebenso die Møglichkeit des Informationstransfers, aber praktisch war das massenhaft (sowohl von der Menge der Information, als auch von der Menge der Rezipienten) nicht zu gebrauchen.
Aber dieses Problem hat das Internet geløst. Und selbst Zensur, oder dass da laengst nicht alles obskure Zeit zu finden ist, aendert nichts an der Tatsache, dass der Informationsfluss tatsaechlich ein Fluss wurde in den letzten 20 Jahren und kein trøpfelndes Rinnsal ist wie vorher. Voll krass wa! Wir leben in ’ner voll geilen Zukunft!!!

Und da macht das dann auch nix, dass das nur einmal zitiert wird. Und es macht auch nix, wenn man die Erfahrung der oben erwaehnten Molluskexpertin nicht kodifizieren kann. Solange es auffindbar ist im Informationstransfernetzwerk, kann sich wer anders besagtes Wissen wieder relativ schnell aneignen … neue Erfahrung kann auf den Dokumenten alter Erfahrung aufbauen und dort fortsetzen (selbst wenn Letztere fuer immer verloren ist) … und das ist Fortschritt … *freu*.

Das war’s jetzt erstmal mit den Sachen, die ich aus den Titeln der Wikipediaseiten (und was damit zusammenhaengt) herausziehen kann. Beim naechsten Mal behandle ich dann noch die Anzahl der Links pro Wikipediaseite … Hurra! Noch eine neue Verteilung auf die ihr, meine lieben Leserinnen und Leser, euch bereits jetzt freuen kønnt :).

Beim letzten Mal stellte ich vor, wie oft Wikipediaseiten auf anderen Wikipediaseiten zitiert werden. Wenige Seiten die oft erwaehnt werden und viele Seiten die selten erwaehnt werden.

Das wirklich Interessante kommt aber jetzt erst … in der doppeltlogarithmischen Darstellung:

Cool wa! Wie man mit Hilfe einfacher, mathematischer Werkzeuge total viel Information in nur ein Bild kondensieren kann … ich gebe aber zu, dass meist erst ganz am Ende der Bearbeitung einer Fragestellung steht, nachdem man besagte Information (mindestens halbwegs) verstanden hat.

Das erwaehnte wirklich Interessante ist durch die rote Linie angedeutet: zwischen 50 und 5000 Zitierungen (also ueber zwei Grøszenordnungen) scheint sich die Verteilung in der doppeltlogarithmischen Darstellung linear zu aendern. Dies deutet darauf hin, dass sich die Abhaengigkeit der Anzahl der Seiten pro Anzahl Zitierungen nach einem Potenzgesetz bechreiben laeszt … ich finde uebrigens, dass der englische Begriff „Power law“ deutlich cooler und maechtiger klingt … das passt viel besser zur Relevanz der Wissenschaft :) … wieauchimmer … total viel Zeug verhaelt sich nach Potenzgesetzen und das ist total wichtig, denn diese sind immer ein Hinweis darauf, dass ein Phaenomen skaleninvariant ist — dass es sich also im Groszen wie im Kleinen gleich verhaelt. Ein Beispiel waere der Flaecheninhalt eines Quadrats in Abhaengigkeit von der Seitenlaenge. Klar, bei langen Seiten sind die Zahlen grøszer, aber Ersteres ist immer als das Quadrat von Letzterem auszudruecken … da aendert sich also nix mit der Grøsze.
Bzw. geht das dann sogar noch weiter zur Universalitaet — dass sich unterschiedlichste Phaenomene auf (mehr oder weniger) die gleiche Art beschreiben lassen (bswp. die Anzahl von Reiskørnern auf einem Schachbrett und das (ungebremste) Wachstum von Bakterien). Diese beiden Sachen (und das wir (als Menschheit) das erkannt haben) sind ganz fundamental wichtig fuer den Erfolg der modernen Wissenschaften und warum wir das heutzutage so gut haben.

Die Steigung der Geraden ist ungefaehr minus zwei (zwei Grøszenordnungen auf der Abzysse und (minus) vier Grøszenordnungen auf der Ordinate). In diesem Bereich ist also die Anzahl der Seiten umgekehrt proportional zum Quadrat der Zitierungen. Vom Bauchgefuehl ergibt das erstmal Sinn. Das interessante an diesem Faktor ist dann weiter, dass dies keine wohldefinierte Varianz zulaeszt (lohnt sich durchaus zu lesen, wenigstens teilweise, weil viel schøne Beispiele gegeben werden). Dies hat wiederum zur Folge, dass sogenannte Black Swans auftreten kønnen; dass also total krasse Ausreiszer zwar aueszerst selten, aber durchaus zu erwarten sind. Dies gilt im Uebrigen fuer sehr viele natuerliche Phaenomene. Und damit schlieszt sich der Kreis zum letzten Mal, wo genau diese das Thema waren. Wobei die „Black Swans“ in diesem Fall begrenzt sind, weil es nur eine endliche Anzahl von Wikipediaseiten gibt.

Dazu abschlieszend sollte ich sagen, dass ich mit der Annahme einer umgekehrten Proportionalitaet auch falsch liegen kønnte. Linearitaet in einer doppeltlogarithmischen Darstellung ist zwar eine notwendige, aber keine hinreichende Bedingung dafuer. Der Grund ist, dass es sich hierbei um eine endliche Datenmenge handelt. Man kann auf verschiedenste Arten endlliche Datenmengen generieren, die scheinbar einem Potenzgesetz folgen; es bei der Erweiterung ins Unendliche dann aber zu (mehr oder wenige subtilen, mathematisch definitiv wichtigen) Unterschieden kommt.
Auszerdem sagte schon der beruehmte Prof. Klos zwischen zwei Zigaretten: „Wer es nicht schafft bei doppeltlogarithmischer Darstellung eine gerade Linie durchzuziehen, der muss schon ziemllich minderbemittelt sein.“

In diesem Zusammenhang habe ich habe bisher nicht die Gruppe von Wikipediaseiten die am allerwenigsten zitiert werden besprochen. Weil der der Beitrag jetzt aber schon so lang ist, verschiebe ich die Besprechung dieser letzten Gruppe auf das naechste Mal.

Jippie! Noch eine Verteilung! … Ich weisz, ich weisz … das sieht immer gleich aus … so ist das nun mal mit dem Wissensgewinn. Man braucht ganz viel Kram der (fuer die meisten Menschen) immer gleich aussieht und (fuer die meisten Menschen) schnell langweilig wird. Erst wenn alles beisammen ist, kann man daraus die coolen Schlussfolgerungen ziehen die dann zum Erkenntnisgewinn fuehren … ich sage da: cool wa! … aber ich raeume ein, dass ich da vermutlich eher zur Ausnahme gehøre.
Das war bei der Entdeckung der Theorie der Elektrizitaet damals vor vielen hundert Jahren nicht anders. Watt und Volta und Ampere haben bestimmt total viele Katzen (und andere Materialien) gerubbelt (aber nicht Galvani! Der hat Frøsche aufgeschlitzt) und alles minutiøs aufgeschrieben, um dann erst nach Jahrzehnten des Datensammelns ihre bahnbrechenden und fundamentalen Beobachtungen (und Theorien) zu verøffentlichen.
Wissenschaft wird immer als so glamourøs dargestellt — sexy Wissenschaftler in ihren coolen Laboratorien mit den abgefahrenen Geraeten und Instrumenten und dem krassen Code, die dann in supersozialen Zusammenkuenften angeregt ueber die neuesten Ergebnisse diskutieren. Das ist ja alles komplett richtig, dabei darf aber nicht vergessen werden, dass da auch jede Menge „langweiliges“ Zeug dazu gehørt, ja, dass das sogar die Hauptsache ist, womit sich Wissenschaft beschaeftigt.
Und das war auch ein Grund fuer mich, dieses Wikipediaprojekt (anders als sonst) so genau zu dokumentieren.

Aber ich schwoff ab … und mir faellt gerade auf, dass ich das was ich da eben schrieb tatsaechlich meine (und vermutlich schon immer so empfand) … tihihihihi

Beim letzten Mal praesentierte ich die 50 am meisten zitierten Wikipediaseiten und erkannte, dass diese sich leicht in ein paar wenige Kategorien einsortieren lassen. Das Endresultat war das Folgende.

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich.

Die natuerliche Frage ist dann, wie das bei den restlichen 5,798,262 Seiten aussieht. Zur Erinnerung: insgesamt betrachte ich 5,798,312 Wikipediaseiten auf denen insgesamt 165,913,569 (jeweils) andere Wikipediaseiten zitiert werden. Und so sieht die Verteilung der Zitierungen aus:

Das ist viel auf einmal, deswegen der Reihe nach. Zunaechst ein paar grundsaetzliche Erklaerungen (die zwar offensichtlich sind, wo es aber auch nicht schadet, die mal gesagt zu haben).
1.: In jedem Diagramm trage ich die Anzahl der Seiten auf, die so oft wie auf der Abzysse angegeben zitiert wurden.
2.: Die Abzysse jedes Diagramms faengt bei null Zitierungen an, ich konzentriere mich aber auf unterschiedliche Gruppen. D.h. dass die x-Achse nach einem bestimmten Wert abgeschnitten und fuer jedes Diagramm unterschiedlich ist. Die Gruppierng ist jeweils angegeben.
3.: Die Ordinate ist fuer alle Diagramme gleich … und logarithmisch. Letzteres bedeutet, dass 10 mal so viele Seiten mit der entsprechenden Anzahl Zitierungen gezaehlt wurden, wenn ein Balken doppelt so hoch ist wie die einzelnen Striche im ersten Diagramm. Entsprechend bei 3-facher Høhe usw.
4.: Das sind rote Balken mit schwarzen Raendern. Weil die Balken so dicht stehen, sieht man in den ersten drei Diagrammen nur die schwarzen Raender … das macht aber nix.
5.: Die angegebenen Zahlen per Diagramm sind wieviele Seiten insgesamt in der jeweiligen Gruppe gezaehlt wurden und wie viele Zitierungen diese auf sich vereinen. Die kumulativen Werte sind entsprechend aufaddiert fuer alle Gruppen bis zu der jeweils im Diagramm dargestellten (bei hohen Zitierungen anfangend).
6.: Semantisch sind die einzelnen Gruppen eigentlich nicht so strikt getrennt. Da gibt es sicherlich jede Menge Ueberlapp. Aber auf Grund mathematischer Notwendigkeiten musste ich Grenzen setzen fuer jede Gruppe und da dachte ich mir, dass das erstmal nicht unvernuenftig ist im Wesentlichen immer eine Grøszenordnung per Gruppe abzudecken.

Das erste Diagramm visualisiert die beim letzten Mal diskutierten Extreme — Seiten die zwischen 10,000 und 325,128 mal zitiert wurden. An den Zahlen sieht man ganz deutlich, dass man, wenn man zufaellig einem Link auf Wikipedia folgt, in ca. 10 Prozent aller Faelle auf einer von nur 703 Seiten landet. Das ist eine ziemlich krasse Dominanz dieser wenigen vielzitierten Seiten! Und der lange duenne „Strich“ am linken Ende … nun ja, …

… bei dem sieht man im zweiten Diagramm, Seiten die zwischen 1,000 und 10,000 mal zitiert wurden, dass es sich dabei nicht im einen „Strich“ handelt. Vielmehr versammeln sich dort mehr und mehr Seiten die die gleiche Anzahl von (wenigen) Zitierungen haben. Von rechts kommend macht sich das zunaechst aber gar nicht bemerkbar.
In dieser Gruppe geschieht auch noch nicht so viel; nur eine Seite mit 8056 Zitierungen und nur vier Seiten mit 4880 Zitierungen. Aber ab 2000 und weniger Zitierungen zaehlt die Verteilung dann schon haeufiger 10 oder mehr Seiten und um ca. 1000 Zitierungen geht der Zaehler in die Zwanziger. Das ist das Truegerische an einer logarithmischen Darstellungen da sieht das mehr aus.
Zaehlt man diese beiden ersten Gruppen zusammen, dann hat man ca. 15-tausend Wikipediaseiten. Die Chance auf einer von diesen zu landen betraegt zusammengenommen fast ein Drittel! Ach du meine Guete! Bei beinahe jedem dritten Klick lande ich auf einer von nur 0.26 % aller Wikipediaseiten. Und drei (oder dreizehn) Wikipediatabs sind bei mir ganz schnell mal offen.

In der naechsten Gruppe, 100 bis 1,000 Zitierungen, befinden sich 3.67 % aller Wikipediaseiten und mit den vorherigen Gruppen zusammen ziehen diese nur ca. 4 % aller Seiten ueber 60 % aller Zitierungen auf sich.
Bei der Anzahl von Seiten pro Haeufigkeit-der-Zitierung erreichen wir ab ca. 500 (und weniger) Zitierungen die Hunderter um bei ca. 150 Zitierungen dann auch schon tausende Seiten zu zaehlen.

Bei der letzten Gruppe, 10 bis 100 Zitierungen, ist aus dem duennen Strich des ersten Diagramms eine hohe „Wand“ roter Balken geworden. Wir zaehlen am rechten Rand ca. 2500 Seiten und erreichen die Zehntausender bei 49 Zitierungen und die Hunderttausender bei 12 Zitierungen. Kumulativ vereinen diese ca. 35 % aller Seiten ueber 90 % aller Zitierungen … tja … das ist auf der Wikipedia wie im richtigen Leben: wir wissen wenig, aber darueber reden wir die ganze Zeit.
Und das ist dann auch des Pudels Kern der sogenannten Relevanzdiskussion der dtsch. Wikipedia. Diejenigen die Relevanzkriterien befuerworten haben die Fakten auf ihrer Seite, ganz konkret im Sinne des Wortes „Relevanz“. Ich persønlich finde es aber viel zu toll, dass ich Bacon, Ohio auf der Wikipedia finden kann. Dies auch dann, wenn ich die aller-aller-aller-allermeisten dieser Seiten niemals sehen werde.

Ohne Analyse des Linknettzwerks konnte ich mir auch mal anschauen welche Wikipediaseiten denn am meisten (auf Wikipedia) zitiert werden. Hier ist die Liste, mit der dazugehørigen Nummer, wieviele der insgesamt 165,913,569 zitierten Links auf den jeweiligen Eintrag entfallen, und kurzen Kommentaren.

PlatzTitelAnzahl ZitierungenKommentar
1.United States325,128Die Wikipedia ist "westlich ausgerichtet" und da wundert mich das ueberhaupt nicht, dass die USA implizit oder explizit oft erwaehnt werden.
Ebenso ist vermutlich das was ich zu "France" auf Platz 6 sage auch hier gueltig.
2.List of sovereign states231,196Ich denke, dass dies von den Infokaesten an der Seite kommt, in denen Kurzinfos zu bestimmten Sachen stehen. Jede(s/r) Stadt, Land, Fluss gibt's nunmal in 'nem Land.
3.Association football187,590Fuszball ist urst beliebt in der Welt … kurzer Uberschlag: 150 Laender x 10 (mehr oder weniger beruehmte) Fuszballteams x 10 Spieler x 50 Jahre / 5 Jahr pro Spieleraustausch = 150,000 mal die das Wort "Fuszball" erwaehnt wird.
4.World War II168,323Sehr viele Aspekte der Kultur, Wirtschaft, Wissenschaft, prinzipiell des Lebens der "westlichen Welt" sind bis heute zutiefst gepraegt durch die Ereignisse des 2. Weltkriegs.
5.France148,004Mhmmm ... die "westliche Welt" ist durchaus sehr stark durch Frankreich gepraegt, aber dass das so stark ist, dachte ich nicht.
Allerdings ist auf Platz 86 "Communes of France". Da hat sich wohl mal wer hingesetzt und all den kleinen Kommunen Frankreichs eine Wikipediaseite eingerichtet. Diese Kommunen beinhalten (mehr oder weniger) beruehmte Dørfer und da wird dann natuerlich "France" sehr oft erwaehnt.
6.Animal146,783Sehr viele Viecher haben wenigstens kurze Wikipediaseiten. Und alle Viecher sind "Animals".
7.India134,738Indien hat viel Kultur, wir kriegen davon nur nicht so viel mit. Aber ich vermute, dass diese grosze Zahl an Zitierungen eine aehnliche Erklaerung hat wie bei Frankreich.
8.The New York Times126,873Diese Zeitung wird oft als Quelle im Text zitiert wobei erwaehnt wird, dass es von der NYT kommt.
9.New York City124,834Mhmmm … schwer zu sagen, aber kulturell gesehen (bzgl. der "westlichen Welt") passiert schon krass viel in NYC.
10.Germany124,204Siehe "France".
11.United Kingdom116,353Dito
12.Arthropod115,756Siehe "Animals" und echt viele Viecher sind Gliederfueszer.
13.Insect112,683Dito
14.London110,488Siehe "NYC".
15.AllMusic105,235Eine Datenbank wenn man irgendwas zu (moderner) Musik wissen will. Deswegen wird das sicherlich oft als Quelle herangenommen und entsprechend oft zitiert.
16.England100,034Siehe "France".
17.U.S. state97,697Siehe "List of sovereign states"
18.Italy95,747Siehe "France".
19.Australia94,704Dito
Aber ab hier wuerde ich sagen, dass Zitierungen durch kulturellen Einfluss weniger, aber durch Eintraege "beruehmter" Dørfer grøszer wird.
20.Iran93,917Siehe "Australia".
Aber siehe auch der Kommentar zu "Bakhsh".
21.Russia92,585Siehe "Australia".
22.Canada92,232Dito
23.Village91,064HA! Da sind sie, die ganzen Dørfer.
24.Japan90,303Zunaechst wuerde ich auch auf das Kommentar zu "Australia" verweisen. Dies hier kønnte aber eine Ausnahme sein, weil echt krass viel internetrelevantes Zeug aus Japan kommt.
Nicht zuletzt viele (oft gar nicht so sehr) Nischeninteressen, deren "Konsumenten" aber sehr internetaffin sind und dann zu jedem Detail eine eigene Wikipediaseite schreiben.
25.World War I89,374Siehe "World War II"
26.China83,106Siehe "Australia".
27.California80,179Dito, aber auch der erste Teil des Kommentars zu "Japan".
28.Moth79,915.oO(Ausgerechnet) … aber echt viele Krabbelviecher fallen in diese Tiergruppe.
29.National Register of Historic Places79,852Man denke nur, wie viele denkmalgeschuetzte Bauten es in Dtschl. gibt. Kein Wunder, dass das (US-amerikanische) Register so oft erwaehnt wird.
30.Catholic Church79,411Selbst Atheisten duerften zugeben, dass die "westliche" Kultur zutiefst gepraegt ist durch die katholische Kirche.
31.Poland77,109Siehe "Australia".
32.Midfielder71,978Siehe "Association football", wenn man in Betracht zieht, dass vermutlich die Haelfte aller Fuszballspieler irgendwann mal auf dieser Position gespielt haben.
33.Los Angeles70,852Hollywood ist dort … ansonsten siehe "NYC".
34.Spain70,150Siehe "Australia" … mit einer Tendenz zu siehe "France".
35.Lepidoptera64,204Siehe "Moth". Interessant ist, dass Motten eine Familie in dieser Ordnung sind, aber øfter zitiert werden.
36.Paris63,574Siehe "NYC".
37.Bakhsh63,325Haeh? Was?
Zusammen mit "Provinces of Iran" auf Platz 38, "Counties of Iran" auf Platz 39, "Dehestan (administrative division)" auf Platz 44 und "Iran Standard Time" auf Platz 48 dachte ich zunaechst, dass es sich hierbei um eine Propagandaoperation handeln muss. Aber dann sah ich ein aehnliches Muster bei den USA und bei Frankreich und aenderte meine Meinung dahingehend, dass da vermutlich ein paar Nerds freie Zeit hatten und die investiert haben etliche (zehn)tausend kurze Artikel zu alles und jedem im Iran zu schreiben. Das ist bei allen anderen Laendern vermutlich genauso.
Wir wissen, dass die Wikipedia von verhaeltnismaeszig wenigen Schreibern dominiert wird (ein paar Tausend). Deswegen wuerde ich diese Erklaerung fuer durchaus plausibel halten.
38.Provinces of Iran62,838Siehe "Bakhsh".
39.Counties of Iran62,763Siehe "Bakhsh".
40.Geographic Names Information System62,525Siehe "National Register of Historic Places".
41.Species62,452Siehe "Animal".
42.Brazil62,261Siehe "Australia".
43.The Guardian62,202Siehe "The New York Times".
44.Dehestan (administrative division)61,782Siehe "Bakhsh".
45.Billboard (magazine)61,428Siehe "AllMusic".
46.English language61,148Das Bedarf vermutlich keines Kommentars … oopsie.
47.Soviet Union60,530Das ist etwas ueberraschend. Die Soviet Union ist ein nicht mehr existierender Staat. Damit kann das nicht durch "Zeug das es in dem Land gibt" erklaert werden. Das muss dann wohl der historische kulturelle Einfluss sein.
48.Iran Standard Time60,447Siehe "Bakhsh".
49.Defender (association football)58,476Siehe "Midfielder", nur dass mglw. nicht ganz so viele Fuszballspieler mal auf dieser Position gespielt haben.
50.Washington, D.C.56,589Noch eine Ueberraschung, denn diese Stadt wuerde ich nicht als kulturell sehr einflussreich beschreiben. Mal abgesehen davon, dass diese Einschaetzung vøllig falsch sein kann, ist aber der "politische" Einfluss dieser Stadt gewaltig, deswegen wundert mich das dann doch nicht so sehr.

Im Wesentlichen haben wir also Zitierungen durch „Stadt / Land / Fluss / Tier“ und „beruehmte“ Leute (meist Sportler … *seufz*). Ab und zu auch durch eine uebergeordnete Kategorie wie „Englisch Language“. Dieses Muster setzt sich dann auch die naechsten 50 Plaetze fort.

Lustig ist, dass Polen dann „einen Iran pullt“ mit „Powiat“ und „Gmina„. … womit ich dann aber auch wieder bei dem bereits hier angesprochenen Elitenproblem bin und wie diese das Wissen der Welt kontrollieren.

Im Nachhinein betrachtet sind die Kategorien unter der die meistzitierten Seiten fallen dann aber keine grosze Ueberraschung (mit den angesprochenen Ausnamen (bspw. „Iran“, oder (aus anderen Gruenden) die Motte).

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich. Das entspricht einem Faktor von 3,500.

Hierbei handelt es sich aber nur im die paar Eisbrocken an der Spitze des sprichwørtlichen Eisberges. Deswegen zeige ich beim naechsten Mal die Verteilung der Zitierungen.

Beim Uebungsbuch in der Fahrschule war eine Schablone mit der man seine eigenen Antworten kontrollieren konnte. Diese Schablone war im Wesentlichen ein Papierstreifen mit Løchern drin und einer Markierung. Besagte Markierung musste an eine andere Markierung auf die Seite mit der jeweiligen Frage gehalten werden und das Papier deckte dann die falschen Antwortmøglichkeiten ab. … Ich habe mal kurz geschaut und die gibt es sogar heutezutage noch .oO(das haette ich jetzt nicht erwartet).
Nun war aber das Lochmuster der Schablone auswendig lernen viel einfacher und schneller als sich die Fragen durchzulesen und ueber die richtige Antwort nachzudenken. Klar, im Endergebnis hilft das nicht fuer die richtige Pruefung, aber es optimiert die Aufgabe innerhalb der gegebenen Rahmenbedingungen.

Ein anderes Beispiel ist, dass heutzutage (aber mehr oder weniger auch schon bei uns) Schueler und Studenten eben gerade NICHT mehr „fuer’s Leben“ lernen, sondern das Lernen darauf optimieren gute Noten zu haben. Klar, das sieht im Zeugnis und auf dem Diplom gut aus. Aber wenn diese Leute dann das Wissen in der Praxis selbststaendig anwenden und erweitern muessen ist’s damit oft nicht weit her.

Als Letztes seien hier Steuerschlupfløcher genannt. Die Steuererklaerung kann ja vøllig legal (wenn auch nicht moralisch richtig) sein und dennoch werden der Gemeinschaft Milliarden vorenthalten, weil das Finanzverhalten insb. reicher Akteure auf die Gegebenheiten (in diesem Fall die Steuergesetze) optimiert werden.

Worauf will ich eigentlich hinaus? Ganz einfach! Die drei Beispiele (und andere Dinge die in diese Kategorie fallen) werden im Allgemeinen zwar als Schummeln angesehen, aber von der Gesellschaft oft genug mit dem Kompliment „clever nachgedacht“ bedacht (wenn auch meist nicht direkt ausgesprochen). Es ist also ein zutiefst menschlicher Wesenszug kreativ zu sein, um das Verhalten derart zu optimieren, sodass es zum besten Resultat unter den jeweils gegebenen Umstaenden fuehrt. Selbst wenn dies NICHT bedeutet, dass das langfristig gut ist und vielmehr oft ein Hinweis auf falsche Anreize in besagten Umstaenden ist.

Nun wundert es mich aber, dass zum gleichen Verhalten gesagt wird, dass dieses „laecherlich“ oder „eine schlecht definierte Zielfunktion“ waere, oder dass man daran sieht, „wie weit weg kuenstliche Intelligenz noch vom Menschen ist“. Warum wird kreative Interpretation der gegebenen Umstaende zur Optimierung des eigenen Verhaltens so unterschiedlich bewertet?

Hier gibt es einen laengeren Artikel dazu (Achtung: der scheint wissenschaftlich, ist es aber nach (gar nicht mal so) strengen Kriterien NICHT). Dort werden 32 Anekdoten diesbezueglich erzaehlt. Ich gebe ein paar Beispiele.

Die Entwicklung starrer, langer Kørper welche sich durch Rad schlagen fortbewegen (durch Impulserhaltung) anstatt der Entwicklung von Schlaengelbewegungen. Was im Uebrigen auch die Evolution getan hat.

Algorithmen mit „falschen Funktionen“ welche durch die Tests kamen, weil besagte Algorithmen „tot spielten“ waehrend des Tests. Tot spielen ist in dem Falle, dass besagte Funktionen zufaellig aktiviert wurden und manchmal eben nicht waehrend des Tests und somit wurde der „defekte Algorithmus“ dann als vøllig OK betrachtet.

Ein anderes Beispiel (nicht aus dem Artikel) ist der Algorithmus der Tetris dadurch nicht verliert, indem das Spiel kurz vor dem Game Over (fuer immer) pausiert wird.

Dann war da auch der unbrauchbare Greifarm, der durch einen Trick dennoch benutzt werden kann.
Und dies faellt dann auch schon gar nicht mehr in die Kategorie „Schummeln“, sondern wuerde bei Menschen direkt mit dem (diesmal sogar ausgesprochenen) Lob „das war eine gute Idee“ bedacht.

Ein anderes Beispiel waere auf den „Ellbogen“ laufen. Kønnte man jetzt sagen: „na so eine dumme Idee“. Bis man drauf kommt, dass ja die „Fuesze“ durch irgendwelche Umstaende mglw. unbrauchbar sind. Und wenn ein Algorithmus dann von selbst drauf kommt, ohne dass ein Mensch bei der Programmierung dran gedacht hat, dann ist das meiner Meinung nach schon eine ziemlich kreative Leistung.

Worauf ich hinaus will ist das Folgende: wenn etwas wie ein Stueck Kuchen aussieht, sich wie ein Stueck Kuchen anfuehlt und wie ein Stueck Kuchen schmeckt, dann ist es vermutlich ein Stueck Kuchen.
Nur weil bei Computern und Robotern noch nicht alles in jeder denkbaren Situation zusammenspielt, wie bei uns biologischen Algorithmen und Maschinen nach Milliarden, zumindest hunderten von Millionen von Jahren evolutionaerer Optimierung, bedeutet das nicht, dass die das niemals kønnen werden.

Geburtstagsbeitrag! Und wie so oft zu dieser Gelegenheit lasse ich mich lang ind breit ueber ein Thema aus, was mich im Detail beschaeftigt(e), aber mglw. nicht so richtig interessant ist fuer den Rest der Menschheit.

Beim letzten Mal in dieser Reihe schrieb ich:

Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. […]

Und darum soll es heute gehen.

Wenn man sich die Popularitaet besagter 13 Vornamen anschaut, die seit 1880 am haeufigsten in den USA vergeben wurden, erhaelt man das linke Diagramm in diesem Bild:

Hier sieht man auch, warum ich erstmal annahm, dass Moden zwar kommen und gehen, dies aber ueber laengere Zeitraeume keinen groszen Unterscheid machen sollte. Sicher, Anfang des 20. Jahrhunderts waren „John“ und „Robert“ viel beliebter als „Michael“ oder „Christopher“ aber die Høhe der einzelnen Kurven aendert sich jetzt nicht so stark … auszer so ab ca. 2000 … mhmmm … das machte mich etwas stutzig und ich schaute mir mal die kumulative Wahrscheinlichkeit fuer diese 13 meistvergebenen Namen an (Diagramm auf der rechten Seite).
Dort scheint die Aussauge „da aendert sich nicht viel“ bis ungefaehr 1980 zu stimmen. Innerhalb gewisser Variation erhalten 15 % der Neugeborenen einen der dreizehn meistvergebenen Namen. Aber mit dem Beginn meiner Generation aenderte sich das … drastisch! … Das letzte Adjektiv ist durchaus angebracht, wenn man mal betrachtet wie stark die aufsummierte Wahrscheinlichkeit fuer die dreizehn (vormals) meistvergebenen Namen herunter geht.

Das ist dan auch der Grund, warum ich schrieb, dass gesellschaftliche Entwicklungen (traditionelle) Namen dann doch verdraengen. Die gesellschaftliche Entwicklung hier kønnte sein, dass die Jugendlichen welche von den sogenannten 69’ern gepraegt wurden. Damit meine ich weniger die Studenten welche „mittendrin“ waren, sondern die (oft deutlich) juengeren, sympathisierenden Jugendlichen, die noch zur Schule gingen. Ab Mitte der 70’er Jahre fingen diese an Kinder zu haben. Besagte Zeit hat das Vertrauen in und das Gehorchen von (traditionellen) Autoritaeten nachhaltig geschwaecht. Es ist nicht all zu weit hergeholt, dass sich das auch in der Namensgebung ausgedrueckt hat, denn die (damals) „frischen“ Eltern fuehlten sich nicht mehr so stark daran gebunden, den Sohn nach dem Opa zu benennen.

ABER: man kønnte durchaus argumentieren, dass die Entwicklung schon ab ca. dem den 50’er Jahren (schwer zu verorten ob Anfang, Mitte oder Ende) losging, wenn auch zunaechst zøgerlich. Dies kommt ziemlich genau zusammen mit der Etablierung des Individualismus (insbesondere in den USA), als „Gegenstueck“ zum sog. Kommunismus, im kalten Krieg. Im oberen Diagramm macht sich das nicht so bemerkbar innerhalb der (natuerlichen) Variation vor ca. 1980. Es ist aber deutlicher zu erkennen, wenn man sich anschaut, wie vieler Vornamen es bedurfte um 50 % der neugeborenen Kinder eines Jahres zu benennen:

Das ist zwar keine gerade Linie, aber dennoch bis ca. den 50’er Jahren eine ziemlich flache Kurve. Es brauchte nur ca. 75 Namen (plusminus ein paar) um besagte 50 % aller Kinder zu benennen. Ab den 50’er Jahren steigt die Kurve kontinuierlich und ab den 60’er Jahren uebersteigt es die vorherigen, etliche Jahrzehnte vorherrschenden (kleinen) Schwankungen. Mit dem Start der 80’er Jahre „geht dann die Post ab“.

Ach so, beim ersten Bild ist nur ein Frauenname dabei (der 14 Name waere auch ein Frauenname gewesen, aber mir gingen die Farben aus). Ich vermute, dass dies zwei Hauptursachen hat. Zum Einen denke ich, dass Maenner lange Zeit etablierte (darob eines besseren Wortes) Namen bekommen haben um eine „Familientradition“ beizubehalten oder einen Vater zu „ehren“ oder sowas. Kennt man ja aus Film und Fernsehen, mit den vielen Juniors. Von Frauen kenne ich das eigentlich gar nicht. Das Anhaengsel „Junior“ scheint es nur fuer Maenner zu geben. Dies fuehrt natuerlich zu mehr Vielfalt bei den Frauennamen und somit insgesamt weniger Frauen die den gleichen Namen haben (Ausnahme: „Mary“).
Zum Zweiten ist das mglw. auch ein Defizit in den Daten, denn ich habe insgesamt weniger Frauen in den Daten, es wurden also weniger Maedchengeburten gemeldet. Das wundert mich ueberhaupt nicht, denn Hausgeburten waren noch sehr sehr lange der Standard:

In the United States […] around 1900, when close to 100% of births were at home. Rates of home births fell to 50% in 1938 […].

Es gab also keine automatische Datenaufnahme. Und hier spielt dann der bereits beim letzten Mal erwaehnte historische Sexismus rein. Die Geburt eines Jungen wurde auch bei einer Hausgeburt gemeldet, denn dieser sollte ja mal der Erbe werden und das musste rechtlich abgesichert sein.

Fuer das urspruengliche Problem (Laenge der Wikipediatitel) spielt das aber aus zwei Gruenden keine Rolle. Zum Ersten ist die Verteilung der Laenge der Frauen und Maennernamen so gleich, dass man (beinahe) deckungsgleich sagen kønnte. Zum Zweiten ist die Meldung von der Geburt eines Maedchsen dann trotzdem immer noch ein gleichverteilter Prozess. Das bedeutet, dass die Wahrscheinlichkeit fuer die Meldung eines bestimmten Maedchennamens gleich bleibt, auch wenn die totale Anzahl gemeldeter Maedchengeburten geringer ist.

Ach so … der Titel dieses Beitrags wird ersichtlich, wenn man bedenkt, dass ca. 20- bis 30-jaehrige uns im 2. Weltkrieg von den Nazis befreiten. 20 bis 30 Jahre vorher war aber „John“ beliebter als „James“. Das kehrte sich erst ab den 30’er Jahren um. Der Unterschied war nun aber auch nicht so grosz … deswegen ist der Titel des Film zu 85 % richtig … tihihihi.
Es passt dann aber, dass James Dean als _DER_ Filmstar der 50’er bis heute bekannt ist.

Nun wollte ich aber wissen ob diese Veraenderungen einen bleibenden Effekt haben und wie stark dieser ist.

Bei meinen urspruenglichen Betrachtungen, bzgl. der Verteilung der Laenge der Wikipediaartikel und wie das Maximum erklaert werden kønnte, habe ich alle Vornamen, und wie oft diese in den letzten 140 Jahren vergeben wurden, aus allen Jahren zusammengezaehlt und die Waehrscheinlichkeit fuer meinen Namensgenerator nach diesen „totalen Zahlen“ berechnet. Ich erstellte 1 Million Frauen- und 1 Million Maennernamen und das (normalverteilte) Resultat ist im verlinkten Beitrag zu finden.
Nun kam oben aber heraus, dass sich die beliebtesten Namen eben doch aendern und ich wollte wissen, ob das einen deutlichen Einfluss auf die Verteilung der Laenge der Namen hat. Deswegen modifizierte ich den Namensgenerator derart, sodass fuer jedes Jahr jeweils 100-tausend Maenner- und Frauennamen erstellt wurden (mit den sich jaehrlich aendernden Wahrscheinlichkeiten). In den Resultaten sah ich einen Trend und dachte mir, dass das schon stimmen kønnte. Weil der Effekt aber relativ klein war, wollte ich nicht ausschlieszen, dass es sich mglw. doch um ein Artefakt handelt und nicht echt ist. Deswegen liesz ich meinen Laptop nochmal 15 Stunden oder so rødeln und erstellte pro Jahr jeweils 300-tausend Frauen- und Maennernamen. Die Statistik wurde dadurch viel besser … und die erwaehnten Resultate wurden reproduziert. Im Folgenden zeige ich die Resultate des 600-tausend Namen pro Jahr Laufes.

Die 140 Verteilungen bzgl. der Laenge der Namen sehen so aus:

Uffda! Das ist viel auf einmal und muss der Reihe nach betrachtet werden.
Erstens „verschmieren“ sich die Punkte sehr. Das war zu erwarten und faellt in der Physik immer erstmal unter das beruehmte „Rauschen“. Die Frage war nun, ob das Rauschen ein Signal enthaelt? Bspw. liegt die kleinste Anzahl der Namen mit 10 Buchstaben liegt im Jahre 2015 und die grøszte Anzahl im Jahre 1891. Bei den Namen mit 15 Buchstaben hingegen dreht sich das um (høhere Anzahl zu spaeteren Jahren).
Gibt es mglw. ueber die Jahre einen Trend hin zu laengeren Namen? Das waere dann ja genau das was ich wissen will. Weil nur zwei Buchstabenlaengen  nicht ausschlaggebend sind, schaute ich mir deswegen die aufsummierte Anzahl alle Namen mit Buchstabenlaengen links bzw. rechts des Maximums an.
Und hier kommt dann die zweite Beobachtung dazu. Jede individuelle Verteilung laeszt sich mit einer Normalverteilung beschreiben. Das ist gut, denn wenn es tatsaechlich eine „Umverteilung“ hin zu laengeren Namen gibt, dann sollte sich die Position des Maximums der jaehrlichen Gaussverteilung zu grøszeren Werten verschieben. Und diese beiden Resultate sind hier zu sehen:

Zwischen der letzten Dekade des 19. Jahrhunderst bis ca. zu den 40’er Jahren des 20. Jahrhunderts wurden kuerzere Namen (schwarze Punkte) unbeliebter. Dies ging einher mit erhøhter Popularitaet laengerer Namen (rote Quadrate). Beide Kurven scheinen aber nur auf den ersten Blick symmetrisch. Wenn man genauer hinschaut sieht man, dass die Popularietat laengerer Namen im besagten Zeitraum linear ansteigt und der Anstieg ziemlich kontant ist. Der Rueckgang der Popularitaet kuerzerer Namen hingegen verlaeuft in zwei Phasen. Zunaechst „zøgerlich “ bis ca. 1912 um danach umso staerker vonstatten zu gehen.

In den schwarzen Kurven betrachte ich aber nur die Daten links und rechts vom Maximum (Namen mit 12 und 13 Buchstaben). Die Beobachtung liesze sich erklaeren, wenn sich die Zunahme der laengeren Namen zunaechst aus besagtem Maximum „speist“. Dass Namen also nicht einheitlich bspw. einen Buchstaben laenger wurden, sondern die ersten 20 Jahre Namen der Laenge 12 (oder 13) staerker durch laengere Namen „ersetzt“ wurden als Namen mit weniger Buchstaben. Wie oben erwaehnt verschieben beide Prozesse die Position des Maximums. Ein „Schaufeln der Daten“ vom Maximum nach rechts sollte aber eine langsamere Aenderung zur Folge haben, denn der Anteil links vom Maximum ist ja „noch da“ und muss bei der Anpassung mit einer Normalverteilung beruecksichtigt werden.
Und das ist dann auch genau was ich in der blauen Kurve sehe. Die Position des Maximums der jaehrlichen Gausskurve verschiebt sich nach rechts, aber bis ca. 1912 ist die Aenderung dieser Aenderung langsamer als danach (bis ca. 1930, wenn dieser Prozess sich allgemein deutlich verlangsamt).
Dies macht sich natuerlich auch in der Amplitude (schwarze Punkte) und Breite (rote Quadrate) der jaehrlichen Gausskurven bemerkbar:

Bis ca. 1912 nimmt die Breite der Gausskurve zu und die Amplitude derselben ab. Genau so wie es nach der obigen Erklaerung sein sollte. Danach „erholt“ sich die Amplitude und die jaehrliche Gausskurve wird wieder schmaler. Letztere Beobachtungen bedeuten, dass es ab ca. 1912 NICHT zu einer gemeinsamen Verschiebung-um-einen-Buchstaben der gesamten Verteilung (oder zumindest des „kurzen“ Teils) kommt. Vielmehr ist es so, dass die Umverteilung vom Maximum (stark?) nachlaeszt und besagtes Maximum ab dann wieder (von links) aufgefuellt wird. Die „primaere Quelle“ des Umverteilungsprozesses „tauscht“ sozusagen den Platz mit der vormals „sekundaeren Quelle“ (und zwangslaeufig vice versa).

Interessant ist, dass die Amplitude auch nach 1940 weiter waechst, waehrend die Breite der Kurve weiter abnimmt. Es kommt also bis ca. 1960 zu einer teilweisen „Rueckbesinnung“. Laengere Namen werden zugunsten von Namen der Laenge 12 (oder 13) „aufgegeben“. Dies gilt auch (aber nicht so stark) fuer noch kuerzere Namen, wie man im Diagramm mit der aufsummierten Anzahl sieht.
Ab ca. den 70’er Jahren nimmt die Popularitaet laengere Namen weiter zu, aber laengst nicht so stark wie Anfang des 20. Jahrhunderts und ab ca. 2000 hat sich der Prozess stabilisiert.

Das hier sind zwar eher subtile Veraenderungen aber diese sind robust. Zwei Sachen (welche mir vermutlich fuer immer verborgen bleiben werde) wuerde ich gerne wissen.
1.: Fand das auch im echten Leben statt (denn die Namen hier sind ja nur simuliert)? Und als Modifikation: wie sieht das in anderen, vergleichbaren, westlichen Laendern aus?
2.: Was sind die Gruende fuer die Veraenderungen? Die Trends sind definitiv keine kurzfristigen Moden. Das zieht sich teilweise ueber Generationen hin. Aber ich spekulierte da bereits oben.

Damit sind diese Nebenbetrachtungen abgeschlossen. Beim naechsten Mal dann endlich wieder mehr zu den eigentlichen Wikipediadaten (denn das ist ja noch lange nicht abgeschlossen).

Apropos, die hier gesehenen Veraenderungen sind zwar robust, aber so gering, dass sich das in den Wikipediatiteln wenn ueberhaupt nur sehr wenig bemerkbar machen sollte. Dies vor allem deswegen, weil bereits das Vorhandensein von Doppelnamen (oder Berufsbezeichnungen) deutlich staerkere Auswirkungen haben sollten. Sowohl von der Menge (weil das 100-tausende sind) als auch vom Effekt (weil die „Verlaengerung“ eines Namens durch diese zwei Prozesse mehr als 10 mal grøszer ist als die oben beobachtete Verschiebung um 0.4 Buchstaben ueber 130 Jahre.

Aber das soll nun genug sein … ein wuerdiger Geburtstagsbeitrag in meinen Augen :)

Beim letzten Mal fuehrten Daten zur Verwunderung. Verwunderung fuehrte zu einem Beduerfnis die Daten zu erklaeren. Dieses Beduerfnis fuehrte zu Ueberlegungen wie die Daten erklaert werden kønnten und weiteren Ueberlegungen unter welchen Annahmen ich erste Ueberlegungen ueberhaupt treffe … zumindest soweit ich es verstanden habe ist das Wissenschaft im Sinne Thomas Kuhns … Und dann habe ich das getestet und die falsche Hypothese (die typische Wortlaenge der englischen Sprache als Ursache der Beobachtungen) verworfen … Wissenschaft im Sinne Karl Poppers … æhm … ich sage es lieber nochmal: soweit ich das verstanden habe … einraeumend, dass ich das mglw. ueberhaupt nicht verstanden habe, weil ich die Theorien des Paradigmenwechsels und des systematischen Fortschritts als sich ergaenzend ansehe und nicht als „Widersacher“ … aber ich schweife ab, denn eigentlich wollte ich sagen: Science to the Rescue!

Die Breite der Gausskurven im Diagramm des vorigen Beitrags stimmen allerdings nicht ueberein (sind aber auch nicht himmelweit voneinander verschieden). Das liegt mglw. daran dass bei den realen Wikipediaseiten in diesem Laengenbereich ein signifikanter Ueberlapp mit anderen Themen herrscht.

Mich verwunderte nun das Folgende. Ich habe 2 Millionen Namen generiert. Dies geschah mehr oder weniger zufsaellig, ich wollte einfach nur eine aussagekraeftige Statistik haben. Wie man im Graphen sieht, ist die Amplitude der simulierten Daten (fast) genau so hoch wie die Amplitude der realen Daten (die roten Balken) … Was ist das denn fuer ein komischer Zufall? Bzw. wie viele Personenseiten gibt es denn ueberhaupt in der Wikipedia?
Also musste ich wieder rein in den Wikipediahasenbau um eine Antwort auf diese Frage zu finden … … … Ich fand einen Artikel, wo mal jemand 1001 zufaellige Artikel kategorisierte und diese informative Darstellung der Ergebnisse erstellte bzgl. der Anzahl der Artikel zu verschiedenen Themen in der Wikipedia …

Quelle, Autor: Mliu92, Lizenz: CC BY-SA 4.0, meinen Beduerfnissen angepasst

Fast 28 % aller Wikipediaseiten betreffen ganz direkt Leute … wie so oft, ist die Menschheit auch auf der Wikipedia mit einer Nabelschau beschaeftigt und redet am meisten ueber sich selbst.
Es wird vermutet, dass die Faehigkeit zur Selbstreferenz ein wichtiger Bestandteil von Bewusstsein (und Intelligenz) ist … aber so ist das bestimmt nicht  gemeint … *seufz*.

Diese 28 % entsprechen beinahe 1.7 Millionen Seiten … was nahe dran ist an den oben erwaehnten 2 Millionen Fantasienamen und meiner Verwunderung somit eine Erklaerung entgegenstellt.

Wie bereits frueher erwaehnt, gibt es auf Wikipedia total viel interne Seiten. Da ich nun schonmal dabei war, versuchte ich eine Seite zu finden, die alle Personenseiten auflistet. Nach laengerer Suche fand ich eine solche … aber nur fuer lebende Menschen. Das sind aber nicht ganz eine Million. Und somit fragte ich mich: wo sind denn die ganzen Toten hin? … Nun ja, diese sind verstreut auf vielen anderen internen Seiten. Leider sind das Seiten wie diese hier oder jene dort, wo den dort eingetragenen Elementen die eine oder andere Information fehlt. Als letztes versuchte ich es dann mit den Tagen des Jahres (ein Beispiel) wo dann auch immer die an dem Tag Verstrobenen aufgefuehrt sind.

Zum Glueck hatte ich mir ja neulich schon einen Datenmaehdrescher gebaut und musste den fuer die neue Aufgabe nur ein bisschen modifizieren. Trotz all der Anstrengungen fand ich aber nur ein bisschen mehr als 100-tausend Seiten von Toten Leuten (eben nur die, die auch auf den entsprechenden Seiten gelistet sind).
In der oben erwaehnten Untersuchung von 1001 zufaelligen Wikipediaseiten betrug das Verhaeltnis der Seiten zu lebenden bzw. toten Personen 5 zu 3. Ich muesste also ca. 600-tausend Seiten zu toten Menschen haben. Diese Diskrepanz habe ich nicht geschafft auszuraeumen. Auch nach laengerer Suche fand ich einfach keine Uebersichtsseite wie fuer die lebenden Leute.

Naja … aber weil ich nun schonmal Daten dazu geerntet habe konnte ich mir mal angucken wie die Verteilung der Laenge dieser ganz konkreten Personennamentitel in echt aussieht. Und hier ist das Ergebnis (weisze Ovale sind die neuen Daten):

Aha … das Maximum stimmt mit allen anderen Maxima ueberein. Das bestaetigt meine Vermutung, dass Personennamen beim Hauptprozess eine wichtige Rolle spielen.

Die Amplitude dieser neuen Daten ist aber signifikant kleiner als selbst die Amplitude der gruenen Gausskurve. Das liegt zum Teil daran, dass die ca. 1/2 Million Seiten von toten Personen fehlen. Ein anderer Grund ist, dass die Verteilung der echten Namen zwei flache „Buckel“ bei grøszeren Laengen hat. Nur der Erste, bei einem Wert von ca. 23 Buchstaben im Namen, ist zu sehen, denn der Andere liegt so weit rechts, dass ich den abgeschnitten habe. Das macht nix, weil der ohnehin sehr klein und nicht wirklich signifikant ist. Das heiszt aber, dass die Titel von Wikipediapersonenseiten sich ein bisschen mehr auf laengere Namen verteilt als die von mir generierten Fantasienamen.
Dies kønnte durch Doppelnamen erklaert werden (auch wenn diese nur durch den ersten Buchstaben und einen Punkt abgekuerzt sind). Das betrifft mehr als 190-tausend Namen.
Desweiteren beinhalten die Titel von Wikipediapersonenseiten oft eine weitere Bemerkung. Als Beispiel møge wieder „Donald Fraser (geologist)“ dienen. Das sind zwei zusaetzliche Klammern, ein extra Leerzeichen und (in diesem Fall) neun Buchstaben der Berufsbezeichnung. Letzteres fuehlt sich „typisch“ an. 13 (das Maximum der Fantasienamen) + 10/11/12 und zack ist man mittendrin im Buckel. Ich fand mehr als 125-tausend Titel von Wikiepediapersonenseiten auf die das zutrifft.
Vom Gefuehl her wuerde ich sagen, dass diese beiden Zahlen durchaus grosz genug sind, um die „Verbreiterung“ zu laengeren Namen hin zu erzeugen.

Ebenso wird durch die Verbreiterung die Amplitude kleiner. Wenn man die 600-tausend Titel die mir fehlen in Betracht zieht und die ca. 190-tausend + 125-tausend Namen die im „“Schwanz“ der Verteilung sitzen, dann sollte man recht nahe an die Amplitude der gruenen Gausskurve herankommen.

Den laengsten Titel einer Wikipediapersonenseite hat mit 84 Buchstaben uebrigens diese Seite hier … SCHUMMLER!

Genug davon! Ich denke ich habe eine hinreichende Erklaerung fuer das Maximum der Verteilung der Laenge der Wikipediatitel gefunden. Das freut mich sehr. Die anderen zwei Prozesse die „das Signal erzeugen“ bleiben mysteriøs. Schade eigentlich, aber ich habe echt keine Idee, was das sein kønnte und da ich eigentlich am Linknetzwerk arbeiten wollte habe ich auch keinen Nerv noch mehr dazu zu machen.

Ach uebrigens bestaetigt der Stichprobe der 1001 Wikipediaseiten das was ich eingangs zu im vorigen Artikel Annahme II sage … *seufz*.

Ihr, meine lieben Leserinnen und Leser, erinnert euch mglw. an diesen Schnullibulli von vor ueber 10 Jahren.

Nun ja … da kam vor einer Weile noch Schnullibulli Teil 2 dazu:

Mit ’nem Dr. rer. nat. und nem Dr. ing. (auch wenn Letzterer nicht direkt spezifiziert ist im Englischen) ist’s nun aber wirklich genug mit dem ganzen Quatsch!

Beim letzten Mal versuchte ich eine Erklaerung zu finden fuer einen der drei (hauptsaechlichen) Prozesse, welche die Verteilung der Laenge der Wikipediaartikel beschreiben. Ich dachte es liegt an der englischen Sprache an sich, dem war aber nicht so. Damit habe ich nur noch eine Idee: Personennamen.

Ich kann gar nicht sagen, wie ich darauf kam. Poppte einfach so in meinem Geist auf. Ist allerdings auch nicht zu weit hergeholt. Ein Name sind zwei Woerter und prinzipiell kønnte das Maximum der Verteilung der Laenge von Personennamen zu mehr Buchstaben verschoben sein.

Nun brauchte ich also nur noch rausfinden, was Wikipediaseiten zu Personen sind … und da ging’s dann auch schon los. Wie soll ich sowas aus nur dem Titel ausmachen? Klar, ich kønnte ein paar Heuristiken herausfinden, aber das waere laengst nicht adaequat.
Aber dann dachte ich das Folgende.
1.: Eine Person bekommt einen Eintrag auf Wikipedia, wenn diese einigermaszen interessant ist (mit einer _sehr_ weit gefassten Definition des Wortes „interessant“).
2.: Ob eine Person von Interesse ist, ist zwar abhaengig vom Erfolg (dito, bzgl. der Grenzen der Definition dieses Wortes) der Person und Erfolg ist definitiv abhaengig von der Persønlichkeit (und ich wuerde auch die Gene nicht unbedingt ausschlieszen), aber Beides ist vøllig unabhaengig vom Namen. Klar, es gibt Kuenstlernamen, aber das ist darob der Menge aller (mehr oder weniger) interessanten Personen nicht ausschlaggebend.
3.: Die Wikipedia konzentriert sich vor allem auf „den Westen“.

Mit diesen drei (ich denke doch durchaus plausiblen) Annahmen dachte ich mir dann weiter, dass ich ja dann nur ’ne Liste aller (westlichen) Personennamen braeuchte und dass die Verteilung der Laenge der Namen repraesentativ fuer die Laengen der Titel der Wikipediapersonenseiten sein sollte.

Das Dumme ist nun, dass es solche Listen ganz sicher gibt, dass die aber zu Recht (!) nicht øffentlich zugaenglich sind. Aufgrund von Annahme #3 kann ich aber auf zwei andere schøne Quellen zurueckgreifen:
Listen von Babynamen und wie haeufig diese vergeben wurden … zurueck bis 1880 o.O
Eine Liste von Familiennamen und wie haefig diese existieren.

Damit hatte ich zwar immer noch nicht das was ich wollte, ABER weil die Haeufigkeiten mit angegeben sind, konnte mir damit einen Namensgenerator bauen. Die Haeufigkeiten sind so wichtig, weil ich Namen ja gerade NICHT rein zufaellig erstellen will, sondern mit einer Wahrscheinlichkeit wie diese in der Bevølkerung auch tatsaechlich vorkommen, damit ich Annahme #2 nicht verletze. Einen John Smith, gibt es nunmal viel haeufiger, als den bereits erwaehnten Donald Fraser.

Bzgl. der generierten Namen sind mehrere Sachen zu bemerken.
I.: Der Namensgenerator erstellt keine Doppelnamen, auch keine die nur mit einem Buchstaben abgekuerzt sind. Mal schauen wieviel das ausmacht.

II.: Aufgrund des historischen, generationenuebergreifenden und laengst nicht ueberwundenen Sexismus gibt es vermutlich viel mehr (mehr oder weniger) beruehmte Maenner die eine Wikipediaseite haben. Das wird (hoffentlich) in 100 Jahren anders aussehen. Wieauchimmer, das sollte nix ausmachen, denn ich gehe erstmal davon aus, dass Maennernamen in ihrer Gesamtheit nicht laenger (oder kuerzer) sind als Frauennamen. Zumindest bei den Fantasienamen stellte sich diese Aussage im Nachhinein als richtig heraus.

III.: Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. Fuer die Argumentation hier ist das aber dennoch nicht relevant, denn die Verteilung der Laenge der Namen wird durch die Moden nicht signifikant beeinflusst. Wie gesagt, die Daten dazu liefere ich in einem kommenden Beitrag.

IV.: Zu Familiennamen habe ich leider keine Jahresdaten … ABER, ich gehe davon aus, dass die meisten Familiennamen deutlich stabiler sind als Vornamen, da diese von Gesetz (Heirat und Kinder muessen den Zunamen der zumindest eines Elternteils haben) und Gesellschaft (Erwartung den Namen des Mannes anzunehmen) massiv „geførdert“ werden. Deswegen sollten etwaige Aenderungen diesbezueglich nicht von Bedeutung sein. Zumindest nicht im relevanten Zeitraum, denn ich nehme an, dass die meisten Personenseiten von relativ modernen Menschen (die letzten ca. 150 Jahre) sind.
Ein Vorbehalt ist allerdings zu erwaehnen: Einwanderung. Da ich die Namenslisten der USA benutze, sollten nicht typisch westliche Namen durchaus vorkommen. Aufgrund der demographischen Entwicklung in den USA sollte deren Vorkommen sogar zunehmen die letzten paar Jahrzehnte. Durch historischen, generationenuebergreifenden und laengst nicht ueberwundenen Rassismus werden Personen mit nicht typisch westlichen Namen allerdings systematisch vom reich und beruehmt werden im sog. „Westen“ abgehalten. Und reiche und beruehmte Leute in anderen Laendern werden systematisch von den Leuten die die Wikipedia schreiben ignoriert, weil das besagte Schreiber (aus naheliegenden, nicht (!) unbedingt rassistischen Gruenden) nicht interessiert. Auch hier kann ich wieder nur sagen: das wird (hoffentlich) in 100 Jahren anders aussehen.
Ich bin nun aber nur an der Laenge der Namen interessiert und nehme an, dass es zu jedem „Hernandez“ auch einen „Li“ gibt, so wie es zu jedem „Williams“ einen „Lee“ gibt. Apropos „kein Interesse drueber zu schreiben“ und „(historischer) Rassismus (im Westen)“ … schaut ihr, meine lieben Leserinnen und Leser euch mal die Laenge der jeweiligen verlinkten Namenslisten an und denkt euch den Rest selber.

Nun habe ich jeweils 1 Million Frauen- und Maennernamen generiert und gehe mit den obigen Annahmen davon aus, dass die Verteilung der Laenge dieser Fantasienamen durchaus repraesentativ ist fuer die Laenge der Titel der Wikipediapersonenseiten … und tatsaechlich …

… zum Einen kann man die Verteilung der Laenge der Namen (schwarze Vierecke) wieder mit einer Gaussverteilung (gelbe Kurve) hinreichend gut beschreiben. Das bestaetigt mal wieder, dass ich gut damit fahre, meistens erstmal ’ne Normalverteilung mir unbekannter Vorgaenge anzunehmen. Zum Anderen stimmt das Maximum dieser Gaussverteilung weitestgehend ueberein mit dem Maximum des staerksten (die Laenge der Wikipediatitel bestimmenden) „Prozesses“ (gruene Kurve).

HURRA!

Einige Dinge fallen an diesen Daten auf. Aber es soll genug sein fuer heute. Weitere Betrachtungen zu dieser Problematik beim naechsten Mal.

Ich hatte zwei Ideen bzgl. der drei Gaussverteilungen welche die Verteilung der Laenge der Wikipediatitel beschreiben. Heute geht es um eine er beiden Ideen: die Verteilung der Laenge der Wørter der englischen Sprache.

Dafuer brauchte ich aber den englischen Duden, das Merriam-Webster Dictionary. Dieses Buch ist gemeinfrei und bei Project Gutenberg erhaeltlich. Allerdings sind da auch die Definitionen der Wørter mit dabei; die brauche ich aber nicht. Ja, die mit zu betrachten waere sogar schaedlich, denn bestimmte Wørter kommen viel øfter in Texten vor als andere Wørter. Das wuerde die Verteilung kaputt machen, da die Laenge dieser Wørter viel zu oft gezaehlt werden wuerde. In anderen Zusammenhaengen ist das bestimmt von Interesse. Bspw. wenn man die durchschnittliche Anzahl der Buchstaben in einem Buch abschaetzen will. Oder wenn man wissen will, welche Wørter besonders oft gebraucht werden. Aber nicht bei der Problemstellung die hier betrachtet wird.

Zum Glueck hat sich jemand anders bereits die Muehe gemacht und die Wørter von den Definitonen getrennt. Diese Datei nahm ich mir her und schaute mir mal die Verteilung der Laenge der Wørter der englischen Sprache im Vergleich zur Laenge der Wikipediatitel an:

Bekannt vom letzten Mal sind die roten Balken (Verteilung der Laenge der Wikipediatitel, diesmal nur bis 30 Buchstaben), die gelbe Kurve (dies ist die erste, der drei oben erwaehnten, Gausskurven) und die blaue Kurve (die Summe besagter drei Gausskurven). Neu sind die schwarzen Punkte, welche die Verteilung der Laenge der Wørter im Merriam-Webster Dictionary darstellen und die gelbe Kurve.

Bevor ich zum Offensichtlichen komme ist zu sagen, dass die Verteilung der Laenge der Wørter der englischen Sprache tatsaechlich mit einer Normalverteilung zu beschreiben ist. Das dem so ist war meine Vermutung, denn ansonsten haette ich die Betrachtungen hier gar nicht ausfuehren muessen. Aber nach der Ueberraschung mit der „unnormalen“ Verteilung der Laenge der Wikipediatitel war ich mir gar nicht so sicher ob diese Vermutung ueberhaupt stimmt.

Das Offensichtliche ist nun, dass die englische Sprache viel zu wenige Wørter enthaelt um die roten Balken auch nur unter der gruenen Kurve zu fuellen. In dem oben verlinkten Wørterbuch befinden sich etwas mehr als 300-tausend Wørter. Weniger als in jedem einzelnen der vier laengsten Balken sind. Neuere Editionen umfassen ca. 470-tausend Wørter. Aber selbst wenn wir das auf 600.000 erweitern, wuerde das nicht ausreichen.

Nicht ganz so offensichtlich, aber beim zweiten Blick sieht man’s … naja … das war ehrlich gesagt das Erste, was mir aufgefallen ist … was wollte ich jetzt eigentlich sagen … ach ja: das Maximum der Verteilung der Laenge der Wørter in Merriam Webster liegt bei 10 Buchstaben. Das Maximum der gruenen Kurve liegt aber bei 13 Buchstaben. Das ist jetzt zwar kein himmelweiter Unterschied, aber dennoch deutlich. So deutlich, dass ich das nicht in irgendeinen „Fehler“ wuerde schieben wollen.

Lange Rede kurzer Sinn, die Laenge der Wørter der englischen Sprache an sich ist NICHT verantwortlich fuer den Verlauf der Verteilung der Laenge der Wikipediatitel. Das spielt sicherlich eine Rolle, aber die ist nicht ausschlaggebend im Groszen und Ganzen.

Bei anderen Wikipedias mag das anders sein. Ich habe aus Interesse mal die Wørter der dtsch. Sprache untersucht. Ganz den Vorurteilen entsprechend scheint die dtsch. Sprache  eher laengeren Wørtern zugeneigt zu sein. Bei kurzen Wørtern gibt es keinen signifikanten Unterschied zwischen dtsch. und englisch im Verlauf der Verteilungen. Aber rechts vom Maximum (also zu laengeren Wørtern hin) hat die dtsch. Sprache (rote Punkte im unteren Bild) definitiv einen Ueberschuss verglichen mit Englisch (schwarze Punkte im unteren Bild).

Ich denke, dass dies daran liegt, dass es im dtsch. viel mehr Kompositwørter gibt. OK, ich gebe zu, dass dieser Gedanke naheliegend war. Unterstuetzt wird diese Vermutung, dass sich die dtsch. Verteilung NICHT durch nur eine Gaussverteilung beschreiben laeszt, aber perfekt durch zwei. Das sind die  beiden orangen Kurven im Bild. Aber ACHTUNG: die høhere orange Kurve beschreibt NICHT die Verteilung der Laengen der Wørter im Englischen, sondern ist die erste Gausskurve zur Beschreibung der Verteilung der Laenge der Wørter in der dtsch. Sprache.
Das Maximum dieser ersten Gausskurve liegt dann bei wie beim englischen bei ca. 10 Wørtern und die Form aehnelt sehr dem Verlauf der englischen Verteilung. Diese Kurve scheint also die Verteilung normaler „Einzelwørter“ zu sein. Die Amplitude der zweiten Gausskurve ist viel kleiner und Selbige sehr breit, mit einem Maximum bei 17 Buchstaben. Und 10 Buchstaben plus 7 Buchstaben … das fuehlt sich an, als ob das durchaus so’n durchschnittliches zusammengesetztes Wort charakterisiert.
Ach so, ich habe die Funktionswerte normiert, damit ich die Verteilungen besser vergleichen konnte. Aber das steht ja auch an der Ordinate.
Nochmal ach so: die Verteilung der Laenge der Wørter der dtsch. Sprache ist nur ’ne (zugegeben gar nicht so schlechte) Abschaetzung, denn ich habe nur eine Quelle mit einem relativ limitierten Wortschatz (ca. 88-tausend) benutzt. Eben das, was ich mal schnell im Internet, ohne lange Suche, gefunden hatte.

Wieauchimmer … schade eigentlich, dass die Laenge der Wørter der englischen Sprache NICHT die Laenge der Titel der Wikipedia erklaeren. Denn damit habe ich nur noch eine Idee, Namen von Personen, zur Erklaerung der Form der Verteilung … dazu mehr beim naechsten Mal.