Søren in Norwegen

Archive for the ‘Allgemein’ Category

Kevin Bacon – X – Vorne, Hinten, Links, Rechts, Oben, Unten: Links (b)

Im ersten Artikel zu den Zitierungen gab ich nur wørtlich (bzw. als Zahlen im Diagramm) an, wieviele (oder vielmehr wie wenige) Seiten so und so viel Prozent der Zitierungen ausmachen. Ungefaehr nur ein Drittel aller Seiten vereinen ueber 90 Prozent aller Zitierungen auf sich.

Fuer die Anzahl der Links sieht das aehnlich aus, diesmal aber als Diagramm (zur besseren Orientierung habe ich im Hintergrund die doppeltlogarithmische Verteilung vom letzten Mal herein gepackt, die hat aber keine zugehørige Ordinate!):

.oO(endlich mal keine Verteilung.)

Wie ist dieses Diagramm zu lesen?
Die Kurven stellen jeweils den aufaddierten Anteil aller Seiten (rote Kurve), bzw. aller Links, bis zum gegebenen Argument dar. Als Beispiel nehme man die zweifarbigen Punkte, welche bei jeweils 50 % verortet sind.
Der rot/gruene Punkt liegt bei 14 Links pro Seite und die Haelfte alle Seiten hat so viele oder weniger Links. Folgt man diesem Punkt nach unten, landet man bei ca. 15 % auf der blauen Kurve. Dies bedeutet also, dass 50 % aller Seiten, nur ca. 15 % aller Links auf sich vereinen.
Nun der gruen/lila Punkt. Dieser liegt bei 51 Links pro Seite. Man muss also alle Seiten mit 51 Links oder weniger zusammen nehmen um 50 % aller Links auf der Wikipedia (zu anderen Wikipediaseiten) zu bekommen. Dafuer muss ich aber fast 90 % aller Wikipediaseiten besuchen (lila Punkt auf der roten Kurve).

Umgekehrt bedeutet dies, dass nur ca. 10 % aller Seiten die Haelfte aller Links enthalten! Wiederum werden die Zahlen also von wenigen Seiten dominiert.

Dies hingegen macht eine einfache Abschaetzung der benøtigten Schritte fuer eine „Rundreise“ auf dem kompletten Linknetzwerk fuer mich nicht møglich. Ich schreibe „fuer mich“, weil es bestimmt mathematische Werkzeuge gibt, mit denen man das unter den gegebenen Umstaenden machen kann, aber die sind mir nicht bekannt.
Aus den vielen Seiten mit wenigen Links wuerde ich vermuten, dass man relativ viele Schritte per Rundreise braucht. Wenn man aber nur ein paar wenige Seiten mit vielen schon anfangs erreicht, dann sollte man nur wenige Schritte brauchen. Das hier sind also entgegengesetzte „Prozesse“.

Es sei denn, wenn die Ersteren vor allem sich selber und die Letzteren auch vor allem sich selber zitieren. Wenn also diese zwei Gruppen „unter sich bleiben“.
Aha! … Da muss ich doch glatt mal schauen ob ich da was rausfinden kann.

Deswegen genug fuer heute.

Ach so … Was fuer Seiten das sind, die extrem viele Links enthalten, hatte ich bereits hier besprochen. Und Seiten die keine Links haben werden (wie hier erwaehnt) in meinen Betrachtungen nicht rausgeschmissen wenn diese noch auf anderen Seiten zitiert sind. Drei Beispiele waeren Clematis marmoraria (natuerlicherweise zitiert auf Clematis), Serbian proverbs (zitiert auf Culture of Serbia), oder Third-party software component (zitiert auf Easy Chirp, Shareaza, Foobar2000 und 83 anderen Seiten).

Posted by Tentacel on 2021-11-13 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – X – Vorne, Hinten, Links, Rechts, Oben, Unten: Links (a)

Von grøsztem Interesse bzgl. des Linknetzwerks ist die (durchschnittliche) Anzahl der Links pro Seite. Je grøszer diese Zahl ist, desto weniger Schritte brauche ich im Schnitt um das komplette Netzwerk „abzuschreiten“.

Deswegen schaute ich mir genau das mal an und die Verteilung …

… ueberraschte mich.

In der doppeltlogarithmischen Darstellung auf der rechten Seite sieht man (wieder), dass das Verhalten (wieder) ueber einen weiten Bereich mittels eines Potenzgesetzes beschrieben werden kann. Ich wuesste zwar immer noch keinen Mechanismus warum das so sein muesste, aber das ist ja von den Zitierungen bekannt.
Bei genauerer Betrachtung sieht man, dass die Anzahl der Seiten in Abhaengigkeit von der Anzahl der Links im Bereich zwischen ca. 100 und 500 Links etwas von der Geraden abweicht. Phaenomenologisch ist das in dem hiesigen Zusammenhang nicht relevant. Ich bin nur an einer Abschaetzung interessiert. Aber so eine kleine Diskrepanz ist auch, wie das Higgs-Boson entdeckt wurde (siehe Abbildung 1 in diesem Artikel).
Und Phaenomenologie … mhmmm … das kann manchmal auch eine der Intention komplett entgegengesetzte Reaktion zur Folge haben … tihihihi

Das unerwartete ist aber im linken Diagramm zu sehen. Wie bei allen vorherigen Verteilungen haette ich ein deutlich ausgepraegtes Maximum bei einem Wert erwartet. Aber das Maximum bei 8 Links „verschmiert“ sich zu 6 und 7 und 9 Links. Auch die Zaehlungen bei 4 und 5 bzw. 10 und 11 Links sind nur ca. zehn Prozent geringer als der Maximalwert … und 10 % Unterschied wuerde ich normalerweise in den bereits øfter erwaehnten Fehler-bei-Daten-aus-der-echten-Welt einordnen (zumindest wenn kein Trend zu erkennen ist) … ich wuerde das „Maximum“ also eher als Plateau von 5 bis 11 Links sehen.
Bei den Untersuchungen zu den Zitierungen stellte ich fest, dass extrem viele Artikel sehr selten zitiert werden. Ich gab ein paar Beispiele und dabei handenlte es sich um sehr oder relativ kurze Artikel. Da ich die mehr (mehr oder weniger) zufaellig auswaehlte, kann man das durchaus als repraesentativ ansehen. In einem kurzen Artikel gibt es natuerlich auch nicht so viele Gelegenheiten was anderes zu zitieren. Aus der Menge der (wenig zitierten) kurzen Artikel erklaert sich dann auch die grosze Anzahl der Artikel die 5 bis 11 Links haben.

Und dann kommt ganz unerwartet nochmal ein signifikanter „Ausschlag“ bei 12 Links! What the what? Das sieht aus als ob das so ’ne unbewusste, kollektive, psychologische Grenze ist: .oO(Ach jetzt habe ich 11 Links, einer geht noch) … ein kurioses Phaenomen.

Genug fuer heute.

Posted by Tentacel on 2021-11-07 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – IX – Citation (not) missing (d) – Menschheitsproblem

Beim vorletzten Mal stellte ich nicht die Gruppe von Artikeln mit den wenigsten Zitierungen, weniger als zehn, vor. Das sei hiermit nachgeholt:

Diesmal ist die Ordinate linear, und man sieht, warum ich beim vorletzten Mal die logarithmische Darstellung waehlte. Die dort diskutierten Gruppen wuerden bei einer linearen Ordinate nur als ganz flache Balken, und damit wenig relevant erscheinen. Warum der subjektive Eindruck falsch ist, wurde beim letzten Mal ausgiebig diskutiert.

Wieauchimmer, in diesem Diagramm zeigt sich, dass die weitaus meisten Seiten entweder gar nicht, oder høchstens zwei Mal zitiert werden. Das hørt sich fuer mich sehr danach an, dass da jemand ueber „lokale Themen“ geschrieben und die untereinander zitiert hat (oder auch nicht). Das kann man aber nur bedingt oft machen. In Zahlen: 64.4 % aller Wikipediaseiten vereinen nur 7.6 % aller Zitierungen auf sich.

Die Frage ist dann, was das fuer Seiten sind. Aber dadurch, dass die nicht (oft) zitiert werden, gelangt man dort nicht durch Zufall hin. Und weil man davon keine Ahnung hat, sucht man die auch nicht direkt auf. Deswegen ein paar Beispiele.

Die 2014 Sark general election wird nur 2 mal zitiert. Aber nachdem ich das gefunden hatte, bin ich einigen der dortigen Links gefolgt und nun møchte ich die Gegend mal voll gerne besuchen. Das spricht doch total fuer die Relevanz dieser Seite, nicht wahr.
Das Dørflein Zaprężyn wird nur ein Mal zitiert … auch hier habe ich jetzt Lust da mal hinzufahren.
Ein anderes Dorf, Mirikənd wird ebenso nur ein Mal zitiert … øhm … dito … aber ich denke nicht, dass das mal was wird … auszerdem lernte ich dabei, dass Aserbaidschan eine Exklave hat.
Die Motte Eucrostis pruinosata wird ueberhaupt nicht zitiert und …
… das gleiche Schicksal ereilt Miss Lithuania 2008: Gabrielė Martirosian … die arme Dame.

Das Beispiel mit der Motte ist uebrigens eine gute Veranschaulichung eines fundamentalen Problems unserer Zeit. Die Menschheit weisz total viel, aber ein einzelner Mensch kann das gar nicht alles speichern. Es gibt so urst krass viel Wissen, welches in den Lagern (und Kellern) von Bibliotheken und Museen liegt. Deswegen gibt es auch sehr oft neue Entdeckungen aufgrund von Zeug was wir (als Menschheit) seit 100 Jahren oder laenger haben, was aber seitdem in besagten Kellern liegt. Manchmal gibt es dann eine (oft pensionierte) Person, welche die weltweite Authoritaet bzgl. bspw. einer bestimmten (praehistorischen) Spezies von Familie der Mollusken ist. Und wenn diese Person stirbt, geht all dieses Wissen verloren. Im Grunde genommen selbst dann, wenn das aufgeschrieben wurde, weil man Erfahrung (und die Zusammenhaengen zwischen verschiedenen Dingen) nicht wirklich (effektiv) kodifizeren kann.

Und das ist ueberhaupt eines der grøszten Probleme der Menschheit (und war es schon immer). Jeder Mensch muss alles selbststaendig und alleine lernen. Anders als im Film Matrix kann man Wissen leider nicht schnell in unsere Køpfe uebertragen. Was Sabine lernt kann Peter noch lange nicht.
Aber Computer kønnen das. Und wenn es mal richtige kuenstliche Intelligenzen gibt, dann kønnen die das mglw. auch. Oder anders (und viel konkreter): wenn ein selbstfahrendes Auto lernt, wie man im Berliner Stadtverkehr andere autofahrende Idioten erkennt, dann kønnen alle anderen selbstfahrenden Autos das ueber Nacht herunter laden und die wissen das dann einen Tag spaeter auch.

Andererseits bedeutet das aber auch das Folgende: sollten wir dieses Problem jemals geløst bekommen, dann wird die Post aber mal voll abgehen fuer die Menschheit! Der Fortschritt seit der Renaissance oder der industriellen Revolution wird dagegen aussehen wie’n Glass Wasser im Ozean.
Und ich halte das durchaus fuer durchfuehrbar. Denn ein anderes Menschheitsproblem ist in unserer Zeit (im Wesentlichen, wenn auch noch nicht ueberall im Praktischen) geløst worden: die Verteilung von Wissen. Wenn man was obskures wissen wollte, dann war das frueher alles ziemlich umstaendlich. Klar, gab (und gibt) es Bibliotheksverbuende, welche auch Buecher von einem Land ins andere schicken. Sicherlich kann man viel in Fachbuechern nachlesen. Aber hat man das auch gemacht? Sind diese Møglichkeiten des Informationstransfers auch massenhaft (vulgo: von der gesamten Menschheit) in Anspruch genommen worden? Oder war es doch eher so, dass nur ein paar hunderttausend (oder lass es auch ein paar Millionen sein) Menschen, welche (mehr oder weniger) zur (Wissens)Elite gehør(t)en, diesen Informationstranfermechanismen auch benutzten? Hier bestand also prinzipiell ebenso die Møglichkeit des Informationstransfers, aber praktisch war das massenhaft (sowohl von der Menge der Information, als auch von der Menge der Rezipienten) nicht zu gebrauchen.
Aber dieses Problem hat das Internet geløst. Und selbst Zensur, oder dass da laengst nicht alles obskure Zeit zu finden ist, aendert nichts an der Tatsache, dass der Informationsfluss tatsaechlich ein Fluss wurde in den letzten 20 Jahren und kein trøpfelndes Rinnsal ist wie vorher. Voll krass wa! Wir leben in ’ner voll geilen Zukunft!!!

Und da macht das dann auch nix, dass das nur einmal zitiert wird. Und es macht auch nix, wenn man die Erfahrung der oben erwaehnten Molluskexpertin nicht kodifizieren kann. Solange es auffindbar ist im Informationstransfernetzwerk, kann sich wer anders besagtes Wissen wieder relativ schnell aneignen … neue Erfahrung kann auf den Dokumenten alter Erfahrung aufbauen und dort fortsetzen (selbst wenn Letztere fuer immer verloren ist) … und das ist Fortschritt … *freu*.

Das war’s jetzt erstmal mit den Sachen, die ich aus den Titeln der Wikipediaseiten (und was damit zusammenhaengt) herausziehen kann. Beim naechsten Mal behandle ich dann noch die Anzahl der Links pro Wikipediaseite … Hurra! Noch eine neue Verteilung auf die ihr, meine lieben Leserinnen und Leser, euch bereits jetzt freuen kønnt :).

Posted by Tentacel on 2021-10-23 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – IX – Citation (not) missing (c) – Maechtige Gesetze

Beim letzten Mal stellte ich vor, wie oft Wikipediaseiten auf anderen Wikipediaseiten zitiert werden. Wenige Seiten die oft erwaehnt werden und viele Seiten die selten erwaehnt werden.

Das wirklich Interessante kommt aber jetzt erst … in der doppeltlogarithmischen Darstellung:

Cool wa! Wie man mit Hilfe einfacher, mathematischer Werkzeuge total viel Information in nur ein Bild kondensieren kann … ich gebe aber zu, dass meist erst ganz am Ende der Bearbeitung einer Fragestellung steht, nachdem man besagte Information (mindestens halbwegs) verstanden hat.

Das erwaehnte wirklich Interessante ist durch die rote Linie angedeutet: zwischen 50 und 5000 Zitierungen (also ueber zwei Grøszenordnungen) scheint sich die Verteilung in der doppeltlogarithmischen Darstellung linear zu aendern. Dies deutet darauf hin, dass sich die Abhaengigkeit der Anzahl der Seiten pro Anzahl Zitierungen nach einem Potenzgesetz bechreiben laeszt … ich finde uebrigens, dass der englische Begriff „Power law“ deutlich cooler und maechtiger klingt … das passt viel besser zur Relevanz der Wissenschaft :) … wieauchimmer … total viel Zeug verhaelt sich nach Potenzgesetzen und das ist total wichtig, denn diese sind immer ein Hinweis darauf, dass ein Phaenomen skaleninvariant ist — dass es sich also im Groszen wie im Kleinen gleich verhaelt. Ein Beispiel waere der Flaecheninhalt eines Quadrats in Abhaengigkeit von der Seitenlaenge. Klar, bei langen Seiten sind die Zahlen grøszer, aber Ersteres ist immer als das Quadrat von Letzterem auszudruecken … da aendert sich also nix mit der Grøsze.
Bzw. geht das dann sogar noch weiter zur Universalitaet — dass sich unterschiedlichste Phaenomene auf (mehr oder weniger) die gleiche Art beschreiben lassen (bswp. die Anzahl von Reiskørnern auf einem Schachbrett und das (ungebremste) Wachstum von Bakterien). Diese beiden Sachen (und das wir (als Menschheit) das erkannt haben) sind ganz fundamental wichtig fuer den Erfolg der modernen Wissenschaften und warum wir das heutzutage so gut haben.

Die Steigung der Geraden ist ungefaehr minus zwei (zwei Grøszenordnungen auf der Abzysse und (minus) vier Grøszenordnungen auf der Ordinate). In diesem Bereich ist also die Anzahl der Seiten umgekehrt proportional zum Quadrat der Zitierungen. Vom Bauchgefuehl ergibt das erstmal Sinn. Das interessante an diesem Faktor ist dann weiter, dass dies keine wohldefinierte Varianz zulaeszt (lohnt sich durchaus zu lesen, wenigstens teilweise, weil viel schøne Beispiele gegeben werden). Dies hat wiederum zur Folge, dass sogenannte Black Swans auftreten kønnen; dass also total krasse Ausreiszer zwar aueszerst selten, aber durchaus zu erwarten sind. Dies gilt im Uebrigen fuer sehr viele natuerliche Phaenomene. Und damit schlieszt sich der Kreis zum letzten Mal, wo genau diese das Thema waren. Wobei die „Black Swans“ in diesem Fall begrenzt sind, weil es nur eine endliche Anzahl von Wikipediaseiten gibt.

Dazu abschlieszend sollte ich sagen, dass ich mit der Annahme einer umgekehrten Proportionalitaet auch falsch liegen kønnte. Linearitaet in einer doppeltlogarithmischen Darstellung ist zwar eine notwendige, aber keine hinreichende Bedingung dafuer. Der Grund ist, dass es sich hierbei um eine endliche Datenmenge handelt. Man kann auf verschiedenste Arten endlliche Datenmengen generieren, die scheinbar einem Potenzgesetz folgen; es bei der Erweiterung ins Unendliche dann aber zu (mehr oder wenige subtilen, mathematisch definitiv wichtigen) Unterschieden kommt.
Auszerdem sagte schon der beruehmte Prof. Klos zwischen zwei Zigaretten: „Wer es nicht schafft bei doppeltlogarithmischer Darstellung eine gerade Linie durchzuziehen, der muss schon ziemllich minderbemittelt sein.“

In diesem Zusammenhang habe ich habe bisher nicht die Gruppe von Wikipediaseiten die am allerwenigsten zitiert werden besprochen. Weil der der Beitrag jetzt aber schon so lang ist, verschiebe ich die Besprechung dieser letzten Gruppe auf das naechste Mal.

Posted by Tentacel on 2021-10-19 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – IX – Citation (not) missing (b) – Von Anekdoten zur Statistik

Jippie! Noch eine Verteilung! … Ich weisz, ich weisz … das sieht immer gleich aus … so ist das nun mal mit dem Wissensgewinn. Man braucht ganz viel Kram der (fuer die meisten Menschen) immer gleich aussieht und (fuer die meisten Menschen) schnell langweilig wird. Erst wenn alles beisammen ist, kann man daraus die coolen Schlussfolgerungen ziehen die dann zum Erkenntnisgewinn fuehren … ich sage da: cool wa! … aber ich raeume ein, dass ich da vermutlich eher zur Ausnahme gehøre.
Das war bei der Entdeckung der Theorie der Elektrizitaet damals vor vielen hundert Jahren nicht anders. Watt und Volta und Ampere haben bestimmt total viele Katzen (und andere Materialien) gerubbelt (aber nicht Galvani! Der hat Frøsche aufgeschlitzt) und alles minutiøs aufgeschrieben, um dann erst nach Jahrzehnten des Datensammelns ihre bahnbrechenden und fundamentalen Beobachtungen (und Theorien) zu verøffentlichen.
Wissenschaft wird immer als so glamourøs dargestellt — sexy Wissenschaftler in ihren coolen Laboratorien mit den abgefahrenen Geraeten und Instrumenten und dem krassen Code, die dann in supersozialen Zusammenkuenften angeregt ueber die neuesten Ergebnisse diskutieren. Das ist ja alles komplett richtig, dabei darf aber nicht vergessen werden, dass da auch jede Menge „langweiliges“ Zeug dazu gehørt, ja, dass das sogar die Hauptsache ist, womit sich Wissenschaft beschaeftigt.
Und das war auch ein Grund fuer mich, dieses Wikipediaprojekt (anders als sonst) so genau zu dokumentieren.

Aber ich schwoff ab … und mir faellt gerade auf, dass ich das was ich da eben schrieb tatsaechlich meine (und vermutlich schon immer so empfand) … tihihihihi

Beim letzten Mal praesentierte ich die 50 am meisten zitierten Wikipediaseiten und erkannte, dass diese sich leicht in ein paar wenige Kategorien einsortieren lassen. Das Endresultat war das Folgende.

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich.

Die natuerliche Frage ist dann, wie das bei den restlichen 5,798,262 Seiten aussieht. Zur Erinnerung: insgesamt betrachte ich 5,798,312 Wikipediaseiten auf denen insgesamt 165,913,569 (jeweils) andere Wikipediaseiten zitiert werden. Und so sieht die Verteilung der Zitierungen aus:

Das ist viel auf einmal, deswegen der Reihe nach. Zunaechst ein paar grundsaetzliche Erklaerungen (die zwar offensichtlich sind, wo es aber auch nicht schadet, die mal gesagt zu haben).
1.: In jedem Diagramm trage ich die Anzahl der Seiten auf, die so oft wie auf der Abzysse angegeben zitiert wurden.
2.: Die Abzysse jedes Diagramms faengt bei null Zitierungen an, ich konzentriere mich aber auf unterschiedliche Gruppen. D.h. dass die x-Achse nach einem bestimmten Wert abgeschnitten und fuer jedes Diagramm unterschiedlich ist. Die Gruppierng ist jeweils angegeben.
3.: Die Ordinate ist fuer alle Diagramme gleich … und logarithmisch. Letzteres bedeutet, dass 10 mal so viele Seiten mit der entsprechenden Anzahl Zitierungen gezaehlt wurden, wenn ein Balken doppelt so hoch ist wie die einzelnen Striche im ersten Diagramm. Entsprechend bei 3-facher Høhe usw.
4.: Das sind rote Balken mit schwarzen Raendern. Weil die Balken so dicht stehen, sieht man in den ersten drei Diagrammen nur die schwarzen Raender … das macht aber nix.
5.: Die angegebenen Zahlen per Diagramm sind wieviele Seiten insgesamt in der jeweiligen Gruppe gezaehlt wurden und wie viele Zitierungen diese auf sich vereinen. Die kumulativen Werte sind entsprechend aufaddiert fuer alle Gruppen bis zu der jeweils im Diagramm dargestellten (bei hohen Zitierungen anfangend).
6.: Semantisch sind die einzelnen Gruppen eigentlich nicht so strikt getrennt. Da gibt es sicherlich jede Menge Ueberlapp. Aber auf Grund mathematischer Notwendigkeiten musste ich Grenzen setzen fuer jede Gruppe und da dachte ich mir, dass das erstmal nicht unvernuenftig ist im Wesentlichen immer eine Grøszenordnung per Gruppe abzudecken.

Das erste Diagramm visualisiert die beim letzten Mal diskutierten Extreme — Seiten die zwischen 10,000 und 325,128 mal zitiert wurden. An den Zahlen sieht man ganz deutlich, dass man, wenn man zufaellig einem Link auf Wikipedia folgt, in ca. 10 Prozent aller Faelle auf einer von nur 703 Seiten landet. Das ist eine ziemlich krasse Dominanz dieser wenigen vielzitierten Seiten! Und der lange duenne „Strich“ am linken Ende … nun ja, …

… bei dem sieht man im zweiten Diagramm, Seiten die zwischen 1,000 und 10,000 mal zitiert wurden, dass es sich dabei nicht im einen „Strich“ handelt. Vielmehr versammeln sich dort mehr und mehr Seiten die die gleiche Anzahl von (wenigen) Zitierungen haben. Von rechts kommend macht sich das zunaechst aber gar nicht bemerkbar.
In dieser Gruppe geschieht auch noch nicht so viel; nur eine Seite mit 8056 Zitierungen und nur vier Seiten mit 4880 Zitierungen. Aber ab 2000 und weniger Zitierungen zaehlt die Verteilung dann schon haeufiger 10 oder mehr Seiten und um ca. 1000 Zitierungen geht der Zaehler in die Zwanziger. Das ist das Truegerische an einer logarithmischen Darstellungen da sieht das mehr aus.
Zaehlt man diese beiden ersten Gruppen zusammen, dann hat man ca. 15-tausend Wikipediaseiten. Die Chance auf einer von diesen zu landen betraegt zusammengenommen fast ein Drittel! Ach du meine Guete! Bei beinahe jedem dritten Klick lande ich auf einer von nur 0.26 % aller Wikipediaseiten. Und drei (oder dreizehn) Wikipediatabs sind bei mir ganz schnell mal offen.

In der naechsten Gruppe, 100 bis 1,000 Zitierungen, befinden sich 3.67 % aller Wikipediaseiten und mit den vorherigen Gruppen zusammen ziehen diese nur ca. 4 % aller Seiten ueber 60 % aller Zitierungen auf sich.
Bei der Anzahl von Seiten pro Haeufigkeit-der-Zitierung erreichen wir ab ca. 500 (und weniger) Zitierungen die Hunderter um bei ca. 150 Zitierungen dann auch schon tausende Seiten zu zaehlen.

Bei der letzten Gruppe, 10 bis 100 Zitierungen, ist aus dem duennen Strich des ersten Diagramms eine hohe „Wand“ roter Balken geworden. Wir zaehlen am rechten Rand ca. 2500 Seiten und erreichen die Zehntausender bei 49 Zitierungen und die Hunderttausender bei 12 Zitierungen. Kumulativ vereinen diese ca. 35 % aller Seiten ueber 90 % aller Zitierungen … tja … das ist auf der Wikipedia wie im richtigen Leben: wir wissen wenig, aber darueber reden wir die ganze Zeit.
Und das ist dann auch des Pudels Kern der sogenannten Relevanzdiskussion der dtsch. Wikipedia. Diejenigen die Relevanzkriterien befuerworten haben die Fakten auf ihrer Seite, ganz konkret im Sinne des Wortes „Relevanz“. Ich persønlich finde es aber viel zu toll, dass ich Bacon, Ohio auf der Wikipedia finden kann. Dies auch dann, wenn ich die aller-aller-aller-allermeisten dieser Seiten niemals sehen werde.

Posted by Tentacel on 2021-10-13 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – IX – Citation (not) missing (a) – Information Operations

Ohne Analyse des Linknettzwerks konnte ich mir auch mal anschauen welche Wikipediaseiten denn am meisten (auf Wikipedia) zitiert werden. Hier ist die Liste, mit der dazugehørigen Nummer, wieviele der insgesamt 165,913,569 zitierten Links auf den jeweiligen Eintrag entfallen, und kurzen Kommentaren.

Platz	Titel	Anzahl Zitierungen	Kommentar
1.	United States	325,128	Die Wikipedia ist "westlich ausgerichtet" und da wundert mich das ueberhaupt nicht, dass die USA implizit oder explizit oft erwaehnt werden. Ebenso ist vermutlich das was ich zu "France" auf Platz 6 sage auch hier gueltig.
2.	List of sovereign states	231,196	Ich denke, dass dies von den Infokaesten an der Seite kommt, in denen Kurzinfos zu bestimmten Sachen stehen. Jede(s/r) Stadt, Land, Fluss gibt's nunmal in 'nem Land.
3.	Association football	187,590	Fuszball ist urst beliebt in der Welt … kurzer Uberschlag: 150 Laender x 10 (mehr oder weniger beruehmte) Fuszballteams x 10 Spieler x 50 Jahre / 5 Jahr pro Spieleraustausch = 150,000 mal die das Wort "Fuszball" erwaehnt wird.
4.	World War II	168,323	Sehr viele Aspekte der Kultur, Wirtschaft, Wissenschaft, prinzipiell des Lebens der "westlichen Welt" sind bis heute zutiefst gepraegt durch die Ereignisse des 2. Weltkriegs.
5.	France	148,004	Mhmmm ... die "westliche Welt" ist durchaus sehr stark durch Frankreich gepraegt, aber dass das so stark ist, dachte ich nicht. Allerdings ist auf Platz 86 "Communes of France". Da hat sich wohl mal wer hingesetzt und all den kleinen Kommunen Frankreichs eine Wikipediaseite eingerichtet. Diese Kommunen beinhalten (mehr oder weniger) beruehmte Dørfer und da wird dann natuerlich "France" sehr oft erwaehnt.
6.	Animal	146,783	Sehr viele Viecher haben wenigstens kurze Wikipediaseiten. Und alle Viecher sind "Animals".
7.	India	134,738	Indien hat viel Kultur, wir kriegen davon nur nicht so viel mit. Aber ich vermute, dass diese grosze Zahl an Zitierungen eine aehnliche Erklaerung hat wie bei Frankreich.
8.	The New York Times	126,873	Diese Zeitung wird oft als Quelle im Text zitiert wobei erwaehnt wird, dass es von der NYT kommt.
9.	New York City	124,834	Mhmmm … schwer zu sagen, aber kulturell gesehen (bzgl. der "westlichen Welt") passiert schon krass viel in NYC.
10.	Germany	124,204	Siehe "France".
11.	United Kingdom	116,353	Dito
12.	Arthropod	115,756	Siehe "Animals" und echt viele Viecher sind Gliederfueszer.
13.	Insect	112,683	Dito
14.	London	110,488	Siehe "NYC".
15.	AllMusic	105,235	Eine Datenbank wenn man irgendwas zu (moderner) Musik wissen will. Deswegen wird das sicherlich oft als Quelle herangenommen und entsprechend oft zitiert.
16.	England	100,034	Siehe "France".
17.	U.S. state	97,697	Siehe "List of sovereign states"
18.	Italy	95,747	Siehe "France".
19.	Australia	94,704	Dito Aber ab hier wuerde ich sagen, dass Zitierungen durch kulturellen Einfluss weniger, aber durch Eintraege "beruehmter" Dørfer grøszer wird.
20.	Iran	93,917	Siehe "Australia". Aber siehe auch der Kommentar zu "Bakhsh".
21.	Russia	92,585	Siehe "Australia".
22.	Canada	92,232	Dito
23.	Village	91,064	HA! Da sind sie, die ganzen Dørfer.
24.	Japan	90,303	Zunaechst wuerde ich auch auf das Kommentar zu "Australia" verweisen. Dies hier kønnte aber eine Ausnahme sein, weil echt krass viel internetrelevantes Zeug aus Japan kommt. Nicht zuletzt viele (oft gar nicht so sehr) Nischeninteressen, deren "Konsumenten" aber sehr internetaffin sind und dann zu jedem Detail eine eigene Wikipediaseite schreiben.
25.	World War I	89,374	Siehe "World War II"
26.	China	83,106	Siehe "Australia".
27.	California	80,179	Dito, aber auch der erste Teil des Kommentars zu "Japan".
28.	Moth	79,915	.oO(Ausgerechnet) … aber echt viele Krabbelviecher fallen in diese Tiergruppe.
29.	National Register of Historic Places	79,852	Man denke nur, wie viele denkmalgeschuetzte Bauten es in Dtschl. gibt. Kein Wunder, dass das (US-amerikanische) Register so oft erwaehnt wird.
30.	Catholic Church	79,411	Selbst Atheisten duerften zugeben, dass die "westliche" Kultur zutiefst gepraegt ist durch die katholische Kirche.
31.	Poland	77,109	Siehe "Australia".
32.	Midfielder	71,978	Siehe "Association football", wenn man in Betracht zieht, dass vermutlich die Haelfte aller Fuszballspieler irgendwann mal auf dieser Position gespielt haben.
33.	Los Angeles	70,852	Hollywood ist dort … ansonsten siehe "NYC".
34.	Spain	70,150	Siehe "Australia" … mit einer Tendenz zu siehe "France".
35.	Lepidoptera	64,204	Siehe "Moth". Interessant ist, dass Motten eine Familie in dieser Ordnung sind, aber øfter zitiert werden.
36.	Paris	63,574	Siehe "NYC".
37.	Bakhsh	63,325	Haeh? Was? Zusammen mit "Provinces of Iran" auf Platz 38, "Counties of Iran" auf Platz 39, "Dehestan (administrative division)" auf Platz 44 und "Iran Standard Time" auf Platz 48 dachte ich zunaechst, dass es sich hierbei um eine Propagandaoperation handeln muss. Aber dann sah ich ein aehnliches Muster bei den USA und bei Frankreich und aenderte meine Meinung dahingehend, dass da vermutlich ein paar Nerds freie Zeit hatten und die investiert haben etliche (zehn)tausend kurze Artikel zu alles und jedem im Iran zu schreiben. Das ist bei allen anderen Laendern vermutlich genauso. Wir wissen, dass die Wikipedia von verhaeltnismaeszig wenigen Schreibern dominiert wird (ein paar Tausend). Deswegen wuerde ich diese Erklaerung fuer durchaus plausibel halten.
38.	Provinces of Iran	62,838	Siehe "Bakhsh".
39.	Counties of Iran	62,763	Siehe "Bakhsh".
40.	Geographic Names Information System	62,525	Siehe "National Register of Historic Places".
41.	Species	62,452	Siehe "Animal".
42.	Brazil	62,261	Siehe "Australia".
43.	The Guardian	62,202	Siehe "The New York Times".
44.	Dehestan (administrative division)	61,782	Siehe "Bakhsh".
45.	Billboard (magazine)	61,428	Siehe "AllMusic".
46.	English language	61,148	Das Bedarf vermutlich keines Kommentars … oopsie.
47.	Soviet Union	60,530	Das ist etwas ueberraschend. Die Soviet Union ist ein nicht mehr existierender Staat. Damit kann das nicht durch "Zeug das es in dem Land gibt" erklaert werden. Das muss dann wohl der historische kulturelle Einfluss sein.
48.	Iran Standard Time	60,447	Siehe "Bakhsh".
49.	Defender (association football)	58,476	Siehe "Midfielder", nur dass mglw. nicht ganz so viele Fuszballspieler mal auf dieser Position gespielt haben.
50.	Washington, D.C.	56,589	Noch eine Ueberraschung, denn diese Stadt wuerde ich nicht als kulturell sehr einflussreich beschreiben. Mal abgesehen davon, dass diese Einschaetzung vøllig falsch sein kann, ist aber der "politische" Einfluss dieser Stadt gewaltig, deswegen wundert mich das dann doch nicht so sehr.

Im Wesentlichen haben wir also Zitierungen durch „Stadt / Land / Fluss / Tier“ und „beruehmte“ Leute (meist Sportler … *seufz*). Ab und zu auch durch eine uebergeordnete Kategorie wie „Englisch Language“. Dieses Muster setzt sich dann auch die naechsten 50 Plaetze fort.

Lustig ist, dass Polen dann „einen Iran pullt“ mit „Powiat“ und „Gmina„. … womit ich dann aber auch wieder bei dem bereits hier angesprochenen Elitenproblem bin und wie diese das Wissen der Welt kontrollieren.

Im Nachhinein betrachtet sind die Kategorien unter der die meistzitierten Seiten fallen dann aber keine grosze Ueberraschung (mit den angesprochenen Ausnamen (bspw. „Iran“, oder (aus anderen Gruenden) die Motte).

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich. Das entspricht einem Faktor von 3,500.

Hierbei handelt es sich aber nur im die paar Eisbrocken an der Spitze des sprichwørtlichen Eisberges. Deswegen zeige ich beim naechsten Mal die Verteilung der Zitierungen.

Posted by Tentacel on 2021-10-07 at 13:37 under Allgemein.
Comment on this post.

Das werden Computer NIEMALS kønnen – V – Schummeln

Beim Uebungsbuch in der Fahrschule war eine Schablone mit der man seine eigenen Antworten kontrollieren konnte. Diese Schablone war im Wesentlichen ein Papierstreifen mit Løchern drin und einer Markierung. Besagte Markierung musste an eine andere Markierung auf die Seite mit der jeweiligen Frage gehalten werden und das Papier deckte dann die falschen Antwortmøglichkeiten ab. … Ich habe mal kurz geschaut und die gibt es sogar heutezutage noch .oO(das haette ich jetzt nicht erwartet).
Nun war aber das Lochmuster der Schablone auswendig lernen viel einfacher und schneller als sich die Fragen durchzulesen und ueber die richtige Antwort nachzudenken. Klar, im Endergebnis hilft das nicht fuer die richtige Pruefung, aber es optimiert die Aufgabe innerhalb der gegebenen Rahmenbedingungen.

Ein anderes Beispiel ist, dass heutzutage (aber mehr oder weniger auch schon bei uns) Schueler und Studenten eben gerade NICHT mehr „fuer’s Leben“ lernen, sondern das Lernen darauf optimieren gute Noten zu haben. Klar, das sieht im Zeugnis und auf dem Diplom gut aus. Aber wenn diese Leute dann das Wissen in der Praxis selbststaendig anwenden und erweitern muessen ist’s damit oft nicht weit her.

Als Letztes seien hier Steuerschlupfløcher genannt. Die Steuererklaerung kann ja vøllig legal (wenn auch nicht moralisch richtig) sein und dennoch werden der Gemeinschaft Milliarden vorenthalten, weil das Finanzverhalten insb. reicher Akteure auf die Gegebenheiten (in diesem Fall die Steuergesetze) optimiert werden.

Worauf will ich eigentlich hinaus? Ganz einfach! Die drei Beispiele (und andere Dinge die in diese Kategorie fallen) werden im Allgemeinen zwar als Schummeln angesehen, aber von der Gesellschaft oft genug mit dem Kompliment „clever nachgedacht“ bedacht (wenn auch meist nicht direkt ausgesprochen). Es ist also ein zutiefst menschlicher Wesenszug kreativ zu sein, um das Verhalten derart zu optimieren, sodass es zum besten Resultat unter den jeweils gegebenen Umstaenden fuehrt. Selbst wenn dies NICHT bedeutet, dass das langfristig gut ist und vielmehr oft ein Hinweis auf falsche Anreize in besagten Umstaenden ist.

Nun wundert es mich aber, dass zum gleichen Verhalten gesagt wird, dass dieses „laecherlich“ oder „eine schlecht definierte Zielfunktion“ waere, oder dass man daran sieht, „wie weit weg kuenstliche Intelligenz noch vom Menschen ist“. Warum wird kreative Interpretation der gegebenen Umstaende zur Optimierung des eigenen Verhaltens so unterschiedlich bewertet?

Hier gibt es einen laengeren Artikel dazu (Achtung: der scheint wissenschaftlich, ist es aber nach (gar nicht mal so) strengen Kriterien NICHT). Dort werden 32 Anekdoten diesbezueglich erzaehlt. Ich gebe ein paar Beispiele.

Die Entwicklung starrer, langer Kørper welche sich durch Rad schlagen fortbewegen (durch Impulserhaltung) anstatt der Entwicklung von Schlaengelbewegungen. Was im Uebrigen auch die Evolution getan hat.

Algorithmen mit „falschen Funktionen“ welche durch die Tests kamen, weil besagte Algorithmen „tot spielten“ waehrend des Tests. Tot spielen ist in dem Falle, dass besagte Funktionen zufaellig aktiviert wurden und manchmal eben nicht waehrend des Tests und somit wurde der „defekte Algorithmus“ dann als vøllig OK betrachtet.

Ein anderes Beispiel (nicht aus dem Artikel) ist der Algorithmus der Tetris dadurch nicht verliert, indem das Spiel kurz vor dem Game Over (fuer immer) pausiert wird.

Dann war da auch der unbrauchbare Greifarm, der durch einen Trick dennoch benutzt werden kann.
Und dies faellt dann auch schon gar nicht mehr in die Kategorie „Schummeln“, sondern wuerde bei Menschen direkt mit dem (diesmal sogar ausgesprochenen) Lob „das war eine gute Idee“ bedacht.

Ein anderes Beispiel waere auf den „Ellbogen“ laufen. Kønnte man jetzt sagen: „na so eine dumme Idee“. Bis man drauf kommt, dass ja die „Fuesze“ durch irgendwelche Umstaende mglw. unbrauchbar sind. Und wenn ein Algorithmus dann von selbst drauf kommt, ohne dass ein Mensch bei der Programmierung dran gedacht hat, dann ist das meiner Meinung nach schon eine ziemlich kreative Leistung.

Worauf ich hinaus will ist das Folgende: wenn etwas wie ein Stueck Kuchen aussieht, sich wie ein Stueck Kuchen anfuehlt und wie ein Stueck Kuchen schmeckt, dann ist es vermutlich ein Stueck Kuchen.
Nur weil bei Computern und Robotern noch nicht alles in jeder denkbaren Situation zusammenspielt, wie bei uns biologischen Algorithmen und Maschinen nach Milliarden, zumindest hunderten von Millionen von Jahren evolutionaerer Optimierung, bedeutet das nicht, dass die das niemals kønnen werden.

Posted by Tentacel on 2021-09-29 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – Geburtstagsbeitragseinschub – Der Soldat John Ryan

Geburtstagsbeitrag! Und wie so oft zu dieser Gelegenheit lasse ich mich lang ind breit ueber ein Thema aus, was mich im Detail beschaeftigt(e), aber mglw. nicht so richtig interessant ist fuer den Rest der Menschheit.

Beim letzten Mal in dieser Reihe schrieb ich:

Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. […]

Und darum soll es heute gehen.

Wenn man sich die Popularitaet besagter 13 Vornamen anschaut, die seit 1880 am haeufigsten in den USA vergeben wurden, erhaelt man das linke Diagramm in diesem Bild:

Hier sieht man auch, warum ich erstmal annahm, dass Moden zwar kommen und gehen, dies aber ueber laengere Zeitraeume keinen groszen Unterscheid machen sollte. Sicher, Anfang des 20. Jahrhunderts waren „John“ und „Robert“ viel beliebter als „Michael“ oder „Christopher“ aber die Høhe der einzelnen Kurven aendert sich jetzt nicht so stark … auszer so ab ca. 2000 … mhmmm … das machte mich etwas stutzig und ich schaute mir mal die kumulative Wahrscheinlichkeit fuer diese 13 meistvergebenen Namen an (Diagramm auf der rechten Seite).
Dort scheint die Aussauge „da aendert sich nicht viel“ bis ungefaehr 1980 zu stimmen. Innerhalb gewisser Variation erhalten 15 % der Neugeborenen einen der dreizehn meistvergebenen Namen. Aber mit dem Beginn meiner Generation aenderte sich das … drastisch! … Das letzte Adjektiv ist durchaus angebracht, wenn man mal betrachtet wie stark die aufsummierte Wahrscheinlichkeit fuer die dreizehn (vormals) meistvergebenen Namen herunter geht.

Das ist dan auch der Grund, warum ich schrieb, dass gesellschaftliche Entwicklungen (traditionelle) Namen dann doch verdraengen. Die gesellschaftliche Entwicklung hier kønnte sein, dass die Jugendlichen welche von den sogenannten 69’ern gepraegt wurden. Damit meine ich weniger die Studenten welche „mittendrin“ waren, sondern die (oft deutlich) juengeren, sympathisierenden Jugendlichen, die noch zur Schule gingen. Ab Mitte der 70’er Jahre fingen diese an Kinder zu haben. Besagte Zeit hat das Vertrauen in und das Gehorchen von (traditionellen) Autoritaeten nachhaltig geschwaecht. Es ist nicht all zu weit hergeholt, dass sich das auch in der Namensgebung ausgedrueckt hat, denn die (damals) „frischen“ Eltern fuehlten sich nicht mehr so stark daran gebunden, den Sohn nach dem Opa zu benennen.

ABER: man kønnte durchaus argumentieren, dass die Entwicklung schon ab ca. dem den 50’er Jahren (schwer zu verorten ob Anfang, Mitte oder Ende) losging, wenn auch zunaechst zøgerlich. Dies kommt ziemlich genau zusammen mit der Etablierung des Individualismus (insbesondere in den USA), als „Gegenstueck“ zum sog. Kommunismus, im kalten Krieg. Im oberen Diagramm macht sich das nicht so bemerkbar innerhalb der (natuerlichen) Variation vor ca. 1980. Es ist aber deutlicher zu erkennen, wenn man sich anschaut, wie vieler Vornamen es bedurfte um 50 % der neugeborenen Kinder eines Jahres zu benennen:

Das ist zwar keine gerade Linie, aber dennoch bis ca. den 50’er Jahren eine ziemlich flache Kurve. Es brauchte nur ca. 75 Namen (plusminus ein paar) um besagte 50 % aller Kinder zu benennen. Ab den 50’er Jahren steigt die Kurve kontinuierlich und ab den 60’er Jahren uebersteigt es die vorherigen, etliche Jahrzehnte vorherrschenden (kleinen) Schwankungen. Mit dem Start der 80’er Jahre „geht dann die Post ab“.

Ach so, beim ersten Bild ist nur ein Frauenname dabei (der 14 Name waere auch ein Frauenname gewesen, aber mir gingen die Farben aus). Ich vermute, dass dies zwei Hauptursachen hat. Zum Einen denke ich, dass Maenner lange Zeit etablierte (darob eines besseren Wortes) Namen bekommen haben um eine „Familientradition“ beizubehalten oder einen Vater zu „ehren“ oder sowas. Kennt man ja aus Film und Fernsehen, mit den vielen Juniors. Von Frauen kenne ich das eigentlich gar nicht. Das Anhaengsel „Junior“ scheint es nur fuer Maenner zu geben. Dies fuehrt natuerlich zu mehr Vielfalt bei den Frauennamen und somit insgesamt weniger Frauen die den gleichen Namen haben (Ausnahme: „Mary“).
Zum Zweiten ist das mglw. auch ein Defizit in den Daten, denn ich habe insgesamt weniger Frauen in den Daten, es wurden also weniger Maedchengeburten gemeldet. Das wundert mich ueberhaupt nicht, denn Hausgeburten waren noch sehr sehr lange der Standard:

In the United States […] around 1900, when close to 100% of births were at home. Rates of home births fell to 50% in 1938 […].

Es gab also keine automatische Datenaufnahme. Und hier spielt dann der bereits beim letzten Mal erwaehnte historische Sexismus rein. Die Geburt eines Jungen wurde auch bei einer Hausgeburt gemeldet, denn dieser sollte ja mal der Erbe werden und das musste rechtlich abgesichert sein.

Fuer das urspruengliche Problem (Laenge der Wikipediatitel) spielt das aber aus zwei Gruenden keine Rolle. Zum Ersten ist die Verteilung der Laenge der Frauen und Maennernamen so gleich, dass man (beinahe) deckungsgleich sagen kønnte. Zum Zweiten ist die Meldung von der Geburt eines Maedchsen dann trotzdem immer noch ein gleichverteilter Prozess. Das bedeutet, dass die Wahrscheinlichkeit fuer die Meldung eines bestimmten Maedchennamens gleich bleibt, auch wenn die totale Anzahl gemeldeter Maedchengeburten geringer ist.

Ach so … der Titel dieses Beitrags wird ersichtlich, wenn man bedenkt, dass ca. 20- bis 30-jaehrige uns im 2. Weltkrieg von den Nazis befreiten. 20 bis 30 Jahre vorher war aber „John“ beliebter als „James“. Das kehrte sich erst ab den 30’er Jahren um. Der Unterschied war nun aber auch nicht so grosz … deswegen ist der Titel des Film zu 85 % richtig … tihihihi.
Es passt dann aber, dass James Dean als _DER_ Filmstar der 50’er bis heute bekannt ist.

Nun wollte ich aber wissen ob diese Veraenderungen einen bleibenden Effekt haben und wie stark dieser ist.

Bei meinen urspruenglichen Betrachtungen, bzgl. der Verteilung der Laenge der Wikipediaartikel und wie das Maximum erklaert werden kønnte, habe ich alle Vornamen, und wie oft diese in den letzten 140 Jahren vergeben wurden, aus allen Jahren zusammengezaehlt und die Waehrscheinlichkeit fuer meinen Namensgenerator nach diesen „totalen Zahlen“ berechnet. Ich erstellte 1 Million Frauen- und 1 Million Maennernamen und das (normalverteilte) Resultat ist im verlinkten Beitrag zu finden.
Nun kam oben aber heraus, dass sich die beliebtesten Namen eben doch aendern und ich wollte wissen, ob das einen deutlichen Einfluss auf die Verteilung der Laenge der Namen hat. Deswegen modifizierte ich den Namensgenerator derart, sodass fuer jedes Jahr jeweils 100-tausend Maenner- und Frauennamen erstellt wurden (mit den sich jaehrlich aendernden Wahrscheinlichkeiten). In den Resultaten sah ich einen Trend und dachte mir, dass das schon stimmen kønnte. Weil der Effekt aber relativ klein war, wollte ich nicht ausschlieszen, dass es sich mglw. doch um ein Artefakt handelt und nicht echt ist. Deswegen liesz ich meinen Laptop nochmal 15 Stunden oder so rødeln und erstellte pro Jahr jeweils 300-tausend Frauen- und Maennernamen. Die Statistik wurde dadurch viel besser … und die erwaehnten Resultate wurden reproduziert. Im Folgenden zeige ich die Resultate des 600-tausend Namen pro Jahr Laufes.

Die 140 Verteilungen bzgl. der Laenge der Namen sehen so aus:

Uffda! Das ist viel auf einmal und muss der Reihe nach betrachtet werden.
Erstens „verschmieren“ sich die Punkte sehr. Das war zu erwarten und faellt in der Physik immer erstmal unter das beruehmte „Rauschen“. Die Frage war nun, ob das Rauschen ein Signal enthaelt? Bspw. liegt die kleinste Anzahl der Namen mit 10 Buchstaben liegt im Jahre 2015 und die grøszte Anzahl im Jahre 1891. Bei den Namen mit 15 Buchstaben hingegen dreht sich das um (høhere Anzahl zu spaeteren Jahren).
Gibt es mglw. ueber die Jahre einen Trend hin zu laengeren Namen? Das waere dann ja genau das was ich wissen will. Weil nur zwei Buchstabenlaengen nicht ausschlaggebend sind, schaute ich mir deswegen die aufsummierte Anzahl alle Namen mit Buchstabenlaengen links bzw. rechts des Maximums an.
Und hier kommt dann die zweite Beobachtung dazu. Jede individuelle Verteilung laeszt sich mit einer Normalverteilung beschreiben. Das ist gut, denn wenn es tatsaechlich eine „Umverteilung“ hin zu laengeren Namen gibt, dann sollte sich die Position des Maximums der jaehrlichen Gaussverteilung zu grøszeren Werten verschieben. Und diese beiden Resultate sind hier zu sehen:

Zwischen der letzten Dekade des 19. Jahrhunderst bis ca. zu den 40’er Jahren des 20. Jahrhunderts wurden kuerzere Namen (schwarze Punkte) unbeliebter. Dies ging einher mit erhøhter Popularitaet laengerer Namen (rote Quadrate). Beide Kurven scheinen aber nur auf den ersten Blick symmetrisch. Wenn man genauer hinschaut sieht man, dass die Popularietat laengerer Namen im besagten Zeitraum linear ansteigt und der Anstieg ziemlich kontant ist. Der Rueckgang der Popularitaet kuerzerer Namen hingegen verlaeuft in zwei Phasen. Zunaechst „zøgerlich “ bis ca. 1912 um danach umso staerker vonstatten zu gehen.

In den schwarzen Kurven betrachte ich aber nur die Daten links und rechts vom Maximum (Namen mit 12 und 13 Buchstaben). Die Beobachtung liesze sich erklaeren, wenn sich die Zunahme der laengeren Namen zunaechst aus besagtem Maximum „speist“. Dass Namen also nicht einheitlich bspw. einen Buchstaben laenger wurden, sondern die ersten 20 Jahre Namen der Laenge 12 (oder 13) staerker durch laengere Namen „ersetzt“ wurden als Namen mit weniger Buchstaben. Wie oben erwaehnt verschieben beide Prozesse die Position des Maximums. Ein „Schaufeln der Daten“ vom Maximum nach rechts sollte aber eine langsamere Aenderung zur Folge haben, denn der Anteil links vom Maximum ist ja „noch da“ und muss bei der Anpassung mit einer Normalverteilung beruecksichtigt werden.
Und das ist dann auch genau was ich in der blauen Kurve sehe. Die Position des Maximums der jaehrlichen Gausskurve verschiebt sich nach rechts, aber bis ca. 1912 ist die Aenderung dieser Aenderung langsamer als danach (bis ca. 1930, wenn dieser Prozess sich allgemein deutlich verlangsamt).
Dies macht sich natuerlich auch in der Amplitude (schwarze Punkte) und Breite (rote Quadrate) der jaehrlichen Gausskurven bemerkbar:

Bis ca. 1912 nimmt die Breite der Gausskurve zu und die Amplitude derselben ab. Genau so wie es nach der obigen Erklaerung sein sollte. Danach „erholt“ sich die Amplitude und die jaehrliche Gausskurve wird wieder schmaler. Letztere Beobachtungen bedeuten, dass es ab ca. 1912 NICHT zu einer gemeinsamen Verschiebung-um-einen-Buchstaben der gesamten Verteilung (oder zumindest des „kurzen“ Teils) kommt. Vielmehr ist es so, dass die Umverteilung vom Maximum (stark?) nachlaeszt und besagtes Maximum ab dann wieder (von links) aufgefuellt wird. Die „primaere Quelle“ des Umverteilungsprozesses „tauscht“ sozusagen den Platz mit der vormals „sekundaeren Quelle“ (und zwangslaeufig vice versa).

Interessant ist, dass die Amplitude auch nach 1940 weiter waechst, waehrend die Breite der Kurve weiter abnimmt. Es kommt also bis ca. 1960 zu einer teilweisen „Rueckbesinnung“. Laengere Namen werden zugunsten von Namen der Laenge 12 (oder 13) „aufgegeben“. Dies gilt auch (aber nicht so stark) fuer noch kuerzere Namen, wie man im Diagramm mit der aufsummierten Anzahl sieht.
Ab ca. den 70’er Jahren nimmt die Popularitaet laengere Namen weiter zu, aber laengst nicht so stark wie Anfang des 20. Jahrhunderts und ab ca. 2000 hat sich der Prozess stabilisiert.

Das hier sind zwar eher subtile Veraenderungen aber diese sind robust. Zwei Sachen (welche mir vermutlich fuer immer verborgen bleiben werde) wuerde ich gerne wissen.
1.: Fand das auch im echten Leben statt (denn die Namen hier sind ja nur simuliert)? Und als Modifikation: wie sieht das in anderen, vergleichbaren, westlichen Laendern aus?
2.: Was sind die Gruende fuer die Veraenderungen? Die Trends sind definitiv keine kurzfristigen Moden. Das zieht sich teilweise ueber Generationen hin. Aber ich spekulierte da bereits oben.

Damit sind diese Nebenbetrachtungen abgeschlossen. Beim naechsten Mal dann endlich wieder mehr zu den eigentlichen Wikipediadaten (denn das ist ja noch lange nicht abgeschlossen).

Apropos, die hier gesehenen Veraenderungen sind zwar robust, aber so gering, dass sich das in den Wikipediatiteln wenn ueberhaupt nur sehr wenig bemerkbar machen sollte. Dies vor allem deswegen, weil bereits das Vorhandensein von Doppelnamen (oder Berufsbezeichnungen) deutlich staerkere Auswirkungen haben sollten. Sowohl von der Menge (weil das 100-tausende sind) als auch vom Effekt (weil die „Verlaengerung“ eines Namens durch diese zwei Prozesse mehr als 10 mal grøszer ist als die oben beobachtete Verschiebung um 0.4 Buchstaben ueber 130 Jahre.

Aber das soll nun genug sein … ein wuerdiger Geburtstagsbeitrag in meinen Augen :)

Posted by Tentacel on 2021-09-22 at 08:15 under Allgemein.
Comment on this post.

Kevin Bacon – VIII – Titelspielereien (e) – Eitelkeit 2

Beim letzten Mal fuehrten Daten zur Verwunderung. Verwunderung fuehrte zu einem Beduerfnis die Daten zu erklaeren. Dieses Beduerfnis fuehrte zu Ueberlegungen wie die Daten erklaert werden kønnten und weiteren Ueberlegungen unter welchen Annahmen ich erste Ueberlegungen ueberhaupt treffe … zumindest soweit ich es verstanden habe ist das Wissenschaft im Sinne Thomas Kuhns … Und dann habe ich das getestet und die falsche Hypothese (die typische Wortlaenge der englischen Sprache als Ursache der Beobachtungen) verworfen … Wissenschaft im Sinne Karl Poppers … æhm … ich sage es lieber nochmal: soweit ich das verstanden habe … einraeumend, dass ich das mglw. ueberhaupt nicht verstanden habe, weil ich die Theorien des Paradigmenwechsels und des systematischen Fortschritts als sich ergaenzend ansehe und nicht als „Widersacher“ … aber ich schweife ab, denn eigentlich wollte ich sagen: Science to the Rescue!

Die Breite der Gausskurven im Diagramm des vorigen Beitrags stimmen allerdings nicht ueberein (sind aber auch nicht himmelweit voneinander verschieden). Das liegt mglw. daran dass bei den realen Wikipediaseiten in diesem Laengenbereich ein signifikanter Ueberlapp mit anderen Themen herrscht.

Mich verwunderte nun das Folgende. Ich habe 2 Millionen Namen generiert. Dies geschah mehr oder weniger zufsaellig, ich wollte einfach nur eine aussagekraeftige Statistik haben. Wie man im Graphen sieht, ist die Amplitude der simulierten Daten (fast) genau so hoch wie die Amplitude der realen Daten (die roten Balken) … Was ist das denn fuer ein komischer Zufall? Bzw. wie viele Personenseiten gibt es denn ueberhaupt in der Wikipedia?
Also musste ich wieder rein in den Wikipediahasenbau um eine Antwort auf diese Frage zu finden … … … Ich fand einen Artikel, wo mal jemand 1001 zufaellige Artikel kategorisierte und diese informative Darstellung der Ergebnisse erstellte bzgl. der Anzahl der Artikel zu verschiedenen Themen in der Wikipedia …

Quelle, Autor: Mliu92, Lizenz: CC BY-SA 4.0, meinen Beduerfnissen angepasst

Fast 28 % aller Wikipediaseiten betreffen ganz direkt Leute … wie so oft, ist die Menschheit auch auf der Wikipedia mit einer Nabelschau beschaeftigt und redet am meisten ueber sich selbst.
Es wird vermutet, dass die Faehigkeit zur Selbstreferenz ein wichtiger Bestandteil von Bewusstsein (und Intelligenz) ist … aber so ist das bestimmt nicht gemeint … *seufz*.

Diese 28 % entsprechen beinahe 1.7 Millionen Seiten … was nahe dran ist an den oben erwaehnten 2 Millionen Fantasienamen und meiner Verwunderung somit eine Erklaerung entgegenstellt.

Wie bereits frueher erwaehnt, gibt es auf Wikipedia total viel interne Seiten. Da ich nun schonmal dabei war, versuchte ich eine Seite zu finden, die alle Personenseiten auflistet. Nach laengerer Suche fand ich eine solche … aber nur fuer lebende Menschen. Das sind aber nicht ganz eine Million. Und somit fragte ich mich: wo sind denn die ganzen Toten hin? … Nun ja, diese sind verstreut auf vielen anderen internen Seiten. Leider sind das Seiten wie diese hier oder jene dort, wo den dort eingetragenen Elementen die eine oder andere Information fehlt. Als letztes versuchte ich es dann mit den Tagen des Jahres (ein Beispiel) wo dann auch immer die an dem Tag Verstrobenen aufgefuehrt sind.

Zum Glueck hatte ich mir ja neulich schon einen Datenmaehdrescher gebaut und musste den fuer die neue Aufgabe nur ein bisschen modifizieren. Trotz all der Anstrengungen fand ich aber nur ein bisschen mehr als 100-tausend Seiten von Toten Leuten (eben nur die, die auch auf den entsprechenden Seiten gelistet sind).
In der oben erwaehnten Untersuchung von 1001 zufaelligen Wikipediaseiten betrug das Verhaeltnis der Seiten zu lebenden bzw. toten Personen 5 zu 3. Ich muesste also ca. 600-tausend Seiten zu toten Menschen haben. Diese Diskrepanz habe ich nicht geschafft auszuraeumen. Auch nach laengerer Suche fand ich einfach keine Uebersichtsseite wie fuer die lebenden Leute.

Naja … aber weil ich nun schonmal Daten dazu geerntet habe konnte ich mir mal angucken wie die Verteilung der Laenge dieser ganz konkreten Personennamentitel in echt aussieht. Und hier ist das Ergebnis (weisze Ovale sind die neuen Daten):

Aha … das Maximum stimmt mit allen anderen Maxima ueberein. Das bestaetigt meine Vermutung, dass Personennamen beim Hauptprozess eine wichtige Rolle spielen.

Die Amplitude dieser neuen Daten ist aber signifikant kleiner als selbst die Amplitude der gruenen Gausskurve. Das liegt zum Teil daran, dass die ca. 1/2 Million Seiten von toten Personen fehlen. Ein anderer Grund ist, dass die Verteilung der echten Namen zwei flache „Buckel“ bei grøszeren Laengen hat. Nur der Erste, bei einem Wert von ca. 23 Buchstaben im Namen, ist zu sehen, denn der Andere liegt so weit rechts, dass ich den abgeschnitten habe. Das macht nix, weil der ohnehin sehr klein und nicht wirklich signifikant ist. Das heiszt aber, dass die Titel von Wikipediapersonenseiten sich ein bisschen mehr auf laengere Namen verteilt als die von mir generierten Fantasienamen.
Dies kønnte durch Doppelnamen erklaert werden (auch wenn diese nur durch den ersten Buchstaben und einen Punkt abgekuerzt sind). Das betrifft mehr als 190-tausend Namen.
Desweiteren beinhalten die Titel von Wikipediapersonenseiten oft eine weitere Bemerkung. Als Beispiel møge wieder „Donald Fraser (geologist)“ dienen. Das sind zwei zusaetzliche Klammern, ein extra Leerzeichen und (in diesem Fall) neun Buchstaben der Berufsbezeichnung. Letzteres fuehlt sich „typisch“ an. 13 (das Maximum der Fantasienamen) + 10/11/12 und zack ist man mittendrin im Buckel. Ich fand mehr als 125-tausend Titel von Wikiepediapersonenseiten auf die das zutrifft.
Vom Gefuehl her wuerde ich sagen, dass diese beiden Zahlen durchaus grosz genug sind, um die „Verbreiterung“ zu laengeren Namen hin zu erzeugen.

Ebenso wird durch die Verbreiterung die Amplitude kleiner. Wenn man die 600-tausend Titel die mir fehlen in Betracht zieht und die ca. 190-tausend + 125-tausend Namen die im „“Schwanz“ der Verteilung sitzen, dann sollte man recht nahe an die Amplitude der gruenen Gausskurve herankommen.

Den laengsten Titel einer Wikipediapersonenseite hat mit 84 Buchstaben uebrigens diese Seite hier … SCHUMMLER!

Genug davon! Ich denke ich habe eine hinreichende Erklaerung fuer das Maximum der Verteilung der Laenge der Wikipediatitel gefunden. Das freut mich sehr. Die anderen zwei Prozesse die „das Signal erzeugen“ bleiben mysteriøs. Schade eigentlich, aber ich habe echt keine Idee, was das sein kønnte und da ich eigentlich am Linknetzwerk arbeiten wollte habe ich auch keinen Nerv noch mehr dazu zu machen.

Ach uebrigens bestaetigt der Stichprobe der 1001 Wikipediaseiten das was ich eingangs zu im vorigen Artikel Annahme II sage … *seufz*.

Posted by Tentacel on 2021-09-13 at 13:37 under Allgemein.
Comment on this post.

Schnullibulli noch einmal

Ihr, meine lieben Leserinnen und Leser, erinnert euch mglw. an diesen Schnullibulli von vor ueber 10 Jahren.

Nun ja … da kam vor einer Weile noch Schnullibulli Teil 2 dazu:

Mit ’nem Dr. rer. nat. und nem Dr. ing. (auch wenn Letzterer nicht direkt spezifiziert ist im Englischen) ist’s nun aber wirklich genug mit dem ganzen Quatsch!

Posted by Tentacel on 2021-09-11 at 13:37 under Allgemein.
Comment on this post.