{"id":13918,"date":"2024-07-29T13:37:24","date_gmt":"2024-07-29T11:37:24","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13918"},"modified":"2024-05-21T16:30:19","modified_gmt":"2024-05-21T14:30:19","slug":"kevin-bacon-anhang-a2-reproduzierbarkeit-2-titelspielereien-doch-nochmal-namen-simuliert","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2024\/07\/kevin-bacon-anhang-a2-reproduzierbarkeit-2-titelspielereien-doch-nochmal-namen-simuliert\/","title":{"rendered":"Kevin Bacon \u2013 Anhang A2 \u2013 Reproduzierbarkeit 2: Titelspielereien (doch nochmal Namen simuliert)"},"content":{"rendered":"<p>Als ich mich das erste Mal mit der Verteilung der Laenge der Wikipediaartikeltitel beschaeftigte, simulierte ich sehr viele Namen um etwas genauer zu untersuchen und meinte beim <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=13916\" target=\"_blank\" rel=\"noopener\">letzten Mal<\/a> bzgl. der Simulation:<\/p>\n<blockquote><p>Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten abhaengig und wuerde heute genauso ausfallen.<\/p><\/blockquote>\n<p>Und damit lag ich zwar nicht komplett daneben \u2026 es war aber auch nicht ganz richtig, denn ich kam sehr wohl auf andere Ergebnisse. Dazu weiter unten mehr.<\/p>\n<p>Zunaechst m\u00f8chte ich aber nochmal darauf eingehen, wieviele Vornamen man braucht um 50 Prozent aller Babies einen Namen zu geben (wenn diese nach der Beliebtheit ihrer Vornamen sortiert werden). Das war selbst mir zu periphaer vor drei Jahren und ich hatte das deswegen in den <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/09\/kevin-bacon-viii-geburtstagsbeitragseinschub-der-soldat-john-ryan\/\" target=\"_blank\" rel=\"noopener\">damaligen Geburtstagsbeitrag<\/a> ausgelagert (ich meine das zweite Bild). Dabei hatte ich aber nur Daten betrachtet die &#8222;ueber alle Babies gehen&#8220; (also eine Art &#8222;Summensignal&#8220;).<br \/>\nJetzt beim Neuschreiben der Programme fuegte ich eine Funktion ein, welche mir auch die zwei Teile dieses &#8222;Summensignals&#8220; separat ausspuckt. Oder anders: ich habe jetzt auch nach Maechen und Jungs getrennte Ergebnisse und das sieht so aus:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/168_names_for_50_percent_per_revisited.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13928 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/168_names_for_50_percent_per_revisited.png\" alt=\"\" width=\"702\" height=\"461\" \/><\/a><\/p>\n<p>Das &#8222;Summensignal&#8220; (graue Punkte) ist das Selbe wie beim vor drei Jahren (auszer, dass drei weitere Jahre dazugekommen sind). Ich fand es aber erstaunlich, dass die Variation bei den Maedchennamen immer ca. 1.5 bis fast 3 Mal gr\u00f8szer ist (siehe die blauen Punkte). Maedchennamen machen also den Hauptteil am Summensignal aus und deswegen bringe ich das hier doch nochmal, denn das habe ich ja damals ueberhaupt nicht gesehen.<br \/>\nNun stellt sich natuerlich die Frage warum das so ist, welche ich hier aber nicht beantworten kann (einfach weil ich&#8217;s nicht weisz und nicht wuesste wie ich an entsprechende Daten kommen k\u00f8nnte). Aber zwei potentielle Ursachen fallen mir ein. Zum Einen, k\u00f8nnten Jungs staerker irgendwelchen Namenstraditionen unterliegen als Maedchen; der Uroppa hiesz schon so und deswegen heiszt der Enkel auch so. Zum Anderen k\u00f8nnte es aber auch sein, dass es mglw. mehr Maedchennamen als Jungsnamen gibt; der &#8222;Maedchennamentopf&#8220; ist also &#8222;gr\u00f8szer&#8220;. Das wuerde nicht mal unbedingt mit dem Anstieg ab ca. Mitte der 80er Jahre im Konflikt stehen, denn das Verhaeltniss der Namen bleibt (so ungefaehr) das Gleiche. Besagter Anstieg haengt mglw. mit dem demographische Wandel in den USA zusammen, was zu einem (viel) mehr an Namen fuehrt. Aber dieses &#8222;Mehr an Namen&#8220; verteilt sich (mehr oder weniger) gleichmaeszig ueber Jungs- als auch Maedchennamen.<\/p>\n<p>Das war das Ergebnis das sich nicht aenderte. Im gleichen Geburtstagseintrag zeigte ich aber auch die Parameter der Gausskurven fuer jaehrliche Simulationen \u2026 und die haben sich geaendert. Hier sieht man das fuer die Position des Zentrums \u2026<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/169_yearly_simulated_names_gaussfit_center_revisited.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13930 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/169_yearly_simulated_names_gaussfit_center_revisited.png\" alt=\"\" width=\"611\" height=\"467\" \/><\/a><\/p>\n<p>\u2026 welches im Mittel jetzt sogar noch besser mit dem beim letzten Mal erwaehnten &#8222;Hauptprozess&#8220; uebereinstimmt \u2026 und hier fuer die Amplitude und Standardabweichung besagter jaehrlichen Gaussfits:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/170_yearly_simulated_names_amplitude_and_sigma_revisited.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-13931 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/170_yearly_simulated_names_amplitude_and_sigma_revisited.png\" alt=\"\" width=\"648\" height=\"461\" \/><\/a><\/p>\n<p>Zum Glueck liegen die Ergebnisse nicht nur in der selben Gr\u00f8szenordnung, sondern auch innerhalb des selben (sehr engen) Bereichs. Auszerdem sind die allgemeinen Merkmale (wann die Kurven hoch oder runter gehen bzw. so ungefaehr gleich bleiben) im Wesentlichen auch die Gleichen. Ja es gibt Abweichungen (die ja auch der Grund sind, warum ich das hier doch nochmal bringe) aber weil sich das alles ohnehin in sehr engen (Zahlen)Bereichen befindet sind sowieso nur die gr\u00f8szeren Trends von Interesse und deswegen aendert sich an meinen damaligen Aussagen nix.<\/p>\n<p>Aber es machte mich natuerlich sehr stutzig, dass bei gleichen Ausgangsdaten (zur Erinnerung: fuer diese Simulationen benutzte ich externe Namensdaten und nicht die Wikipedia und an denen hat sich nix geaendert seit 2021) und eigentlich (und auch uneigentlich) gleicher Methode ueberhaupt etwas anderes raus kam.<br \/>\nEs stellte sich heraus, dass der Fehler bei mir lag. Zur Erinnerung: beim zufaelligen &#8222;Ziehen&#8220; von Namen aus dem groszen Namenstopf war die Wahrscheinlichkeit einen bestimmten Namen zu ziehen davon abhaengig wie oft der (im jeweiligen Jahr) an Babies vergeben wurde. Fuer 1880 gab es also viele Marys und Johns im Namenstopf, aber nur sehr wenige Wilmas und Zachariahs.<br \/>\nWie oft ein Name im Topf vorkommt berechnete ich nun so, dass ich die Anzahl der Babies mit einem gewissen Namen durch die Anzahl aller Babies teilte (so weit so gut) und dann mit der Anzahl der Namen die ich insgesamt simulieren wollte multiplizierte (immer noch so weit so gut). Aber weil ich bei meinem selbtgeschriebenen &#8222;Namen-aus-dem-Topf-zieh&#8220;-Algorithmus nur mit ganzen Zahlen arbeiten konnte, hab ich bei dezimalen Wahrscheinlichkeiten einfach alles nach der ganzen Zahl abgeschnitten. Fuer Namen die im Namenstopf oft genug vorkommen macht das keinen groszen Unterschied. 23517.5 ist nicht viel anders als 23517 \u2026 das kann man sogar fuer 10.9 noch argumentieren \u2026 mglw. sogar noch fuer 5.5 oder auch fuer 3.9 (selbst hier ist der Fehler ja nicht mal 25 %).<\/p>\n<p>Aber bei all zu kleinen Zahlen kann das Abschneiden der Dezimalstellen im Groszen und Ganzen zu Problemen fuehren, denn es gibt recht viele Namen die bei meinem &#8222;selbstgestrickten&#8220; Algorithmus nur ein- oder zweimal im Namenstopf waren und deswegen im Extramfall nur halb so oft gezogen wurden, wie sie haetten gezogen werden sollen.<br \/>\nBeim nochmal Neuschreiben des Programms habe ich das nicht nochmal selbst geschrieben, sondern geschaut was in den vielen umfangreichen Mathebibliotheken von Python zu finden ist und ein entsprechendes Modul benutzt. Besagtes Modul macht alles richtig und deswegen sieht es jetzt anders aus, weil die &#8222;Ziehwahrscheinlichkeit&#8220; nun auch fuer sehr selten vorkommende Namen richtig ist.<br \/>\nZum Glueck ist es aber so, dass sehr selten vorkommende Namen nur sehr selten gezogen werden (selbst wenn mein erster Algorithmus die sogar noch seltener gezogen hat) und deswegen sind die ersten Ergebnisse nicht komplett falsch sondern nur im Detail.<\/p>\n<p>So, das soll jetzt dazu reichen und ich verbleibe wie beim letzten Mal:<\/p>\n<blockquote><p>[\u2026] wenn ich das richtig sehe, dann gibt&#8217;s beim naechsten Mal nicht so viel zu schreiben \u2026 aber ich sollte lieber nix versprechen, was ich vermutlich nicht halten kann.<\/p><\/blockquote>\n","protected":false},"excerpt":{"rendered":"<p>Als ich mich das erste Mal mit der Verteilung der Laenge der Wikipediaartikeltitel beschaeftigte, simulierte ich sehr viele Namen um etwas genauer zu untersuchen und meinte beim letzten Mal bzgl. der Simulation: Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13918"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=13918"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13918\/revisions"}],"predecessor-version":[{"id":13929,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/13918\/revisions\/13929"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=13918"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=13918"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=13918"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}