{"id":10857,"date":"2021-08-23T13:37:59","date_gmt":"2021-08-23T11:37:59","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10857"},"modified":"2021-03-26T17:44:44","modified_gmt":"2021-03-26T15:44:44","slug":"kevin-bacon-viii-titelspielereien-d-ye-olde-english","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/08\/kevin-bacon-viii-titelspielereien-d-ye-olde-english\/","title":{"rendered":"Kevin Bacon &#8211; VIII &#8211; Titelspielereien (d) &#8211; Ye Olde English"},"content":{"rendered":"<p>Ich hatte zwei Ideen bzgl. der drei <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=10844\" target=\"_blank\" rel=\"noopener\">Gaussverteilungen welche die Verteilung der Laenge der Wikipediatitel beschreiben<\/a>. Heute geht es um eine er beiden Ideen: die Verteilung der Laenge der W\u00f8rter der englischen Sprache.<\/p>\n<p>Dafuer brauchte ich aber den englischen Duden, das Merriam-Webster Dictionary. Dieses Buch ist gemeinfrei und <a href=\"https:\/\/www.gutenberg.org\/ebooks\/29765\" target=\"_blank\" rel=\"noopener\">bei Project Gutenberg erhaeltlich<\/a>. Allerdings sind da auch die Definitionen der W\u00f8rter mit dabei; die brauche ich aber nicht. Ja, die mit zu betrachten waere sogar schaedlich, denn bestimmte W\u00f8rter kommen viel \u00f8fter in Texten vor als andere W\u00f8rter. Das wuerde die Verteilung kaputt machen, da die Laenge dieser W\u00f8rter viel zu oft gezaehlt werden wuerde. In anderen Zusammenhaengen ist das bestimmt von Interesse. Bspw. wenn man die durchschnittliche Anzahl der Buchstaben in einem Buch abschaetzen will. Oder wenn man wissen will, welche W\u00f8rter besonders oft gebraucht werden. Aber nicht bei der Problemstellung die hier betrachtet wird.<\/p>\n<p>Zum Glueck hat sich jemand anders <a href=\"https:\/\/www.scrapmaker.com\/view\/dictionaries\/webster-dictionary.txt\" target=\"_blank\" rel=\"noopener\">bereits die Muehe gemacht<\/a> und die W\u00f8rter von den Definitonen getrennt. Diese Datei nahm ich mir her und schaute mir mal die Verteilung der Laenge der W\u00f8rter der englischen Sprache im Vergleich zur Laenge der Wikipediatitel an:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/03_Wortlaenge_MerriamWebster__.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-10862 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/03_Wortlaenge_MerriamWebster__.png\" alt=\"\" width=\"590\" height=\"458\" \/><\/a><\/p>\n<p>Bekannt vom letzten Mal sind die roten Balken (Verteilung der Laenge der Wikipediatitel, diesmal nur bis 30 Buchstaben), die gelbe Kurve (dies ist die erste, der drei oben erwaehnten, Gausskurven) und die blaue Kurve (die Summe besagter drei Gausskurven). Neu sind die schwarzen Punkte, welche die Verteilung der Laenge der W\u00f8rter im Merriam-Webster Dictionary darstellen und die gelbe Kurve.<\/p>\n<p>Bevor ich zum Offensichtlichen komme ist zu sagen, dass die Verteilung der Laenge der W\u00f8rter der englischen Sprache tatsaechlich mit einer Normalverteilung zu beschreiben ist. Das dem so ist war meine Vermutung, denn ansonsten haette ich die Betrachtungen hier gar nicht ausfuehren muessen. Aber nach der Ueberraschung mit der &#8222;unnormalen&#8220; Verteilung der Laenge der Wikipediatitel war ich mir gar nicht so sicher ob diese Vermutung ueberhaupt stimmt.<\/p>\n<p>Das Offensichtliche ist nun, dass die englische Sprache viel zu wenige W\u00f8rter enthaelt um die roten Balken auch nur unter der gruenen Kurve zu fuellen. In dem oben verlinkten W\u00f8rterbuch befinden sich etwas mehr als 300-tausend W\u00f8rter. Weniger als in jedem einzelnen der vier laengsten Balken sind. Neuere Editionen umfassen ca. 470-tausend W\u00f8rter. Aber selbst wenn wir das auf 600.000 erweitern, wuerde das nicht ausreichen.<\/p>\n<p>Nicht ganz so offensichtlich, aber beim zweiten Blick sieht man&#8217;s \u2026 naja \u2026 das war ehrlich gesagt das Erste, was mir aufgefallen ist \u2026 was wollte ich jetzt eigentlich sagen \u2026 ach ja: das Maximum der Verteilung der Laenge der W\u00f8rter in Merriam Webster liegt bei 10 Buchstaben. Das Maximum der gruenen Kurve liegt aber bei 13 Buchstaben. Das ist jetzt zwar kein himmelweiter Unterschied, aber dennoch deutlich. So deutlich, dass ich das nicht in irgendeinen &#8222;Fehler&#8220; wuerde schieben wollen.<\/p>\n<p>Lange Rede kurzer Sinn, die Laenge der W\u00f8rter der englischen Sprache an sich ist NICHT verantwortlich fuer den Verlauf der Verteilung der Laenge der Wikipediatitel. Das spielt sicherlich eine Rolle, aber die ist nicht ausschlaggebend im Groszen und Ganzen.<\/p>\n<p>Bei anderen Wikipedias mag das anders sein. Ich habe aus Interesse mal die W\u00f8rter der dtsch. Sprache untersucht. Ganz den Vorurteilen entsprechend scheint die dtsch. Sprache\u00a0 eher laengeren W\u00f8rtern zugeneigt zu sein. Bei kurzen W\u00f8rtern gibt es keinen signifikanten Unterschied zwischen dtsch. und englisch im Verlauf der Verteilungen. Aber rechts vom Maximum (also zu laengeren W\u00f8rtern hin) hat die dtsch. Sprache (rote Punkte im unteren Bild) definitiv einen Ueberschuss verglichen mit Englisch (schwarze Punkte im unteren Bild).<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/04_english_vs_german_.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-10864 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/04_english_vs_german_.png\" alt=\"\" width=\"580\" height=\"449\" \/><\/a><\/p>\n<p>Ich denke, dass dies daran liegt, dass es im dtsch. viel mehr Kompositw\u00f8rter gibt. OK, ich gebe zu, dass dieser Gedanke naheliegend war. Unterstuetzt wird diese Vermutung, dass sich die dtsch. Verteilung NICHT durch nur eine Gaussverteilung beschreiben laeszt, aber perfekt durch zwei. Das sind die\u00a0 beiden orangen Kurven im Bild. Aber ACHTUNG: die h\u00f8here orange Kurve beschreibt NICHT die Verteilung der Laengen der W\u00f8rter im Englischen, sondern ist die erste Gausskurve zur Beschreibung der Verteilung der Laenge der W\u00f8rter in der dtsch. Sprache.<br \/>\nDas Maximum dieser ersten Gausskurve liegt dann bei wie beim englischen bei ca. 10 W\u00f8rtern und die Form aehnelt sehr dem Verlauf der englischen Verteilung. Diese Kurve scheint also die Verteilung normaler &#8222;Einzelw\u00f8rter&#8220; zu sein. Die Amplitude der zweiten Gausskurve ist viel kleiner und Selbige sehr breit, mit einem Maximum bei 17 Buchstaben. Und 10 Buchstaben plus 7 Buchstaben \u2026 das fuehlt sich an, als ob das durchaus so&#8217;n durchschnittliches zusammengesetztes Wort charakterisiert.<br \/>\nAch so, ich habe die Funktionswerte normiert, damit ich die Verteilungen besser vergleichen konnte. Aber das steht ja auch an der Ordinate.<br \/>\nNochmal ach so: die Verteilung der Laenge der W\u00f8rter der dtsch. Sprache ist nur &#8217;ne (zugegeben gar nicht so schlechte) Abschaetzung, denn ich habe nur eine Quelle mit einem relativ limitierten Wortschatz (ca. 88-tausend) benutzt. Eben das, was ich mal <a href=\"https:\/\/www.j3e.de\/ispell\/igerman98\/\" target=\"_blank\" rel=\"noopener\">schnell im Internet, ohne lange Suche, gefunden hatte<\/a>.<\/p>\n<p>Wieauchimmer \u2026 schade eigentlich, dass die Laenge der W\u00f8rter der englischen Sprache NICHT die Laenge der Titel der Wikipedia erklaeren. Denn damit habe ich nur noch eine Idee, Namen von Personen, zur Erklaerung der Form der Verteilung \u2026 dazu mehr beim naechsten Mal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ich hatte zwei Ideen bzgl. der drei Gaussverteilungen welche die Verteilung der Laenge der Wikipediatitel beschreiben. Heute geht es um eine er beiden Ideen: die Verteilung der Laenge der W\u00f8rter der englischen Sprache. Dafuer brauchte ich aber den englischen Duden, das Merriam-Webster Dictionary. Dieses Buch ist gemeinfrei und bei Project Gutenberg erhaeltlich. Allerdings sind da [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10857"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=10857"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10857\/revisions"}],"predecessor-version":[{"id":10973,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/10857\/revisions\/10973"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=10857"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=10857"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=10857"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}