{"id":4673,"date":"2015-03-08T01:13:56","date_gmt":"2015-03-07T23:13:56","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=4673"},"modified":"2015-02-08T23:10:06","modified_gmt":"2015-02-08T21:10:06","slug":"die-fibonaccifolge-die-ersten-daten","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2015\/03\/die-fibonaccifolge-die-ersten-daten\/","title":{"rendered":"Die Fibonaccifolge &#8211; Die ersten Daten"},"content":{"rendered":"<p>Nun rechnete und rechnete mein kleiner braver Laptop 15 Stunden ohne Unterbrechung und heraus kamen viele Zahlen.<\/p>\n<p>Es werden nur noch die Daten fuer vierstellige Zeichenfolgen betrachtet.<br \/>\nDrei-, zwei- und einstellige Zeichenfolgen passen in das Modell gut rein, es sieht aber nicht so sch\u00f8n aus. Also vom aesthetischen Anspruch mein ich.<br \/>\nDies, weil sich bei nur 1.000, 100 bzw. 10 Datenpunkten statistische Schwankungen noch deutlich negativ auf das Erscheinungsbild auswirken k\u00f8nnen, selbst wenn diese einer Normalverteilung folgen und mathematisch somit alles in Ordnung ist. Bei 4-stelligen Zeichenketten habe ich aber 10.000 Datenpunkte und die Schwankungen folgen einer sch\u00f8nen Glocke. Aber so weit sind wir ja noch gar nicht.<\/p>\n<p>Wie sieht denn nun so eine Verteilung von 4-stelligen Zeichenketten aus. Im folgenden Bild stelle ich dies beispielhaft dar, fuer Fibonaccifolgenlaengen von 100, 10.000 und 10<sup>10<\/sup> Zeichen.<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2015\/03\/die-fibonaccifolge-die-ersten-daten\/05_verteilung-2\/\" rel=\"attachment wp-att-4674\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-4822 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/05_Verteilung1-800x551.png\" alt=\"\" width=\"800\" height=\"551\" \/><\/a><\/p>\n<p>Hier gezeigt ist die Entwicklung der Haeufigkeiten der Zeichenketten von &#8222;0900&#8220; bis &#8222;1000&#8220;.<\/p>\n<p>Bei einer Fibonaccifolgenlaenge von nur 100 Zeichen, kommen auch nur ca. 100 vierstellige Zeichenketten vor. Also im Durchschnitt kommt jede von den 10.000 vierstelligen Zeichenketten 0.01 mal vor. Dies zeigt die linke obere Verteilung sehr deutlich.<\/p>\n<p>Bei einer Fibonaccifolgenlaenge von 10.000 Zeichen, kommt jede vierstellige Zeichenkette im Schnitt genau ein Mal vor. Dies bestaetigt die rechte obere Verteilung.<br \/>\nHier spielt uns die menschliche Wahrnehmung aber einen Streich. Es scheint, als ob Haeufigkeiten von 2, 3 und gar 4, mal deutlich die Zahl der &#8222;Nullvorkommen&#8220; ueberwiegen. Dem ist aber nicht so. Manuelles Nachzaehlen ergab, dass alle Haeufigkeiten die ueber eins liegen, die &#8222;Leerstellen&#8220; ziemlich genau &#8222;auffuellen&#8220;, so dass im Durchschnitt eine Haeufigkeit von eins heraus kommt. So wie erwartet.<\/p>\n<p>Bei einer Fibonaccifolgenlaenge von 10<sup>10<\/sup> Zeichen ist die Erwartung, dass jede vierstellige Zeichenkette durchschnittlich eine Million mal auftritt. Dies sieht man in der linken unteren Verteilung bestaetigt. Im Balkendiagramm von 0 bis 1.000.000 gehen die Feinheiten aber unter. Deswegen ist unten rechts der Bereich der Verteilung um den Wert &#8222;1.000.000&#8220; aufgespreizt zu sehen.<\/p>\n<p>Und hier beginnt es interessant zu werden.<\/p>\n<p>Dieses Zappeln um den Mittelwert ist ja das eigentliche Ziel meiner Fragestellung. Ist das normalverteilt?<br \/>\nWie haeufig eine bestimmte Zahlenfolge vorkommt, ist also ueberhaupt nicht von Interesse. Aber wie sich die Haeufigkeit eben dieser Zahlenfolge von den Haeufigkeiten aller anderen Zahlenfolgen unterscheidet, DAS ist das Interessante. \u2026 Das Zappeln um den Mittelwert halt.<\/p>\n<p>Ich k\u00f8nnte hier gleich das Ergebnis praesentieren. Das waere aber langweilig.<br \/>\nZunaechst einmal schauen wir uns das Zappeln und die Entwicklung des Zappelns ein bisschen naeher an.<\/p>\n<p>Zur Analyse ist es unpraktisch, sich die Rohdaten anzuschauen. Da erhaelt man keine wesentlichen Informationen, denn ich habe ja prinzipiell 10.000 verschiedene Haeufigkeiten. Nun ist meine Vermutung aber, dass es deutlich wahrscheinlicher ist, dass das Vorkommen einer Zeichenkette um den Mittelwert liegt, als fern ab davon. Um dies besser zu &#8222;sehen&#8220;, erstellte ich fuer jede Potenz der Fibonaccifolgenlaenge ein <a title=\"wikipedia - Histogramm\" href=\"http:\/\/de.wikipedia.org\/wiki\/Histogramm\" target=\"_blank\">Histogramm<\/a> der Haeufigkeiten vierstelliger Zeichenketten. Bei diesen Histogrammen &#8222;mittelte&#8220; ich derart, dass ich 100, gleich weite Balken hatte. Dieses Histogramm sollte dann natuerlich einer Normalverteilug entsprechen. Dazu aber an anderer Stelle mehr.<\/p>\n<p>Es gibt die folgenden interessanten Gr\u00f8szen:<br \/>\n&#8211; maximales und minimales Vorkommen;<br \/>\n&#8211; die Differenz daraus ergibt die Fehlerspanne;<br \/>\n&#8211; &#8222;DeltaMinus&#8220; und &#8222;DeltaPlus&#8220;, der maximale Betrag der Abweichung vom Vorkommensmittelwert nach unten bzw. nach oben;<br \/>\n&#8211; eine Groesze die ich &#8222;relativer Fehler&#8220; nenne: Quotient aus Fehlerspanne und Mittelwert.<\/p>\n<p>Dies alles natuerlich in Abhaengigkeit von der Laenge der Fibonaccifolge.<\/p>\n<p>Maximales und minimales Vorkommen sind nur in so fern von Interesse weil sich daraus andere Daten ergeben.<\/p>\n<p>&#8222;Delta Minus&#8220; und &#8222;Delta Plus&#8220; haben eigentlich keine Bedeutung. Aber ich wollte gern mal wissen, ob die Abweichung nach oben tendentiell gr\u00f8szer ist, als die nach unten (oder umgekehrt).<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2015\/03\/die-fibonaccifolge-die-ersten-daten\/06_maxmin_deltaplusminus-2\/\" rel=\"attachment wp-att-4680\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-4824 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/06_MaxMin_DeltaPlusMinus1-545x800.png\" alt=\"\" width=\"545\" height=\"800\" \/><\/a><\/p>\n<p>Bis zu einer\u00a0Fibonaccifolgelaenge von 10.000 Stellen war das minimale Vorkommen immer null. Natuerlich gab es Zeichenketten, die ueberhaupt nicht aufgetaucht sind, wenn es nur so wenige potentielle Zeichenketten ueberhaupt gab.<br \/>\nDas maximale\/minimale Vorkommen nimmt, wie zu erwarten war, exponentiell\u00a0 zu, nachdem die Fibonaccifolge eine Mindestlaenge von 10.000 Zeichen ueberrschritten hat.<\/p>\n<p>Der Betrag des maximalen Abstands vom Vorkommensmittelwert nach unten (DeltaMinus, rote Punkte im unteren Grafen) ist zunaechst immer gr\u00f8szer als der Abstand nach oben (DeltaPlus, schwarze Punkte im unteren Grafen). Erst im ganz letzten Messwert kommt es zu einem Umschlag dieses Verhaltens. Erwarten wuerde ich, dass es hierbei keine Praeferenz gibt. So weit scheinen die Daten allerdings Letzteres zu suggerieren. Mehr Daten sind vonn\u00f8ten und ein strenger mathematischer Beweis dieser Behauptung.<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2015\/03\/die-fibonaccifolge-die-ersten-daten\/07_fehlerspanne_relativer-fehler-2\/\" rel=\"attachment wp-att-4681\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-4825 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/07_Fehlerspanne_relativer-Fehler1-530x800.png\" alt=\"\" width=\"530\" height=\"800\" \/><\/a><\/p>\n<p>Die Fehlerspanne nimmt exponentiell zu. Der Abstand zwischen der Zeichenkette die am seltensten vorkommt und derjenigen, die am haeufigsten vorkommt, wird also absolut gesehen immer gr\u00f8szer.<br \/>\nAuch dies ist so zu erwarten gewesen, kann sich das Vorkommen aller Zeichenketten bei laengeren Fibonaccifolgen doch ueber gr\u00f8szere Bereiche &#8222;ausdehnen&#8220;.<\/p>\n<p>Deswegen fuehre ich den &#8222;relativen Fehler&#8220; ein. Auch wenn die Fehlerspanne immer gr\u00f8szer wird, so wuerde ich erwarten, dass diese Fehlerspanne bezogen auf den Mittelwert des Vorkommens aller Zahlen abnehmen sollte. Die Haeufigkeiten sollten sich also relativ gesehen mehr und mehr an den Erwartungswert &#8222;anschmiegen&#8220;.<br \/>\nDiese Vermutung kommt _mir_ total natuerlich vor, weil ich eine Normalverteilung aller Zeichenketten annehme. Wenn ich aber mal so drueber nachdenke, dann beruht diese Annahme nur auf so &#8217;nem &#8222;Bauchgefuehl&#8220;. Und wenn ich so weiter drueber nachdenke, dann werde ich mir unsicher, ob nicht selbst bei einer Normalverteilung der Werte, der relative Fehler immer gr\u00f8szer werden k\u00f8nnte \u2026 wenn also die Fehlerspanne schneller zu nimmt, als der Mittelwert gr\u00f8szer wird \u2026 nein \u2026 mich duenkt, bei einer Normalverteilung kann dem nicht so sein. Aber eine Begruendung muss ich schuldig bleiben. Jedenfalls ist fest zu halten, im Allgemeinen k\u00f8nnte der relative Fehler auch gleich bleiben, oder sogar zu nehmen. Wenn dem aber so waere, dann waere vermutlich die Annahme einer Normalverteilung falsch.<br \/>\nJedenfalls ist in der Abbildung gut zu erkennen, dass meine Vermutung richtig war und im Umkehrschluss mglw. auch die Annahme der Normalverteilung. Dazu aber nicht mehr in diesem Beitrag. Auf dieses wundersch\u00f8ne Ergebniss muesst ihr, meine lieben Leserinnen und Leser, euch bis zum naechsten Mal gedulden.<\/p>\n<p>Zum Abschluss des Beitrages noch das Folgende.<br \/>\nACHTUNG! Die Definition &#8222;_meines_ relativen Fehlers&#8220; hat nichts mit dem <a title=\"wikipedia - Fehlerschranke - relativer Fehler\" href=\"http:\/\/de.wikipedia.org\/wiki\/Fehlerschranke#Relativer_Fehler\" target=\"_blank\">relativen Fehler<\/a> zu tun, wie er vom Studium und aus der Mathematik her bekannt sein sollte. Dieser wird naemlich bspw. fuer einzelne Messwerte angegeben, als (relative) Abweichung vom wahren Wert. Hier habe ich aber ein Ensemble von Messwerten und betrachte die Gesamtheit.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nun rechnete und rechnete mein kleiner braver Laptop 15 Stunden ohne Unterbrechung und heraus kamen viele Zahlen. Es werden nur noch die Daten fuer vierstellige Zeichenfolgen betrachtet. Drei-, zwei- und einstellige Zeichenfolgen passen in das Modell gut rein, es sieht aber nicht so sch\u00f8n aus. Also vom aesthetischen Anspruch mein ich. Dies, weil sich bei [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/4673"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=4673"}],"version-history":[{"count":7,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/4673\/revisions"}],"predecessor-version":[{"id":4826,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/4673\/revisions\/4826"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=4673"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=4673"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=4673"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}