{"id":11832,"date":"2022-07-13T13:37:16","date_gmt":"2022-07-13T11:37:16","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11832"},"modified":"2022-03-06T19:02:09","modified_gmt":"2022-03-06T17:02:09","slug":"kevin-bacon-xxiv-zustandsdichte-d-ausreiszer-rausschmeiszen","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/07\/kevin-bacon-xxiv-zustandsdichte-d-ausreiszer-rausschmeiszen\/","title":{"rendered":"Kevin Bacon \u2013 XXIV \u2013 Zustandsdichte (D) &#8211; Ausreiszer rausschmeiszen"},"content":{"rendered":"<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11816\" target=\"_blank\" rel=\"noopener\">Die beim vorletzten Mal<\/a> eingefuehrte Analogie, in der Wikipediaseiten angesehen werden wie Partikel eines idealen Gases, welche bei bestimmten &#8222;Temperaturen&#8220; (Linklevel) bestimmte Zustaende (Anzahl der totalen Links) einnehmen k\u00f8nnen, hilft mir beim naechsten Mal zwei Phasenuebergaenge dingfest zu machen.<br \/>\nAber weil&#8217;s so wichtig ist, m\u00f8chte ich heute darueber sprechen, dass ich die Daten die ich <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11844\" target=\"_blank\" rel=\"noopener\">beim letzten Mal<\/a> praesentiert habe, nicht einfach so nehmen kann, wie sie sind.\u00a0 Der Grund ist (wie ich beim vorletzten Mal schrieb), dass ich [\u2026]<\/p>\n<blockquote><p>[\u2026] die Zustaende zwischen dem kleinsten und dem gr\u00f8szten besetzten Zustand einfach abzaehle und damit dann die Anzahl aller (plausiblen) Zustaende auf einem gegebenen Linklevel erhalte.<\/p><\/blockquote>\n<p>Es gibt aber in jeder Verteilung Zustaende die so weit weg sind vom Rest der Verteilung, dass die alles &#8222;kaputt&#8220; machen. Oder anders: durch den Abstand eines einzigen Zustands vom Rest der Gruppe entstehen so viele leere plausible Zustaende, dass die aus der Anzahl aller plausiblen Zustaenden errechnten Ergebnisse nicht mehr sinnvoll sind.<\/p>\n<p>Bei richtigen Messungen nennt man sowas &#8222;Ausreiszer&#8220; und die dtsch. Wikipedia <a href=\"https:\/\/de.wikipedia.org\/wiki\/Ausrei%C3%9Fer\" target=\"_blank\" rel=\"noopener\">schreibt dazu<\/a>:<\/p>\n<blockquote><p>[\u2026] man [spricht] von einem Ausrei\u00dfer, wenn ein Messwert [\u2026] allgemein nicht den Erwartungen entspricht.<\/p><\/blockquote>\n<p>Das ist korrekt, aber etwas zu spezifisch. Denn ich habe keine Erwartungen, oder vielmehr wiesz ich nicht, was ich erwarten soll. Denn trotz der Analogie sind die Wikipediaseiten eben doch kein ideales Gas, von dem ich erwarte, dass es sich auf bestimmte Art und Weise verhaelt. Entpsrechend habe ich keinen Erwartungswert um den rum ich eine gewisse Streuung der &#8222;Messwerte&#8220; als normal ansehe und alles was auszerhalb des Bereiches faellt falsch sein muss.<\/p>\n<p>Deswegen gefaellt mir (mal wieder) besser, was die englische Wikipedia schreibt:<\/p>\n<blockquote><p>[\u2026] an outlier is a data point that differs significantly from other observations.<\/p><\/blockquote>\n<p>AHA! Das ist doch mal was. Mich duenkt, die dtsch. Wikipedia wollte das so sagen, aber die spezifischen Worte die gebraucht wurden druecken das nicht aus, wenn man mal naeher drueber nachdenkt.<\/p>\n<p>Das hilft mir in diesem Fall zwar weiter, ist aber _zu_ diffus um irgendwas quantifizieren zu k\u00f8nnen. Wo h\u00f8ren die validen Beobachtungen auf und wie signifikant ist signifikant? In der Praxis ist man da oft genug bei der Streuung um den Erwartungswert zurueck. Und das ist ja auch richtig so, denn das macht die Reproduzierbarkeit aus.<\/p>\n<p><a href=\"https:\/\/en.wikipedia.org\/wiki\/Outlier#Definitions_and_detection\" target=\"_blank\" rel=\"noopener\">Es gibt<\/a> ein <a href=\"https:\/\/de.wikipedia.org\/wiki\/Ausrei%C3%9Fer#Ausrei%C3%9Fertests\" target=\"_blank\" rel=\"noopener\">paar mathematische Tests<\/a> fuer Ausreiszer. Leider bauen diese wieder darauf auf, dass man etwas erwartet. Also entweder verteilt sich (wieder) alles um einen (oder mehrere) Erwartungswert(e) oder, dass bei &#8222;wilden&#8220; Verteilungen (bspw. mit mehreren Maxima oder <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/08\/kevin-bacon-viii-titelspielereien-c-das-ist-doch-nicht-normal\/\" target=\"_blank\" rel=\"noopener\">Verteilungen die sich aus mehreren Normalverteilungen zusammen setzen<\/a> <em>etc. pp.<\/em>) die mathematische Beschreibung der besagten Verteilung bekannt ist.<br \/>\nDie Verteilungsfunktion der Zustaende der Wikipediaseiten ist mir nicht bekannt und veraendert sich im gegebenen Fall auch von Linklevel zu Linklevel. Und was sind die Erwartungswerte, wenn sich die Zustaende ueber mehrere Gr\u00f8szenordnungen erstrecken?<br \/>\nIm Wesentliche stehe ich vor dem &#8222;Das-sieht-ma-doch&#8220;-Problem, was sich aber mathematisch nicht klar ausdruecken laeszt. Als Beispiel zur Illustration nehme man die Verteilung der Zustaende auf LL<sub>3<\/sub>:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-11843 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer-800x385.png\" alt=\"\" width=\"800\" height=\"385\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer-800x385.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer-1024x492.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer-768x369.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer-1536x739.png 1536w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/58_03_total_links_index_distribution_Ausreiszer.png 1624w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Die paar Zustaende ganz links, zwischen Werten von 7 und ca. 120 totalen Links, sind eindeutig Ausreiszer \u2026 das sieht man doch. Aber was ist mit den Werten zwischen ca. 180 und 100 totalen Links? Die sehen ja aus, als ob die schon noch dicht genug an den anderen Observationen liegen. Andererseits ist das &#8217;ne logarithmische Achse und das ist sicher OK die als Ausreiszer zu definieren.<br \/>\nMhmm \u2026 wenn ich das so sage, was ist denn dann mit den Zustanden zwischen 10-tausend und ich sag jetzt mal ca. 50-tausend totalen Links? Das Maximum der Verteilung liegt eindeutig bei ca. 10 Millionen totalen Links, das ist ganz sch\u00f8n weit weg.<br \/>\nUnd dann die Zustaende zum Ende der Verteilung! Aufgrund der logarithmischen Komprimierung sehen die zwar aus wie ganz dich am Rest, aber da gibt es bei lineraer Achse sicherlich deutlich gr\u00f8szere Leerraeume als bei den ganz eindeutigen Ausreiszern ganz am Anfang. Sind Letztere dann vielleicht doch keine Ausreiszer?<\/p>\n<p>Wie man sieht ist das alles nicht so einfach. In meiner zweiten Doktorarbeit habe ich mich damit <a href=\"https:\/\/www.mdpi.com\/2076-3417\/8\/7\/1137\/htm\" target=\"_blank\" rel=\"noopener\">professionell herumgeschlagen<\/a>. Leider kann die dort entwickelte Methode der Detektierung (und Korrigierung) von Ausreiszern, wenn man nicht weisz was man erwarten soll, hier nicht angewendet werden.<\/p>\n<p>Deswegen bin ich dann doch darauf zurueckgefallen, dass ich die jeweils ersten und letzten 0.05 % aller Zustaende einfach abschneide (insgesamt schlieszt das 0.1 % aller Zustaende aus).<br \/>\nAber Achtung das sind Maximalwerte und in den meisten Faellen schliesze ich weniger Zustaende aus:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/59_included_data_.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-11854 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/59_included_data_.png\" alt=\"\" width=\"582\" height=\"456\" \/><\/a><\/p>\n<p>Der Grund ist, dass ich einen mehrfach besetzten Zustand nicht aufteile in &#8222;gut&#8220; und &#8222;schlecht&#8220;. Alle Seiten (&#8222;Partikel&#8220;) in diesem Zutand sind gleichwertig. Oder anders: sollte die Ausschlieszungsgrenze von 0.05 % in die Mitte eines mehrfach besetzten Zustandes fallen, dann werden vielmehr alle Seiten die in diesem Zustand sind als &#8222;gut&#8220; gewertet und in den auszuwertenden Datensatz uebernommen.<\/p>\n<p>Der Gebrauch des Wertes 0.1 % bedeutet, dass (bei ca. 6 Millionen Seiten) an beiden Enden im Extremfall ca. 3000 Zustaende ausgeschlossen werden.<br \/>\nIch gebe zu, dass ich mich entschied 0.1 % als Kriterium bzgl. des Ausschlieszens von Ausreiszern zu nehmen, weil ich einen praktikablen Kompromiss finden musste, zwischen &#8222;aesthetischen Gruenden&#8220; und dem Wunsch so viele Daten wie m\u00f8glich hinzuzunehmen. Wobei Ersteres dominierte, weil ich bei diesem Wert die Phasen (deren Vorhandensein zwar vermutet wird, aber der Nachweis noch ausstand; bzw. in dieser Reihe noch aussteht) besser unterscheiden kann.<br \/>\nMan sieht aber alles bereits deutlich, wenn man nur 30 Zustaende an den Enden wegschneidet. Ja selbst wenn ich nur die 3 aeuszersten Werte ausschliesze, treten die entscheidenden Merkmale bereits sichtbar hervor. Und wenn man weisz wonach man sucht, sieht man es auch im kompletten Datensatz \u2026 aber das war ja das Problem, ich wusste zunaechst nicht so richtig wonach ich suche, wie sich das in den Daten ausdrueckt und wo das konkret ist \u2026 selbst wenn ich Vermutungen diezbezueglich hatte.<\/p>\n<p>Trotz aller Rhe\u00adto\u00adrik bzgl. der Integritaet der Wissenschaft(ler) ist diese Herangehensweise insb. in den sog. &#8222;angewandten Wissenschaften&#8220; sehr weit verbreitet. Daran ist erstmal nix auszusetzen, solange das ordentlich diskutiert wird und Ergebnisse nicht pl\u00f8tzlich verschwinden, wenn man die Daten anders &#8222;aufbereitet&#8220;. Leider passiert Ersteres so weit ich weisz nie und Letzteres vermutlich (deutlich) \u00f8fter als uns lieb ist \u2026 *seufz*. \u2026 Und auch wenn ich oben explizit die sog. &#8222;angewandten Wissenschaften&#8220; erwaehne, ist das im Groszen und Ganzen in allen (Teil)Gebieten der Wissenschaft so \u2026 mit ein paar Ausnahmen, wie bspw. die Hochenergiephysik oder (heutzutage) einige (viele?) groszangelegte klinische Studien, die mehr und \u00f8fter <a href=\"https:\/\/en.wikipedia.org\/wiki\/Preregistration_(science)\" target=\"_blank\" rel=\"noopener\">vorregistriert<\/a> werden \u2026 wobei das auch nicht immer hilft, am Ende doch noch was &#8222;schick zu machen&#8220;, damit das imponierender bei der Publizierung aussieht.<\/p>\n<p>Das soll genug sein fuer heute, beim naechsten Mal gibt&#8217;s dann endlich &#8222;Butter bei die Fische&#8220;.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die beim vorletzten Mal eingefuehrte Analogie, in der Wikipediaseiten angesehen werden wie Partikel eines idealen Gases, welche bei bestimmten &#8222;Temperaturen&#8220; (Linklevel) bestimmte Zustaende (Anzahl der totalen Links) einnehmen k\u00f8nnen, hilft mir beim naechsten Mal zwei Phasenuebergaenge dingfest zu machen. Aber weil&#8217;s so wichtig ist, m\u00f8chte ich heute darueber sprechen, dass ich die Daten die ich [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11832"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=11832"}],"version-history":[{"count":12,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11832\/revisions"}],"predecessor-version":[{"id":11871,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11832\/revisions\/11871"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=11832"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=11832"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=11832"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}