Archive for the ‘Allgemein’ Category

Das hier wird keine richtige Fehlerbetrachtung. Aber hier sagte ich, dass ich 0.1 % aller „Ereignisse“ als Ausreiszer ansehe und diese bei den beim letzten Mal durchgefuehrten Betrachtungen nicht beruecksichtige. Die 0.1 % wuerde bei ca. 6 Millionen Wikipediaseiten bedeuten, dass (høchstens) ca. 3-tausend Seiten jeweils am Anfang und Ende der Verteilung(en) pro Linklevel wegfallen wuerden.

Ich gab zu, dass ich den konkreten Wert von 0.1 % hauptsaechlich aus aesthetischen Gruenden waehlte, dass man das Wesentliche aber auch sieht, wenn man (viel) weniger „Ereignisse“ als Ausreiszer definiert, wenn man weisz, wonach man gucken muss. Und hier ist der „Beweis“ dafuer:

In blau ist hier wieder das Ergebniss vom letzten Mal dargestellt und die rote Kurve ist das Gleiche, aber wenn man „vorne und hinten“ nur jeweils ca. 30 Ausreiszer rausschmeiszt.
Wie erwaehnt, sieht man auch dann noch alles, was ich beim letzten Mal als Resultat meiner Betrachtungen erwaehnte. Nur eben nicht mehr ganz so schøn — das erste Plateau ist kein richtiges Plateau mehr, die eigentlichen Uebergaenge sind nicht ganz so eindeutig und alles „zappelt“ mehr. Aber die entscheidenden Merkmale sind definitv noch da.

Das zweite Plateau ist in beiden Faellen beinahe identisch ist. Das liegt daran, dass ich Ausreiszer lieber dringelassen habe, wenn die Anzahl der „wegzuschneidenden“ Elemente mitten in einen Zustand fiel. Ich erklaerte das im Detail im verlinkten Beitrag. Im Falle der 0.1 % Ausreiszer zeigt dieses Diaramm, dass da (fast) alle Daten dringeblieben sind.

Ich wollte das hier mal erwaehnt wissen.

Wie beim letzten Mal gesagt, heute nun endlich:

„Butter bei die Fische“.

Und nach den langen Vorreden die letzten Male, gehe ich heute gleich in die Vollen und zeige sofort das Ergebniss (ACHTUNG: bei den hier dargestellten Daten wurden die Ausresizer rausgeschmissen, so wie beim letzten Mal diskutiert):

Cool wa! … Aber was ist hier eigentlich dargestellt?
Nun ja, das steht an der Abzsisse dran: ich habe mal geschaut, wie sich der Anteil der tatsaechlich besetzten Zustaende in Bezug zur Anzahl aller møglichen (und plausiblen) Zustaenden entwickelt.

OK, das ist leicht zu verstehen … aber was passiert hier eigentlich? … Øhm, das zu erklaeren dauert etwas laenger.
In der „Gasphase“ ganz am Anfang sind alle møglichen Zustaende auch mit mindestens einem „Partikel“ / Wikipediaseite besetzt. Waehrend des „Aufheizens“ steigt die Anzahl der _møglichen_ Zustaende stark. Beim vorletzten Mal haben wir gesehen, dass die Anzahl der tatsaechlich besetzten Zustaende auch stark ansteigt. Ersteres geht schneller als Letzteres und deswegen wird der hier dargestellte Quotient (multipliziert mit 100 um den Anteil zu erhalten) entsprechend kleiner. Das Tal zwischen LL3 und LL7 liegt daran, dass ich nur ca. 6 Millionen „Partikel“ habe. Die Konsequenzen dieser Limitierung wurde auch bereits beim vorletzten mal besprochen.
Waehrend des „Abkuehlens“ nimmt die Anzahl der møglichen Zustaende ab und das System besetzt mehr und mehr dieser _møglichen_ Zustaende, die somit _tatsaechlich besetzte_ Zustaende werden. Irgendwann sind alle „Partikel“ „kondensiert“ und (im Wesentlichen) wird jeder møgliche Zustand ab LL13 auch (von mindestens einer Seite) besetzt. Das System ist komplett von der „gasførmigen“ in die „fluessige Phase“ uebergegangen und dieser Phasenuebergang fuehrt zu einem „Plateau“ in der blauen Kurve. Dies bleibt so bis ca. LL43/44. Dann passiert etwas Interessantes: Der Anteil der besetzten Zustaende faellt sprunghaft auf 60 %. Das ist das erwaehnte pløtzliche „Gefrieren“ — ein weiterer Phasenuebergang.

Das das Signal am Ende so „zappelt“ liegt daran, dass ich hier im Bereich unterhalb von 100 Zustaenden, ab ca. LL50 sogar unterhalb von 10 Zustaenden arbeite. Da fuehren dann bspw. zwei zusaetzliche besetzte Zustand zu einem deutlichen Unterschied im Signal. Aber trotz dieser unguenstigen Voraussetzungen erkennt man dennoch eindeutig, dass die „feste Phase“ ein zweites, unabhaengiges Plateau bildet.
Umgekehrt sind diese unguenstigen Voraussetzungen auch genau der Grund warum ich meinem Bauchgefuehl echte Daten folgen lassen wollte. Denn das Gefrieren in nur ganz wenige Zustaende haette ja auch eine Art optische Taeuschung sein kønnen. Durch die logarithmische Komprimierung sehe ich naemlich gar nicht, ob bei 10-tausend totalen Links nicht vielleicht auch nur 50 % aller møglichen Zustaende besetzt sind.

Und das ist sooo krass, dass man durch „richtige“ Betrachtung der Daten den Phasenuebergang von „fluessig“ zu „fest“ (und eigentlich auch von „gasførmig“ zu „fluessig“) so klar sieht.

Ich bin aber noch nicht fertig damit, doch bevor ich weitermache zunaechst ein kurzer Einschub: normalerweise mag ich diese Art der Darstellung in einem Liniendiagramm nicht. Ich bevorzuge Punktdiagramme, denn die Linien sind ueberfluessig, gar irrefuehrend. Die Daten sitzen an bestimmten Punkten und dazwischen gibt es nix. Manchmal benutze ich diese Art der Darstellung dennoch, weil es dem Auge des Betrachters eine Art „Stuetze“ gibt, die hilft dem Verlauf besser zu folgen. Ich erwaehne dies, weil Daten oft bescheuert praesentiert werden und so viel vom Informationsinhalt unter und deswegen oft verloren geht.
Heute habe ich diese Form nicht als Stuetze fuer das Auge gewaehlt. Der Verlauf ist hier (erstmal) nicht so subtil, dass das vonnøten waere. Aber im naechsten Diagramm gibt es (mehr oder weniger) subtile Unterschiede die man besser sieht, wenn man eine Linie (anstatt von Punkten) benutzt. Damit das konsistent bleibt auch im obigen Diagramm eine Linie.

Letzteres ist auch der Grund warum die obige Linie ausnahmswiese blau ist. Die Farben rot und schwarz habe ich beim vorletzten Mal benutzt. Dort habe ich auch versprochen, dass diese Daten nochmals (in leicht modifizierter Form) auftreten werden. Nun ja, hier sind sie nun (in leicht modifizierter Form):

Die rechte Ordinate ist fuer die schwarze und die rote Kurve(n). Diese Kurven entstanden, indem ich die Anzahl der tatsaechlich besetzten (schwarz) und totalen Zustaende (rot) durch die Anzahl der (noch nicht ausgeschiedenen) Seiten dividiert habe.

Die Gruende fuer den Verlauf der Kurve wurde bereits oben (und beim letzten Mal) besprochen. Wie zu erwarten ist der Wert der Amplitude des Maximums der schwarzen Kurve ungefaehr eins (etwas kleiner, weil ca. 15 % aller Zustaende mehrfach besetzt sind) und die Anzahl der møglichen Zustaende (rote Kurve) ist ungefaehr zehn mal grøszer.
Etwas Interessantes passiert bei ca. LL23/13: hier fallen beide Kurven zusammen. Auch das war zu erwarten, denn die blaue Kurve geht bei diesem Linklevel zum ersten Plateau ueber mit einem Wert von 100 %. Das Interessante ist also nicht unerwartet.
Aus den selben Gruenden ist die Separation der beiden Kurven bei ca. LL44/45 nicht unerwartet. Nun wird’s aber interessant.

Der Grund fuer den Unterschied zwischen der roten und der schwarzen Kurve im Maximum waehrend des „gasførmigen Phase“ war, dass es einfach zu viele Zustaende gibt und diese mit der begrenzten Anzahl an „Partikeln“ nicht besetzt werden kønnen. Das ist aber bei der „festen Phase“ mitnichten der Fall! Jeder møgliche Zustand kønnte dort mehrere hundertausend Mal besetzt werden. Es sollte also keine Separation geben! Dass es diese dennoch gibt, ist natuerlich ein weiterer Hinweis darauf, dass das System der Wikipediaseiten (oder mglw. das System der Linknetzwerke) tatsaechlich „physikalisch“ zwei sehr unterschiedliche Dinge bei hohen bzw. niedrigen Linkleveln ist.
Was genau diese zwei „Dinge“ sind kann ich nicht beantworten. Denn „fluessig“ und „fest“, wie in der physikalischen Bedeutung dieser zwei Wørter, sind die Seiten ja schlieszlich nicht. Und wie eben kurz in der Klammer im vorigen Satz erwaehnt, sind es mglw. auch gar nicht die Wikipediaseiten selber, sondern deren Linknetzwerk (was ja noch einen Schritt „aetherischer“ ist).

Aber genug fuer heute. Ich bin maechtig stolz darauf, dass ich zwei Phasenuebergaenge entdeckt habe. Oder vielmehr habe ich das intuitiv in den Daten erkannt und die eigentlich spannende Information dann aus selbigen herausgekitzelt.

Trotz des Gebrauchs aehnlicher Wørter im Titel, hat dieser Beitrag nix mit dem hier zu tun.

Neulich ist mir aufgefallen, dass ich vier unterschiedliche Wørter fuer Wurst (bzw. Wuerstchen) kenne. „Wurst“ an sich aus der dtsch. Sprache, „sausage“ aus der englischen Sprache (wobei ich vermute, dass es aus dem Franzøsischen uebernommen wurde), „pølse“ aus dem Norwegischen und Daenischen und in Schweden verwirrte mich zunaechst der Gebrauch des Wortes „korv“.
Ich konnte beim besten Willen keinen gemeinsamen Wortstamm entdecken. Nicht mal zwischen der norwegisch/daenischen und der schwedischen Variante. Also setzte ich mich mal hin und schaute nach wo diese Wørter herkommen.

Zunaechst war interessant, dass alle diese Wørter aus dem Mittelalter stammen. Oder naja … das was Leute wie ich uns unter „Mittelalter“ vorstellen. Das waren schlieszlich 1000 Jahre Geschichtsschreibung, in denen sehr viel passiert ist und die in unterschiedliche Phasen (keine davon „dunkel“!) eingeteilt werden kann.
Aber ich schweife ab, denn interessant fand ich das deswegen, weil die Methode Fleisch zur Haltbarmachung zu raeuchern und in Daerme zu packen, um dieses laengere Zeit aufzubewahren, ganz sicher deutlich aelter ist als das Mittelalter. Das ist dann auch als die Hypothese fuer diesen Beitrag anzusehen: die Wørter haben was mit der Herstellung oder Lagerung von „Saecken“ mit Fleisch drin zu tun.

Ich fange mal mit der „Wurst“ an.
Der Ursprung dieses Wortes ist nicht genau bekannt, aber dessen indo-germanische Wurzel gehørt in die Wortfamilie der Aktivitaeten des Drehens, Wendens und Rollens und den Produkten solcher Aktivitaeten.
Die Wurzel „uert“ scheint eine Verbindung zum lateinischen „vertere“ oder dem sanskrit „vrt“ zu haben. Beide Wørter bedeuten Drehen/Wenden. Wenn man bedenkt, wie der Inhalt der Wurst zusammengemixt wird, sehe ich dies als ersten Hinweis an, der die Hypothese unterstuetzt.

Nun zur englischen „sausage“.
Wie vermutet gelangte es in die englische Sprache via des Franzøsischen „saussiche“. Aber der Ursprung liegt im Lateinischem „salsica“ welches wiederum von „sallere“ abstammt … und das bedeutet „salzen“.
Ein weiterer Hinweis der obige Hypothese unterstuetzt, dass die Wørter was mit der Herstellung zu tun haben.
Dies ist uebrigens der gemeinsame Ursprung aller Wurstwørter in romanischen Sprachen. Als ein weiteres Beispiel gebe ich mal das portugisische „chouriça“ an.

Nun die norwegisch/daenische „pølse“.
Wie schon bei der „Wurst“ ist der Ursprung nicht ganz klar, aber es mag verwandt sein zum niederlaendischen „peul“. Letzteres ist die Erbsenschale und es hat die gleiche Wurzel „bule“ — Beule.
Die Verbindung liegt hier also nicht beim verdrehten und gesalzenem Inhalt sondern darin wie dieser gelagert wird: in laenglichen „Saecken“, so wie Erbsen.

Und zum Abschluss die schwedische „korv“.
Wiedereinmal ist der Ursprung nicht ganz klar … das scheint ein (weiteres) gemeinsames „Thema“ zu sein. Wieauchimmer, „korv“ ist aehnlich zum islaendischen „kurfr“– (ab)geschnittenes Stueck — und dem altenglischen „cyrf“ — „to carve“, schneiden.
Der folgende Schluss ist mglw. ein bisschen weit hergeholt, aber soweit ich weisz, sind Wuerste (mehr oder weniger) kontinuierlich, oder vielmehr in ziemlich laengen Daermen, und kuerzere Stuecke werden davon abgeschnitten. Dies sehe ich somit als den vierten Hinweis, der meine Hypothese vom Anfang bzgl. der Herkunft dieser vier verschiedenen Wørter unterstuetzt.

Innerhalb dieses informellen Rahmens sind weitere Untersuchungen nicht notwendig. Ich fand es interessant, dass trotz der gleichen Sache und trotz des gleichen Kulturkreises diese vier Wørter sprachlich-technisch tatsaechlich keinen gemeinsamen Ursprung haben. Die Verbindung wird erst durch die Semantik der Wørter hergestellt — was ja meine Hypothese war.

… muessen wir uns dessen anpassen. Bzgl. dieser Anpassung hørt man bisher eigentlich nur Sachen die in den Umkreis der Barrierefreiheit fallen. Das ist natuerlich ganz wichtig, allein schon deswegen, weil der Kørper mit zunehmenden Alter weniger kann.
Bisher habe ich aber nichts bzgl. der sozialen Aspekte gehørt was ueber „alte Menschen sind oft allein“ hinaus geht. Und genau darauf will ich hinaus (das alte Menschen oft allein sind), aber unter einem anderen Blickwinkel als dem, dass das traurig ist (was es natuerlich oft ist).

Zunaechst sei das Folgende gesagt: der Umstand dass immer mehr Menschen im Alter allein sind, ist eine ganz ganz ganz grosze zivilisatorische Errungenschaft! Zum Einen bedeuet dies, dass aeltere und alte Menschen nicht mehr von ihren Kindern abhaengig sind. Das ist deswegen so gut, weil dadurch (viel) mehr Menschen mehr Freiheit haben. Zum Anderen bedeutet es auch, dass Geist und Kørper fuer die Mehrzahl der Menschen im Alter noch gut genug funktioniert, sodass man bspw. noch allein einkaufen gehen und Essen kochen kann. Letzteres ist das auch wegen des oben Gesagten møglich, eben weil mehr und mehr gesellschaftliche Institutionen (bspw. der Supermarkt, das Theater, das Fliegen etc.) barrierefrei werden.

Aber dass alte Menschen mehr und besser allein leben kønnen heiszt auch, dass man sich ueber andere Dinge als (nur) Barrerefreiheit Gedanken machen. Dieses Bild …

… drueckt das was ich sagen will meiner Meinung nach sehr gut aus. Direkte Uebersetzung: Schlag dich nieder! … tihihihi

Hierbei handelt es sich um eine Art Klappstuhl im Supermarkt. Das hat ueberhaupt nix damit zu tun, dass man den Preis besser lesen kann oder alles ebenerdig ist. Es hat aber viel damit zu tun anzuerkennen, dass aelteren Menschen, auch wenn sie autonom sind, schneller die Puste ausgehen kann. Das kommt natuerlich auch anderen Menschen zu Gute; bspw. wenn einem jungen Mann mit niedrigem Blutdruck pløtzlich schwindelig wird.

Dieser Beitrag hier soll nur einen Gedanken umreiszen der mir kam, als ich das was im Bild zu sehen ist zum ersten Mal sah. Mir fehlen die richtigen Worte um dieses Themengebiet innerhalb eines uebergeordneten Rahmens erklaeren zu kønnen. Aber ich hoffe, dass ich zumindest teilweise klarmachen konnte, worauf ich hinaus will, denn es gibt sicherlich noch viel mehr als nur dass einem die Puste ausgeht, ohne dass dies unter den Schirm der Barrierefreiheit fallen wuerde.

Das ist uebrigens auch der Grund, warum ich der Meinung bin, dass die Robotisierung nicht schnell genug voran geht. Man nehme bspw. ein Mann in seinen 70’ern an, der seine Blumen umtopfe will. Er schafft es zum Baumarkt zu gehen und Blumenerde auszusuchen. Die Saecke sind aber zu schwer um diese ueber weite Strecken zu tragen. Nun kønnte man das fuer 20 Euro extra nach Hause liefern lassen. Man kønnte aber auch ein autonomes Kleinstfahrzeug (Laenge = Breite = Høhe = 50 cm) haben mit einer Belademøglichkeit fuer mittelschweres Zeug. Dieses Fahrzeug folgt dem alten Mann nach Hause, wo er die Saecke mit Blumenerde dann nur noch abladen muss. Danach faehrt (oder geht) das Kleinstfahrzeug automatisch zurueck fuer den naechsten Auftrag.

Das soll dazu reichen, wie gesagt, ich weisz das Ganze ja selber gar nicht so richtig in Worte zu fassen.

Die beim vorletzten Mal eingefuehrte Analogie, in der Wikipediaseiten angesehen werden wie Partikel eines idealen Gases, welche bei bestimmten „Temperaturen“ (Linklevel) bestimmte Zustaende (Anzahl der totalen Links) einnehmen kønnen, hilft mir beim naechsten Mal zwei Phasenuebergaenge dingfest zu machen.
Aber weil’s so wichtig ist, møchte ich heute darueber sprechen, dass ich die Daten die ich beim letzten Mal praesentiert habe, nicht einfach so nehmen kann, wie sie sind.  Der Grund ist (wie ich beim vorletzten Mal schrieb), dass ich […]

[…] die Zustaende zwischen dem kleinsten und dem grøszten besetzten Zustand einfach abzaehle und damit dann die Anzahl aller (plausiblen) Zustaende auf einem gegebenen Linklevel erhalte.

Es gibt aber in jeder Verteilung Zustaende die so weit weg sind vom Rest der Verteilung, dass die alles „kaputt“ machen. Oder anders: durch den Abstand eines einzigen Zustands vom Rest der Gruppe entstehen so viele leere plausible Zustaende, dass die aus der Anzahl aller plausiblen Zustaenden errechnten Ergebnisse nicht mehr sinnvoll sind.

Bei richtigen Messungen nennt man sowas „Ausreiszer“ und die dtsch. Wikipedia schreibt dazu:

[…] man [spricht] von einem Ausreißer, wenn ein Messwert […] allgemein nicht den Erwartungen entspricht.

Das ist korrekt, aber etwas zu spezifisch. Denn ich habe keine Erwartungen, oder vielmehr wiesz ich nicht, was ich erwarten soll. Denn trotz der Analogie sind die Wikipediaseiten eben doch kein ideales Gas, von dem ich erwarte, dass es sich auf bestimmte Art und Weise verhaelt. Entpsrechend habe ich keinen Erwartungswert um den rum ich eine gewisse Streuung der „Messwerte“ als normal ansehe und alles was auszerhalb des Bereiches faellt falsch sein muss.

Deswegen gefaellt mir (mal wieder) besser, was die englische Wikipedia schreibt:

[…] an outlier is a data point that differs significantly from other observations.

AHA! Das ist doch mal was. Mich duenkt, die dtsch. Wikipedia wollte das so sagen, aber die spezifischen Worte die gebraucht wurden druecken das nicht aus, wenn man mal naeher drueber nachdenkt.

Das hilft mir in diesem Fall zwar weiter, ist aber _zu_ diffus um irgendwas quantifizieren zu kønnen. Wo høren die validen Beobachtungen auf und wie signifikant ist signifikant? In der Praxis ist man da oft genug bei der Streuung um den Erwartungswert zurueck. Und das ist ja auch richtig so, denn das macht die Reproduzierbarkeit aus.

Es gibt ein paar mathematische Tests fuer Ausreiszer. Leider bauen diese wieder darauf auf, dass man etwas erwartet. Also entweder verteilt sich (wieder) alles um einen (oder mehrere) Erwartungswert(e) oder, dass bei „wilden“ Verteilungen (bspw. mit mehreren Maxima oder Verteilungen die sich aus mehreren Normalverteilungen zusammen setzen etc. pp.) die mathematische Beschreibung der besagten Verteilung bekannt ist.
Die Verteilungsfunktion der Zustaende der Wikipediaseiten ist mir nicht bekannt und veraendert sich im gegebenen Fall auch von Linklevel zu Linklevel. Und was sind die Erwartungswerte, wenn sich die Zustaende ueber mehrere Grøszenordnungen erstrecken?
Im Wesentliche stehe ich vor dem „Das-sieht-ma-doch“-Problem, was sich aber mathematisch nicht klar ausdruecken laeszt. Als Beispiel zur Illustration nehme man die Verteilung der Zustaende auf LL3:

Die paar Zustaende ganz links, zwischen Werten von 7 und ca. 120 totalen Links, sind eindeutig Ausreiszer … das sieht man doch. Aber was ist mit den Werten zwischen ca. 180 und 100 totalen Links? Die sehen ja aus, als ob die schon noch dicht genug an den anderen Observationen liegen. Andererseits ist das ’ne logarithmische Achse und das ist sicher OK die als Ausreiszer zu definieren.
Mhmm … wenn ich das so sage, was ist denn dann mit den Zustanden zwischen 10-tausend und ich sag jetzt mal ca. 50-tausend totalen Links? Das Maximum der Verteilung liegt eindeutig bei ca. 10 Millionen totalen Links, das ist ganz schøn weit weg.
Und dann die Zustaende zum Ende der Verteilung! Aufgrund der logarithmischen Komprimierung sehen die zwar aus wie ganz dich am Rest, aber da gibt es bei lineraer Achse sicherlich deutlich grøszere Leerraeume als bei den ganz eindeutigen Ausreiszern ganz am Anfang. Sind Letztere dann vielleicht doch keine Ausreiszer?

Wie man sieht ist das alles nicht so einfach. In meiner zweiten Doktorarbeit habe ich mich damit professionell herumgeschlagen. Leider kann die dort entwickelte Methode der Detektierung (und Korrigierung) von Ausreiszern, wenn man nicht weisz was man erwarten soll, hier nicht angewendet werden.

Deswegen bin ich dann doch darauf zurueckgefallen, dass ich die jeweils ersten und letzten 0.05 % aller Zustaende einfach abschneide (insgesamt schlieszt das 0.1 % aller Zustaende aus).
Aber Achtung das sind Maximalwerte und in den meisten Faellen schliesze ich weniger Zustaende aus:

Der Grund ist, dass ich einen mehrfach besetzten Zustand nicht aufteile in „gut“ und „schlecht“. Alle Seiten („Partikel“) in diesem Zutand sind gleichwertig. Oder anders: sollte die Ausschlieszungsgrenze von 0.05 % in die Mitte eines mehrfach besetzten Zustandes fallen, dann werden vielmehr alle Seiten die in diesem Zustand sind als „gut“ gewertet und in den auszuwertenden Datensatz uebernommen.

Der Gebrauch des Wertes 0.1 % bedeutet, dass (bei ca. 6 Millionen Seiten) an beiden Enden im Extremfall ca. 3000 Zustaende ausgeschlossen werden.
Ich gebe zu, dass ich mich entschied 0.1 % als Kriterium bzgl. des Ausschlieszens von Ausreiszern zu nehmen, weil ich einen praktikablen Kompromiss finden musste, zwischen „aesthetischen Gruenden“ und dem Wunsch so viele Daten wie møglich hinzuzunehmen. Wobei Ersteres dominierte, weil ich bei diesem Wert die Phasen (deren Vorhandensein zwar vermutet wird, aber der Nachweis noch ausstand; bzw. in dieser Reihe noch aussteht) besser unterscheiden kann.
Man sieht aber alles bereits deutlich, wenn man nur 30 Zustaende an den Enden wegschneidet. Ja selbst wenn ich nur die 3 aeuszersten Werte ausschliesze, treten die entscheidenden Merkmale bereits sichtbar hervor. Und wenn man weisz wonach man sucht, sieht man es auch im kompletten Datensatz … aber das war ja das Problem, ich wusste zunaechst nicht so richtig wonach ich suche, wie sich das in den Daten ausdrueckt und wo das konkret ist … selbst wenn ich Vermutungen diezbezueglich hatte.

Trotz aller Rhe­to­rik bzgl. der Integritaet der Wissenschaft(ler) ist diese Herangehensweise insb. in den sog. „angewandten Wissenschaften“ sehr weit verbreitet. Daran ist erstmal nix auszusetzen, solange das ordentlich diskutiert wird und Ergebnisse nicht pløtzlich verschwinden, wenn man die Daten anders „aufbereitet“. Leider passiert Ersteres so weit ich weisz nie und Letzteres vermutlich (deutlich) øfter als uns lieb ist … *seufz*. … Und auch wenn ich oben explizit die sog. „angewandten Wissenschaften“ erwaehne, ist das im Groszen und Ganzen in allen (Teil)Gebieten der Wissenschaft so … mit ein paar Ausnahmen, wie bspw. die Hochenergiephysik oder (heutzutage) einige (viele?) groszangelegte klinische Studien, die mehr und øfter vorregistriert werden … wobei das auch nicht immer hilft, am Ende doch noch was „schick zu machen“, damit das imponierender bei der Publizierung aussieht.

Das soll genug sein fuer heute, beim naechsten Mal gibt’s dann endlich „Butter bei die Fische“.

Beim letzten Mal habe ich eine Analogie eingefuehrt, in der ich davon sprach, dass man Wikipediaseiten ansehen kann wie Partikel eines idealen Gases. Das Linklevel entspricht in der Analogie erhøhten oder erniedrigten Temperaturen. Das Durchlaufen von einem Linklevel zum anderen kønnte dann gleichgesetzt werden mit dem „Aufheizen“ und danch wieder „Abkuehlen“ der Wikipediaseiten (gesehen in ihrer Gesamtheit als ein System). Dabei scheint es zu Phasenuebergaengen zu kommen. Schlussendlich kann die Anzahl der totalen Links die eine Seite auf einem gegebenen Linklevel hat, als ein „Zustand“ angesehen werden, den diese Seite bei der gegebenen „Temperatur“ annehmen kann.
Im Weiteren werde ich den Begriff des Zustands (den eine Seite annehmen kann) sehr haeufig benutzen. Dabei ist immer zu beachten, dass dies nicht buchstaeblich gemeint ist. Dieses Denkmodell ist nur eine gedankliche Stuetze, die mir hilft gewisse Dinge innerhalb eines (in der Physik etablierten) Konzepts zu vereinen und zu interpretieren und in bessere Zusammenhaenge zu bringen.

Hier ist nun die Anzahl der „besetzten“ Zustaende und die daraus errechnte Anzahl der totalen (plausiblen) Zustaende:

Das „Aufheizen“ am Anfang fuehrt dazu, dass immer mehr Zustaende „besetzt“ werden (die schwarzen Punkte haben høhere Werte). Oder anders: fast jede Wikipediaseite ist „allein“ in ihrem Zustand denn die Anzahl der totalen Links einer Seite auf bspw. LL5 ist anders als die der allermeisten anderen Seite.
Allerdings habe ich nur ca. 6 Millionen Wikipediaseiten und deswegen bleiben die schwarzen Punkte immer unter diesem Wert.

Wie beim letzten Mal beschrieben, erhalte ich die Anzahl der møglichen (plausiblen) Zustaende (die roten Quadrate), indem ich …

[…] die Zustaende zwischen dem kleinsten und dem grøszten besetzten Zustand einfach abzaehle […].

Weil die Anzahl der totalen Links bei einigen Seiten bis fast 90 Millionen geht, kann die Anzahl der møglichen Zustaende die der tatsaechlich besetzten Zustaende im Maximum um mehr als eine Grøszenordnung uebersteigen. In dem Fall gibt es also plausible Zustaende, die kønnen aber nicht besetzt werden, weil ich keine „Partikel“ habe die die besetzen kønnten.

Danach folgt die „Abkuehlung“ und die Anzahl der besetzten und møglichen Zustaende nimmt (wie zu erwarten war) ab.

In der Phase der „Kondensierung“ sammeln sich mehr und mehr „Partikel“ in den selben (!) Zustaenden; die schwarzen Punkte haben Werte weit unter 6 Millionen. Dennoch, einige Zustaende bleiben unbesetzt. Dadurch ist die Anzahl der møglichen Zustaende wieder grøszer als die Anzahl der besetzten Zustaende, aber hier aus einem ganz anderen Grund! Man schaue sich bspw. LL40 an. Dort habe ich ca. 500 møgliche Zustaende, aber nur ca. 100 besetzte Zustaende. Die 6 Millionen Seiten kønnten locker alles auffuellen. Das passiert aber nicht … kein Wunder, dass mein Bauchgefuehl mir sagte, dass da doch was sein muss.

Andererseits kann ich das nicht an den „totalen Zahlen“ sehen, die hier dargestellt sind. Denn hier liegen die roten Punkte immer ueber den schwarzen Punkten. Deswegen komme ich (nach einem wichtigen Einschub beim naechsten Mal) nochmals auf diese Kurve (in etwas modifizierter Form) zurueck.

UI! Manchmal kann ich mich kurz halten!

Unter jungen Menschen wird ja gesagt, dass je aelter die Leute werden, desto konservativer werden sie … gerne mit der Konnotation, dass dies schlecht sei.

Als Grund dieser Entwicklung wird dann herangezogen, dass besagte Leute das Leben was sie sich aufgebaut haben nicht verlieren wollen … und deshalb kann man mit denen keine Revolution machen.
Das scheint erstmal so logisch, dass man da nix weiter zu sagt, wohlwissend, dass man ja irgendwann selber aelter wird.

Mich duekt, dass Danigelis N. L., Hardy M. und Cutler S. J. dem nicht zustimmen wuerden, denn in ihrer Studie „Population Aging, Intracohort Aging, and Sociopolitical Attitudes“ im American Sociological Review, 2007, 72(5), pp. 812–830 kommen sie zu einem anderen Ergebniss … *hust*.

Der Artikel ist nicht so richtig spannend zu lesen, weswegen ich den hier kurz fuer euch, meine lieben Leserinnen und Leser, zusammenfasse.

Zunaechst wird dort die Problemstellung etwas wissenschaftlicher ausgedrueckt:

(1) as people age, they hold more tenaciously to their views and are more resistant to change […] and (2) older people’s attitudes are more stable than those of younger people […].

Die Untersuchung selber basiert auf Daten zwischen den Jahren 1972 und 2004. Bei den Ergebnissen muss man unterscheiden zwischen intrinsischer und extrinsischer Aenderung der Meinung innerhalb einer Altersgruppe. Ersteres bedeutet, dass die Menschen waehrend sie aelter wurden wirklich ihre Meinung geaendert haben. Letzteres bedeutet im Wesentlichen, dass die Rassisten und Homophoben wegsterben und durch Menschen die vor 20 Jahren noch jung waren (jetzt aber alt sind), und eine andere Meinung haben, ersetzt werden.

Die Autoren benutzen Mathematik um diese zwei Effekte zu trennen und kommen zum Schluss, dass, entgegen der obigen alten Volksweisheit junger Menschen, die Leute im Allgemeinen liberaler werden mit zunehmendem Alter (mit ein paar Ausnahmen) … (cf. Bild 1 auf Seite 822).

Das ist aber NUR eine Aenderung zum Ausgangszustand und heiszt NICHT, dass, die alten Leute pløtzlich, gesehen vom Standpunkt unserer heutigen, moralisch-ethischen Rahmenbedingungen, supertolle Menschen werden. Oder anders: wenn wer in den 60-er Jahren sagte, dass er oder sie jeden Schwulen in der Nachbarschaft lynchen wuerde und heute aber meint, dass das OK ist so lange die das keinem sagen, dann ist das noch lange keine Unterstuetzung fuer die Schwulenehe! Oder noch anders:

But even when the 60+ group moves toward more tolerant attitudes, we find no case where they end the observation period by overtaking the younger age group. At best the “tolerance gap” between the older and younger groups collapses, and no significant gap remains. In other cases the gap narrows, and occasionally both age groups become more tolerant, but the “gap” between them remains roughly the same.

Juengere Menschen werden auch liberaler und darin liegt der Irrtum obiger „Volksweisheit“. Diese wird naemlich mit „modernen Augen“ gesehen … und da ist jede Veraenderung immer viel zu langsam. Deswegen ist das gut, dass wir damit mal aufgeraeumt haben.

… dann sieht das so aus:

Das Bild habe ich von hier und darauf aufmerksam wurde ich hier. Ich habe mich bemueht, aber leider nicht die Originalquellen dieser Bilder gefunden :( .

Bei diesen grøszeren Vøgeln eher kleinen Dinosaurieren wuerde ich mir im uebertragenen Sinne in die Hose machen, wenn ich denen so begegne. Andersrum machen die aber in keinster Weise den Eindruck, als ob die Angst vor mir haetten!
Und nun stelle man sich vor wie das erscheinen muss, wenn diese prachtvollen Wesen grøszer als 1-Meter sind.

Ja, ich bin der vollen Ueberzeugung, dass dieses Buch …

… eines der wichtigsten Buecher in der Entwicklung der Wissenschaft, und somit der Welt wie wir sie heute kennen, war.
Aber ich møchte mal ein paar Gedanken bzgl. Newton loswerden.

Es ist ja bekannt, dass ich von ihm nicht so super viel halte. Klar, er war ein bedeutender Wissenschaftler. Aber das liegt nur daran, weil eine seiner Aktivitaeten (die Physik) einen so durchschlagenden Erfolg hatte. Haette er sich nur um seine numerologischen Studien (a.k.a. der „Bibelcode“) und Alchemie gekuemmert (die anderen zwei Dinge mit denen er viel Zeit verbrachte), dann wuerde kein Hahn mehr nach ihm kraehen.
Im oben verlinkten Wikipediaartikel ist ein passendes Zitat von John Maynard Keynes:

„Newton was not the first of the age of reason, he was the last of the magicians.“

Das wird nur im heutigen Narrativ nicht erwaehnt.
Das was erwaehnt wird sind die drei Grundgesetze der Bewegung und die Infinitesimalrechnung. Aber dazu muss ich etwas ausholen.

Soweit ich weisz, meinte Einstein wohl, dass die spezielle Relativitaetstheorie an und fuer sich kein groszer Wurf war. Trotzdem Teile dieser Theorie (bspw. das Zwillingsparadoxon oder die Endlichkeit der Lichtgeschwindigkeit) heute im zivilisatorischen Unterbewusstsein sind, so lagen die Ideen um 1905 wohl schon eine Weile in der Luft. Ohne Einstein haette das wer anders innerhalb der naechsten 5 bis 10 Jahre ausgearbeitet.
Die Ausarbeitung der allgemeinen Relativitaetstheorie hingegen ist im Wortsinne genial, war der damaligen Zeit 100 Jahre voraus und (wie gesagt: im Wortsinne!) schøpfende Kraft fuer unmessbaren Fortschritt (in sieben Meilen Stiefeln) in der Physik.

Von allem was ich ueber diese Zeit, und den Anfaenge der Wissenschaft wie wir sie uns vorstellen, weisz, lagen die Grundgesetze der Bewegung zu Newtons Zeiten auch in der Luft. Das war also eigentlich gar kein so groszer Wurf die als Erster aufzuschreiben.

Bleibt die Infinitesimalrechnung — auch deren Ausarbeitung ist im Wortsinne genial. Newton hatte grundlegende Ideen dazu høchstwahrscheinlich ein klein bisschen eher als Leibniz. Die Kontroverse darum gab es nur, weil Newton Leibniz einen Brief schrieb, in dem er ganz grob ein paar erste Ideen in diese Richtung schrieb. Davon abgesehen, dass die in dem Brief dargestellten Gedanken nicht ausreichten um die Infinitesimalrechnung nur daraus zu enwicklen, ist es auch sehr wahrscheinlich, dass Leibniz diese da gar nicht wirklich wahrgenommen hat und sich alles komplett selbst ausgedacht hat.

Auch als Newton alle Ideen fertig ausgearbeitet hatte, so publizierte er diese doch nicht; es ist bekannt, dass Leibniz seine Ideen als erster verøffentlichte … was Newton dann gar nicht passte und der dann anfing zu staenkern und unlaute Mittel in diesem Streit zu benutzen … okok, ich gebe zu, dass Leibniz sich auch nicht ganz „sauber“ verhalten hat.

Hinzu kommt, dass Newton seine Ideen mit Absicht extra verkomplizierte, damit das schwerer fuer Andere wird, damit konkrete Aufgaben zu berechnen … was natuerlich mehr Ruhm fuer ihn bedeutete.
Ironie des Schicksals: Leibniz Darstellung setzte sich schon frueh durch (weil diese viel intuitiver zu verstehen und leichter zu handhaben war) und das ist auch die Methode die man heutezutage in der Schule lehrt.
Schlussendlich musste das auch Newton einraeumen und ich erwaehnte schonmal, dass dies in der 2. Ausgabe des obigen Buches mit aufgenommen wurde.

Oder anders: auch in diesem Fall passt das Zitat von Keynes, denn Magier wollen ihre Zaubersprueche geheim halten.

Leider wird Newton heutzutage als der grosze „Bringer der Vernunft“ dargestellt. Waehrend Leibniz Genie zwar bekannt ist, aber doch eigentlich nur den Leuten, die ein bisschen mit Mathematik zu tun haben.
Und das passt mir nicht und deswegen wollte ich das hier mal aufgeschrieben haben.

Beim letzten Mal zeigte ich die Verteilungen der totalen Links fuer jedes Linklevel und ich teilte alles in 4 Abschnitte ein. Ich erwaehnte auch, dass der Uebergang von Abschnitt drei zu Abschnitt vier total krass ist, und dass es wie ein Phasenuebergang aussieht, wenn der „Wald der Balken“ sich so pløtzlich massiv lichtet.

Aber warum erinnerte mich das an einen Phasenuebergang? Und was ist das ueberhaupt? Und was fuer „Phasen“ sollen denn Wikipediaseiten annehmen? Und wie sollen Wikipediaseiten von einer „Phase“ in eine andere „Phase“ wechseln?

Nun ja, ich dachte dabei zunaechst an die Bildung von Cooper-Paaren oder ein Bose-Einstein-Kondensat. Aber beide diese Effekte kenne ich nur rein phaenomenologisch (bzw. ist mein Verstehen der Gleichungen bzgl. der Cooper-Paarbildung mittlerweile 20 Jahre her).
Deswegen ein anderes Beispiel, von dem ich hoffe, dass es zu mehr Klarheit beitraegt: unterkuehltes Wasser, das pløtzlich gefriert. Etwas bildlicher: in fluessiger Form kann ein Wassermolekuel viele Geschwindigkeiten (und Orte) annehmen, pløtzlich gefriert dann alles und in der festen Form nehmen alle Molekuele nur noch eine einzige Geschwindigkeit an (sie stehen dann still). Das ist ein Phasenuebergang von der fluessigen Phase zur festen Phase. Meist geschieht der nur nicht so pløtzlich.
Ein kurzes und schønes Video bzgl. des oben erwaehnten Bose-Einstein-Kondensats zeigt was ich meine … wobei ich zugebe, dass der allerletzte Schritt im Video fuer Nicht-Physiker vermutlich eher esoterisch erscheinen mag … ok ich gebe es zu, auch fuer Physiker erscheint das bestimmt esoterisch.
Aber ich greife hier eigentlich vor, denn das ist genau das, worueber der heutige Artikel geht.

Wieauchimmer, dass das wie ein Phasenuebergang aussieht, hat mir mein Bauchgefuehl im Wesentlichen sofort gesagt. Danach beschaeftige mich das tagelang und ich habe etliche Stunden mit der Analyse und dem Schreiben von Programmen (zur Analyse) verbracht. Letzteres, weil ich eine Grøsze oder Eigenschaft der Verteilungen finden wollte, welche mir erlaubt dieses Bauchgefuehl zu testen. Denn bei einem Phasenuebergang verhalten sich bestimmte, ein System beschreibende Grøszen charakteristisch.

Zunaechst verfolgte ich einen Ansatz, bei dem ich die „Dichte des Balkenwaldes“ untersuchte. Das brachte mich aber weder bei linearer Definition noch bei logarithmischer Definition eines „Volumens“ (Abschnitt auf der Abzsisse) weiter. Die Idee mit der Dichte ging aber schon in die richtige Richtung … und dann fiel es mir auf! Mensch! Auf LL0 scheint die Verteilung der Links eine gewisse Aehnlichkeit aufzuweisen, mit der Verteilung die meine unfaire Muenze vor ein paar Jahren produzierte! Letztere war eine Maxwell-Boltzmann Verteilung und der Zusammenhang damit brachte mich auf den richtigen Weg, wie ich einen Phasenuebergang nachweisen kønnte. Aber der Reihe nach.

Die Maxwell-Boltzmann Verteilung wurde urspruenglich „erfunden“ um bei einer gegebenen Temperatur die Geschwindigkeitsverteilung der Partikel eines idealen Gases zu beschreiben.
Man denke sich wieder das Beispiel von Wasser, nur dieses Mal nicht unterkuehlt, sondern mit einer Temperatur von 101 Grad Celsius (bei Normaldruck) und somit in der Form von Wasserdampf. Ein Wassermolekuel kann von sehr langsam bis sehr schnell viele Geschwindigkeitszustaende annehmen. Die Maxwell-Boltzmann Verteilung beschreibt nun, wie wahrscheinlich es ist, dass ein Molekuel sich in einem bestimmten Geschwindigkeitszustand befindet. Bei gerade mal 101 Grad Celsius sind die meisten Molekuele relativ langsam und ein paar sind sehr schnell. Die Wahrscheinlichkeit ein Molekuel zu finden welches sehr sehr sehr sehr schnell ist, ist im Wesentlichen Null.

Jetzt verandere ich die Temperatur dieses Systems in mehreren Schritten … und in Gedanken.

Zuerst heize ich den Wasserdampf immer weiter auf. In einem geschlossenen Gefaesz steigt dann der Druck. Der Druck ist aber im Wesentlichen die Kraft, mit der die Wassermolekuele gegen die Wand pressen. Da sich die Masse der Molekuele nicht aendert muss die (mittlere) Geschwindigkeit der Molekuele zunehmen, wenn bei steigender Temperatur der Druck steigt. Das bedeutet, dass sich das Maximum der Verteilung zu høheren Geschwindigkeitszustaenden verschiebt. Auszerdem wird die Verteilung breiter. Das bedeutet, dass bei steigender Temperatur die Wahrscheinlichkeit ein sehr sehr sehr sehr schnelles Teilchen zu finden (deutlich) zunimmt. Gleichzeitig nimmt die Wahrscheinlichkeit ein sehr langsames Molekuel zu finden ab.

Im naechsten Schritt kuehle ich den Wasserdampf wieder ab. Die im letzten Paragraphen beschriebenen Dinge gehen zunaechst „rueckwaerts“ und wenn ich zu 100 Grad Celsius (und darunter) abkuehle, passiert etwas „Seltsames“ — ein Phasenuebergang. Die Wassermolekuele klumpen sich zusammen, sie kondensieren aus der gasførmigen in die fluessige Phase.
In der fluessige Phase sind die møglichen Zustaende fuer ein Wassermolekuel stark begrenzt. Sowohl was die Geschwindigkeit, als auch den Ort belangt. Die Verteilung wird also deutlich schmaler, einfach schon aus dem Grund, weil ich keine sehr (sehr sehr sehr) schnellen Teilchen mehr finden kann.
Nichtsdestotrotz ist das Maximum der Verteilung immer noch bei relativ hohen Geschwindigkeiten. Wie jeder aus eigener Erfahrung weisz, ist frisch gebruehter Tee ziemlich heisz. Das bedeutet dann aber, dass die mittlere Geschwindigkeit der Wassermolekuele (trotz aller Einschraenkungen) immer noch relativ hoch ist.
Ach ja, die Geschwindigkeitsverteilung von fluessigem Wasser wird nicht mehr durch die Maxwell-Boltzmann Verteilung beschrieben, aber das ist nicht so wichtig, denn eine Geschwindigkeitsverteilung ist es immer noch.

Nun kuehle ich noch weiterab. Das Maximum de Geschwindigkeitsverteilung „wandert“ zu immer kleineren Geschwindigkeiten und bei Null Grad Celsius gefriert das fluessige Wasser zu Eis. Dies ist ein weiterer Phasenuebergang, der die møglichen Zustaende der Wassermolekuele nochmals massiv einschraenkt. Unter bestimmten Umstaenden kann Wasser sich deutlich unter den Gefrierpunkt abkuehlen, ohne dass es zur Eisbildung kommt, bis dann ganz pløtzlich alle Molekuele auf einmal die Phase wechseln — und damit bin ich bei dem was ich oben erwaehnte.

So, ihr meine lieben Leserinnen und Leser seid ja aufmerksam und denkt mit. Deswegen seid ihr bestimmt selber drauf gekommen, dass die obigen vier Paragraphen, und was ich da ueber die Geschwindigkeitsverteilung der Wassermolekuele bei den verschiedenen Temperaturen sage, uebertragen werden kann auf die vier Abschnitte bei der Verteilung der Anzahl der totalen Links Seite und Linklevel vom letzten Mal! … Krass wa!

Das ist natuerlich der Grund, warum ich das beim letzten Mal so detailliert aufgeschrieben habe. Selbstverstaendlich ist die Analogie nicht perfekt, aber mir geht es auch nur im die Idee, dass die Partikel eines gegebenen Systems mit einer bestimmten Wahrscheinlichkeit gewisse Zustaende einnehmen kønnen. Die Wahrscheinlichkeit fuer manche Zustaende ist grøszer (oder kleiner) als fuer andere und wenn ich die Parameter des Systems veraendere, dann aendern sich die Wahrscheinlichkeiten, dass die Partikel gewisse Zustaende annehmen.

Im gegebenen Fall sind die „Partikel“ die individuellen Seiten, die „Temperatur“ ist das Linklevel und der „Zustand“ die ein „Partikel“ bei einer gegebenen „Temperatur“ annehmen kann, ist die Anzahl der totalen Links. Wenn ich nun die Anzahl der Zustaende weisz und wie diese besetzt sind, dann kann ich damit andere Sachen berechnen und letztlich auch Hinweise fuer Phasenuebergange finden.

Soweit zur Analogie. Das Problem ist nun aber, dass, anders als bei einer Maxwell-Boltzmann Verteilung, die Wahrscheinlichkeiten der Zustaende auf einem gegebenen Linklevel keinem (mir) bekannten mathematischen Gesetz folgt. Pragmatisch wie ich bin, benutze ich (wie so oft) einen phaenomenologischen Ansatz und nehme eben diese Daten um mehr ueber die Zustaende und deren Verteilung heraus zu finden.

Das bedeutet das Folgende.
Zunaechst einmal nehme ich an, dass die Statistik gut ist. Bei fast 6 Millionen „Partikeln“ ist diese Annahme durchaus gerechtfertigt.
Desweiteren nehme ich an, dass alle Zustaende die das System (also die Gesamtheit aller „Partikel“) auf einem gegebenen Linklevel annehmen kann, im Wesentlichen auch angenommen werden. Das bedeuet NICHT, dass jeder Zustand auch von (mindestens) einem Partikel angenommen wird. Es bedeutet aber, dass sich die Balken in den Verteilungen (mehr oder weniger) ueber den gesamten „Zustandsraum“ verteilen. Oder anders: zwischen dem ersten und letzten Zustand kønnen durchaus grøszere Luecken sein, aber vor dem ersten Zustand und hinter dem letzten Zustand ist dann auch wirklich nix; bzw. sind dort die Wahrscheinlichkeiten, dass ein Zustand dort angenommen wird so klein, dass diese nicht betrachtet werden muessen.
Als Beispiel nehme man die Verteilungen von Abschnitt 3 vom letzten Mal. Die Balken der Verteilung sind alle in einem kleinen Bereich und dass ich die nur dort sehe bedeutet dann, dass die Zustaende auszerhalb dieses Bereichs auch nicht angenommen werden kønnen, unter den gegebenen Umstaenden.
Im Gegensatz dazu die Verteilung bei LL4:

Das Meiste spielt sich zwischen ca. 5 Millionen und ca. 80 Millionen ab. Aber die Verteilung hat Auslaufer bis ca. 1k mit unbesetzten Luecken dazwischen.

Das ist eine sehr wichtige Sache, denn wie oben geschrieben, will ich ja wissen, wie viele Zustaende ich habe und wie diese bestzt sind. Aber wie komme ich auf die Anzahl ALLER (plausiblen) Zustaende? Bei Maxwell-Boltzmann kann ich die einfach aus der mathematischen Funktion berechnen und dann sagen, dass bspw. ab einer Wahrscheinlichkeit von 10-6 die Besetzung nicht mehr plausibel ist und ich alle Zustaende mit kleinerer Wahrscheinlichkeit nicht mehr mit zur Anzahl aller Zustaende dazurechne.
Hier aber sehe ich, dass ich bis zu ca. 90 Millionen Links haben kann (bei „hohen Temperaturen“). Ich kann nun aber die Anzahl der møglichen Links in der „heiszen, fluessigen Phase“ im besagten Abschnitt 3 nicht bis 90 Millionen ausdehnen. Dass ein solcher Zustand angenommen wird, ist nicht plausibel. Dito bzgl. all zu kleinen Zahlen der totalen Links bei „erhøhten Temperaturen“.
Die Løsung des Problems liegt in obiger (innerhalb gewisser Grenzen durchaus gerechtfertigter) Annahme. Praktisch bedeutet das, dass ich die Zustaende zwischen dem kleinsten und dem grøszten besetzten Zustand einfach abzaehle und damit dann die Anzahl aller (plausiblen) Zustaende auf einem gegebenen Linklevel erhalte.

Wenn ich die Anzahl aller møglichen (plausiblen) Zustaende habe, zaehle ich ab, welche Zustaende tatsaechlich besetzt sind. Damit kønnte ich dann eine Entropie berechnen. Ich weisz aber nicht, ob ich damit auch was sehe.
Desweiteren schaue ich, in welchen Zustaenden sich die Majoritaet der „Partikel“ befindet. Befindet sich die Majoritaet in nur ein paar wenigen der møglichen Zustaende, kønnte es sich um ein Gruppenphaenomen, bspw. das „ausfrieren“ in einen „festen Zustand“, handeln.
Auszerdem untersuche ich dann noch, wieviele „Partikel“ sich einsam und allein in ihrem Zustand aufhalten (oder vielleicht auch mal zu zweit oder zu dritt, je nach „Phase“ oder so), oder ob sie sich mit anderen „Partikeln“ zusammen tun. Der Unterschied zum Obigen liegt darin, dass hier immer noch relativ viele Zustaende besetzt sind, aber mit mehreren „Partikeln“ (bspw. 5 oder 23 oder 523 oder so). Das ist dann also kein Gruppenphaenomen.
Und letztlich kønnte ich als Ausreiszer all jene Zustaende definieren, die sich bspw. nicht innerhalb des Gebietes befinden, in dem (bspw.) 90 % aller besetzten Zustaende sind. Aber da bin ich unsicher, ob ich das auch machen werde. Naja, ich werde mir das schon mal anschauen, aber wenn es schønere Ergebnisse gibt, wenn ich die Ausreiszer drin lasse, dann lasse ich die drin … denn dann sind sie ja per Definition keine Ausreiszer mehr sondern gehøren zum ordentlichen Datensatz.

Aber auf all dies muesst ihr, meine lieben Leserinnen und Leser, euch noch gedulden. Dieser Artikel hier ist naemlich schon lang genug.

Ach so, der Grund, warum mich die oben erwaehnte „Dichte des Balkenwaldes“ auf den richtigen Weg fuehrte (selbst wenn der konkrete Ansatz erfolglos war) ist, dass ich bei Anzahl der møglichen und tatsaechlich besetzten Zustaende an die Zustandsdichte in der Festkørperphysik dachte; diese ist naemlich …

[…] the proportion of states that are to be occupied by the system at each energy.

Hier kam mir also (mal wieder) mein Hintergrundwissen in der Physik zugute. Das Studium hat sich also (mal wieder) voll gelohnt :) .

Im Weiteren betrachte ich KEINE Zustandsdichte(n) nach der formalen Definition in der Festkørperphysik. Aber ich werde die im letzten Paragraphen erwaehnten „Messgrøszen“ in Bezug setzen zur Anzahl aller møglichen Zustaende und das wir ja dann auch so eine Art „Dichte“.
Den Titel behalte ich bei, weil der so schøn zeigt, aus wie vielen Quellen Inspiration kommt, die dann zur Løsung (mehr oder weniger) komplexer Fragestellungen fuehrt :) … Toll wa! So ist’s eben in der Wissenschaft und Forschung :) .