Archive for the ‘Allgemein’ Category

Heute gleich noch ein Beitrag in dieser Miniserie und ich muss etwas weiter ausholen.

Neugierde wird als eine notwendige Bedingung fuer natuerliche Intelligenz angesehen. Das Baby lernt krabbeln, weil es neugierig auf den Ball ist, der auszer Reichweite der kleinen Aermchen liegt. Viele Leute glauben, dass ich sehr intelligent bin, nur weil ich ’n paar Sachen weisz, weil ich mein Leben lang neugierig war und das Eine und Andere gelesen habe.
Es ist aber keine hinreichende Bedingung fuer die sehr limitierte Bedeutung von „Intelligenz“ die wir Menschen haben. Viele Tiere sind definitiv neugierig, es waren aber keine Delphine, die auf dem Mond gelandet sind. Tiere sind definitiv (!) intelligent, wir Menschen haben dafuer nur noch nicht das richtige (nicht nur) theoretische Rahmenwerk gefunden um das zu beschreiben.

Noch wichtiger wenn man ueber Neugier schreibt ist das Folgende: wenn man wirklich etwas lernt (also NICHT nur auswendig lernt fuer die Pruefung), dann behaupte ich, dass dies immer aus intrinsischer Motivation heraus erfolgt. Und intrinsische Motivation hat man, weil man auf etwas neugierig ist. Oft (meistens?) ist man sich dieser Verbindung nur nicht bewusst.

Intrinsisch motiviert (und damit neugierig) zu sein ist die Grundlage all dessen wie man sich die als Welt erklaert — das persønliche Weltbild. Dieses Weltbild bestimmt (direkt und indirekt), wir wir an unser Leben heran gehen und (intellektuell, emotional und spirituell) wachsen. Wenn wir mit anderen Menschen „wechselwirken“ drueckt sich unser Weltbild in den allermeisten Faellen darin aus, wie wir auf Fragen antworten. Das ist jetzt zwar sehr spezifisch, aber im Allgemeinen will ich genau darauf hinaus! Von wirklich intelligenten Menschen wird man selten ein „das ist genau so und nicht anders“ høren. Dies liegt daran, dass diese oft so neugierig ueber etwas sind, dass sie auch Sachen lesen / anhøren / anschauen, die nicht in ihr (urspruengliches) Weltbild pass(t)en. Dadurch lernt man oft (meistens?) eine gegenteilige Meinung zu verstehen.

Ein paar Beispiele:
– Ich finde die Nazis zum kotzen und deren Meinungen sind in meinem Weltbild definitiv falsch und verabscheuungswuerdig … aber bei allem wie die westliche Welt sich vielerorts entwickelt hat, kann ich verstehen, warum Menschen sich dieser Ideologie zuwenden.
– Ich kann anerkennen, ja sogar verstehen, wenn Individuen sie tief bewegende, persønliche  Erfahrungen mit der Offenbarung einer Gøttin in Verbindung bringen. In deren Weltbild stimmt das. In meinem Weltbild hat deren Gehirn auf eine ungewøhnliche Art reagiert.
– Ein Teilchen kann nicht durch eine feste Wand gehen … im Wellenbild ist die Chance, dass es pløtzlich auf der anderen Seite der Wand erscheint grøszer als Null. Nein, das øffnet nicht die Tore fuer Geistererscheinungen.
– In den letzten Jahren bin ich sehr zurueckhaltend geworden, wenn jemand meint, dass ich etwas gesagt (oder getan) haette, von dem ich ueberzeugt bin, dass ich das nicht gesagt (oder getan) habe. Meistens denke ich, dass sich dieser oder diese Jemand falsch erinnern muss. Ich habe aber gelernt, dass es so viele Sachen gibt, bei denen ich mich nicht an die Details erinnere, dass ich einraeume, dass besagter Jemand Recht haben kønnte.

Hinter all dem stehen (oft langjaehrige!) Lernprozesse, die nicht nur direkt auf eine konkrete Sachen ausgerichtet waren, sondern auch „Wege abseits“ des direkten Zielpfades „gegangen“ sind. Letzteres trotzdem dies (in den allermeisten Faellen) nicht „belohnt“ wird, auszer, dass meine Neugier befriedigt wird … was natuerlich ein Widerspruch ist, denn dies ist natuerlich ein enorme, wenn auch „nur“ interne, Belohnung.

Und damit komme ich zu kuenstlichen „Intelligenzen“ und ich werde im Folgenden aus diesem Artikel zitieren. Der Artikel selber beschreibt eine sehr spezifische Methode Computer neugierig zu machen, aber das ist nicht von Interesse, denn es geht mir nur um’s Prinzip.
In kurz: im Allgemeinen hat die Mehrheit der Bevølkerung (wenn ueberhaupt) die Vorstellung, dass kuenstliche „Intelligenzen“ (mehr oder weniger) zielorientiert trainiert werden mit (mehr oder weniger) direkter Rueckmeldung.

Learning goal-directed behavior with sparse feedback from complex environments is a fundamental challenge for artificial intelligence. Learning in this setting requires the agent to represent knowledge at multiple levels of spatio-temporal abstractions and to explore the environment efficiently.

Weiterhin ist …

[l]earning and operating over different levels of temporal abstraction […] a key challenge in tasks involving long-range planning.

Und deswegen werden kuenstliche „Intelligenzen“ von der besagten Mehrheit der Bevølkerung nicht ernst genommen, denn dafuer braucht man interne Motivation. „Seitenwege“ muessen erkundet werden um Problemstellungen in einen grøszeren Zusammenhang zu bringen. Dies ist (per definitionem) nicht direkt zielfuehrend. Eine Rueckmeldung darob des „Erfolgs“ dieser „Erkundung“ wuerde also eher negativ ausfallen. Oder anders:

The nature and origin of ‘good’ intrinsic reward functions is an open question in reinforcement learning.

Ach so, das gilt natuerlich nicht nur fuer Maschinen, sondern auch bei Menschen ist …

[t]he nature and origin of intrinsic goals […] a thorny issue.

Im Artikel werden ein paar Dinge zitiert, wie dieses Problemen einer intrinsischen Motivation angegangen werden kann. Neben dem im Artikel detailliert besrpochenen, ganz konkreten Konzept (nicht so wichtig, siehe oben) laeuft dies im Allgemeinen auf Sachen wie …

[…] the effectiveness of artificial curiosity using information gain maximization […]

… oder …

[…] the improvements to a predictive world model made by the learning algorithm […]

hinaus.

Wieauchimmer es gemacht wird, im wesentlich faellt dies unter sogenannte Meta (oder auch Mesa) Optimierer — etwas anderes als die direkte Zielfuehrung wird optimiert. Mesa-Optimierung stellt ein ernstes Problem dar, wenn man ganz sicher gehen will, dass Skynet die Menschheit nicht ausløscht … ein _sehr_ ernstes Problem, denn Ultron wollte genau dies tun, nachdem es nur 10 Minuten im Internet verbracht hatte … okok, zugegebenermaszem ist das beim heutigen Internet eine natuerliche Reaktion.

Deswegen wie immer: nur weil Computer etwas bisher nicht konnten, heiszt das noch lange nicht, dass das fuer immer so bleiben wird. Dabei ist insbesondere zu bedenken, dass der verlinkte Artikel bereits von 2016 ist und seitdem ganz viel auf diesem Gebiet passiert ist … siehe GPT-3, oder DALL-E (dazu vielleicht lieber das hier), bei denen man nicht umhin kommt sich zu fragen, wie denn die interne Repraesentation der Welt, dieser kuenstlichen „Intelligenzen“ aussieht und wie diese das erlernt haben.

Aber genug fuer heute. Dieser Beitrag ist lang genug und ich schaffe es leider nicht, dieses Konzept und worauf ich hinaus will konkreter (und besser) zu beschreiben :(

Es wird ja gerne gesagt, dass „kuenstliche Intelligenzen“ zwar durchaus ein paar Sachen kønnen (bspw. Schach spielen), aber wenn diese etwas lernen sollen, dann muessen sie dafuer viele Daten haben.
Das ist ein Grund, warum gesagt wird, dass „Daten das Øl des 21. Jahrhunderts“ sind … dass ich das hier schreibe, bedeutet nicht, dass ich denke, dass das richtig ist. Ich wollte damit nur ausdruecken, dass (aufgrund der vorherrschenden Meinung) viele maechtige Leute viele Daten haben wollen, damit deren „kuenstlichen Intelligenzen“ und Maschinenlernalgorithmen besser werden und sie dadurch noch mehr Macht bekommen kønnen.

Andererseits hørt man dann auch immer wieder, dass jedes Kleinkind „kuenstlichen Intelligenzen“ im Allgemeinen haushoch ueberlegen ist, weil Ersteres von nur ein paar Beispielen urst krass viel lernt und Neues aus der gleichen Kategorie dann erkennt.
Das ist natuerlich ein etwas unfairer Vergleich, weil das (nicht nur das) menschliche Gehirn und die (nicht nur die) menschliche Gesellschaft darauf ausgerichtet sind, (nicht nur) neue Menschen genau darauf zu „trainieren“, denn andernfalls ist’s nicht weit her mit dem Ueberleben im Universum. Deswegen konzentriere ich mich nur auf die Behauptung, dass Computer viele Daten brauchen um das Gleiche zu erreichen.

Nun ist es aber so, dass bereits heute dem nicht so sein muss! In dem verlinkten (wenn auch in einem Tagungsband erschienenen, dennoch durchaus wissenschaftlichen) Artikel zeigen die Autoren, dass (relativ komplizierte) neuronale Netzwerke nur wenige Daten brauchen um Konzepte und Kategorien generalisieren und in unbekannten Daten wiedererkennen zu kønnen.
Selbstverstaendlich sind die Autoren sich dem bewusst, dass dies sehr spezifisch ist bzgl. der Aufgaben und (Roh)Daten und mitnichten auf alles was die Welt bietet verallgemeinert werden kann.
Ebenso behaupten die Autoren auch nicht, wo, wie und wann diese neuronalen Netzwerke was und warum gelernt haben. Selbst bei kleinen und relativ unkomplizierten Netzwerken fuer einfache Aufgaben ist das nur sehr bedingt møglich … andererseits kønnen wir diese Fragen bei Tieren und Menschen ja auch nicht beantworten.

Mir geht es nun darum, dass „Big Data“ von den verschiedensten Parteien und Interessengruppen als notwendig (und oft genug auch als hinreichend) angesehen wird um einem Computer beizubringen wie man Sachen erkennt. Der verlinkte Artikel zeigt aber, dass dem nicht so sein muss.

Auch wenn ich durchaus anerkenne, dass Computer (heutzutage) viele Daten brauchen um eine Aufgabe selbststaendig erledigen zu kønnen, so finde ich es unheimlich wichtig darauf hinzuweisen, dass das nicht in Stein gemeiszelt ist! Dies schon deswegen, damit man nicht vøllig davon ueberrascht wird, wenn die Roboter (endlich) kommen.

… ist der erste Song auf dem unterschaetzten Album Mutations von Beck. Auch wenn dies eines meiner Lieblingsalben ist, welches ich waehrend des Schreibens mal wieder høre, so soll es hier nicht um Musik gehen. Vielmehr geht es um eine Sache ueber die ich in einem (sehr technischen) Essay mit dem Titel „Brain Efficiency: Much More than You Wanted to Know“ stolperte:

[t]he human brain’s output of 10W in 0.01m^2 [sic] results in a power density of 1000 W/m2, very similar to that of the solar flux on the surface of the earth, which would result in an equilibrium temperature of ≈ 375 K or 100 [degrees]C, sufficient to boil the blood, if it wasn’t actively cooled.

Das machte mich etwas stutzig, denn offensichtlich kocht mein Blut nicht. Im Artikel wird angefuehrt, dass die Kuehlung des menschlichen Kørpers super effizient ist, weil wir auf der gesamten Hautoberflaeche schwitzen kønnen (was ziemlich selten ist im Tierreich). Allerdings ist mein Kopf nun auch nicht die ganze Zeit in Schweisz gebadet.
Innerhalb des Gueltigkeitsbereichs des Artikels tut das (und was ich im Folgenden anbringen werde) nix zur Sache. Dies deswegen, weil der Artikel im Wesentlichen nur thermodynamische Abschaetzungen macht um zu sehen, was fuer generelle physikalische Eigenschaften eine kuenstliche Intelligenz haben muss, um es mit dem menschlichen Gehirn aufzunehmen. Da reicht es, wenn die Genauigkeit innerhalb von ein paar Grøszenordnungen liegt und 100 Grad Celsius liegt in dem Zusammenhang ungefaehr in der richtigen Grøszenordnung der Kørpertemperatur.

Zum Glueck habe ich ja mein Studienziel erreicht … und kann das was mich stutzig macht mal selber nachrechnen.

Zunaechst war da die Frage wieviel Energie das Gehirn „verbraucht“. „Verbraucht“ deswegen, weil im Wesentlichen alle Energie die reingeht in Waerme umgewandelt wird und somit nicht weiter „brauchbar“ ist. Der Konsenz scheint 20 Watt zu sein und ich konnte auf die Schnelle keine modernen Quellen dazu finden. Das hier sind zwar zwei neuere Artikel, aber die zitieren Beide die selbe Quelle (ein Buch) von 1960! Der zweite Artikel sagt zwischen 17 und 20 Watt.
Scientific American macht eine Ueberschlagsrechnung und kommt auf ca. 13 Watt wenn man ruht und dieser Artikel sagt 15 Watt, gibt aber keine Quelle an (die ich schnell kontrollieren kønnte).
Ich rechne erstmal mit 20 Watt weiter, denn wenn das seit 60 Jahren nicht korrigiert wurde, dann gehe ich davon aus, dass da was dran ist.

Als naechstes stellte sich die Frage wie grosz das Gehirn ist. Nun ja, eigentlich bin ich an der Oberflaeche interessiert, dazu konnte ich aber nix finden. Deswegen modelliere ich das Gehirn als eine Kugel und rechne rueckwaerts vom Volumen, denn das Volumen ist gut bekannt.
Dieser Artikel rekonstruiert das Gehirnvolumen der Hominiden (heutzutage nicht zu verwechseln mit den Hominoidea) ueber die letzten paar Millionen Jahre. Figur #1 ist das was mich interessiert und wenn ich den Logarithmus zurueckrechne, komme ich auf ein Volumen von ca. 1450 cm3 … was ungefaehr mit Wikipedias 1400 cm3 uebereinstimmt (deren Quelle aber nicht mehr verfuegbar ist *seufz*). Ich rechne mit dem Wikipediawert weiter, weil ich den ersten Wert nur so Pi mal Daumen von der logarithmischen Skala der Abbildung abgelesen habe … ich wollte aber eine ordentliche Quelle fuer den Wert haben.

Eine Abschweifung: dieser Artikel macht auf eine bemerkenswerte Reduktion der Gehirngrøsze in den letzten dreitausend Jahren aufmerksam:

[…] human brain size reduction […], occurring in the last 3,000 years. […] We suggest […] that the recent decrease in brain size may […] result from the externalization of knowledge and advantages of group-level decision-making due in part to the advent of social systems of distributed cognition and the storage and sharing of information. Humans live in social groups in which multiple brains contribute to the emergence of collective intelligence.

Das ist erstmal sinnvoll, aber mglw. wird da „das Pferd von hinten aufgezogen“. Dafuer muss ich aber noch ein bisschen mehr ausholen.
Vor ein paar Jahren las ich mal irgendwo (die Quelle muss ich leider schuldig bleiben), dass die letzten zwei Mutation die sich im menschlichen Genom durchgesetzt haben vor ca. 20-tausend und ca. 7-tausend Jahren stattfanden … Mist … die genauen Zahlen habe ich nicht mehr im Kopf, das lag aber ungefaehr in dem Zeitraum. Die vorletzte Mutation faellt erstaunlich gut mit der neolithischen Revolution zusammen; dem Uebergang zum Ackerbau. Die letzte Mutation faellt ungefaehr in die Zeit als erste Schriftsysteme in den archaeologischen Funden auftauchen. Auszerdem setzen die Autoren der obigen Studie den Anfang des Schrumpfens der Gehirngrøsze in diese Zeit (geologisch gesehen ist das alles gleichzeitig passiert).
Ich denke nun, dass es nicht zu weit hergeholt das Folgende zu vermuten. Gedanken in Schrifzeichen zu fassen erfordert, dass das Gehirn (ganz allgemein gesagt) abstrahieren kann. Dafuer benøtigt es aber mglw. modifizierte Strukturen im Gehirn, welche nur durch eine Mutation entstanden sein kønnen. Wenn ein Individuum besser abstrahieren kann, so gibt das sicherlich genuegend Vorteile im Leben, sodass die Mutation nicht gleich wieder ausstirbt und sich sogar durchsetzen kann ueber viele Generationen. Neue Strukturen im Gehirn kønnen dann aber auch Nebeneffekte haben, die andere Prozesse effizienter machen. Deswegen brauchen diese Prozesse weniger Platz, das Gehirn braucht damit weniger Energie und das ist wiederum gut fuer das Individuum und wir sehen schrumpfende Schaedel in den archaeologischen Funden der letzten 3000 Jahre. Ein Teil der Abstraktion ist die Auslagerung und Komprimierung von Wissen a.k.a. Bildung/Schule, was ja die Autoren sagen.

Eine solche Mutation kønnte eine veraenderte Faltung der Groszhirnrinde zur Folge gehabt haben. Eine (veraenderte) Faltung erlaubt kuerzere Wege (und damit Kommunikation) zwischen den Neuronen. Soweit ich weisz, erlaubt eine Faltung ueberhaupt erst komplexe Gehirnaktivitaet, weil man dafuer viele Neuronen braucht, diese bei glatten Gehirnen aber zu lange Kommunikationswege haetten. Bei einer gefalteten Oberflaeche kann man aber „schnell und einfach“ eine (kurze) Verbindung zur anderen Seite der Faltung aufbauen.
Das passt gut ins Bild des allgemeinen Wissens, dass bestimmte Bereiche der Groszhirnrinde fuer spezifische Aufgaben verantwortlich sind. Das sind dann die Teile, die in praktischer Kommunikationsdistanz liegen.
Und worauf ich hinaus will ist, dass eine subtile Veraenderung der Faltung durch eine Mutation mglw. ziemlich grosze Unterschiede im Abstraktionsvermøgen zur Folge haben kønnte. Das kønnen wir aber nicht mehr nachverfolgen weil Gehirne verrotten und nur der leere Aufbewahrungsort des Gehirns zurueck bleibt.

Das war eine etwas ausfuehrlichere Abschweifung und hatte nur bedingt mit dem eigentlich Thema zu tun.

Bei einem Volumen meiner vereinfachten Gehirnkugel von 1400 cm3 ergibt das einen Radius von ca. 7 cm … was gut mit dem Radius meines eigenen Kopfes uebereinstimmt. Daraus folgt eine Oberflaeche A von ca. 0.06 m2 und bei einer angenommenen Leistung P von 20 Watt fuehrt dies zu einer Leistungsdichte von ca. 300 Watt pro Quadratmeter. Nun kønnen wir das Stefan-Boltzmann Gesetz

… benutzen um auszurechnen, welche Temperatur T ein schwarzer Kugelkørper haben muesste, der diese Leistung in Waerme umwandelt und diese dann abstrahlt (!).

Ich komme auf ca. 276 Kelvin … oder drei Grad Celsius … … … wait! … … … what? … … … Ich dachte ich bin viel zu warm und muss schwitzen um diese ganze Waerme besser als durch Waermestrahlung los zu werden!

Nun kønnte ich argumentieren, dass mein Gehirnkugel nicht schwarz ist, sondern aus grauen Zellen besteht … sorry, konnte nicht widerstehen. Dies wuerde zu einem (vereinfacht gesagt) konstanten Faktor kleiner als eins auf der rechten Seite der obigen Gleichung fuehren und bei gleicher Leistung eine høhere Temperatur zur Folge haben. Dies spielt ganz sicher eine Rolle, ich kann das hier aber nicht quantifizieren.
Deswegen gebe ich die folgende Argumentation: das Gehirn steht nicht frei in der Luft sondern ungefaehr ein Viertel der Oberflaeche ist durch das Gesicht versperrt. Das Gesicht (und was dahinter, aber vor dem Gehirn liegt) ist sicherlich ein guter Waermeisolator. Verringere ich nun die Oberflaeche um ein Viertel, komme ich bei gleicher Leistung auf eine Temperatur von ca. 296 Kelvin oder ca. 23 Grad Celsius. Das ist zwar noch immer nicht Kørpertemperatur, aber bei all den Vereinfachungen nahe genug dran.

Schon toll, was man alles rausfinden kann, wenn man einer Sache hinterherforscht, die einen stutzig macht … auszerdem macht das auch grosze Freude :)

Die lange Vorrede habe ich beim letzten Mal getaetigt. Deswegen geht’s sofort los. Kurz zur Erinnerung: meine Hypothese ist, dass die Linknetzwerke (fast) aller Wikipediaseiten bei den Saisons des São Paulo FC enden. Ganz direkt geht es heute um das Folgende: Ich nehme an, dass (fast) alle Wikipediaseiten bei der 1930 Saison des São Paulo FC enden. Dann sollten die besetzten Zustaende auf den letzten Linkleveln genau der Anzahl der totalen Links dieser Seite, und der Seiten der direkt davor (bzw. zeitlich direkt dahinter) liegenden Saisons, entsprechen.

Das ist tatsaechlich das was ich sehe:

Cool wa? Aber was sehe ich hier eigentlich? Das Diagramm ist von rechts nach links zu lesen um es dann von links nach rechts zu interpretieren. Ich gehe weiter unten naeher darauf ein. Zunaechst sei so viel gesagt. Die schwarzen Punkte sind die besetzten Zustaende bei den entsprechenden Linkleveln. Die roten Punkte entsprechen der Anzahl der totalen Links einer Wikipediaseite der Saison eines gegebenen Jahres. Jede horizontale Reihe roter (!) Punkte kommt durch die totalen Links der Saison eines Jahres (manchmal mehrerer) zustande. Die entsprechenden Jahre sind gekennzeichnet, wenn sie (rueckwaerts gesehen) das erste Mal auftauchen.
Die besetzten Zustaende kann ich direkt aus den individuellen Verteilungen ablesen. Dass diese mit den roten Punkten, also der Anzahl der totalen Links der entsprechenden Seiten zum Ende der Kette der Saisons des São Paulo FC, uebereinstimmen ist ein starkes Indiz dafuer, dass meine Hypothese richtig ist.
Wenn es (scheinbar) zu keiner Aenderung im Diagramm von einem Linklevel zum vorherigen/naechsten gibt, dann liegt das daran, dass zwei hintereinander liegende Saisons die selbe Anzahl an totalen Links haben. Dann kommt natuerlich kein weiterer Punkt dazu, weil dies ein und demselben Zustand entspricht. Beispiele sind 1933 und 1934 oder 1936 und 1942.

Nun naeher dazu wie das Diagramm zu lesen (und dann zu interpretieren) ist, mit Hinblick auf obige Hypothese. Zur besseren Veranschaulichung nehme man dieses Diagramm in dem ich die roten Punkte wieder weglasse, weil die ja identisch sind mit den schwarzen Punkten (den Pfeilen ist beim Lesen rueckwaerts zu folgen und beim interpretieren vorwaerts):

Auf LL72 sind nur zwei Zustaende besetzt — Zustand Null und Zustand 27. Letzteres bedeutet, dass die Seiten die in diesem Zustand sind, total 27 Links haben. Zustand Null wird heute nicht beachtet, denn dieser entspricht den ausgestiegenen Seiten.
Aus der Betrachtung der Aussteiger wissen wir, dass es nur (!) eine Gruppe mit drei Seiten gibt, die erst bei LL73 aussteigt und somit als einzige ein Signal auf LL72 geben kann. Ich gebe dieser Gruppe den Namen Alpha und entsprechend der Hypothese muss Gruppe Alpha sich im Jahre 1930 befinden. Das Jahr 1930 hat tatsaechlich 27 Links in meinen Daten.

Wir gehen rueckwaerts und auf LL71 sind drei Zustaende besetzt, wobei Zustand Null wieder unberuecksichtigt bleibt. Somit bleiben als besetzte Zustaende nur Zustand 27 und Zustand 30. Einer dieser Zustaende muss von Gruppe Alpha kommen. Diesmal aber aus dem Jahre 1931, welches tatsaechlich 30 totale Links in meinen Daten hat. Der andere Zustand wird durch Gruppe Beta besetzt, welche auf LL71 zum letzten Mal zum Gesamtsignal beitraegt. Entsprechend der Hypothese sollte Gruppe Beta sich auf LL71 im Jahre 1930 (und somit Zustand 27) befinden. Das ist genau das, was in den Daten zu sehen ist.

Wir gehen noch ein Linklevel rueckwarts zu LL70 und die dort besetzten Zustaende sind 27, 30 und 22. Weil wir rueckwaerts gehen wird Gruppe Gamma „wiedererweckt“ und befindet sich im Jahre 1930. Gruppe Beta ist hier nun im Jahre 1931 und Gruppe Alpha im Jahre 1932 (mit 22 totalen Links).

Der naechste Schritt rueckwaerts folgt dem gleichen Schema. Spaetere Gruppen besetzen Zustaende die (rueckwaerts gesehen!) durch Gruppe Alpha eingefuehrt wurden und Gruppe Alpha selber fuehrt via des Jahres 1933 den Zustand 26 ein.
Nun wird’s aber ein ganz klein bisschen komplizierter. Wenn Gruppe Alpha beim naechsten Rueckwaertsschritt ins Jahr 1934 springt, dann bleibt es im Zustand 26, weil dieses Jahr genausoviele totale Links hat wie 1933. Gleichzeitig besetzt nun aber auch Gruppe Beta Zustand 26 (via des Jahres 1933).
Noch einen Schritt rueckwaerts verlaeszt Gruppe Alpha Zustand 26 wieder (und geht ueber zu Zustand 24), Gruppe Beta bleibt in Zustand 26 (aber nun im Jahr 1934) und hinzu kommt in den selben Zustand Gruppe Gamma (via des Jahres 1933).

All das was ich hier niederschrieb ist im rechten Teil des obigen Diagramms entsprechend markiert.
So geht das dann weiter so weit das Diagramm reicht. Dass bei frueheren Linkleveln immer noch Signal aus Zustand 27 kommt liegt natuerlich daran, dass weitere Gruppen „wiedererweckt“ werden und die genannten Zustaende dann weiterhin besetzen.

Zu interpretieren ist das dann in der richtigen Reihenfolge, wobei „richtig“ in diesem Falle aufsteigende Linklevel meint.
Bei LL59 sind (in dieser Reihefolge) die Zustaende 27, 30, 22, 26, 26, 24, 31, 40, 34, 34, 34, 38, 31, und 37 (man beachte die Mehrfachnennungen gewisser Zustaende!) durch die Gruppen Xi, Nu, Mu, Lambda, Kappa, Iota, Theta, Eta, Zeta, Epsilon, Delta, Gamma, Beta, und Alpha besetzt, welche sich jeweils in den Jahren 1930, 1931, 1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, 1942 und 1943 befinden. … … … Ich gebe zu, dass ich das nur so weit getrieben habe, weil ich schon immer mal das Symbol fuer Xi benutzen wollte … tihihi.
Beim Schritt zu LL60 bewegen sich alle Gruppen ein Jahr rueckwaerts und in die entsprechenden Zustaende; Gruppe Alpha zu Zustand 31, Gruppe Beta zu Zustand 38, Gruppe Gamma zu Zustand 34 usw. Gruppe Xi steigt aus.
Dito beim Schritt zu LL61; Gruppe Alpha zu Zustand 38, Gruppe Beta zu Zustand 34, Gruppe Gamma (ebenso) zu Zustand 34 usw. Gruppe Nu steigt aus.
Das Beschriebene ist entsprechend im linken Teil des obigen Diagramms markiert und die geneigte Leserin oder der geneigte Leser møge den blauen Pfeilen im Diagramm (und somit Gruppe Alpha) folgen um mittels dieser Argumentation bis zum Ende zu gelangen.

Zum Abschluss sei dies gesagt: die Anzahl der totalen Links der Saisons des São Paulo FC stimmt (zum Ende des Linknetzwerkes) auf so vielen Linkleveln mit den besetzten Zustaenden ueberein, dass dies ein extrem starkes Indiz fuer die Richtigkeit der Hypothese ist.
ABER, dadurch dass ich nicht im Einzelnen nachvollziehen kann, welche Seite auf welchem Linklevel zitiert werden, kønnte es immer noch sein, dass das einfach nur Zufall ist. Oder anders: es ist møglich dass die drei Wikipediaseiten von Gruppe Alpha am Ende alle in drei verschiedenen Seiten sind, die zufaelligerweise alle 27 Links haben. Ich gebe zu, dass das aber schon ungeheure Zufaelle sein muessten, wenn das bei so vielen Linkleveln komplett uebereinstimmen soll. Die Chance dafuer ist also sehr klein, aber nicht null.

Heute habe ich mir nur die Position der besetzten Zustaende angeschaut, aber nicht wie „voll“ diese sind. Diese Information und wie sich der „Fuellstand“ „zeitlich“ entwickelt werde ich beim naechsten Mal untersuchen — Spoiler: was ich dort sehe bringt die Sicherheit fuer die Richtigkeit der Hyptohese so nahe an 100 %, dass die verbleibende potentielle Møglichkeit der Unsicherheit nicht mal mehr als „Rundungsfehler“ gelten kønnte.
Dafuer muss ich eine coole Achsentransformation durchfuehren … und um all das zu erklaeren brauche ich ein paar Wørter, aber dieser Beitrag hier ist schon so lang.

Nun habe ich all das untersucht und so viel dazu geschrieben und dann steht da pløtzlich „Dekonstruktion“ im Titel … *seufz* … … … Aber der Reihe nach.

Zunaechst ist zu sagen, dass alles was ich schrieb und beobachtete tatsaechlich in den Daten vorkommt. Das ist also in dem Sinne „die Wahrheit“, dass das nicht durch Schummeln herauskommt. Waere ja auch wenig sinnvoll von mir, soviel Zeit in eine Sache zu stecken nur um irgendwen zu beeindrucken … zumal ich nicht wirklich denke, dass das hier wer liest … naja, vllt. der kleine Mann *wink*.

Aber dann ist mir aufgefallen, dass der Anfang des Phaenomens welches ich hier als die „2. Phase“ (oder „feste Phase“) bezeichne, verdaechtig mit dem Beginn der fruehen „Ausstiege“ zusammenfaellt.
Zu Letzteren schrieb ich,

[…] dass jede einzelne dieser Seiten vom Typ XXXX São Paulo FC season war, wobei das XXXX fuer ein Jahr steht. Beispielsweise 1944 São Paulo FC season oder 1980 São Paulo FC season oder 1994 São Paulo FC season usw. usf.

Genauer gesagt gehen die Jahre von 1930 bis 1994 und die Links bilden eine schøne Kette. Das heiszt, dass ein gegebenes Jahr viele Links hat, aber fast alle von diesen wurden beim Durchlaufen des Linknetzwerk bereits besucht; diese sind also KEINE validen Ausgaenge. Uebrig bleiben nur zwei potentielle Ausgaenge: die Links zu den Saisons des vorigen und des naechsten Jahres. Nun muss man aber irgendwo in die Kette einsteigen muss und sich dann die Jahre entweder vorwaerts oder rueckwaerts entlanghangeln. Deswegen wirkt einer dieser zwei Links als „Eingang“ und somit bleibt nur der andere Link als Ausgang.
Die Situation sieht also theoretisch so aus: … <=> 1977 <=> 1978 <=> 1979 <=> 1980 <=> 1981 <=> 1982 <=> 1983 <=> 1984 <=> …

Auch wenn es eines der Resultate vorweg nimmt, so sei hier gesagt, dass die (hier relevanten Teile dieser) Kette immer in die gleiche Richtung, naemlich rueckwaerts gehen. Das wuerde bedeuten, dass die Linknetzwerke aller Wikipediaseiten bei der Saison des São Paulo FC des Jahres 1930 enden.

Ich erwaehnte ebenso bereits, dass dies wenn dann ein Artefakt der Behandlung der Daten waere, weil diese validen Links aus der Infobox stammen und ich Daten daraus eigentlich nicht beruecksichtigen wollte. Aber in diesen Faellen ist besagte Infobox derart im Quelltext kodiert, dass sie nicht rausgefiltert wurde … *seufz*.

Dies als Vorrede um das vermutete Problem etwas naeher zu beleuchten. Weil es so wichtig ist bzgl. dessen was ich in den vorherigen Beitraegen beschrieb, untersuchte ich genau dieses Problem genauer.
Ich kann leider keine _direkten_ Beweise dafuer anfuehren. Dafuer haette ich fuer jede Seite auf jedem Linklevel registrieren muessen, welche Seiten verlinkt werden. Das waere eine dreidimensionale Matrix mit ca. 6 Millionen Wikipediaseiten mal 6 Millionen Wikipediaseiten mal 100 Linklevel = 3.6 mal 1015 Eintraege. Beim Durchlaufen des Linknetzwerks wusste ich noch nicht wo das maximale Linklevel liegt, deswegen hier die 100. Sechs Billiarden ganze Zahlen wuerden selbst in C und mit dem „char-Trick“ mindestens 3.6 PetaBytes (!) belegen … so viel Platz habe ich nicht. Und selbst wenn ich so viel Speicher haette, wuerde ich dann vor dem naechsten Problem stehen, dass das pro Wikipediaseite Hunderte von Millionen Schreibvorgaenge waeren. Prinzipiell passt dies fuer eine Seite alles in den RAM und das waere relativ schnell. Aber ich habe sechs Millionen Seiten und alles was im RAM ist, muss nach der Analyse des Linknetzwerkes permanent gespeichert werden. Letzteres ist URST lahm und damit waere das dann wieder nicht møglich gewesen.
Aber ich gebe zu, dass ich mit der Idee spielte.

Ein Kompromiss ist, was ich hier beschrieb. Aber soweit bin ich noch nicht in meiner Analyse.

Deswegen bringe ich in den naechsten zwei Artikeln dieser Reihe starke, wenn auch indirekte, Beweise, dass obige Hypothese — dass (fast) alle Linknetzwerke auf dieser Seite enden — richtig ist.

Das ist zwar etwas komplizierter, beleuchtet aber mehrere Aspekte ganz gut, bzgl. dessen wie ein Data Scientist arbeiten sollte. Und weil dies ja auch ein Grund fuer diese Serie ist, werde ich das dann doch alles darlegen … davon abgesehen, dass ich das durchaus spannend fand :) .

Das fand ich zu witzig, als das ich das nicht hier mal reinstellen muesste:

Gefunden auf dem Bahnhof in Sundsvall.

Trondheim hat im Winter richtig schlechte Luft. Das mag man gar nicht so glauben bei der Naehe zur Natur und zum Fjord.

Andererseits finden die Leute Holzøfen voll toll. Ist doch so gemuetlich und wenn man das Holz kauft wenn’s billig ist, dann kann es sogar die Stromkosten senken. Auszerdem ist’s klimaneutral! … Stimmt ja alles, aber der Rauch von zehntausenden Privathaushalten wird ja doch in die Umwelt geblasen.

Hinzu kommt, dass die Leute hier alle Auto fahren „muessen“ … der Kindergarten liegt doch so weit weg, oder die Arbeit, oder weil man am Ende des Tages doch schnell noch einkaufen fahren muss, oder weil Schnee und Eis das Vorankommen mittels anderer Verkehrsmittel so schwer machen … oder weil man ja irgendwie das Holz fuer den Ofen transportieren muss … *mit den Augen roll* … aber OK, individuelle Gruende versteh ich schon … ehrlich … ist im gesellschaftlichen Kollektiv nur suboptimal *seufz*. Jedenfalls haben wir also noch mehr Zeug in der Luft von den Abgasen und leider leider leider sind Dieselautos hier beliebt.
Das Probelm løst sich aber nur zu ca. 1/4 durch Elektroautos, denn im Winter brauchen die Autos Stachel an den Reifen. Wirklich nuetzlich sind die in der Stadt aber nur bei der Garageneinfahrt (etwas uebertrieben gesagt) und kurz nachdem neuer Schnee gefallen ist. Die meisten Straszen sind aber meist ziemlich gut freigeraeumt. Das soll bitte nicht missverstanden werden. Schon aus Sicherheitsgruenden sind Stacheln an den Reifen wichtig! Wenn aber Stacheln an den Reifen sind, dann nutzt das die Strasze mehr ab (wenn kein Eis drauf liegt wie in der Garageneinfahrt) und dieser (Fein)Staub wird dann schøn aufgewirbelt und steht dann in der Luft, fuer die Menschen zum einatmen.

Auszerdem kann es im Winter (oder im fruehen Fruehling) relativ kalt und trocken sein. Dann ist kein Schnee(matsch) (oder Wasser) auf den Straszen, der den erwaehnten Staub bindet und die Leute heizen mit den Holzøfen, damit die Elektroheizung nicht so dolle arbeiten muss. Wobei die Trockenheit sich viel mehr bemerkbar macht als die Kaelte (auszer wenn’s richtig kalt ist). Da kann man die Luft manchmal „schneiden“ wenn die Leute alle von der Arbeit nach Hause fahren :(
Und dann weht oft auch kein Wind, der den Staub aus der Stadt tragen kønnte … *seufz* … Smogcity … *doppelseufz*

Aber vor mittlerweile ueber einer Dekade, zur Zeit meiner ersten Doktorarbeit, meinte mein „Betreuer“ (die Anfuehrungszeichen deswegen, weil da nicht viel Betreuung (ohne Anfuehrungszeichen) war), dass das frueher noch viel schlimmer war.

Gesetze zur Verbesserung der Luftqualitaet fuehrten bei Autos zum weitverbreiteten Einsatz von Katalysatoren und effektiveren Motoren … wer haette das gedacht, dass die Groszindustrie was tut, wenn man sich nicht auf „Selbstkontrolle“ verlaeszt, sondern externe Anreize (in Form von Buszgeldern) schafft.
Bei der Stadtplanung fuehrten die Gesetze zu mehr verkehrsberuhigten (und -freien) Zonen, Verboten Kohle direkt zu verfeuern und zumindest in Norwegen dem Gebot bessere Øfen (welche Holz besser, weil vollstaendiger, verbrennen) zu verbauen.

Das passierte natuerlich nicht alles auf einmal in den 80’ern. Entsprechende Gesetze gab es schon vorher, doch oft nur lokal begrenzt (bspw. in London bereits in den 50’er). Ebenso war das nach den 80’ern nicht vorbei, sondern geht im Wesentlichen auch heute noch vor sich.

An die wirklich schlechte Luft erinnere ich mich nicht. Das war vor meiner Zeit (und weil ich auf’m Dorf aufgewachsen bin). Aber die Gesellschaft hat’s leider auch vergessen, was man nicht zuletzt daran sieht, dass man bei der Feinstaubdebatte viel zu oft hørt, dass das doch alles nicht so schlimm sei … und das wurde bei den Zigaretten auch schon gesagt und wer Beispiele aus noch frueheren Zeiten møchte, dem lege ich Marx‘ Das Kapital ans Herz.

Aber eigentlich ist dieses Vergessen mal wieder ein Ausdruck fuer den groszen Fortschritt den wir diesbezueglich gemacht haben.

Das hier wird keine richtige Fehlerbetrachtung. Aber hier sagte ich, dass ich 0.1 % aller „Ereignisse“ als Ausreiszer ansehe und diese bei den beim letzten Mal durchgefuehrten Betrachtungen nicht beruecksichtige. Die 0.1 % wuerde bei ca. 6 Millionen Wikipediaseiten bedeuten, dass (høchstens) ca. 3-tausend Seiten jeweils am Anfang und Ende der Verteilung(en) pro Linklevel wegfallen wuerden.

Ich gab zu, dass ich den konkreten Wert von 0.1 % hauptsaechlich aus aesthetischen Gruenden waehlte, dass man das Wesentliche aber auch sieht, wenn man (viel) weniger „Ereignisse“ als Ausreiszer definiert, wenn man weisz, wonach man gucken muss. Und hier ist der „Beweis“ dafuer:

In blau ist hier wieder das Ergebniss vom letzten Mal dargestellt und die rote Kurve ist das Gleiche, aber wenn man „vorne und hinten“ nur jeweils ca. 30 Ausreiszer rausschmeiszt.
Wie erwaehnt, sieht man auch dann noch alles, was ich beim letzten Mal als Resultat meiner Betrachtungen erwaehnte. Nur eben nicht mehr ganz so schøn — das erste Plateau ist kein richtiges Plateau mehr, die eigentlichen Uebergaenge sind nicht ganz so eindeutig und alles „zappelt“ mehr. Aber die entscheidenden Merkmale sind definitv noch da.

Das zweite Plateau ist in beiden Faellen beinahe identisch ist. Das liegt daran, dass ich Ausreiszer lieber dringelassen habe, wenn die Anzahl der „wegzuschneidenden“ Elemente mitten in einen Zustand fiel. Ich erklaerte das im Detail im verlinkten Beitrag. Im Falle der 0.1 % Ausreiszer zeigt dieses Diaramm, dass da (fast) alle Daten dringeblieben sind.

Ich wollte das hier mal erwaehnt wissen.

Wie beim letzten Mal gesagt, heute nun endlich:

„Butter bei die Fische“.

Und nach den langen Vorreden die letzten Male, gehe ich heute gleich in die Vollen und zeige sofort das Ergebniss (ACHTUNG: bei den hier dargestellten Daten wurden die Ausresizer rausgeschmissen, so wie beim letzten Mal diskutiert):

Cool wa! … Aber was ist hier eigentlich dargestellt?
Nun ja, das steht an der Abzsisse dran: ich habe mal geschaut, wie sich der Anteil der tatsaechlich besetzten Zustaende in Bezug zur Anzahl aller møglichen (und plausiblen) Zustaenden entwickelt.

OK, das ist leicht zu verstehen … aber was passiert hier eigentlich? … Øhm, das zu erklaeren dauert etwas laenger.
In der „Gasphase“ ganz am Anfang sind alle møglichen Zustaende auch mit mindestens einem „Partikel“ / Wikipediaseite besetzt. Waehrend des „Aufheizens“ steigt die Anzahl der _møglichen_ Zustaende stark. Beim vorletzten Mal haben wir gesehen, dass die Anzahl der tatsaechlich besetzten Zustaende auch stark ansteigt. Ersteres geht schneller als Letzteres und deswegen wird der hier dargestellte Quotient (multipliziert mit 100 um den Anteil zu erhalten) entsprechend kleiner. Das Tal zwischen LL3 und LL7 liegt daran, dass ich nur ca. 6 Millionen „Partikel“ habe. Die Konsequenzen dieser Limitierung wurde auch bereits beim vorletzten mal besprochen.
Waehrend des „Abkuehlens“ nimmt die Anzahl der møglichen Zustaende ab und das System besetzt mehr und mehr dieser _møglichen_ Zustaende, die somit _tatsaechlich besetzte_ Zustaende werden. Irgendwann sind alle „Partikel“ „kondensiert“ und (im Wesentlichen) wird jeder møgliche Zustand ab LL13 auch (von mindestens einer Seite) besetzt. Das System ist komplett von der „gasførmigen“ in die „fluessige Phase“ uebergegangen und dieser Phasenuebergang fuehrt zu einem „Plateau“ in der blauen Kurve. Dies bleibt so bis ca. LL43/44. Dann passiert etwas Interessantes: Der Anteil der besetzten Zustaende faellt sprunghaft auf 60 %. Das ist das erwaehnte pløtzliche „Gefrieren“ — ein weiterer Phasenuebergang.

Das das Signal am Ende so „zappelt“ liegt daran, dass ich hier im Bereich unterhalb von 100 Zustaenden, ab ca. LL50 sogar unterhalb von 10 Zustaenden arbeite. Da fuehren dann bspw. zwei zusaetzliche besetzte Zustand zu einem deutlichen Unterschied im Signal. Aber trotz dieser unguenstigen Voraussetzungen erkennt man dennoch eindeutig, dass die „feste Phase“ ein zweites, unabhaengiges Plateau bildet.
Umgekehrt sind diese unguenstigen Voraussetzungen auch genau der Grund warum ich meinem Bauchgefuehl echte Daten folgen lassen wollte. Denn das Gefrieren in nur ganz wenige Zustaende haette ja auch eine Art optische Taeuschung sein kønnen. Durch die logarithmische Komprimierung sehe ich naemlich gar nicht, ob bei 10-tausend totalen Links nicht vielleicht auch nur 50 % aller møglichen Zustaende besetzt sind.

Und das ist sooo krass, dass man durch „richtige“ Betrachtung der Daten den Phasenuebergang von „fluessig“ zu „fest“ (und eigentlich auch von „gasførmig“ zu „fluessig“) so klar sieht.

Ich bin aber noch nicht fertig damit, doch bevor ich weitermache zunaechst ein kurzer Einschub: normalerweise mag ich diese Art der Darstellung in einem Liniendiagramm nicht. Ich bevorzuge Punktdiagramme, denn die Linien sind ueberfluessig, gar irrefuehrend. Die Daten sitzen an bestimmten Punkten und dazwischen gibt es nix. Manchmal benutze ich diese Art der Darstellung dennoch, weil es dem Auge des Betrachters eine Art „Stuetze“ gibt, die hilft dem Verlauf besser zu folgen. Ich erwaehne dies, weil Daten oft bescheuert praesentiert werden und so viel vom Informationsinhalt unter und deswegen oft verloren geht.
Heute habe ich diese Form nicht als Stuetze fuer das Auge gewaehlt. Der Verlauf ist hier (erstmal) nicht so subtil, dass das vonnøten waere. Aber im naechsten Diagramm gibt es (mehr oder weniger) subtile Unterschiede die man besser sieht, wenn man eine Linie (anstatt von Punkten) benutzt. Damit das konsistent bleibt auch im obigen Diagramm eine Linie.

Letzteres ist auch der Grund warum die obige Linie ausnahmswiese blau ist. Die Farben rot und schwarz habe ich beim vorletzten Mal benutzt. Dort habe ich auch versprochen, dass diese Daten nochmals (in leicht modifizierter Form) auftreten werden. Nun ja, hier sind sie nun (in leicht modifizierter Form):

Die rechte Ordinate ist fuer die schwarze und die rote Kurve(n). Diese Kurven entstanden, indem ich die Anzahl der tatsaechlich besetzten (schwarz) und totalen Zustaende (rot) durch die Anzahl der (noch nicht ausgeschiedenen) Seiten dividiert habe.

Die Gruende fuer den Verlauf der Kurve wurde bereits oben (und beim letzten Mal) besprochen. Wie zu erwarten ist der Wert der Amplitude des Maximums der schwarzen Kurve ungefaehr eins (etwas kleiner, weil ca. 15 % aller Zustaende mehrfach besetzt sind) und die Anzahl der møglichen Zustaende (rote Kurve) ist ungefaehr zehn mal grøszer.
Etwas Interessantes passiert bei ca. LL23/13: hier fallen beide Kurven zusammen. Auch das war zu erwarten, denn die blaue Kurve geht bei diesem Linklevel zum ersten Plateau ueber mit einem Wert von 100 %. Das Interessante ist also nicht unerwartet.
Aus den selben Gruenden ist die Separation der beiden Kurven bei ca. LL44/45 nicht unerwartet. Nun wird’s aber interessant.

Der Grund fuer den Unterschied zwischen der roten und der schwarzen Kurve im Maximum waehrend des „gasførmigen Phase“ war, dass es einfach zu viele Zustaende gibt und diese mit der begrenzten Anzahl an „Partikeln“ nicht besetzt werden kønnen. Das ist aber bei der „festen Phase“ mitnichten der Fall! Jeder møgliche Zustand kønnte dort mehrere hundertausend Mal besetzt werden. Es sollte also keine Separation geben! Dass es diese dennoch gibt, ist natuerlich ein weiterer Hinweis darauf, dass das System der Wikipediaseiten (oder mglw. das System der Linknetzwerke) tatsaechlich „physikalisch“ zwei sehr unterschiedliche Dinge bei hohen bzw. niedrigen Linkleveln ist.
Was genau diese zwei „Dinge“ sind kann ich nicht beantworten. Denn „fluessig“ und „fest“, wie in der physikalischen Bedeutung dieser zwei Wørter, sind die Seiten ja schlieszlich nicht. Und wie eben kurz in der Klammer im vorigen Satz erwaehnt, sind es mglw. auch gar nicht die Wikipediaseiten selber, sondern deren Linknetzwerk (was ja noch einen Schritt „aetherischer“ ist).

Aber genug fuer heute. Ich bin maechtig stolz darauf, dass ich zwei Phasenuebergaenge entdeckt habe. Oder vielmehr habe ich das intuitiv in den Daten erkannt und die eigentlich spannende Information dann aus selbigen herausgekitzelt.

Trotz des Gebrauchs aehnlicher Wørter im Titel, hat dieser Beitrag nix mit dem hier zu tun.

Neulich ist mir aufgefallen, dass ich vier unterschiedliche Wørter fuer Wurst (bzw. Wuerstchen) kenne. „Wurst“ an sich aus der dtsch. Sprache, „sausage“ aus der englischen Sprache (wobei ich vermute, dass es aus dem Franzøsischen uebernommen wurde), „pølse“ aus dem Norwegischen und Daenischen und in Schweden verwirrte mich zunaechst der Gebrauch des Wortes „korv“.
Ich konnte beim besten Willen keinen gemeinsamen Wortstamm entdecken. Nicht mal zwischen der norwegisch/daenischen und der schwedischen Variante. Also setzte ich mich mal hin und schaute nach wo diese Wørter herkommen.

Zunaechst war interessant, dass alle diese Wørter aus dem Mittelalter stammen. Oder naja … das was Leute wie ich uns unter „Mittelalter“ vorstellen. Das waren schlieszlich 1000 Jahre Geschichtsschreibung, in denen sehr viel passiert ist und die in unterschiedliche Phasen (keine davon „dunkel“!) eingeteilt werden kann.
Aber ich schweife ab, denn interessant fand ich das deswegen, weil die Methode Fleisch zur Haltbarmachung zu raeuchern und in Daerme zu packen, um dieses laengere Zeit aufzubewahren, ganz sicher deutlich aelter ist als das Mittelalter. Das ist dann auch als die Hypothese fuer diesen Beitrag anzusehen: die Wørter haben was mit der Herstellung oder Lagerung von „Saecken“ mit Fleisch drin zu tun.

Ich fange mal mit der „Wurst“ an.
Der Ursprung dieses Wortes ist nicht genau bekannt, aber dessen indo-germanische Wurzel gehørt in die Wortfamilie der Aktivitaeten des Drehens, Wendens und Rollens und den Produkten solcher Aktivitaeten.
Die Wurzel „uert“ scheint eine Verbindung zum lateinischen „vertere“ oder dem sanskrit „vrt“ zu haben. Beide Wørter bedeuten Drehen/Wenden. Wenn man bedenkt, wie der Inhalt der Wurst zusammengemixt wird, sehe ich dies als ersten Hinweis an, der die Hypothese unterstuetzt.

Nun zur englischen „sausage“.
Wie vermutet gelangte es in die englische Sprache via des Franzøsischen „saussiche“. Aber der Ursprung liegt im Lateinischem „salsica“ welches wiederum von „sallere“ abstammt … und das bedeutet „salzen“.
Ein weiterer Hinweis der obige Hypothese unterstuetzt, dass die Wørter was mit der Herstellung zu tun haben.
Dies ist uebrigens der gemeinsame Ursprung aller Wurstwørter in romanischen Sprachen. Als ein weiteres Beispiel gebe ich mal das portugisische „chouriça“ an.

Nun die norwegisch/daenische „pølse“.
Wie schon bei der „Wurst“ ist der Ursprung nicht ganz klar, aber es mag verwandt sein zum niederlaendischen „peul“. Letzteres ist die Erbsenschale und es hat die gleiche Wurzel „bule“ — Beule.
Die Verbindung liegt hier also nicht beim verdrehten und gesalzenem Inhalt sondern darin wie dieser gelagert wird: in laenglichen „Saecken“, so wie Erbsen.

Und zum Abschluss die schwedische „korv“.
Wiedereinmal ist der Ursprung nicht ganz klar … das scheint ein (weiteres) gemeinsames „Thema“ zu sein. Wieauchimmer, „korv“ ist aehnlich zum islaendischen „kurfr“– (ab)geschnittenes Stueck — und dem altenglischen „cyrf“ — „to carve“, schneiden.
Der folgende Schluss ist mglw. ein bisschen weit hergeholt, aber soweit ich weisz, sind Wuerste (mehr oder weniger) kontinuierlich, oder vielmehr in ziemlich laengen Daermen, und kuerzere Stuecke werden davon abgeschnitten. Dies sehe ich somit als den vierten Hinweis, der meine Hypothese vom Anfang bzgl. der Herkunft dieser vier verschiedenen Wørter unterstuetzt.

Innerhalb dieses informellen Rahmens sind weitere Untersuchungen nicht notwendig. Ich fand es interessant, dass trotz der gleichen Sache und trotz des gleichen Kulturkreises diese vier Wørter sprachlich-technisch tatsaechlich keinen gemeinsamen Ursprung haben. Die Verbindung wird erst durch die Semantik der Wørter hergestellt — was ja meine Hypothese war.