Archive for the ‘Kevin Bacon’ Category

Beim letzten Mal fuehrte ich ein, dass die Linkfrequenz die „Antwort“ des Ensembles aller Wikipediaseiten auf eine „Anregung“ darstellt (bzw. einen spezifischen Teil der Antwort).
Weiterhin habe ich etabliert, dass die Ketten zwar eine Ausnahme aber ein Charakteristikum des Wikipedianetzwerkes ist.
Nun war es so, dass ich die Ketten ueberhaupt erst entdecken und untersuchen konnte, weil fuer die kettenkonstituierenden Seiten die „Antwort“ des Ensembles anders ist. Oder anders ausgedrueckt, das Ensemble „reagiert“ auf die Ketten anders als auf den Rest des Wikipedialinknetzwerkes.

All das zusammen bringt mich wieder zur Idee der Phasen und eines Phasenuebergangs zurueck. Vor ueber einem Jahr verwarf ich die Idee nach einer laengeren Diskussion wieder, weil ich die Daten fuer ein Artefakt hielt. Nun weisz ich aber, dass das Signal echt ist und durch die Ketten zustande kommt.
Oder anders: das „gasførmig“ „herumwuselnde“ Ensemble „kondensiert“ in die (mehr als) ca. 100 Ketten die alle als 1 Zustand gesehen werden kønnen. Dort sind die „Bewegungsmøglichkeiten“ (die Anzahl der Links) der das Ensemble konstituierenden Seiten massiv „eingeschraenkt“.
Insbesondere gilt fuer den nunmehr „fluessigen Zustand“, dass die neuen (also die Reaktion / Bewegung erhaltenden) Links nur noch in eine Richtung gehen. Oder anders: das Ensemble kann nicht von der 1980 Saison des „São Paulo FC“-Artefakts in die 1969 Saison springen ohne Schritt fuer Schritt alle dazwischenliegenden Saisons durchzugehen. Fuer alle Seiten die NICHT zu einer Kette gehøren (also im „gasførmigen“ Zustand sind) ist dies aber møglich (und passiert auch).

Das Ensemble verhaelt sich also komplett anders in diesem „fluessigen Zustand“ als vorher. Weil die Unterschiede zwischen „vorher“ und „nachher“ grosz genug sind, kønnen diese beiden „Zustaende“ meiner Meinung nach tatsaechlich als Phasen bezeichnet werden.
Ehrlich gesagt, hat mich das etwas ueberrascht … aber die Entdeckung der Ketten (oder Archipele) hat mich ja auch etwas ueberrascht … und das trotzdem ich deren Existenz irgendwie erahnte.

Das „São Paulo FC“-Artefakts, welches als einzige Kette ab LL47 uebrig bleibt, kønnte man als ein „Ausfrieren“ in einen „festen Zustand“ ansehen. So weit wuerde ich aber nicht gehen, denn das Verhalten des Ensembles aendert sich dort nicht weiter … es ist also immer noch die gleiche Phase wie auf LL37, nur halt eben mit nur noch einer Kette.

Die Frage ist jetzt, wo der Phasenuebergang stattfindet. Aus den hier gezeigten Daten bzgl. der Entwicklung der Ketten pro Linklevel wuerde ich sagen, dass das so ca. ab LL10 stattfindet. Vermutlich NICHT sehr viel eher. Ebenso wuerde ich sagen, dass das Ensemble die neue Phase definitiv ab LL20 angenommen hat. Wahrscheinlich gilt dies fuer den allermeisten Seiten schon ab LL15 (aus den Daten zur Entwicklung der „Patchworkfamilien“ schlieszend).
Das ist also ein kontinuierlicher (wenn auch schneller) Prozess, was einen Phasenuebergang 2. Ordnung charakterisiert.

Jetzt wo das etabliert ist, stellt sich die Frage des Ordnungsparameters … und das behandle ich beim naechsten Mal.

Die Suche nach Ketten war sehr erfolgreich, unter den potentiellen Kandidaten befanden sich aber auch falsche positive Resultate, also scheinbare Kettenseiten die keinen „wahren“ Ketten zuzuordnen sind.
Ausgangspunkt der Suche war die Nutzung des Linkfrequenzsignals zur Vorsortierung um potentielle Kandidaten zu finden. Danach schaute ich entweder nach „Familiennamen“ bzw. welche Seite welche anderen Seiten zitiert um auch die „Patchworkfamilien“ und Anhaenger zu finden. Da lag es natuerlich nahe, dass ich eine ganze Weile darueber nachdachte ob Letzteres nicht von Anfang an genutzt kønnte um ohne Vorsortierung Ketten zu finden … also so ’ne Art ab inito Analyse. Zu meiner Unzufriedenheit fuehrten diese Ueberlegungen immer in die gleichen Sackgassen die sich alle mit diesem Bild zusammenfassen lassen:

Hier hat man alles: die Kette an sich (Punkte mit roter Umrandung), den Einstiegspunkt (links oben) und das Ende der Selben (mittig unten), abzweigende Ketten (bspw. (aber nicht ausschlieszlich) zu Anhaengern) die Teile der eigentliche Kette „mitbenutzen und ganz wichtig, Teile des direkt „angeschlossenen“ Gesamtwikipedialinknetzwerkes. In kurz: die Kettenseiten sind (selbstverstaendlich!) Teil des Netzwerkes ALLER Wikipediaseiten.
Der Begriff „Kette“ gaukelt leider vor, als ob die nur fuer sich stehen und leicht zu erkennen sind. Ich muss zugeben, dass die Art wie ich das Phaenomen bisher darstellte zu diesem Eindruck beitraegt. Zur Rechtfertigung kønnte ich heranziehen, dass das daher kam, weil Kettenseiten im Linkfrequenzsignal auch scheinbar (!) so aussehen; am Anfang solcher Seiten passiert „nix“ und  erst zum Ende ist ueberhaupt ein nennenswertes Signal da … was ja falsch ist, denn ueber alle Linklevel gibt es ein Signal, aber das ist minimal und ich habe das einfach nicht weiter betrachtet, weil es nicht nuetzlich war.

Das bedeutet, dass der oben erwaehnte ab initio Ansatz doppelt gemoppelt ist, denn dieser wuerde wieder das gesamte Netzwerk untersuche eben mit den Kettenseiten als Ausgangspunkt … und das habe ich ja schon gemacht.

Das wiederum brachte mich dazu mir mal zu ueberlegen, was das „Kettenseitensignal“ in der Linkfrequenz ueberhaupt ist und in kurz ausgedrueckt (unter Zuhilfenahme einer der Physik entliehenen Terminologie) ist es die „Antwort“ des Ensembles (aller Wikipdiaseiten) auf eine „Anregung“ … … … oioioi … hier gibt es drei Sachen zu „entpacken“.

Die „Anregung“ ist nur der Start der Analyse, also das „Anschubsen“, damit die Ursprungsseite (ueberhaupt erstmal) „los geht“ und allen (neuen) Links auf LL0 folgt. So lange es neue Links gibt ist das eine sich selbst erhaltende „Reaktion“.
Mit „Ensemble“ ist die Gesamtheit ALLER Wikipediaseiten gemeint, inklusive der Kettenseiten. Wie oben dargestellt, sind die Kettenseiten (selbstverstaendlich) Teil des Ensembles.
Die Frage zur „Antwort“ ist im Wesentlichen: wann „kollidieren“ (oder sehen) die Seiten des Ensembles zum ersten Mal mit gegebenen anderen Seiten (des selben Ensembles). Damit ist die „Antwort“ selber das was man im Linkfrequenzsignal sieht. Prinzipiell kønnte man das als sowas wie eine „mittlere freie Weglaenge“ betrachten.

Weiterhin ist es nun so, dass die (meisten) Kettenseiten im Durchschnitt viel spaeter mit dem Rest des Ensembles „kollidieren“ als (fast) alle anderen Seiten. DAS ist das Erkennungsmerkmal (aber nicht Alleinstellungsmerkmal!) von Kettenseiten. Daraus folgt dann zwingend: so lange ich die „Antwort“ des (gesamten) Ensembles auf die „Anregung“ nicht kenne, kann ich Kettenseiten nicht identifizieren.
Das habe ich also von Anfang an (vermutlich eher unbewusst … naja … vielleicht semi-bewusst) gemacht, weil ich das Linkfrequenzsignals zur Vorsortierung nutzte; ich hatte nur keine Terminologie dafuer um den Prozess und was dahinter steht systematisch zu beschreiben.

Nun ist es aber so, dass die „Kettensignalantwort“ aber auch von Seiten kommen kann, die keine Kettenseiten sind. Wenn man die Antwort des Ensembles kennt, also Kandidaten schon vorsortiert hat, kann man dann den ab inito Ansatz hernehmen (der dann natuerlich NICHT mehr ab inito ist! … aber die Herangehensweise bleibt erhalten) und den allen wer-zitiert-wen-Links folgen … was das ist was ich gemacht hatte um „Patchworkfamilien“ und Anhaenger zu finden. Zu dem Zeitpunkt hat das Ensemble ja schon „geantwortet“ (ich habe Kandidaten vorsortiert) und dadurch fallen extrem viele Pfeile in der obigen Abbildung weg. Man folgt nur noch den wenigen Verbindungen die grob vereinfachend gesagt noch keine „Kollision“ erfahren haben (oder erst ganz kurz vorher), was sich dadurch ausdrueckt, dass sie eben auch als potentielle Kandidaten fuer Kettenseiten „vorsortiert“ wurden.

In diesem Bild des Ensembles welche auf eine „Anregung“ „antwortet“ komme ich wieder auf eine Idee zurueck, die vor laengerer Zeit bereits vorgeschlagen, naeher untersucht und durch die unzureichende Datenlage wieder verworfen wurde. Das wuerde hier aber zu einem all zu lagen Artikkel fuehren und ich verweise auf das naechste Mal.

Warum das Ganze? Warum habe ich mich so ausfuehrlich mit einer Sache beschaeftigt, die im gesamten Wikipedialinknetzwerk weniger als 1 Promille (!) aller Seiten ausmacht?

Die Antwort auf die Frage ist ganz einfach: weil dieser Prozess das ist was Wissenschaft ausmacht und das finde ich persønlich sehr spannend und auf verschiedene Arten aeuszerst befriedigend. Man beachte das Wort „Prozess“, denn es geht dabei nicht nur um das Endresultat, sondern auch wie man dort hingelangt.
Verkuerzend gesagt fuehrte die Untersuchung und das systematische Verstehen des Zustandekommens einer Kuriositaet im (wieauchimmer gearteten) Signal nicht nur zu einem generellen Erkentnissgewinn sondern auch zur Entdeckung einer bisher unbekannten Sache.

Hier war es ein langer Schwanz bis ueber LL59 hinaus in allen Signalen. Bei den Archipelen war ein Balken in einem Histogramm mit vielen Balken etwas høher als erwartet.
Hier hielt ich es urspruenglich fuer ein Artefakt der urspruenglichen Datenaufbereitung. Bei den Archipelen haette ich es einfach auf die nicht zitierten Seiten (spaeter als „isolierte Insel der Unzitierten“ bezeichnet) schieben kønnen. In beiden Faellen haette ich die „kleinen Reste“ die nicht unter diese Erklaerungen fallen in den schon oft erwaehnten Fehler „schieben“ und es dabei belassen kønnen ohne schwerwiegende Konsequenzen fuer die allgemeineren Resultate. Letzteres ist durchaus legitim wenn die Effekte ohnehin nicht viel ausmachen.
Beide Male beschaeftigte ich mich aber mit einer Winzigkeit in der Menge aller Wikipediaseiten und machte nur dadurch die coolen Entdeckungen :) .

Was hat das nun alles mit dem Ende der Dinosaurier zu tun. Nun ja, das ist einfach zu erklaeren und ich verweise sogleich auf den schønsten wissenschaftlichen Artikel den ich in meinen ueber 40 Jahren in diesem Universum gelesen habe (und mir sind ein paar wirklich Gute untergekommen in der ganzen Zeit). Ich meine „Extraterrestrial Cause for the Cretaceous-Tertiary Extinction“ … *hust* … von Luis W. Alvarez, Walter Alvarez, Frank Asaro und Helen V. Michel in Science 208 (4448), 1980, pp. 1095–1108.
Das ist der Artikel in dem das erste Mal das Aussterben der Dinosaurier ganz konkret in Form von Beweisen mit dem Einschlag eines Asteroiden in Verbindung gebracht wurde.

Ein Artikel der irgendwie mit Dinosauriern UND dem Weltraum zu tun hat ist ja an sich schon cool. Aber dann wird auch noch ein irgendwie mystisches Material untersucht … und mag mir hier niemand behaupten, dass Iridium so banal wie Eisen oder Aluminium ware.

Aber warum der Artikel fuer mich den Status des schønsten wissenschaftlichen Artikels (ever) hat liegt daran, weil darin genau das gemacht und dargelegt wird was mich dazu brachte Wissenschaftler zu werden (und warum ich immer noch einer bin, wenn auch eher untypisch).
Die Behauptung wird plausibel dargelegt und in einen grøszeren Zusammenhang gepackt. Die Resultate akribischer Untersuchungen werden herangefuehrt um die Behauptung zu stuetzen. Das Ganze wird mit Material von einem anderen Ort auf der Erde wiederholt. Ein Vergleich mit einem bekannten Ereignis (ein gewaltiger Vulkanausbruch) mit aehnlichen (wenn auch viel kleineren) Konsequenzen wird herangefuehrt um die Plausibilitaet weiter zu festigen und (erstaunlich genau!) abzuschaetzen wie grosz der Asteroid gewesen sein muss um die erwaehnten Resultate besagter akribischer Untersuchungen zur Folge zu haben. Letztlich werden alternative Erklaerungen ernsthaft diskutiert (und verworfen).
Und das Ganze ist wirklich gut und verstaendlich geschrieben und wird durch groszartige, aussagekraeftig und mit Informationen vollgeladene Diagramme unterstuetzt.

Und was hat das alles mit „meinen“ Archipelen oder Ketten zu tun? Das ist ebenso leicht zu erklaeren, denn die Autoren des Artikels haben eine 1 cm breite „Anomalie“ in einer ueber dreihundert Meter dicken Gesteinsschicht untersucht. Das ist ein Sprung ueber vier Grøszenordnungen. (Am zweiten Ort war die untersuchte Schicht i.A. ein paar Zentimeter und die Gesamtformation ca. 10 m dick … also immer noch zwei bis drei Grøszenordnungen). Zur besseren Veranschaulichungen zeige ich ausnahmsweise mal ein direktes (und nicht nachempfundenes, oder abfotografiertes) Bild:

Fig. 2 entnommen aus Alvarez, L. W., Alvarez W., Asaro F. und Michel, H. V. „Extraterrestrial Cause for the Cretaceous-Tertiary Extinction„, Science 208 (4448), 1980, pp. 1095–1108

Die Schichtdicke ist in Spalte (a) zu sehen und die entnommenen Proben in Spalte (f). Die Proben H bis L sind alle aus der nur 1 cm dicken, mit Iridium angereicherten Schicht. Bzgl. dessen was die restlichen Spalten darstellen verweise ich auf den Artikel.

Und da war’s wieder: fetzige Wissenschaft die sich mit einer „Kuriositaet“ in einem „Meer an Daten“ befasst und zu einem Erkentnissgewinn fuehrt, der dann sehr schnell Einzug in den Wissenskanon der Menschheit (und auch die Lehrbuecher fand).
Letzteres wird mit dem was ich hier ueber das Wikipedialinknetzwerk heraus finde natuerlich nicht passieren, aber der zugrundeliegende Prozess, die wissenschaftliche Methode, ist im Wesentlichen der Selbe … und darum mache ich das Ganze

… … …

Nun hatte ich beim letzten Mal nicht nur den schønsten wissenschaftlichen Artikel, sondern auch das schønste Diagramm was mir jemals untergekommen ist versprochen. Es ist nicht das Obige (auch wenn das erstaunlich nahe ran kommt). Weil der Artikel nun aber schon wieder so lang ist, verschiebe ich das auf ein anderes Mal.

Ich verweise zunaechst auf das linke Diagramm der ersten Abbildung des letzten Beitrags. Dann setze ich mich auf LL10 und finde dort 144 Familien. Eine von denen ist die Tairov OKO-X Familie bestehend aus Tairov OKO-1, Tairov OKO-4 und Tairov OKO-7.

Das machte mich stutzig, denn das sind keine unterschiedlichen Jahre von Sportvereinen … und tatsaechlich, deren Linkfrequenzen sind deckungsgleich; haben also (nicht nur) das Maximum an der selben Stelle und bilden somit keine Kette. Vielmehr werden die drei Seiten von List of aircraft (Ta) zitiert, welche auch auf LL10 maximal ist, aber bereits auf LL9 einen Wert erreicht, welcher nur 1/5 weniger als der Maximumswert ist. Letzteres erklaert, warum das Maximum der obigen drei Seiten auf LL10 und nicht auf LL11 zu finden ist.

Das ist also ’ne „falsche Familie“ und auf LL10 finde ich 12 solcher „Flugzeugtypenfamilien“ (auch wenn mindestens eine nicht zu Flugzeugen gehørt). Diese spezifische Sache kønnte prinzipiell wieder gefixt werden. Worauf ich aber immer noch keine Lust habe, denn zum Einen kann ich das wieder in den beruehmten 10%-Fehler schieben und zum Zweiten machen die im Gesamtbild noch weniger aus, als die Zahl von 12 „Flugzeugtypenfamilien“ vermuten laeszt.
Letzteres spielt darauf an, dass sich in den 144 regulaeren Familien (inkl. „Flugzeugtypenfamilien“)  insgesamt 1365 Seiten aufhalten. Die „Flugzeugtypenfamilien“ bestehen aber im Schnitt aus nur 2 oder 3 Seiten. Ueberabschaetzend enthalten solche Familien ca. 50 Seiten … das entspricht einem Fehler von weniger als vier Prozent … realistisch vermutlich sogar weniger als zwei Prozent.

Natuerlich nimmt die Anzahl solcher Sachen zu, je kleiner das Linklevel ist. Aber ich behaupte jetzt einfach, dass meine Resultate schon ganz gut stimmen ab LL10 … das ist so’n Bauchgefuehl nachdem ich mir den Kram nun so lange und im Detail angeschaut habe.

Der Clou an der ganzen „Jagd auf Artefakte“ zeigt sich aber ganz deutlich auch auf LL10: es gibt definitiv ueber 100 Ketten in denen sich mehr als 1000 Seiten tummeln!
Das sind 100 Mal mehr als ich zunaechst annahm, nach der (mehr oder weniger) zufaelligen Entdeckung des „São Paulo FC“-Artefakts. So wie die Archipele handelt es sich hierbei also definitiv um ein Charakteristikum des Wikipedialinknetzwerkes und nicht um ein Artefakt.
Besagtes Merkmal wird aber durch nur sehr wenige Seiten verursacht und ist mit vielen Effekten „verwurschtelt“, was eine genaue Betrachtung vonnøten machte um dieses Charakteristikum nachzuweisen. Das wiederum ist Wissenschaft und macht mich froh … … …

… … … und bringt mich zum Ende der Dinosaurier und dem schønsten Diagramm, welches mir in meinen 40+ Jahren in diesem Universum untergekommen ist … beim naechsten Mal.

Beim vorvorletzten Mal beschrieb ich, wie ich potentielle Kandidaten fuer „Ketten“ von Wikipediaseiten (vormals als „Artefakte“ bezeichnet) im Linkfrequenzsignal entdecken kann. Dann „setzte“ ich mich auf zwei Linklevel und beschrieb die letzten beiden Male welche Resultate eine solche Analyse zur Folge hat und wie die zu interpretieren sind.
Dabei machte ich auf vier generelle (!) „Phaenomene“ aufmerksam die alle zu einem „Kandidatensignal“ fuehren:
– Ketten aus Seiten die alle den selben „Familiennamen“ haben (bis auf eine unterschiedliche Zahl),
– „Patchworkfamilien“ in denen die Seiten eine Kette bilden aber alle unterschiedliche Namen haben,
– „Anhaenger“ zu den ersten Beiden und
– Seiten die aus welchem Grund auch immer ein „Kandidatensignal“ haben (bspw. „Anhaenger“ zu Seiten die NICHT zu einer Kette gehøren) aber nicht zu den ersten Beiden gehøren.

Nachdem diese viele Vorarbeit geleistet ist, kann ich ganz ohne Umschweife vorstellen, wie sich all das von Linklevel zu Linklevel veraendert:

Im linken Diagramm sieht man die „Entwicklung“ der ersten beiden Phaenomene. Das rechte Diagramm zeigt pro Linklevel die Anzahl aller potentiellen Kandidaten (schwarz), wieviele sich davon in regularen „Familien“ (rot) bzw. „Patchworkfamilien“ (blau) aufhalten und wie viele „Anhaenger“ (orange) es gibt. Das vierte Phaenomen ist nicht von Interesse, folgt aber aus den Zahlen der ersten drei.
Die gestrichelten Linien bei den Grafen zu den „Patworkfamilien“ dient nur der Fuehrung des Auges und kommt dadurch zustande, dass die entsprechenden Werte an der Stelle Null sind.

Zunachst ist zu sagen, dass bei kleinen Linkleveln die Kategorisierungen vermutlich immer schlechter werden, insb. fuer die „Patchworkfamilien“. Auf LL5 ergibt die Analyse 50-tausend „Patchworkfamilien“, aber ich nehme an, dass die alle nicht echt sind und es sich hierbei nur um die Ketten mit 2 Elementen handelt, welche ich ja bereits beim letzten Mal als „verdaechtig“ und vermutlich (oft) unechte Ketten einstufte. Es sind also mehr oder weniger regulaere Seiten die aus welchem Grund auch immer ein Kandidatensignal haben mit ’nem Anhaenger dazu
Indirekt bestaetigt wird diese Vermutung durch den gewaltigen (!) „Absturz“ dieses Grafen innerhalb der … mhm … ich sag jetzt mal naechsten 5 Linklevel. Das bedeutet nicht, dass das Problem auf LL10 nicht mehr auftritt, aber zumindest, dass dessen Einfluss deutlich schwaecher ausfaellt.

Ab LL47 gibt es dann nur noch eine Familie, welche natuerlich das wohlbekannte „São Paulo FC“-Artefakt ist in welchem sich dann auch die noch verbleibenden Kandidaten alle aufhalten. Letzteres drueckt sich darin aus, dass ab LL48 die rote und schwarze Kurve im rechten Diagramm deckungsgleich sind. Der Unterschied von einem Linklevel kommt daher, weil von der anderen Familie die sich bis LL47 haelt nur noch das Endelement vorhanden ist. Weil es aber ganz allein steht und auch nicht als Anhaenger dem „São Paulo FC“-Artefakt zugeordent werden kann, faellt es unter das vierte Phaenomen. Dies wiederfaehrt auch dem „São Paulo FC“-Artefakt auf LL67 wo es noch einen Kandidaten, aber keine Familien (oder Anhaenger) mehr gibt.

Wichtiger Einschub: was ich im letzten Absatz schrieb war die besser zu verstehende Version; die Realitaet sieht ein klein wenig komplizierter aus (aendert aber Obiges nur so geringfuegig, dass ich die vereinfachte Erklaerung ueber der richtigen vorzog). Es ist bekannt, dass die letzten Nachzuegler erst auf LL72 aussteigen. Das bedeutet, dass die sich auf LL72 im Jahr 1930 des „São Paulo FC“-Artefakts befinden und von dort nicht wegkommen. Das bedeutet, dass das Jahr 1930 auf LL71 die letzten drei Zitate erhaelt, bevor die drei Nachzuegler im naechsten Schritt ins Jahr 1930 springen. Die Kette hørt also NICHT bei LL67 sondern geht noch ein paar Schritte weiter.
ABER auf LL67 befindet sich das Maximum des Jahres 1930. Danach ist das durchschritten und die Seite wird nicht mehr als Kandidat erkannt.
Lange Rede kurzer Sinn: alles Gesagte muss um ein paar Linklevel verschoben werden, weil das Maximum der Linkfrequenz einer Kettenseite nicht das Ende bedeutet. Nachzuegler generieren fuer ein paar Schritte mehr noch ein Antwortsignal (welches aber nicht mehr als Signal zur Erkennung von Kettenseiten herangezogen werden kann) und halten eine Kette die paar Schritte noch „im Rennen“. Aber das ist nur ’ne Kleinigkeit die qualitativ nix aendert und quantitativ nur ein Offset ist den man leicht hinzufuegen kann und deswegen handle ich das nur als Einschub ab.

Wieauchimmer, das war der einfache Teil. Nun geht’s um das erklaerungsbeduerftige Detail, dass die Anzahl der „Patchworkfamilien“ nicht monoton abnimmt. Das haengt auch mit dem eben Beschriebenen zusammen und ich erklaere genau anhand des Beispiels von LL22 (mit einer „Patchworkfamilie“) zu LL23 (mit fuenf „Patchworkfamilie“).

Dafuer schauen wir zunaechst auf die regulaeren Familien von denen es auf LL22 15 gibt und zwei von denen haben nur 2 „Familienmitglieder“. Im naechsten Schritt fallen die also (wie oben beschrieben) „raus“. Von Interesse ist nur die Familie welche auf LL22 aus 2000–01 Hyderabad C.A. season und 2001–02 Hyderabad C.A. season besteht wobei die zeitlich frueheste Seite, also die 2001-02 season, das Endelement ist auf dem man „sitzt und schaut“ wenn man sich auf LL24 befindet.
Deren Linkfrequenzen sind zusammen mit den Linkfrequenzen dreier relevanter Anhaenger in diesem Diagramm zu sehen (cf. text):

Das Endelement der obigen regulaeren Kette hat sieben Anhaenger. Vier davon werden NUR vom Endelement zitiert und verhalten sich wie erwartet (haben ihr Maximum in der Linkfrequenz also auf LL24): Fathima Reddy, Parth Satwalkar, Renjith Menon und Vijay Kumar (cricketer).
Interessanter ist der fuenfte Anhaenger Mangalapally Srinivas welcher von BEIDEN obigen seasons zitiert wird. Deswegen faellt das Maximum der Linkfrequenz von dieser Seite auf LL23; massiv zitiert durch die 2001-02 season (auf der man „sitzt und schaut“ auf LL23) und ein paar Zitate durch das Endelement, in dem sich auf LL23 schon ein paar „vorauseilende“ Seiten befinden. Weil das Maximum aber nicht VOR LL23 liegt wird Mangalapally Srinivas immer noch als Kandidat erkannt und faellt aus der Analyse nicht raus.
Die verbleibenden beiden Anhaenger Mohammad Ghouse Baba und Shivaji Yadav werden auch von zeitlich spaeteren seasons (in der Kette also frueheren Seiten) zitiert, haben das Maximum deswegen auf LL22 und fallen aus der Analyse raus, weil sie auf LL23 dadurch NICHT mehr als Kandidaten gehandelt werden.

Die ersten 5 Anhaenger bilden zusammen mit der 2000–01 Hyderabad C.A. season fuenf „Patchworkfamilien“ auf LL23 und der entsprechende Zaehler geht nach oben.
Die Kombination aus Endelement und Anhaenger fuehrt also zu falschen (?) „Patchworkfamilien“ … aber das diskutierte ich ja bereits beim letzten Mal.

Wie oben erwaehnt, vermute ich, dass bei kleinen Linkleveln unheimlich viele solcher falschen „Patchworkfamilien“ vorkommen. Prinzipiell liesze sich das fixen, indem man sich die Historie anschaut und Seiten die auf dem vorhergehenden Linklevel noch Anhaenger waren nicht als Element fuer „2 Mitglieder Patchworkfamilien“ zulaeszt. Da habe ich aber keine Lust drauf und das wuerde vermutlich auch nicht sooo einen riesigen Unterschied machen. Letzteres weder nach LL10 (weil man Endelemente von regulaeren Familien braucht und davon nie uebermaeszig viele auf einmal enden) und auch nicht vor LL10 denn da ist so viel „Schmu“ dabei (siehe oben), dass das Beseitigen falscher „Patchworkfamilien“ auch nicht mehr viel aus macht.

Im Allgemeinen ist das Konzept der „Patchworkfamilien“ gut um Ketten zu finden und es funktioniert auch. Die technische Umsetzung kønnte geaendert werden oder ich kønnte alle „Patchworkfamilien“ mit nur 2 Mitgliedenr raus schmeiszen. Dadurch wuerden vermutlich aber auch etliche wahre Patchworkfamilien raus fliegen und das løst auch nicht das Problem mit ECHTEN „Patchworkfamilien“ plus Anhaeger. Wie man’s dreht und wendet, man wuerde einen Nachteil gegen einen anderen tauschen und ich denke, dass sich die Ergebnisse qualitativ vermutlich nicht sehr aendern wuerden.
Wegen all des eben Gesagten behalte ich „Patchworkfamilien“ bei, aendere nix und bin mir der Nachteile bei der Betrachtung der Grafen bewusst.

Das soll fuer heute genug sein. Beim naechsten Mal zeige ich, dass es auch „falsche echte Familien“ gibt und gehe kurz darauf ein, warum trotz all diese Einschraenkungen das alles voll fetzig ist :) .

Ganz ohne Vorrede setze ich mit dem fort was ich beim letzten Mal begann. Dort schrieb ich zum Ende:

Wenn ich die Grenze auf LL25 lege, treten noch keine Ketten auf in der die Seiten nicht alle den gleichen „Familiennamen“ haben […]. Deswegen reduzierte ich die Grenze fuer eine weitere Untersuchung auf LL13.

Von den 820 potentielle Kandidaten die ich fand hielten sich 638 in 68 Familien mit mehr als einem Familienmitglied auf und ich versprach, dass heute die verbleibenden 182 Kandidaten naeher angeschaut werden. Dieses Anschauen geschieht losgeløst von den Familienkettenseiten.
Zur Erinnerung: das sind alles Seiten die ein Kettensignal haben. Ist eine Seite aber eine Kettenseite und gehørt NICHT zu einer Familie, dann kann die Seite nur zu einer Kette ohne Familiennamen (ich sag dazu jetzt mal Patchwork-Familie) gehøren oder ein Anhaenger sein.

Fuer das Nachfolgende gilt, dass normale Familienseiten (wo alle Seiten den selben „Familiennamen“ haben) zunaechst komplett aus den Daten genommen werden. Ich habe also nur noch Nicht-normale-Familienseiten.
Patchworkfamilien finden sich dann dadurch, indem man sich eine Startseite nimmt und schaut ob die von einer anderen Nicht-normalen-Familienseiten zitiert wird. Ist das der Fall, so gehøren beide zu einer Patchworkfamilie. Dann nehme ich die neu gefundene Seite und mache das gleiche nochmal. Dies wird rekursiv so lange gemacht, bis keine neuen Mitglieder zur Patchworkfamilie hinzu kommen. Man folgt also rekursiv der Linkkette und schaut welche Seiten verbunden sind. Dann nimmt man sich die naechste Startseite und macht alles nochmal.

Durch diesen Prozess finde ich 13 Patchworkfamilien mit insgesamt 49 Mitgliedern. Davon haben aber 6 Familien nur zwei Mitglieder. Ich zaehle die auch als Patchworkfamilien (einfach weil die technisch den Kriterien entsprechen) aber das ist etwas komplizierter.
Familien die nur zwei Mitglieder haben sehen verdaechtig nach dem letzten Glied einer Patchworkfamilien mit Anhaenger aus. Oder wie die letzten zwei Elemente einer Patchworkfamilienkette. So wie die sind (also bis zur gegebenen Grenze nur zwei Elemente beinhaltend) kann ich Erstere nicht von Letzteren Unterscheiden ohne die alle persønlich anzuschauen. Das wird dadurch illustriert, dass es zwei von diesen Patchworkfamilien gibt, die aber nur drei verschiedene Mitglieder haben (eins tritt also doppelt auf) … weil das jetzt aber nicht so’n riesiges Ding ist, muss ich damit leben … je kleiner die Grenze wird, desto grøszer wird das „Ding“ aber … blosz je kleiner die Grenze wird umso unsicherer wuerde ich sowieso bzgl. dem Erkennen von Ketten werden und ohnehin mehr falsche positive Ergebnisse erwarten.
Ueberhaupt liegt bei Patchworkfamilien das Problem vor, dass sich prinzipiell Anhaenger reinschleichen kønnen (einfach weil die ja von der Patchworkfamilie zitiert werden). Ich habe geschaut und zumindest die Titel der Seiten suggerieren, dass das nicht der Fall zu sein scheint bei den obigen (eindeutigen) 7 Familien mit mehr als 2 Mitgliedern … vielleicht ist das aber der Fall bei den anderen 6.

Die coolste Familie besteht aus Have You Seen the Other Side of the Sky?Myth of the Love ElectriqueCrystal Rainbow Pyramid Under the StarsNam Myo Ho Ren Ge KyoAcid Motherly Love41st Century Splendid ManRecurring Dream and Apocalypse of Darkness, Glorify Astrological Martyrdom, Interstellar Guru and Zero, und Cometary Orbital Drive. Das sind alles Alben von Acid Mothers Temple & the Melting Paraiso U.F.O. … einer anscheinend sehr produktiven Band.

Auszerdem finden wir eine kurze Kette von scheinbar (!) ausgestoszenen Familienmitgliedern. Dabei handelt es sich um die 1st Robert Awards, 2nd Robert Awards und 3rd Robert Awards. Es ist natuerlich leicht zu sehen dass deren Status als scheinbare (!) „Ausgestoszene“ nur durch die englische Zaehlweise zustande kommt denn es gibt eine Xth Robert Awards Familie. Vielmehr handelt es sich hierbei um eine weitere „Scheidungsfamilie“, die aber nicht so leicht zu erkennen ist. Dies liesze sich einfach korrigieren, aber wie schon beim letzten Mal habe ich auch da keine Lust drauf.

Soweit so gut. Es bleiben 133 Seiten uebrig. Die Anhaenger unter denen erkennt man daran, dass sie von Familien (egal welcher Art, hier kommen also die oben ignorierten wieder dazu) zitiert werden aber NICHT von anderen Seiten. Wenn ich die 121 daraufhin untersuche, finde ich 87 Anhaenger.

Fuer die restlichen 46 Seiten kann ich ein paar Kategorien finden unter welche diese fallen.
Zum Ersten nehme man Diving at the 2017 Summer Universiade – Men’s 10 metre platform und Diving at the 2017 Summer Universiade – Women’s synchronized 3 metre springboard. Aha! Das sieht doch so aus wie die beim letzten Mal ganz zum Schluss erwaehnten Seiten. Hier scheint die Mutterseite die 2017 Summer Universiade zu sein und die Kette entsteht durch die verschiedenen Sportarten. Weil sich die Namen in mehr als ein paar Zahlen unterscheiden habe ich die keiner (normalen) Familie zuordnen kønnen und die beiden Seiten werden auch nicht von dort zitiert. Zu Letzterem aber auch die naechsten Punkte.

Zum Zweiten nehme man als Beispiel 1656 in Denmark. Das sieht mir verdaechtig nach dem Ende einer Kette aus, denn unter den Familien gibt es XXXX in Sweden oder XXXX in Wales. Wenn das Beispiel nun das Ende einer Kette ist, so hat diese Seite ein Kettensignal, ich kann aber weder andere Seiten mit dem selben „Familiennamen“ finden noch kann ich unter den Kandidaten (!) andere Seiten finden die 1656 in Denmark zitieren, denn solche Seiten liegen unterhalb der Grenze. Ein weiteres Beispiel ist 2019 in birding and ornithology.

Zum Dritten waeren da Seiten so wie Ken McDowall oder mglw. auch Rozendal cabinet die aussehen wie Seiten die am Ende von Ketten zitiert werden die gerade so unter die Grenze fallen. Deswegen sehe ich die zitierenden Seiten nicht unter den Kandidaten aber (bspw.) Ken McDowall sehr wohl, denn der schafft es gerade so ueber die Grenze. Ob das stimmt muesste ich im Einzelfall konkret nachschauen. Da habe ich aber keine Lust drauf und die Argumentation klingt plausibel.

Und dann ist da noch Battle of Little Belt. Ich hab mir die angeschaut, sehe aber keine Hinweise wie eine Linkkette zustande kommen kønnte. Es gehørt zu Count’s Feud wird dort aber nicht zitiert. Das ist naheliegend denn Count’s Feud scheint mir eine ganz normale Seite zu sein und Battle of Little Belt waere das bei einem direkten Zitat von dort dann auch und wuerde nicht bei den Kandidaten auftauchen. Es gibt eine Kategorieseite zu Seeschlachten in denen Daenemark involviert war. Vielleicht gibt es darum auch eine Kette von entsprechenden Seeschlachten und Battle of Little Belt wuerde dann unter eine der obigen Kategorien fallen. Aber letztlich kann ich das nicht aufklaeren.

Schlussendlich glaubte ich auch „Mischformen“ zu erkennen. Ein Beispiel ist die Botanical Garden station (Chengdu Metro). Unter den Patchworkfamilien ist eine dabei, welche mehrere chinesische Bahnsationen als Familienmitglieder zusammenfasst. Aber anscheinend wird Botanical Garden station (Chengdu Metro) von dort nicht zitiert und zitiert auch nicht dort hin (denn dann waere sie Teil der Patchworkfamilie geworden). Deswegen dachte ich zunaechst, dass da vieleicht der Link vergessen wurde.
Letztlich stellte sich aber heraus, dass besagte Patchworkfamilie alle zur Linie 9 der Shenyang Metro gehøren und das Beispiel zur Linie 3 der Chengdu Metro. Das løst das Geheimniss, denn das faellt vermutlich unter den zweiten Fall.

Zusammen mit dem letzten Beitrag waren das aber nur die Resultate fuer zwei Grenzenwerte welche ich hernahm um zu erklaeren was die „Jagd nach Artefakten“ zutage førdert und wie sich das zusammensetzt.

Beim naechsten Mal wird es interessanter, denn ich schaue mir mal an, wie sich diese Grøszen pro Linklevel entwickeln.

Ich knuepfe ohne viel Umschweife an das letzte Mal an. Dort schrieb ich, dass sich potentielle Kandidaten (!) fuer Kettenseiten im Linkfrequenzsignal dadurch auszeichnen, dass …

[…] solche Seiten in der Linkfrequenz kein Signal vor einer gewissen Grenze haben und ein „dickes“ Signal danach aufweisen.

Um zu erklaeren wie ich die Suche durchfuehrte und die Seiten in (regulaere) Familienketten, Ketten-ohne-Familie und Anhaenger sortierte lege ich diese Grenze zunaechst auf LL25, erniedrige die aber spaeter deutlich. Alle Linkelvel davor sind entsprechend „klein“ und alle danach „hoch“.
Desweiteren ist zu sagen, dass das Wort „kein“ (Signal) im obigen Zitat nicht stimmt und nur der Kuerze wegen gewaehlt wurde. Auch Kettenseiten haben ein sehr kleines Signal bei kleinen Linkleveln.
Phaenomenologisch gesehen ist’s aber so, dass Seiten die nicht zu einer Kette gehøren, auf LL4 eine Linkfrequenz von mindestens 23017 aufweisen. Letzteres ist eine (beinahe) zufaellig gewaehlte (weitere) Grenze. Der Wert muss nur klein genug sein, aber nicht zu klein. Zu klein waere ein Wert von 3, zu grosz weisz ich nicht, aber mein Gefuehl sagt mir mindestens eine Grøszenordnung ueber 23017.
LL4 ist ein reiner Beobachtungswert. Alle normalen Seiten sind auf diesem Linklevel in ihrem (ersten) Maximum oder so nahe dran, dass der die Linkfrequenz dort (deutlich) ueber 23017 liegt.

Mit diesen Werten finde ich 162 Seiten welche die Bedingung(en) fuer Kettenseiten erfuellen. Aha! Wie vermutet gibt es also tatsaechlich mehr als nur das „São Paulo FC“-Artefakt … wobei das prinzipiell auch alles Meta-Artefakte sein kønnten. Deswegen schaute ich mal ob ich „Familien“ finde — Seiten die sich im Titel nur minimal (bspw. durch eine Jahreszahl) unterscheiden.

Und siehe da, wenn man Ziffern im Titel nicht beachtet, dann erhaelt man 18 Familien. Davon sind aber nur 12 echte Familien, denn die anderen 6 haben nur ein Mitglied.
Unter diesen 12 befindet sich natuerlich das „São Paulo FC“-Artefakt und es ist auch die grøszte Familie. Weitere Familien sind bspw. die bereits bekannte XXXX Massachusetts legislature (Jahre 1862 bis 1881) oder die XXXX Missouri Valley Conference men’s soccer season (Jahre 1991 bis 1993). Und natuerlich finden sich die auch schon erwaehnten Billboard Top Hits: XXXX wieder (Jahre 1988 bis 1995).
Interessant ist, dass es scheinbar „Scheidungsfamilien“ gibt. Mit dieser Grenze finde ich nur eine solche, die sich in die XXXX FC Dinamo București season (Jahre 1950 bis 1956) und XXXX–XX FC Dinamo București season (Jahre 1957-58 bis 1972-73, auszerdem 1948-49) getrennt haben. Das Wort „scheinbar“ ist in diesem Zusammengang aber wichtig, denn wenn man sich das anschaut, dann gehen die nahtlos ineinander ueber. Ist also eher so, dass die eine Seite der Familie ’nen Doppelnamen hat und die andere nicht.
Mhmmm … wenn das øfter auftritt liesze sich sowas prinzipiell auch automatisch korrigieren … da habe ich jetzt aber keine Lust drauf und deswegen zaehle ich das als individuelle „Familien“ und man denke sich, dass ich eigtl. Familien_namen_ meine.

Innerhalb dieser 12 Familien tummeln sich insgesamt 162 – 6 = 156 Seiten. Die anderen 6 sind allesamt bekannt:
Caius Novac (u.a. zitiert von der 1950 FC Dinamo București season),
Estádio Juca Ribeiro (u.a. zitiert von der 1959 São Paulo FC season),
Estádio Luís Pereira (dito),
Mitsubishi Yowa Sugamo Ground (u.a. zitiert vom 1979 Empress’s Cup Final),
Alpheus Harding (u.a. zitiert von der 1879 Massachusetts legislature), und
William E. Livingston (u.a. zitiert nur von der 1875 Massachusetts legislature).

Die sehen mir alle ganz genau so aus, wie ich beim letzten Mal Anhaenger beschrieb. Hier sind die Linkfrequenzen von Dreien:

Aha! William E. Livingston und Estádio Juca Ribeiro sehen wie normale Kettensignale aus. Ersterer ohne Reflexion (weil’s als Anhaenger am Ende einer Kette steht und damit keine Reflexion auftreten kann) und letzter mit einem gespaltenen Maximum. Letzteres ist aber KEINE Reflexion, denn hier gilt das Selbe wie bei William E. Livingston. Vielmehr wird Estádio Juca Ribeiro unabhaengig davon von einer Kettenseite zwei Linklevel weiter nochmal zitiert. Vøllig aus dem Muster faellt das Signal von Estádio Luís Pereira. Das ist aber leicht durch Mehrfachzitierungen zu erklaeren.
Im Anhaengerschema vom letzten Mal …

… entsprechen die drei Seiten den hier dargestellten Situation (in der gleichen Reihenfolge wie im vorigen Abschnitt besprochen).

Fetzt ja, dass ich die Anhaenger nicht weiter aus den Analyseergebnissen rauspfriemeln musste.

Zwischenbemerkung: Als William E. Livingston das erste Mal auftrat, war sein Auftreten noch ein Mysterium; aber das hat sich ja nun aufgeklaert.

Wenn ich die Grenze auf LL25 lege, treten noch keine Ketten auf in der die Seiten nicht alle den gleichen „Familiennamen“ haben (von dem „Scheidungsfall“ mal abgesehen, aber dazu aeuszerte ich mich ja bereits). Deswegen reduzierte ich die Grenze fuer eine weitere Untersuchung auf LL13.

Mit der neuen Grenze finde ich 820 potentielle Kandidaten. Davon halten sich 638 in 68 Familien mit dem gleichen „Familiennamen“ auf.
Einige Seiten bilden interessante Familien, denn deren Namen fallen etwas dem ueblichen Schema. Als Beispiel nenne ich Weightlifting at the 2017 Summer Universiade – Men’s 62 kg und Weightlifting at the 2017 Summer Universiade – Men’s 69 kg. Aber auch sowas wird von der Ketten- und Familiendefinition aufgefangen und ich mache mit Absicht darauf aufmerksam, weil das beim naechsten Mal nochmal wichtig wird, denn da betrachte ich die restlichen 182 Kandidaten, welche nicht zu „normalen Familien“ gehøren, naeher.

Ich schreibe „beim naechsten Mal“, denn der Artikel ist jetzt schon so lang und was folgt wird noch ein bisschen mehr als hier schon steht.

.oO(OI! Indizes gehen auch im Titel … aber mich duenkt ich fand das gerade (mindestens) zum zweiten Mal raus.)

Beim letzten Mal stiesz ich auf eine einfache und (ich hoffe) eindeutige Art und Weise wie man Artefakte identifizieren kann. In kurz: die haben keine Zitate auf fruehen Linkleveln und werden auf relativ wenigen spaeten Linkleveln „geballt“ zitiert.
da geht’s dann auch schon los, denn das ist alles etwas schwammig … und im Laufe meiner Untersuchungen fand ich ein paar coole Sachen raus die dazu fuehren, dass ich erstmal mit Begriffen aufraeumen muss.

Alles begann damit, dass ich auf ein paar Saisons des São Paulo FC des aufmerksam wurde. Ich fand heraus wie die „unnormalen“ Eigenschaften dieser Entdeckung zustande kommen: eine lange Kette von nacheinander folgenden Zitierungen. Das Zustandekommen dieser Kette schob ich aber auf ein Artefakt der Datenbehandlung … schwupps war das viel diskutierte „São Paulo FC“-Artefakt geboren.
Hierbei ist zu sagen, dass ich nur durch einen Zufall die Entdeckung machen konnte. Ich zitiere vom letzten Mal:

[nur] [d]as „São Paulo FC“-Artefakt konnte ich eindeutig bestimmen, denn es reicht von allen (møglichen) Artefakten am Weitesten (bis LL66 und darueber hinaus) weil es bis 1930 zurueck geht […] [und] [d]eswegen […] zum Ende in „Reinform“ im Signal vor[liegt].

Dieses Artefakt hinterliesz auch in anderen Messgrøszen eindeutig zu identifizierende Spuren (bspw. Reflexionen) und ich dachte eine Weile, dass diese zwingend nøtig sein muessen. Das ist nicht richtig und ich komme darauf zurueck. Ein Grund dafuer ist verbunden mit dem was ich Meta-Artefakt nannte, aber auch hier verweise ich auf das was im Weiteren folgt.

Durch die Versuche noch mehr „Artefakte“ zu finden  bin ich zu der Ueberzeugung gekommen, dass es sich dabei vermutlich mitnichten um Artefakte handelt sondern dass dies eine genuine Eigenschaft des Wikipedialinknetzwerkes ist. Diese tritt selten auf, ist aber ein „natuerliches“ Phaenomen und der zugrundeliegende Mechanismus sind die oben erwaehnten Zitatketten.
Beim „São Paulo FC“-Artefakt sind das „vor- und ruecklaeufige“ Zitatketten. Wenn bspw. die 1969 Saison zur 1970 Saison zitiert, so erfolgt das Zitat auch in die andere Richtung. Diese „zuruecklaufenden“ Zitate sind der Grund fuer das Phaenomen der Reflexionen.
ABER: ruecklaufende Zitatketten sind nicht zwingend notwendig. Man kann sich leicht eine Kette von Zitaten denken, die nur in eine Richtung geht. Oder eine Kette von vor- und ruecklaeufigen Zitaten, aber mit „Semi-Unterbrechungen“ an einer oder mehreren Stellen, wo die Zitierrichtung eine „Einbahnstrasze“ ist. Das aendert nix am Charakter der Kette und „Artefaktsignale“ kommen weiterhin zustande. Derartige Signale muessen aber nicht (mehr) zwangslaeufig Reflexionen (in der entsprechenden Messgrøsze) aufweisen. Das bedeutet aber NICHT, dass Meta-Artefakte dadurch zu „richtigen“ Artefakten aufgewertet werden … aber ich greife schon wieder vor.

Wieauchimmer, aus den obigen Gruenden møchte ich lieber vom Begriff „Artefakt“ weg kommen und anstatt dessen das Wort „Zitierketten“ benutzen. Bzw. werde ich vermutlich meist nur kurz „Ketten“ schreiben und damit Ketten von sich ordentlich nacheinander zitierenden Seiten meinen. Und das ist dann auch das Identifizierungesmerkmal solcher Seiten: die werden NUR erreicht, wenn man durch die ganze Kette geht. Diese Definition erklaert das man kein Signal bei kleinen Linkleveln hat und dass „alles auf einmal passiert“ bei hohen Linkleveln.
Somit ist das „São Paulo FC“-Artefakt also die „São Paulo FC“-Kette.

Nun das wo die Meta-Artefakte reinspielen … hier wuerde der Begriff Meta-Kette nicht passen, denn das was Ketten ausmacht ist streng definiert.
Meta-Artefakte zeichnen sich dadurch aus, dass sie auf fruehen Linkleveln schon oft zitiert werden, dann nicht nicht mehr auf „mittleren“ Linkleveln und dann nochmal massiv auf hohen Linkleveln. Letzteres kann fuer sich isoliert gesehen wie ein Kettensignal aussehen (jetzt ja auch ohne Reflexionen erlaubt) aber ein echtes Kettesignal hat zwingend (!) nix auf kleinen Linkleveln. Deswegen die Vorsilbe.

Das fuehrt zu einem weiteren Phaenomen im Zusammenhang mit Ketten, welches ich „Anhaenger“ (zu Ketten) taufe. Das sind Seiten die NUR von Kettenseiten zitiert werden aber nicht dazu gehøren. Ersteres fuehrt zu einem kettenartigen Signal; nix bei kleinen Linkleveln und ein dickes Signal auf hohen Linkleveln. Der wichtige Unterschied ist aber, dass Anhaenger NICHT Teil der Kette sind und auch von mehreren Kettenseiten zitiert werden kønnen. Die folgende schematische Darstellung macht das Prinzip der Anhaenger hoffentlich etwas besser verstaendlich:

Man kann natuerlich argumentieren, dass bestimme Anhaenger auch Teile von echten Ketten sein kønnen. Der erste blaue Punkt in der Abbildung wuerde darunter fallen. Nun ist’s aber so, dass Ketten in „Familien“ vorkommen. Im haeufigsten (und einfachsten) Fall gehøren alle Seiten einer Kette zur selben „Familie“ was sich durch nur minimale Unterschiede im Titel ausdrueckt — die „São Paulo FC“-Kette unterscheidet sich bspw. nur durch die Jahreszahl. Es gibt Ausnahmen, aber auf die komme ich an anderer Stelle zu sprechen.
Anhaenger zeichnen sich dann weiterhin dadurch aus, dass sie zwar technisch gesehen als Kette gelten kønnten, aber thematisch nicht in besagte Kette passen. Letzteres gilt auch bei den Ausnahmen (ist aber technisch schwerer zu unterscheiden). Dadurch sind Anhaenger phaenomenologisch (was immer das auch heiszen mag) Meta-Artefakten naeher als den Ketten, obwohl Erstere manchmal auch ein Kettensignal aufweisen kønnen.
Theoretisch gesehen ein Problem (insb. in Ketten die keinen „Familiennamen“ haben) kønnten Anhaenger am Ende der Kette werden … aber darum kuemmer ich mich wenn es ein Problem werden sollte.

Das soll reichen fuer heute. Als Verbereitung fuer’s naechste Mal sei so viel festzuhalten. Potentielle Kandidaten fuer Kettenseiten finde ich zunaechst durch das Charakteristikum, dass solche Seiten in der Linkfrequenz kein Signal vor einer gewissen Grenze haben und ein „dickes“ Signal danach aufweisen. Desweiteren kønnen Ketten in „Familien“ auftreten, muessen aber nicht. Auszerdem kønnen sich unter den Kandidaten auch „Anhaenger“ befinden. Alle Kandidaten muessen also zunaechst in diese Kategorien sortiert werden, bevor man mal weiterschaut … aber wie gesagt, dazu mehr beim naechsten Mal.

Ich knuepfe ohne weitere Umschweife direkt an das letzte Mal an. Dort schrieb ich zum Ende:

Bei Robert John „Mutt“ Lange sieht die Situation anders aus.

Denn der wird gar nicht von Artefaktseiten zitiert. Die Erklaerung die bei Umuarama gueltig ist, greift in dem Fall also nicht. Da muss ich doch mal genauer schauen und die erste Erkenntnis ist, dass das der Ex-Mann von Shania Twain ist. Auszerdem traegt er die Verantwortung fuer das Zustandekommen bekannter und erfolgreicher Lieder … die zum Teil sogar eigene Wikipediseiten haben (bspw. (Everything I Do) I Do It for You). Deswegen wird er von 504 Wikipediaseiten (zu Songs, Awards und anderem musikrelevantem Zeug) zitiert und ich schaute mir mal deren Linkfrequenzen an um den vielen Zitaten zu Robert John „Mutt“ Lange um LL25 auf die Spur zu kommen.

Hier ist das Resultat dieser Untersuchung:
– 422 Seiten verhalten sich normal; weisen also ein Maximum auf fruehen Linkleveln auf, die Linkfrequenz geht schnell wieder runter und ist insb. um LL25 Null.
– 69 weitere Seiten die auch ein Maximum bei fruehen Linkleveln haben, die aber auf LL25 immer noch, aber wenig zitiert werden. Wenig bedeutet hier, gleich oft oder weniger als 23 Mal … ein fast vøllig willkuerlicher Grenzwert. Im Wesentlichen wie der erste Fall, nur dass sich der „Schwanz“ etwas laenger hinzieht.
– 10 Seiten welche ebenso bei fruehen Linkleveln ein Maximum aufweisen, die aber auch sehr (!) oft um LL25 zitiert werden … aha … das ist so eine Struktur wie sie bei Meta-Artefakten auftritt … das ist ja interessant, denn die werden NICHT vom „São Paulo FC“-Artefakt zitiert. Aber der Clou kommt erst mit den …
– … 3 Seiten die KEIN Maximum bei fruehen Linkleveln (dort also nur wenig (siehe oben) zitiert werden) und nur EIN Maximum um LL25 haben … und das Maximum ist auch noch gespalten … Wait! What!?

Das habe ich nicht erwartet und deswegen schaute ich mir mal an welche drei Seiten das genau sind. Und siehe da es sind: Billboard Top Hits: 1985, Billboard Top Hits: 1986 und Billboard Top Hits: 1988. AHA! Die haben eine Struktur (auch im Titel) die verdaechtig nach ’ner artefaktaehnlichen Reihe aussieht.
Ich behaupte nun, dass es sich dabei auch um ein Artefakt handelt. Nur halt ein bisher Unbekanntes.

Ich hatte schon seit sehr langer Zeit vermutet, dass weitere „Ketten von Seiten“ existieren sollten, deren Verhalten dem entspricht, was ich anhand des „São Paulo FC“-Artefakts ausfuehrlich besprach. In den Messungen der totalen (und neuen) Links gibt es Hinweise darauf bei Linkleveln kleiner als 50 (mglw. sogar kleiner als 60, kann mich nicht so genau erinnern). Aber das ist mitnichten eindeutig und schwer zu verfolgen. Die Signale aller anderen Seiten mischen sich  zu sehr bei so „kleinen“ Linkleveln und deswegen sah ich keine (vernuenftige) Chance die møglichen weiteren Artefakte aus den Messungen der totalen oder neuen Links heraus zu pfriemeln.
Das „São Paulo FC“-Artefakt konnte ich eindeutig bestimmen, denn es reicht von allen (møglichen) Artefakten am Weitesten (bis LL66 und darueber hinaus) weil es bis 1930 zurueck geht. Deswegen liegt das zum Ende in „Reinform“ im Signal vor.  … … … Mhmmmm die Selbstreferenzen eignen sich mglw. (bedingt (!))  dafuer … aber das waere auch mehrdeutig oder zumindest nicht ganz eindeutig (deswegen das Wørtchen „bedingt“).

Wieauchimmer, beim letzten Mal habe ich gezeigt, dass der Querbalken durch gespaltene Maxima (im dortigen Beispiel um LL25) zustande kommt. Von Umstaenden wie bei Umuarama abgesehen kann ein gespaltenes Maximum aber nur bei Artefaktseiten auftreten. Aber das „São Paulo FC“-Artefakt kann auf einem gegebenen Linklevel nur zwei Datenpunkte zum Querbalken beitragen. Die anderen Seiten des Querbalkens kønnen nur duch Meta-Artefakte (wie Umuarama) oder andere Artefakte (wie die Billboard Top Hits) zustande kommen.

Hier kommt nun endlich der beim letzten Mal angekuendigte „Ueberraschungsdatenpunkt“ ins Spiel. Wegen obigen Ueberlegungen wollte ich naemlich mal sehen ob ich weitere Artefakte im Querbalken finde … und gleich die erste, zufaellig ausgewaehlte Seiten war mit 1987 Liga Deportiva Universitaria de Quito season ein Volltreffer (Wortspielkasse):

Cool wa! Da musste ich gar nicht weiter suchen.

Einschub kurz vor Schluss: Ich habe den Namen der „Ueberraschungsseite“ nur deswegen „geheim“ gehalten, weil es ansonsten dieses ganz wunderbare Resultat zu frueh preisgegeben haette.

Wieauchimmer, DAS bringt mich auf eine Idee wie ich auf praktikable (und eindeutige) Weise die weiteren Artefakte erkennen kann … aber nicht mehr heute.

Beim letzten Mal hatte ich im sechsten Diagramm drei Datenpunkt hervorgehoben. Diese wurden zufaellig ausgesucht (bzw. war der einzige „Nichtzufall“, dass die ungefaehr zum Anfang und Ende, bzw. der Mitte des Querbalkens gehøren sollten). Ich erwaehne das nochmal, denn das Verhalten der zugehørigen Seiten habe ich genauer untersucht. Dies zunaechst um den Ursprung des besagten Querbalkens aufzudecken. Das schaffte ich … und darum soll es heute gehen. Aber viel toller ist, dass ich dadurch Beweise fuer einen Sachverhalt fand, dessen Existenz ich schon fast von Anfang an vermutete. Aufgrund der involvierten Datenmenge konnte ich dem aber nie auf die Spur kommen … aber ich bin vor lauter Freude darueber schon viel zu weit im Erzaehlen … daher, der Reihe nach.

Hier nochmals das relevante Diagramm vom letzten Mal:

Fuer diese drei Punkte schaute ich mir die Linkfrequenz per Linklevel an. Zunaechst zeige ich die Daten aber nur fuer Umuarama und Robert John „Mutt“ Lange:

Kein Sorge, das „Chaos“ im rechten Diagramm ist kein Chaos sondern vielmehr das linke Diagramm nur anders aufgetragen.
Beide Seiten verhalten sich zunaechst so wie beim letzten Mal besprochen. Das Durchlaufen des (ersten) Maximums fuehrt zum (ersten) „Kreis“. Dann aber erfahren beide Seiten um LL25  nochmals eine „Welle von Zitierungen“. Naiv wuerde ich jetzt zunaechst denken, dass das zu einem zweiten Kreis fuehrt. Man beachte aber, dass beide Kurven einen „Knick“ im zweiten Maximum haben. Der sieht zwar eher unbedeutend aus, aber es ist dran zu denken, dass die Ordinate des linken Diagramms logarithmisch ist und die des rechten Diagramms linear.
Und plops … wenn man den Kurven im rechten Diagramm folgt (mit einem Auge auf den Kurvenverlauf im linken Diagramm), dann sieht man wieso im obersten Diagramm der Querbalken auftaucht: Das ist ein Resultat gespaltener Maxima (hier) um LL25.

Andererseits erklaert das aber nur die direkte Beobachtung und nicht wie der Querbalken ueberhaupt erst entsteht. Hier aber brachte mich der „Knick“ im zweiten Maximum auf die richtige Spur, denn das sieht verdaechtig wie das „São Paulo FC“-Artefakt aus. Es kann natuerlich nicht das Artefakt selber sein, denn zum Einen sind die Namen der Seiten falsch und zum Anderen werden beide Seiten bereits auf niedrigen Linkleveln zitiert. Dann sind’s vermutlich Meta-Artefakte, welche nur zustande kommen, weil die Seiten vom „São Paulo FC“-Artefakt zitiert werden.

Das kann ich natuerlich kontrollieren und tatsaechlich, Umuarama wird von den Jahren 1972 und 1974 (der São Paulo FC season(s)) zitiert. Kurz ueberschlagen … 1930 ist maximal auf LL66 … 1972 ist 42 Schritte von 1930 entfernt … die erste Spitze des zweiten Maximums von Umuarama liegt bei 24 … plus 42 = 66 … ditt stimmt! Super!
Im Uebrigen ist es sehr gut, dass da die „Zitiatluecke“ bei 1973 ist. Dies deswegen, weil des gespaltene Maximum bei den Artefaktseiten durch „Reflexionen“ zustande kommt. Meta-Artefakte kønnen grundsaetzlich keine Reflexionen aufweisen. Aber weil 1974 von den meisten Seiten zwei Linklevel spaeter erreicht wird, entstehen dennoch zwei Spitzen.

Bei Robert John „Mutt“ Lange sieht die Situation anders aus. Aber der Artikel wuerde zu lang werden, wenn ich darauf noch eingehen wuerde. Darum verschiebe ich das lieber auf’s naechste Mal … und damit auch die im Diagramm angekuendigte „Ueberraschung“.