Ich hatte bereits frueher Bekanntschaft gemacht mit Kristalle der Sorte Purpureum bzw. Flavum. Aber diese waren vom „Ice“-Typ. Jetzt begegnete ich Kristallen vom Typ Metallic. Hier die Sorte Purpureum Metallic …

… und dieser ist von der Sorte Flavum Metallic.

Da fror mir nicht die Frontscheibe ein, als ich nahe ranflog.

Ansonsten entdeckte ich auch noch ELW #111:

Beim letzten Mal unterzog ich die Daten einer mathematischen Transformation um aus dem „Rauschen“ noch mehr Information heraus zu holen. Weil der Artikel schon so lang war verschob ich die Diskussion der zeilenweise normierten Daten  …

… auf einen anderen Beitrag (diesen hier), denn durch diese Darstellung muss ein vorheriges Resultat etwas modifiziert werden.

Aber der Reihe nach. Zunaechst springt einem die rote und ueberhaupt die vertikalen Linien ins Gesicht. Das sind wieder besagte Artefakte der Komprimierung. Das ist ueberhaupt nicht schlimm, denn wir wissen ja, wie diese Linien entstehen: Zusammenfasung der Werte zweier Spalten die mehr Zitierungen repraesentieren als „normale“ Spalten. Dadurch sind besagte (zusammengefasste) Werte grøszer als im Durchschnitt in den anderen („normalen“) Spalten. Das extreme Beispiel der roten Linie kommt durch die Komprimierung zweier (urspruenglicher) Spalten zustande (alle Seiten mit 9 oder 10 Zitierungen, siehe die Tabelle vom letzten Mal). Die Farbe Rot entspricht nun dem Wert 1. Wenn ich das halbiere (wg. zwei urspruenglichen Spalten), lande ich bei 0.5 und das wuerde der Farbe Gruen entsprechen und in die Umgebung passen. Alles ist also knorke.
Analog kann man fuer alle vertikalen Linien argumentieren, nur muss man aufpassen, dass man nicht die Anzahl der urspruenglichen Spalten betrachtet, sondern die Anzahl der Zitierungen, die diese repraesentieren.

Als naechstes sind die „invertierten Artefakte“ am linken und rechten Rand zu besprechen. Diese Spalten sind blaeulich, reprasentieren also geringe Werte. Das ist dadurch zu erklaeren, das der erste und letzte Wert auf der Abzsisse nur „halbe Prozente“ sind. Alles von 0.0 % bis 0.5 % wird zu Null komprimiert, waehrend fuer Eins alles von 99.5 % bis 100.0 % herangezogen wird. Dito zum Ende der Ordinate. Entsprechend weniger Gesamtzitate sind in diesen Spalten vereint und deswegen wir das blau in der zeilenweise normierten Darstellung.
In Analogie zu obigen Aussagen kønnte man hier den „Blauwert“ verdoppeln und dann wuerde man auch wieder ungefaehr bei Gruen landen.

Nun eine kleine Peinlichkeit: die Linie die einmal quer uebers Bild geht bei Feldern wo der Wert auf der Ordinate, dem Wert auf der Abszisse entspricht; bspw. (23, 23). Diese Linie sieht man sogar schon in den urspruenglichen, nicht normierten Daten. Der Grund dafuer geht ganz weit zum Anfang dieser Untersuchungen zurueck, als ich versuchte so viel wie møglich uninteressante Sachen aus den Rohdaten zu løschen.
Dabei ist mir entgangen, dass manche Seiten (mit einem gewissen Wert auf der Abzsisse) sich selbst zitieren (was dem selben Wert auf der Ordinate entspricht). Oder vielmehr Abschnitte im selben Artikel zitieren, aber das kommt auf’s Gleiche hinaus. Ich wuerde sagen der Anteil der Seiten die das machen ist ca. 10 Prozent … ich schiebe das also in den Fehler … gebe aber zu, dass das eine Sache ist, die man heraushalten kønnte.

Das ist sehr wichtig solche Sachen zu besprechen, denn wenn man nicht weisz wo das herkommt, dann kønnte es sein, dass die Resultate an denen man interessiert ist selber auch nur ein Artefakt (und damit Humbug) sind.

Als Letztes dann der „rote Blob“ beim Wert (61, 61). Zunaechst dachte ich, dass dieser durch die zwei obigen Erklaerungen erklaert werden kønnte (Komprimierung + Peinlichkeit). Und waehrend diese beiden Dinge da sicherlich mit reinspielen, sollte deren Einfluss nicht so grosz sein, dass dieser Blob so krass dominiert in der Region. Also untersuchte ich das weiter und es stellte sich heraus, dass das KEIN Artefakt ist! Vielmehr ist das eine echte Anomalie und man sieht das auch in den urspruenglichen Daten, wenn man weisz wo man schauen muss. Ich brauchte drei Wochen um rauszufinden was das ist (zugegeben, unterbrochten durch total viel Sci-Fi Serien schauen und zocken). Und weil das laenger dauert zu erklaeren und dieser Artikel hier eh schon so lang ist wird die Erklaerung dieses Blobs auf’s naechste Mal verschoben.

Zieht man die Artefakte in Betracht und ignoriert erstmal den Blob, dann bleiben drei echte Beobachtungen zurueck:
1.: das Meiste ist gruen,
2.: im oberen Bereich hat man ein rotes Gebiet,
3.: in der rechten unteren Ecke ist’s rot und die entsprechenden Spalten werden blau zum oberen Ende hin.

Ersteres bedeutet, dass (relativ gesehen) unabhaengig vom Relevanzwert jede Seite gleich haeufig zitiert wird unabhaengig von der Relevanz der zitierenden Seite. Das deutete sich bei den urspruenglichen zeilenweise normierte Daten, bereits an, weil dort der gruen/rote „Streifen“ sich so verschmiert. Das ist mir an der Stelle nur nicht aufgegangen. Somit hat die Komprimierung nicht nur Information aus dem „Rauschen“ gezogen sondern auch dies deutlich gemacht.

Punkte 2 und 3 schraenken diese Aussage etwas ein. Das rote Gebiet bei Relevanzwerten ueber 80 auf der Ordinate und Relevanzwerten zwischen 30 und 90 auf der Abszisse deutet darauf hin, dass oft zitierte Seiten haeufiger ueber andere mittel und oft zitierte Seiten reden. Das ist die erwaehnte Modifikation des vormaligen Ergebnisses und genau das was ich meinte, als ich sagte, dass im „Rauschen“ noch was zu holen ist. Cool wa!
Aber Achtung:  „irrelvante“ Seiten machen weiterhin einen signifikanten Teil des Signals in diesem Bereich aus.

Punkt 3 zeigt dann nochmals deutlich, dass die Relevanz insb. der meistzitierten Seiten nur dadurch kommt, dass diese von „extra irrelevanten“ Seiten ueberproportional haeufig  zitiert werden. Das ist schon ein bisschen ironisch, nicht wahr.

Alles in allem kann die Relevanzdiskussion damit abgeschlossen werden. Man kann relevante Seiten nicht ohne „irrelevante“ Seiten haben. Und das ist voll messbar.
Aber ja, ich weisz, dass die Relevanzdiskussion eigentlich gar nicht darum geht.

Auch wenn dies damit erledigt ist, bin ich noch nicht fertig mit diesen Analysen. Beim naechsten Mal diskutiere ich eine weitere Anomalie in den (nicht komproimierten) Daten. Dieser erklaert die Methodik mit welcher ich den Ursprung besagter Anomalie aufklaeren konnte, aber am Beispiel nur einer Seite. Im Beitrag danach diskutiere ich den „Blob“ bei dem diese Methodik auf tausende (im Allgemeinen) bzw. hunderte (im Speziellen) Seiten gleichzeitig angewendet wird. Und dann kommen zwei Artikel mit anderen Kuriositaeten. Diese Daten sind voll ’ne Schatztruhe und ich stosze auf Dinge die ich nie erwartet haette. Aber dann bin ich damit fertig und es geht nach einem fast fuenfrmonatigen „Einschub“ endlich weiter mit den urspruenglichen Betrachtungen zum Linknetzwerk.

Realgeschichtlich begegnen wir in diesen Jahren dem (mal wieder) verkuendeten „End of history„. Waehrend dies realgeschichtlich (mal wieder … leider… ?) nicht eingetreten ist, so macht es sich in den Peanuts doch bemerkbar.

Besagtes philosophisches Argument geht in groben (!) Zuegen davon aus, dass die Menschheit gesellschaftsentwicklungstechnisch einen Punkt erreicht (hat), an dem es keinen Grund gibt was Neues zu machen. Dies liegt daran, weil alles so knorke ist. Dagegen gibt es viele Argumente, aber die Ereignisse der gegebenen Jahre in Betracht ziehend, wundert es mich ueberhaupt nicht, dass dieser Essay so viel beachtet wurde.

Waehrend ich oben auf den beruehmten Artikel von Francis Fukuyama verweise so ist die Idee nicht neu. Spontan faellt mir da als weiteres Beispiel, philosophisch/politisch aus einer anderen Ecke kommend, „der Kommunismus“ als „Endform der Gesellschaft“ ein.

Ich erwaehne das nicht nur, weil es zeitlich passt, sondern auch weil ich den Eindruck hatte, dass bei den Peanuts dieser Zustand eingetreten ist. Ende der 80’er waren sowohl die Peanuts als auch deren Autor, Charles M. Schulz, professionell, monetaer und gesellschaftlich seit vielen Jahren etabliert. Oder anders gesagt: die Figuren hatten in diese Jahren laengst ihre eigenen Wesenszuege ausgebildet. Dies wiederum wirkt darauf zurueck, wie Schulz die Geschichten schreibt — zwar jedesmal neu, aber dennoch irgendwie bekannt … ja mglw. gar vorhersagbar.

Das mindert in keinster Weise die Relevanz der Peanuts als kulturelles und gesellschaftliches Gut. Ebenso ist es auch NICHT „die alte Leier“. Vielmehr ist es so, dass man weisz, was man mit und an den Peanuts hat.

Ich gebe aber zu, dass ich ungefaehr ab hier anfing mehr aus „kultureller Pflicht“ und „intellektuellem Interesse am Gesamtwerk“ die Baende gelesen habe, als aus innerer Freude darob der Abenteuer der Kinderschar.

Kurze Wiederholung (weil’s immer noch etwas kompliziert ist):
i.: Alle Seiten werden am haeufigsten von „irrelevanten“ Seiten zitiert und alle Seiten reden (zitieren) am haeufigsten ueber „irrelevante“ Seiten.
ii.: Der Relevanzwert entspricht bei kleinen Werten der Anzahl der Zitierungen und ist bei grøszeren Werten eine Abbildung einer Zaehlweise mit Luecken (Anzahl der Zitierungen) auf eine Zaehlweise ohne Luecken (Relevanzwert)
iii.: Aus dem zweiten Punkt folgt (indirekt), dass die Daten bei kleinen Relevanzwerten aus (sehr sehr) vielen Seiten zusammengesetzt sind. Hingegen bei groszen Relevanzwerten wird das „Signal“ von nur wenigen Seiten generiert. Bei ganz groszen Werten gar nur von einzelnen Seiten. Dadurch entsteht der Eindruck, dass das „Signal“ in diesem Bereich nur „Rauschen“ ist.
iv.: Zeilenweise Normierung zeigte beim letzten Mal, dass im „Rauschen“ bei groszen Relevanzwerten vermutlich noch Information steckt und dass dies dort nur deswegen als „Rauschen“ scheint, wegen dem was im dritten Punkt steht.

Heute folgt nun, wie man mittels einer weiteren (ich wage zu sagen: geschickten) Abbildung die Information aus dem Rauschen „ziehen“ kann.
Es wird etwas technisch am Anfang. Aber das ist wichtig um zu verstehen, dass die qualitativen Schlussfolgerungen gueltig sind, trotz der „Artefakte“ welche besagte Abbildung hinterlaeszt.

Zunaechst muss ich zu dem im dritten Punkt Zusammengefassten zurueckkehren um zu erklaeren wie das Problem zu løsen ist. Dafuer schaue man auf diese Tabelle, welche das Problem verdeutlicht.

So oft zitiertAnzahl SeitenAnzahl ZitateProzentanteil (Seiten)Prozentanteil (Zitate)kumulativer Prozentanteil (Seiten)kumulativer Prozentanteil (Zitate)
0320,08905.520
5.520
1793,588793,58813.690.4819.210.48
2601,7621,203,52410.380.7329.591.20
3483,3861,450,1588.340.8737.922.08
9162,916
1,466,2442.810.88
64.457.64
10142,2691,422,6902.450.8666.90
8.49
528,950465,4000.150.2892.2828.50(539)
538,565453,9450.150.2792.4328.78
548,241445,0140.140.2792.5729.04
557,967438,1850.140.2692.7129.31
187,5901187,5900.000017
0.1199.99(9965507)99.66
231,1961231,1960.000017
0.1499.99(9982753)
99.80
325,1281325,1280.000017
0.20
100100

In der ersten Spalte ist die Anzahl der Zitierungen welcher identisch ist mit dem Relevanzwert bis zu einem Wert von 2075. Da die Bedeutung dieser beiden Begriffe die selbe ist, benutze ich diese beiden synonym an dieser Stelle.
In der zweiten Spalte sieht man die Anzahl der Seiten die so oft zitiert wurden wie in der ersten Spalte angegeben. In der vierten Spalte steht dann wie vielen Seiten das prozentual entspricht und der aufaddierte Anteil an Seiten ist in der sechsten Spalte zu sehen.
Das Produkt aus der ersten und zweiten Spalte ergibt die Anzahl der Zitate, die diese Gruppe auf sich vereint (dritte Spalte). Der entsprechende Prozentanteil (an der Summe aller Zitate) ist in der fuenften Spalte und der kumulative Anteil in der siebten Spalte zu sehen.

Die prozentualen Anteile verdeutlichen das Problem ganz gut. Bei kleinen Relevanzwerten befinden sich im Gesamtsignal deutlich mehr „Treffer“ (ausgedrueckt durch den Prozentanteil der Zitate) als bei groszen Relevanzwerten. Das ist das was ich mit ungleicher Schrittweite meine und das aendert sich auch nicht durch eine Normierung. Das Problem kønnte entsprechend durch eine gleiche Schrittweite geløst werden und da kommen die Prozentanteile ins Spiel. Es ist naemlich so, dass dieser Wert bei den Zitaten (anders als bei den Seiten) niemals grøszer als 1 wird und der Unterschied von „Schritt zu Schritt“ auch nicht so grosz ist. Vielmehr ist es so, dass der Unterschied mit grøszeren Relevanzwerten abnimmt. Das ist toll, denn bedeutet dies doch, dass ich die Daten von mehreren Relevanzwerten zusammenfassen kann um „Meta-Gruppen“ zu erstellen, die alle eine mehr oder weniger gleiche Schrittweite und damit „Signalstaerke“ haben. Das „mehr oder weniger“ wird nochmal wichtig.

Zur Veranschaulichung nehme man die Werte bei 52, 53, 54 und 55 Zitierungen. Wenn ich diese vier Zeilen zusammenfasse, erhalte ich die „Meta-Gruppe“ mit dem Namen 29. Der Name kommt daher, dass alle diese Werte beim kumulativen Prozentanteil (der Zitate) auf 29 % gerundet werden.
Bei kleinen Relevanzwerten bis 8 entspricht auch hier wieder der Name der „Meta-Gruppe“ der Anzahl der Zitierungen. Aber bereits ab 9 Zitierungen muss ich anfangen Zeilen zusammen zu fassen.

Wie angesprochen wird nun aber das „mehr oder weniger“ nochmal wichtig.
Im Durchschnitt repraesentiert jede Meta-Gruppe ca. 1.6 Millionen Zitierungen (der Median ist aehnlich). Aber insbesondere bei den ersten Meta-Gruppen (also bei kleinen Relevanzwerten) kann diese Zahl deutlich grøszer werden.
Zur Veranschaulichung nehme man die Werte bei 9 und 10 Zitierungen. Diese „komprimieren“ zu Meta-Gruppe 8 %. Aber die Menge an Zitaten die dadurch repraesentiert wird ist mit 2,888,934 Zitaten fast doppelt so grosz wie der Durchschnitt.
DAS wiederum fuehrt im (normierten) Falschfarbenbild zu Streifen; den oben erwaehnten Artefakten. Die Anzahl dieser „Grenzfaelle“ ist zum Glueck gering und die Artefakte aendern an der Nuetzlichkeit dieser Abbildung auf Meta-Gruppen, welche ungefaehr gleich grosze Mengen an Zitierungen repraesentieren, nichts.

Aber nun endlich die Falschfarbenbilder. Zunaechst die totalen Zahlen und die spaltenweise normierten Daten:

Ich habe diese beiden Darstellungen in ein Bild gepackt, weil sich keine neuen Erkentnisse ergeben. Immer noch gilt, dass die Relevanz aller Seiten durch Zitierungen von „irrelevanten“ Seiten kommt. Durch die Komprimierung sieht man es diesmal sogar schon in der totalen Anzahl der Zitierungen im linken Diagramm (gruener Streifen parallel zur Abzsisse bei kleinen Relevanzwerten). Dort sieht man ebenso rechts unten einen roten Punkt. Das liegt daran, dass die wenigen Seiten hin zum 100 % Wert so krass viele Zitate auf sich vereinen, dass dies in den (totalen) komprimierten (a.k.a. zusammengefassten) Zahlen dann deutlich auffaellt.
Auszerdem treten die erwaehnten horizontalen und vertikalen Streifen auf; besagete Artefakte. Im linken Bild sind diese Linien sowohl auf der Abzsisse als auch auf der Ordinate den selben Werten zuzuordnen. Durch die spaltenweise Normierung „verschwinden“ die vertikalen Streifen im rechten Diagramm, denn alle Spalten sind ja auf den selben maximalen Wert normiert.

Das soll genug sein fuer heute. Dieser Beitrag sollte vor allem das Prinzip der Komprimierung der Daten klar machen und was das fuer die Resultate bedeutet. Beim naechsten Mal zeige ich dann die zeilenweise normierten Daten und da gibt es einiges zu diskutieren.

Nachdem ich im Solsystem fertig war mit der Besichtigung von Sehenswuerdigkeiten, machte ich mich wieder auf den Weg zu ein paar Rekorden in der Galaxis.

Bleia Dryiae PD-E c1-2 16 haelt 6 dieser Rekorde … und alle folgen, weil dies von allen entdeckten Planeten DER Planet (auf dem man landen kann) mit der laengsten Halbachse des Orbits ist. Mit 106,129,094,372,391.58 m. oder ca. 709.43 au ist die so grosz, dass der Planet im Urpsrungssystem weit hinter der Heliopause liegen wuerde.
Damit folgen dann (wie so oft) die Rekorde fuer den grøszten orbitalen Umfang (666,692,700,281,545.0 m) und die laengste orbitale Periode (725,315,485,696.0001 s oder fast 23 k Jahre).

Das sind drei von sechs … die anderen drei sind Rekorde in den selben Characteristiken, aber fuer den spezifischen Planetentyp — Icy body (auf dem man landen kann).

Desweiteren ist dies der Ursprungsplanet fuer das galaktische Band — der dicke Stein auf der rechten Seite — wie man in diesem Beweisphoto sehen kann:

Die letzte „ancient probe“ im Ursprungssystem war …

Voyager 1. Naja, streng genommen ist keine dieser Sonden mehr im Ursprungssystem. Und diese Probe hier war ueberhaupt das allererste menschliche Stueck Kultur welches die Grenzen des Solsystems passierte. Schon krass, was man damals vor ueber 1000 Jahren schon alles erreicht hat, trotz der primitiven Technologie.
Aber so richtig in der „Nachbarschaft“ sind die Sonden auch noch nicht angekommen. Das dauert noch 50-tausend Jahre oder so.

Apropos primitive Technologie. Das was da so „raus guckt“ war die Energieversorgung der Sonde — drei Radionuklidbatterien. Die sind natuerlich laengst nicht mehr aktiv und man kann sich das ohne Gefahren aus der Naehe anschauen:

Hach … da kommen mir ja fast die Traenen, wenn ich an all die Traeume und Hoffnungen der Mensche von damals denke, welche mit den „Weltraumabenteuern“ verbunden waren. Aber auch wie grosz der Jubel und die Freude gewesen sein muss, als diese Sonden Daten aus der groszen unbekannten Leere schickten. Das muss schon eine Zeit der (wissenschaftlichen) Wunder gewesen sein.

1 Megacorpse beschreibt 1 Million Tote. Der Name der Einheit ist besser bekannt als 1 Megadeath und tauchte zum ersten Mal in der Diskussion der Konsequenzen eines Atomkriegs auf.

Andererseits kønnen (leider) auch die Resultate nicht kriegerischer Situationen in Megacorpse ausgedrueckt werden. Seien es AIDS, COVID-19 (zumindest zum Zeitpunkt als dieser Beitrag geschrieben wurde), Hunger, Malaria und noch so einige andere.

*seufz*

Die verstørenden „Hundebilder“ von DeepDream sind ja sicherlich bekannt. Bekannt ist auch dass das in der „offiziellen Berichterstattung“ vehement natuerlich nicht als Kunst angesehen wurde. Meist mit dem Hinweis, dass der Algorithmus das Konzept des Hundes, des Bildes, des Hundes im Bild usw. usf. gar nicht _versteht_. Oder anders: ein „richtiger“ (vulgo: menschlicher) Kuenstler begreift ein Konzept und erschafft darauf aufbauend seine Kunstwerke. Als Beispiel faellt mir dazu Warhols Marilyn Diptych ein.

Und ehrlich gesagt, ich gehe da mit.

Andererseits erwarte ich von ’nem Schulkind auch nicht, dass es mir die Formeln des harmonischen Oszillators in quantenmechanischer Betrachtung herleiten kann.
Aber ich kann das auch nicht ohne Weiteres. Ich muesste mir das vorher nochmal anzuschauen. Mit „anschauen“ meine ich natuerlich nicht nur den harmonischen Oszillator an sich, sondern auch die vielen Konzepte und Sachen „drumherum“, die man braucht um das zu … verstehen.
Und damit bin ich wieder beim Schulkind, denn um die Konzepte der Quantenmechanik zu verstehen muss ich erstmal sooooo viele andere Konzepte begriffen haben. Nicht nur Analysis und Vektorrechnung, sondern auch Addition, Multiplikation und sogar noch „tiefer“ hinab gehend, den Unterschied zwischen Symbolen und deren Bedeutung wenn die zu neuen, anderen Symbolen zusammengesetzt sind. Letzteres ist natuerlich das was wir im Allgemeinen als „Lesen lernen“ bezeichnen. Und mit dem Lesen, lernen wir auch oft genug das Schreiben. Und zack, kaum kønnen sie schreiben, denken sich manche Kinder ihre eigenen Geheimschriften aus.
Aber nicht nur Kinder erfassen das Wesen von Symbolen und machen damit neue Sachen, sondern auch Erwachsene. So stammen das lateinische, das etruskische, das gotische, das glagolitische, das kyrillische (und vermutlich noch ’n paar andere) Alphabet vom griechischen Alphabet ab.

Das ist Symbolmanipulation, welche den Charakter, das Wesen der Symbole, erhaelt aber etwas Neues dabei schafft.

Und das kønnen mittlerweile auch Computer. In dem Artikel wird darauf eingegangen, wie man einem Cimputer beibringen kann, das Konzept von (Schrift)Symbolen zu erkennen und darauf aufbauend neue (Schrift)Zeichen mit dem selben Wesen zu erfinden. Und Bild 7 ist schon ziemlich beeindruckend.

Klar, das ist noch urst weit weg von Warhols Werk, aber die Autoren des verlinkten Artikels schreiben zu Recht:

Human cultures produce many such symbol systems, including gestures, dance moves, and the words of spoken and signed languages. As with characters, these concepts can be learned […]

Und zwar offensichtlich nicht nur von Menschen, sondern auch von Computern. Und die zwei Fragen die verbleiben sind: Was meinen die Journalisten eigentlich mit „verstehen“? und Wann geben wir zu, dass wir genuegend Sachen genauso wenig „verstehen“, aber trotzdem damit umgehen und darauf unsere Leben und unsere Gesellschaft aufbauen?

Kurze Wiederholung, weil es etwas komplizierter ist: beim letzten Mal stellte ich vor, dass sich die Relevanz von Wikipediaartikeln im Wesentlichen dadurch ausdruecken laeszt, indem man zaehlt wie oft ein Artikel zitiert wird. Der Einfachheit halber nenne ich hier Wikipeidaseiten mit kleinen Relevanzwerten „irrelevant“ (mit Anfuehrungszeichen). Das bedeutet nicht, dass die irrelevant (ohne Anfuehrungszeichen) sind.
Desweiteren stellte ich fest, dass die Wikipediartikel an den beiden Enden der Relevanzskala (die Artikel mit den kleinsten bzw. grøszten Relevanzwerten) vor allem von „irrelevanten“ Seiten zitiert werden. Daraus folgte, dass zumindest fuer die zwei meistzitierten Artikel die Relevanz nur deswegen zustande kommt, weil es die „irrelevanten“ Seiten gibt.
Das waren aber nur vier Beispiele und ich setzte mich mal hin und schaute mir das fuer _alle_ Wikipediaseiten an. Dies hier ist das Ergebnis:

Wenn das Bild geklickt wird, dann wird das grøszer.

Was sieht man hier eigentlich? Die Abszisse repraesentiert den oben erwaehnter Relevanzwert einer Seite. Bis 2075 Zitierungen entspricht das der Anzahl der Zitierungen die eine Seite erhalten hat. Danach weichen die Relevanzwerte von der Anzahl der Zitierungen ab. Der Grund ist, dass die Werte der Abszisse das Resultat einer Abbildung einer Grøsze mit ungleicher „Schrittweite“ (Anzahl der Zitierungen) auf eine Grøsze mit konstanter „Schrittweite“ (Relevanzwert) ist. Ein kurzes Beispiel: es gibt keine Seite die 2076 mal zitiert wurde aber 2 Seiten die 2077 mal zitiert wurden. Der Relevanzwert zaehlt also „OHNE Luecken“.
Von der Bedeutung aendert sich aber nichts: je mehr Zitierungen eine Seite hat, desto relevanter ist diese (wohl) und entsprechend grøszer ist der Relevanzwert.

Die Ordinate repraesentiert im Wesentlichen die gleiche Grøsze, aber fuer die zitierende Seite.

Der Farbwert entspricht nun wie oft Seiten gefunden wurden, die einen bestimmten Relevanzwert haben und von einer (anderen) Seite mit einem (anderen) bestimmten Relevanzwert zitiert wurde.
Wenn also Seite A drei mal zitiert wurde von drei anderen Seiten die selber drei, elf und siebzehn mal zitiert wurden, dann zaehlt der Wert bei den „Koordinaten“ (3, 3), (3, 11) und (3, 17) ein mal hoch.
Wenn nun Seite B auch drei mal zitiert wurde, von Seiten die drei, sechs und sieben mal zitiert wurde, zaehlen die Werte bei den entsprechen „Koordinaten“ eins hoch. Der Wert bei (3, 3) ist nun zwei.
Diese Zaehlung habe ich nun fuer alle Wikipediaseiten gemacht und tritt fuer eine „Koordinate“ kein „Ereigniss“ auf, so bleibt das „Pixel“ fuer diese Koordinate schwarz.

Achtung: das obige Bild ist eine quadratische Matrix! Aufgrund gegebener Limitierungen in der Praesentation habe ich mich aber entschieden die Abszisse „laenger“ zu machen als die Ordinate.
Nochmal Achtung: Das ist zwar eine quadratische, aber keine symmetrische Matrix! Auch wenn auf den Achsen beide Male Relevanzwerte dargestellt sind, so ist die Bedeutung geringfuegig anders (wie oben beschrieben).

Wir sehen im Bild nun, dass das ueberwiegend schwarz ist. Bei den meisten Koordinaten zaehlt also nix hoch, weil es keine Seiten mit dem jeweiligen Relevanzwert gibt, die zitiert werden von Seiten mit dem (anderen) jeweiligen Relevanzwert. Schaut man genau hin, ist da „Rauschen“ drin. Ich komme da spaeter drauf zurueck.

Desweiteren sieht man, dass sich alles an der linken und unteren Kante abspielt — der blaue „Saum“. Das ist wichtig, denn dies ist eine Bestaetigung der beim letzten Mal getroffenen Aussage. Egal wie wichtig eine Seite ist (Wert auf der Abszisse), diese erhaelt ihre Wichtigkeit vor allem dadurch, weil sie von „irrelevanten“ Seiten zitiert wird (Wert auf der Ordinate). Das ist das blaue Band am unteren Rand.

Das blaue Band am linken Rand besagt nun, egal wie wichtig eine Seite (Ordinate) ist, diese zitiert vor allem „irrelevante“ Seiten (Abszisse). Und das ist krass!
Warum ist das krass? Nun ja, die erste Aussage (Wichtigkeit nur durch die Zitierung von „irrelevanten“ Seiten) ist ja eindeutig. Aber das Ganze geht noch weiter! Denn die zweite Aussage bedeutet, dass selbst die relevantesten Seiten ueber irrelevante Sachen schreiben (weil man ja zitieren muss worueber man schreibt).
Und DAS bedeutet dann nicht nur, dass relvante Seiten nur durch die Zitierungen irrelvanter Seiten relevant werden, sondern dass es relevante Seiten gar nicht geben wuerde, wenn diese nicht ueber „irrelevante“ Seiten schreiben kønnten!

DAS ist so krass, denn dies setzt der Relevanzdiskussion ein Ende und die Inkludisten sind die eindeutigen Gewinner!

Das ist das Resultat. Nun ist’s aber nicht ganz so einfach … und warum geht die Farbskala eigentlich bis ueber 120-tausend Ereignisse, wenn im Bild entweder alles schwarz oder blau (ein paar tausend Ereignisse) ist?
Nun ja, deswegen ist da ein Pfeil im Bild.

Ich zoome mal rein:

AHA! Da wird’s rot. Im Bereich bis zu Relvanzwerten von 100 passiert alles … bzw. nix, denn der schwarze Balken bei einer Relevanz von Null liegt natuerlich daran, dass diese Seiten null mal zitiert werden … aber ich schwoff ab.
Koordinaten fuer Seiten die ein bis zehn mal zitiert werden, von Seiten die selber null bis zwei Zitierungen haben sind im gelb/roten Bereich. Das sind also 10 mal 3 mal 100-tausend „Ereignisse“ die sich dort „versammeln“. Diese Gruppe ist umgeben von einem deutlich breiteren, gruenen „Halo“ welche Ereignisse mit Zaehlungen bis ca. 60-tausend beinhaltet.
Die Vielzahl der „irrelevanten“ Seiten die sich selber zitieren fuehrt zu so krass vielen Zitierungen (Ereignissen), dass das was in diesem Bereich angehaeuft ist vom absoluten Wert alles andere in den (blauen) Schatten stellt. Und weil die „Ausdehnung“ dieser Gruppe so klein ist, sieht man das im ersten Bild nicht.

Das ist jetzt natuerlich ein Problem in Bezug auf die obigen Aussagen. Die schiere Menge an Zitaten von (und an) „irrelevante(n)“ Seiten erdrueckt das Signal der Seiten mit grøszeren Relevanzwerten.

Aber zum Glueck ist dies mit einer simplen mathematischen Transformation sehr leicht in Betracht zu ziehen: jede Spalte muss normiert werden.
Das hørt sich jetzt fancy-pancy an, was das bedeutet ist aber, dass alle Werte in einer Spalte durch den grøszten Wert dieser Spalte geteilt werden. Besagter grøszter Wert wird dann natuerlich zu 1. Das Gute ist nun, dass ALLE grøszten Werte ALLER Spalten den Wert 1 haben. Dadurch wird das „Gewicht“ von der Farbskala genommen und Spalten mit groszen Relevanzwerten kønnen mit Spalten mit kleinen Relevanzwerten verglichen werden. Dabei ist natuerlich immer im Hinterkopf zu behalten, dass dies relative Vergleiche sind, im Gegensatz zum Vergleich der absoluten Werte in den obigen beiden Bildern.
Und so sieht das dann aus:

Haeh? What? Das ist doch das Gleiche! … Nun ja, nicht, wenn man ganz genau auf den unteren Rand schaut (ACHTUNG: die Ordinate geht nur noch bis 200 „Ereignisse“):

AHA! Das sieht doch schon ganz anders aus. Durch die Normierung wird (wie vorgesehen) der erdrueckende Anteil der Ereignisse bei kleinen Relevanzwerten irrelevant (tihihi). Das Resultat ist nun das rot gruene Band am unteren Rand. Dieses haelt die obige (erste) Aussage aufrecht: fuer ALLE Seiten, vøllig unabhaengig davon wie grosz (oder klein) die absolute Anzahl der Zitierungen ist, gilt, dass diese hauptsaechlich von „irrelevanten“ Seiten zitiert werden.
Das ist zwar das Selbe wie oben schon erkannt, aber es ist gut, dass diese Kontrolle nicht zu einem anderen Ergebis gefuehrt hat.

Aufmerksamkeit møchte ich richten auf die Tatsache, dass ein mal zitierte Seiten (Relevanzwert = 1, auf der Abszisse)  interessanterweise weniger haeufig andere Seiten zitieren als null mal bzw. drei mal zitierte Seiten. Dies drueckt sich in dem duennen gruenen Streifen parallel zur Abszisse aus, der eingequetscht ist zwischen den roten Streifen bei Relevanzwerten (der zitierenden Seiten, also auf der Ordinate) von null bzw. zwei.
Man sieht das auch bereits in den nicht normierten Daten im obigen Bild. Dort sieht man dann auch einen Grund: der Wert bei der Koordinate (1, 1) hebt sich deutlich hervor im Vergleich zu den Werten bei (1, 0) bzw. (1, 2).
Dies wiederum deutet darauf hin, dass meine Erklaerung des „im Kreis zitieren“ vom letzten Mal …

[s]ozusagen wenn Hintertupfingen Vordertupfingen zitiert, weil’s das Nachbardorf ist (und umgekehrt), aber beide von keiner anderen Seite zitiert werden

… schon in die richtige Richtung geht fuer viele dieser Seiten. Denn wenn die ihr eines Zitat fuer die „Nachbardorfseite“ verbrauchen und umgekehrt, dann fehlt das „Signal“ natuerlich an anderer Stelle.

Dies wiederum waere dann aber auch ein Hinweis auf (mehr oder weniger) tataechliche Nichtrelevanz, da diese Seiten dann ja in keinem Diskurs teilnehmen, sondern nur eine Nabelschau sind. Ich persønlich wuerde die aber trotzdem drin behalten.

Genug dazu … wie sieht das nun mit der zweiten Aussage aus? Ueber was schreiben die (nicht nur relevanten) Seiten eigentlich? Dafuer muss man natuerlich alle Zeilen normieren und das sieht dann so aus:

Aha! Ein bunter Streifen, der sich an die Ordinate schmiegt. Wenn man rein zoomt, dann sieht das so aus:

Im Allgemeinen bleibt also auch die zweite Aussage bestehen: ALLE Seiten zitieren hauptsaechlich „irrelevante“ Seiten. Das ist die Bedeutung des gruen-roten Bereichs am linken Rand. Aber das muss etwas genauer betrachtet werden.

Zum Ersten ist das, anders als beim obigen Fall, kein eindeutiges „rotes Band“ (parallel zur Ordinate in diesem Fall). Das „duennt aus“ je grøszer die Relevanzwerte der zitierenden Seite wird. Dies wiederum bedeutet, dass das „Signal“ bei høheren Relevanzwerten (auf der Abszisse) grøszer werden muss zu høheren Relevanzwerten auf der Ordinate. Nun sieht man das im Gesamtbild aber wieder nicht, weil das Gesamtsignal bei kleinen Relevanzwerten von vielen Seiten stammt, waehrend es bei groszen Relevanzwerten von wenigen, oft nur einer Seite „generiert“ wird. Die angesprochene Beobachtung geht also im „Rauschen“ unter.

Aber tatsaechlich, schaut man sich mal die Ecke bei den 1000 grøszten Relevanzwerten an …

… dann scheint sich da Information zu verstecken! In den zeilenweise normierten Daten geht das „Rauschen“ oft in den blauen und gar gruenen Bereich (manchmal gar in den roten). Hier ist also noch „was zu holen“.
Aber darum soll es beim naechsten Mal gehen: wie man das Mehr an Information aus den Daten kitzeln kann :)

Zum Zweiten liegt das Maximum des „roten Bereichs“ nicht bei Relevanzwerten von 1 oder 2 sondern eher bei Relevanzwerten von 5, 6 und 7. Dies ist zum Glueck einfach zu erklaeren.
Seiten mit den kleinsten Relevanzwerten werden zwar total gesehen am haeufigsten zitiert (die Anzahl der Seiten die nur ein mal zitiert werden ist grøszer als fuer alle anderen Relevanzwerte), aber wenn eine Seite mit Relevanzwert 1 ihr eines Zitat erhalten hat, dann ist diese Seite „verbraucht“. Die naechste Zitierung muss also zu einer anderen Seite mit Relevanzwert 1 gehen. Bis wir durch sind mit denen. Dadurch „verschmiert“ sich das Gesamtsignal fuer alle Seiten mit Relevanzwert ueber den kompletten Wertebereich.
Hingegen wenn eine Seite mit Relevanzwert 6 eine Zitierung bekommt, dann kann die noch fuenf weitere Male zitiert werden. JA, die Anzahl der Seiten mit Relevanzwert 6 ist geringer, aber das Produkt aus erhaltenen Zitaten und Anzahl der Seiten ist grøszer. Bei Relevanzwerten ueber sieben ist’s dann aber wieder so, dass die Anzahl der Seiten so stark abnimmt, dass besagtes Produkt wieder kleiner wird.
Das sieht man uebrigens auch im Bild mit dem „reingezoomten“ Bild mit den total Zahlen und deswegen erscheint das Maximum des „roten Bereichs“ der (zeilenweise) normierten Daten eher dort.

Dieses Wechselspiel aus totalen und normierten Zahlen bzw. vielen Seiten und vielen Zitierungen (bzw. dem Produkt aus beiden) muss alles im Kopf behalten werden waehrend der Interpretation dieser Diagramme. Ich gebe zu, dass dies nicht immer einfach ist. Ich sasz oft laenger da, ohne dass mir die Erklaerungen „ins Gesicht gesprungen“ ist. Vielmehr musste ich alle Gegebenheiten auseinanderklamuesern, mir genau ueberlegen was die Normierung (oder die Achsen, oder der Farbwert) eigentlich bedeutet, und total aufpassen, dass mir da nix durcheinander kommt um das Signal zu interpretieren und die Zusammenhaenge zu erkennen.
Und das ist einer der Gruende, warum ich das so toll finde. Einfach, kann ja jeder :)

Die Darstellung der kumulativen Anteile der Anzahl Links pro Seite erinnerte mich, dass ich das bei den Zitierungen nur indirekt und mit Worten machte. Hier nun als Graph:

Im Hintergrund habe ich wieder die Verteilung reingelegt, wieviele Seiten wie oft zitiert wurden. Die rote Kurve stellt dann dar, wie vielen Seiten das insgesamt bis zum gegebenen Argument entspricht (in Prozent). Dito fuer die Zitierungen (blaue Kurve). Wie der Graph zu lesen ist erklaerte ich beim letzten Mal, ich markierte wieder die 50 % Werte.
Verglichen mit den Kurven beim letzten Mal ist der Unterschied zwischen den Anteilen VIEL krasser! Das sieht man noch deutlicher im Diagramm auf der rechten Seite, wo der Anteil der Seiten sich praktisch an die Ordinate anschmiegt und dann „sofort“ bei 100 % ist. Das ist eine Sache, die bei der Beschreibung mit Worten gar nicht soooo dolle rueber kam.
Kleine Abschweifung: beide Diagramme enthalten die gleiche Information (oder gar die Selbe?). Aber erst durch die verschiedenen Abszissen wird man erst auf bestimmte Dinge aufmerksam.

Warum zeige ich das hier? Nun ja, davon abgesehen, dass das ’n cooles Diagramm ist, ist es auch wichtig fuer das was ich im Folgenden besprechen werde. Denn diese Darstellung brachte mich auf die Idee, dass man die beruehmt-beruechtigte Relevanz mglw. messen kann. Nicht dass ich denke, dass das irgendwen umstimmen wuerde, aber es ist mal interessant anzuschauen.

Die Grundlage der „Messbarkeit der Relevanz“ ist ganz einfach: ein Artikel ist relevant wenn er ein wichtiger Teil der Diskussion ist. Ein wichtiger Teil der Diskussion ist ein Artikel, wenn dieser oft zitiert wird. Wie oft ist oft? Das ist dann im Allgemeinen nicht mehr so einfach zu quantifizieren.
Aber das ist auch nicht wirklich nøtig, denn im Speziellen denke ich, dass ein Konsens darin gefunden werden kann, dass die paar Seiten (lila Punkt im linken Diagramm) die 50 % der Zitierungen (gruen/lila Punkt) auf sich vereinen mit Sicherheit relevant sind. Einfach aus der (messbaren und damit objektiven (?)) Tatsache, dass die so krass viele Zitierungen auf sich vereinen, obwohl es sich dabei um nur ein bisschen mehr als 1.5 % aller Wikipediaseiten handelt. Zur Erinnerung: hier hatte ich die 50 meistzitierten Seiten aufgelistet.

Damit stellt sich dann als naechstes die Frage: wer zitiert diese Seiten eigentlich so oft? Oder anders: „wer“ sorgt eigentlich dafuer, dass diese Seiten relevant werden (sind)? Und DAS ist messbar … wird aber ein dreidimensionales Datenfeld mit 32,433,025 Millionen Werten … aber ich greife vor.

Zunaechst einmal: wie kann das gemessen werden?
Nun ja, das ist (mehr oder weniger) ganz einfach. Ich habe fuer jede Seite die Zitate (vulgo Links zu anderen Wikipediaseiten). Nun gehe ich zum ersten Mal durch die Daten, schaue fuer jede Seite wie oft die von anderen Seiten zitiert wird und merke mir das. Damit habe ich nun ein Masz fuer die „Wertigkeit“, „Wichtigkeit“ oder eben „Relevanz“ einer Seite. Je mehr Zitierungen desto „relevanter“.
Dann gehe ich ein zweites Mal durch die Daten und fuer jede zitierte Seite merke ich mir dann, von welcher Wichtigkeit die Seite war, welche diese Zitierung ausgesprochen hat. Letzteres weisz ich ja vom ersten Durchgang.

Das muss ich zwar fuer jede Seite in Erfahrung bringen, aber die Information wird zusammengefasst in Gruppen nach ihrer Relevanz. Also bspw. wann immer eine Seite die fuenf Mal zitiert wurde von einer anderen Seite die drei Mal zitiert wurde zitiert wird, dann zaehlt der Zaehler dieser 3-5-Gruppe einen hoch. Damit habe ich 3596 mal 3596 Gruppen. Wie? Nur so wenige? Mindestens eine Seite wird doch deutlich mehr als 300-tausend mal zitiert. Die Erklaerung liegt darin (wie man im Diagramm auf der rechten Seite sieht), dass da ganz schøn viel „Luft“ zwischen den Balken mit groszer Anzahl an Zitierungen ist.

Lange Rede kurzer Sinn: der Relevanzwert entspricht der Anzahl der Zitierungen ohne Luecken. Dabei muss man dann im Kopf behalten, dass die Relevanzwerte von 0 bis 2075 tatsaechlich dem entsprechen wie oft eine Seite zitiert wurde. Hingegen entspricht der Relevanzwert 5695 der einen Seite, die mehr als 325-tausend mal zitiert wurde und der Relevanzwert von 5694 eben jener Seite die „nur“ ein bisschen mehr als 231-tausend mal zitiert wurde; usw. rueckwaerts is alle Luecken geschlossen sind.
Das ist gar nicht so verwirrend, wie es sich erstmal anhøren mag. Ich bilde nur die groszen Werte auf kleineren Werten nach einer gegebenen (determinischen) Zuordnungsfunktion ab. Im Wesentlichen zaehle ich nur etwas anders.

Auch wenn das eine deutliche Reduktion des Problems ist, so sind das dennoch die weiter oben erwaehnten 5695 mal 5695 = 32,433,025 Millionen Werte.
Als ich das das Erste Mal programmierte hackte ich nur kurz zusammen, was mir gerade in den Kopf kam. Die beiden Durchlaeufe brauchten zwei Tage. Dann merkte ich, dass ich einen Fehler gemacht hatte, korrigierte den und liesz das nochmal zwei Tage laufen.
Dann hatte ich die Idee, dass ich das Ganze ja gleich in eine Matrix schreiben kønnte. Die eine Dimension der Matrix ist die „Relevanz“ einer Seite (in ganzen Zahlen mit oben erwaehnter Zaehlung). Die andere Dimension ist die Relevanz der zitierenden Seite. Und der Wert eines Felds ist dann wie oft diese bestimmte „Gruppe“ in den Daten auftauchte. Der Code wure dadurch viel einfacher und leichter zu verstehen und mit dieser (grundlegend alles veraendernde) Modifikation brauchte das dann nur noch 15 Minuten anstatt 2 Tage.
Das mit der Matrix ist ja eigentlich eine naheliegende Idee und da haette ich auch gleich drauf kommen kønnen. Aber als ich anfing hatte ich noch keine klare und eindeutige Vorstellung davon, was ich eigentlich untersuchen wollte. Also ich hatte das schon, aber „nur“ in Worten. Mein Geist brauchte ein paar Tage um das intern zu mathematisieren. Aber dann ging’s fix :) … also zumindest das Datensammeln. Zu interpretieren was ich da eigentlich sehe dauerte dann noch einige Tage mehr.

Und so sieht das aus fuer alle (!) Seiten die ein bzw. zwei Mal (schwarze und rote Punkte) zitiert wurden und fuer die zwei Seiten mit den Relevanzwerten von 5694 bzw. 5695 (lila und blaue Punkte):

ACHTUNG: Die Linien sind nur zur Orientierung (der Richtung)! Es gibt keine Werte zwischen den ganzen Zahlen. Aber aufgrund der logarithmischen Abzsisse kann die Null nicht dargestellt werden und deswegen benøtigt es eine Orientierung der Richtung fuer den Verlauf vom Relevanzwert 1 zum Relevanzwert 0.
Fuer diese vier Beispiele sieht man, dass alle Seiten vor allem von „nicht relevanten“ Seiten zitiert werden. Fuer die selber „nicht relevanten“ Seiten bedeutet das mglw., dass die sich „im Kreis zitieren“. Sozusagen wenn Hintertupfingen Vordertupfingen zitiert, weil’s das Nachbardorf ist (und umgekehrt), aber beide von keiner anderen Seite zitiert werden.
Interssant ist, dass Seiten mit einem Relevanzwert von 1 vor allem von Seiten mit einem Relevanzwert von 0 zitiert werden, also von Seiten die ihrerseits NICHT zitiert werden.
Uebrigens tut das nix zur Sache, dass der høchste lila Punkt (von der am zweitmeisten zitierten Seite) deutlich høher ist als der høchste blaue Punkt. Das Integral unter der Kurve entspricht der Anzahl aller Zitierungen und die blauen Punkte sind zu groszen Relevanzwerten hin immer ueber den lila Punkten. Das sieht man aber in der linearen Darstellung nicht, weil die Werte unter 1000 liegen.
Die schwarzen und roten Punkte liegen da uebrigens nochmal drueber, denn alle Seiten die ein mal zitiert wurden sind ja viel mehr als die (buchstaeblich) zwei meistzitierten Seiten … oder anders: Kleinvieh macht auch Mist.

Bemerkenswert ist nun, dass auch die zwei meistzitierten (und damit die zwei relevantesten) Seiten am haeufigsten von „nicht relevanten“ Seiten zitiert werden. Wait! What? Das wuerde doch bedeuten, dass die nur deswegen relevant sind weil sie von „nicht relevanten“ Seiten zitiert werden! Was im Umkehrschluss bedeutet, dass die ganze Relevanzdiskussion fuer’n Arm ist, weil es die einen nicht ohne die anderen geben kann.

Aber das sind nur vier Beispiele. Fuer die Gueltigkeit dieser Aussage muss ich das fuer alle (oder zumindest die Mehrheit) der relevanten Seiten zeigen. Nun weisz ich aber aus Erfahrung, dass man nix mehr erkennt, wenn man fast 5700 Kurven darstellt. Ich kann das aber als Falschfarbenbild darstellen. Dazu aber mehr beim naeachsten Mal  … … … Na gut … hier schon mal ein Spoiler … tihihi:

Keine Sorge, das wird noch spannend :) .