Søren in Norwegen

Archive for the ‘Kevin Bacon’ Category

Kevin Bacon – XLIV – Erbsen zaehlen

Beim letzten Mal hatte ich gezeigt wie die Verteilungen der Linkfrequenzen fuer drei Seiten des „São Paulo FC“-Artefakts aussehen. Zur Erinnerung: diese weisen ein zweigeteiltes Maximum auf (das zweite Maximum ist etwas kleiner) welche durch ein Phaenomen das ich „Reflexion“ nannte (und dort genauer beschrieb) zustande kommt.

Nicht zu vergessen ist, dass ich das Mysterium aufklaeren will, warum die Anzahl der totalen Links und die Anzahl aufsummierten Linkfrequenzen so nahe beieinander liegen fuer høhere und hohe Linklevel. Aber eben _weil_ die so nahe zusammen liegen muss ich genau wissen, wie die Werte fuer die Grøszen zustande kommen; daher der Titel dieses Beitrags.
All das Zaehlen veranschauliche ich genau anhand eines Beispiels: welche Seiten tragen auf LL₆₆ zur Linkfrequenz bei; dito bzgl. der totalen Links. Am Ende diskutiere ich dann, inwieweit das verallgemeinert werden kann.

Also auf geht’s mit allen (!) Seiten die auf LL₆₆ von anderen Seiten zitiert werden.

Nur 75 Seiten werden ueberhaupt auf LL₆₆ zitiert. Und alle davon erhalten Zitate NUR von den Jahren 1936 bis 1930 des „São Paulo FC“-Artefakts. Weiter unten wird klar warum das so sein muss. Farbig hervorgehoben sind ein paar Beispiele und wie viele Zitate diese auf LL₆₆ erhalten sind angegeben. Diese Werte sollen nun erklaert werden. Aber dazu muss ich etwas weiter ausholen und zunaechst nochmal ein Ergebnis von vor langer Zeit zeigen (ich bitte zu entschuldigen, dass ich hier uneinheitlich bin und Punkte, anstatt Kommas (wie oben), als Trennung nach jeder dritten Stelle benutz(t)e):

Zur Erinnerung: das ist nur ein Hereinzoomen in das Ende der Verteilung der Aussteiger (bezogen auf die totalen Links) pro Linklevel. Das bedeutet je weiter links ein Balken liegt, umso eher ist der „ausgestiegen“. Im hiesigen Zusammenhang bedeutet das, dass die Seiten die einen weiter links liegenden Balken ausmachen, ein gegebenes Jahr des Artefakts frueher durchlaufen haben und sich damit schon im darauffolgenden Jahr befinden. Die Gruppennamen sind heute im Wesentlichen nicht zu beachten; nur die Zahlen an den Balken sind wichtig (und das was ich im Satz zuvor schrieb).

Das Diagramm ganz oben zeigt, dass die 1931 São Paulo FC season auf LL₆₆ am meisten zitiert wird und dort 4,484,327 Zitate hat. Aus der ersten Untersuchung des Artefakts wissen wir auch, dass die Seiten das Selbige schøn der Reihe nach, von hohen zu niedrigeren Jahren, durchlaufen. Daraus folgt dann, dass sich die meisten Seiten im Jahre 1932 des Artefakts befinden und von dort 1931 zitieren.
Aus dem zweiten Diagramm lesen wir nun ab, dass „die meisten Seiten“ bedeutet, dass es sich dabei um 4,453,693 handelt. Das reicht nicht ganz fuer die Anzahl der Zitate die 1931 erhaelt. Hier kommt aber die „Reflexion“ ins Spiel, denn wie erwaehnt sind die Seiten die den Balkens der zwei Schritte weiter links liegt ausmachen bereits im Jahre 1930. Von dort wird 1931 natuerlich auch zitiert.
Schwuppdiwupp: 4,453,693 + 30,643 = 4,484,327 … fetzt, wa!

Das erklaert ebenso, warum das Jahr 1933 mit 4,462,345 die zweitmeisten Zitate erhaelt. Das sind zunaechst wieder die 4,453,693 Seiten auf 1932 die zurueck nach 1933 reflektieren. Und dann noch die 8,652 „Nachzuegler“ die sich auf LL₆₆ erst im Jahre 1934 befinden und von dort 1933 zitieren.

So kann man das mit allen Seiten des Artefakts machen. Dabei sieht man dann, dass sich auf LL₆₆ keine einzige Seite in spaeteren Jahren (also somit frueher in der „Artefaktkette“) sein kann als 1936. Denn das sind die letzten drei Nachzuegler die sich dort befinden, alle spaeteren Jahre wurden bereits von allen Seiten komplett durchlaufen.

Soweit dazu. Wie erhaelt nun aber die Campeonato Paulista 5,792,420 Zitate?
Ganz einfach, die wird in allen Jahren die auf LL₆₆ noch „aktiv“ sind (also von 1936 bis 1930) zitiert. Wenn man die Summe der Zahlen bildet die an den letzten sieben Balken stehen, dann kommt man auf genau diese Zahl.
So macht man das auch fuer den Associação Portuguesa de Desportos muss aber beachten, dass dieser im Jahre 1936 NICHT zitiert wird. In 1936 befinden sich ja nur noch die letzten 3 Nachzuegler, somit fehlen drei Zitate (wie angegeben).
Der CR Vasco da Gama wird nicht zitiert in den Jahren 1936 und 1935. Deswegen muessen von der maximalen Anzahl an møglichen Zitaten welche die Campeonato Paulista erhalten hat 3 + 137 (die letzten zwei Balken) abgezogen werden.

Und das geht dann so weiter, bis man beim Clube Atlético Paulista (und allen anderen Seiten die nur drei Zitate erhalten) ankommt, denn diese werden nur noch im Jahre 1936 zitiert.

Super. Damit ist der Ursprung der Zitate aufgeklaert und die Summe ueber alle Punkte des obersten Diagramms ergibt, dass die Summe aller Linkfrequenzen auf LL₆₆ 133,684,373 betraegt.
Ich muss eingestehen, dass ich peinlich lange brauchte um all das genau heraus zu bekommen und zu verstehen woran das liegt. Denn der Ansatz den ich oben schrieb der kam mir erst beim Zusammenschreiben. Ich naeherte mich der Sache auf eine kompliziertere Art und Weise wo ich genau aufpassen musste von wo welche Seite zitiert wird und in welchen Jahren sich jetzt die zitierenden Seiten (und wie viele von denen) genau befinden und wie sich das durchzieht. Das Verstehen hat mir natuerlich geholfen das relativ kurz und knapp oben zusammen zu fassen und den Zusammenhang zu einem frueheren Ergebis zu sehen und warum das richtig ist das so zu machen anstatt des urspruenglichen, komplizierteren Ansatzes.

Wieauchimmer, nun zur Anzahl der totalen Links; nach obigem Erbsenzaehlen ist das beinahe trivial.
Wir wissen, dass sich alle Seiten nur noch in den Jahren 1936 bis 1930 befinden. Getreu dem Titel dieses Beitrags heiszt das ganz konkret:
– 30,634 Fruehaufsteher sind auf LL₆₆ bereits im Jahr 1930 mit 27 Links,
– 519,452 Fruehaufsteher sind auf LL₆₆ bereits im Jahr 1931 mit 30 Links,
– die 4,453,693 Seiten des Hauptfelds sind auf LL₆₆ im Jahr 1932 mit 22 Links,
– 779,849 Nachzuegler sind auf LL₆₆ noch im Jahr 1933 mit 26 Links,
– 8,652 Nachzuegler sind auf LL₆₆ noch im Jahr 1934 mit (ebenso) 26 Links,
– 137 Nachzuegler sind auf LL₆₆ noch im Jahr 1935 mit 24 Links und endlich
– 3 Nachzuegler sind auf LL₆₆ noch im Jahr 1936 mit 31 Links.

Wenn man die Gruppengrøsze mit der Anzahl der Links multipliziert und dann alles aufsummiert, erhaelt man genau 134,896,331 totale Links auf LL₆₆.

Damit ist das Mysterium auch aufegklaert, denn grob gesagt _muessen_ die Summen ueber diese zwei Grøszen (totale Links und Linkfrequenz) per Linklevel so nahe beieinander liegen. So viele verschiedene Links wie man hat ungefaehr genau so viele Zitate (Linkfrequenz) erhaelt man. Aber Letztere sollten immer ein bisschen darunter liegen.
Zur Veranschaulichung stelle man sich zunaechst vor, dass _alle_ Seiten des Artefakts von 1936 bis 1930 genau 23 Links haben und zwar die 23 selben (!) Links. Dann liegt fue jede dieser verlinkten Seiten eine Situation wie bei Campeonato Paulista vor und die wuerden alle maximal viele Zitate auf LL₆₆ haben; naemlich 5,792,420. Die Summe ueber alle diese Linkfrequenzen ergaebe 133,225,660.
Wenn nun aber jede dieser Seiten 23 Links hat, dann folgt nach der zweiten detaillierten Rechnung oben, dass man auch genau so viele totale Links hat.

Nun stelle man sich vor, dass ein (und nur ein) Link mit einem anderen Link ausgetauscht wird. Die Anzahl der total Links bleibt in dem Szenario gleich. Der ausgetauschte Link (bzw. die Seite auf die der verweist) erhaelt nun nicht mehr die maximale Anzahl an Zitierungen. Vielmehr sind es nur noch so viele Zitate, wie sich Mitglieder in der Gruppe befinden, die sich auf dem gegebenen Linklevel auch auf der Seite mit besagtem ausgetauschtem Link aufhalten. Das ist im Wesentlichen das was oben bei allen anderen Seiten passierte die nicht Campeonato Paulista sind.
Und deswegen muss die Summe ueber die Linkfrequenzen zwar nahe an der Summe der totalen Links sein, kann aber maximal gleich grosz werden und ist aufgrund der geschilderten Ursache aber in allen Faellen kleiner.

Damit hat sich das Mysterium so’n kleines bisschen umgekehrt und die Frage ist nun, warum es bei kleinen Linkleveln Grøszenordnungen kleiner ist? Das ist schnell erklaert und liegt (wieder) an der Zaehlweise der Linkfrequenz.
Auf kleinen Linkleveln hat eine Ursprungsseite „Zugriff“ auf URST viele Seiten (einfach, weil sich das Linknetzwerk so schnell verzweigt). Dadurch hat man auch eine entsrpechend hohe Zahl an (totalen) Links und je nach Linklevel sind dies hauptsaechlich Mehrfachzaehlungen. Das natuerlich deswegen, weil Seiten oft von mehreren (anderen) Seiten zitiert werden und von Letzteren kønnen sich mehrere auf dem selben Linklevel wiederfinden (einfach weil es da so viele Seiten gibt).
Bei der Linkfrequenz wird aber jede zitierte Seite nur ein Mal pro Linklevel gezaehlt, egal wie viele Zitate die wirklich erhaelt. Und das fuehrt bei kleinen Linkleveln zu einer hohen Diskrepanz.

So, nun ist’s aber genug mit der Erbsenzaehlerei. Mal schauen, was ich beim naechsten Mal mache.

Posted by Tentacel on 2023-05-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XLIII – maximal zitiert

Beim letzen Mal fing ich an mir die Linkfrequenz anzuschauen. Bei der Position des Maximums der einzeilnen Verteilungen der Linkfrequenzen gibt es einen langen Schwanz. Dieser kommt durch Seiten zustande, die im Linknetzwerk aller anderen Seiten konsistent spaet zitiert werden. In der Tabelle des letzten Beitrags fuehrte ich alle Seiten auf, deren Maximum bei LL₃₀ oder darueber liegt und dort taucht immer das uns bekannte „São Paulo FC“-Artefakt auf. Aber das sind nicht die einzigen Seiten die erst spaet im Linknetzwerk zitiert werden und entsprechend wunderte ich mich:

[w]as ist denn mit […] [den anderen Seiten] und wieso stehen die da, waren aber nicht zu sehen als das „São Paulo FC“-Artefakt untersucht wurde?

Bevor ich darauf zurueck komme muss ich zunaechst zeigen, wie denn die Verteilung der Linkfrequenz einiger Seiten aus denen das Artefakt besteht aussehen:

Anstatt Balken benutze ich diesmal Punkte und die Linien zwischen diesen dienen (wie so oft) nur um etwas mehr visuelle Ordnung fuer die Augen zu schaffen.
Und Aha! Hier passieren mehrere Sachen die aber alle leicht zu verstehen sind. Ich bespreche die 1931 São Paulo FC season (schwarze Kurve) etwas ausfuehrlicher.

Auf LL₀ wird 1931 São Paulo FC season zwei Mal zitiert. Wir nahmen bei der Untersuchung dieses Artefakts an, dass die entsprechenden Seiten (im Wesentlichen) nur von den direkt dahinter bzw. davor liegenden „Jahren“ zitiert werden. Hier wird diese direkt Annahme bestaetigt, denn wuerde noch eine andere Seite 1931 São Paulo FC season zitieren, so wuerde Letztere auf LL₀ mehr als ein Zitat haben.
Um mir im Folgenden das Schreiben vieler Worte zu ersparen, fuehre ich eine Kurzform fuer das eben Geschriebene ein: „1932 zitiert 1931“ bzw. „1930 zitiert 1931“. In der Kurzform steht die Ursprungsseite zuerst, gefolgt von der Seite die zitiert wird. Ein weiteres „zitiert“ entspricht dann dem naechsten Glied in der Linkkette und das allererste „zitiert“ in dieser Kette ist immer mit LL₀ gleichzusetzen.

Auf LL₁ gibt es insgesamt zwei Zitate und eins kommt zustande weil „1933 zitiert 1932 zitiert 1931“.
Das andere Zitat folgt aus einer Selbstreferenz. Hier haben wir aber zwei Ketten die nur ein Mal gezaehlt werden, denn denn diese haben die selbe Ursprungsseite: „1931 zitiert 1932 zitiert 1931“ und „1931 zitiert 1930 zitiert 1931“. Das sieht ein bisschen aus wie eine Reflexion. Als ob die Seite an der ich interessiert bin (im Beispiel 1931) zwischen zwei halbdurchlaessigen Spiegeln steht und Zitate die von hier weg gehen eben reflektiert werden.

Nun wird’s spannend, denn auf LL₂ ist der Wert der Linkfrequenz 3. Dank der Kurznotation ist das schnell aufgeklaert.
„1934 zitiert 1933 zitiert 1932 zitiert 1931“ (nicht vergessen, das erste „zitiert“ entspricht LL₀), „1932 zitiert 1931 zitiert 1930 zitiert 1931“ und „1930 zitiert 1931 zitiert 1932 zitiert 1931“. Die letzten beiden sind wieder „Reflexionen“

Als Letztes haben wir ab LL₃ wieder nur zwei Zitate: „1935 zitiert 1934 zitiert 1933 zitiert 1932 zitiert 1931“ und „1933 zitiert 1932 zitiert 1931 zitiert 1930 zitiert 1931“.
Warum gibt es keinen „1931 zitiert 1932 zitiert 1933 zitiert 1932 zitiert 1931“-„Zustand“. Nun ja, bis „1931 zitiert 1932 zitiert 1933 zitiert 1932“ existiert dieser schon, aber weil in der Kette 1932 bereits besucht wurde, wird dem Link nicht wieder gefolgt. Somit kann der Schritt der zurueck zu 1931 zeigen wuerde nicht ausgefuehrt werden.

Und so geht es in der schwarzen Kurve weiter, bis dann ab LL₆₂ auch andere Seiten der Wikipedia unsere 1931 São Paulo FC season erreichen (in ihrem jeweils eigenen Linknetzwerk). Dies fuhert zu einem raschen Anstieg der Linkfrequenz bzw. dann wieder Abstieg, wenn die letzten Nachzuegler auch endlich dort ankommen.
Dass die Spitze zweigeteilt ist, ist wieder auf die „Reflexion“ zurueck zu fuehren. Das zweite Maximum ist etwas kleiner als das Erstse. Auf den Grund dafuer gehe ich beim naechsten Mal genauer ein.

Aber ACHTUNG! Hierbei ist zu beachten, dass diese Abfolge aus Anstieg / Maximum / Abstieg sich ueber mehrere Linklevel hinzieht. 11 an der Zahl wobei nur 9 oder gar nur 7 relevant sind.
Ich sage ACHTUNG deswegen, weil das fuer die Løsung des Mysteriums aus dem letzten Beitrag (warum die Linkfrequenz und die Anzahl der totalen Links (fast) gleich sind) wichtig wird.

OK, das war die 1931 São Paulo FC season. Die 1941 São Paulo FC season und 1951 São Paulo FC season sind relativ schnell abgehandelt. Der Anstieg zum Anfang auf einen Wert von 4 ergibt sich daraus, dass diese Seiten (zunaechst!) nicht vom Ende der Kette limitiert sind; hier fuehren also Linkketten sowohl sowohl vorwarts als auch rueckwaerts hin, was zusammen mit den Reflexionen (auch von beiden Seiten) zu einem Wert von 4 fuehrt.
Der Peak ist genau der Selbe (!) wie bei der 1931 São Paulo FC season; nur eben nach links verschoben. Letzteres weil spaetere Jahre im Linknetzwerk anderer Seiten frueher erreicht werden. Hier sehen wir also (wieder) eine schøne direkte Bestaetigung bereits vor langer Zeit indirekt beobachteter Phaenomene. … cool wa!

Ich musste das so ausfuehrlich machen um alles in den Grafen zu erklaeren, aber eben auch weil ich immer ein Auge auf besagtes Mysterium habe.
Aber nun zurueck zum obigen Zitat. Dafuer muss ich erstmal die entsprechenden Grafen einiger dieser Seiten zeigen, …

… aber das muss laengst nicht so detailliert besprochen werden denn des Raetsels Løsung ist einfach.
Es sei zunaechst daran erinnert, dass bei der ersten detaillierten Untersuchung des „São Paulo FC“-Artefakts die Anzahl der totalen Links per Linklevel betrachtet wurde.

Desweiteren wissen wir aus der Tabelle vom letzten Mal, dass es noch andere Seite als die Saisons des São Paulo FC gibt, deren Maxima der Linkfrequenzverteilungen erst auf (sehr) spaeten Linkleveln liegen. Dies unterliegt aber einer wichtigen Einschraenkung.
Ja, diese Seiten werden sehr oft zitiert zum Ende der Linknetzwerke anderer Seiten. Das liegt daran, dass solche Seiten dem brasilianischen Fuszball zuzuordnen sind und sicherlich auf den Seiten einer (oder mehrer) Saisons des São Paulo FC zitiert werden. Weil Letztere erst zum Ende der Linkkette der allermeisten Wikipediaseiten auftreten und dort aber dann mit „voller Wucht“, fuehrt dies auch zu vielen Zitaten bei den nicht-São-Paulo-FC-Seiten die von denen zitiert werden.
Aber gleichzeitig werden die selben Seiten bereits frueh in den Linknetzwerken anderer Seiten zitiert. Und das beinahe (aber nicht ganz!) maximal oft, was aus der sehr schnellen Verzweigung des Linknetzwerkes folgt. Das ist dann der Nachteil, wenn man die Informationsmenge reduziert (in diesem Fall auf nur das Maximum) um derer habhaft zu werden; da muss man alles wieder auseinanderfriemeln, wenn irgendwas komisch erscheint.

Wieauchimmer, durch die fruehe Zitierung wird denen dann aber auf spaeteren Linkleven nicht mehr gefolgt (damit es nicht zu Schleifen kommt). Damit kønnen diese Seiten nicht mehr zu den totalen Links auf spaeteren Linkleveln beitragen und deswegen habe ich die bei der ersten ersten Untersuchung des „São Paulo FC“-Artefakts nicht gesehen.

Bei diesem Phaenomen handelt es sich also um ein Meta-Artefakt, denn es kommt nur dadurch zustande, weil es ueberhaupt erst das „São Paulo FC“-Artefakt gibt.

So, nun ist der Artikel schon so lang, weswegen ich heute nicht weiter darauf eingehen werde, wie das alles mit dem Mysterium des letzten Beitrags zusammenhaengt. Aber das ist ja auch was Schønes, denn da kønnt ihr, meine lieben Leserinnen und Leser euch da laenger drauf freuen.

Posted by Tentacel on 2023-05-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XLII – Ein Ende in Sicht: die letzte Messgrøsze

Es ist jetzt ganz genau zwei Jahre her, dass ich mit dieser Maxiserie anfing. Aber nun ist das Ende abzusehen (wenn auch noch nicht unbedingt nah), denn ich komme endlich zur letzten groszen Sache die ich noch gemessen, mir aber bisher nicht angeschaut habe: die Linkfrequenz.

Zur Auffrischung ganz kurz nochmal: Mich interessiert, ob Seite X von anderen Seiten zitiert wird und auf welchem Linklevel das passiert.
ACHTUNG: Mich interessiert NICHT _wie oft_ Seite X auf einem gegebenen Linklevel (einer anderen Seite) zitiert wird, sondern nur _ob_ Seite X ueberhaupt zitiert wurde.

Ein (stark vereinfachtes) Beispiel in zwei Schritten.
Auf LL₅ von Seite A wird Seite X ein Mal zitiert und auf LL₆ zwei Mal. In beiden Faellen zaehlt fuer Seite X die Linkfrequenz nur ein Mal fuer das jeweilige Linklevel hoch.
Auf LL₅ von Seite B wird Seite X dreiundzwanzig Mal zitiert (und dann nie wieder). Die Linkfrequenz von Seite X fuer LL₅ zaehlt nochmal eins hoch und liegt dann insgesamt bei zwei.

Das soll als Zusammenfassung reichen, eine detailliertere Erklaerung findet sich hinter dem oben verlinkten Beitrag. Als erstes schaue ich mir wie immer die Summe aller Linkfrequenzen per Linklevel fuer alle Seiten an:

Zum Vergleich habe ich im linken Diagramm wieder die Summe der totalen Links pro Linklevel reingelegt und da sieht man gleich die erste Ueberraschung: ab ungefaehr Linklevel … ich sag jetzt Mal Linklevel 20 ohne das genau zu pruefen, sind die beiden Kurven beinahe deckungsgleich. Das ist auch keine „logarithmische Komprimierung“, denn bei linearer Darstellung (auszugsweise im rechten Diagramm) sieht das genauso aus.

Na da habe ich doch gleich mal ein Raetsel was es zu løsen gilt. Ich habe so ’ne Vermutung, dass das mit dem bereits (vor allem hier aber auch an anderen Stellen) detailliert besprochenen „São Paulo FC“-Artefakt zu tun hat.

Darauf hin fuehrt das Diagramm welches ich ueblichweise im Anschluss an das Obige zeigte — die Verteilung der Position der Maxima der einzelnen Verteilungen:

AHA! Im Vergleich mit den oben verlinkten Verteilungen der gleichen Grøsze bei den anderen drei Messgrøszen geht das viel weiter. Und wenn wir uns den „Schwanz mal anschauen so sehe ich dort das Folgende (JA, die Links sind alle klickbar und man kann ruhig fragen, wieviel Zeit ich damit verbracht habe):

Maximum bei Linklevel	Seiten
30	1967 São Paulo FC season, 1967–68 FC Dinamo București season, 1984 Liga Deportiva Universitaria de Quito season, 1989 Empress's Cup Final, 1876 Massachusetts legislatur, Billboard Top Hits: 1993, Club 9 de Octubre, Estádio Urbano Caldeira, Ion Haidu (footballer), Ion Pârcălab, Spiridon Niculescu, Suzuyo Shimizu FC Lovely Ladies, 1911–12 SK Rapid Wien season, 1963 NCAA University Division baseball rankings
31	1966 São Paulo FC season, 1966–67 FC Dinamo București season, 1983 Liga Deportiva Universitaria de Quito season, 1988 Empress's Cup Final, 1875 Massachusetts legislature, Albert Palmer (American politician), Billboard Top Hits: 1994, Cornel Popa, Gheorghe Grozea, Ilie Datcu, Iosif Varga (footballer), Octavian Popescu, Vasile Gergely, 1962 NCAA University Division baseball rankings
32	1965 São Paulo FC season, 1965–66 FC Dinamo București season, 1982 Liga Deportiva Universitaria de Quito season, 1987 Empress's Cup Final, 1874 Massachusetts legislature, Billboard Top Hits: 1995, C.D. Everest, C.D. Universidad Católica del Ecuador, Constantin Ștefan (footballer, born 1939), Emil Petru, George B. Loring, Ion Nunweiller, William E. Livingston
33	1964 São Paulo FC season, 1964–65 FC Dinamo București season, 1981 Liga Deportiva Universitaria de Quito season, 1986 Empress's Cup Final, 1873 Massachusetts legislature, Constantin Frățilă, Dumitru Ivan, Gheorghe Ene, Lică Nunweiller
34	1963 São Paulo FC season, 1963–64 FC Dinamo București season, 1980 Liga Deportiva Universitaria de Quito season, 1985 Empress's Cup Final, 1872 Massachusetts legislature, Ion Țîrcovnicu, John E. Sanford
35	1962 São Paulo FC season, 1962–63 FC Dinamo București season, 1979 Liga Deportiva Universitaria de Quito season, 1984 Empress's Cup Final, 1871 Massachusetts legislature, América de Quito, Manta S.C., Traian Ionescu, Vasile Alexandru, Vasile Anghel
36	1961 São Paulo FC season, 1961–62 FC Dinamo București season, 1978 Liga Deportiva Universitaria de Quito season, 1983 Empress's Cup Final, 1870 Massachusetts legislature, Associação Atlética Ferroviária, CS Dinamo București, CS Minerul Lupeni, Haralambie Eftimie, Horace H. Coolidge, Shimizudaihachi Pleiades, Stephen H. Rhodes, Takatsuki Ladies FC, Torneio Rio – São Paulo
37	1960 São Paulo FC season, 1960–61 FC Dinamo București season, 1977 Liga Deportiva Universitaria de Quito season, 1982 Empress's Cup Final, 1869 Massachusetts legislature, Estádio Juca Ribeiro, Miguel Ángel Leyes, Polo Carrera, Waldo Colburn
38	1959 São Paulo FC season, 1959–60 FC Dinamo București season, 1976 Liga Deportiva Universitaria de Quito season, 1981 Empress's Cup Final, 1868 Massachusetts legislature, Eliphalet Stone (Massachusetts politician), Harvey Jewell, Levi S. Gould
39	1958 São Paulo FC season, 1958–59 FC Dinamo București season, 1975 Liga Deportiva Universitaria de Quito season, 1959 in Brazilian football, 1980 Empress's Cup Final, 1867 Massachusetts legislature, CSA Steaua București, Esporte Clube Taubaté, Estádio Luís Pereira, George O. Brastow, Jabaquara Atlético Clube, Oscar Zubía, Petre Babone
40	1957 São Paulo FC season, 1957–58 FC Dinamo București season, 1974 Liga Deportiva Universitaria de Quito season, 1979 Empress's Cup Final, 1980 Empress's Cup, 1866 Massachusetts legislature, Mitsubishi Yowa Sugamo Ground
41	1956 São Paulo FC season, 1956 FC Dinamo București season, 1973 Liga Deportiva Universitaria de Quito season, 1957 in Brazilian football, 1865 Massachusetts legislature, Florea Birtașu, Levi Stockbridge
42	1955 São Paulo FC season, 1955 FC Dinamo București season, 1972 Liga Deportiva Universitaria de Quito season, 1956 in Brazilian football, 1864 Massachusetts legislature, Alexander Bullock, Angelo Niculescu, Iosif Szökő, Jacob H. Loud, Ladislau Băcuț
43	1954 São Paulo FC season, 1954 FC Dinamo București season, 1971 Liga Deportiva Universitaria de Quito season, 1863 Massachusetts legislature, Alexandru Ene, Club Atletic Oradea, Clube Atlético Linense, Gheorghe Băcuț, Ion Suru, Martin Brimmer (1829–1896), Nicolae Dumitru (footballer), Valeriu Călinoiu
44	1953 São Paulo FC season, 1953 FC Dinamo București season, 1968 Liga Deportiva Universitaria de Quito season, 1970 Liga Deportiva Universitaria de Quito season, 1954 in Brazilian football, 1862 Massachusetts legislature, C.D. INECEL, CS Târgu Mureș, CSF CFR Timișoara, Carol Bartha, Titus Ozon
45	1952 São Paulo FC season, 1953 in Brazilian football, 1969 Liga Deportiva Universitaria de Quito season, 1953 in Brazilian football, Constantin Marinescu, Florian Ambru
46	1951 São Paulo FC season, 1948–49 FC Dinamo București season, 1951 FC Dinamo București season, 1952 in Brazilian football, Caius Novac
47	1950 São Paulo FC season, 1950 FC Dinamo București season, 1951 in Brazilian football, Ion Șiclovan, Iuliu Farkaș
48	1949 São Paulo FC season, 1950 in Brazilian football, Clube Atlético Ypiranga, Corinthians Santo Andre, Estádio Rua Javari
49	1948 São Paulo FC season, 1949 in Brazilian football, Associação Atlética Portuguesa (Santos)
50	1947 São Paulo FC season, 1948 in Brazilian football, Estádio Ulrico Mursa
51	1946 São Paulo FC season, 1947 in Brazilian football
52	1945 São Paulo FC season, 1946 in Brazilian football
53	1944 São Paulo FC season, 1945 in Brazilian football
54	1943 São Paulo FC season, 1944 in Brazilian football
55	1942 São Paulo FC season, 1943 in Brazilian football
56	1941 São Paulo FC season, 1942 in Brazilian football
57	1940 São Paulo FC season, 1941 in Brazilian football
58	1939 São Paulo FC season, 1940 in Brazilian football
59	1938 São Paulo FC season, 1939 in Brazilian football
60	1937 São Paulo FC season, 1938 in Brazilian football
61	1936 São Paulo FC season, 1937 in Brazilian football, Estádio Palestra Itália, Estádio Parque São Jorge, Luzitano Futebol Clube
62	1935 São Paulo FC season, 1936 in Brazilian football, Estádio da Ponte Grande
63	1934 São Paulo FC season, 1935 in Brazilian football
64	1933 São Paulo FC season, 1934 in Brazilian football
65	1932 São Paulo FC season
66	1931 São Paulo FC season
67	1930 São Paulo FC season, 1931 in Brazilian football

Nochmal AHA! Denn als ich das „São Paulo FC“-Artefakt zum ersten Mal untersuchte (siehe der Link oben), vermutete (!) ich nur, dass die jeweiligen Jahre am Ende der Linkkette ALLER Seiten stehen. Dafuer hatte ich aber keinen direkten Beweis, auch wenn die indirekten Hinweise sehr schluessig und ueberzeugend waren (bzw. immer noch sind).
Hier nun aber sehe ich direkt, dass die jeweiligen Saisons des São Paulo FC tatsaechlich am haeufigsten (und absteigender Reihenfolge) bei ganz hohen Linkleveln zitiert werden. Cool wa! Ist voll schøn wenn eine (eigene) Theorie direkt bestaetigt wird.

Aber in der Tabelle sehe ich in den entsprechenden Zeilen auch noch viele andere Seiten! Was ist denn mit denen und wieso stehen die da, waren aber nicht zu sehen als das „São Paulo FC“-Artefakt untersucht wurde?

Um das zu erklaeren muss ich etwas weiter ausholen, aber dieser Artikel ist ohnehin schon so lang. Deswegen verschiebe ich das auf das naechste Mal. Und alles zusammen (und noch ein bisschen mehr) fuehrt letztlich zur Entraetselung des obigen Mysteriums.

Posted by Tentacel on 2023-04-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XLI – The Unspeakable Terror Emerging from the Void

Als ich die Daten fuer den Beitrag des letzten Mals anschaute, tauchten in einem Datensatz diese Tentakel auf:

Ich sah das … und wollte einfach nur „dran vorbei gehen“. Ich hatte da keine Lust mehr drauf und wollte alles im Zusammenhang mit Selbstreferenzen, totalen und neuen Links abschlieszen um endlich zur Analyse der naechsten (und letzten) Messgrøsze zu kommen.
Es ist ja auch nur in einem Datensatz (OKOK, ich geb’s zu, eigtl. in zwei Datensaetzen, aber bei dem anderen sind’s noch Babytentakel.) … da kann man schon mal 5 grade sein lassen und das merkwuerdige Verhalten in den schon øfter erwaehnten Fehler schieben.

Aber das mir hat natuerlich keine Ruhe gelassen … irgendwie funktioniert meine graue Masse so nicht … ich will wissen was vor sich geht … oder anders: ich wurde wieder mal Opfer von „Nerd Sniping“ … wobei ich mich selbst „gesniped“ habe … bzw. sogar doppelt „gesniped“, denn dieses ganze Kevin Bacon Groszprojekt ist auch sowas.
Im Grunde ist das gar nicht so schlecht, denn aus der Untersuchung von Anomalien folgt oft besseres Verstaendnis oder gar massiver Erkentnissgewinn.

Deswegen fing ich an mir Gedanken zu machen, wie ich den Tentakeln auf die Spur kommen kønnte. Ich war aber vor ein massives Problem gestellt, denn hierbei handelte es sich um Millionen von Links auf (mindestens) tausenden von Seiten. Aber beim allerersten Blob waren ja auch hunderte von Seiten involviert und ich schaffte den zu entraetseln.

Nach laengerem Gruebeln fing ich dann also an Code zu schreiben um die Tentakel zu extrahieren. Ich hatte erst wenige Zeilen eingetippt, als mir der Gedanke kam, dass ich ja mal schauen kønnte, ob das ein Artefakt ist. Um das zu verstehen muss ich zunaechst gestehen, dass ich im obigen Diagramm des Effekts wegen eine wichtige Information weggelassen habe: es handelt sich dabei um die _durchschnittliche_ Anzahl neuer Links. Denn wie bereits ein paar Male zuvor bildete ich (zunaechst) den Durchschnitt, um mit der Masse der Daten besser zurecht zu kommen. Und siehe da:

HURRAH! Es ist tatsaechlich ein Artefakt … Toll wa! Denn das erspart mir urst viel Arbeit.

Das ist uebrigens der Grund, warum ich beim letzten Mal NICHT die Durchschnitte sondern die Rohdaten zeigte. Aber das ist bestimmt nicht aufgefallen, denn ich habe da nicht drauf hingewiesen.

Man sieht (natuerlicherweise) oft Unterschiede zwischen Rohdaten und daraus gebildeten Durchschnitten. Aber fast ebenso oft sind solche Unterschiede nicht sooo grosz und aendern nichts oder wenig am Gesagten. Oder man kommt nicht weiter, wenn man das nicht macht und erst durch die Durchschnittsbildung folgt oben erwaehnter Erkenntnisgewinn. Dem war hier nicht so; die Tentakel sind nur ein ungewolltes Artefakt.
Dieses Beispiel zeigt aber wieder ganz toll, dass man sich bewusst sein sollte wo die Daten eigentlich herkommen und wie die vor der (oder fuer die) Analyse „behandelt“ wurden. Und insbesondere zeigt der hier diskutierte „Vorfall“ auch wieder, wie wichtig es ist dem Ursprung komischer Sachen auf die Spur zu kommen; nicht zuletzt auch um der(auch eigenen) Integritaet Genuege zu tun.

Und das ist das Tolle am Data-Scientist-Dasein, ich mach das und dann ist entweder voll der Erkennisgewinn da ODER ich løse ein Problem. Zwei sehr motivierende Faktoren.
Deswegen sage ich zum Abschluss wiedereinmal: Studienziel: Erreicht!

Posted by Tentacel on 2023-04-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XL – mehr Abhaengigkeiten einer Grøsze von sich selber

Vor einer Weile entdeckte ich, dass die individuellen Verteilungen der Selbstreferenzen pro Linklevel maechtigen Gesetzen unterliegen. Das brachte mich auf die Idee mit der Simulation. Dafuer musste ich aber herausfinden, wie sich das System entwickelt. Dies wiederum vollbrachte ich mit einer Untersuchung der Abhaengigkeit der Anzahl der Selbstreferenzen auf einem Linklevel von der Anzahl der Selbstreferenzen auf dem Linklevel davor.
Ersteres hatte ich sowohl fuer die Anzahl aller, als auch die Anzahl neuer Links pro Linklevel getan und da kam eigtl. nix bei raus. Die Idee Letzters mal zu machen kam mir damals erst gar nicht. Das hole ich heute nach.

Zum Glueck muss ich nicht mehr erklaeren was ich hier eigentlich mache und kann sofort ohne viel Aufhebens repraesentative Kurven bzgl. der Anzahl der totalen Links zeigen:

WOW! … Das war meine erste Reaktion als ich das sah. Denn ich hatte obiges Nullergebniss, dass bei den (einfachen) individuellen Verteilungen nicht viel bei rum kam, noch im Hinterkopf. Aber dann praesentiert sich mir hier pløtzlich eine so wunderschøne Abhaengigkeit.

Das ist zwar nicht linear und die Entwicklung des Systems „macht ’ne Kurve und kehrt zurueck“, aber in der doppellogarithmischen Darstellung sieht das aus wie’n Ausschnitt aus ’ner Ellipse und Orbits sind mathematisch in geschlossener Form behandelbar. Das wuerde das Ganze nur etwas komplizierter machen, denn Orbits sind … ich sag jetzt mal im generellen Sinne … zeitabhaengig.
Oder anders: bei den Selbstreferenzen konnte ich einfach sagen, dass die Selbstreferenzen auf dem naechsten Linklevel NUR von den Selbstreferenzen auf dem jetzigen Linklevel abhaengen, aber nicht vom Linklevel selber. Das ist beim Orbit nicht mehr der Fall, denn solche sind keine bijektiven Abbildungen mehr sondern nur noch surjektive Abbildungen. Bei der Entwicklung muss man sich also „merken“ ob man auf dem oberen „Ast“ oder (schon) auf dem unteren „Ast“ ist, denn wenn ein Punkt sich noch auf Ersterem befindet, so soll dieser nicht einfach „runter springen“ sondern schøn „um die Kurve rumgehen“.

Aber Achtung, das ist keine wirkliche Ellipse, denn bei spaeteren Linkleveln verhaelt sich das auch bei linearen Achsen linear:

Aber selbst dann kønnte man das mathematisch noch als Bézier Kurve darstellen.

Bei den neuen Links ist das im Wesentlichen das Gleiche:

Die Skala reicht natuerlich nicht so weit und die neuen Links laufen den totalen Links „voraus“. Letzteres sieht man in der linearen Darstellung an den schwarzen Punkte fuer die neuen Links von LL₂ zu LL₃. Diese erreichen und ueberschreiten das Maximum bereits, waehrend das bei den totalen Links von LL₂ zu LL₃ noch nicht der Fall ist.
Aber das war zu erwarten und dieses Phaenomen des „Vorauseilens“ ist uns schon bei der Anzahl der neuen Links pro Linklevel im Vergleich zur Anzahl der totalen Links pro Linklevel ueber den Weg gelaufen, wo Erstere das Maximum eher erreichten als Letztere.

Lange Rede kurzer Sinn, auch die Entwicklung dieser beiden Grøszen kann man mathematisch beschreiben und dann prinzipiell mit nur einer Messung des Anfangszustands besagte Entwicklung des Systems berechnen. Das spare ich mir aber, denn ich habe da keine Lust mehr drauf.

Ach so, Aussteiger der totalen Links habe ich bereits gruendlich untersucht (und das Ergebniss kann auf neue Links uebertragen werden) und Ketten von neuen oder totalen Links kønnen per definitionem nicht reaktiviert werden.

Posted by Tentacel on 2023-04-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXIX – mehr Kuriositaeten

Es ist wohl zur Gewhohnheit innerhalb dieser Maxiserie geworden, (meist zum Abschluss) zu schauen um was fuer Seiten es sich bei den extremen Ausreiszern handelt. Das ist eigentlich eine schøne Tradition und ich behalte das bei :). Heute ergeben sich Ausreiszer aus zwei Grafen.

Die Ersten sind die Seiten die zu den fuenf Punkten am Ende der Kurve der Anzahl der ausgestiegenen Seiten pro Linklevel fuehren. Alle diese haben mindestens bis LL₄ hunderte von Selbstzitate, zwei sogar zum Teil mehrere Tausend. Ebenso haben diese eine ununterbrochene Kette von Selbstreferenzen bis zum gegebenen „Ausstieg“. Aber die Kette besteht zum allergrøszten Teil ab ca. LL₁₀ nur noch aus Einsen (mit ein paar Zweien dazwischen).

Wieauchimmer, los geht’s mit Campinas, eine Stadt in Brazilien … wait! what? … das riecht doch schon wieder verdaechtig nach Fuszballkram … welche auf LL₅₀ aussteigt. Gefolgt von Associação Portuguesa de Desportos … ICH WUSSTE ES! … einem brasilianischen Fuszballklubb auf LL₆₀.
Auf LL₆₆ begegnet uns ein alter (und bereits ausfuehrlich besprochener) Bekannter: der São Paulo FC.
Diesem schlieszen sich auf LL₆₇ mit Campeonato Paulista eine brasilianische Fuszballliga, mit Sociedade Esportiva Palmeiras, Santos FC und Sport Club Corinthians Paulista vier brasilianische Sportklubbs (die am am meisten wg. ihrer Fuszballaktivitaeten bekannt sind) und die (brasilianische! … das scheint heute das zugrundeliegende Thema zu sein) Stadt São Paulo an.
Die laengste Seite, mit einer unnunterbrochenen Kette an Selbstreferenzen bis LL₆₈ ist … *enttaeuschter trommelwirbel denn irgendwie ahnt man bereits dass das auch wieder dem Fuszball zugehørig sein wird* … Exhibition game. … Oh warte mal. Das gibt’s ja auch fuer andere Sportarten … Hurra!

Zum Zweiten schaute ich mir mal an welche Seiten in den Heatmaps des letzten Beitrag zu den høchsten Punkten fuehren; also reaktivierte Linkketten die 25 oder mehr (zusammenhaengenden) Linklevel haben. Eine kleine Warnung: es geht weiter mit Fuszball.

Im „Verhalten“ sind diese Seiten aehnlich wie die Obigen. Nur im langen Schwanz der Kette wo immer nur einzelne Selbstzitate auftreten gibt es eben Brueche. Mit einer Ausname das Fuszballstadion Pfarrwiese, die keine Selbstreferenzen auf LL₁ hat und dann auf LL₂ „reaktiviert“ wird mit einer Kette die 29 Linklevel weit reicht. Ebenso 29 „Kettenglieder“ hat das Atahualpa Olympic Stadium, aber dessen „Schwanz“ bricht zwei Mal ab, bevor diese Kette bei LL₁₅ (re)aktiviert wird.
Ein doppelter Abbruch erfolgt auch fuer den FC UTA Arad, das Estádio Urbano Caldeira und den Clube Atlético Juventus deren reaktivierte Linkketten mit jeweils 30, 33 und 34 Kettengliedern auf LL₁₇ , LL₂₅ und LL₂₈ anfangen. Bei Letzterem ist die reaktivierte (und laengste) Kette aber in der Mitte und nicht am Ende.
Sogar fuenf Abbrueche weist die Stadt Santos, São Paulo auf und die vierte reaktivierte Kette an Selbstreferenzen, mit 39 Kettengliedern, beginnt auf LL₂₆.
Mit ganzen 43 Gliedern hat die allerlaengste reaktivierte Kette (auch in der Mitte zwischen dem ersten und zweiten Abbruch) das Pacaembu Stadium.

So, das war’s fuer heute mit dem traditionellen Beglotzen von Ausreiszern. Wie mit Extremwerten ueblich gibt’s hier wenig zu holen, ’s ist aber mal witzig zu schauen.

Posted by Tentacel on 2023-04-07 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXVIII – I’ll be back

Obligatorischer Videoschnipsel.

Neben den in den letzten zwei Beitraegen diskutierten Aussteigern gibt es auch das entgegengesetzte Phaenomen: Seiten die nach dem Abbruch der Kette von Selbstzitierungen dann auf einem høheren Linklevel pløtzlich wieder neue Selbstreferenzen aufweisen.
Bevor ich naeher darauf eingehe, muss ich zunaechst zwei Sachen nochmals explizit sagen. Zum Einen, sind bei den Daten mit denen die Entwicklungsparameter bestimmt wurden weder Aussteiger noch reaktivierte Seiten dabei. Sobald fuer eine Seite die Kette von Selbstreferenzen abgebrochen ist, wurde besagte Seite nicht weiter beruecksichtigt bei den erwaehnten Daten.
Zum Anderen kønnen (so wie bei den Aussteigern) auch hier wieder Doppelzaehlungen auftreten. Eine Kette an Selbstreferenzen kann mehrfach abbrechen und reaktiviert werden. Aber wie bei den den Aussteigern denke ich nicht, dass diese all zu sehr ins Gewicht fallen.

Zunaechst ist zu sagen, dass es zahlenmaeszig erstaunlich viele Reaktivierungen gibt:

Ab LL₁₁ dann sogar mehr als Aussteiger und bei spaeteren Linkleveln bis zu einer Grøszenordnung mehr. Aber die absoluten Zahlen sind dann schon nur noch im Bereich von hundert oder weniger Seiten.

Mhmm … was mache ich denn nun mit diesen Daten? Ist ja auch ein bisschen peinlich, denn die letzten Mal wollte ich zu viel simulierte Seiten los werden und nun sollen die wieder dazu kommen? … Mist … ich komme wohl nicht drumrum mir das mal genauer anzuschauen. Mir sind die vielen Verteilungen aber langsam ueber, weswegen ich das heute mal ‚wieder als Heatmaps darstelle. Es gibt zwei Aspekte von Interesse: wie lang eine reaktivierte Kette wird und wieviele Seiten im Durchschnitt dazu kommen … pro Linklevel natuerlich.
Ich vermute aber, dass Reaktivierungen in der Mehrzahl „Blips“ sind, also wenn eine Seite eher aus „Versehen“ noch ein Mal (und nur ein Mal) zitiert wird. Diese Vermutung wird durch die Daten bestaetigt:

Zwei Dinge sind zu beachten. Zum Einen geht die Skala fuer das Linklevel erst bei 2 los. Auf LL₁ kann nix reaktiviert werden, weil ja (von Artefakten abgesehen) keine Seite auf LL₀ Selbstreferenzen haben kann. Das bedeutet, dass der frueheste Ausstieg auf LL₁ und die frueheste Reaktivierung auf LL₂ stattfinden kann.
Zum Anderen ist die Farbskala logarithmisch … also die Farbskala an sich ist natuerlich linear, aber praesentiert logarithmische Werte.

Wie man sieht, ist die Aussage mit den „Blips“ bereits hier zu 50 % bestaetigt. Dies aeuszert sich in dem roten Bereich in der linken unteren Ecke. Es werden zwar ganz viele Seiten reaktiviert (im Maximum fast 500-tausend) die Laenge der reaktivierten Kette ist aber nur eins.
Irgendwie war das zu erwarten. Auf LL₂ bis so ca. LL₅ sind die Seiten thematisch noch relativ nah und aufgrund der totalen Anzahl an zur Verfuegung stehenden Seiten kann dann doch nochmal die eine oder andere Selbstreferenz auftreten.

Dem schlieszt sich ein schmales gruenes Band an welches fuer Seiten mit „mittellangen“ Ketten steht. Hier kommt aber die Logarithmushaftigkeit der Farbskale ins Spiel, denn „gruen“ bedeutet, dass es sich dabei nur noch um hunderte, bis høchstens ein paar wenige tausende Seiten handelt. Auf das gruene Band folgt ein relativ breiter blauer Bereich an laengeren Ketten. Davon gibt es dann aber meist nur eine einzige Seite die derart reaktiviert wird.

Die Anzahl der durchschnittlichen Selbstreferenzen die dazu kamen hat mich etwas ueberrascht:

Der Durchschnitt berechnete sich auf die folgende Weise. Fuer jede Seite mit einer gegebenen (reaktivierten) Kettenlaenge sind alle in dieser Kette enthaltenen Selbstreferenzen aufsummiert worden. Am Ende wurde dieser Wert durch die Anzahl der relevanten Seiten und besagte Kettenlaenge dividiert. Das ist also zwei Mal „durchgeschnitten“.

Die Ueberraschung liegt nun darin, dass die durchschnittlich dazukommende Anzahl an Selbstreferenzen unabhaengig von der Kettenlaenge ungefaehr Eins betraegt. Mit Ausnahme der nicht-blauen Punkte am linken Rand; aber dazu komme ich gleich.
Eigentlich ist das nicht komplett ueberraschend. Fuer relativ kurze Ketten hatte ich das erwartet und das waeren dann die fehlenden 50 % fuer die Bestaetigung der Aussage mit den „Blips“. Also das ist gut.
Seiten die lange reaktivierte Ketten (also die separaten Punkte ueber dem „blauen Feld“) aufweisen, haette ich aber zunaechst erwartet, dass es sich dabei um wichtige Seiten handelt und die einen entsprechend (viel?) høheren Durchschnitt an Selbstreferenzen aufweisen.
Ein Beispiel waere der oberste Datenpunkt bei LL₁₄. Diese Seite weist eine Kette auf die ueber 43 weitere Linklevel geht. Aber jedes Mal wird die Seite nur ein einziges Mal zitiert. Ich vermute, dass es sich hierbei auch wieder um eine Art von Artefakt handelt.

Wenn ich aber laenger drueber nachdenke, dann passt diese Ueberraschung nicht mit den „Blips“ zusammen. Warum sollte die Kette an Selbstreferenzen fuer eine wichtige Seite abbrechen und dann stark weitergehen? Da scheint es durchaus sinnvoller zu sein, dass ein paar wenige Seiten oftmals hintereinander „blipsen“. Rein statistisch gesehen wuerde ich das bei fast 6 Millionen Seiten durchaus fuer møglich halten.

Der nicht-blaue Streifen am linken Rand hingegen drueckt diese Vermutung dann doch aus. Aus der ersten Heatmap sehen wir, dass die nicht-blauen Punkte durch relativ wenige Seiten zustande kommen. Es ist durchaus leicht vorstellbar, dass spaeter (relativ) vielzitierte Seiten auf LL₁ keine Selbstzitate haben. Einfach weil die Anzahl der dort „verfuegbaren Seiten“ welche die Ursprungsseite zitieren kønnen stark begrenzt ist. Und dann geht’s halt los mit der Kette auf LL₂ oder LL₃.
Der rote Punkt an sich kommt durch nur 10 Seiten zustande. Da braeuchte nur eine einzige mit vielen Selbstzitaten auf LL₂ dabei sein und das wuerde einen hohen Durchschnittswert ergeben.
Ein anderes Beispiel sind die zwei gruenen Datenpunkte darueber. Die kommen jeweils durch nur eine Seite zustande auf die das Vermutete dann wohl zutrifft.
Der Rest des nicht-blauen Bereichs ist im Wesentlichen eine Variation dessen, dass hier relativ wenige Seiten zum Signal beitragen und deswegen schon eine Ausnahme den Durchschnitt stark verschieben kann.

Lange Rede kurzer Sinn: Reaktivierungen spielen an sich nur fuer kleine Werte von Selbstzitierungen ein Rolle. Das kann in der totalen Anzahl an Selbstreferenzen pro Linklevel durchaus einen signifikanten Beitrag zur Folge haben aber nicht in der Gesamtheit der Datenpunkte der einzelnen Verteilungen.
Das ist natuerlich gut, denn die ich versuchte ja eigentlich Seiten los zu werden, weil ich insgesamt zu viele simuliere. Andererseits kønnte es durchaus sein, dass bei mittelhohen Linklevel solche Reaktivierungen zum Signal im „Schwanz“ beitragen..

So, das soll genug sein fuer heute. Beim naechsten Mal schauen wir mal kurz auf die Ausreiszer und dann sollte es das endlich gewesen sein mit den Selbstreferenzen.

Posted by Tentacel on 2023-03-23 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXVII – Gesprengte Ketten (2)

Zum Ende des letzten Beitrags zeigte ich (an drei Beispielen), fuer wieviele Seiten die Kette an Selbstreferenzen abbricht. Dies in Abhaengigkeit vom Linklevel und von der Anzahl der Selbstreferenzen. Ich erwaehnte auch, dass man diese Information nutzen kann um die Diskrepanzen zwischen Simulation und Messung (auf Seiten der Simulation) zu reduzieren (oder zumindest zu erklaeren).

Wie ebenso beim letzten Mal erwaehnt, so muesste man, um das ordentlich zu machen, den (mehr oder weniger) allgemeingueltigen Zusammenhang zwischen Anzahl der „Aussteiger“, Linklevel und Anzahl der Selbstreferenzen in Form einer Funktion ermitteln … was mir zu viel Arbeit ist. Da ich nur mal schauen will, wie gut diese einfache Korrektur funktioniert, werde ich hier einen hybriden Ansatz verfolgen, bei der ich Simulationsresultate und Beobachtungen „vermischen“ werde. Fuer eine richtige Simulation kann man das natuerlich nicht so machen.
Das Ganze werde ich auch nicht allgemein machen sondern an einem sehr konkreten Beispiel: die Diskrepanz zwischen Simulation und Messung auf LL₇ fuer Seiten die auf LL₇ 10 Selbstreferenzen haben. Ihr meine lieben Leserinnen und Leser seid sicher schlau genug das verallgemeinernte Prinzip dahinter zu erkennen.

Zur Erinnerung nochmals der Vergleich zwischen Simulation und Messung (linkes Diagramm) und auszerdem die Anzahl der Aussteiger in Abhaengigkeit von der Anzahl der Selbstreferenzen fuer LL₄ bis LL₆.

Los geht’s mit der simplen Beobachtung, dass die simulierte Anzahl Seiten auf LL₇ mit 10 Selbstreferenzen gleich 3428 ist waehrend der „gemessene“ Wert nur 967 betraegt. Das ist eine Diskrepanz von 2461.

Der simulierte Wert ergibt sich aus der simulierten Entwicklung des Systems, welche mit diesem maechtigen Gesetz beschrieben wurde:

Von hier aus muessen wir rueckwaerts rechnen um heraus zu finden, welche Seiten auf LL₆ zu Seiten mit 10 Selbstreferenzen auf LL₇ gefuehrt haben. Wenn man das tut erfaehrt man, dass auf LL₆ Seiten mit 17, 18, 19 und 20 Selbstreferenzen anteilsmaeszig zu Seiten mit 10 Selbstreferenzen auf LL₇ gefuehrt haben.
Wie bitte? Wie kønnen denn 4 verschiedenartige Seiten zu nur einem Wert fuehren? Die Antwort darin, dass die Anzahl an Selbstreferenzen nur ganzzahlig sein kann und erklaert warum das Wørt „anteilszmaeszig“ im obigen Satz wichtig ist. Ein Beispiel macht das Ganze etwas anschaulicher.

Eine Seite mit 17 Selbstreferenzen auf LL₆ hat nach dieser Formel 9.129 Selbstreferenzen auf LL₇. Kønnte man ja erstmal denken, dass das leicht auf 9 abzurunden ist. Aber wie beim letzten Mal explizit erwaehnt, wird mit der Entwicklungsgleichung nur der Durchschnitt der Selbstreferenzen auf dem naechsten Linklevel berechnet. Nun habe ich aber mehr als eine Seite mit 17 Selbstreferenzen auf LL₆ und wenn ich das Ergebniss fuer alle auf 9 abrunde, dann stimmt das nicht mehr mit der Formel ueberein.
Deswegen habe ich mich entschieden, dass (fuer diesen Fall, was aber repraesentativ ist fuer den allgemeinen Fall) 12.9 % (also der Anteil nach dem Komma) aller Seiten mit 17 Selbstreferenzen auf LL₆ zehn Selbstreferenzen (also eine mehr) auf LL₇ haben wird. Damit stimmt der Durchschnitt wieder.
Von den Seiten mit 18, 19 bzw. 20 Selbstreferenzen auf LL₆ tragen jeweils 61.0 %, 91.0 % bzw. 43 % zu Seiten mit zehn Selbstreferenzen auf LL₇ bei.

Das war die erste Sache. Nun muessen wir im rechten Diagramm nachschauen, wie viel Seiten mit 17 (bzw. 18, 19 oder 20) Selbstreferenzen auf LL₆ es in Echt niemals bis LL₇ schaffen (die ich aber in der Simulation „mitschleife“). Das sind 130 (bzw. 100, 104 und 76) Seiten. Davon darf ich fuer den ganz konkreten Fall hier natuerlich nur den Anteil beruecksichtigen, der dem obigen Anteil entspricht. Das heiszt ich kann vom simulierten Wert von 3428 Selbstreferenzen nur 205 (= 17 + 61 + 94 + 33) Seiten abziehen.

Zwischenbemerkung: den Wert kann man einfach abziehen, denn die Anzahl der Aussteiger muss NICHT korrigiert werden bezueglich der Aussteiger auf frueheren Linkleveln. Das liegt daran, weil die „experimentellen“ Daten bzgl. der Aussteiger pro Linklevel natuerlich _nur_ anhand der „Ueberlebenden“ ermittelt wurden. In der Messung werden schlieszlich keine Seiten „mitgezogen“ die da nicht sein sollten.
Auch wenn es hier nichts ausmacht, so ist es wichtig solche Sachen zu diskutieren, denn da kann man u.U. schnell in eine „Falle“ tappen.

Das war aber nur der erste (Rueckwaerts)Schritt und muss fuer den Uebergang von LL₆ zu LL₅ und dann nochmal von LL₅ zu LL₄ wiederholt werden. Dabei erweitert sich der Bereich der beitragenden Seiten zunaechst auf alle Seiten mit 32 bis 42 Selbstreferenzen auf LL₅ und dann noch mehr auf alle Seiten mit 67 bis 95 Selbstreferenzen auf LL₄.
Die Summe der aussteigenden Seiten betraegt 199 auf LL₅ und 82 auf LL₄. Die letzte Zahl wird trotz des erweiterten Bereichs beitragender Seiten kleiner, weil die Anzahl der aussteigenden Seiten mit wachsender Anzahl an Selbstreferenzen so schnell abnimmt. Das ist auch der Grund, warum in (!) diesem Fall der Schritt zu LL₃ (dem Ausgangszustand) nicht gemacht werden muss, denn das faellt nicht mehr signifikant ins Gewicht. Aber Vorsicht! Betrachtet man Seiten mit deutlich weniger als 10 Selbstreferenzen auf LL₇ so gilt das im Allgemeinen nicht!
Summa summarum verringert sich durch diese Korrektur die Diskrepanz zwischen gemessenen und simulierten Werten auf 1975.

1975 hørt sich erstmal immer noch voll viel an, aber das entspricht ca. 20 % des unkorrigierten Wertes. Das ist aber eigentlich ziemlich gut, denn eine „Erklaerungskraft“ von 20 % mit einer solch einfachen Erklaerung ist im Allgemeinen nicht zu erwarten. Das miss inbesondere mit Hinblick auf die Einfachheit des Modells gesehen werden und dass wir wissen, dass die Entwicklungsparameter eigentlich NICHT konstant sind, dadurch ein groszer „Fehlerbeitrag“ von Anfang an zu erwarten ist.

Dies alles ist uebrigens warum ich beim letzten Mal schrieb:

[d]as waere sogar eine Korrektur mit „langfristiger“ Wirkung.

Aber was ist nun mit den restlichen 80 % Diskrepanz? Eine weitere relativ simple Korrektur ist der Grund warum ich (auch) beim letzten Mal sagte:

Der ziemlich grosze Unterschied […] zwischen Median und Mittelwert wird beim naechsten Beitrag nochmal wichtig.

Ich merke nun, dass ich damit stark uebertrieb, denn ich werde das hier nicht im Detail erlaeutern. Aber kurz gesagt wuerde ich vermuten, dass der Gebrauch des Medians anstelle des Mittelwerts zur Ermittlung der Entwicklungsparameter, zu (in der Summe) weniger Selbstreferenzen im jeweils naechsten Schritt fuehren wuerde. Eine solche Korrektur wird vermutlich einen weiteren nicht zu vernachlaessigenden Beitrag leisten. Mein Bauchgefuehl sagt mir so nochmal 20 %
Noch besser waere natuerlich, wenn man eine Verteilung um den Mittelwert (oder Median) nehmen wuerde. Beide Sachen sind leicht einzusehen, aber ich habe keine Lust mehr das alles nochmal zu machen.

Aber selbst damit wuerde ich nur ca. 50 % der Diskrepanz erklaeren kønnen. Der Rest ist halt so und liegt (wieder) an der Einfachheit des Modells und dass die Entwicklungsparameter in Wirklichkeit nicht konstant sind.

Puuh … genug fuer heute und im Wesentlichen genug zur Simulation an sich. Ich denke, dass die Selbige hinreichend erfolgreich war … hab ja auch genuegend Zeit damit verbracht.
Beim naechsten Mal werde ich die Simulation zwar nochmal kurz erwaehnen aber nur als Ueberleitung um mir mal anzuschauen wie es aussieht, wenn ausgestiegene Seiten nochmal „zurueck kommen“.

Posted by Tentacel on 2023-03-19 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXVII – Gesprengte Ketten (1)

Bei der Simulation hat man gesehen, dass diese systematisch zu zu hohen Werte fuehrt. Zum Einen lag das daran, dass die Parameter besagter Entwicklung konstant gehalten wurden. Die Entwicklungsparameter wiederum entsprechen der Regressionsgeraden und diese ist im Wesentlichen der Mittelwert zu einer gegebenen Anzahl an Selbstreferenzen. Das ist nicht falsch und funktioniert, wie beim letzten Mal diskutiert, im Mittel gar nicht so schlecht. Aber dieser Mittelwert entsteht aus einem „Blob“ an Datenpunkten.
Oder anders an einem Beispiel: in der Simulation wird fuer jede Seite die auf LL₄ zehn Selbstzitierungen hat berechnet, dass diese den Schritt zu LL₅ macht und dort dann oben erwaehnten Mittelwert an Selbstzitierungen annimmt. Hier treffen also zwei Dinge zusammen: jede einzelne Seite macht zwingend (!) den Schritt zum naechsten Linklevel und jede Seite hat dort die gleiche Anzahl an Selbstzitaten.

In Wahrheit sieht die Verteilung der Selbstzitate auf LL₅ fuer alle Seiten die auf LL₄ zehn Selbstreferenzen hat aber so aus:

(Korrektur 2025-04-22: Die Abszisse muss „Anzahl Selbstreferenzen“ anstatt „Linklevel“ als Beschriftung haben!)

Das ist also eine Verteilung um den Mittelwert (aber keine Normalverteilung). Der (nicht aus den gewaehlten Entwicklungsparametern sondern hier genau berechnete) Mittelwert fuer 10 Selbstreferenzen auf LL₄ fuehrt zu einem Wert von ca. 3 Selbstreferenzen auf LL₅ und „ueberhøht“ somit das „mittlere Verhalten“ einer Seite. Letzteres deswegen weil, wie man am obigen Diagramm sieht, dass die Haelfte dieser Seiten zwei oder weniger Selbstreferenzen auf LL₅ haben. Der ziemlich grosze Unterschied (hier 50 %!) zwischen Median und Mittelwert wird beim naechsten Beitrag nochmal wichtig.
Eigentllich muesste man diese Verteilung in die Simulation einbauen. Aber dafuer muesste man fuer jedes Linklevel und fuer jede Anzahl an Selbstreferenzen diese Verteilung ermitteln, analysieren und dann modellieren fuer die Simulation. Ersteres ist an sich gar nicht so schwer, denn das kann automatisiert werden. Zweiteres ginge prinzipiell auch noch. Die Betonung liegt auf „prinzipiell“, denn dabei handelt es sich sicherlich um Tausende von Verteilungen. Desweiteren nehme ich an, dass die aus der Analyse herausfallenden Parameter signifikant streuen. Womit man wieder in der gleichen Situation wie bei der Bestimmung der letztlich benutzten Entwicklungsparamter ist und dann mglw. doch wieder nur alles (unzureichend?) vereinfachen muesste. Deswegen spare ich mir das lieber gleich.

Eine andere Sache die bereits erwaehnt wurde ist aber viel einfacher zu korrigieren: Seiten deren Kette an Selbstreferenzen gebrochen ist, die also null Selbstreferenzen auf dem naechsten Linklevel haben, kønnen „rausfliegen“. Das waere sogar eine Korrektur mit „langfristiger“ Wirkung. Nicht nur tragen solche „ausgestiegenen“ Seiten faelschlicherweise zum Signal auf dem naechsten Linklevel bei, sondern auch bei den Linkleveln die danach kommen. Wie man am obigen Diagramm sieht, kann es sich mitunter um eine signifikante Menge an „Aussteigern“ handeln und deren Bezug auf eine sich erhøhende Diskrepanz zwischen gemessenen und simulierten Werten ist leicht einzusehen.

Deswegen habe ich hier im linken Diagramm mal aufgetragen, wie viele Seiten pro Linklevel aussteigen:

Das sind ja insbesondere auf den ersten Linkleveln ganz schøn viele! Selbst unter dem Aspekt, dass es mich bis LL₃ nicht kuemmert, denn die bis dahin ausgestiegenen Seiten wurden in der Praeparierung des Ausgangszustands beruecksichtigt.
Nun ist aber die Anzahl der aussteigenden Seiten nicht nur vom Linklevel sondern auch von der Anzahl der Selbstreferenzen auf diesem Linklevel abhaengig. Dieser Sachverhalt ist an drei Beispielen im rechten Diagramm gezeigt. Wie zu erwarten war, steigen (deutlich) mehr Seiten mit wenigen Selbstreferenzen auf einem gegebenen Linklevel auf, als solche mit vielen Selbstreferenzen. Aber wenn man diese Information pro Linklevel hat, dann kann man sich an eine Korrektur machen.
Dazu komme ich aber erst beim naechsten Mal.

Ach so, eine letzte Sache noch. Bei diesen Grafen kann (und soll) Doppelzaehlung auftreten.
Ein Beispiel: Wenn fuer eine Seite die Kette von Selbstreferenzen auf LL₃ abbricht, so steigt diese auf LL₃ aus. Man nehme nun an, dass auf LL₅ und LL₆ (aber nicht danach) jeweils eine weitere Selbstreferenz auftritt. Dann hat man eine neue Kette, die auch wieder abbricht. Somit steigt diese Seite zwei Mal aus und wird entsprechend doppelt gezaehlt.
Aber ich nehme an, dass diese Mehrfachaussteiger insgesamt nicht sehr zahlreich sind und deshalb nicht all zu sehr ins Gewicht fallen werden. Der Grund liegt darin, dass man sich thematisch immer schneller von der Ursprungsseite entfernt und es sehr schnell unwahrscheindlich wird eine Selbstreferenz zu erhalten (und somit neue Ketten aufzubauen).
Mit einer Ausnahme: sehr fruehe Linklevel und wenn es sich nur im eine (reaktivierte) Selbstreferenz handelt. Aber diese sind bei der Korrektur der Simulation nicht all zu sehr von Interesse, denn zum Einen ist der Ausgangszustand fuer die Simulation erst bei LL₃ und dass die Simulation ein Problem mit zu vielen einfachen Selbstreferenzen hat ist bekannt und an entsprechender Stelle bereits diskutiert worden.

Posted by Tentacel on 2023-03-13 at 13:37 under Kevin Bacon.
Comment on this post.

Kevin Bacon – XXXVI – atomistische Naeherung (4) – Entwicklung des Systems

Nachdem nun der Ausgangszustand praepariert ist und ich weisz wie die Entwicklung des Systems vonstatten geht, kann ich mir nun jede simulierte Seite aus Ersterem hernehmen und mit dem Wissen von Letzterem die Anzahl der Selbstreferenzen pro Linklevel berechnen. Daraus sollte mindestens qualitiativ dann wieder das herauskommen was auch gemessen wurde.

Zunaechst ein paar repraesentative Verteilungen der Selbstreferenzen, denn diese sind das direkte Resultat der Simulation:

Die Daten sind fuer jedes beispielhafte Linklevel farbkodiert, wobei die schwachfarbigen Punkte die Messungen sind und die starkfarbigen Punkte die Simulation.
Die Datenpunkte fuer jedes beispielhafte Linklevel sind gegeneinander verschoben damit man besser sieht was vor sich geht.

Man sieht, dass die Simulation zunaechst ganz gut passt. Hier beispielhaft an den Daten fuer LL₅ gezeigt. Das ist nicht verwunderlich, wurden die Parameter der Entwicklung doch vor allem mit Hinblick auf die ersten paar Linklevel gewaehlt.
Ziemlich schnell kommt es aber zu Diskrepanzen, die mit fortlaufender Entwicklung grøszer werden. Letzteres macht sich dadurch bemerkbar, dass sich die simulierten Punkte immer weiter von den gemessenen Punkten entfernen. Auch dies ist nicht verwunderlich, denn die realen Entwicklungsparameter werden schnell kleiner, waehrend ich sie fuer diese Simulation konstant (und auf (relativ) hohen Werten) halte.

Desweiteren faellt auf, dass der „Schwanz“ der simulierten Verteilungen „abgeschnitten“ ist. Das kommt natuerlich weil ich schon im Ausgangszustand den Sehr-viele-Selbstzitierungen-Schwanz weglasse; da kann der nicht fuer høhere Linklevel pløtzlich auftreten.

Eine weitere Sache ist der Wert fuer die Anzahl der Seiten (pro Linklevel) die nur eine Selbstzitierung aufweisen. Dieser ist eigentlich fast immer zu hoch, bei spaeteren Schritten VIEL zu hoch. Das liegt zum Einen wieder daran, weil die Entwicklungsparameter konstant bleiben; da hat dann auch eine Seite mit nur einer Selbstzitierung auf dem naechsten Level in ueber 70 Prozent der Faelle wieder eine Selbstzitierung. Der zweite Grund haengt indirekt damit zusammen, denn ich erlaube keine „(mehr oder weniger) spontanen Aussteiger“. Also Seiten deren Kette von Selbstzitierungen abbricht (egal ob es nun 23 oder nur eine waren). Die gibt es in Wirklichkeit aber und die tragen dann natuerlich nicht weiter zum gemessenen Signal bei.

Zum Abschluss ist zu sagen, dass die simulieten Daten mehr oder weniger nur bis LL₁₂ sinnvoll sind. Danach habe ich im wesentlich nur noch einen oder zwei Datenpunkte. Auch das ist nicht verwunderlich, folgt dies doch aus dem oben Gesagten und selbst bei den gemessenen Daten sind die dort noch vorhandenen Punkte wahrscheinlich alles eher Ausnahmen, als die Regel.

Trotz Allem ist es aber wichtig zu sehen, dass dieses sehr einfache Model qualitativ gar nicht so falsch ist. Zum Einen werden die Diskrepanzen zwischen simuliertem und gemessenem Singal nicht unendlich grosz. Eine Grøszenordnung (spaeter etwas mehr) ist zwar nicht zu unterschaetzen aber liegt innerhalb dessen was ich erwarten wuerde bei einem so einfach gehaltenen Modell.

Schaut man sich nun die (vor mehreren Monaten zum ersten Mal vorgestellte) totale Anzahl an Selbstzitierungen per (relevantem) Linklevel an …

… dann sieht man beim Vergleich der schwarzen und roten Punkte, dass das auch hier Anfangs wieder ganz gut hinhaut und dann aber schnell eine grosze Diskrepanz und ganz anderes Verhalten (der Graf „biegt“ sich falsch) entsteht.
Nun erwaehnte ich aber weiter oben, dass ich zu viele Seiten mit einer Selbstreferenz habe. Wenn man diese ab LL₆ (vorher zeichnet sich dieser Sachverhalt nicht als Problem ab) komplett weglasse, dann erhaelt man die blauen Punkte. Na aber Hallo! Das sieht doch viel besser aus. Die Luecke zwischen Simulation und Messung reduziert sich deutlich und nun zeigt auch die Simulation ein lineares Verhalten (bei doppellogarithmischer Darstellung). Die Luecke schlieszt sich nicht komplett und ein Unterschied von bis zu ca. einer Grøszenordnung bleibt erhalten. Letzteres war zu erwarten, wenn man das oben Besprochene bedenkt.
Alles in allem wuerde ich das aber als einen ziemlichen Erfolg der Simulation ansehen.

Ich kønnte an der Stelle aufhøren. Das waere aber unehrlich, denn eine weitere (ganz fantastische) Beobachtung waren die Regressionsparamter der individuellen Verteilungen der Selbstreferenzen pro Linklevel. Der Vergleich von Messung und Simulation dieser Grøszen sieht so aus:

ACHTUNG: man beachte die unterschiedlichen Skalen fuer simulierte bzw. gemessene Werte!

Man sieht, dass das generelle Verhalten qualitativ reproduziert wird; die Werte sowohl des Anstiegs als auch des absoluten Glieds nehmen ab. Hurra! Ein weiterer Erfolg fuer mein einfaches Modell.
Wenn man genauer hinschaut (deswegen der Hinweis mit den unterschiedlichen Skalen) sieht man, dass bis ungefaehr LL₆ die Werte fuer diese beiden Grøszen noch ganz gut uebereinstimmen. Danach wird der simulierte Anstieg allerdings VIEL zu schnell steiler und das absolute Glied nimmt viel zu langsam ab.
Dies liegt zum Einen wieder an dem oben Gesagten. Zum Zweiten liegt es daran, dass ich bei der Bestimmung der Regressionsparamter der Simulation die Daten nicht fuer die Regression „optimiert“ habe (siehe mein Kommentar diesbezueglich im zitierten Beitrag). Fuer LL₁₀ habe ich das mal gemacht; also „unpassende“ Punkte am Anfang und am Ende der Daten weggelassen. Das Ergebniss ist der blaue Punkt in den beiden Diagrammen und der bewegt sich nicht nur in die richtige Richtung, sondern ist auch signifikant anders als wenn man diese „Korrektur“ nicht vornimmt.

Letztlich ist zu sagen, dass das Modell die Daten qualitativ gut genug beschreibt. Quantitativ allerdings gibt es Diskrepanzen von bis zu einer Grøszenordnung. Wenn man bedenkt, dass das Modell sehr einfach gehalten ist, so ist das immer noch beeindruckend. Es zeigt aber auch, dass fuer eine bessere Beschreibung weitere Effekte zu beruecksichtigen sind. Das werde ich nicht machetun … mit einer Ausnahme: ich schau mir beim naechsten Mal an, wie das Abbrechen von Linkketten pro Linklevel aussieht (oben erwaehnte „Aussteiger“). Ich habe aber nicht vor das ins Modell einzuarbeiten, denn ich bin mit den Ergebnissen zufrieden genug und habe genug Zeit damit verbracht und ehrlich gesagt auch keine Lust mehr drauf.

Posted by Tentacel on 2023-03-07 at 13:37 under Kevin Bacon.
Comment on this post.