{"id":11141,"date":"2021-12-07T13:37:52","date_gmt":"2021-12-07T11:37:52","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11141"},"modified":"2021-08-04T17:19:04","modified_gmt":"2021-08-04T15:19:04","slug":"kevin-bacon-xi-messbare-relevanz-c","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/12\/kevin-bacon-xi-messbare-relevanz-c\/","title":{"rendered":"Kevin Bacon \u2013 XI \u2013 Messbare Relevanz (c)"},"content":{"rendered":"<p>Kurze Wiederholung (weil&#8217;s immer noch etwas kompliziert ist):<br \/>\ni.: Alle Seiten werden am haeufigsten von &#8222;irrelevanten&#8220; Seiten zitiert und alle Seiten reden (zitieren) am haeufigsten ueber &#8222;irrelevante&#8220; Seiten.<br \/>\nii.: Der Relevanzwert entspricht bei kleinen Werten der Anzahl der Zitierungen und ist bei gr\u00f8szeren Werten eine Abbildung einer Zaehlweise mit Luecken (Anzahl der Zitierungen) auf eine Zaehlweise ohne Luecken (Relevanzwert)<br \/>\niii.: Aus dem zweiten Punkt folgt (indirekt), dass die Daten bei kleinen Relevanzwerten aus (sehr sehr) vielen Seiten zusammengesetzt sind. Hingegen bei groszen Relevanzwerten wird das &#8222;Signal&#8220; von nur wenigen Seiten generiert. Bei ganz groszen Werten gar nur von einzelnen Seiten. Dadurch entsteht der Eindruck, dass das &#8222;Signal&#8220; in diesem Bereich nur &#8222;Rauschen&#8220; ist.<br \/>\niv.: Zeilenweise Normierung zeigte <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=11119\" target=\"_blank\" rel=\"noopener\">beim letzten Mal<\/a>, dass im &#8222;Rauschen&#8220; bei groszen Relevanzwerten vermutlich noch Information steckt und dass dies dort nur deswegen als &#8222;Rauschen&#8220; scheint, wegen dem was im dritten Punkt steht.<\/p>\n<p>Heute folgt nun, wie man mittels einer weiteren (ich wage zu sagen: geschickten) Abbildung die Information aus dem Rauschen &#8222;ziehen&#8220; kann.<br \/>\nEs wird etwas technisch am Anfang. Aber das ist wichtig um zu verstehen, dass die qualitativen Schlussfolgerungen gueltig sind, trotz der &#8222;Artefakte&#8220; welche besagte Abbildung hinterlaeszt.<\/p>\n<p>Zunaechst muss ich zu dem im dritten Punkt Zusammengefassten zurueckkehren um zu erklaeren wie das Problem zu l\u00f8sen ist. Dafuer schaue man auf diese Tabelle, welche das Problem verdeutlicht.<\/p>\n\n<table id=\"tablepress-7\" class=\"tablepress tablepress-id-7\">\n<thead>\n<tr class=\"row-1 odd\">\n\t<th class=\"column-1\">So oft zitiert<\/th><th class=\"column-2\">Anzahl Seiten<\/th><th class=\"column-3\">Anzahl Zitate<\/th><th class=\"column-4\">Prozentanteil (Seiten)<\/th><th class=\"column-5\">Prozentanteil (Zitate)<\/th><th class=\"column-6\">kumulativer Prozentanteil (Seiten)<\/th><th class=\"column-7\">kumulativer Prozentanteil (Zitate)<\/th>\n<\/tr>\n<\/thead>\n<tbody class=\"row-hover\">\n<tr class=\"row-2 even\">\n\t<td class=\"column-1\">0<\/td><td class=\"column-2\">320,089<\/td><td class=\"column-3\">0<\/td><td class=\"column-4\">5.52<\/td><td class=\"column-5\">0<br \/>\n<\/td><td class=\"column-6\">5.52<\/td><td class=\"column-7\">0<\/td>\n<\/tr>\n<tr class=\"row-3 odd\">\n\t<td class=\"column-1\">1<\/td><td class=\"column-2\">793,588<\/td><td class=\"column-3\">793,588<\/td><td class=\"column-4\">13.69<\/td><td class=\"column-5\">0.48<\/td><td class=\"column-6\">19.21<\/td><td class=\"column-7\">0.48<\/td>\n<\/tr>\n<tr class=\"row-4 even\">\n\t<td class=\"column-1\">2<\/td><td class=\"column-2\">601,762<\/td><td class=\"column-3\">1,203,524<\/td><td class=\"column-4\">10.38<\/td><td class=\"column-5\">0.73<\/td><td class=\"column-6\">29.59<\/td><td class=\"column-7\">1.20<\/td>\n<\/tr>\n<tr class=\"row-5 odd\">\n\t<td class=\"column-1\">3<\/td><td class=\"column-2\">483,386<\/td><td class=\"column-3\">1,450,158<\/td><td class=\"column-4\">8.34<\/td><td class=\"column-5\">0.87<\/td><td class=\"column-6\">37.92<\/td><td class=\"column-7\">2.08<\/td>\n<\/tr>\n<tr class=\"row-6 even\">\n\t<td class=\"column-1\">\u2026<\/td><td class=\"column-2\">\u2026<\/td><td class=\"column-3\">\u2026<\/td><td class=\"column-4\">\u2026<\/td><td class=\"column-5\">\u2026<\/td><td class=\"column-6\">\u2026<\/td><td class=\"column-7\">\u2026<\/td>\n<\/tr>\n<tr class=\"row-7 odd\">\n\t<td class=\"column-1\">9<\/td><td class=\"column-2\">162,916<br \/>\n<\/td><td class=\"column-3\">1,466,244<\/td><td class=\"column-4\">2.81<\/td><td class=\"column-5\">0.88<br \/>\n<\/td><td class=\"column-6\">64.45<\/td><td class=\"column-7\">7.64<\/td>\n<\/tr>\n<tr class=\"row-8 even\">\n\t<td class=\"column-1\">10<\/td><td class=\"column-2\">142,269<\/td><td class=\"column-3\">1,422,690<\/td><td class=\"column-4\">2.45<\/td><td class=\"column-5\">0.86<\/td><td class=\"column-6\">66.90<br \/>\n<\/td><td class=\"column-7\">8.49<\/td>\n<\/tr>\n<tr class=\"row-9 odd\">\n\t<td class=\"column-1\">\u2026<\/td><td class=\"column-2\">\u2026<\/td><td class=\"column-3\">\u2026<\/td><td class=\"column-4\">\u2026<\/td><td class=\"column-5\">\u2026<\/td><td class=\"column-6\">\u2026<\/td><td class=\"column-7\">\u2026<\/td>\n<\/tr>\n<tr class=\"row-10 even\">\n\t<td class=\"column-1\">52<\/td><td class=\"column-2\">8,950<\/td><td class=\"column-3\">465,400<\/td><td class=\"column-4\">0.15<\/td><td class=\"column-5\">0.28<\/td><td class=\"column-6\">92.28<\/td><td class=\"column-7\">28.50(539)<\/td>\n<\/tr>\n<tr class=\"row-11 odd\">\n\t<td class=\"column-1\">53<\/td><td class=\"column-2\">8,565<\/td><td class=\"column-3\">453,945<\/td><td class=\"column-4\">0.15<\/td><td class=\"column-5\">0.27<\/td><td class=\"column-6\">92.43<\/td><td class=\"column-7\">28.78<\/td>\n<\/tr>\n<tr class=\"row-12 even\">\n\t<td class=\"column-1\">54<\/td><td class=\"column-2\">8,241<\/td><td class=\"column-3\">445,014<\/td><td class=\"column-4\">0.14<\/td><td class=\"column-5\">0.27<\/td><td class=\"column-6\">92.57<\/td><td class=\"column-7\">29.04<\/td>\n<\/tr>\n<tr class=\"row-13 odd\">\n\t<td class=\"column-1\">55<\/td><td class=\"column-2\">7,967<\/td><td class=\"column-3\">438,185<\/td><td class=\"column-4\">0.14<\/td><td class=\"column-5\">0.26<\/td><td class=\"column-6\">92.71<\/td><td class=\"column-7\">29.31<\/td>\n<\/tr>\n<tr class=\"row-14 even\">\n\t<td class=\"column-1\">\u2026<\/td><td class=\"column-2\">\u2026<\/td><td class=\"column-3\">\u2026<\/td><td class=\"column-4\">\u2026<\/td><td class=\"column-5\">\u2026<\/td><td class=\"column-6\">\u2026<\/td><td class=\"column-7\">\u2026<\/td>\n<\/tr>\n<tr class=\"row-15 odd\">\n\t<td class=\"column-1\">187,590<\/td><td class=\"column-2\">1<\/td><td class=\"column-3\">187,590<\/td><td class=\"column-4\">0.000017<br \/>\n<\/td><td class=\"column-5\">0.11<\/td><td class=\"column-6\">99.99(9965507)<\/td><td class=\"column-7\">99.66<\/td>\n<\/tr>\n<tr class=\"row-16 even\">\n\t<td class=\"column-1\">231,196<\/td><td class=\"column-2\">1<\/td><td class=\"column-3\">231,196<\/td><td class=\"column-4\">0.000017<br \/>\n<\/td><td class=\"column-5\">0.14<\/td><td class=\"column-6\">99.99(9982753)<br \/>\n<\/td><td class=\"column-7\">99.80<\/td>\n<\/tr>\n<tr class=\"row-17 odd\">\n\t<td class=\"column-1\">325,128<\/td><td class=\"column-2\">1<\/td><td class=\"column-3\">325,128<\/td><td class=\"column-4\">0.000017<br \/>\n<\/td><td class=\"column-5\">0.20<br \/>\n<\/td><td class=\"column-6\">100<\/td><td class=\"column-7\">100<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<!-- #tablepress-7 from cache -->\n<p>In der ersten Spalte ist die Anzahl der Zitierungen welcher identisch ist mit dem Relevanzwert bis zu einem Wert von 2075. Da die Bedeutung dieser beiden Begriffe die selbe ist, benutze ich diese beiden synonym an dieser Stelle.<br \/>\nIn der zweiten Spalte sieht man die Anzahl der Seiten die so oft zitiert wurden wie in der ersten Spalte angegeben. In der vierten Spalte steht dann wie vielen Seiten das prozentual entspricht und der aufaddierte Anteil an Seiten ist in der sechsten Spalte zu sehen.<br \/>\nDas Produkt aus der ersten und zweiten Spalte ergibt die Anzahl der Zitate, die diese Gruppe auf sich vereint (dritte Spalte). Der entsprechende Prozentanteil (an der Summe aller Zitate) ist in der fuenften Spalte und der kumulative Anteil in der siebten Spalte zu sehen.<\/p>\n<p>Die prozentualen Anteile verdeutlichen das Problem ganz gut. Bei kleinen Relevanzwerten befinden sich im Gesamtsignal deutlich mehr &#8222;Treffer&#8220; (ausgedrueckt durch den Prozentanteil der Zitate) als bei groszen Relevanzwerten. Das ist das was ich mit ungleicher Schrittweite meine und das aendert sich auch nicht durch eine Normierung. Das Problem k\u00f8nnte entsprechend durch eine gleiche Schrittweite gel\u00f8st werden und da kommen die Prozentanteile ins Spiel. Es ist naemlich so, dass dieser Wert bei den Zitaten (anders als bei den Seiten) niemals gr\u00f8szer als 1 wird und der Unterschied von &#8222;Schritt zu Schritt&#8220; auch nicht so grosz ist. Vielmehr ist es so, dass der Unterschied mit gr\u00f8szeren Relevanzwerten abnimmt. Das ist toll, denn bedeutet dies doch, dass ich die Daten von mehreren Relevanzwerten zusammenfassen kann um &#8222;Meta-Gruppen&#8220; zu erstellen, die alle eine mehr oder weniger gleiche Schrittweite und damit &#8222;Signalstaerke&#8220; haben. Das &#8222;mehr oder weniger&#8220; wird nochmal wichtig.<\/p>\n<p>Zur Veranschaulichung nehme man die Werte bei 52, 53, 54 und 55 Zitierungen. Wenn ich diese vier Zeilen zusammenfasse, erhalte ich die &#8222;Meta-Gruppe&#8220; mit dem Namen 29. Der Name kommt daher, dass alle diese Werte beim kumulativen Prozentanteil (der Zitate) auf 29 % gerundet werden.<br \/>\nBei kleinen Relevanzwerten bis 8 entspricht auch hier wieder der Name der &#8222;Meta-Gruppe&#8220; der Anzahl der Zitierungen. Aber bereits ab 9 Zitierungen muss ich anfangen Zeilen zusammen zu fassen.<\/p>\n<p>Wie angesprochen wird nun aber das &#8222;mehr oder weniger&#8220; nochmal wichtig.<br \/>\nIm Durchschnitt repraesentiert jede Meta-Gruppe ca. 1.6 Millionen Zitierungen (der Median ist aehnlich). Aber insbesondere bei den ersten Meta-Gruppen (also bei kleinen Relevanzwerten) kann diese Zahl deutlich gr\u00f8szer werden.<br \/>\nZur Veranschaulichung nehme man die Werte bei 9 und 10 Zitierungen. Diese &#8222;komprimieren&#8220; zu Meta-Gruppe 8 %. Aber die Menge an Zitaten die dadurch repraesentiert wird ist mit 2,888,934 Zitaten fast doppelt so grosz wie der Durchschnitt.<br \/>\nDAS wiederum fuehrt im (normierten) Falschfarbenbild zu Streifen; den oben erwaehnten Artefakten. Die Anzahl dieser &#8222;Grenzfaelle&#8220; ist zum Glueck gering und die Artefakte aendern an der Nuetzlichkeit dieser Abbildung auf Meta-Gruppen, welche ungefaehr gleich grosze Mengen an Zitierungen repraesentieren, nichts.<\/p>\n<p>Aber nun endlich die Falschfarbenbilder. Zunaechst die totalen Zahlen und die spaltenweise normierten Daten:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/25_compressed_raw_and_column_norm_.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-11178 size-medium\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/25_compressed_raw_and_column_norm_-800x385.png\" alt=\"\" width=\"800\" height=\"385\" srcset=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/25_compressed_raw_and_column_norm_-800x385.png 800w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/25_compressed_raw_and_column_norm_-1024x493.png 1024w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/25_compressed_raw_and_column_norm_-768x370.png 768w, http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/25_compressed_raw_and_column_norm_.png 1169w\" sizes=\"(max-width: 800px) 100vw, 800px\" \/><\/a><\/p>\n<p>Ich habe diese beiden Darstellungen in ein Bild gepackt, weil sich keine neuen Erkentnisse ergeben. Immer noch gilt, dass die Relevanz aller Seiten durch Zitierungen von &#8222;irrelevanten&#8220; Seiten kommt. Durch die Komprimierung sieht man es diesmal sogar schon in der totalen Anzahl der Zitierungen im linken Diagramm (gruener Streifen parallel zur Abzsisse bei kleinen Relevanzwerten). Dort sieht man ebenso rechts unten einen roten Punkt. Das liegt daran, dass die wenigen Seiten hin zum 100 % Wert so krass viele Zitate auf sich vereinen, dass dies in den (totalen) komprimierten (a.k.a. zusammengefassten) Zahlen dann deutlich auffaellt.<br \/>\nAuszerdem treten die erwaehnten horizontalen und vertikalen Streifen auf; besagete Artefakte. Im linken Bild sind diese Linien sowohl auf der Abzsisse als auch auf der Ordinate den selben Werten zuzuordnen. Durch die spaltenweise Normierung &#8222;verschwinden&#8220; die vertikalen Streifen im rechten Diagramm, denn alle Spalten sind ja auf den selben maximalen Wert normiert.<\/p>\n<p>Das soll genug sein fuer heute. Dieser Beitrag sollte vor allem das Prinzip der Komprimierung der Daten klar machen und was das fuer die Resultate bedeutet. Beim naechsten Mal zeige ich dann die zeilenweise normierten Daten und da gibt es einiges zu diskutieren.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Kurze Wiederholung (weil&#8217;s immer noch etwas kompliziert ist): i.: Alle Seiten werden am haeufigsten von &#8222;irrelevanten&#8220; Seiten zitiert und alle Seiten reden (zitieren) am haeufigsten ueber &#8222;irrelevante&#8220; Seiten. ii.: Der Relevanzwert entspricht bei kleinen Werten der Anzahl der Zitierungen und ist bei gr\u00f8szeren Werten eine Abbildung einer Zaehlweise mit Luecken (Anzahl der Zitierungen) auf eine [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11141"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=11141"}],"version-history":[{"count":6,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11141\/revisions"}],"predecessor-version":[{"id":11186,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/11141\/revisions\/11186"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=11141"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=11141"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=11141"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}