{"id":12704,"date":"2023-04-19T13:37:08","date_gmt":"2023-04-19T11:37:08","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12704"},"modified":"2023-02-22T23:27:10","modified_gmt":"2023-02-22T21:27:10","slug":"kevin-bacon-xil-the-unspeakable-terror-emerging-from-the-void","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/04\/kevin-bacon-xil-the-unspeakable-terror-emerging-from-the-void\/","title":{"rendered":"Kevin Bacon &#8211; XLI &#8211; The Unspeakable Terror Emerging from the Void"},"content":{"rendered":"<p>Als ich die Daten fuer den Beitrag des letzten Mals anschaute, tauchten in einem Datensatz diese Tentakel auf:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/104_The_thing_from_the_void_01.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12708 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/104_The_thing_from_the_void_01.png\" alt=\"\" width=\"588\" height=\"451\" \/><\/a><\/p>\n<p>Ich sah das \u2026 und wollte einfach nur &#8222;dran vorbei gehen&#8220;. Ich hatte da keine Lust mehr drauf und wollte alles im Zusammenhang mit Selbstreferenzen, totalen und neuen Links abschlieszen um endlich zur Analyse der naechsten (und letzten) Messgr\u00f8sze zu kommen.<br \/>\nEs ist ja auch nur in einem Datensatz (OKOK, ich geb&#8217;s zu, eigtl. in zwei Datensaetzen, aber bei dem anderen sind&#8217;s noch Babytentakel.) \u2026 da kann man schon mal 5 grade sein lassen und das merkwuerdige Verhalten in den schon \u00f8fter erwaehnten Fehler schieben.<\/p>\n<p>Aber das mir hat natuerlich keine Ruhe gelassen \u2026 irgendwie funktioniert meine graue Masse so nicht \u2026 ich will wissen was vor sich geht \u2026 oder anders: ich wurde wieder mal Opfer von &#8222;<a href=\"https:\/\/xkcd.com\/356\/\" target=\"_blank\" rel=\"noopener\">Nerd Sniping<\/a>&#8220; \u2026 wobei ich mich selbst &#8222;gesniped&#8220; habe \u2026 bzw. sogar doppelt &#8222;gesniped&#8220;, denn dieses ganze Kevin Bacon Groszprojekt ist auch sowas.<br \/>\nIm Grunde ist das gar nicht so schlecht, denn aus der Untersuchung von Anomalien folgt oft <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/12\/kevin-bacon-xi-messbare-relevanz-e-eine-anomalie\/\" target=\"_blank\" rel=\"noopener\">besseres Verstaendnis<\/a> oder gar <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?s=archipele\" target=\"_blank\" rel=\"noopener\">massiver Erkentnissgewinn<\/a>.<\/p>\n<p>Deswegen fing ich an mir Gedanken zu machen, wie ich den Tentakeln auf die Spur kommen k\u00f8nnte. Ich war aber vor ein massives Problem gestellt, denn hierbei handelte es sich um Millionen von Links auf (mindestens) tausenden von Seiten. Aber beim <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/12\/kevin-bacon-xi-messbare-relevanz-f-der-blob\/\" target=\"_blank\" rel=\"noopener\">allerersten Blob<\/a> waren ja auch hunderte von Seiten involviert und ich schaffte den zu entraetseln.<\/p>\n<p>Nach laengerem Gruebeln fing ich dann also an Code zu schreiben um die Tentakel zu extrahieren. Ich hatte erst wenige Zeilen eingetippt, als mir der Gedanke kam, dass ich ja mal schauen k\u00f8nnte, ob das ein Artefakt ist. Um das zu verstehen muss ich zunaechst gestehen, dass ich im obigen Diagramm des Effekts wegen eine wichtige Information weggelassen habe: es handelt sich dabei um die _durchschnittliche_ Anzahl neuer Links. Denn wie bereits ein paar Male zuvor bildete ich (zunaechst) den Durchschnitt, um mit der Masse der Daten besser zurecht zu kommen. Und siehe da:<\/p>\n<p><a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/104_The_thing_from_the_void_02.png\" target=\"_blank\" rel=\"noopener\"><img decoding=\"async\" loading=\"lazy\" class=\"aligncenter wp-image-12709 size-full\" src=\"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-content\/uploads\/104_The_thing_from_the_void_02.png\" alt=\"\" width=\"588\" height=\"451\" \/><\/a><\/p>\n<p>HURRAH! Es ist tatsaechlich ein Artefakt \u2026 Toll wa! Denn das erspart mir urst viel Arbeit.<\/p>\n<p>Das ist uebrigens der Grund, warum ich <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12691\" target=\"_blank\" rel=\"noopener\">beim letzten Mal<\/a> NICHT die Durchschnitte sondern die Rohdaten zeigte. Aber das ist bestimmt nicht aufgefallen, denn ich habe da nicht drauf hingewiesen.<\/p>\n<p>Man sieht (natuerlicherweise) oft Unterschiede zwischen Rohdaten und daraus gebildeten Durchschnitten. Aber fast ebenso oft sind solche Unterschiede nicht sooo grosz und aendern nichts oder wenig am Gesagten. <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/04\/kevin-bacon-xviii-groszvieh-macht-definitiv-mehr-mist-als-kleinvieh-zum-ersten\/\" target=\"_blank\" rel=\"noopener\">Oder<\/a> man <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2022\/05\/kevin-bacon-xx-sauberes-groszvieh\/\" target=\"_blank\" rel=\"noopener\">kommt<\/a> nicht <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=12547\" target=\"_blank\" rel=\"noopener\">weiter<\/a>, wenn <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/12\/kevin-bacon-xi-messbare-relevanz-d\/\" target=\"_blank\" rel=\"noopener\">man<\/a> das nicht macht und erst durch die Durchschnittsbildung folgt oben erwaehnter Erkenntnisgewinn. Dem war hier nicht so; die Tentakel sind nur ein ungewolltes Artefakt.<br \/>\nDieses Beispiel zeigt aber wieder ganz toll, dass man sich bewusst sein sollte wo die Daten eigentlich herkommen und wie die vor der (oder fuer die) Analyse &#8222;behandelt&#8220; wurden. Und insbesondere zeigt der hier diskutierte &#8222;Vorfall&#8220; auch wieder, wie wichtig es ist dem Ursprung komischer Sachen auf die Spur zu kommen; nicht zuletzt auch um der(auch eigenen) Integritaet Genuege zu tun.<\/p>\n<p>Und das ist das Tolle am Data-Scientist-Dasein, ich mach das und dann ist entweder voll der Erkennisgewinn da ODER ich l\u00f8se ein Problem. Zwei sehr motivierende Faktoren.<br \/>\nDeswegen sage ich zum Abschluss wiedereinmal: <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2018\/01\/studienziel-erreicht\/\" target=\"_blank\" rel=\"noopener\">Studienziel: Erreicht!<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Als ich die Daten fuer den Beitrag des letzten Mals anschaute, tauchten in einem Datensatz diese Tentakel auf: Ich sah das \u2026 und wollte einfach nur &#8222;dran vorbei gehen&#8220;. Ich hatte da keine Lust mehr drauf und wollte alles im Zusammenhang mit Selbstreferenzen, totalen und neuen Links abschlieszen um endlich zur Analyse der naechsten (und [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[1],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12704"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=12704"}],"version-history":[{"count":4,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12704\/revisions"}],"predecessor-version":[{"id":12875,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/12704\/revisions\/12875"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=12704"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=12704"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=12704"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}