{"id":14673,"date":"2026-02-05T13:37:26","date_gmt":"2026-02-05T11:37:26","guid":{"rendered":"http:\/\/www.soeren-in-norwegen.net\/blog\/?p=14673"},"modified":"2026-06-07T15:52:12","modified_gmt":"2026-06-07T13:52:12","slug":"kevin-bacon-anhang-a5-endlich-ein-anwendungsfall-fuer-groszenordnungshistogramme-i-das-problem","status":"publish","type":"post","link":"http:\/\/www.soeren-in-norwegen.net\/blog\/2026\/02\/kevin-bacon-anhang-a5-endlich-ein-anwendungsfall-fuer-groszenordnungshistogramme-i-das-problem\/","title":{"rendered":"Kevin Bacon &#8211; Anhang A5 &#8211; Endlich ein Anwendungsfall fuer Gr\u00f8szenordnungshistogramme &#8211; I: das Problem"},"content":{"rendered":"<p>Heute wird&#8217;s etwach technisch und sehr &#8222;kleinteilig&#8220; \u2026 das ist aber dafuer da, um die Fetzigkeit des (im uebernachsten Beitrag zu sehenden) Fetzigen zu verstehen :) .<\/p>\n<p>In diesem Projekt hab ich (sehr) viele Verteilungen von (nicht nur &#8222;Mess-&#8222;) Gr\u00f8szen gezeigt. Das nennt man auch <a href=\"https:\/\/en.wikipedia.org\/wiki\/Histogram\" target=\"_blank\" rel=\"noopener\">Histogramm<\/a> \u2026 und hier geht&#8217;s schon los mit dem Problem, denn die Konstruktion eines Histogramms beginnt eigtl. mit dem &#8222;<a href=\"https:\/\/en.wikipedia.org\/wiki\/Data_binning\" target=\"_blank\" rel=\"noopener\">binning<\/a>&#8220; der Daten (das ist <a href=\"https:\/\/de.wikipedia.org\/wiki\/Binning\" target=\"_blank\" rel=\"noopener\">auch<\/a> der dtsch. Begriff o.O ) \u2026 und das hab ich allermeistens nicht gemacht (darauf gehe ich weiter unten ein).<br \/>\nNatuerlich zeigen alle hier gemeinten Grafen Verteilungen; konkret: die Anzahl der Wikipediaseiten, die einen bestimmten Wert fuer eine gr\u00f8sze von Interesse haben. Deswegen sind&#8217;s eben doch alles Histogramme.<\/p>\n<p>Wieauchimmer, ich erwaehnte bereits, dass ich die Daten in den meisten Faellen nicht gebinnt habe. Und der Grund ist, dass die Verteilungen sich ueber mehrere Gr\u00f8szenordnungen erstrecken.<br \/>\nHistogramme kommen meist mit gleich groszen &#8222;Werteeimern&#8220; \u2026 auf dtsch.: Klassen, aber das h\u00f8rt sich nicht so spaszig an wie &#8222;Eimer&#8220; und Datenanalyse ist spaszig) \u2026 in welche die entsprechenden Beobachtungen einsortiert werden. Es ist m\u00f8glich unterschiedlich grosze Werteeimer zu haben, aber deren Nutzen ist eher begrenzt (weswegen die nicht sehr haeufig zu sehen sind) und wenn sich die Darten ueber mehrere Gr\u00f8szenordnungen erstrecken, dann hilft auch das nicht mehr.<\/p>\n<p>Wenn die Daten nicht gebinnt sind, dann kann man bei normalen Diagrammen (oft doppelt) logarithmische Skalen benutzen um das Problem der &#8222;Undarstellbarkeit&#8220; einer Verteilung ueber mehrere Gr\u00f8szenordnungen verschwinden zu lassen.<\/p>\n<p>Da scheint das Problem gel\u00f8st, aber an dieser Stelle tut sich innerhalb des Projekts an vielen Stellen ein damit gekoppeltes, zweites Problem auf. Nicht nur erstrecken sich viele Verteilungen ueber mehrere Gr\u00f8szenordnung, sondern es gibt auch eine &#8222;zeitartige&#8220; Entwicklung.<\/p>\n<p>&#8222;Zeitartige&#8220; Entwicklungen kann man dem Publikum im Wesentlichen in drei Formen praesentieren: als <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2023\/06\/kevin-bacon-xlvii-viele-verteilungen-geben-mixed-signals\/\" target=\"_blank\" rel=\"noopener\">repraesentative Beispiele<\/a>, als <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2025\/10\/noch-schreiben-noch-schreiben-noch-schreiben-noch-schreiben-kevin-bacon-anhang-a2-reproduzierbarkeit-14-titel-fehlt-titel-fehlt-titel-fehlt\/\" target=\"_blank\" rel=\"noopener\">bewegtes Bild<\/a>, oder als <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2024\/11\/kevin-bacon-anhang-a2-reproduzierbarkeit-4-ein-maechtiges-werkzeug-iii-trotz-neuer-farben-wieder-nicht-viel-zu-holen\/\" target=\"_blank\" rel=\"noopener\">pseudo-3D Falschfarbenbild<\/a> \u2026 vulgo: Heatmap (wieder: <a href=\"https:\/\/de.wikipedia.org\/wiki\/Heatmap\" target=\"_blank\" rel=\"noopener\">auch auf dtsch<\/a>.) (Achtung: in dem verlinkten Beitrag sind KEINE &#8222;zeitartigen&#8220; Entwicklungen zu sehen, es soll nur als Beispiel fuer Heatmaps herhalten).<\/p>\n<p>Ersteres hat den Nachteil, dass man die &#8222;Dynamik&#8220; eines Entwicklungsprozess anhand statischer Bilder nicht so richtig sch\u00f8n sieht. Das ist aber eigentlich nicht so schlimm, denn es soll ja nicht unbedingt sch\u00f8n aussehen, sondern stimmen. Und da liegt der schwerwiegendere Nachteil, denn man kann in den nicht gezeigten Daten die &#8222;Ungereimtheiten&#8220; &#8222;verstecken&#8220; und sich dann (mehr oder weniger zu Recht, oft (!) zurecht) mit dem Wort &#8222;repraesentativ&#8220; rausreden.<br \/>\nDas hab ich bei allen meinen wissenschaftlichen Projekten so gemacht; natuerlich nur in (gerechtfertigten!) Ausnahmefaellen \u2026 und ja, auch bei denen, fuer die ich mit <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2009\/05\/der-groeszte-schnullibulli-von-allem\/\" target=\"_blank\" rel=\"noopener\">zwei<\/a> <a href=\"http:\/\/www.soeren-in-norwegen.net\/blog\/2021\/09\/schnullibulli-noch-einmal\/\" target=\"_blank\" rel=\"noopener\">Doktortiteln<\/a> belohnt wurde \u2026 und auch in diesem hier. Alle anderen (mit realen Messdaten arbeitenden) Wissenschaftler machen das auch und es funktioniert. Wie gesagt: mehr oder weniger zu Recht, oft (!) zurecht. Als Beispiel fuer diese (durchaus legitime) Herangehensweise auch in der ganz groszen Wissenschaft, kann wer Interesse daran hat mal versuchen, mehr ueber die Daten in der Aequatorregion der (beruehmten) <a href=\"https:\/\/en.wikipedia.org\/wiki\/Cosmic_microwave_background#\/media\/File:Cosmic_Microwave_Background_(CMB).jpeg\" target=\"_blank\" rel=\"noopener\">Planck Karte<\/a> des <a href=\"https:\/\/en.wikipedia.org\/wiki\/Cosmic_microwave_background\" target=\"_blank\" rel=\"noopener\">kosmischen Mikrowellenhintergrunds<\/a> herauszufinden. Wieauchimmer, das potentielle Problem repraesentativer Beispiele bleibt bestehen.<\/p>\n<p>Zweiteres sieht imponierend aus \u2026 funktioniert aber nur digital \u2026 und seien wir ehrlich, wenn die letzten Frames des bewegten Bildes gezeigt werden, hat man (nicht nur) die Details der ersten Frames schon vergessen \u2026 *seufz* \u2026 schade um die viele Arbeit :( .<\/p>\n<p>Dritteres ist am schwersten zu verstehen \u2026 aber wenn man&#8217;s verstanden hat, dann versteht man auch, warum es eine der coolsten Arten ist, dreidimensionale Information darzustellen, denn man hat alles Wesentliche sofort im Blick.<br \/>\nFuer &#8222;zeitartige&#8220; Evolutionen, bspw. solche die in den animierten PNGs im entsprechenden, oben verlinkten, Beitrag zu sehen sind, wuerde ich die Linklevel auf der Abzsisse abtragen, den Wert fuer die Gr\u00f8sze von Interesse auf der Ordinate (in den bewegten Bildern ist das der Abzsisse zugeordnet), und die Anzahl der Seiten die diesen Wert haben waere dann farbcodiert (in den bewegten Bildern ist&#8217;s auf der Ordinate abgetragen).<br \/>\nUnd hier schlaegt das erste Problem zu, denn Heatmaps wollen im Wesentlichen Pixel mit gleicher Gr\u00f8sze (in eine gewaehlte Richtung).<\/p>\n<p>Wenn ich die Daten einfach so in die Heatmap &#8222;reinknalle&#8220;, dann wird das zu viel. Nicht vom rechentechnischen Aufwand, aber sobald es mehr als \u2026 ich sag jetzt mal 200 Werte sind, werden die Pixel zu klein. Und hier gab es oft Verteilungen mit deutlich (!) mehr als 200 (gar bis zu ueber 5 Millionen) Werten. Und selbst wenn das fuer nur ein paar Linklevel (als &#8222;Zeitabschnitte&#8220;) der Fall ist, so sind die Millionen von Pixel bei allen anderen Linkleveln ja doch in der Heatmap vorhanden &#8212; auch wenn die &#8222;leer&#8220; sind, so nehmen die ja doch Raum ein. Wie oben erwaenhnt, helfen einem logarithmische Achsen aus dem Dilemma, aber nur bei normalen Diagrammen.<\/p>\n<p>Ich hab das mit unterschiedlich groszen Pixeln probiert (in Form einer logarithmischen Ordinate) \u2026 (keine) lange Rede, kurzer Sinn: es sieht scheisze aus, macht eine Heatmap noch schwerer zu verstehen und vermindert den groszen Vorteil einer solchen Darstellung betraechtlich &#8212; dass man auf einen Blick alles Wesentliche wahrnimmt, oder sch\u00f8ner ausgedrueckt mittels eines Zitats aus der Wikipedia:<\/p>\n<blockquote><p>[d]iese Visualisierung [Heatmaps] dient dazu, in einer gro\u00dfen Datenmenge intuitiv und schnell einen \u00dcberblick zu geben und besonders markante Werte leicht erkennbar zu machen.<\/p><\/blockquote>\n<p>Die letzten beiden Probleme kommen dadurch zustande, die gr\u00f8szere Pixel unnatuerlich viel Raum in der Wahrnehmung einnehmen und dadurch hervorstechen \u2026 aber eigtl. sind die gar nix Besonderes \u2026 es ist aber unheimlich schwer diese (unterbewusste) Interpretation der &#8222;erh\u00f8hten Wichtigkeit&#8220; wahrhaftig zu unterdruecken \u2026 und deswegen hab ich das hier nie gezeigt.<\/p>\n<p>Das sehr spezifische Problem liegt also darin, dass ich eine &#8222;zeitartige&#8220; Entwicklung der Verteilung einer Gr\u00f8sze, deren Werte sich ueber mehrere Gr\u00f8szenordnungen erstreckt, vollstaendig in nur EINEM grafischen Objekt unterbringen m\u00f8chte.<\/p>\n<p>Das &#8222;EINE Objekt&#8220; in Verindung mit &#8222;vollstaendig&#8220; laeszt nur Heatmaps zu. Die Verteilung ueber mehrere Gr\u00f8szenordnungen wird mittels logarithmisch, unterschiedlich grosze Werteeimer hantiert \u2026 aber es muss eine weitere Abstraktion hinzukommen \u2026 die Details dazu beim naechsten Mal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Heute wird&#8217;s etwach technisch und sehr &#8222;kleinteilig&#8220; \u2026 das ist aber dafuer da, um die Fetzigkeit des (im uebernachsten Beitrag zu sehenden) Fetzigen zu verstehen :) . In diesem Projekt hab ich (sehr) viele Verteilungen von (nicht nur &#8222;Mess-&#8222;) Gr\u00f8szen gezeigt. Das nennt man auch Histogramm \u2026 und hier geht&#8217;s schon los mit dem Problem, [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":[],"categories":[27],"tags":[],"_links":{"self":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/14673"}],"collection":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/comments?post=14673"}],"version-history":[{"count":8,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/14673\/revisions"}],"predecessor-version":[{"id":14693,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/posts\/14673\/revisions\/14693"}],"wp:attachment":[{"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/media?parent=14673"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/categories?post=14673"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/www.soeren-in-norwegen.net\/blog\/wp-json\/wp\/v2\/tags?post=14673"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}