Normalisierung absoluter Zahlen

by Yan Peng

In diesem Beitrag zeige ich, wie man durch Datenzusammenführung und Berechnung absolute Werte in Bezug auf eine Größe normiert, um die Zahlen in einen Kontext zu setzen und sie vergleichbar zu machen. Die Pro-Kopf-Berechnung ist ein typischer Anwendungsfall der Normalisierung, um eine Vergleichbarkeit zwischen verschiedenen Orten oder Regionen unabhängig von ihrer Bevölkerungsgröße herzustellen. Im folgenden Beispiel handelt es sich genau um eine solche Berechnung, die in Power BI durchgeführt wurde.

Der Ausgangsdatensatz enthält Informationen über politische Krisen und Konflikte in Nordamerika im Zeitraum von 2020 und 2023 (Quelle: ACLED). Wir interessieren uns nur für die Proteste und deren Teilnehmerzahl. In Abbildung 1 sieht man die aggregierte Tabelle mit der Gesamtteilnehmerzahl der Proteste für jeden US-Bundesstaat pro Jahr.

Abb. 1: Aggregierte Teilnehmerzahlen nach Bundesstaat und Jahr

Wenn wir die nicht-normierten Zahlen in einem Balkendiagramm darstellen, sehen die Ergebnisse wie in Abbildung 2 aus. Da Kalifornien der bevölkerungsreichste Bundestaat ist, verwundert es uns nicht, das es dort die meisten Protestierenden zu finden sind.

Abb. 2: Absolute Teilnehmerzahlen der Proteste

Um die absoluten Teilnehmerzahlen auf die Bevölkerungsgröße jedes Bundesstaates zu normalisieren, benötigen wir die Einwohnerzahlen der Bundesstaaten für die vier Jahre. Diese holen wir von der Webseite des United States Census Bureau. Allerdings stehen die Daten noch nicht in der gewünschten Form. Die Einwohnerzahl-Jahr-Spalten müssen entpivotiert werden, um zwei Spalten für das Jahr und die Einwohnerzahl zu erhalten.

Abb. 3: Entpivotierung der Einwohnerzahl-Jahr-Spalten

Jetzt kann die Einwohnerzahl-Tabelle (Abb. 4) mit der Teilnehmerzahl-Tabelle (Abb. 1) verbunden werden.

Abb. 4: Einwohnerzahl-Tabelle in verbindbarer Form

In der neuen Tabelle fügen wir nun eine neue Spalte für die normalisierten Werte hinzu. Die folgende Formel berechnet Teilnehmerzahl pro 1.000 Einwohner:

Crowd Size Normalized = 'Table'[Total Crowd Size] / 'Table'[Population] * 1000

Die normalisierten Ergebnisse sind in Abbildung 5 zu sehen. Nach der Normierung verschwindet in der Tat Kalifornien, der bevölkerungsreichste Bundesstaat, aus der Liste der Staaten mit den meisten Protestierenden. Der District of Columbia führt hingegen mit großem Abstand als der Bundesstaat, in dem die meisten Menschen pro 1.000 Einwohner an Protesten teilgenommen haben.

Abb. 5: Normierte Teilnehmerzahlen auf Bevölkerungsgröße