Die Statistik und das statistische Bundesamt

Von Frank Bosse

Wir beschäftigen uns an dieser Stelle fast ausschließlich mit Fragen zu Klima und Energie. Eins haben diese Gebiete aber gemeinsam mit der aktuellen Covid-19 Krise: Es ist sehr viel Statistik im Spiel. Damit lässt sich so ziemlich alles untersuchen, um zu erhellenden Antworten zu kommen. Ganz aktuell wurden wir konfrontiert mit solchen Meldungen: „Sterbezahlen 3% über dem Durchschnitt“. Es ging mal wieder etwas durch die Medienlandschaft. Die Original-Meldung findet sich hier. Viele Zahlen, Sätze wie dieser: „Die aktuelle Entwicklung der Sterbefallzahlen ist auffällig…“ suggerieren einen Zusammenhang zu Covid-19. Es ist die Rede von „Übersterblichkeit“, und es werden Kalenderwochen ausgewertet: KW 17 ist 3% über dem Durchschnitt, Vorwoche noch mehr,usw. Die Frage, ob eine reale Übersterblichkeit durch Covid-19 vorliegt, wird nicht explizit beantwortet. Daher will ich es für Sie tun.

Die verwendeten Daten für die Pressemitteilung kann man hier herunterladen, und die benutzen wir für unseren kleinen Exkurs. Um einen Überblick zu bekommen, welche Zeiträume durch Covid-19 Todesfälle besonders belastet waren stellen wir zunächst diese Daten dar, man kann sie sehr gut aufbereitet von hier herunterladen. Wir haben die Rohdaten leicht geglättet:

Abb. 1: Anteil der Covid-19 Todesfälle an den Gesamttodesfällen 2020

Es ist eine klare Häufung nach dem 6.4. zu erkennen, nach dem 23.4. fällt der Anteil wieder auf unter 6%. Um in der Statistik eine valide Aussage zu machen, nimmt man zumeist ein „Konfidenzniveau“ zu Hilfe. Es können immer nur Wahrscheinlichkeiten ausgewiesen werden, und in der Wissenschaft braucht man unter 95% eigentlich nicht anzufangen. Hierfür ist ein Mittelwert alleine nicht sehr hilfreich, erinnert sei an den Satz: „Der See ist im Durchschnitt 1,5m tief, trotzdem ertrunken“. Es muss die Standardabweichung  „Sigma“, also das Maß der Streuung der Daten berücksichtigt werden. Sie lässt sich leicht errechnen, und die 95% Konfidenz sagt aus: Eine Abweichung von 95% (oder 2 Sigma) von einem Mittelwert gilt als statistisch signifikant. Mit den vom statistischen Bundesamt herunter geladenen Daten der Jahre 2016-2020 haben wir das getan:

Abb. 2: Die Todesfälle im fraglichen Zeitraum 2.4.-26.4. In rot durchgezogen: Mittelwert der Jahre 2016-2019. In rot gestrichelt: Der Signifikanzbereich von 2 Sigma. In schwarz: Die Todesfälle in 2020.

Was man mit Signifikanz sagen kann: Am 2.; 3. ;7.;8.; 15.;16; und 22. des Monats April sahen wir signifikant mehr Todesfälle als im Mittel der Jahre 2016-2019. Durch Covid-19? Für den 2.und 3. April ist das wohl auszuschließen, vgl. Abb.1. Es bleiben  ganze 5 Tage (!),  für die es eine 95%ige Wahrscheinlichkeit gibt, dass Covid-19 sich in der Zahl der Todesfälle niederschlägt.

Ich habe auch die Aussagen der Pressemitteilung für die einzelnen Kalenderwochen geprüft. Sie stimmen nur formal. In der KW 17 waren es tatsächlich 3% mehr Todesfälle als im Mittel der 4 Vorjahre. Was fehlt ist der Satz: Um auf eine signifikante Übersterblichkeit zu schließen hätten es 8% sein müssen! In der Vorwoche (KW 16, also vom 13.4.-19.4.) wurden 8% mehr Todesfälle gemeldet, für Signifikanz auf dem 95% Konfidenzniveau hätten es 11% sein müssen. Auch in KW 15 (6.4.-12.4.) Fehlanzeige: Die 11% mehr Todesfälle sind nicht signifikant über dem Mittel der Jahre 2016-19, dazu hätte es 14% bedurft.

Was bleibt von der sehr langen Pressemitteilung? Ich hätte sie kurz formuliert:

In keiner Kalenderwoche das Jahres bisher konnte eine statistisch signifikante Übersterblichkeit durch Covid-19 in Deutschland festgestellt werden. Da allerdings kommt das Wort „Signifikanz“ vor, was ja „nur“ heißt, dass eine Beobachtung bedeutend ist. Aber wer schreibt schon gerne längliche Pressemittelungen über unbedeutende Zahlen?