Ansichten eines Informatikers

Die falsche Sterbe-Metrik

Hadmut
13.4.2020 14:20

Der Tod wird falsch vermessen. [Update: Jetzt hab ich’s verstanden.]

Zahlenblindheit?

Was mir an der Berichterstattung schon seit Wochen gegen den Strich geht: Die Genauigkeit. Ich hatte schon einige Blogartikel zu solchen Themen und der Überlegung, dass viele Leute ein seltsames Verständnis von Genauigkeit haben. „Genau” heißt für sie, irgendeine Zahl hinzudonnern, und zwar immer mit Stellen hinterm Komma. Völlig egal, was vor dem Komma steht und wieviel, es gibt so eine Genauigkeitsrhetorik, dass man zwei Stellen hinter dem Komma angeben muss, damit es genau und wissenschaftlich aussieht. 1,45 oder 1.000.000,45 ? Egal. Zwei Stellen hinter dem Komma müssen sein, damit es genau, präzise, sorgfältig aussieht. Aber wehe, einer würde 1,4532 schreiben, das wäre dann ein Haarspalter und Besserwisser. Vier Stellen hinter dem Komma ist dann schon zuviel des Guten, das wird dann unglaubwürdig.

Dass es so mathematisch-numerisch eigentlich keine Rolle spielt, wieviele Stellen hinter dem Komma angegeben werden, sondern nur, wieviele Stellen überhaupt, also auch das vor dem Komma in die Betrachtung der Genauigkeit einbezogen werden muss (Nicht umsonst schreiben Mathmatiker, Ingenieure, Physiker gerne in Exponentialschreibweise der Form a,bcde*10x, mit unterschiedlicher Stellenzahl, aber immer genau einer Stelle vor dem Komma, weil letztlich der Zehnerexponent x völlig verschiebbar ist.)

Besonders übel ist das, wenn Prozente ins Spiel kommen, und Prozente sind immer im Spiel, wenn nicht schon Promille da sind.

Die Leute kapieren nämlich nicht, dass „Prozent” schon eine Abkürzung für Hunderstel ist, es gibt ja so diese Fangfragen. Irgendwo haben sie mal in einer Fußgängerzone so Auswahlfragen gestellt und verblüffend viele Leute meinten, dass 25 von 100 eben 4% wären, weil doch 100 : 4 = 25 sei. Deshalb geben die auch bei Prozenten stets zwei Stellen hinter dem Komma an, weil das eben journalistischer und publizistischer Standard ist, genau zwei Stellen hinter dem Komma anzugeben, denn Sorgfalt und Genauigkeit müssen ja sein. Es lebe der Datenjournalismus. Dass aber eine Angabe von 1,45% die Abkürzung für 0,0145 ist und damit eine Genauigkeit von vier Stellen hinter dem Komma ist, kapieren die schon nicht mehr. Wenn man schon daran festhält, immer genau zwei Stellen hinter dem Komma anzugeben, dürfte man Prozente nicht noch mit Stellen hinter dem Komma angeben, weil Prozente schon die zwei Stellen hinter dem Komma sind. Dann ist es 1%, und das nächste, was kommt, sind 2%. Weil man Prozent, also pro Hundert, eigentlich auch nicht weiter teilen kann. Was sind 1,45% Tote? Ein richtig Toter und einer, dem Arm und Bein abgefault sind? Oder der es noch zwei Tage macht? Eigentlich müsste man auf Promille umsteigen. Aber das ist jetzt schon eine Stilfrage.

Der zweite Fehler ist, dass die immer glauben, man hat eine Zahl dahin und das ist es dann. Sie kapieren nicht, dass man sowas eigentlich nie genau angeben kann, sondern das immer Intervalle aus einer unteren und einer oberen Grenze sind, und man eignetlich dabei immer Intervalrechnung betreiben muss. Kurioserweise sind aber viele der Auffassung, dass „exakt” heiße, zwei Stellen hinter dem Komma anzugeben, ohne zu merken, dass sie mit dem Abschneiden der Nachkommastellen immer in eine Intervallrechnung gehen, aber eben mit fester (und damit falscher) Intervallbreite 1/100. Wer eine Zahl auf zwei Stellen hinter dem Komma abschneidet, etwa 1,45, meint damit implizit (aber meist ohne es zu kapieren) das Interval 1,45000… bis 1,45999… (oder je nach Rundung 1,445 bis 1,454999..) Man sollte dann schon lieber explizit ein Intervall angeben.

Allerdings, und das ist die Krux dabei, würde eine Angabe wie Sterblichkeitsrate liegt zwischen 1,2 und 1,7 große Teile der Bevölkerung und praktisch alle Journalisten, Politiker und Geisteswissenschaftler überfordern, die kapieren sowas nicht und würden meckern, dass es nicht genau sie, obwohl das eine viel genauere (aber eben schwerer zu kapierende) Angabe als eine einzelne Zahl wäre.

Ein dritter Fehler, eigentlich ein Unterpunkt des zweiten Fehlers, es gehört nämlich auch zur Intervallrechnung, ist die Granularität. Eigentlich auch schon oben mit den Prozenten angesprochen. Man kann bei diskreten Zählgrößen nicht mehr Genauigkeit angeben, als deren Anteil ist. Beispiel: Von zehn Leuten können nicht 2,38% sterben. Es können nicht mal 2% sterben. Weil jeder einzelne schon 10% der Gesamtheit darstellt. Egal, was sie machen, sie können immer nur in Vielfachen von 10% sterben.

In besagter Presse findet man dann Aussagen wie:

Der Bonner Virologe Hendrik Streeck hat am Donnerstag erste Zwischenergebnisse der Feldstudie „Covid-19 Case-Cluster-Study” in der Gemeinde Gangelt im Kreis Heinsberg vorgestellt. Der Landkreis in Nordrhein-Westfalen war einer der ersten, in dem sich das Coronavirus ausgebreitet hatte.

Das sind die ersten, aber schon repräsentativen Zwischenergebnisse:

  • Bei 15 Prozent der untersuchten Bewohner Gangelts konnte eine Infektion nachgewiesen werden.
  • Die Sterblichkeitsrate liegt in Gangelt bei 0,37 Prozent.
  • Zum Vergleich: In Deutschland liegt diese aktuell laut der Johns-Hopkins-Universität bei 1,98 Prozent – also fünf Mal höher.

An der Pilotstudie, bei der es darum ging mehr über die Dunkelziffer des Virus und Übertragungswege herauszufinden, nahmen Streeck zufolge mehr als 1000 Bewohner teil. Die Untersuchung basierte auf Fragebögen, Rachenabstrichen und Blutentnahmen (zum Test von Antikörpern, die auf eine Immunität hinweisen).

Nochmal eine andere Quelle, das Ärzteblatt:

Düsseldorf – In der besonders vom Coronavirus SARS-CoV-2 betroffenen Gemeinde Gan­gelt in Nordrhein-Westfalen (NRW) wurde in einer Studie bei 15 Prozent der untersuchten Bürger eine Infektion nachgewiesen. Das berichtete der Leiter der Feldstudie im Kreis Heinsberg, Hendrik Streeck, heute in Düsseldorf.

Bei diesen ersten, wissenschaftlich repräsentativen Zwischenergebnissen handele es sich um eine eher konservative Berechnung, betonte der Virologe. Die Forscher hatten in rund 400 Haushalten bei 1.000 Teilnehmern Rachenabstriche auf SARS-CoV-2 analysiert, Blut auf Antikörper getestet und Fragebögen ausgewertet. Die vorliegenden Ergebnisse fußen auf 509 ausgewerteten Ergebnissen.

Demnach hätten rund 15 Pro­zent der Bürger in der Gemeinde nun auch eine Immunität gegen das Virus ausgebildet, sagte Streeck. Den Forschern zufolge dürfte die Zeit der Im­munität bei sechs bis 18 Monaten liegen, erklärten sie heute vor Journalisten.

Die Letalität lag in der Studie bezogen auf die Gesamtzahl der Infizierten bei 0,37 Pro­zent. Die in Deutschland derzeit von der amerikani­schen Johns Hopkins University be­rechnete entsprechende Rate betrage 1,98 Prozent und liege damit um das Fünffache höher, sagte der Virologe.

Die Rate sei in Gangelt fünf Mal niedriger im Vergleich mit den Daten der Johns Hopkins University, weil man sich auf die Gesamtzahl der Infizierten beziehen könne, erläuterte Gunther Hartmann, Professor für Klinische Chemie und Pharmakologie an der Universität Bonn. Die Gesamtzahl der Infizierten habe bisher in Berechnungen nicht einbezogen wer­den können. Das seien genaue die Daten, die weltweite gefordert werden, sagte er.

Mehr als 1000 Bewohner nahmen teil. Schön. Was sie mit „509 ausgewerteten Ergebnissen” meinen, lasse ich mal a) dahingestellt und b) großzügig einfach weg.

Bei 15% konnte eine Infektion nachgewiesen werden. Auch schön. Macht also etwas über 150 Leute.

Die Sterblichkeitsrate liegt in Gangelt bei 0,37 Prozent. Scheiße. Weil man bei einer Gesamtheit von 150 infizierten Leuten eine Granularität von 1/150 = 0.00666… , also 0,67 Prozent. Bei genau einem Toten hätten sie also schon einen Rate von 0,67 Prozent.

Haben sie einen Halbtoten gefunden? Teilzeittote?

Schreibfehler?

Habe ich was nicht verstanden?

Oder ist da was durcheinander gekommen?

Ich glaube nicht, dass sie irgendwas tiefenfalsch gemacht haben, sondern dass da auf dem Weg zwischen Studie und Webseiten irgendwas schief gelaufen ist. Aber irgendwie merkt’s dann auch keiner.

Die falsche Metrik

Ich habe irgendwann vor Jahren in irgendeinem anderen Zusammenhang schon mal im Blog was dazu geschrieben.

Ich halte diese Gräberzählerei für die schlicht falsche Metrik.

Ich halte es für grundfalsch, (nur) Tote zu zählen.

Denn daraus erwächst ja auch die Diskussion, ob das nun 93-jährige Vorerkrankte waren, die eben schon Dienstag statt erst Freitag gestorben sind.

Die Lebenskostenmetrik

Im Prinzip müsste man messen/zählen, wieviel Lebenszeit die verloren haben. Denn tot sind wir früher oder später ja alle. Es geht ja nicht um die Frage, ob wir an Corona sterben oder nicht (manache formulieren das als die Frage, ob wir an oder nur mit COVID sterben), sondern wieviel Lebenszeit uns das durchschnittlich kostet. Man müsste also bei Gesunden die mittlere Lebenszeit zugrundelegen, um zu eruieren, wieviel Lebenszeit derjenige dadurch verloren hat. Und bei Vorerkrankten eben, wieviele Lebenszeit man damit noch zu erwarten gehabt hätte.

Und dann nicht die Aussage treffen „Sterblichkeit 0,43%”, sondern Aussagen wie „Menschen zwischen 40 und 50 Jahren verlieren im Durchschnitt x Lebensjahre durch Corona”.

Dann kann sich jeder überlegen, wieviel es ihm wert ist, 1 oder 3 Monate zuhause zu bleiben. Verliert man im Mittel 8 Monate, dann ist es weise, mal 2 Monate in der Wohnung zu bleiben. Verliert man im Mittel 2 Wochen, kann man sich überlegen, ob es einem das wert ist.

Zu bedenken ist dabei, dass man dabei einen Denkfehler vermeiden muss: Würde nämlich eine kerngesunde 90-Jährige (also jemand über der mittleren Lebenserwartung) an Corona sterben, würde das nicht als Lebenszeitverlust, sondern als Gewinn (negativer Verlust) dastehen, wenn man die allgemeine mittlere Lebenserwartung ansetzt.

Man dürfte also, um diesen Denkfehler zu vermeiden, nicht die mittlere Lebensdauer ansetzen, sondern bei Gesunden denselben Gedankengang wie bei Kranken: Wieviele Lebensjahre haben gesunde 90-Jährige im Mittel noch zu erwarten? Weil ja auch Leute, die es über die mittlere Lebensdauer geschafft haben, noch eine positive Lebenserwartung haben. 90-Jährige sind zwar über der mittleren Lebenserwartung, haben aber allesamt selbst noch eine positive Lebenserwartung, sonst gäbe es ja keine 91-Jährigen.

Man müsste also nach Lebensalter, Geschlecht, (evlt. Beruf) und Gesundheitszustand (je nach Vorerkrankung) berechnen, wieviel Lebenszeit derjenige ohne Corona noch zu erwarten gehabt hätte, um daraus abschätzen zu können, wieviel Lebenszeit ein Corona-Verstorbener noch gehabt hätte, also verloren hat.

Die Volkswirtschaftsmetrik

Von der vorgenannten subjektiven Metrik müsste man dann zu einer volkswirtschaftlichen Metrik. Bisschen makaber, aber muss sein. Welchen Schaden (oder Nutzen) verursacht ein Toter volkswirtschaftlich?

Ich würde das mal in drei Lebensphasen einteilen:

  • Aufzucht und Ausbildung bis zur Berufs- und Fortpflanzungsreife: Die Gesellschaft investiert durch Elternschaft, Schule, Studium. Stirbt einer mit 25, ist das investierte Kapital futsch. Stirbt er mit 7, ist weniger futsch.
  • Berufszeit: Der Wert besteht in der bis zum Rentenalter noch zu erwartenden Wirtschaftsleistung. Je älter, desto weniger „Restwert”.

    Allerdings muss man dabei berücksichtigen, dass Ausbildung und Arbeitstätigkeit überlappen, und ein 25-Jähriger nicht die Arbeit eines 50-Jährigen übernehmen kann. Noch nicht. Der 25-Jährige ist also nicht automatisch mehr wert als der 50-Jährige, weil er nicht sofort loslegen und dessen Arbeit übernehmen kann. Deshalb verdienen 50-Jährige in der Regel mehr als 25-Jährige. Deshalb könnten viele Betriebe leichter auf den 25-Jährigen als den 50-Jährigen verzichten.

  • Rentner.

    Sorry, ist bitter, aber: Die haben nur noch geringen volkswirtschaftlichen Nutzen. Weil sie eigentlich Gläubiger des Rentenanspruchs sind, und der Rentenanspruch nicht erblich ist. Sterben sie, hat der Schuldner (die Rentenkasse) gewonnen. Zwar geben sie auch Geld aus, aber wenn sie tot sind, gibt es eben jemand anderes aus.

    Tut mir leid, ist pietätlos, aber Rentner und Sieche wegputzen kann volkswirtschaftlich positiv sein. Wohnungen werden auch frei.

Das ist nun gar nicht einfach, das zu berechnen, aber man müsste letztlich mal ausrechnen, was uns Corona volkswirtschaftlich kostet. Zunächst in dem Sinne, was uns der Verlust an Humankapital nach obiger Betrachtung kostet (oder sogar bringt). Dazu kämen die echten Kosten wie Krankenhausbauten, Masken, Hilfszahlungen usw., und die Pseudokosten durch ausgefallenes Geschäft, auf der anderen Seite die Gewinne durch diesbezügliches Geschäft, Einsparungen und dergleichen.

Und wann man das alles zusammenrechnet und darstellt, dann erst wüssten wir, ob die Corona-Maßnahmen gut oder schlecht sind.

Nachtrag: Dann nämlich könnten wir vergleichen, ob die Kosten, die wir mit den Maßnahmen aufwenden, höher oder niedriger als der volkswirtschaftliche Schaden sind, den wir damit abzuwenden versuchen. Ob wir also mit oder ohne die Maßnahmen volkswirtschaftlich besser dastünden, ob es sich also „lohnt”, Corona-Maßnahmen zu ergreifen oder nicht.

Update: Ah, jetzt habe ich es verstanden. Ein Leser hat es mir erklärt.

Die Ortschaft hat nicht nur 1000 Einwohner, sondern mehr und das ist hochgerechnet:

Streeck geht von einer “Gesamtzahl der Infizierten” aus, soll woh heißen 12.380 Einwohner x 15% Infizierter x 0,37% ergibt die 7 Toten in Gangelt.

Das war nicht ersichtlich, dass der Ort mehr Einwohner hat und sie das hochgerechnet haben. Ich dachte, sie hätten konkret diese Auswahl von 1000 Leuten betrachtet. Bei 12.380 Einwohnern und 15% ergibt das hochgerechnet 1857 Infizierte und damit eine Granularität von 0,054% pro Person. Macht bei 7 Toten dort ca. 0,37%.

Aus 7 Toten eine Genauigkeit von 4 Stellen hinter dem Komma anzugeben halte ich trotzdem für sehr schräg.