Menú
Amando de Miguel

Cómo engañar con las estadísticas

El dato más interesante sería el cálculo de la incidencia de la mortalidad por el virus corona para cada uno de los grupos quinquenales o decenales de edad y sexo.

Me da mucha ternura recordar un librito seminal de mi época de estudiante en la Columbia de Nueva York. Se titulaba How to Lie with Statistics, es decir, "Cómo mentir con las estadísticas". Se decía mentir, pero no se refería al manejo de estadísticas falsas, sino de estadísticas trucadas para engañar o distorsionar a los lectores o al público. En España hemos llegado a refinar mucho el procedimiento; tanto es así que ya ni nos damos cuenta de que nos engañan con la presentación de datos o gráficos. La apariencia matemática les confiere un alto poder taumatúrgico.

Veamos un ejemplo de lo que ahora está más a mano: las estadísticas sobre el maldito coronavirus, o mejor, el virus de China o de Wuhan, por su origen. Lo de la corona, como broma, puede pasar. Los datos que distribuyen las autoridades sanitarias suelen ser en valores absolutos. Se trata de una primera engañifa, si no se ponen en relación con los habitantes del territorio en cuestión. La segunda es destacar el indicador de afectados o contagiados, un dato que resulta escasamente válido. La razón es que los afectados por el virus son realmente los diagnosticados, los que ha pasado por la consiguiente prueba de diagnóstico. Es un resultado variable, relativo, pues depende de la eficiencia de la organización sanitaria en cada momento y lugar. En España ha demostrado ser francamente mejorable. Hay que desconfiar mucho del estribillo triunfalista: "La sanidad española es la mejor del mundo".

El buen indicador de la epidemia es el número de fallecidos a causa del dichoso virus. Se supone que es muy fiable, aunque excepcionalmente encontremos algunos cadáveres abandonados en una residencia de ancianos. Aun así, la cifra absoluta del número de fallecidos no nos dice gran cosa. Hay que verla con relación al número de habitantes del país o de la región de que se trate. Así pues, lo correcto sería dividir el número de fallecidos por el número de habitantes y multiplicar el cociente por un millón. Se obtiene así la verdadera incidencia de la enfermedad o tasa de mortalidad por el virus corona por millón de habitantes. Si así se presentaran los datos, se vería que, de momento, España e Italia se sitúan a la cabeza del mundo en la incidencia de la pandemia. Otra cosa es explicar por qué; nadie lo sabe. Como también se ignora por qué Milán o Madrid se destacan por la máxima gravedad de la epidemia.

(Acabo de oír a Luis del Pino con la sospecha de que incluso la cifra de fallecidos por el virus no sea un dato fiable, pues bastantes de los fallecidos por esta causa en el Registro Civil se anotan como víctimas "naturales". Si así fuera, estaríamos ante un fraude colosal, un caso de prevaricación elefantiásica. Si un delito así se probara sería suficiente para que el Gobierno dimitiera en pleno).

Otra dimensión es la dinámica, la del cambio (positivo o negativo) en las variaciones diarias de la incidencia de la enfermedad. Una fórmula elemental es la proporción de aumento o disminución de fallecidos en la última fecha respecto a la del día anterior. Basta calcular un número entero, sin decimal. Mientras la tasa de cambio sea positiva y más elevada que en el día anterior, concluimos que la epidemia va avanzando. Este es el caso actual de España, si tenemos en cuenta las mediciones de los últimos días. Habría que ver el resultado comparativo por regiones y entre países.

La epidemia es un proceso estocástico (se produce con un cierto grado de azar). La lógica es que la distribución de la incidencia dibuje un perfil en forma de campana, lo que se llama ‘curva normal’. La gráfica se obtiene poniendo el tiempo cronológico (días y meses) en el eje horizontal y la incidencia en el eje vertical. Así se comprueba visualmente cómo se va trazando el perfil de la curva. El área de la cual nos señala la cantidad relativa de fallecidos. En España estamos todavía en la rama ascendente de la curva, con un ímpetu desconocido en el mundo. Aunque lleguemos pronto a la cumbre o cenit (lo que vulgarmente y con escasa precisión se llama ‘punta’) de la gráfica, falta todavía mucho para que se disipe el fenómeno.

Para comparar curvas de distintos territorios (países, regiones), debe anotar la fecha en la que se registró el primer fallecido por la epidemia. Ese es el momento para situar el comienzo de las distintas curvas, si se desea representar la comparación entre países o entre regiones. De hacer algo así, se vería que la epidemia en España lleva trazas de ser la más grave del mundo occidental.

El dato más interesante sería el cálculo de la incidencia de la mortalidad por el virus corona para cada uno de los grupos quinquenales o decenales de edad y sexo. Debe darse para el conjunto de un país, por ejemplo, para España. Los datos existen, pero no se dan. Es un ejemplo de manipulación estadística negativa.

Si no se realizaran las operaciones que quedan indicadas y se siguieran dando las estadísticas como ahora, en números absolutos, la conclusión sería que nos están engañando. No importa que sea con apariencia científica. Ahí está precisamente el engaño de las estadísticas. Que es una palabra que no procede de Estado, sino de los estados o cuadros con números.

Temas

En España

    0
    comentarios