Por Eston Martz

La gente puede cometer errores cuando realiza un test de hipótesis con análisis estadísticos. Específicamente, pueden hacer errores de Tipo I o Tipo II.

A medida que se analizan los propios datos y se hacen test de las hipótesis, la comprensión de la diferencia entre los errores de Tipo I y Tipo II se convierte en algo extremadamente importante, porque existe un riesgo de cometer cada tipo de error en cada análisis, y la cantidad del riesgo está bajo nuestro control.

Así que si se está testeando una hipótesis sobre un asunto de seguridad o calidad que podría afectar a la vida de las personas, o un proyecto que podría ahorrar millones de dólares a su negocio, ¿qué tipo de error tendría consecuencias más serias o más costosas? ¿Existe un tipo de error que sea más importante de controlar que otro?

Antes de que intentemos contestar a esta pregunta, revisemos qué son estos errores.

La hipótesis nula y los errores de Tipo I y 2

Cuando los estadísticos se refieren a errores de Tipo I y Tipo II, nos referimos a las dos maneras en que se pueden realizar errores respecto a la hipótesis nula (Ho). La hipótesis nula es la posición por defecto, semejante a la idea de “inocencia hasta que se pruebe la culpabilidad”. Cualquier test de hipótesis se empieza con la asunción de que la hipótesis nula es correcta.

Cometemos un error de Tipo I si rechazamos la hipótesis nula cuando ésta es cierta. Se trata de un falso positivo, como una alarma de fuego que suena cuando no existe tal fuego.

Un error de Tipo II ocurre si nos equivocamos al rechazar el nulo cuando no es cierto. Es el caso de un falso negativo—como una alarma que falla y no suena cuando existe un fuego.

Es más fácil de comprenderlo en la tabla siguiente, semejante a la que se puede encontrar en cada texto sobre estadística:

Realidad Hipótesis nula (H0) no rechazada Hipótesis nula (H0) rechazada
H0 es cierta. Conclusión correcta. Error Tipo I
H0 es falsa. Error Tipo II Conclusión correcta.

Estos errores están relacionados con los conceptos estadísticos de riesgo, significancia y potencia.

Reducir el riesgo de errores estadísticos

Los estadísticos llaman al riesgo, o probabilidad, de cometer un error de Tipo I “alfa,” igual que el “nivel de significación”. En otras palabras, es la voluntad de arriesgarse rechazando la hipótesis nula cuando es cierta. Alfa normalmente se pone a 0.05, que es una posibilidad del 5 por ciento de rechazar la hipótesis nula cuando es cierta. Cuanto más pequeña sea alfa, menor es el riesgo de rechazar la hipótesis nula incorrectamente. En situaciones de vida o muerte, por ejemplo, una alfa de 0.01 reduce la probabilidad de un error Tipo I a justo un 1 por ciento.

Un error de Tipo II está relacionado con el concepto de “potencia”, y la probabilidad de cometer este error se refiere como “beta”. Podemos reducir nuestro riesgo de cometer un error Tipo II asegurando que nuestro test tiene suficiente potencia—lo que depende de si el tamaño de la muestra es suficientemente grande para detectar una diferencia cuando ésta existe.

El argumento por defecto para "Qué error es peor"

Volvamos a la cuestión de qué error, Tipo I o Tipo II, es peor. El ejemplo de referencia para ayudar a la gente a pensar sobre el tema es un acusado de un crimen que exige una sentencia muy dura.

La hipótesis nula es que el acusado es inocente. Por supuesto no se querrá librar a una persona culpable de la cárcel, pero la mayoría de la gente diría que sentenciar a una persona inocente a esa pena es una consecuencia todavía peor.

Por lo tanto, muchos textos e instructores dirán que el Tipo I (falso positivo) es peor que un error Tipo II (falso negativo). La razón se reduce a la idea que si se mantiene el status quo o asunción por defecto, al menos no se estará haciendo las cosas peor.

Y en muchos casos, eso es cierto. Pero como pasa tanto en estadística, en la aplicación nada es realmente tan blanco o negro. La analogía del acusado es muy Buena para enseñar el concepto, pero cuando se intenta hacer una regla de oro sobre qué tipo de error es peor en la práctica, se desmorona.

Pero entonces, ¿qué tipo de error es el peor?

Siento decepcionar, pero como en tantas cosas de la vida y la estadística, la respuesta más honesta a esta pregunta tiene que ser, “depende”.

En alguna situación, el error de Tipo I puede tener consecuencias menos aceptables que las que tendría un error de Tipo II. En otras, el error Tipo II podría ser menos costosos que un error Tipo I. Y, a veces, como Dan Smith indicó en Significance hace unos años, respecto a Seis Sigma y mejora de calidad, "ninguno" es la única respuesta a qué error es el peor:

La mayoría de estudiantes de Seis Sigma van a utilizar los conceptos que aprenden en el contexto de los negocios. En las empresas, cuando le cuestas a la compañía 3 millones de dólares por sugerirle un proceso alternativo cuando no hay nada de malo con el proceso actual o dejas de tener en cuenta 3 millones de dólares de ganancias cuando deberías cambiar a un nuevo proceso pero te equivocas, el resultado final es el mismo. La empresa pierde la posibilidad de obtener un beneficio adicional de 3 millones de dólares.

Mira a las potenciales consecuencias

Como no existe una regla de oro clara sobre qué tipos de errores, Tipo I o Tipo II, son peores, nuestra mejor opción al utilizar datos para verificar una hipótesis es mirar cuidadosamente a las consecuencias que podrían seguir a ambos tipos de errores. Varios expertos sugieren utilizar una tabla como la siguiente para detallar las consecuencias para un error del Tipo I y del Tipo II, en el análisis particular.

Nula Error tipo I: H0 verdadero, pero rechazado Error tipo II: H0 falso, pero no rechazado
Medicina A no alivia la Condición B. Medicina A no alivia la Condición B, pero no se elimina como opción de tratamiento. Medicina A alivia la Condición B, pero es eliminada como opción de tratamiento.
Consecuencias Los pacientes con Condición B, que reciben la medicina A no se alivian. Pueden experimentar empeoramiento y/o efectos secundarios hasta incluso morir. Posible litigio. Un tratamiento viable permanece inaccesible a pacientes con Condición B. Se pierden los costes del desarrollo. Provecho potencial eliminado.

Sea lo que sea lo que involucre el análisis, comprender la diferencia entre los errores de Tipo I y Tipo II, y considerar y mitigar sus respectivos riesgos como apropiados, siempre es inteligente. Para cada tipo de error, hay que asegurarse de que se responde esta pregunta: "¿Qué es lo peor que puede ocurrir?"

Para explorar este tema más extensamente, compruebe este artículo sobre el uso de cálculo de potencia y tamaño de la muestra para equilibrar el riesgo de un error de tipo II y los costes de la comprobación, o esta entrada del blog sobre considerar el alfa apropiado para su test particular.