Comprendamos las pruebas de hipótesis: Niveles de significación (Alfa) y P valores en estadística

¿Qué significan los niveles de significación y los P valores en las pruebas de hipótesis? ¿En cualquier caso que es la significación estadística? En este artículo se seguirán tratando los conceptos y gráficos que ayuda a obtener una comprensión más intuitiva de cómo funcionan las pruebas de hipótesis en estadística.

Para llevarlo a la vida se añadirá el nivel de significación y el P valor al gráfico del artículo anterior para obtener una versión gráfica del test t de 1 muestra. ¡Es más fácil de entender cuando se ve lo que realmente significa la significación estadística!

Aquí está lo que salía en el artículo anterior. Se quiere determinar cuando la media de nuestra muestra (330.6) indica que el coste de la energía media de este año es significativamente diferente del coste de energía medio del año pasado de 260$.

El gráfico de distribución de probabilidad más arriba muestra la distribución de las medias de las muestras obtenidos bajo la asunción de que la hipótesis nula es cierta (media de la población = 260) y se extrajeron repetidamente un gran número de muestras aleatorias.

Se dejó una pregunta: ¿Dónde se traza la línea para la significación estadística en el gráfico? Ahora se añadirá el nivel de significación y el P-valor, que son las herramientas de toma de decisiones que se necesitarán.

Utilizaremos estas herramientas para probar las siguientes hipótesis:

Hipótesis nula: la media de la población es igual a la media hipotetizada (260)
Hipótesis alternativa: la media de la población difiere de la media hipotetizada

¿Cuál es el nivel de significación (alfa)?

El nivel de significación, también denotado como alfa o α, es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Por ejemplo un nivel de significación de 0.05 indica un riesgo del 5% de concluir que existe una diferencia cuando no hay una diferencia real.

Estos tipos de definiciones pueden ser difíciles de entender debido a su naturaleza técnica. ¡Una imagen hace que los conceptos sean mucho más fáciles de comprender!

El nivel de significación determina a qué distanci del valor de la hipótesis nula se dibujará esa línea en el gráfico. Para graficar un nivel de significación de 0.05, será necesario sombrear el 5% de la distribución que está más alejada de la hipótesis nula.

En el gráfico superior, las dos áreas sombreadas son equidistantes del valor de la hipótesis nula y cada área tiene una probabilidad de 0.025, para sumar un total de 0.05. En estadística, llamamos a estas áreas sombreadas la región crítica para una prueba de dos colas. Si la media poblacional es de 260, esperaríamos obtener una media muestral que cayera en la región crítica el 5% del tiempo. La región crítica define lo lejos que debe estar el estadístico de muestra del valor de la hipótesis nula antes de poder decir que es lo suficientemente inusual como para rechazar la hipótesis nula.

La media muestral (330.6) cae dentro de la región crítica, lo que indica que es estadísticamente significativa a un nivel de 0.05.

También se puede ver si es estadísticamente significativo usando el otro nivel de significación de 0.01

Las dos áreas sombreadas tienen una probabilidad de 0.005, lo que suman una probabilidad total de 0.01. Esta vez, nuestra media muestral no cae dentro de la región crítica y no podemos rechazar la hipótesis nula. Esta comparación muestra por qué es necesario elegirel nivel de significación antes de comenzar el estudio. ¡Evita elegir un nivel de significación porque brinda convenientemente resultados significativos!

Gracias al gráfico, es posible determinar que los resultados son estadísticamente significativos al nivel 0.05 sin utilizar un P-valor. Sin embargo, cuando se utiliza la salida numérica producida por el software estadístico, será necesario comparar el P-valor con el nivel de significación para realizar esta determinación.

¿Qué son los P-valores?

Los p-valores son la probabilidad de obtener un efecto al menos tan extremo como el de los datos de la muestra, asumiendo la veracidad de la hipótesis nula.

Esta definición de los P valores, aunque técnicamente correcta, es un poco complicada. ¡Es más fácil de entender con un gráfico!

Para graficar el P valor para el conjunto de datos de ejemplo, es necesario determinar la distancia entre la media de la muestra y el valor de la hipótesis nula (330.6 - 260 = 70.6). A continuación se puede graficar la probabilidad de obtener una media muestral que seal al menos tan extrema en ambas colas de la distribución (260 +/- 70.6).

En el gráfico anterior, las dos áreas sombreadas tienen cada una probabilidad de 0.01556, para una probabilidad total de 0.03112. Esta probabilidad representa la probabilidad de obtener una media muestral que seal al menos tan extrema como nuestra media muestral en ambas colas de la distribución si la media poblacional es 260. ¡Ese es el P valor!

Cuando un P valor es menor o igual que el nivel de significación, se rechaza la hipótesis nula. Si se toma el P valor para el ejemplo y se compara con los nivels de significación comunes, coincide con los resultados gráficos anteriores. El P valor de 0.03112 es estadísticamente significativo a un nivel alfa de 0.05, pero no al nivel de 0.01.

Si nos atenemos a un nivel de significación de 0.05, se puede concluir que el coste energético promedio para la población es superior a 260.

Un error común es interpretar el P valor como la probabilidad de que la hipótesis nula sea cierta. Para entender por qué esta interpretación es incorrecta, por favor, lea el artículo: .

Discusión sobre resultados estadísticamente significativos

Una prueba de hipótesis evalúa dos afirmaciones mutuamente excluyentes sobre una población para determinar qué afirmación es mejor admitida por los datos de la muestra. El resultado de una prueba es estadísticamente significativo cuando el estadístico de la muestra es lo suficientemente inusual en relación con la hipótesis nula de que podemos rechazar la hipótesis nula para toda la población. "Lo suficientemente inusual" en una prueba de hipótesis se define por:

El supuesto de que la hipótesis nula es cierta: los gráficos se centran en el valor de la hipótesis nula.
El nivel de significación: ¿a qué distancia trazamos la línea para la región crítica?
Nuestro estadístico de muestra: ¿cae en la región crítica?

Téngase en cuenta que no existe un nivel de significación mágico que distinga entre los estudios que tienen un efecto real y los que no lo hacen con el 100% de precisión. Los valores alfa comunes de 0.05 y 0.01 se basan simplemente en la tradición. Para un nivel de significación de 0.05 se espera obtener medias muestrales en la región crítica el 5% del tiempo cuando la hipótesis nula sea cierta. En estos casos no se sabrá que la hipótesis nula es cierta, pero la rechazará porque la media de la muestra cae en la región crítica. ¡Es por eso que el nivel de significación también se conoce como una tasa de error!

Este tipo de error no implica que el experimentador haya hecho algo incorrecto o requiera cualquier otra explicación inusual. Los gráficos muestran que cuando la hipótesis nula es cierta, es posible obtener estos medios muestrales inusuales sin otra razón que no sea un error de muestreo aleatorio. Es solo suerte del sorteo.

Los niveles de significación y los P valores son herramientas importantes que ayudan a cuantificar y controlar este tipo de error en una prueba de hipótesis. El uso de estas herramientas para decidir cuándo rechazar la hipótesis nula aumenta la probabilidad de tomar la decisión correcta.