Comprendamos las pruebas de hipótesis: intervalos y niveles de confianza

En esta publicación se muestra cómo funcionan las pruebas de hipótesis y los intervalos de confianza, centrándose en conceptos y gráficos en lugar de las ecuaciones y números.

Previamente se había utilizado gráficos para mostrar lo que realmente significa significación estadística. Pero en esta publicación se explicarán tanto los intervalos de confianza como los niveles de confianza, y cómo están estrechamente relacionados con los valores de P y los niveles de significación.

Cómo interpretar correctamente los intervalos de confianza y los niveles de confianza

Un intervalo de confianza es un rango de valores que es probable que contenga un parámetro de población desconocido. Si se dibuja una muestra aleatoria muchas veces, un cierto porcentaje de los intervalos de confianza contendrá a la media de la población. Ese porcentaje es el nivel de confianza.

Con mayor frecuencia, se utilizarán los intervalos de configanza para delimitar la media o la desviación estándar, pero también pueden obtenerse para los coeficientes de regresión, las proporciones, las tasas de incidencia (Poisson) y las diferencias entre poblaciones.

Un intervalo de confianza del 95% indica que 19 de cada 20 muestras (95%) de la misma población producirá intervalos de confianza que contienen el parámetro de la población.

Del mismo modo que hay una idea errónea de cómo interpretar los valores de P, también hay una idea errónea de cómo interpretar los intervalos de confianza. En este caso, el nivel de confianza no es la probabilidad de que un intervalo de confianza específico contenga el parámetro de población.

El nivel de confianza representa la capacidad teórica del análisis para producir intervalos precisos si se es capaz de calcular muchos intervalos y conoce el valor del parámetro de población. Para un intervalo de confianza específico de un estucio, el intervalo contiene el valor de la población o no, no hay posibilidad de que existean probabilidades diferentes de 0 o 1. Y no se puede elegir entre estas dos posibilidades porque no se conoce el valor del parámetro de población.

"El parámetro es una constante desconocida y no se puede hacer una afirmación de probabilidad respecto su valor." —Jerzy Neyman, desarrollador original de los intervalos de confianza.

Esto se comprenderá más fácilmente después de que hablemos de la gráfica más abajo...

Con esto en mente, ¿cómo se interpretan los intervalos de confianza?

Los intervalos de confianza sirven como buenas estimaciones del parámetro de población porque el procedimiento tiende a producir intervalos que contienen el parámetro. Los intervalos de confianza se componene de la estimación puntual (el valor más probable) y un margen de error en torno a esa estimación puntual. El margen de error indica la cantidad de incertidumbre que rodea la estimación muestral del parámetro de población.

En este sentido, pueden utilizarse los intervalos de confianza para evaluar la precisión de la estimación de la muestra. Para una variable específica, uni intervalo de confanza más estrecho [90 110] sugiere una estimación más precisa del parámetro de población que un intervalo de confianza más amplio [50 150].

Intervalos de confianza y el margen de error

Continuemos para ver cómo los intervalos de confianza explican ese margen de error. Para hacer esto, utilizaremos las mismas herramientas que hemos estado usando para entender las pruebas de hipótesis. Se creará una distribución de muestreo utilizando gráficos de distribución de probabilidad, la distribución t y la variabilidad en los datos. Basaremos el intervalo de confianza en el conjunto de datos de costes de energía que se han estado utilizando.

Cuando observamos los niveles de significación, los gráficos mostraban una distribución muestral centrada en el valor de la hipótesis nula, y el 5% exterior de la distribución estaba sombreado. Para los intervalos de confianza, necesitamos desplazar la distribución del muestreo para que esté centrada en la media de la muestra y sombrear el 95% central.

Gráfico de distribución de probabilidad que ilustra cómo funcionan los intervalos de confianza

El área sombreada muestra el rango de la muestra que significa que se obtendría el 95% del tiempo utilizando nuestra media muestral como la estimación puntual de la media poblacional. Este rango [267 394] es nuestro intervalo de confianza del 95%.

Utilizando el gráfico es más fácil comprender cómo un intervalo de confianza específico representa el margen de error, o la cantidad de certeza, alrededor de la estimación puntual. La media muestral es el valor más probable para lamedia poblacional dada la información que tenemos. Sin embargo, el gráfico muestra que no sería totalmente inusual que otras muestras aleatorias extraídas de la misma población obtuvieran diferentes medias muestrales dentro del área sobreada. Estas otras muestras probables significan que todos sugiere valores diferentes para la media de la población. Por lo tanto, el intervalo representa la incertidumbre inherente que viene con el uso de datos de muestra.

Se pueden utilizar estos gráficos para calcular probabilidades para valores específicos. Sin embargo nótese que no se puede posicionar la media de la población en el gráfico porque el valor es desconocido. En consecuencia, no se pueden calcular probabilidades para la media de la población, ¡tal y como dijo Neyman!

Por qué los valores de P y los intervalos de confianza siempre concuerdan con la significación estadística

Se puede utilizar valores de P o intervalos de confianza para determinar si los resultados son estadísticamente significativos. Si una prueba de hipótesis produce ambos, estos resultados concordarán.

El nivel de confianza es equivalente a 1 - el nivel alfa. Entonces, si el nivel de significación es 0.05, el nivel de confianza correspondiente es del 95%.

Si el valor de P es menor que su nivel de significación (alfa), la pruebas de hipótesis es estadísticamente significativa
Si el intervalo de confianza no contiene el valor de la hipótesis nula, los resultados son estadísticamente significativos.
Si el valor de P es menor que alfa, el intervalo de confianza no contendrá el valor de hipótesis nula.

Para nuestro ejemplo, el valor de P (0.031) es menor que el nivel de significancia (0.05), lo que indica que nuestro resultado es estadísticamente significativo. De manera similar, nuestro intervalo de confianza del 95% [267 394] no incluye la media de la hipótesis nula de 260 y llegamos a la misma conclusión.

Para comprender por qué los resultados siempre concuerdan, recuérdese como funcionan tanto el nivel de significación como el nivel de confianza.

El nivel de significación define la distancia que la media de la muestra debe estar de la hipótesis nula para que se considere estadísticamente significativa.
El nivel de confianza define la distancia para lo cerca que están los límites de confianza de la media de la muestra.

Tanto el nivel de significación como el nivel de confianza definen una distancia de un límite a una media. ¿Adivina? ¡Las distancias en ambos casos son exactamente iguales!

La distancia es igual al t-valor crítico * el error estándar de la media. Para los datos del ejemplo del coste de la energía, la distancia llega a ser de 63.57$.

Imagine esta discusión entre la media de la hipótesis nula y la media de la muestra:

Media de la hipótesis nula, representante de la prueba de hipótesis: ¡Hola amigo! Descubrí que eres estadísticamente significativo porque estás a más de 63,57$ de mi.
Media de la muestra, representante del intervalo de confianza: En realidad yo soy significativo porque tú estás a más de 63,57$ de mi!

Muy agradables, ¿verdad? Y, siempre estarán de acuerdo mientras se comparen los correctos pares de P valores e intervalos de confianza. Si se comparan los pares incorrectos, se obtendrán resultados conflictivos, como se muestra en el error típico #1 en esta publicación.

Pensamientos finales

Los análisis estadísticos, tienden a centrarse más en los P valores y simplemente detectar un efecto o diferencia significativos. Sin embargo, un efecto estadísticamente significativo no es necesariamente significativo en el mundo real. Por ejemplo, el efecto puede ser demasiado pequeño para tener algún valor práctico.

Es importante prestar atención tanto a la magnitud como a la precisión del efecto estimado. Por eso me gustan los intevalos de confianza. Permiten evaluar estas importantes características junto con la significación estadística. A todos nos gustaría ver un intervalo de confianza estrecho donde el rango completo representa un efecto que es significativo en el mundo real.