Cómo elegir el mejor modelo de regresión

Escoger el modelo de regresión lineal correcto puede ser difícil. Tratar de modelarlo con solo una muestra no lo hace más fácil. En esta publicación del blog de Minitab, se revisan algunos métodos estadísticos comunes para seleccionar modelos, las complicaciones con las que se puede enfrentar, y se proporcionan algunos consejos prácticos para elegir el mejor modelo de regresión.

Comienza cuando un investigador quiere describir matemáticamente la relación entre algunos predictores y la variable de respuesta. El equipo de investigación encargado de investigar suele medir muchas variables, pero solo incluye algunas de ellas en el modelo. Los analistas intentan eliminar las variables que no están relacionadas e incluyen solo aquellas con una relación verdadera. Por el camino, los analistas consideran muchos posibles modelos.

Se esfuerzan por lograr un equilibrio de Goldilocks con el número de predictores que incluyen.

Muy pocos: un modelo subespecificado tiende a producir estimaciones sesgadas.
Demasiados: un modelo sobrespecificado tiende a tener estimaciones menos precisas.
Simplemente correcto: un modelo con los términos correctos no tiene sesgo y las estimaciones son más precisas.

Métodos estadísticos para encontrar el mejor modelo de regresión

Para disponer de un buen modelo de regresión, se desea incluir las variables que se están probando específicamente junto con otras variables que afecten a la respuesta para así evitar resultados sesgados. Minitab Statistical Software ofrece medidas y procedimientos estadísticos que le ayudan a especificar su modelo de regresión.

R cuadrado ajustado y R cuadrado previsto: Generalmente se eligen los modelos que tienen valores R cuadrado mejor ajustados y previstos. Estas estadísticas están diseñadas para evitar un problema clave con el R cuadrado regular: aumenta cada vez que se añade un predictor y puede engañar de forma que se especifique un modelo demasiado complejo.

El R cuadrado ajustado aumenta solo si el nuevo término mejora el modelo más de lo que se esperaría por casualidad y también puede disminuir con predictores de mala calidad.
El R cuadrado previsto es una forma de validación cruzada y también puede disminuir. La validación cruzada determina lo bien que el modelo se generaliza a otros conjuntos de datos mediante la partición de sus datos.

Valores P para los predictores: En regresión, los valores p bajos indican términos que son estadísticamente significativos. “Reducir el modelo” se refiere a la práctica de incluir todos los predictores candidatos en el modelo, y luego eliminar sistemáticamente el término con el valor p más alto uno por uno hasta que solo le quedan predictores significativos.

Regresión escalonada y Regresión de los mejores subconjuntos: son dos procedimientos automatizados que pueden identificar predictores útiles durante las etapas exploratorias de la construcción del modelo. Con la mejor regresión de subconjuntos, Minitab proporciona el Cp de Mallows, que es una estadística diseñada específicamente para ayudar a administrar la compensación entre la precisión y el sesgo.

Complicaciones del mundo real

Estupendo, existe una variedad de métodos estadísticos que nos ayudan a elegir el mejor modelo. Desafortunadamente, también hay una serie de posibles complicaciones. Pero no hay que preocuparse, ¡a continuación se proporcionan algunos consejos prácticos!

El mejor modelo solo puede ser tan bueno como las variables medidas por el estudio. Los resultados de las variables que incluya en el análisis pueden estar sesgados por las variables significativas que no incluya. Lea acerca de un ejemplo de sesgo variable omitido.
Su muestra puede ser inusual, ya sea por casualidad o por la metodología de recolección de datos. Falsos positivos y falsos negativos son parte del juego cuando se trabaja con muestras.
Los valores P pueden cambiar según los términos específicos del modelo. En particular, la multicolinealidad puede minar la importancia y dificultar la determinación del papel de cada predictor.
Si se evalúan suficientes modelos, se encontrarán variables que parecerán ser significativas, pero que sólo estarán correlacionados por casualidad. Esta forma de extracción de datos puede hacer que los datos aleatorios parezcan significativos. Un R-cuadrado previsto bajo es una buena manera de verificar este problema.
Los valores de P, el R cuadrado ajustado y el Cp de Mallows pueden sugerir diferentes modelos.
La regresión paso a paso y la regresión de los mejores subconjuntos son excelentes herramientas y pueden acercarse al modelo correcto. Sin embargo, los estudios han encontrado que generalmente no escogen el modelo correcto.

Recomendaciones para encontrar el mejor modelo de regresión

Elegir el modelo de regresión correcto es tanto una ciencia como un arte. Los métodos estadísticos pueden ayudar a orientar en la dirección correcta pero, en última instancia, se deben de incorporar otras consideraciones.

Teoría

Investigue lo que otros han hecho e incorpore esos hallazgos en la construcción de su modelo. Antes de comenzar el análisis de regresión, desarrolle una idea de cuáles son las variables importantes junto con sus relaciones, signos de coeficientes y magnitudes de efecto. Al basarse en los resultados de otros, es más fácil recopilar los datos correctos y especificar el mejor modelo de regresión sin la necesidad de la minería de datos.

Las consideraciones teóricas no deben descartarse basándose únicamente en medidas estadísticas. Después de ajustar su modelo, determine si se alinea con la teoría y si es posible haga ajustes. Por ejemplo, según la teoría, podría incluir un predictor en el modelo incluso si su valor p no es significativo. Si alguno de los signos del coeficiente contradice la teoría, investigue y cambie su modelo o explique la inconsistencia.

Complejidad

Podría pensar que los problemas complejos requieren modelos complejos, pero muchos estudios muestran que los modelos más simples generalmente producen predicciones más precisas. Dados varios modelos con capacidad explicativa similar, el más simple es probablemente la mejor opción. Comience de manera simple, y solo haga el modelo más complejo según sea necesario. Cuanto más complejo sea su modelo, más probable será que adapte el modelo específicamente a su conjunto de datos y la generalización sufra.

Verifique que la complejidad agregada en realidad produce intervalos de predicción más estrechos. ¡Compruebe el R cuadrado previsto y no persigas sin pensarlo un alto R cuadrado regular!

Gráficos de Residuos

A medida que evalúa los modelos, verifique los gráficos de residuos porque pueden ayudar a evitar modelos inadecuados y ajustar su modelo para obtener mejores resultados. Por ejemplo, el sesgo en modelos subespecificados puede mostrarse como patrones en los residuos, como la necesidad de modelar la curvatura. El modelo más simple que produce residuos aleatorios es un buen candidato para ser un modelo relativamente preciso e imparcial.

Al final, ninguna medida puede decirle cuál es el mejor modelo. Los métodos estadísticos no comprenden el proceso subyacente o el área temática. ¡Su conocimiento es una parte crucial del proceso!