¿Qué hace un buen vino? Uso de regresión estadística para modelar el sabor del vino

Por Bruno Scibilia

La forma en que se describe el sabor del vino a menudo se lee como un poema: “con cuerpo y rico pero no pesado, con alto contenido de alcohol, pero ni ácido ni tánico, con un sabor sustancial a cereza negra a pesar de su delicadeza ...” Las flores y las frutas son comúnmente utilizadas como descriptores, destinadas a ayudar a los bebedores a comprender los sabores en una copa de vino. Esta poesía refleja que algunos consideran que la conversión de la fruta en vino es una forma de arte.

Sin embargo, todo el sabor se reduce a compuestos químicos que afectan el sabor de su vino. Detrás de las descripciones amorosas del vino como arte viviente, hay ciencia. Y la regresión estadística puede ayudar.

¿Qué da sabor a un vino?

Por supuesto, el vino comparte muchos de los compuestos químicos naturales que se encuentran en las frutas y las especias, por lo que es comprensible usarlos como descriptores. Los compuestos químicos específicos informarán constantemente a nuestra experiencia de degustación de lo que es dulce, agrio o amargo, por ejemplo.

Luego están los elementos esenciales de un buen vino, para los cuales no hay sustitutos: buenas uvas de buena calidad, prácticas diligentes de elaboración del vino y crianza en barrica. Cada una de las fases de vinificación tendrá un impacto diferente en el sabor.

Los cambios de sabor se producen debido a la presencia de diferentes productos químicos en el vino debido a las ocurrencias en estas etapas del proceso. Todos los sabores del vino provienen de las uvas y del proceso de vinificación, por supuesto, pero la manipulación de estas fases puede dar como resultado un vino que tenga un mejor sabor.

La degustación de vinos puede sonar etérea, pero el sabor se trata de compuestos químicos que afectan al sabor de su vino. Detrás de las descripciones amorosas del vino como arte viviente, hay ciencia. Los ácidos principalmente agregan notas agrias. Los compuestos de alcohol también afectan al sabor. El etanol agrega sabores amargos, dulces y agrios, etc. Si uno quiere poder usar el conocimiento del impacto de ciertos compuestos en el sabor, debe comprender qué fase producirá ese compuesto de forma natural.

Distinguir un buen vino de un mal vino

Es inevitable que los gustos de los vinos varíen de persona a persona y que haya muchos perfiles diferentes de catadores de vinos (De Gustibus non est disputandum: "En cuestiones de gusto, no puede haber disputas"), sin embargo, sabemos que algunos vinos son obviamente mejores que otros, y la mayoría de las personas probablemente reconocerían un buen vino de uno malo.

Cuando se necesita entender situaciones como ésta en las que la variabilidad y el ruido juegan un papel importante, los modelos estadísticos son muy eficientes para identificar las entradas clave de datos en apariencia completamente caóticos.

Este artículo detalla cómo los datos de cata de vinos y las potentes técnicas de modelado permiten conocer las variables que son importantes para un tribunal de catadores de vinos con experiencia.

El análisis ilustra que incluso las preferencias de sabor pueden evaluarse con estadísticas si se elige el análisis correcto.

Estamos interesados en utilizar estadísticas para comprender si un vino que tiene, por ejemplo, más sulfatos o más cloruros tendría mejor sabor. Con ese entendimiento, podría ser posible hacer un mejor vino. Consideraremos muchos predictores potenciales, como la acidez, el dióxido de azufre y el porcentaje de alcohol.

La prueba de sabor

Un jurado de enólogos probó varios tipos de vinos blancos y tintos y proporcionó evaluaciones binarias de calidad (buena (1) o mala (0)) para cada uno. Nuestro objetivo es identificar cuáles de estas muchas variables tienen un efecto significativo en la calidad del vino.

Uso de la regresión para analizar datos del gusto binario

Los gráficos simples no son suficientes para identificar qué variables podrían ser importantes debido a la complejidad y la variabilidad en este conjunto de datos. El análisis de regresión nos permite ver cómo múltiples factores afectan a un resultado, por lo que es un método ideal para observar las variables de cata de vinos.

Sin embargo, nuestro jurado simplemente clasificó cada vino como de alta o baja calidad. Esto significa que tenemos datos de respuesta binarios y no continuos, por lo que debemos proceder con cautela: el uso de una regresión estándar o ANOVA para analizar una respuesta binaria generalmente no es una buena idea.

Debido a que los datos binarios siguen una distribución binomial en lugar de una distribución normal en forma de campana, la regresión estándar puede dar como resultado predicciones de probabilidad negativas o mayores al 100%. Podríamos obtener un modelo innecesariamente complejo, en el que algunas interacciones espúreas parecen ser significativas. Además, la varianza para los datos binarios no es constante.

Afortunadamente, hay una solución simple, ya que tenemos datos de respuesta binarios, simplemente necesitamos usar la herramienta adecuada para esto: regresión logística binaria.

Análisis de regresión de modelo completo

Una práctica estándar en el análisis de regresión es comenzar con el "modelo completo", uno que incluya todos los factores potencialmente significativos para los cuales se recopilaron los datos. En este caso, comenzamos el análisis incluyendo todas las variables y todas las interacciones entre esas variables y los tipos de vino.

Para incluir interacciones, en Minitab vaya a Estadísticas> Regresión> Regresión logística binaria> Ajustar modelo logístico binario> Modelo> Agregar interacciones.

Al introducir interacciones, también es útil estandarizar los predictores continuos en su modelo para evitar efectos de escala perturbadores (Estadísticas > Regresión > Regresión > Ajustar modelo de regresión > Codificación)

Utilizamos el método paso a paso para construir automáticamente el mejor modelo paso a paso e identificar un subconjunto útil de los términos de un gran número de términos candidatos. Para eso vaya a: Estadística> Regresión> Regresión logística binaria> Ajustar modelo logístico binario> Paso a paso

El criterio que se usó para identificar el mejor modelo basado en este enfoque por pasos fue el Criterio de Información de Akaike (AIC). AIC estima la cantidad relativa de información perdida por un modelo dado, esta estadística se usa para comparar diferentes modelos. Cuanto más pequeño es el AIC, mejor se ajusta el modelo a los datos. AIC incluye una penalización que aumenta con el número de parámetros estimados para desalentar el exceso de ajuste. El objetivo es evitar el sobreajuste pero también el desajuste.

En última instancia, este proceso iterativo nos lleva al siguiente modelo.

Los factores que contribuyen al buen vino.

Con 12 términos, este modelo puede parecer difícil de entender y explicar, pero nos da una pista de cómo podemos profundizar en estos datos para comprender mejor qué factores contribuyen más al buen sabor del vino.

Los coeficientes codificados (estandarizados) son útiles para comprender qué variables son las más importantes:

La densidad tiene el efecto más grande (-3.504), luego el azúcar residual junto con los tipos de vinos (2.75 para la interacción con los tipos de azúcar residual) tiene el segundo efecto más grande, luego viene la acidez fija (1.33) y la interacción acidez fija * la densidad (1.213)

El diagrama de interacción anterior muestra que el efecto del azúcar residual en la calidad del vino es prácticamente inexistente en los vinos tintos, sin embargo, desempeña un papel importante en los vinos blancos.

Ahora que tenemos modelos para los vinos, podemos ver qué nos dicen los datos sobre las características del vino que influyeron en las clasificaciones de nuestro jurado. Por ejemplo, esta gráfica de efectos principales resume la relación entre acidez fija, densidad y la probabilidad de hacer un buen vino. Una mayor acidez fija y una menor densidad tienden a mejorar la calidad del vino.

Conclusión

Entonces, cuando se necesita comprender las situaciones que, al menos en la superficie, desafían el análisis de datos o cuando el número de variables candidatas es grande, ¿por qué no profundizar un poco más usando técnicas como la regresión logística binaria?

Puede utilizarse un enfoque similar a lo que hicimos con estos datos de cata de vinos para analizar los datos de marketing o ventas, para comprender mejor las preferencias de los clientes y obtener información sobre los factores que son importantes, incluso si, como las preferencias de sabor, parecen difíciles de entender o medir.

Como conclusión, hemos podido identificar el mejor modelo gracias a una nueva característica de Minitab 19: el enfoque paso a paso basado en los Criterios de información de Akaike (AIC).