Una de las aplicaciones más importantes que tiene la Inferencia Estadística es la de establecer relaciones entre dos o más variables. Aquí es donde entra el juego el término correlación. Sin embargo, se debe tener en cuenta que las correlaciones nunca servirán para establecer conexiones causales. Por otro lado, las regresiones son imprescindibles para hacer predicciones de una variable a partir de otra variable. Tanto las correlaciones como las regresiones suelen ser los temas favoritos de los alumnos y la gente en general. No obstante, ambos conceptos se deben introducir de una manera adecuada para evitar futuras confusiones o procedimientos incorrectos.
1.- La necesidad de estudiar relaciones
Las correlaciones son un procedimiento estadístico que se usan para estudiar la fuerza de una relación entre dos variables. Dicho procedimiento implica establecer el grado de relación y la orientación entre una variable y otra.
A pesar de que no seamos estadísticos ni vayamos a realizar ninguna investigación empleando técnicas estadísticas, estamos diariamente en contacto con este término. Por ejemplo, no es extraño oír expresiones como "se nota que el equipo Delta de fútbol ha estado entrenando toda la semana porque mira cuántos goles han metido en el partido". Analicemos la afirmación del periodista: tenemos dos variables cuantitativas (horas de entrenamiento y número de goles) que parecen estar relacionadas (a más horas de entrenamiento, más goles).
- Parece que cuando aumentamos la variable entrenamientos, incrementa la otra variable de número de goles encajados. Las evidencias de otros equipos o incluso en la literatura científica parecen contrastar esta relación.
- Pero estamos en el campo de la Estadística, esto significa que no estamos hablando de una regla estricta y, tal y como hemos descubierto anteriormente, una relación no significa una conexión causal. Dicho con otras palabras, no porque se incrementen las horas de entrenamiento se van a incrementar los goles. En realidad hay infinitud de variables que "se ponen por medio" en las relaciones: horas de sueño de los jugadores, alimentación, el hecho de jugar en casa, el riesgo de sufrir lesiones en los entrenamientos y un largo etcétera.
- Dicho lo cual, huye de todas aquellas personas o informes que traten de hacerte ver que algo tiene una causa exclusivamente de otra cosa. Esto solo pasa en muy pocas circunstancias y la mayoría están relacionadas con conceptos matemáticos "puros" que difícilmente pasan en el día a día (por ejemplo el incremento del área y el perímetro de un paralelogramo).
Por supuesto, cuando estamos hablando de análisis estadísticos, no solo basta con decir una oración como la que hemos visto del periodista, sino que también se deberán aportar "evidencias matemáticas" que demuestren la relación. Es aquí donde entran en juego los coeficientes de correlaciones (r).
Por otro lado, cuando ya hemos establecido un tipo de relación entre dos variables, se suelen aplicar técnicas para poder predecir, pronosticar o estimar una medida de una variable basándose en la medida asociada de la otra variable. Esto es de vital importancia cuando no podamos tener al alcance el valor de una de las variables relacionadas. A este procedimiento se le conoce como regresión. Seguramente te sonará algo como establecer una línea dentro de los diagramas de correlaciones. Para tu (in)tranquilidad, no vamos a profundizar mucho en este tema. Tan solo quédate con que los dos conceptos (correlación y regresión) son "primos-hermanos" pero no son la misma cosa o procedimiento.
2.- Diagrama de dispersión: elaboración y análisis
Si aplicásemos el famoso dicho de "una imagen vale más que mil palabras" a Estadística tendríamos algo parecido a que "un diagrama vale más que mil palabras". En efecto, existe un método visual para poder observar la relación de dos variables: los diagramas de dispersión o nube de puntos.
Antes de realizar un estudio de correlación debemos tener dos variables que hayamos extraído de cada sujeto de nuestra muestra. En otras palabras, a cada sujeto se le miden dos cosas distintas.
Los diagramas de dispersión se elaboran a partir de un eje X y otro eje Y en donde se colocan respectivamente las dos variables objeto de estudio. Como cada una de las variables tiene asociada dos medidas distintas sobre el mismo sujeto u objeto (por ejemplo, talla y peso), cada punto que pongamos en el espacio representará un sujeto que tiene asociadas dos valores, uno en el eje Y y otro en el eje X.
Una vez que hayamos elaborado nuestro diagrama de dispersión (hay herramientas informáticas y programas específicos que lo hacen automáticamente) podremos darnos cuenta de las siguientes características necesarias para establecer (o no) relaciones:
- Existencia o inexistencia de relación entre las dos variables ubicadas cada una en un eje del diagrama.
- La inexistencia de relación vendrá determinada por que los puntos se establecen en una línea horizontal.
- Orientación de la correlación. Pueden darse varios casos, pero para correlaciones lineales simples las más comunes son:
- Cuando aumenta una variable aumenta también la otra - POSITIVA
- Cuando aumenta una variable disminuye la otra - NEGATIVA
- Fuerza de la relación. Esto se debe analizar a través de fórmulas estadísticas, pero la nube de puntos puede ayudarnos a hacernos una idea.
- Si los puntos están muy dispersos, lo más seguro es que la relación no tenga mucha menos fuerza.
- Por el contrario, si los puntos forman una perfecta línea recta a través del diagramas, la fuerza de la correlación será mucho mayor.
3.- Análisis numérico de las relaciones
Como es lógico, no podemos exclusivamente basar nuestra interpretación al análisis visual ya que este puede ser muy subjetivo, en especial cuando las relaciones no están tan claras. Debemos en todo momento recurrir a valores tales como el coeficiente de correlación (r) o el coeficiente de determinación (r elevado al cuadrado) para poder interpretar correctamente la existencia (o no) de correlaciones. Ya que esto es una pequeña introducción al mundo de las correlaciones y las regresiones, no incluiremos ninguna fórmula estadística. Simplemente, diremos algunos aspectos importantes a tener en cuenta:
- El coeficiente de correlación (r) no tiene ninguna dimensión asociada (es adimensional). No hablamos de una r de 0,15 metros o una r de 0,88 mSv; sino que es una r de 0,15 o de 0,88.
- Dicho coeficiente r dará un resultado que va desde -1 hasta +1.
- Un r = 0 implicará que no hay correlación. Las variables no están relacionadas.
- Un r = -1 implica una relación negativa perfecta. Cuando aumentan los valores de una variable disminuirán los valores de la otra.
- Un r = 1 implica una relación positiva perfecta. Cuando aumentan los valores de una variable aumentarán los valores de la otra.
4.- Un pequeño apunte sobre las regresiones
Las regresiones se emplean para, una vez establecida la relación entre dos variables cuantitativas, predecir valores de una variable (criterio) en función de la otra variable conocida (predictora).
Piensa que una regresión no es ni más ni menso que un método para buscar una recta o línea en el diagrama de puntos que consiga "abarcar" o explicar de la mejor manera posible el comportamiento de la relación entre las dos variables.
5.- Guía para llevar a casa
Por supuesto que lo que acabamos de ver es una mera aproximación o resumen muy esquemático del mundo de las correlaciones y regresiones. Si quieres conocer más cosas de este mundo y tener una base sólida para poder llevar a cabo este tipo de análisis, escanea el código QR o haz clic en el siguiente enlace para descargarte la guía introductoria de las correlación y regresiones para tenerla disponible siempre que la necesites.
En esta guía profundizaremos sobre todos los temas que hemos presentado muy por encima anteriormente, además, veremos un ejemplo de una correlación perfecta y las limitaciones que suelen tener las correlaciones del día a día. Además, aprenderemos a hacer inferencia estadística con el error estándar del coeficiente de correlación y nos introduciremos a los conceptos más importantes del análisis de relaciones y regresiones.
Sigma y Jacob Sierra Díaz