AD ASTRA

miércoles, 30 de junio de 2021

Nuevo diseño del escudo de Enigmáticamente

¡Hoy es el gran día de presentar el nuevo diseño de nuestro escudo! Esta ver ha habido mejoras sustanciales.




Los principales cambios han incluido:

  • La disposición del nombre de Enigmáticamente en la parte de arriba, ya que es la zona principal donde va la mirada. Además hemos puesto las siglas que conforman la url de este sitio web en la parte de abajo.
    • Ahora las letras serán todas blancas, esto le dará más seriedad y rigurosidad. Por otro lado, ayudará a ver el nombre incluso cuando se haga pequeño el logo.
  • Selección de las fuentes oficiales del sitio web: Georgia y Arial.
  • Tono de azul más oscuro acorde con el fondo oficial del blog.
  • Perspectiva de las piezas del puzle. Hemos dejado más parte en blanco como símbolo de la creatividad y del espacio que debemos rellenar con lo que ya conocemos y las fronteras del conocimiento que debemos alcanzar.

Lo más seguro es que con el paso del tiempo se hagan otras variantes de este diseño, como por ejemplo una variante con letras a negrita o con un tono de azul más claro, para que encaje mejor en los materiales y distintos formatos. Sin embargo, espero que os guste este nuevo diseño.


Jacob Sierra Díaz

Introducción a las correlaciones y regresiones

Una de las aplicaciones más importantes que tiene la Inferencia Estadística es la de establecer relaciones entre dos o más variables. Aquí es donde entra el juego el término correlación. Sin embargo, se debe tener en cuenta que las correlaciones nunca servirán para establecer conexiones causales. Por otro lado, las regresiones son imprescindibles para hacer predicciones de una variable a partir de otra variable. Tanto las correlaciones como las regresiones suelen ser los temas favoritos de los alumnos y la gente en general. No obstante, ambos conceptos se deben introducir de una manera adecuada para evitar futuras confusiones o procedimientos incorrectos.


1.- La necesidad de estudiar relaciones

Las correlaciones son un procedimiento estadístico que se usan para estudiar la fuerza de una relación entre dos variables. Dicho procedimiento implica establecer el grado de relación y la orientación entre una variable y otra. 

A pesar de que no seamos estadísticos ni vayamos a realizar ninguna investigación empleando técnicas estadísticas, estamos diariamente en contacto con este término. Por ejemplo, no es extraño oír expresiones como "se nota que el equipo Delta de fútbol ha estado entrenando toda la semana porque mira cuántos goles han metido en el partido". Analicemos la afirmación del periodista: tenemos dos variables cuantitativas (horas de entrenamiento y número de goles) que parecen estar relacionadas (a más horas de entrenamiento, más goles). 

  • Parece que cuando aumentamos la variable entrenamientos, incrementa la otra variable de número de goles encajados. Las evidencias de otros equipos o incluso en la literatura científica parecen contrastar esta relación.
  • Pero estamos en el campo de la Estadística, esto significa que no estamos hablando de una regla estricta y, tal y como hemos descubierto anteriormente, una relación no significa una conexión causal. Dicho con otras palabras, no porque se incrementen las horas de entrenamiento se van a incrementar los goles. En realidad hay infinitud de variables que "se ponen por medio" en las relaciones: horas de sueño de los jugadores, alimentación, el hecho de jugar en casa, el riesgo de sufrir lesiones en los entrenamientos y un largo etcétera. 
  • Dicho lo cual, huye de todas aquellas personas o informes que traten de hacerte ver que algo tiene una causa exclusivamente de otra cosa. Esto solo pasa en muy pocas circunstancias y la mayoría están relacionadas con conceptos matemáticos  "puros" que difícilmente pasan en el día a día (por ejemplo el incremento del área y el perímetro de un paralelogramo).
Por supuesto, cuando estamos hablando de análisis estadísticos, no solo basta con decir una oración como la que hemos visto del periodista, sino que también se deberán aportar "evidencias matemáticas" que demuestren la relación. Es aquí donde entran en juego los coeficientes de correlaciones (r).


Por otro lado, cuando ya hemos establecido un tipo de relación entre dos variables, se suelen aplicar técnicas para poder predecir, pronosticar o estimar una medida de una variable basándose en la medida asociada de la otra variable. Esto es de vital importancia cuando no podamos tener al alcance el valor de una de las variables relacionadas. A este procedimiento se le conoce como regresión. Seguramente te sonará algo como establecer una línea dentro de los diagramas de correlaciones. Para tu (in)tranquilidad, no vamos a profundizar mucho en este tema. Tan solo quédate con que los dos conceptos (correlación y regresión) son "primos-hermanos" pero no son la misma cosa o procedimiento.



2.- Diagrama de dispersión: elaboración y análisis

Si aplicásemos el famoso dicho de "una imagen vale más que mil palabras" a Estadística tendríamos algo parecido a que "un diagrama vale más que mil palabras". En efecto, existe un método visual para poder observar la relación de dos variables: los diagramas de dispersión o nube de puntos.

Antes de realizar un estudio de correlación debemos tener dos variables que hayamos extraído de cada sujeto de nuestra muestra. En otras palabras, a cada sujeto se le miden dos cosas distintas.

Los diagramas de dispersión se elaboran a partir de un eje X y otro eje Y en donde se colocan respectivamente las dos variables objeto de estudio. Como cada una de las variables tiene asociada dos medidas distintas sobre el mismo sujeto u objeto (por ejemplo, talla y peso), cada punto que pongamos en el espacio representará un sujeto que tiene asociadas dos valores, uno en el eje Y y otro en el eje X.

Una vez que hayamos elaborado nuestro diagrama de dispersión (hay herramientas informáticas y programas específicos que lo hacen automáticamente) podremos darnos cuenta de las siguientes características necesarias para establecer (o no) relaciones:
  • Existencia o inexistencia de relación entre las dos variables ubicadas cada una en un eje del diagrama.
    • La inexistencia de relación vendrá determinada por que los puntos se establecen en una línea horizontal.

  • Orientación de la correlación. Pueden darse varios casos, pero para correlaciones lineales simples las más comunes son:
    • Cuando aumenta una variable aumenta también la otra - POSITIVA
    • Cuando aumenta una variable disminuye la otra - NEGATIVA



  • Fuerza de la relación. Esto se debe analizar a través de fórmulas estadísticas, pero la nube de puntos puede ayudarnos a hacernos una idea.
    • Si los puntos están muy dispersos, lo más seguro es que la relación no tenga mucha menos fuerza
    • Por el contrario, si los puntos forman una perfecta línea recta a través del diagramas, la fuerza de la correlación será mucho mayor.



3.- Análisis numérico de las relaciones

Como es lógico, no podemos exclusivamente basar nuestra interpretación al análisis visual ya que este puede ser muy subjetivo, en especial cuando las relaciones no están tan claras. Debemos en todo momento recurrir a valores tales como el coeficiente de correlación (r) o el coeficiente de determinación (r elevado al cuadrado) para poder interpretar correctamente la existencia (o no) de correlaciones. Ya que esto es una pequeña introducción al mundo de las correlaciones y las regresiones, no incluiremos ninguna fórmula estadística. Simplemente, diremos algunos aspectos importantes a tener en cuenta:

  • El coeficiente de correlación (r) no tiene ninguna dimensión asociada (es adimensional). No hablamos de una r de 0,15 metros o una r de 0,88 mSv; sino que es una r de 0,15 o de 0,88.
  • Dicho coeficiente r dará un resultado que va desde -1 hasta +1.
    • Un r = 0 implicará que no hay correlación. Las variables no están relacionadas.
    • Un r = -1 implica una relación negativa perfecta. Cuando aumentan los valores de una variable disminuirán los valores de la otra.
    • Un r = 1 implica una relación positiva perfecta. Cuando aumentan los valores de una variable aumentarán los valores de la otra.



4.- Un pequeño apunte sobre las regresiones

Las regresiones se emplean para, una vez establecida la relación entre dos variables cuantitativas, predecir valores de una variable (criterio) en función de la otra variable conocida (predictora).

Piensa que una regresión no es ni más ni menso que un método para buscar una recta o línea en el diagrama de puntos que consiga "abarcar" o explicar de la mejor manera posible el comportamiento de la relación entre las dos variables.



5.- Guía para llevar a casa

Por supuesto que lo que acabamos de ver es una mera aproximación o resumen muy esquemático del mundo de las correlaciones y regresiones. Si quieres conocer más cosas de este mundo y tener una base sólida para poder llevar a cabo este tipo de análisis, escanea el código QR o haz clic en el siguiente enlace para descargarte la guía introductoria de las correlación y regresiones para tenerla disponible siempre que la necesites.



En esta guía profundizaremos sobre todos los temas que hemos presentado muy por encima anteriormente, además, veremos un ejemplo de una correlación perfecta y las limitaciones que suelen tener las correlaciones del día a día. Además, aprenderemos a hacer inferencia estadística con el error estándar del coeficiente de correlación y nos introduciremos a los conceptos más importantes del análisis de relaciones y regresiones.



Sigma y Jacob Sierra Díaz

domingo, 27 de junio de 2021

Sueños...

 

Oración extraída del libro An Astronomer's Tale. A bricklayer's guide to the galaxy de Gary Fildes (página 4).


Jacob Sierra Díaz

miércoles, 16 de junio de 2021

Fórmula del error estándar de la media

Concepto

En Estadística resulta casi imposible extraer o cuantificar una variable a toda la población. Para poder tener una imagen lo más real posible de cualquier atributo (variable) de la población solemos seleccionar una muestra representativa. 

Por otro lado, se suele usar la media artimética [haz clic aquí para ver su fórmula] para describir una variable cuantitativa y poder realizar inferencias estadísticas que podamos generalizar en toda la población. Como es lógico, de una población determinada podremos extraer una infinidad de muestras y por lo tanto, cada vez que obtengamos una media artimética de una variable de una muestra concreta, el resultado será distinto al que hubíesemos obtenido con otra muestra (con el mismo tamaño muestral). 

Por ejemplo, de una muestra de 500 bombillas comprobamos su durabilidad en horas. La media de esta muestra será ligeramente (o significativamente) distinta a la media muestral de otra tanda o muestra de 500 bombillas. Cada vez que seleccionásemos una muestra distinta de bombillas respentando el mismo tamaño muestra (n = 500), nos saldrá una media aritmética distinta. Ahora podríamos plantearnos las pregunta: ¿Cuánto se desvian las medias de cada tanda (muestra) de 500 bombillas con respecto a la media poblacional (real) de toda la población de bombillas que estamos observando?

Es aquí donde entra en juego el error estándar de la media. Este valor cuantifica cuánto se apartan las medias muestrales con respecto a la media poblacional real de donde se han extraído las distintas muestras. En otras palabras, cuantifica la variabilidad de las medias muestrales. En definitiva, el error estándar es la desviación estándar de todas las posibles muestras de un tamaño dado extraídas de una población.  



Fórmula matemática

La fórmula de la estimación del error estándar de la media es muy sencilla. Basta con conocer la desviación típica y el tamaño de nuestra muestra:


Donde:

  • DT es la desviación típica de nuestra muestra concreta
  • n es el tamaño muestral



Ejemplo

Haz clic  en el siguiente enlace para ver un ejemplo real de cómo se aplica y se obtiene el error estándar de la media:

Ejemplo de aplicación [Clic aquí para acceder y aprender]


Sigma y Jacob Sierra Díaz

miércoles, 2 de junio de 2021

Cálculo de la edad con el nacimiento en SPSS (Forma I)

En los cuestionarios o entrevistas es muy habitual preguntar por la fecha de nacimiento de los participantes. Con esta pregunta ya no es necesario pedir la edad, puesto que la podemos calcular nosotros mismos. El programa SPSS incluye una función muy sencilla para conocer de manera precisa la edad de cada uno de los participantes que están en la base de datos conociendo su fecha de nacimiento. Por supuesto, es preciso que sepamos la fecha de nacimiento de nuestros participantes y que hayamos introducido esta variable como fecha.  Hoy vamos a ver una forma de cómo calcular esta edad a través de CTIME.DAYS.


1.- Introducir en SPSS la variable fecha de nacimiento

En primer lugar, debemos ir a Vista de variables. En la fila que corresponda escribiremos el nombre de la variable en Nombre, por ejemplo Nacimiento. A continuación, en Tipo hacemos clic sobre los tres puntos de la derecha de la casilla y haremos clic en Fecha. Por defecto nos viene el formato día - mes - año; este se puede cambiar en el cuadro de la derecha de la ventana. En la columna Medida podemos indicar que el tipo de variable es Nominal.



De vuelta a la Vista de datos, introduciremos la fecha de nacimiento de cada participantes bajo el formato por defecto (DD - MM - AAAA) usando guiones. El mes lo introduciremos de manera numérica y automáticamente el SPSS lo cambia a palabra (usando las abreviaturas propias de la lengua inglesa).



2.- Cálculo de la edad

Para obtener una nueva variable con la edad seguiremos la siguiente ruta:

Transformar > Calcular variable




1.- En la siguiente ventana introduciremos en primer lugar en nombre de la nueva variable en Variable objetivo. En este caso lo llamaremos Edad.

2.- En Grupo de funciones buscaremos Extracción de duración del tiempo y en Funciones y variables especiales seleccionamos Ctime.Days. Doble clic para que se refleje en la zona de Expresión numérica.




3.- Confeccionamos la fórmula en Expresión numérica. En primer lugar, en el Grupo de funciones buscamos creación de fechas y en Funciones y variables especiales seleccionamos Date.Dmy (doble clic). Esta nueva función debe estar dentro de los paréntesis de Ctime.days. En segundo lugar, sustituimos (?,?,?) por la fecha de hoy o de la que queramos obtener la edad en el formato DD,MM,AAAA. En tercer lugar, (fuera del paréntesis de la función Date.Dmy) ponemos el signo menos. A continuación, introducimos nuestra variable de fecha de nacimiento. Por último, fuera de todos los paréntesis ponemos el signo de división (/) seguido de número 365.25 (días del año teniendo en cuenta los años bisiestos). Recuerda que aquí los decimales se ponen con un punto. Pulsamos Aceptar.





4.- Si volvemos a Vista de variables observaremos que se nos ha generado una nueva variable con la edad de cada sujeto. 



En resumen, la función que usaremos para el cálculo de la edad teniendo la variable fecha de nacimiento será:

CTIME.DAYS(DATE.DMY(DD,MM,AAAA)-fecha_nacimiento)/365.25


Sigma y Jacob Sierra Díaz