Mostrando entradas con la etiqueta 4.1. Estadística descriptiva. Mostrar todas las entradas

sábado, 20 de febrero de 2021

¿Cómo "funciona" la Desviación Típica realmente?

La Desviación Típica es una medida de dispersión muy empleada cuando se da la media aritmética de una variable. Esta medida es "prima-hermana" de la varianza, ya que se calcula a través de esta. Hoy vamos a ver un ejemplo práctico para entender cómo funciona la Desviación Típica.

Hemos cogido cinco personas y hemos medido su estatura en centímetros. Estos son sus valores:

120 118 111 122 183

Para calcular la desviación típica de estos datos tendremos que calcular previamente la media aritmética y la varianza. Para ello, vamos a seguir los pasos que propone Rowntree (2018).

1.- En primer lugar, vamos a calcular la media aritmética, la cual es la suma de todos los valores partido por el número total de individuos que componen la observación (la muestra, n).

(120 + 118 + 111 + 122 + 183) / 5 = 130,8

2.- Ahora, vamos a ver cómo los valores anteriores difieren de nuestra media 130,8. Para ello, vamos a ordenar las observaciones de menor a mayor. A continuación, simplemente restaremos a cada observación el valor de la media aritmética.

3.- Si cogiésemos la media de las desviaciones tal cual, las medidas positivas se contrarrestarían con las medidas negativas. Por ese motivo, elevamos al cuadrado cada desviación y así nos desharemos de los signos negativos.

4.- Ahora tenemos que recurrir al cálculo de la varianza. La varianza es la media de las desviaciones elevadas al cuadrado respecto a la media aritmética del conjunto.

Varianza = (392,04+163,84+116,64+77,44+2724,84) / 5 = 694,96

5.- La varianza tiene un problema y es que los valores están en unidades (por ejemplo, centímetros) y, por lo tanto, la varianza elevará al cuadrado esas unidades (por ejemplo, centímetros al cuadrado). Entonces, necesitamos una medida que devuelva las mismas unidades originales. ¡Aquí entra en juego la Desviación Típica!, la cual es la raíz cuadrada de la varianza.

Ahora bien, si pasamos estos datos a un paquete estadístico, por ejemplo R, nos daremos cuenta que la varianza y desviación típica no coinciden con nuestros resultados. Esto es devido a que muchos paquetes estadísticos realmente calculan lo que se denomina la cuasivarianza y la cuasidesviación típica (García-Pérez, 2015). La principal diferencia entre la varianza y la cuasivarianza es que en el denominador habría que poner n-1. Es decir, en nuestro caso dividiríamos entre 4. Si lo hiciésemos así, obtendríamos 838,7 y nuestros datos coincidirían con los resultados del programa.

- Cálculo de los datos usando el programa estadístico R.

Este es el "funcionamiento básico" de la Desviación Típica. Por supuesto, para ilustrar el ejemplo hemos usado un ejemplo sencillo, y tal vez algo irreal. Pero, independientemente de la cantidad de datos que tengamos, el proceso es igual.

Fuentes bibliográficas

García-Pérez, A. (2015). La interpretación de los datos: una introducción a la Estadística Aplicada. Editorial UNED.

Rowntree, D. (2018). Statistics without Tears: an introduction for non-matematicians. Penguin Books.

Sigma y Jacob Sierra Díaz

viernes, 25 de diciembre de 2020

Agrupaciones por intervalos

Con el fin de facilitar el análisis y la interpretación de los datos, los datos de una variable se pueden agrupar por intervalos. No obstante, esta práctica está en desuso debido a que la estadística ya se hace con ordenadores.

1.- Conceptos básicos

Un intervalo son dos valores de una variable cuantitativa separados por un guión y abarcados con corchetes y/o paréntesis. Por ejemplo, [5 - 10], (1 - 3), [45 - 47), (56 - 78] ...

Los corchetes incluyen al valor en el intervalo. Por ejemplo, en el caso del intervalo [5 - 10) el 5 está incluido en este intervalo.

Los paréntesis excluyen al valor en el intervalo. Por ejemplo, en el intervalo [5 - 10) el 10 no está incluido en el intervalo.

Los dos valores del intervalo se llaman extremos de clase. En cada intervalo hay un límite inferior y un límite superior. En el ejemplo [5 - 10) el límite inferior es 5 y el superior es 10.

La marca de clase es el punto medio del intervalo y se calcula en cada intervalo con la siguiente fórmula: (Límite inferior + Límite superior) / 2. En el ejemplo [5 - 10) la marca de clase es 7,5 porque (5 + 10) / 2 = 7,5

Llamamos amplitud o tamaño del intervalo a la resta del límite superior menos el límite inferior. En el ejemplo [5 - 10) la amplitud es 5 porque 10 - 5 = 5.

2.- Diseño de intervalos

Normalmente los intervalos no se construyen bajo el criterio del investigador, sino bajo un criterio matemático. En este epígrafe veremos las dos fórmulas principales que podremos usar para saber el número de intervalos que tendremos y su amplitud recomendable.

1) Para saber el número ideal de intervalos k que podremos hacer se recomienda usar la fórmula de Sturges (1926).

No obstante, existe otro criterio para establecer el número ideal de intervalos: criterio de Kaiser. Se trata de la raiz cuadrada del número total de observaciones.

2) Para saber la amplitud que tendrán nuestros k intervalos se recomienda aplicar la siguiente fórmula:

3.- Guía para llevar a casa

Haz clic en el siguiente enlace para acceder desde la nube de Box la guía sobre los agrupamientos por intervalos. Puedes leerla en línea o descargarla en tu dispositivo en formato PDF.

Guía de Agrupamientos por Intervalos (Clic aquí para acceder)

En ella podrás aprender a expresar un intervalo cualquiera matemáticamente, conocer el concepto de amplitud variable y constante, o ver un ejemplo práctico de las dos sencillas fórmulas para construir intervalos.

Fuente bibliográfica

Sturges, H. (1926). The choice of a class-interval. Journal of American Statistical Association, 21, 65-66.

Sigma y Jacob Sierra Díaz

domingo, 20 de diciembre de 2020

Tablas de distribución de Frecuencias

Una de las técnicas más básicas para resumir datos consiste en agrupar las distintas observaciones en cada una de las categorías correspondientes y reflejarlas en una tabla. A esas tablas se les conoce como tablas de distribución de frecuencias.

1.- Tipos de tablas de distribución

Podemos distinguir tres tipos de tablas en función del tipo de variable con la que estemos trabajando (variable cualitativa o cuantitativa). La diferencia de cada una de ellas radica en la primera columna que corresponderá con las categorías o modalidades de la variable.

Si las categorías de esta primera columna contienen palabras, estamos ante una tabla de distribución de una variable cualitativa. Si, por el contrario, contiene valores numéricos, estamos ante una tabla de distribución de una variable cuantitativa. A su vez, las variables cuantitativas se pueden agrupar en intervalos; por lo que diremos que estamos ante una tabla agrupada.

2.- Elementos de una tabla de distribución

Una tabla de distribución de frecuencia tiene básicamente cinco columnas. No obstante, también puedes encontrarte tablas que incluyan más información.

En la primera columna, se reflejan las categorías, valores o modalidades de la variable.

En la segunda columna, se incluyen las frecuencias que tiene cada una de las categorías de la variable observadas en la muestra. A este valor se le llama oficialmente frecuencia absoluta ni (xi o ii en función de la naturaleza de la variable).

La suma de todas las frecuencias absolutas nos da la frecuencia total n o el número total de participantes de la muestra.

En la tercera columna, se muestra la frecuencia relativa fi o fr. Esta es la división entre la frecuencia absoluta (de cada categoría) entre el número total de la muestra.

La suma de esta columna deberá de dar 1.
Podemos calcular el porcentaje de individuos pi de cualquier categoría o valor multiplicando la frecuencia relativa fi por 100.

En la cuarta columna, se refleja la frecuencia absoluta acumulada Ni. Esta es la suma de las frecuencias absolutas anteriores hasta una categoría dada.
El último valor debe coincidir con el número total de la muestra.

Finalmente, la quinta columna, incorpora la frecuencia relativa acumulada Fi. Esta es la división de la frecuencia acumulada entre el número total de individuos de la variable.

El último valor debe dar 1.

3.- Guía para llevar a casa

Para conocer en profundidad cómo se elabora una tabla de distribución de frecuencias, puedes hacer clic en el siguiente enlace. Puedes leer o descargarla la guía en tu dispositivo.

Guía de Tabla de Distribución de Frecuencias (Clic aquí para acceder)

En esta guía aprenderemos conceptos generales, descubriremos las fórmulas detrás de las tablas y analizaremos paso a paso cómo diseñar una tabla de distribución a través de un caso práctico. ¿Aún así tienes dudas? ¡No hay problema! No olvides que también puedes escribir un comentario aquí si tienes alguna duda sobre este apasionante tema.

4.- Ejemplo práctico

Mediante una encuesta por teléfono se ha obtenido información del nivel de estudios a 120 personas. Esta variable tiene cuatro categorías: sin estudios, Primaria, Secundaria y Universitario.

Para presentar los datos, se ha elaborado una tabla de distribución de frecuencias:

Sigma y Jacob Sierra Díaz