Guía definitiva para entender la estadística descriptiva

A diferencia de las matemáticas puras, la estadística se ocupa de recoger, organizar e interpretar los datos. Hay dos tipos de estadísticas que puedes utilizar para analizar y comprender los datos: la estadística descriptiva y la estadística inferencial.

En este artículo, tratamos todo lo que necesitas saber sobre la estadística descriptiva, incluyendo los diferentes tipos y la diferencia entre la estadística descriptiva y la inferencial.

¿Qué es la estadística descriptiva?

Los datos pueden resumirse y describirse de forma informativa y significativa mediante la estadística descriptiva. El objetivo de la estadística descriptiva es facilitar la lectura de los datos y encontrar patrones. Al resumir los datos, se suelen emplear múltiples estadísticas descriptivas para presentar una imagen completa de los datos. Son importantes porque presentan grandes conjuntos de datos de forma accesible.

Relacionado: Trabajos para estudiantes de estadística

Tipos comunes de estadísticas descriptivas

Existen tres tipos principales de estadísticas descriptivas:

  • Medidas de frecuencia
  • Medidas de tendencia central
  • Medidas de dispersión o variación

Medidas de frecuencia

Las medidas de frecuencia son medidas estadísticas que se utilizan para resumir los valores de un conjunto de datos y facilitar su comprensión. Las medidas de frecuencia se pueden representar en una tabla, un gráfico o un diagrama. El objetivo principal de las medidas de frecuencia es simplificar la visualización de la información de un conjunto de datos. Las medidas de frecuencia toman un conjunto desorganizado de datos y agrupan todos los valores de datos similares de una manera que permite analizar los datos de un vistazo.

Por ejemplo, si quiere mostrar el número de estudiantes que obtuvieron cada una de las diferentes calificaciones en un examen, puede utilizar una tabla para representar la frecuencia de las calificaciones de la A a la F. Una clase de 25 estudiantes tuvo las siguientes puntuaciones: 100, 88, 93, 64, 76, 42, 55, 87, 99, 92, 100, 73, 56, 99, 98, 100, 84, 81, 83, 100, 100, 92, 64, 69 y 70. La tabla de frecuencias para estas puntuaciones tendría el siguiente aspecto:

Grado Número de estudiantes
A 11
B 5
C 3
D 3
F 3

Medidas de tendencia central

Las medidas de tendencia central son medidas estadísticas que utilizan un único valor para representar el centro de un conjunto de datos. El concepto central de las medidas de tendencia central es que hay un único valor que puede resumir mejor todo un conjunto de datos. Este valor está relacionado de alguna manera con el centro del conjunto de datos. Hay tres medidas de tendencia central: la media, la mediana y la moda.

Media

La media, también conocida comúnmente como «el promedio», es el tipo de medida de tendencia central que se utiliza con más frecuencia. Se calcula hallando la suma de todos los números de un conjunto de datos y dividiendo la suma por la cantidad total de números. La principal ventaja de la media es que tiene en cuenta todos los números de un conjunto de datos. Sin embargo, es importante saber que la media es muy susceptible a los valores atípicos.

Por ejemplo, puede utilizar la media para comparar su salario con el de otros profesionales que tienen el mismo cargo que usted. Reúne la información salarial de nueve profesionales que tienen el mismo cargo que usted. Los salarios resultantes son: 38.000 $, 41.000 $, 45.000 $, 43.000 $, 47.000 $, 50.000 $, 55.000 $, 15.000 $ y 75.000 $. Tu salario es de 52 mil dólares. Comienza por encontrar la suma de todos los salarios (38 + 41 + 45 + 43 + 47 + 50 + 55 + 15 + 75 + 52 = 461). A continuación, divide la suma de los valores entre el número total de valores del conjunto (461/10 = 46,1). El salario medio para tu puesto de trabajo es de 46,1 mil dólares.

Mediana

La mediana es el valor que se encuentra en el centro de un conjunto de datos. La principal ventaja de la mediana es que es menos susceptible a los valores atípicos que la media. Se calcula organizando todos los números de un conjunto de datos en orden numérico de menor a mayor y luego encontrando el número que cae en el medio del conjunto. Si el conjunto de datos tiene un número impar de valores, basta con encontrar el número que se encuentra en el centro del conjunto. Sin embargo, si tu conjunto de datos tiene un número par de valores, tendrás que encontrar los dos valores que caen en el medio y luego encontrar la media de esos dos valores para calcular la mediana.

Utilizando el mismo ejemplo utilizado para la media, decides encontrar también la mediana. Comienza organizando los valores de tu conjunto de datos de menor a mayor: $15k, $38k, $41k, $43k, $45k, $47k, $50k, $52k, $55k y $75k. A continuación, se encuentran los dos números en el centro del conjunto de datos: $45k y $47k. Por último, encuentra la media de las dos cifras del centro del conjunto de datos (45 + 47 = 92; 92/2 = 46). El salario medio para tu puesto de trabajo es de 46.000 dólares.

Modo

La moda es el valor en un conjunto de datos que tiene la mayor frecuencia de ocurrencia. Se calcula agrupando todos los valores que coinciden y luego encontrando el grupo que tiene la mayor cantidad de valores en él. La principal ventaja de la moda es que permite comparar valores tanto numéricos como nominales, mientras que la media y la mediana sólo pueden comparar valores numéricos. Los valores nominales son datos que no están representados por un número, como los colores y las formas. Sin embargo, es importante saber que es posible que un conjunto de datos no tenga una moda si no hay dos valores iguales en el conjunto de datos.

Por ejemplo, el conjunto de salarios utilizado en los ejemplos para la media y la mediana no tiene una moda porque todos los salarios tienen un valor diferente. Sin embargo, si su salario fuera de 50.000 dólares en lugar de 52.000 dólares, entonces 50.000 dólares sería la moda porque es el valor salarial que aparece con más frecuencia en el conjunto.

Relacionado: Aprende a ser un analista de datos

Medidas de dispersión o variación

Las medidas de dispersión o variación, también denominadas comúnmente medidas de dispersión, son medidas estadísticas utilizadas para representar la variabilidad de un conjunto de datos. Existen tres medidas de dispersión o variación: rango, varianza y desviación estándar.

Rango

El rango es una medida estadística descriptiva que es la diferencia entre el valor más alto y el más bajo de un conjunto de datos. El rango se calcula simplemente restando el valor más bajo de un conjunto de datos del valor más alto del mismo conjunto de datos. Por ejemplo, el rango de los salarios utilizados en los ejemplos para la media y la mediana es de 60.000 dólares (75 – 15 = 60).

Desviación estándar

La desviación estándar es una medida estadística de la cantidad de dispersión o varianza entre la media de un conjunto de datos y cada valor individual del conjunto de datos. Una desviación estándar baja indica que los valores del conjunto de datos tienden a estar cerca de la media del conjunto de datos, mientras que una desviación estándar más alta indica que los valores del conjunto de datos varían en un rango más amplio.

Varianza

La varianza es una medida estadística de la distancia media entre cada valor y la media. La varianza se calcula hallando el cuadrado de la desviación estándar. La fórmula de la varianza es:

Varianza = (desviación estándar) al cuadrado

Relacionado: Aprende a ser un científico de datos

Estadística descriptiva frente a estadística inferencial

La principal diferencia entre las estadísticas descriptivas y las inferenciales es lo que permiten hacer con los datos. Mientras que la estadística descriptiva sólo le permite resumir y presentar la información de forma que le ayude a encontrar patrones entre los datos, la estadística inferencial le permite analizar los datos más a fondo utilizándolos para hacer predicciones e inferencias. La estadística inferencial le permite utilizar la información resumida por la estadística descriptiva para hacer generalizaciones sobre la población que le interesa, basándose en una muestra de datos de esa población. La estadística descriptiva se basa en el análisis cuantitativo, mientras que la estadística inferencial se basa en la teoría de la probabilidad.