5 formas de encontrar valores atípicos en las estadísticas (con ejemplos)

Es fundamental reconocer y analizar los valores atípicos estadísticos en los conjuntos de datos, tanto si son errores como si revelan información importante. Los valores atípicos pueden afectar a la forma o a la importancia de los datos, por lo que hay que identificarlos y posiblemente eliminarlos.

En este artículo, discutimos qué son los valores atípicos en estadística y describimos cómo encontrarlos en sus datos con ejemplos y explicaciones.

¿Qué son los valores atípicos en estadística?

En estadística, los valores atípicos son puntos de datos que son significativamente diferentes de los demás puntos de datos, que parecen anómalos. Por ejemplo, si un conjunto de datos contiene la mayoría de los valores de 20, pero un valor de 60, el punto de datos de 60 sería un valor atípico. Tanto si se trata de determinar la media, la mediana, la moda o el rango de un conjunto de datos, como de comprender las tendencias o crear una representación visual, los valores atípicos pueden tener un impacto significativo.

Es importante analizar los valores atípicos porque suelen contener información importante sobre los datos estudiados y pueden distorsionar las conclusiones del análisis de datos. Puede eliminar el valor atípico del conjunto de datos si se trata de un error, pero analizarlo primero puede mostrarle su significado o ayudarle a predecir futuros valores atípicos.

Pueden proporcionar una visión del proceso de recopilación, registro y análisis de datos, y pueden ser la clave para descubrir las incoherencias del sistema. Incluso cuando los valores atípicos son errores, pueden ayudarle a comprender mejor sus datos, por lo que es importante identificar y evaluar cualquier valor atípico.

Cinco maneras de encontrar a las personas fuera de alcance

He aquí cinco formas de encontrar valores atípicos en su conjunto de datos:

1. Ordenar los datos

Una forma fácil de identificar los valores atípicos es ordenar los datos, lo que le permite ver cualquier punto de datos inusual dentro de su información. Intente clasificar sus datos por orden ascendente o descendente, y luego podrá examinar los datos para encontrar valores atípicos. Un dato inusualmente alto o bajo podría ser un valor atípico. Si tienes un pequeño conjunto de datos, puedes hacerlo a mano. Si tiene un conjunto grande de datos, considere la posibilidad de ordenarlos con un programa de base de datos.

Por ejemplo, si tiene estos números en orden ascendente 3, 6, 7, 10 y 54, puede ver que el 54 es mucho mayor que el resto de los puntos de datos. Los estadísticos considerarían el 54 como un valor atípico. Otro ejemplo podría ser: 2, 38, 43, 49 y 51. Puedes ver que el 2 es mucho más pequeño que los otros puntos de datos, por lo que podemos decir que el 2 es el valor atípico. Una vez que hayas identificado tus valores atípicos, puedes empezar a investigar por qué han aparecido en tus datos.

Relacionado: Cómo ordenar datos en Excel (con instrucciones paso a paso)

2. Gráficos de los datos

También puedes utilizar gráficos, como los diagramas de dispersión o los histogramas, para encontrar valores atípicos. Los gráficos presentan sus datos de forma visual, lo que facilita ver cuándo un dato difiere del resto del conjunto de datos. Un gráfico de dispersión muestra sus puntos de datos como puntos en un gráfico basado en dos variables, trazadas en el eje x y en el eje y. Los gráficos de dispersión son útiles para visualizar los valores atípicos porque puedes ver cuando un punto está lejos de los otros puntos, que normalmente están agrupados. Por lo tanto, el punto de datos que está lejos del grupo es el valor atípico.

Un histograma muestra los datos en grupos llamados «bins.» Los histogramas suelen agrupar los datos en rangos, que es lo que diferencia a los histogramas de los gráficos de barras. El rango de datos suele ser el eje x y la otra variable suele ser el eje y. Esto puede ayudar a identificar puntos de datos inusuales. Por ejemplo, si la mayoría de los puntos de datos están en el lado derecho del gráfico y una casilla de datos está en el lado izquierdo del gráfico, entonces puedes deducir que la casilla del extremo izquierdo es un valor atípico.

Relacionado: Una guía para los gráficos de histograma

Calcular la puntuación z

Una puntuación z, o puntuación estándar, muestra lo lejos que está un punto de datos de la media de los datos. Para calcular la puntuación z, se resta la media de la medida bruta y se divide por la desviación estándar.

La ecuación para calcular la puntuación z es:

Z = (X−µ) ÷ σ

donde:

X = medida bruta

µ = la media

σ = la desviación estándar

Cuanto más lejos esté la puntuación z de 0, más inusual es el punto de datos. Por ejemplo, si las puntuaciones z de sus puntos de datos son -0.35, -0.26, -.021, -0.18 y 4.7, puede decir que el punto de datos con una puntuación z de 4.7 es el más alejado de 0 y es el más atípico.

Relacionado: Cómo calcular una puntuación Z

Calcular el rango intercuartil

El rango intercuartil (IQR) mide la dispersión de los puntos de datos entre las marcas del primer y tercer cuartil. La regla general para utilizarlo para calcular los valores atípicos es que un punto de datos es un valor atípico si está más de 1,5 veces el IQR por debajo del primer cuartil o 1,5 veces el IQR por encima del tercer cuartil.

Para calcular el IQR, necesitas conocer el percentil del primer y tercer cuartil. La mediana de la mitad superior del conjunto de datos es el percentil del tercer cuartil, y la mediana de la mitad inferior del conjunto de datos es el percentil del primer cuartil. Para encontrar el IQR, se resta el primer cuartil del tercer cuartil:

IQR = Q3− Q1

donde:

Q3 = el tercer cuartil = la mediana de la mitad superior del conjunto de datos

Q1 = el primer cuartil = la mediana de la mitad inferior del conjunto de datos

A continuación, puede utilizar el IQR para encontrar cualquier valor atípico en su conjunto de datos. Las ecuaciones para calcular los valores atípicos bajos o altos a través del rango IQR son

Alto valor atípico ≥ Q3 + (1,5 x IQR)

Bajo valor atípico ≤ Q1 − (1,5 x IQR)

Relacionado: Cómo encontrar la mediana de un conjunto de datos en estadística

Uso de pruebas de hipótesis

Si desea probar opciones más avanzadas para encontrar valores atípicos, considere la posibilidad de probar pruebas de hipótesis como la prueba de Grubbs, el ESD generalizado o el criterio de Pierce. Las pruebas de hipótesis consisten en procesar los datos mediante ecuaciones para ver si coinciden con los resultados previstos. La prueba de Grubbs puede utilizarse cuando se sospecha de un solo valor atípico en un conjunto de datos con distribución normal.

La prueba de desviación extrema generalizada (ESD) puede utilizar datos con una sola variable para comprobar si hay más de un valor atípico. Los estadísticos utilizan el criterio de Pierce para encontrar y eliminar los valores atípicos calculando cómo se compara la desviación estándar con la media del conjunto de datos.

Como es difícil seleccionar la prueba de hipótesis correcta a menos que conozcas mucho tu conjunto de datos, pueden ser imprecisas o difíciles de completar. Puede estudiarlos de antemano para ayudarle a seleccionar el correcto, o considerar si métodos más sencillos podrían permitirle encontrar valores atípicos en sus datos.