Cómo encontrar valores atípicos

Los estadísticos suelen necesitar muestras de datos limpias. Por ello, es fundamental que puedan eliminar los valores atípicos del conjunto de datos primario. Además de identificar los valores atípicos, estos pueden proporcionar información interesante sobre los datos.

En este artículo, analizamos qué es un valor atípico, cuándo puede ser necesario encontrar valores atípicos y cómo identificarlos.

Cómo el análisis de datos puede mejorar la toma de decisiones

¿Qué es un valor atípico?

Un valor atípico es un punto de datos que está fuera del rango estándar de valores en un conjunto de datos. Por ejemplo, el conjunto de datos Edades 12, 13, 15, 16, 52, 14 y 11 tiene una edad atípica de 52. Esto se debe a que las otras edades están entre 11 y 16, y 52 está fuera de ese rango.

Es importante para los estadísticos poder identificar valores atípicos como éste, ya que pueden alterar drásticamente sus cálculos. En este ejemplo, si se incluye el valor atípico, la media de edad es de 19 años. Si se excluye el valor atípico, la media es de 13,5 años.

Hay que investigar cuidadosamente los valores atípicos antes de eliminarlos. Es posible que los valores atípicos sean simples errores que deben excluirse. Otra posibilidad es que esos valores atípicos contengan información estadística importante, como una nueva tendencia o un dato significativo que debe tenerse en cuenta.

Relacionado: Cómo calcular la media (con ejemplos)

¿Cuándo es necesario encontrar un valor atípico?

A veces los valores atípicos son obvios, ya sea observando los datos ordenados de forma ascendente o descendente o mirando una representación gráfica de los datos. En esos casos, los valores atípicos pueden estar muy alejados del resto de los datos.

En el ejemplo anterior, si se colocan las edades en orden numérico ascendente (11, 12, 13, 14, 15, 16, 52), se puede ver que 52 es claramente el valor atípico. Además, si está muy familiarizado con los datos, su conocimiento de lo que es probable y lo que es improbable puede ayudarle a identificar los valores atípicos.

Sin embargo, a veces los valores atípicos no son tan fáciles de ver. Su conjunto de datos puede contener múltiples grupos de puntos de datos dentro de un rango. Puede que no sea fácil determinar mirando los datos si los valores atípicos son uno o dos puntos de datos en un extremo de la escala o quizás todo el grupo de puntos de datos en el punto más alto o más bajo de la escala. En esta situación, puede ser necesario utilizar las matemáticas para encontrar los valores atípicos.

Cómo encontrar valores atípicos

Hay varias maneras de encontrar los valores atípicos. Uno de los métodos consiste en representar gráficamente los puntos de datos mediante diagramas de dispersión, diagramas de caja, diagramas de susurros o histogramas. Estas representaciones visuales de los datos pueden ayudarle a ver si hay valores atípicos y qué puntos de datos son atípicos.

Otro método para identificar los valores atípicos es hallar el rango intercuartílico (IQR) y calcular los rangos de la valla interior y exterior del conjunto de datos. Los puntos de datos que caen fuera de las cercas son valores atípicos. Estos son los pasos que hay que seguir para encontrar los valores atípicos con este método:

Relacionado: Una guía para los gráficos de caja y bigotes

1. Encuentre el valor medio

La mediana es el valor medio del conjunto de datos. Si tiene un número impar de puntos de datos en su conjunto de datos, la mediana es el punto de datos en el centro. Por ejemplo, si tiene 23 puntos de datos, la mediana es el duodécimo punto de datos, ya que cae directamente en el centro.

Con un número par de puntos de datos, encuentre el valor de la mediana sumando los dos puntos de datos del medio y dividiéndolos por dos. Así, si tienes 24 puntos de datos, sumarías los puntos de datos 12 y 13 y los dividirías entre dos.

Para hallar la mediana, primero hay que ordenar los puntos de datos en orden numérico ascendente. A continuación, puedes buscar el punto de datos que se encuentra en la posición media. Por ejemplo, hay siete puntos de datos en la lista ordenada de las edades 11, 12, 13, 14, 15, 16 y 52, por lo que el valor de la mediana es 14. Si sólo hubiera seis puntos de datos, 11, 12, 13, 14, 15, 16, la mediana sería el tercer y cuarto punto de datos dividido por dos, (13+14)/2 que es 20. El hecho de que no haya ningún 20 en la lista no importa. Ese es el valor de la mediana.

Relacionado: Cómo encontrar la mediana de un conjunto de datos en estadística

2. Determine el cuartil inferior o primero (Q1)

El cuartil inferior es el punto de datos medio o mediana de todos los puntos de datos por debajo de la mediana. Por lo tanto, si tiene 13 puntos de datos, el punto de datos mediano es el séptimo punto de datos. Hay seis puntos de datos antes del séptimo, por lo que el cuartil inferior es el punto mediano de esos seis puntos de datos. En este ejemplo, hay un número par de puntos de datos, por lo que encontrarías los dos puntos de datos centrales, el tercero y el cuarto, y dividirías esos valores entre dos.

Utilizando de nuevo la lista de edades, el valor de la mediana de la lista es 14, el cuarto punto de datos en una lista de siete puntos de datos. Hay tres puntos de datos antes de éste: 11, 12 y 13. La mediana de estos tres es 12, por lo que el primer cuartil (Q1) de la lista es 12.

3. Determine el cuartil superior o tercero (Q3)

El cuartil superior es el punto de datos medio o mediana de todos los puntos de datos por encima de la mediana. En un conjunto de datos con 13 puntos de datos, la mediana es el séptimo punto de datos. Esto significa que el cuartil superior es el punto de datos mediano de los seis puntos de datos por encima del séptimo punto de datos. Para encontrar el cuartil superior en este conjunto de datos, que tiene un número par de puntos de datos, se toman los dos puntos de datos centrales, el 10º y el 11º, y se dividen por dos.

Por ejemplo, con la lista de edades, el cuartil superior o tercero es la mediana de los tres puntos de datos por encima de la mediana. El valor de la mediana es 14, y los tres valores siguientes son 15, 16 y 52. Así que el cuartil superior o tercero (Q3) es 16.

4. Encontrar el rango intercuartil (IQR)

El rango intercuartil es simplemente la distancia entre los cuartiles inferior y superior. Se puede determinar restando Q1 de Q3. Con la lista de edades, Q1 es 12 y Q3 es 16. El rango intercuartil es, por lo tanto, 16-12 que es igual a 4. Este rango intercuartil le ayuda a establecer los límites o cercos para sus puntos de datos. Estos límites son importantes para separar los puntos de datos atípicos del resto del conjunto de datos.

5. Encuentre el rango de la valla interior

El rango de la valla interior de tu conjunto de datos te ayuda a determinar si tu conjunto de datos contiene valores atípicos menores. Se trata de valores atípicos que caen fuera del rango de datos principal, pero no demasiado lejos, por lo que pueden considerarse sólo «sospechosos» o «posibles» valores atípicos. Para calcular el rango de la valla interior de su conjunto de datos, multiplique el IQR del conjunto de datos por 1,5. A continuación, reste este valor de Q1 para obtener el extremo inferior del rango de la valla interior y súmelo a Q3 para obtener el extremo superior del rango.

Utilizando la lista de edades como ejemplo, el IQR de ese conjunto de datos es 4. Multiplicando el IQR por 1,5 se obtiene el valor 6. Si lo restas a Q1 de esa lista, 12, obtienes un límite inferior de 6. Si lo sumas a Q3 de esa lista, 16, obtienes un límite superior de 22. Esto significa que todos los valores de edad de la lista que quedan fuera del rango de 6 a 22 son valores atípicos. El único valor fuera de ese rango es 52, por lo que se trata al menos de un valor atípico menor, o sospechoso.

6. Encontrar el rango de la valla exterior

Para encontrar los principales valores atípicos, hay que establecer el rango de la valla exterior. Esto se calcula de la misma manera que se calculó el rango de la valla interior, excepto que en lugar de multiplicar el IQR por 1,5, se multiplica por 3. Así que para calcular el extremo inferior del rango de la valla exterior, se resta el resultado de IQR*3 de Q1. Para calcular el extremo superior del rango de la valla exterior, se suma el resultado de IQR*3 a Q3.

El IQR del ejemplo de la lista de edades es 4, el Q1 es 12 y el Q3 es 16. Por lo tanto, el cálculo para el extremo inferior del rango de la valla exterior es 12-(4*3), que es 0. El extremo superior del rango de la valla exterior es 16+(4*3), que es 28. Esto significa que todos los valores de la lista de edades que quedan fuera del rango de 0 a 28 son valores atípicos importantes. En otras palabras, es más probable que se trate de valores atípicos reales. En la lista de edades, 52 cae fuera del rango de la valla exterior, por lo que probablemente sea un valor atípico.