¿Qué es una matriz de confusión? (con cálculos y ejemplos)

En la ciencia de datos, los analistas e ingenieros de datos realizan varias evaluaciones cuando trabajan con problemas de aprendizaje automático. Algunos de los problemas que los analistas de aprendizaje automático suelen resolver son los relativos a la clasificación de datos. Una matriz de confusión es una herramienta valiosa para medir los factores que afectan a la exactitud y precisión de un modelo de clasificación o clasificador. En este artículo, exploramos qué es una matriz de confusión, por qué es importante en el análisis de datos y el aprendizaje automático y cómo se puede calcular una matriz de confusión para un problema de clasificación de dos clases, con un ejemplo para guiarte.

5 trabajos en el ámbito del aprendizaje automático

¿Qué es una matriz de confusión?

En la ciencia de los datos, una matriz de confusión es un gráfico o tabla que resume el rendimiento de un modelo o algoritmo de clasificación para procesos de aprendizaje automático. Las matrices de confusión ayudan al análisis predictivo y pueden ser herramientas eficaces para evaluar qué funciones realiza correctamente un sistema de aprendizaje automático y cuáles realiza incorrectamente.

Al crear una matriz de confusión, incluya tanto los valores predictivos como los reales que pruebe en el sistema, correspondiendo cada fila a cada clase predicha y cada columna a la clase real. Dependiendo del número de salidas a las que llegue para cada entrada, la matriz de confusión puede calcular problemas de clasificación de clases múltiples o de dos clases.

Relacionado: Guía de clasificación de datos (con tipos y ejemplos)

Importancia de la matriz de confusión en la ciencia de los datos

Los científicos de datos que desarrollan sistemas de aprendizaje automático se basan en matrices de confusión para resolver problemas de clasificación que contienen dos o más clases. La matriz organiza los datos de entrada y salida de forma que permite a los analistas y programadores visualizar la exactitud, la recuperación y la precisión de los algoritmos de aprendizaje automático que aplican a los diseños de los sistemas. En un problema de clasificación de dos clases, o binario, la matriz de confusión es crucial para determinar dos resultados, positivos o negativos, donde estas variables representan valores numéricos en un sistema de aprendizaje automático. Cuando se calculan problemas de clasificación binaria, se pueden utilizar las matrices de confusión para encontrar:

  • Tasa de precisión: Es el porcentaje de veces que un clasificador es correcto.

  • Tasa de clasificación errónea: Es el porcentaje de veces que un clasificador es incorrecto.

  • Tasa positiva verdadera: Esta cifra representa el porcentaje de veces que un clasificador predice correctamente los resultados deseados.

  • Tasa de negatividad real: Se refiere a la frecuencia con la que un clasificador predice correctamente resultados no deseados.

  • Tasa de falsos positivos: Se trata de un error de tipo I que representa la frecuencia con la que un clasificador se equivoca al predecir resultados deseables.

  • Tasa de falsos negativos: Se trata de un error de tipo II que representa el porcentaje de veces que un clasificador predice incorrectamente resultados no deseados.

  • Tasa de precisión: Es la tasa en la que las predicciones deseables resultan ser correctas.

Relacionado: Aprende a ser un científico de datos

Cómo calcular una matriz de confusión para problemas de clasificación binaria

Los siguientes pasos describen el proceso básico para calcular las matrices de confusión para problemas de clasificación binarios o de dos clases:

1. Construya su mesa

Antes de introducir los datos, necesitas una tabla para elaborar la matriz de confusión. Crea una tabla con dos filas y dos columnas, con una fila y una columna adicionales para etiquetar tu gráfico. El lado izquierdo de la matriz representa las salidas reales, y el lado derecho representa las salidas predichas.

2. Introduzca los valores positivos y negativos previstos

En la fila y columna de predicción, enumere los valores que estima para los resultados positivos y negativos. Por ejemplo, suponga que quiere predecir el número de calificaciones de exámenes aprobados-desaprobados de un conjunto de datos que contiene 120 muestras. Esto significa que puede tener dos resultados, ya sea "aprobado" o "reprobado"; Si predice 100 puntuaciones de aprobado y 20 de reprobado, introduce estos valores como los resultados bajo las columnas para sus valores predictivos "aprobado" y "reprobado".

3. Introduzca los valores positivos y negativos reales

Después de analizar sus valores predictivos para determinar si son correctos, puede introducir los resultados reales en su matriz. Los resultados reales se convierten en los valores «verdaderos» y «falsos» de la tabla, donde los valores «verdaderos positivos» y «falsos negativos» representan los resultados positivos reales, y los valores «falsos positivos» y «verdaderos negativos» representan los resultados negativos reales.

En el ejemplo de un examen de aprobado-desaprobado, las puntuaciones de aprobado representan los resultados positivos, mientras que las puntuaciones de suspenso representan los resultados negativos. Si el número real de aprobados es de 110 y el número real de suspensos es de 10, estos valores se convertirán en tus verdaderos valores positivos y negativos en la matriz. Sus valores positivos y negativos falsos serían 10, ya que predijo incorrectamente 10 puntuaciones de suspenso más y 10 puntuaciones de aprobado menos.

Relacionado: Todo lo que hay que saber sobre el análisis predictivo

4. Determinar la tasa de precisión

Utilizando la matriz completada, puede determinar cuál es el índice de precisión al predecir los resultados deseables. Esta métrica mide la frecuencia con la que se predicen correctamente los resultados, lo que puede ser útil para conocer los índices de error e identificar dónde es necesario realizar modificaciones en los sistemas de datos.

Para hallar el índice de precisión, suma los valores positivos y negativos verdaderos y divide el resultado entre el número total de valores del conjunto de datos. Con las puntuaciones de la prueba de ejemplo, predecir correctamente 100 puntuaciones de aprobado y 10 de suspenso le da una suma de 110 predicciones precisas de 120 puntuaciones totales, lo que resulta en una tasa de precisión del 92%.

5. Calcule la tasa de clasificación errónea

La tasa de clasificación errónea muestra la frecuencia con la que su matriz de confusión es incorrecta en la predicción de los resultados positivos y negativos reales. Encuentre este valor sumando los valores falsos positivos y negativos y dividiendo esta suma por el número total de valores en su conjunto de datos. Por ejemplo, utilizando el ejemplo anterior de las puntuaciones de los exámenes de aprobado y suspenso, suponga que predice incorrectamente 10 puntuaciones de aprobado y 10 de suspenso.

Los resultados falso-positivo y falso-negativo serían ambos 10 en tu matriz. La combinación de estos valores da como resultado 20, que se divide por el total de 120 puntuaciones de la prueba. Esto da como resultado una tasa de clasificación errónea de 0,166, o alrededor del 17%, lo que significa que sólo predice un resultado incorrectamente el 17% de las veces.

6. Encuentre el verdadero índice positivo

La tasa de verdaderos positivos de un conjunto de datos es el valor de recuerdo, que representa la frecuencia con la que la salida de un sistema es realmente positiva cuando se predice un resultado positivo. Para hallar la tasa de recuperación, divida el número de resultados positivos que predice correctamente entre el número de resultados positivos reales que obtiene al realizar su análisis. Por ejemplo, supongamos que predice correctamente 100 resultados positivos. Este es el valor positivo real porque predice correctamente 100 de las 110 puntuaciones de aprobado reales. Divida este valor positivo verdadero entre las 110 puntuaciones de aprobado para obtener una tasa de recuerdo de 0,91 o 91%.

7. Determinar la verdadera tasa negativa

La tasa de verdaderos negativos de su matriz es la tasa de especificidad, que muestra con qué frecuencia su clasificador predice correctamente un resultado negativo. Para determinar esta tasa, divida el número total de resultados negativos que predice correctamente entre el número de resultados negativos reales que obtiene en su análisis. Utilizando el ejemplo anterior de las puntuaciones de los exámenes, suponga que predice correctamente 10 puntuaciones negativas de 20 predicciones. Esto le da una tasa de negativos verdaderos o de especificidad del 50%.

Relacionado: Cómo realizar un cálculo de tasas (con consejos)

Ejemplo de cálculo de una matriz de confusión

Un científico medioambiental quiere resolver un problema de clasificación de dos clases para predecir si una población contiene una variante genética específica. Pueden utilizar una matriz de confusión para determinar de cuántas maneras los procesos automatizados podrían confundir el modelo de clasificación de aprendizaje automático que están analizando. Suponiendo que el científico utiliza 500 muestras para su análisis de datos, construye una tabla para sus valores predictivos y reales antes de calcular la matriz de confusión:

Previsto sin la variantePrevisto con la varianteNúmero real sin la variante

Número real con la variante

Valor predictivo totalValor predictivo totalDespués de crear la matriz, el científico medioambiental analiza sus datos de muestra. Supongamos que el científico predice que 350 muestras de prueba contienen la variante genética y 150 muestras no. Si el científico determina que el número real de muestras que contienen la variante es de 305, el número real de muestras sin la variante es de 195. Estos valores se convierten en los valores "verdaderos" de la matriz, y el científico introduce los datos en la tabla:

Predicción sin la variantePredicción con la varianteNúmero real sin la variante = 195Verdadero negativo = 45Falso positivo = 150Número real con la variante = 305Falso negativo = 105Verdadero positivo = 200
150350Utilizando los datos de la matriz de confusión, el científico medioambiental puede calcular las tasas de verdaderos positivos y negativos, la tasa de precisión y la tasa de clasificación errónea de su modelo de clasificación:

* Tasa de recuperación = (valor positivo verdadero) / (valor positivo real) = (200) / (305) = 0,66 = 66%.*

* Índice de especificidad = (valor negativo verdadero) / (valor negativo real) = (45) / (195) = 0,23 = 23%.*

* Tasa de precisión = (valor positivo verdadero + valor negativo verdadero) / (número total de muestras) = (200 + 45) / (500) = (245) / (500) = 0,49 = 49%*

* Tasa de clasificación errónea (error) = (valor falso positivo + valor falso negativo) / (número total de muestras) = (150 + 105) / (500) = (255) / (500) = 0,51 = 51%*

La evaluación de estos datos puede ayudar al científico a determinar cómo cambiar o mejorar el algoritmo de clasificación para aumentar la tasa de precisión de la predicción de las variaciones genéticas en la población de un ecosistema.

Te recomendamos

¿Qué es un plan de operaciones?

6 Pasos Para Convertirse en un CRNA (Con Preguntas Frecuentes)

Cómo redactar políticas y procedimientos

PREGUNTAS FRECUENTES: Los tres niveles de gestión

14 Temas para reuniones de equipo en el trabajo

Cómo enviar correos electrónicos masivos