Análisis de componentes principales: Una Guía con Pasos y Ejemplos

Las empresas y organizaciones pueden utilizar un método de reducción de dimensiones, como el análisis de componentes principales, para condensar un gran conjunto de datos en uno más manejable y fácil de utilizar. Este proceso puede servir para una variedad de propósitos en las industrias de la tecnología y el software, incluyendo el uso de software de reconocimiento facial y la compresión de imágenes. Aprender qué es el análisis de componentes principales puede ayudarle a entender mejor cómo lo utilizan los profesionales y cómo realizarlo usted mismo. En este artículo, definimos el análisis de componentes principales, enumeramos los pasos para ejecutarlo y proporcionamos un ejemplo para guiarle en la realización de uno.

¿Cuáles son los tipos de aprendizaje automático? (y cuándo utilizarlos)

¿Qué es el análisis de componentes principales?

El análisis de componentes principales (ACP) es un método matemático que se utiliza para reducir un gran conjunto de datos a uno más pequeño, manteniendo la mayor parte de su información de variación. Aunque esta reducción puede hacer que un conjunto de datos sea menos preciso, también puede hacerlo más manejable y más sencillo de utilizar. Los conjuntos de datos más pequeños, sin variables superfluas, pueden facilitar la revisión y el análisis de los datos, tanto para las personas como para las máquinas. Esta técnica hace hincapié en la variación dentro de un conjunto de datos y ayuda a identificar patrones.

Los científicos de datos pueden trabajar con un conjunto de datos con un gran número de variables, lo que significa que también hay muchas relaciones entre las variables. Si un científico desea minimizar el número de relaciones entre variables que debe identificar, gestionar y controlar, puede considerar la posibilidad de aplicar el PCA. Al reducir las dimensiones de su espacio de características con PCA, hay menos relaciones que considerar.

Relacionado: ¿Qué son los análisis de Big Data? (Definición, beneficios y consejos)

Cómo realizar el análisis de componentes principales

A continuación se detallan algunos pasos de cómo realizar el análisis de componentes principales:

1. Estandarizar los datos

El primer paso del análisis de componentes principales es estandarizar los datos, transformando los valores de su conjunto de datos iniciales en escalas comparativas. Este proceso asegura que cada valor tiene una parte igual en el análisis y que los diferentes rangos entre sus variables iniciales no sesgan sus resultados. Para estandarizar sus datos, reste la media y divídala por la desviación estándar de cada valor de cada variable. Esta es la ecuación:

Z = (valor – media) / desviación estándar

2. Calcular la matriz de covarianza

Al calcular la matriz de covarianza, puede determinar si existe alguna relación entre las variables de su conjunto de datos. Esto puede permitirle identificar si las variables altamente correlacionadas, es decir, las que tienen relación con otras, contienen información redundante que puede eliminar. Una matriz de covarianza es una tabla que muestra las correlaciones entre todos los pares de variables posibles dentro de su conjunto de datos.

Es una matriz simétrica que incluye todos los pares posibles de las variables iniciales. Si su covarianza es positiva, significa que las variables aumentan y disminuyen juntas, lo que significa una correlación entre ellas. Lo contrario también es cierto, lo que significa que si la covarianza es negativa, no hay correlación entre las dos variables. Por ejemplo, una matriz de covarianza con las variables a y b podría incluir:

Cov(a,b)Cov(b,a)Cov(a,a)Cov(b,b)Relacionado: Relacionado: 40 habilidades de analista de datos que debes incluir en tu currículum

3. Calcular los vectores y valores propios para identificar los componentes principales

Los vectores propios y los valores propios son conceptos del álgebra lineal que se pueden utilizar para determinar los componentes principales de la matriz de covarianza. Los componentes principales son nuevas variables que son combinaciones de las variables iniciales. Son el resultado de comprimir las variables iniciales en nuevas variables no correlacionadas, eliminando así las correlaciones dentro de su conjunto de datos.

Los componentes principales representan los datos que representan la máxima cantidad de varianza, y su uso como representantes ilustra cómo el ACP puede permitirle incluir la máxima cantidad de información en cada componente y reducir las dimensiones de sus datos. Puede determinar sus componentes principales calculando sus vectores propios (????) y enumerándolos en orden descendente según sus valores propios. Esto le muestra los componentes principales en orden de importancia. Por ejemplo:

Se tiene un conjunto de datos bidimensional, con las variables a y b y los vectores propios y valores propios de la matriz de covarianza son:

* v1 =*

0.6780.735????1 = 1.284

v2 =

-0.7350.678????2 = 0.049

A continuación, puede clasificar los valores propios (1,284 y 0,049) en orden descendente y observar que ????1 > ????2. Esto significa que v1 es el vector propio que corresponde al primer componente principal, y v2 corresponde al segundo componente principal. A continuación, puede calcular el porcentaje de varianza de cada componente dividiendo el valor propio de cada componente por la suma de sus valores propios.

4. Crear un vector de características

Una vez que tenga su lista de componentes principales, podrá determinar si va a mantenerlos todos o si va a descartar los que tienen valores propios más bajos y, por tanto, menos significativos. Los componentes restantes que decida utilizar pueden constituir un vector de características. Esto significa que un vector de características enumera los valores propios de los componentes que decida conservar, lo que le permite reducir la dimensionalidad si ese es su objetivo. Si no espera reducir la dimensionalidad de sus datos, un vector de características puede seguir siendo útil para enumerar sus datos según nuevas variables, sus componentes principales.

Refiérase a los números anteriores como ejemplo y suponga que decide descartar el vector propio v2 porque es de menor valor que v1. Esto significa que puede formar un vector de características utilizando sólo las variables de v1. Su vector de características tendría el siguiente aspecto:

0.6780.735Relacionado: Preguntas y respuestas de la entrevista a un científico de datos

5. Remodelar los datos

Este último paso consiste en tomar la información calculada a partir de los vectores propios de la matriz de covarianza y reorientar los datos para incluir únicamente los componentes principales seleccionados. Durante este proceso, usted no ha cambiado nada de la información inicial, y el conjunto de datos de entrada sigue siendo el mismo. Ahora, sólo tiene que aplicar sus nuevas variables a los ejes originales del conjunto de datos inicial remodelando sus datos según el nuevo rango de varianza.

La fórmula para remodelar los datos es:

Conjunto de datos final = (vector de características)t x (conjunto de datos originales estandarizados)t

Ejemplo de análisis de componentes principales

Un científico de datos está aprendiendo sobre la correlación entre la altura y el peso para la población de estudiantes de la Universidad Norte-Sur. Sus dos dimensiones, la altura y el peso, son los ejes de un gráfico, donde traza los puntos de datos para representar a los estudiantes individualmente. Sin embargo, necesita menos dimensionalidad para su conjunto de datos. Para minimizar la variación, utiliza el PCA para crear un nuevo sistema de coordenadas en el que cada componente tiene un nuevo valor (x,y).

Tras estandarizar sus datos y crear sus matrices de covarianza, calcula sus dos componentes principales, v1 y v2. Encuentra que v1 da un valor de 0,429, y v2 da un valor de 0,251. Esto significa que después de enumerarlos en orden descendente, v1 ≥ v2. Para minimizar la varianza, va a descartar uno de los componentes principales. Decide descartar v2 porque es menor que v1.Los ejes son ahora los dos componentes principales de la altura (pc1) y el peso (pc2) que le permiten trazar sus nuevos puntos de datos en un segundo gráfico y remodelar los datos.

Te recomendamos

31 Rompehielos virtuales para usar en lugares de trabajo remotos

Habilidades de resiliencia: Definición y ejemplos

Los 5 niveles de liderazgo: Definición y consejos

¿Qué significa débito?

Tiempo parcial vs. Tiempo completo: transición entre ambos

21 Lugares para donar material de oficina