Análise de componentes principais (PCA)
“Você sabe o que é caviar? nunca vi nem comi eu só ouço falar…”
Provavelmente você já deve ter ouvido falar de Análise de Componentes Principais. O que é essa análise? O que ela faz? Onde posso aplicar?
A análise de componentes principais ou PCA (abreviação, em inglês) pode ser definida como “um método de projeção dos dados multivariados em um espaço de dimensão menor, sem que as relações entre as amostras sejam afetadas” (Ferreira, 2015).
Pra ficar mais claro o que é o PCA, mas fugindo das definições que abrangem álgebra linear, vamos exemplificar através da análise de dados reais. A Tabela 1 contém informações de consumo médio de bebidas alcoólicas, expectativa de vida e incidência de doenças cardiovasculares em alguns países. De modo geral, sabe-se de antemão que o consumo excessivo de bebidas alcoólicas relaciona-se à menor expectativa de vidas. Entretanto, você percebe que, embora o conjunto de dados seja “pequeno”, à primeira vista fica difícil tirar algumas conclusões? Por exemplo:
Para cada um dos países, quais tipos de bebidas estão associadas à maior expectativa de vida?
Quais tipos de bebidas estão mais associadas às maiores taxas de doenças cardiovasculares?
É nesse momento que a Análise de Componentes Principais entra em ação. Essa análise facilita a interpretação de dados multivariados, ou seja, com muitas variáveis, permitindo descobrir, visualizar e interpretar as diferenças entre as variáveis e as relações entre as amostras. Essa análise é realizada em softwares disponíveis no mercado, tais como Minitab, Matlab, Rapidminer, Orange, PLSToolbox, Unscrambler, etc.
(Se você pretende aprender mais sobre análise de componentes principais, entre em contato conosco, pois oferecemos o Curso de Análise de Componentes Principais e um Curso de Análises Exploratórias onde falamos mais sobre PCA).
Ao realizar uma análise de componentes principais dos dados da Tabela 1 (utilizando os tratamentos adequados) obtemos várias informações, dentre elas, o gráfico de scores, mostrado na Figura 1. Podemos observar a formação de “aglomerados” de países. Por exemplo, França e Itália estão muito próximas, indicando scores semelhantes.
Os scores indicam similaridades no consumo de bebidas, na incidência de doenças e na expectativa de vida.
(Olhar Figura 2): Ao analisar os países localizados nas extremidades da componente principal 1 (eixo x), verificamos que do lado esquerdo encontra-se a Rússia, com score negativo. No lado direito, encontra-se a Itália com score positivo.
Caro leitor, por que a Rússia está afastada de todos? Do mesmo modo, por que a Itália está localizada na outra extremidade? Por que Rússia e Itália não estão próximas, ou seja, por que estes dois países têm scores muito distintos?
(Olhar Figura 3): Ao analisar os países localizados nas extremidades da componente principal 2 (eixo y), verificamos que na parte inferior do gráfico encontra-se a República Tcheca, com score negativo. Na parte superior do gráfico, encontra-se novamente a Rússia, com score positivo
A Figura 3 mostra a representação da componente principal 2. Do mesmo modo que no quadro anterior, pergunta-se: Por que a República Tcheca está localizada nessa posição? Por que República Tcheca e Rússia não estão próximas, ou seja, valores de scores similares?
(Olhar Figura 4): Ao analisar o gráfico de loadings, verificamos que em relação às bebidas, na componente 1, os Destilados apresentam loading negativo e o Vinho apresenta loading positivo. Para facilitar a visualização, Figura 5 mostra os loadings na componente 1. Em relação à componente 2 (Figura 6), verifica-se que os destilados apresentam loading positivo e a cerveja, loading negativo.
Para responder às perguntas anteriores, precisamos avaliar o gráfico de scores (Figura 1) juntamente com o gráfico de loadings (Figura 4).
A Rússia está localizada à esquerda no gráfico de scores, assim como os Destilados no gráfico de loadings. Isto indica que os Russos consomem bastante bebida destilada. No gráfico de loadings, as Doenças Cardiovasculares (loading negativo) estão do lado oposto à Expectativa de vida (loading positivo) na componente 1. Isto mostra que quanto maior a incidência de doenças cardiovasculares, menor a expectativa de vida. Consequentemente, dentre o países avaliados, o consumo de bebidas destiladas contribui para a elevada incidência de Doenças Cardiovasculares e menor expectativa de vida na Rússia.
A Itália está localizada à direita no gráfico de scores, assim como o Vinho no gráfico de loadings. Isto indica que os Italianos consomem bastante Vinho. O Vinho tem loading similar à Expectativa de Vida e este último está do lado oposto em relação às Doenças Cardiovasculares, que possuem loading negativo.
Consequentemente, dentre o países avaliados, o consumo de Vinho contribui para o aumento da Expectativa de Vida e menor incidência de Doenças Cardiovasculares. E quanto à República Tcheca? Bem, conforme demonstrado anteriormente, quanto maior o valor de score na componente 1, maior a expectativa de vida. No gráfico de scores, a República Tcheca localiza-se bem no centro da componente principal 1. Desse modo, dentre os países estudados, os Tchecos não apresentam elevada incidência de doenças cardiovasculares, e, consequentemente, não têm elevada Expectativa de Vida. Ou seja, à grosso modo, nem vivem muito, nem pouco. Isto se deve basicamente ao consumo de cerveja. Com isso, concluímos que o consumo de vinho está associado à maior Expectativa de vida e, por outro lado, o consumo de bebidas destiladas está associado à incidência de Doenças Cardiovasculares.
Curtiu? Quer aprender mais sobre Análise de Componentes Principais? Oferecemos curso de quimiometria e outras análises multivariadas em Campinas e região. Entre em contato!
Referência
Márcia Miguel Castro Ferreira. Quimiometria: Conceitos, Métodos e Aplicações. Editora Unicamp. 2015.