|
|
|
|
10- COMPONENTES PRINCIPAIS OU FUNÇÕES ORTOGONAIS EMPÍRICAS
Referências para este tópico:
J. Edward Jackson, 1991: A User’s guide to Principal Components. John Willey & Sons, NY. (será referenciado como JJ) D. S. Wilks, 1995: Statistical Methods in Atmospheric Sciences (Será referenciado como WI)
a) Introdução:
Nesta parte do curso, faremos uma abordagem sobre componentes principais de forma que iniciaremos com uma aplicação para variáveis distintas e depois veremos como usar similar raciocínio para aplicação em um campo espacial (método amplamente abordado em climatologia). Também discutiremos algumas nomenclaturas e suas equivalências.
b) Motivação
Possivelmente, uma das técnicas estatísticas multivariadas mais amplamente utilizadas em meteorologia é a Análise de Componentes Principais (ou PCA em inglês). A técnica tornou-se popular para a análise de dados atmosféricos seguindo o paper de Lorenz (1956), o qual chamou a técnica de Funções Ortogonais Empíricas (EOF em inglês). Ambas nomenclaturas são comumente usadas, e referem-se ao mesmo conjunto de procedimentos. Algumas vezes é também referido como Análise de Fatores (Factor Analysis) mas este método multivariado é bastante distinto.
É importante iniciar esta discussão falando dos principais propósitos da PCA. O primeiro deles é reduzir um conjunto de dados contendo um grande número de variáveis para um conjunto contendo um número bem menor de novas variáveis. Estas, por sua vez, devem representar uma grande fração da variabilidade contida nos dados originais. Isto é, dado múltiplas observações de um dado vetor x (digamos, Kx1 observações), espera-se encontrar (Mx1) vetores u, cujos elementos são função dos elementos de x, que contém a maior parte da informação da coleção original de valores de x, e cuja dimensionalidade é M<<K. Este objetivo pode ser atingido se existe substancial correlação entre as variáveis contidas em x, o que significa que x contém informação redundante. Os elementos destes novos vetores u são chamados de COMPONENTES PRINCIPAIS. Além de constituírem-se em uma representação compacta dos dados originais x, as novas variáveis compreendendo u exibem um atributo muito desejável: são mutuamente não-correlacionadas (WI).
Podemos ainda extrapolar estas idéias e pensarmos em pontos de grade no espaço. Pontos próximos possuem correlação entre si no tempo e podemos pensar em uma aplicação da PCA tal que esta correlação obedecesse a um certo padrão no espaço. De maneira análoga, pontos de grade próximos possuem uma correlação no espaço, a qual poderia ser representada por um padrão com uma certa característica no tempo. Assim, a PCA pode trazer grande ‘insight’ sobre variações que os campos meteorológicos exibem tanto no tempo quanto no espaço. Nós voltaremos a estas questões adiante.
c) DISCUSSÃO INICIAL SOBRE CONCEITOS BÁSICOS (JJ)
Vamos começar considerando um exemplo hipotético de um problema que envolva a relação entre as temperaturas mínimas de dois postos de medição que estejam próximos. O que gostaríamos, para efeito de simplificação, é que pudéssemos utilizar um único posto para representar ambos ou até mesmo substituir um pelo outro na ausência de dados. A fim de testar esta hipótese, uma série de 15 amostras foi obtida em cada posto. A Tabela-1 resume os resultados (clique também na palavra Tabela-1 para obter a planilha Excel com os dados).
Tabela-1: temperatura mínima (oC) para dois postos vizinhos
O fato da temperatura de um posto poder ser substituída pela temperatura do outro posto significa sermos capazes de prever nas duas direções. Isto é, poder inferir ou prever a temperatura no Posto-1 com a temperatura no Posto-2 e vice-versa. Para isso, poderíamos utilizar mínimos quadrados, o que resultaria em 2 equações diferentes. Ou seja, a equação de mínimos quadrados para prever a temperatura do Posto-1 a partir do Posto-2 minimiza a variabilidade dos dados do Posto-1 e vice-versa no caso de desejarmos prever a temperatura do Posto-2 a partir do Posto-1. Assim, a idéia que iremos explorar com o uso de componentes principais é que uma ÚNICA equação de previsão seja requerida para ser usada em ambas direções.
A LINHA (não estaremos falando de reta neste momento) que irá fazer esse papel diretamente é chamada de “LINHA DE REGRESSÃO ORTOGONAL”, a qual minimiza os desvios perpendiculares a esta própria linha (lembrem do princípio de mínimos quadrados, onde a minimização dos desvios ocorre em torno da reta de regressão que é obtida por este método).
Esta linha é obtida pelo método de Componentes Principais e, de fato, foi a primeira aplicação de PCA. Vamos mostrar como encontrá-la. Para ilustrarmos o método de PCA, necessitamos obter as médias amostrais, variâncias e co-variâncias entre os dois postos para os dados da tabela-1. Seja:
· x1k a temperatura do Posto-1, onde k é o índice da medida (por exemplo, tempo) · x2k a temperatura do Posto-2
O vetor com as médias das amostras é dado por:
O vetor das covariâncias é dado por:
Lembrando que:
· Assim (deduza a expressão abaixo):
(lembrando que k vai de 1...n)
Desta forma, a matriz de covariância para o exemplo dado (substituindo 10.5 em 10.2) é :
· A correlação, segundo esta notação:
d) AUTO-VALORES (RAÍZES CARACTERÍSTICAS) E AUTO-VETORES
O método de componentes principais está baseado em uma matriz Apxp simétrica, não-singular, tal que a matriz de covariância S pode ser reduzida a uma matriz diagonal L por uma pré-multiplicação e pós-multiplicação por uma matriz particular ortonormal U tal que:
U’SU = L (10.8)
Onde L é a matriz diagonal com elementos l1,l2,...,lp.os quais são chamados RAÍZES CARACTERÍSTICAS OU AUTOVALORES DE S. As colunas de U, u1, u2,...,up são chamadas de vetores característicos ou AUTO-VETORES de S e U’ é a transposta de U. (USAREMOS ESSA NOTAÇÃO SEMPRE QUE NOS REFERIRMOS À MATRIZ TRANSPOSTA)
Os auto-valores podem ser obtidos resolvendo-se o determinante (também chamado de equação característica):
Onde I é a matriz identidade. Esta equação produz um polinômio de pésimo grau em l, a partir do qual os valores l1,l2,...,lp são obtidos.
Para este exemplo, existem p=2 variáveis e então, substituindo-se 10.6, tem-se:
(0.7986-l)(0.7343-l)-(0.6793)(0.6793) = 0
0.124963 – 1.5329l+ l2 = 0
Assim, os valores de l que satisfazem esta equação são: l1=1.4465 e l2=0.0864
Os vetores característicos (auto-vetores) podem então ser obtidos pela solução das equações:
e
para i=1,2,3,..p.
Para este exemplo, para i=1,
A solução deste sistema produz 2 equações lineares homogêneas com 2 incógnitas:
[0.7986 – 1.4465]t11 + 0.6793t21 = 0 [0.6793]t11 + [0.7343 – 1.4465]t21 = 0
Para resolvê-las, faça t11=1 e use só a primeira equação:
-0.6478 + 0.6793 t21 = 0
ou seja, t21= 0.9538
Estes valores são então substituídos nas equações (10.13) e (10.14) para obtermos o PRIMEIRO VETOR CARACTERÍSTICO (OU PRIMEIRO AUTO-VETOR):
Assim:
De maneira análoga, usando o segundo auto-vetor l2=0.0864 e fazendo t22=1, o segundo vetor característico será :
· Exercício PC-1: Chegue na equação para u2 (10.16). Obtenha agora u1 e u2 resolvendo o sistema 10.15 sem assumir t11 = 1. Discuta os resultados. Resolva o sistema e ache u1 assumindo t11 = 2
Estes vetores característicos ou AUTO-VETORES fazem a matriz:
Esta matriz é na verdade a matriz das componentes principais, cujo número de auto-vetores é igual ao número de variáveis utilizadas (no caso, o número de postos).
· Exercício PC-2: Mostre que as componentes de U são ortonomais (isto é, o produto entre a transposta de ui e ui é =1 e o produto entre a transposta de ui e uj é igual a zero).
Além disso,
O que verifica a Eq.10.8
Interpretação:
Geometricamente, este procedimento nada mais é do que uma rotação principal dos eixos originais de coordenadas x1 e x2 em torno de suas médias
Figura 1. Direções dos co-senos para u1. A reta de regressão entre o Posto-2 (variável dependente) e o Posto-1 (variável independente) também está indicada na figura. O ângulo relativo ao eixo-x1 para esta reta de regressão é igual a 40.38º .
Os elementos dos vetores característicos são as direções dos co-senos dos novos eixos relacionados com os velhos. Neste caso, u11=0.7236 é o co-seno do ângulo entre o eixo x1 e o primeiro novo eixo (a linha rosa). O ângulo em graus correspondente é q11 = 43.65º; u21 = 0.6902 é o co-seno do ângulo entre este novo eixo e o eixo x2 q21 =46.35º. O novo eixo relacionado a u1 é a linha de regressão ortogonal que estamos procurando. Uma figura semelhante pode ser obtida para u2, o qual determina uma linha de regressão ortogonal à linha rosa encontrada acima. Analogamente, temos u12=-0.6902 que é igual ao cos(q12). Neste caso, q12=133.65º (que mede o ângulo entre o novo eixo 2, perpendicular ao novo eixo-1, e x1); u22=-0.7236 = cos( q22), ou seja, q22=43.65º é o ângulo entre o segundo novo eixo e o eixo x2.
Para fixar o que você aprendeu, faça um gráfico esquemático mostrando a orientação do segundo eixo em relação a x1 e x2.
OBS: exceto para p=2 e p=3, a Eq. 10.13 não é utilizada na pratica. Procedimentos iterativos, descritos no apêndice C de JJ são utilizados como alternativas tanto para o cálculo dos auto-vetores quanto dos auto-valores. O MÉTODO DE COMPONENTES PRINCIPAIS (JJ)
O primeiro passo para determinar a PCA é calcular a matriz de covariância amostral S (ou matriz de correlação – basta dividir pelo desvio padrão). Para um problema mais genérico com p variáveis:
onde si2 é a variância da i-ésima variável, xi, e sij é a covariância entre a i-ésima e j-ésima variáveis. Se as covariâncias não são iguais a zero, isso indica que a relação linear existe entre essas duas variáveis sendo a ‘intensidade’ dessa relação representada pelo coeficiente de correlação rij = sij/(si sj). A matriz de correlação é preferencialmente utilizada quando as variáveis observadas possuem dimensão ou escalas muito distintas (no fundo, desvios-padrão não comparáveis).
O eixo de transformação principal obtido anteriormente irá transformar p variáveis correlacionadas x1, x2,...,xp em p novas variáveis não correlacionadas. Os eixos de coordenada dessas novas variáveis são descritos pelos vetores característicos (auto-vetores) ui os quais fazem a matriz U dos co-senos das direções usadas na transformação:
Aqui
onde zi possui média zero e variância li (a variância é, na verdade, o i-ésimo auto-valor). Para se distinguir entre as variáveis transformadas e as observações transformadas , as primeiras serão chamadas de COMPONENTES PRINCIPAIS enquanto as observações transformadas se chamarão ‘SCORES’ (o uso da palavra ‘score’ tem origem na psicologia da educação ). A tabela-2 esclarece algumas terminologias empregadas em inglês para PCA.
Tabela-2 : Guia de sinônimos com terminologias associadas com a PCA (WI), pg 396
*Na formulação acima o índice j representa o número da observação e não estamos explicitando no texto por simplificação. Exemplo de cálculo de z-scores: Considere a primeira observação dos dados de temperatura nos dois postos (cada observação está colocada numa linha do vetor abaixo).
Considere ainda a matriz U (Eq.10.17) Substituindo em 10.20 temos:
Assim, os ‘z-scores’ para a primeira observação são z1=0.48 e z2=.51. Veja que as componentes estão sendo utilizadas agora como variáveis referentes à primeira observação de temperatura. A variância de z1 é igual a l1=1.4465 e variância de z2 é igual a l2=0.864. Como veremos adiante l1+l2 = soma das variâncias das variáveis originais.
Exercício PC-3 : Obtenha todos os z-scores para as demais observações. Você pode fazer isso usando a planilha do Excel. Faca uma coluna com a observação do Posto-1 menos a media, o mesmo para o posto 2. Ache uma equação geral para o calculo de z e encontre os valores dos scores procurados. Calcule a variância dos dados e de z Como interpretar estes resultados?
|
Send mail to
leila@model.iag.usp.br with
questions or comments about this web site.
|