Home Up

 

CLIMATOLOGIA ESTATÍSTICA : NOTAS DE AULA

 

Prof. Resposável: Dra. Leila M. Véspoli de Carvalho IAG/USP

 

ANÁLISE DE SÉRIES TEMPORAIS

 

I) ALGORITMOS PARA A REMOÇÃO DO CICLO ANUAL, SEMI-ANUAL E TENDÊNCIAS

Referências Básicas :

 1Chatfield C., 1996: The Analysis of Time Series: An introduction. Chapman & Hall, fifth edition, NY. 283 pp

 2 Jenkins, G. M. and D. G. Watts, 1968: Spectral Analysis and its Applications. Holden-day, SF, 525pp.

3 Wilks, D. S., 1995: Statistical methods in the Atmospheric Sciences. Academic Press, NY, 468 pp.

 

Notas:

·                    As referências acima citadas serão abreviadas como: 1CH, 2JW e 3WI

·                    O texto que se segue é um resumo que inclui a combinação de textos extraídos dos livros acima mais comentários extras, sites de dados e informações, além de exercícios. A indicação das referências ao longo do texto mostra onde o estudante pode obter o texto original.

·                    Atenção! O texto a seguir tem a finalidade única de servir como nota de aula para o curso de pós-graduação “Métodos observacionais em climatologia e meteorologia de mesoescala”. Trata-se de um resumo de textos já publicados em outros livros, e, portanto, o mesmo não pode ser publicado ou copiado para outros fins

  OBSERVAÇÃO: ALGUNS EXERCÍCIOS PROPOMOS QUE SEJAM FEITOS USADO O EXCEL. ENTRETANTO, E' IMPORTANTE QUE VOCÊS TENHAM CONSCIÊNCIA QUE HA  MUITOS PROBLEMAS EM UTILIZá-LO. PARA UMA REFERÊNCIA NESTE ASSUNTO, CONSULTEM ESTE DOCUMENTO :(CLIQUE AQUI PARA VISUALIZAR)

1)      A presença de ciclos nas séries temporais de dados meteorológicos e como tratá-los

 Motivação:

 Uma série temporal pode ser definida como um conjunto de observações feitas seqüencialmente no tempo. A forma de analisá-la é o objeto de estudo desse curso. Assim, para que seja percebido o exato significado do que pretendemos fazer daqui para frente, vamos observar a importância de ciclos nas variáveis meteorológicas que estudamos.

 

Onde conseguir dados meteorológicos:

 http://www.cdc.noaa.gov/cdc/data.interp_OLR.html

 http://www.cdc.noaa.gov/Timeseries/

 http://www.ncdc.noaa.gov/oa/climate/research/2003/may/global.html

http://nomad3.ncep.noaa.gov/ncep_data/index.html

 

  • DICAS DOS PROCEDIMENTOS  PARA  SE OBTER SERIES TEMPORAIS A PARTIR DE REANALYSIS-2 DO NCEP ENCONTRAM-SE AQUI (ARQUIVO .pdf):

 

 Terminologias e conceitos importantes:

 1. Séries temporais e processos estocásticos:

1.1 Funções determinísticas e não-determinísticas (JW, CH)

 Uma série temporal pode ser uma função x aleatória ou não-determinística de uma variável independente t. Na maioria das situações, a função x(t) será uma função do tempo, mas em outras situações pode ser uma função de outro parâmetro físico, como por exemplo, do espaço.

 Uma característica das séries temporais é que seu comportamento futuro não pode ser previsto exatamente, como seria o caso de uma função ‘determinística’ do tempo. 

 Em alguns casos, mesmo funções determinísticas que descrevem sistemas dinâmicos podem apresentar divergência em sua trajetória no estado do espaço. Quando isso acontece, dizemos que o sistema e' caótico. Uma referencia que aborda esse tema de forma simples pode ser vista em Tsonis and Elsner, 1999 (Chaos, strage atractors and weather. Bulletin of the American Meteorological Society, Vol. 70, pg 14-23)

Exercício -1a: Descreva um exemplo de uma função determinística , tendo como variável  independente o tempo ou o espaço ou ambos.Faca um gráfico indicando a evolução de se estado no tempo

 Desafio-1. Para acompanhar esse exercício, você precisara ler as discussões de Tsonis and Elsner(1989). Considere o sistema de 3 equações diferenciais que descrevem a convecção segundo o modelo de Lorenz (Lorenz 1963). Discuta o que são atratores estranhos e sua implicação para a previsão de tempo.

 Contudo, muitos fenômenos naturais, embora possuam oscilações no tempo, não podem ser descritos por funções determinísticas. Por exemplo, podemos medir a temperatura do ar em um abrigo meteorológico todos os dias e verificarmos a presença de um ciclo diurno. Entretanto, não conseguimos sempre determinar uma relação determinística que possa ser ajustada a cada intervalo dessa série de dados porque diversos fatores podem estar causando variações nessa medida (exemplo, nebulosidade, entradas de frentes, alteração dos ventos por circulações locais, etc.). Se compararmos uma série temporal de temperatura em um determinado sítio em dois anos distintos, podemos verificar visualmente que esses dois trechos da série não se parecem um com outro. Essa observação leva a noção de PROCESSO ESTOCÁSTICO.  A palavra "estocástico" vem do grego στοχαστηЅ e quer dizer  "pessoa que aprende sobre os eventos futuros ou coisas escondidas por meios que não estão baseados na razão" 

 1.2 Processos Estocásticos (JW, WI)

             Uma vez que diferentes secções de uma série temporal se parecem uma com a outra apenas nas suas propriedades médias, é necessário descrever essas séries por leis de probabilidades ou modelos. Assim, os valores possíveis das séries temporais a um dado tempo t são descritos por uma VARIÁVEL ALEATÓRIA X(t) e sua associada DISTRIBUIÇÃO DE PROBABILIDADES. O valor observado x(t) da série temporal no tempo t é então considerado como um dos infinitos valores nos quais a variável X(t) pode ter no tempo t. Em outras palavras, o comportamento da série temporal para todos os tempos t pode ser descrito por um conjunto de variáveis aleatórias {X(t)} onde t pode ter qualquer valor entre -¥ a +¥. Assim, as propriedades estatísticas das séries são descritas por distribuições de probabilidade com qualquer conjunto de tempos t1, t2, ..., tN . O conjunto ordenado de variáveis aleatórias {X(t)} em associação com sua distribuição de probabilidades é chamado de PROCESSO ESTOCÁSTICO.

 

Exercício -2a Veja outras interpretações em:

http://pespmc1.vub.ac.be/ASC/STOCHA_PROCE.html

e

http://www.wikipedia.org/wiki/Stochastic_process

Discuta definições e exemplos meteorológicos de: variável aleatória; função distribuição de probabilidade; processos estocásticos. Usem as demais referências se necessário.

 Desafio-2. Considere as series temporais de temperatura fornecidas no curso. Demonstre, com argumentos baseados no que você aprendeu no curso e leu nos sites acima,  se e porque a temperatura pode ser considerada uma variável aleatória e sua serie temporal um processo estocástico.

 Terminologias:

  • Séries temporais contínuas: Medidas no tempo contínuas (Ex: medidas de temperatura a partir de um termógrafo)
  • Séries temporais discretas: Observações tomadas em intervalos de tempo específicos, usualmente igualmente espaçados (Ex: temperatura média mensal).

 2. Conceitos importantes em séries temporais:

             Vimos que os processos estocásticos, a partir dos quais considera-se que a série temporal observada foi gerada, podem ser descritos por distribuições de probabilidades associadas com todos os possíveis conjuntos de pontos no tempo. Para inferir a natureza dessas distribuições de probabilidade a partir de uma única ou pequeno número de séries é um exercício impossível ou de pouca significância prática. Vamos discutir algumas das mais importantes simplificações que podem ser feitas.

            As suposições mais importantes feitas sobre uma série temporal são: a) o correspondente processo estocástico é ESTACIONÁRIO; b) um processo estocástico estacionário pode ser adequadamente descrito pelos mais BAIXOS MOMENTOS (ou momentos de baixa ordem) de suas distribuições de probabilidade. Esses momentos de baixa ordem incluem: MÉDIA, VARIÂNCIA, COVARIÂNCIA e a TRANSFORMADA DE FOURIER DA FUNÇÃO DE COVARIÂNCIA, O ESPECTRO DE POTÊNCIA. Assim, uma aproximação alternativa é supor que o processo estocástico pode ser adequadamente descrito por meio de um modelo contendo uns poucos parâmetros os quais podem ser estimados a partir dos dados. Vamos discutir essas simplificações.

 

2.1. Estacionaridade (CH; WI; JW):

 Suponha que você esteja examinando uma série temporal por um certo tempo limitado, por exemplo, a saída obtida de um gerador de ruídos. Suponha que a comparação de diferentes trechos dessa série mostra que diferentes secções são ‘parecidas’. Em contraste, quando você observa a concentração de CO2 global nos últimos 100 anos ou a área de florestas desmatadas do planeta no mesmo período, vai notar que existe uma tendência dessas séries temporais de crescerem com o tempo. Assim, diferentes secções dessas séries possuem características distintas. A saída do gerador de ruído é considerada um processo ESTACIONÁRIO enquanto as séries temporais do CO2 e de desmatamento são ditas NÃO- ESTACIONÁRIAS.

            Qualitativamente, uma série estacionária é aquela que está em EQUILÍBRIO ESTATÍSTICO, no sentido que contém NENHUMA TENDÊNCIA, enquanto que uma série não-estacionária é aquela cujas propriedades mudam com o tempo. Na prática, as séries são usualmente de 3 tipos: aquelas que exibem propriedades de estacionaridade em longo período, como, por exemplo, as saídas de geradores de ruído. Aquelas que possuem uma razoável estacionaridade em períodos curtos, por exemplo, medidas de turbulência na atmosfera; e séries que são obviamente não estacionárias, no sentido que suas propriedades estão continuamente mudando com o tempo. Exemplos óbvios de não-estacionaridade: temperatura em altas e médias latitudes, ventos (apresentam ciclos diurnos e anuais).

            Usualmente, o termo estacionaridade é interpretado como ‘fraca estacionaridade’  ou ‘ estacionaridade da covariância’. Neste sentido, estacionaridade implica que a média e a função de auto-correlação de uma série de dados não muda com o tempo. Diferentes pedaços de uma série de dados estacionária (por exemplo, os dados observados hoje e no futuro) podem ser considerados como TENDO UMA MESMA MÉDIA E VARIÂNCIA. Além disso, uma correlação entre variáveis em uma série estacionária é determinada apenas pela sua separação no tempo (ou seja, pelo seu “lag k”) e não pela sua absoluta posição no tempo. Isso significa que valores individuais em distintas porções da série podem ser diferentes embora essas duas porções da série se pareçam. A ESTACIONARIDADE DE COVARIÂNCIA é uma suposição menos restritiva que “estacionaridade restrita”, a qual implica que a distribuição total das variáveis na serie não muda com o tempo.

            A maior parte dos métodos que trata com não-estacionaridade de séries temporais está baseada em técnicas para remover ou filtrar a parte não-estacionária, deixando apenas a parte que pode ser tratada como estacionária. Em climatologia, utilizamos esse tipo de técnica quando desejamos conhecer o comportamento das anomalias de uma determinada variável. Existem duas aproximações para tratar-se com séries não-estacionárias. Ambas objetivam processar os dados de forma que permitam que uma subseqüente estacionaridade seja assumida. Por exemplo: subtração de uma função periódica média a partir dos dados sujeitos a um ciclo anual produziria uma nova série transformada com média constante igual a zero. A fim de produzir uma série com média e variância constante, seria necessário transformar essas anomalias em anomalias normalizadas:

 

 (2.1)

 

Onde z é a anomalia padronizada, calculada simplesmente pela subtração da média da amostra (que no caso seria igual a zero após remoção do ciclo anual) e dividindo pelo respectivo desvio padrão Sx, o qual varia. Por exemplo, não apenas as temperaturas tendem a ser mais frias durante o inverno, mas sua variabilidade tende a ser mais alta em regiões de latitudes médias. Uma aproximação possível para transformar séries de temperaturas mensais em uma série (aproximadamente) estacionária seria calcular as 12 médias mensais e os 12 desvios-padrão e então aplicar a Eq. (2.1) usando diferentes médias e desvios-padrão para o mês do calendário apropriado. Uma alternativa seria a estratificação dos dados. Isto é, poder-se-ia conduzir análises separadas de subconjuntos dos dados que são curtas o suficiente para serem consideradas aproximadamente estacionárias. Por exemplo, poder-se-ia analisar observações diárias para todas os dados disponíveis de janeiro para uma dada localização, assumindo-se que cada conjunto de 31 dias de dados é uma amostra que sofreu os mesmos processos físicos. Não necessariamente os processos seriam os mesmos para julho, ou fevereiro.

Um exemplo sobre o uso da Eq. 2.1 para expressar dados climáticos em termos de anomalias padronizadas é o cálculo do índice do El-Niño- Oscilação Sul(ENSO). Os valores do índice (veja figura abaixo) são derivados a partir de diferenças mensais nas anomalias padronizadas da pressão ao nível do mar em duas localizações: Tahiti, no Pacifico centrao; e Darwin, no Norte da Austrália. Assim, em termos da Eq. 2.1 o primeiro passo para calcular os pontos do gráfico é calcular a diferença  para cada mês durante o período de anos considerados. Na figura abaixo, estão mostrados o IOS desde 1993 para uma ilustração mais clara. A anomalia padronizada ZTahiti  para janeiro de 1997, por exemplo, é calculada subtraindo-se a pressão média para todos os janeiros em Taiti da pressão observada em janeiro de 1997. Esta diferença é então dividida pelo desvio-padrão, caracterizando uma variação ano-a-ano das pressões atmosféricas em Taiti.

Na realidade, os valores do índice mostrado na figura são, em geral, anomalias da diferença das anomalias. Assim, a Eq. 2.1 é aplicada 2 vezes ao conjunto original de dados. A primeira das duas padronizações é tomada para minimizar a influência das mudanças sazonais na média mensal das pressões e a variabilidade ano-a-ano destas médias. A segunda padronização calcula a anomalia padronizada da diferença zTahiti zDarwin  e garante que o índice resultante terá unidade de desvio-padrão. Obtém-se essa padronização considerando-se uma nova variável ZDz = série temporal de todos os Dz. Calcula-se a média dos Dz e seu desvio padrão. Existem algumas variações no jeito de se calcular o IOS. No caso do exemplo, extraído de http://www.bom.gov.au/climate/current/soi2.shtml  o IOS está multiplicado por 10. A linha vermelha mostra a média móvel de 5 meses (COMO SE DEFINE UMA MÉDIA MÓVEL DE 5 MESES?)

 

A interpretação física do IOS é que durante eventos El Niño o centro da precipitação no Pacífico tropical muda do Pacífico Oeste (próximo a Darwin) para leste ou o Pacífico Central (próximo a Taiti). Esta mudança está associada com as pressões à superfície acima da média em Darwin e mais baixas que a média em Taiti, o que junto produz um valor negativo no índice. Eventos excepcionalmente fortes (como o 82/83 e 97/98) produziram valores bem baixos no índice.  

Fig.1. índice de Oscilação Sul obtido pelo Bureau of meteorology na Australia. Fonte: http://www.bom.gov.au/climate/current/soi2.shtml . Leia o texto para entender como esse índice foi obtido ou entre no site acima para maiores detalhes.

 2.2 Análise de séries que contém tendência (CH)

            Tendência pode ser definida grosseiramente como “uma mudança de longo-termo no nível médio”. As tendências mais simples conhecida como “TENDÊNCIA LINEAR MAIS RUÍDO”, para qual a observação no tempo t é uma variável aleatória  Xt dada por:

 

Xt=a+bt + et   (2.2)

 

Onde a, b são constantes e et representa o termo de erro aleatório com média zero (conhecido também como ruído branco). O nível médio no tempo t é dado por mt=(a+bt), o que é algumas vezes chamado de “TERMO DE TENDÊNCIA”. Alguns autores preferem descrever o coeficiente angular b como a tendência. Em outras palavras, a tendência é a MUDANÇA NO NÍVEL MÉDIO por unidade de tempo.

A tendência na Eq. 2.2 é uma função determinística do tempo e é algumas vezes chamada de “TENDÊNCIA GLOBAL”. É geralmente não realística, e  por isso existe agora uma maior ênfase em TENDÊNCIAS LOCAIS onde os parâmetros a e b variam no tempo. As tendências também podem ser NÃO-LINEARES. Um crescimento exponencial, ou uma tendência quadrática são alguns exemplos.

Assim, tem-se que ter em mente que a análise de uma série temporal que exibe tendência depende (1) se o pesquisador quer exatamente medir essa tendência ou (2) se o pesquisador quer remover a tendência de forma a analisar flutuações locais. Isto também depende se o dado exibe SAZONALIDADE. Com dados contendo sazonalidade, é uma boa idéia começar calculando médias anuais sucessivas porque estas podem fornecer uma descrição simples das tendências implícitas. 

 2.2.1 Ajustando uma curva (CH)

             Um método comum de se tratar com dados não-sazonais que contém uma tendência, particularmente em dados diários, é ajustar uma função simples como uma curva polinomial (linear, quadrática, etc.), ou uma curva de Gompertz ou uma curva logística. Estas últimas têm sido empregadas em economia e biologia (crescimento de populações).

 A curva de Gompertz é dada por:

 

log xt = a + br (2.3)

 

onde a, b, r são parâmetros com 0 < r <1, enquanto a curva logística é dada por

 

xt=a/(1+be-ct)  (2.4)

 

Notem que, conforme t vai para infinito, xt na curva logística  tende assintoticamente para um determinado valor. Para entender mais sobre a construção de uma curva logística e sua aplicação, você pode consultar o site:

 http://astro.temple.edu/~dhill001/logistic/logistic.html

 o qual contém um demo explicativo.

 

 

Exercício -3 Testando tendências nas séries temporais e construindo uma série temporal com uma tendência

  •  Como alternativa, você pode utilizar os dados de TSM em [clima-II][dados]

a) Nos sites de dados do CPC obtenha uma série temporal mensal de dados de temperatura à superfície ou em 1000 hPa em regiões continentais (ex: SE do Brasil, NE dos Estados Unidos, Europa ocidental) e outra em regiões tropicais (continentais ou oceânicas) . Utilizando o Excel, identifique nos dados mensais a existência de tendências. Remova essa tendência e mostre os resultados. Calcule as médias anuais da temperatura e repita o procedimento. Compare o que você obteve para as diferentes séries e discuta seus resultados.

 

b) Usando a função no Excel que gera dados aleatórios (*random), construa uma série temporal que possua uma componente aleatória mais uma tendência. Faça esse procedimento supondo tendência: linear, quadrática, Gompertz e curva logística. Plote os resultados e discuta as diferenças.

 *Entre no Excel e clique em Tools, Data Analysis, Random (escolha distribuição Gaussiana, com média 0 e desvio-padrão 1). Se não aparecer “Data Analysis” quando clicar em Tools, então clique em Tools, Add Ins, e adicione Analysis ToolPak. Se o seu Excel for em Português, então entre em Ferramentas, Suplemento e adicione as análises que aparecerem nessa opção. Depois entre em 'Analise de dados' , 'gerar dados aleatórios'. Em qualquer caso, escolha o numero de variáveis igual a 1 e pelo menos 100 pontos. A distribuição Normal (ou Gaussian em Inglês)  e' a sugerida.

c) Exercício prático: utilizando dados paleoclimaticos (no link ‘dados’) determine a tendência do CO2. Remova-a dos dados e discuta seus resultados.

 2.3. Existência de sazonalidade nas séries temporais:

 A grande maioria das séries temporais de variáveis meteorológicas exibe variações com período anual. Por exemplo, a temperatura é usualmente maior no verão que no inverno, e, em algumas localidades, a precipitação possui um ciclo sazonal bem definido. O efeito sazonal pode ser aditivo ou multiplicativo. Um efeito sazonal aditivo é do tipo:

 

Xt = mt + St + et (2.5)

 

 Onde mt é o nível médio dessazonalizado no tempo t, St é o efeito sazonal no tempo t e et  é o erro aleatório. Evidentemente, a análise de séries temporais que exibem uma variação sazonal depende se se deseja medir esse efeito ou eliminá-lo. Por exemplo, suponha que o objetivo seja analisar as anomalias diárias na temperatura em um determinado ponto no globo durante um certo período (por exemplo, junho a agosto). A nossa premissa é que, a cada dia, a temperatura de uma localidade é determinada pelo ciclo solar aliado a variabilidades em outras escalas temporais. Se quisermos entender o papel dessas outras escalas temporais na modulação da temperatura ao longo da estação, devemos primeiro remover o efeito do ciclo sazonal causado por efeito de translação da terra em torno do sol. Assim, removido esse efeito, podemos analisar a temperatura a cada dia, comparando um dia com o outro. Veja que em algumas localidades, como veremos ao longo do curso, o ciclo anual da temperatura pode ser o ciclo de maior importância em termos de espectro, porém é, em geral, o mais bem conhecido e de pouco interesse. Um procedimento muito comum em meteorologia para se remover o ciclo anual é o seguinte (Hartmann and Michelsen, 1989, J. Atmospheric Sciences, 18, 2838-2862):

 1)      Suponha uma série temporal Xt,y , onde t=[1,365] dias e y=[1, total], total = número de anos que corresponde à série, por exemplo, 20 anos. No caso do exemplo, o fato de considerarmos t variando de 1 a 365 dias, significa que estamos desprezando anos bissextos. Essa suposição pode ser feita usando como aproximação que em anos bissextos o valor da variável no dia 28 de fevereiro é uma média entre 28 e 29 de fevereiro.  Outra alternativa é simplesmente eliminar o dia 29 (depende muito do que se está estudando).

2)      Uma possibilidade de remoção do ciclo anual é primeiro calcular uma média diária obtida nos 20 anos de dados:

 , a barra indica a média, xt é a observação no dia t e y representa o ano.

Em geral, quando fazemos esse procedimento, devido ao reduzido número de anos, a série temporal média apresenta pequenas oscilações que são o resultado de variabilidades interanuais as quais não são ‘alisadas’ quando procedemos à operação de média descrita acima. Assim, um procedimento sugerido em Hartmann e Michelsen (1989):

 

3)      O ciclo anual resultante  deve ser ‘alisado’ usando um filtro com pesos do tipo     1-2-1,  passado 300 vezes. O Número de vezes que se passa um filtro pode ser decidido investigando-se o comportamento final da série.

 

  •  O que é e como construir um filtro 1-2-1? (CH)

 A idéia é usar um FILTRO LINEAR o qual converte  uma  série temporal {xt} em outra    {yt} por uma operação linear:

 

(2.6)

 

onde  é o conjunto de pesos. Para alisar flutuações locais e estimar a média local, devemos escolher pesos tais que . Essa operação é freqüentemente chamada de MÉDIA MÓVEL (MOVING AVERAGE). As médias móveis são freqüentemente simétricas com s=q e aj=a-j. O exemplo mais simples de um filtro simétrico é do tipo:

 para r=-q,...,+q. O valor alisado de xt é dado por:

 

   (2.7)

 Note  que nesse caso, o peso em cada elemento é igual a 1. O filtro conhecido como 1-2-1 considera uma média móvel de três elementos, porém com pesos  na Eq. 2.6 iguais a 0.25, 0.5 e 0.25. Em ambas as bordas, o procedimento é calcular a média entre to e to+1 (borda inferior) e entre tf e tf-1 (borda superior). Este procedimento é bastante útil quando se deseja determinar as anomalias em relação ao ciclo sazonal e deve ser aplicado mesmo se considerarmos pêntadas.

 

 

Exercício -4 Determinando o ciclo sazonal nas séries temporais e calculando anomalias.

 (obs: caso esteja utilizando os dados de OLR dados em sala de aula consulte: [clima-II] [Dados][Dicas Exercicios]

 Nos sites de dados do CPC obtenha uma série temporal de dados diários de temperatura à superfície ou em 1000 hPa em regiões continentais subtropicais ou extratropicais, e em regiões tropicais sobre o continente  ou oceânicas. As séries temporais devem ter pelo menos 10 anos. Desconsidere anos bissextos (ou seja, eliminem o dia 29 de fevereiro, quando existir, calculando a média entre 28 e 29).

 

a) Utilizando o Excel ou programando na linguagem de sua escolha, calcule a média diária dos dados e plote as séries temporais médias. Discuta as eventuais diferenças observadas entre as duas séries. 

 

b) Aplique o filtro 1-2-1 conforme descrito acima NA SERIE TEMPORAL DAS MÉDIAS e plote novamente a série resultante.

 

c) Determine agora uma nova série temporal de anomalias, isto é, o valor observado menos o valor médio. Plote essa série temporal para os 3 primeiros anos. Discuta os resultados.

 

 

 

2.4 DOMÍNIO DE TEMPO E DE FREQÜÊNCIA  (WI)

             Existem duas aproximações fundamentais para a análise de séries temporais: análise no DOMÍNIO DO TEMPO e análise no DOMÍNIO DE FREQÜÊNCIA. Estas duas aproximações são processadas de forma bem diferente e podem ser vistas como bastante distintas. Contudo, não são independentes! Ao contrário, são métodos complementares que são ligados matematicamente.

             Os métodos de domínio temporal procuram caracterizar as séries de dados nos mesmos termos em que são observados e reportados. A ferramenta primária para a caracterização de relações entre valores de dados na aproximação do domínio temporal é a FUNÇÃO DE AUTO-CORRELAÇÃO. Matematicamente, as análises do domínio temporal operam no mesmo espaço dos valores dos dados.

             As análises no domínio de freqüência representam as séries de dados em termos de contribuições ocorrendo em diferentes escalas temporais, ou freqüências características. Cada escala temporal é representada por um par de funções seno e co-seno. A série completa é considerada como resultante de efeitos combinados de uma coleção de ondas senoidais e co-senoidais oscilando em diferentes taxas. A soma destas ondas reproduz os dados originais, mas comumente é a intensidade relativa das componentes individuais das ondas que são de interesse primário. Análises no domínio de freqüência ocorrem no espaço matemático definido por esta coleção de senos e co-senos. Isto é, as análises no domínio de freqüência envolvem transformação dos valores de n dados originais em coeficientes que multiplicam um igual número de funções periódicas (os senos e co-senos). Estes métodos são comumente aplicados em séries temporais atmosféricas e são de grande valia para vários propósitos.

2.4.1 Função de auto-correlação (JW)

             Em estatística clássica as observações xt (t=1,2,...,N) de alguns parâmetros físicos podem ser consideradas independentes desde que os experimentos que geraram essas observações sejam fisicamente independentes. Se a distribuição de probabilidade fx(x) associada com as observações é NORMAL ou GAUSSIANA, a mesma pode ser completamente caracterizada pela sua média:

 

m=E[X]=    (2.8)

 

e sua variância:

 

 

  (2.9)

 

A média mede a localização ou centro de gravidade da distribuição e a variância a sua variabilidade em torno da média.

            Se as observações xt formam parte da série temporal, então apenas se o processo que gerou os dados for puramente aleatório os valores vizinhos serão independentes. Em geral, os valores vizinhos de uma série temporal são CORRELACIONADOS. Assim, além de se especificar a média m e a variância σ2, é necessário no caso de uma série Normal estacionária que se especifique a função de auto-covariância:

 

   (2.10)

  

Na prática, a função de auto-covariância pode ser estimada por :

 

   (2.11)

 

onde,                                       

 

   (2.12)

 

 

é a média da série observada. O plot de c(k) versus k (conhecido como ‘lag’ ou intervalo no tempo) é chamado de FUNÇÃO DE AUTOCOVARIÂNCIA AMOSTRAL da série temporal. Algumas vezes, é conveniente quando comparamos séries com diferentes escalas de medida, normalizarmos a Eq. (2.11) dividindo pela variância c(0), de forma a obtermos a FUNÇÃO DE AUTOCORRELAÇÃO AMOSTRAL:

 

  (2.13)

 

o que é equivalente a:

               (2.13b)

 

 O plot de r(k) versus k é também conhecido como “Correlograma”.  A função de auto-correlacao é útil em algumas situações porque fornece uma visão do jeito como dependência da série cai com o ‘lag’ ou separação k entre pontos da série. Entretanto, a função de auto-correlação é as vezes muito difícil de interpretar como veremos a seguir.

  • OBSERVAÇÕES

 1.      NOTEM QUE EXISTE POUCO SIGNIFICADO EM SE CALCULAR rk PARA VALORES DE k MAIORES QUE N/4

 2.      QUANDO N NÃO É MUITO GRANDE, É PREFERÍVEL CALCULAR A AUTO-COVARIÂNCIA COMO:

 

  •  Exemplos de correlogramas podem ser vistos em CH. Algumas recomendações e observações de CH:

a)      Séries aleatórias: Se uma série é completamente aleatória, então para grande N, r(k) @ 0 para todos os valores diferentes de zero de k.

b)      Correlação de curto-termo. Séries estacionárias freqüentemente exibem correlação de curto-termo caracterizada por um valor de r(1) razoavelmente alto, seguido por uns poucos coeficientes os quais, embora maiores que zero, tendem a ficar sucessivamente menores. Valores de r(k) para “lags” maiores (intervalos de tempo maior) tendem a ser aproximadamente iguais a zero. Séries que produzem esse tipo de correlograma são aquelas que uma observação acima da média tende a ser seguida por uma ou mais observações acima da média, e analogamente para observações abaixo da média.

c)      Séries com alternâncias: Se uma série temporal tem tendência a alternar, com sucessivas observações em diferentes lados da média geral, então o correlograma também tende a alternar. O valor de r(1) será negativo. Contudo, o valor de r(2) será positivo uma vez que as observações no lag 2 tenderão a estar do mesmo lado da média.

d)      Séries não-estacionárias: Se a série contém uma tendência, então os valores de r(k) não caem para zero exceto para valores de “lag” (intervalo de tempo) muito altos. Isto ocorre porque uma observação de um lado da média geral tende a ser seguida por um grande número de observações do mesmo lado da média por causa da tendência. Note que pouco pode ser inferido por um correlograma desse tipo porque a tendência domina todas as outras características. Por essa razão, note que a função de auto-correlação só é útil para séries temporais ESTACIONÁRIAS. Por isso as tendências nas séries temporais devem ser removidas  antes de proceder à análise de auto-correlação.

e)      Flutuações sazonais: Se a série temporal contém uma flutuação sazonal, então o correlograma também exibirá uma oscilação na mesma freqüência. Por exemplo, com observações mensais, r(6) será grande e negativo enquanto r(12) será grande e positivo. Em particular, se xt segue um padrão senoidal então r(k) também seguirá o mesmo padrão. Por exemplo, se:

 

   (2.14)

 

onde  é uma constante e a freqüência w é tal que 0< w < p. Pode ser demonstrado que (Exercício 2.3 CH):

 

 para N grande

 

geralmente, um correlograma desse tipo tem pouca utilidade prática. Se a variação sazonal for removida, então o correlograma pode fornecer alguma informação útil.

f)        Pontos Aberrantes (“outliers”): Se a série contém um ou mais pontos aberrantes, o correlograma pode ser seriamente afetado. Neste caso, é recomendável que os pontos aberrantes sejam ajustados de alguma forma antes de começar uma análise formal. Por exemplo, se existe um ponto aberrante na série temporal e este não é ajustado, então o plot de xt contra xt+k conterá dois pontos extremos os quais irão fazer com que os coeficientes de correlação amostral caiam para zero. Se existirem dois pontos aberrantes este efeito é ainda mais notável, exceto quando o “lag” iguala-se à distância entre os pontos aberrantes. Quando isso acontece, para esse lag pode ocorrer um alto coeficiente de auto-correlação.

 ________________________________________________________________________

Exercício-6: Determinando a função de auto-correlação para diferentes séries temporais.

Aconselha-se que os dados sejam gerados dentro do Excel (por exemplo), mas que o estudante se entusiasme a fazer um programa simples, em qualquer linguagem, para o cálculo da função de auto-correlação.

 

a)      Utilizando a função randômica do Excel, gere uma série temporal com 365 pontos aleatórios e faça o correlograma dessa série.

b)      Adicione uma tendência linear na série randômica e recalcule o correlograma. Compare com o observado no item anterior e discuta os resultados

c)      Adicione uma oscilação do tipo cossenoidal na série do item (a) e recalcule o correlograma. Compare com o observado no item (a) e no item (b)      

d)      Adicione pontos aberrantes aleatoriamente (alguns valores com +3 desvios-padrão em relação à média) e recalcule o correlograma. Mostre diferenças com respeito ao obtido nos itens anteriores.

e) Exercício pratico com series observadas: calcule a auto correlação da serie paleoclimática de radiação solar (veja no link 'dados'). Discuta seus resultados.

  ___________________________________________________________________________ 

Home ] Up ]

Send mail to leila@model.iag.usp.br with questions or comments about this web site.
Last modified: 11/08/05