Home Up

 

 

  • CONTINUAÇÃO PROBABILIDADE

 

  • 5. DISTRIBUIÇÕES CONTÍNUAS (Wilks, cap 4)

 

A maioria das variáveis atmosféricas pode tomar qualquer valor continuo. Temperatura, precipitação, ventos, etc, são pelo menos conceitualmente não restritas a valores inteiros.  Muitas distribuições teóricas contínuas existem. Vamos discutir algumas usadas mais freqüentemente em ciências atmosféricas.

 

5.1. Funções de distribuição e Valores esperados.

 

A diferença entre as distribuições contínuas e discretas é que as distribuições discretas envolvem somas sobre uma função de probabilidade descontínua (lembrem-se do que vimos com distribuições binomiais) enquanto a probabilidade para variáveis aleatórias contínuas envolve integração sobre funções contínuas denominadas FUNÇÃO DENSIDADE DE PROBABILIDADE, ou (PDFs). Convencionalmente, a PDF para uma variável aleatória X é denominada f(x).

 

.                      (5.1)

 

Uma função não pode ser uma PDF a menos que satisfaça essa equação. Além disso, f(x) precisa ser não-negativo para todos os valores de x. Nenhum limite específico de integração foi incluído na Eq. 5.1 porque diferentes densidades de probabilidades são definidas sobre diferentes intervalos da variável aleatória.

 

As funções de densidade de probabilidade são os contínuos, teóricos análogos dos familiares “histogramas”. Contudo, o significado de PDF é freqüentemente confundido, precisamente por causa dessa analogia. Em particular, a altura da função de probabilidade f(x), obtida quando é avaliada a um particular valor da variável aleatória, não tem significado no sentido probabilidade. A confusão cresce porque raramente é notado que a probabilidade é proporcional à área, e não à altura, em ambos a PDF e o histograma.

 

Fig. 5.1. PDF hipotética f(x) para uma variável aleatória não negativa, X. A avaliação de f(x) não tem, por si própria, significado em termos de probabilidades para valores específicos de X. Probabilidades são obtidas pela integração de porções de f(x). (adaptado de Wilks, 1995, chap. 4)

 

A fig. 5.1 mostra uma PDF hipotética, definida para valores não negativos de uma variável aleatória X. Enquanto a função densidade de probabilidade pode ser avaliada para valores específicos da variável aleatória, digamos, X=1, por si própria, f(1) não tem significado em termos de probabilidades para X. De fato, uma vez que X varia continuamente sobre algum segmento dos números reais, a probabilidade de X=1 exatamente é infinitesimalmente pequena. Tem significado, contudo, pensar sobre calcular probabilidades para valores de uma variável aleatória em uma vizinhança não infinitesimal em torno de X=1. A Fig. 5.1 mostra a probabilidade de X entre 0.5 e 1.5 como uma integral da PDF entre estes limites.

Uma idéia relacionada com a PDF é aquela de uma função de distribuição cumulativa (CDF). A CDF é uma função da variável aleatória X, dada pela integral da PDF até um valor particular de x. Convencionalmente, CDFs são denominadas F(x):

 

                               (5.2)

Novamente, os limites específicos de integração foram omitidos para indicar que a integral é realizada entre o valor mínimo permitido de X para um valor particular, x, que é o argumento da função. Uma vez que os valores de F(x) são probabilidades, 0≤F(x) ≤1. Funções análogas também chamadas CDFs, podem ser obtidas para variáveis aleatórias discretas pela soma ao invés de integração.

A Eq. 5.2 transforma um valor particular da variável aleatória para uma probabilidade cumulativa. O valor da variável aleatória corresponde a uma probabilidade cumulativa e é dado pelo inverso da CDF

 

F-1(p)=x(F),                                      (5.3)

 

Onde p é a probabilidade acumulada. Isto é, a Eq. 5.3 especifica que o limite superior dae integração na Eq. 5.2 dará uma probabilidade cumulativa particular p=F(x). Uma vez que a inversa da CDF especifica o quantil dos dados correspondentes a uma probabilidade particular, a Eq. 4.13 é algumas vezes chamada de função quantil. Dependendo da distribuição teórica que está sendo utilizada, pode ou não ser possível escrever uma fórmula explícita para a CDF ou sua inversa.

Esperanças estatísticas também são definidas para variáveis contínuas. Assim, o valor esperado de uma função de variável aleatória é dado pela integral:

 

                                                  (5.4)

 

Para g(x)=x, E[X]=μ é a média da distribuição cuja função densidade é f(x). Similarmente, a variância de uma variável contínua é dada pela esperança da função g(x)=(x-E[X])2 ,

        (5.5)

 

5.2 Distribuição Gaussiana

 

A distribuição Gaussiana tem um papel central na estatística clássica, e tem muitas aplicações nas ciências atmosféricas. Algumas vezes é referida como “distribuição normal”, embora este nome tenha uma conotação não desejada, de modo que desvios a partir dela são ‘não naturais”. Sua PDF é a curva familiar conhecida como “forma de sino”.

 

A função densidade de probabilidade para a distribuição Gaussiana é dada por:

 

                                             (5.6)

               

Os dois parâmetros da distribuição são a média, μ, o desvio padrão, σ. Variáveis aleatórias Gaussianas são definidas na inteira linha real, tal que a Eq. (5.6) é válida para -< x < +. É justamente o gráfico da equação 5.6 que resulta na curva em forma de sino

 

 

Fig. 5.2 Função densidade de probabilidade para uma distribuição Gaussiana. A média, μ localiza-se no centro desta distribuição simétrica, e o desvio-padrão σ controla o grau para o qual a distribuição se ‘espalha’. Aproximadamente toda a probabilidade está dentro de ± 3 σ da média

 

Esta figura claramente mostra que a média localiza o centro dessa distribuição simétrica e o desvio-padrão controla o grau para o qual a distribuição se espalha. Aproximadamente toda a probabilidade está dentro de ±3σ a partir da média.

 

Para se usar a distribuição Gaussiana para representar o conjunto de dados é necessário ajustar os dois parâmetros da distribuição aos dados. Boas estimativas destes parâmetros são obtidas utilizando-se o método dos momentos. O primeiro momento seria a média, μ, e o segundo momento é a variância, σ2. Portanto, podemos estimar  μ como uma média simples e σ como o desvio-padrão.

Se os uma amostra de dados segue aproximadamente uma distribuição Gausssiana, então a estimativa desses parâmetros irá fazer com que a Eq. 5.6 se comporte exatamente como os dados. Praticamente, contudo, a integração analítica de (5.6) É IMPOSSÍVEL, tal que a fórmula para a CDF, F(x) para a distribuição Gaussiana não existe.

Assim, as probabilidades Gaussianas são obtidas de 2 jeitos:

1)       Se as probabilidades são necessárias como parte de um programa de computador, a integral da Eq. 5.6 pode ser resolvida por algorítmos como os descritos em (Abromowitz e Segun, 1984 – Pocketbook of Mathematical Functions. Verlag Harri, Frankfurt, 468pp.)

2)       Se apenas algumas probabilidades são necessárias, então podemos fazer uso de tabelas para calculá-las (Essas tabelas são encontradas na maioria dos livros de estatística)

Em ambos casos, uma transformação dos dados será requerida. Isto porque as tabelas de distribuição de probabilidade e algoritmos dizem respeito à distribuição Gaussiana “padrão”, ou seja aquela que tem μ =0 e σ=1. Convencionalmente, a variável aleatória descrita por uma distribuição Gaussiana padrão é denominada de Z. Sua densidade de probabilidade se simplifica a:

                                        (5.7)

 

Qualquer variável Gaussiana aleatória, X, pode ser transformada para uma forma padrão Z (ou, como dizemos usualmente, pode ser padronizada) subtraindo-se sua média e dividindo-se pelo seu desvio padrão.

 

                        (5.8)

 

Quando estimamos os coeficientes da Gassiana pelos dados, então utilizamos a seguinte notação (notem que agora a variável transformada é denotada como “z”):

                           (5.9)

 

NOTA IMPORTANTE: VEJAM QUE z É ADMENSIONAL!!!!

 

  • CHAMAMOS TAMBÉM  z DE ANOMALIA PADRONIZADA E TERÁ, PORTANTO, MÉDIA ZERO E DESVIO PADRÃO S=1. CONTUDO O DADO TRANSFORMADO NÃO SEGUIRÁ A DISTRIBUIÇÃO GAUSSIANA, A MENOS QUE A VARIÁVEL SEM SER TRANSFORMADA SEGUIR!!!!!

 

______________________________

EXEMPLO (1):

Suponha que uma distribuição Gaussiana para o mês de janeiro em uma certa localidade seja caracterizada por μ=22.2º C e σ=4.4º C. Suponha que você esteja interessado em avaliar a probabilidade de que um certo mês de janeiro tenha temperaturas menores ou iguais a 21.4º C. O primeiro passo para a solução desse problema é calcular o valor padronizado z = (21.4º C – 22.2º C)/4.4º C = -0.18. Assim, a probabilidade de uma temperatura igual ou mais fria que 21.4º C é a mesma que a probabilidade de um valor de Z igual ou menor que -0.18: Pr{X≤21.4º C} = Pr{Z≤ -0.18}. Podemos encontrar essa probabilidade olhando para uma tabela que contenha probabilidades acumuladas para a distribuição Gaussiana. Você deve procurar a linha que mostra -0.1 e a coluna que mostra 0.08, e aí você tem a probabilidade procurada 0.4286. Se a área sob a curva é igual a 1, isso significa que tem-se uma razoável probabilidade de se encontrar uma temperatura de 21.4º C em janeiro nessa localidade.

Vocês também vão notar na tabela distribuída em sala de aula que não existem linhas para valores positivos de z. Isto não é necessário porque a distribuição Gaussiana é simétrica. Isto significa, por exemplo, que Pr{Z≥ + 0.18} = Pr{Z≤-0.18}, uma vez que existe iguais áreas sob a curva na Fig. 5.2. Assim, podemos aplicar a seguinte idéia para probabilidades de Z>0:

 

Pr{Z ≤ z} = 1 – Pr{ Z ≤ -z},  (5.10)

 

Assim, podemos obter Pr{Z≤+0.18} = 1 – 0.4286 = 0.5714. Podemos agora encontrar qual seria essa temperatura, invertendo a Equação (5.9), ou seja, achando

 

 = 26.8º C

 

Ou seja, temos a probabilidade de 0.574 de que a temperatura média em Janeiro naquela localidade em questão não será maior que 26.8º C.

 

EXEMPLO (2).

Queremos agora saber qual a probabilidade de que a temperatura naquela localidade esteja entre 20 e 25º C. A solução desse problema pode ser obtida calculando z25 = (25.0o C – 22.2º C)/4.4º C = 0.64  e z20 = (20.0o C – 22.2º C)/4.4º C = -0.50. Portanto, da tabela fornecida, extraímos: Pr{20º C < T ≤ 25º C} = 0.739 – 0.309 = 0.430.

 

EXEMPLO 3.

Queremos saber agora qual a temperatura que corresponde ao primeiro decil. Utilizamos novamente a table para achar o valor de probabilidade 0.10. Esta probabilidade cumulativa corresponde quase exatamente a z = -1.28  e = (4.4)(-1.28) +22.2= 16.6º C

 

DISTRIBUIÇÃO GAMA:

 

Idéias gerais:

Muitas variáveis atmosféricas são distintamente assimétricas, e possuem uma assimetria para a direita. Muitos de vocês encontraram essas distribuições quando analisaram seus dados para o seminário. Um dos exemplos mais comuns dessa situação é a precipitação. Sabemos que não existem precipitações negativas, certo? Então vamos analisar a seguinte situação: suponha que uma certa localidade tenha uma média de precipitação diária de 1.96 in e desvio-padrão de 1.12 in. Utilizando a tabela de distribuições acumuladas Gaussiana podemos calcular a probabilidade de precipitações negativas como Pr { Z ≤ (0.00 – 1.96)/1.12} = Pr{Z≤ -1.75} = 0.040. Esta probabilidae calculada não é especialmente grande, mas por outro lado não pode ser considerada zero. AGORA, SABEMOS PELA NATUREZA QUE PRECIPITAÇÕES NEGATIVAS SÃO IMPOSSÍVEIS!

 

Uma escolha comum para representar distribuições contínuas que são assimétricas é utilizar a distribuição GAMMA. Esta distribuição é definida pela PDF:

 

,  onde x, α, β > 0              (5.11)

 

 

Os dois parâmetros da distribuição são α,  chamado PARÂMETRO DE FORMA , e β O PARÂMETRO DE ESCALA. A quantitdade Γ(α) é o valor da função matemática padrão conhecida como FUNÇÃO GAMMA, definida pela integral:

                     (5.12)

 

Fig. 5.3. Funções densidade de probabilidade GAMMA para 4 valores do parâmetro de forma α (adaptado de Wilks, cap 5)

 

Em geral, a função gamma precisar ser avaliada numericamente, ou aproximada usando valores tabulados como os dados acima. A função gamma satisfaz a recorrência fatorial:

 

                          (5.13)

 

Isto permite que a tabela acima seja utilizada indefinidamente. Por exemplo, Γ(3.5)= Γ(2.5) Γ(2.5)=(2.5)(1.5) Γ(1.5)=(2.5)(1.5)(0.8862)=3.323.

 

A PDF da distribuição Gamma pode apresentar uma grande variedade de formas, dependendo, portanto, do parâmetro de forma α. Para valores de α muito altos, a distribuição gamma tende à Gaussiana

 

O parâmetro de escala β, tem a função de ESTICAR OU ENCOLHER (isto é escalonar) a função de densidade gamma para a direita ou esquerda, dependendo das magnitudes gerais dos valores dos dados representados.

 

Existem 2 aproximações para os estimadores da distribuição Gamma                que são fáceis de calcular à mão. Ambas empregam a estatística:

 

,             (5.14)

 

1)       A primeira das duas aproximações (conhecida por estimadores de Thom – Thom (1958)) para o parâmetro de forma é dada por:

                (5.15)

 

                                                 (5.16)

 

2)       A segunda aproximação é polinomial e utilizamos as seguintes equações:

 

                   (5.17)

 

Para 0≤ D ≤0.5772,

 

Ou

                         (5.18)

 

Para 0.5772 ≤ D ≤ 17

 

O parâmetro de escala é medido como na Eq. 5.16.

Como no caso da distribuição Gaussiana, a função densidade de probabilidade Gama não é analiticamente integrável. A distribuição Gama precisa portanto ser obtida pelo calculo das aproximações da CDF (isto é, a integral da 5.11) ou a partir das probabilidades tabuladas. A tabela de distribuição de probabilidades Gama será fornecida em sala de aula (ou pode ser encontrada no final do livro texto – tabela B-2). Em qualquer caso, a distribuição de probabilidades gama será disponível para uma distribuição gama padrão com β=1. Portanto, é sempre necessário fazer uma transformação para re-escalonar a variável X de interesse (caracterizada por uma gama com parâmetro de escala arbitrário β) para a variável

                 (5.19)

 

Que segue uma distribuição gama com β=1. A variável padrão ζ é admensional (lembre-se que β possui a dimensão de seus dados). O parâmetro de forma α  será o mesmo para X ou para ζ. Veja que este procedimento é equivalente à transformação para a variável padronizada z no caso da distribuição Gaussiana.

Entretanto, as PROBABILIDADES CUMULATIVAS para a distribuição gama padrão são dadas pela função matemática conhecida como “FUNÇÃO GAMMA INCOMPLETA, P(α,ζ )= Pr {Θ≤ζ}=F(ζ). Esta é a função que foi utilizada para calcular as probabilidades que aparecem na tabela B.2. Ou seja, as probabilidades cumulativas para a distribuição gama padronizada na tabela B.2 estão arranjadas de forma INVERSA DO QUE É FEITO COM AS PROBABILIADDES GAUSSIANAS. Quer dizer, os quantis (ou valores transformados ζ) é que estão apresentados no corpo da tabela, enquanto as probabilidades cumulativas é que estão sendo mostradas na primeira linha da tabela. Na primeira coluna da tabela, a entrada é o valor de alfa.

 

Vamos analisar o exemplo dado pelo Wilks. Considere a tabela de dados da precipitação de Janeiro para a cidade de Ithaca durante 50 anos (1933-1982). Queremos avaliar o quão ‘não usual” foi a precipitação observada em Ithaca em 1987 (fornecida numa tabela separada). Para esta finalidade, procedemos da seguinte maneira:

1)       Calculamos a média aritmética como de costume (no presente caso, a média é igual a 1.96in)

2)       Calculamos o valor da média dos logaritmos dos totais mensais (igual a 0.5346)

3)       Obtemos o valor de D como na Eq. 5.14 (igual a 0.139)

4)       O método de Thom (Eq. 5.15 e 5.17) estimam α=3.76 e β=0.52in.

5)       Avaliamos qual usual foi a precipitação em janeiro de 1987 (=3.15in) com a ajuda da Tab. B2 para os parâmetros da Gama que obtivemos anteriormente. Para esta finalidade, vamos primeiro fazer a transformação de variáveis indicado na Eq. 5.19. No presente caso, ζ=3.15in/0.52in= 6.06.

6)       O passo seguinte é encontrar no corpo da tabela onde se encontra a probabilidade 6.06 para α=3.76. O valor mais próximo de entrada de α é α=3.75. Vamos olhar na linha correspondente onde está a probabilidade 6.06. Esta se encontra entre os valores tabulados F(5.214)=0.90 e F(6.354)=0.90. A interpolação nos dá F(6.06)=0.874. Ou seja, a probabilidade de chover em janeiro menos ou igual a 3.15 in em Ithaca é de 0.874. O complementar (1- 0.874) = 0.126 é a probabilidade de chover mais do que esse valor (a qual é equivalente a aproximadamente 1 chance em 8 (1/8).

A tabela B2 pode também ser utilizada para inverter a CDF gama para encontrar valores de precipitação correspondendo a probabilidades cumulativas ζ=F-1(p). Valores dimensionais de precipitação são então recuperados para reverter a transformação na Eq.  5.19. Por exemplo, vamos considerar a estimativa da mediana para a precipitação de janeiro em Ithaca. Esta corresponderá ao valor de ζ satisfazendo F(ζ) =0.50, o qual, na coluna correspondente a α=3.5 na Tab. B2 é 3.425. O correspondente valor dimensional da precipitação é dado pelo produto ζ β=(3.425)(0.52in)=1.78in. Por comparação, a mediana amostral da precipitação obtida da tabela com os dados é igual a 1.72in. Não é surpresa que a mediana é menos que a média de 1.96in, uma vez que a distribuição é alongada para a direita. (positivamente alongada ou skewed). O engraçado nesta idéia  (o que está intimamente ligado às características de uma distribuição Gama) é que valores mais baixos do que a média são mais prováveis de ocorrer do que valores acima da média (ou normal).

 

 

 

Home ] Up ]

Send mail to leila@model.iag.usp.br with questions or comments about this web site.
Last modified: 11/08/05