Home Up

 

Teste Correlacao
Test Anomalias
Dif. medias
Tabela t-student
Tabela chi-square
Tabela -z normal

TESTES DE HIPÓTESE  OU TESTES DE SIGNIFICÂNCIA ÚTEIS EM CIÊNCIAS ATMOSFÉRICAS

INTRODUÇÃO AO PROBLEMA

            Em primeiro lugar, vamos discutir brevemente para que serve um teste de significância em ciências atmosféricas. Exemplos de aplicação são muitos, mas vamos citar algumas situações mais corriqueiras. Comumente olhamos para campos de anomalias e gostaríamos de fazer uma média desses campos que caracterize uma certa situação que estamos interessados (por exemplo, anomalias da superfície do mar em anos chuvosos sobre sul do Brasil). Em geral, estaremos usando um conjunto finito de dados e queremos saber se aquele valor positivo/negativo eventualmente encontrado em uma certa região pode ser interpretado fisicamente ou é algo que surgiu devido à limitada amostragem. O problema é fácil de entender se imaginarmos que naquele ponto em que o valor absoluto da anomalia foi alto o desvio-padrão também é alto. Em outras palavras, é possível que em um determinado dia/mês/ano/ (dependendo da resolução temporal dos dados) o valor do módulo da anomalia foi tão alto que acabou influenciando a média da anomalia. Mas isso não significa um padrão que esteja ocorrendo na maior parte dos casos de chuva intensa que estamos interessados. Obviamente, se interpretarmos esse valor como correto estaremos cometendo um erro grosseiro que pode atrapalhar a nossa análise.

            Outra situação bastante comum diz respeito ao cálculo de correlações. Suponha que estejamos correlacionando as anomalias temperatura em um certo ponto no espaço com as anomalias de temperatura do oceano (TSM) em todo globo. Como decidir se podemos ou não interpretar uma correlação? Obviamente, alguém poderia dizer “vamos utilizar apenas as correlações lineares de Pearson maiores do que 0.7 porque nos dariam um coeficiente de determinação maior do que 0.5, o que indica que a aproximação linear é a melhor”. Isso está correto se o que queremos é determinar que a relação linear entre a variável x1 e x2 é a melhor para a explicação da variância total dos seus dados. Mas podemos apenas querer saber se existe uma variação conjunta das variáveis analisadas (no exemplo precipitação e TSM) em um determinado sentido, não necessariamente utilizar um modelo linear para explicá-la. Assim, gostaríamos de saber se uma determinada correlação observada pode ser interpretada como diferente de zero. Isso vai depender das características da nossa amostra, como veremos depois.

            Ainda, é comum analisarmos distribuições de freqüências em situações distintas e gostaríamos de saber se podemos ter confiabilidade que uma certa classe de situações pode ser considerada diferente da outra. Por exemplo, digamos que estejamos interessados em saber se em uma certa localidade, durante os diferentes os episódios El Niño/La Niña/Neutro, o número de dias com temperatura acima de um certo percentil ocorre com maior freqüência. O problema de decidir sobre a existência de uma ‘modulação’ dos extremos de temperatura pelas fases do El Niño/Oscilação Sul (ENOS) poderia ser resolvido calculando-se a freqüência de dias acima do percentil de temperatura em cada uma das fases do ENOS. Contudo, se temos mais anos de El Niño que La Niña ou Neutro, como ter uma idéia se as diferenças eventualmente observadas na amostra podem ser consideradas como representativas de uma população de casos de ENOS? Assim, precisamos assumir algumas hipóteses e testá-las para termos um pouco mais de confiança em concluir relações a partir de nossos dados.

            Muitos exemplos existem que poderiam ser citados, como o cálculo de tendências, análises de variâncias, medianas, componentes principais, e uma infinidade de outras estatísticas que costumamos utilizar. É sempre bom ter em mente que quando trabalhamos com dados e amostras, utilizamos métodos estatísticos para analisá-los e isso implica em termos que aplicar testes de significância para depois (e só depois) nos aventurarmos em atribuir explicações físicas ao que estamos observando! Bons livros de estatística possuem a maioria dos testes que precisamos. Consulte-os antes de qualquer passo em falso! No presente curso iremos falar apenas de alguns poucos. Parte das discussões que se seguem encontram-se na referência WI, capítulo 5. Exercícios e outras aplicações podem ser encontrados em livros como os da Coleção Schaum de estatística.

 

1.      Testes Paramétricos versus Não-Paramétricos

 

·        TESTES PARAMÉTRICOS: são os testes conduzidos em situações onde sabemos ou assumimos que uma teoria particular de distribuição é apropriada para representar os dados e/ou o teste estatístico. Na realidade, o termo paramétrico pode ser interpretado como sinônimo para “Teórico” com respeito às distribuições de probabilidade. Por exemplo, alguns testes estatísticos relacionados a um certo processo físico de interesse podem se reduzir a um teste de um parâmetro da distribuição, tal como a média μ da distribuição Gaussiana (vamos entender melhor adiante o que isso significa).

 

·        TESTES NÃO-PARAMÉTRICOS: São conduzidos sem assumirmos qualquer particular forma teórica para aquela dada situação.

 

2.      Conceito de distribuição Amostral

Esse conceito é fundamental para todos os testes estatísticos. Uma distribuição amostral para uma dada estatística é a distribuição de probabilidade descrevendo conjunto-a-conjunto a distribuição dessa estatística. Obviamente, isso implica que uma distribuição também sofre variações amostrais. Esse conceito também é aplicado ao teste de hipótese que será realizado, como esclareceremos a seguir.  Em outras palavras, o valor de uma estatística calculado para um conjunto de dados será, em geral, diferente da mesma estatística calculada para outro conjunto de dados da mesma espécie! Por exemplo, a temperatura média em janeiro pode ser obtida fazendo a média diária das temperaturas em um local particular para um dado ano. Esta estatística muda ano a ano, porque depende da variabiliadade da sua série temporal que pode depender de diversos fatores.

            As variações aleatórias de uma estatística amostral podem ser descritas usando-se as distribuições de probabilidade. Assim, as estatísticas amostrais podem ser vistas como sendo retiradas das distribuições de probabilidade. Estas distribuições são chamadas distribuições amostrais e fornecem o modelo de probabilidade descrevendo as freqüências relativas possíveis da estatística.

 

3.      Os elementos de qualquer teste de hipótese

Abaixo encontram-se os 5 passos que devem ser seguidos para realizar os testes de hipótese:

 

i.               Identificar o teste estatístico que é apropriado para os dados em questão. O teste estatístico é a quantidade calculada a partir dos valores dos dados (como “dados” entendam as estatísticas avaliadas como médias, correlações, freqüências, tendências, etc.) que estarão sujeitos ao teste. Em testes paramétricos utilizaremos uma distribuição teórica. Por exemplo, diremos que a média amostral obtida em qualquer conjunto de dados, (por exemplo, as temperaturas médias obtidas de dados diários em todos os Janeiros) segue uma certa distribuição cujas características nós conhecemos de antemão. Se o teste for não paramétrico, temos uma certa liberdade em definir o teste porque não vamos assumir nenhuma distribuição conhecida.

ii.             Definir a HIPÓTESE NULA, usualmente denominada de Ho. A hipótese Ho constitui uma referência lógica especifica para podermos julgar o teste estatístico observado. Em geral, escolhemos como hipótese nula aquela que gostaríamos de rejeitar e provar o contrário (por exemplo, no caso da correlação a hipótese nula seria aquela em que a correlação populacional é zero, e nada podemos afirmar sobre a existência de uma correlação entre as amostras utilizadas para a análise que efetuamos) .

iii.            Definir a HIPÓTESE ALTERNATIVA, HA. Muitas vezes a hipótese alternativa será tão simples quanto “Ho não é verdade”, embora hipóteses alternativas mais complexas possam ser feitas.

iv.           Obter a DISTRIBUIÇÃO NULA, a qual é simplesmente a distribuição amostral do teste estatístico dado que a hipótese nula é verdadeira. Dependendo da situação, a distribuição nula pode ser uma distribuição cujos parâmetros eu conheço (por exemplo, uma distribuição normal, com média μ e desvio-padrão σ, uma distribuição t-student, uma distribuição χ2, etc) ou uma distribuição empírica obtida pela re-amostragem dos dados. Por exemplo, tomar uma série temporal de N dados e ordená-la de forma aleatória 1000 vezes e para cada uma calcular uma tendência. Esse procedimento me daria uma distribuição nula de tendências provinda do próprio conjunto de dados. IDENTIFICAR A DISTRIBUIÇÃO NULA É UM PASSO CRUCIAL  PARA DEFINIR O TESTE DE HIPÓTESE.

v.             Comparar a estatística observada com a distribuição nula. Se o teste estatístico cai numa região suficientemente improvável da distribuição nula, então Ho é rejeitado como improvável de ser verdade, dado evidências observacionais. Se, por outro lado, eu fizer o teste e cair numa região “ordinária” da distribuição nula, então não posso rejeitar Ho. Notem apenas que não rejeitar Ho não significa que a hipótese nula é verdade, apenas que existe INSUFICIENTE evidência para rejeitar a hipótese Ho. Quando Ho não é rejeitada podemos realmente dizer que é “Não inconsistente” com os dados observados. Não se preocupe se você não está entendendo nada sobre a aceitação de hipóteses  porque compreenderá melhor com exemplos.

 

  1. Nível de testes e Valores p

 

A região “suficientemente improvável” da distribuição nula referida como “nível de rejeição” ou simplesmente “nível” do teste. A hipótese nula é rejeitada se a probabilidade (representada pela distribuição nula) do teste estatístico observado, e TODOS OUTROS RESULTADOS PELO MENOS DESFAVORÁVEIS PARA A HIPÓTESE,  for menor que ou igual ao nível do teste. O nível do teste é escolhido previamente aos cálculos, mas depende de um julgamento do investigador, tal que existe usualmente um certo grau de arbitrariedade sobre esse valor específico. Comumente, o nível de 5% é escolhido, embora testes conduzidos ao nível de 10% ou de 1%  não são tão incomuns.  O valor “p” é a probabilidade específica que o valor observado do teste estatístico, junto com todos outros desfavoráveis à hipótese nula, ocorrerá de acordo com a hipótese nula da distribuição. Assim, a hipótese nula é rejeitada se o valor p for menor ou igual ao nível do teste. Veja a Fig. 1 para entender o significado de p, supondo uma distribuição nula Normal.

 

Fig. 1. Ilustração de uma distribuição nula e o que ocorre quando consideramos valores de p cada vez menores. (extraidas do site: http://www.psychstat.smsu.edu/introbook/sbk26m.htm)

 

  1. Tipos de erros e poder de um teste.

 

Uma outra forma de olhar para o nível de um teste é pensar na probabilidade de que nos temos de rejeitar a hipótese nula se esta estiver correta. Assim, se assumimos um nível p=5% estamos, no fundo, admitindo que, admitindo-se que a hipótese nula é falsa, temos 5% de probabilidade de estarmos redondamente enganados. A rejeição de Ho sendo a mesma verdadeira, é chamada de ERRO TIPO-I  e sua probabilidade (o nível do teste) é freqüentemente chamada de α. Erros do tipo I são definidos em contraste com ERROS DE TIPO-II, que ocorrem se Ho não é rejeitada quando é, de fato, falsa. A probabilidade do erro de tipo-II é usualmente chamada de β (Fig. 2)

 

Fig. 2. Exemplo do erro tipo II. (extraídas do site: http://www.psychstat.smsu.edu/introbook/sbk26m.htm)

 

Vamos supor a seguinte situação descrita abaixo: Suponha que estejam querendo construir um aeroporto próximo de uma região urbana e que você tenha sido chamado para fazer um estudo sobre impacto de poluentes oriundos dos aviões na saúde da população. Suponha que você tenha coletado dados do poluente (por exemplo, o O3) de outro aeroporto semelhante (por exemplo, Congonhas) e também coletado dados de entradas de crianças e idosos nos hospitais da região próxima ao aeroporto (no caso, Congonhas). Você precisa decidir se o novo aeroporto deve ou não ser construído naquele local baseado no impacto na saúde constatado pelas entradas nos hospitais de outras localidades. Para esse experimento, você calculou a concentração média diária do poluente e a média de entrada nos hospitais das crianças e idosos. A sua decisão vai ser feita olhando para duas médias de entrada de pessoas num hospital, uma observada em dias com condições de forte poluição causada pelo aeroporto e a outra sem condição mensurável de alerta da poluição. Sua hipótese nula Ho seria a de que as médias (com ou sem alerta de poluentes) são iguais. Para a sua decisão, você pode seguir o seguinte quadro:

 

 

“O Mundo Real”

 

DECISÃO

Poluentes Não afetam a saúde.

Afetam a saúde.

 

Decide que a poluição afeta

Não faz o aeroporto

(rejeita Ho – isto é, não se pode afirmar que as médias  sejam  iguais)

ERRO

Tipo I

probabilidade =

 

CORRETO

probabilidade = 1-

"power"

Decide que a poluição não afeta

Faz o aeroporto

(Aceito Ho – afirma-se que as médias sejam iguais)

CORRETO

probabilidade = 1 -

ERRO

Tipo II

probabilidade =

       

 

Notem que não sabemos a priori se a poluição causada nos aeroportos pode ou não ser responsável pelo aumento da entrada de pessoas nos hospitais. Se soubéssemos não faria sentido fazermos o teste, certo? Também estamos supondo que conhecemos a forma da distribuição de probabilidades da diferença entre as médias e que essa segue algo semelhante com a Fig. 1. Isso é, na prática, estamos assumindo que se tivéssemos muitas amostras distintas obtidas em situações aleatórias e calculássemos as médias dessas amostras e as diferenças entre essas médias, encontraríamos algo parecido com a distribuição de probabilidade indicadas nas Figs. 1 e 2.  Por exemplo, digamos que tivéssemos 20 anos de dados diários de entradas de pacientes em hospitais. Para cada ano, vamos tomar 364 dias e embaralhar aleatoriamente esses dados. Se pegássemos metade dessa amostra embaralhada (182 dias) e calculássemos a média M1 e fizéssemos o mesmo para a outra metade M2 e calculássemos a diferença M1-M2, poderíamos determinar grosseiramente como seria a cara dessa distribuição. Claro que 20 anos e, portanto, 20 dados seria pouco para conhecermos bem a cara da distribuição de probabilidades M1-M2 Entretanto, outros estatísticos já pensaram no problema e calcularam com melhor precisão a ‘cara’ das distribuições de alguns tipos de estatísticas que temos interesse, como a diferença entre as médias.

Esquematicamente, o que se tem na tabela acima pode ser mostrado na Fig. 3 abaixo

 Fig. 3. Relação entre o nível de rejeição, correspondente à probabilidade de erro tipo I (α em vermelho), e a probabilidade de erro tipo II, (em amarelo), para um teste conduzido ao nível de 5% (topo) e 1% (abaixo). O eixo horizontal representa o valor do teste estatístico (valor para qual a área sombreada em vermelho corresponde ao nível do teste). Isso mostra que decrescendo a probabilidade de um erro tipo I necessariamente aumenta a probabilidade de erro tipo II, e vice-versa. (Figura extraída do site http://www.psychstat.smsu.edu/introbook/sbk26m.htm). A distribuição a esquerda representa a função densidade de probabilidade da distribuição nula (ou da hipótese Ho) enquanto a função de distribuição de probabilidade à direita representa o teste estatístico se um específico HA for verdade.

 

Analisando os possíveis erros e acertos cometidos no experimento da Tabela-1:

 

1)      Decidir que a poluição do aeroporto  afeta a saúde humana e construir o aeroporto  quando, de fato, a poluição aumenta as chances de problemas de saúde:

Este seria o erro Tipo I e poderia representar um custo grande para os hospitais e pacientes. Mudar o valor de α para um valor mais baixo, teríamos mais certeza sobre não estar cometendo um erro do tipo I, mas poderíamos estar aumentando as chances de cometer um erro do tipo II.

2)      Decidir que a poluição do aeroporto não afeta a saúde humana e construir o aeroporto quando, de fato, a poluição não afeta a entrada de pacientes no hospital

Esta seria a decisão correta, feita com probabilidade 1 – α (=0.95 para α=0.5) de que a entrada de crianças e idosos nos hospitais depende de outros fatores que não a poluição causada pelos aviões.

3)      Decidir que a poluição afeta a saúde humana e que o aeroporto não pode ser construído quando a poluição não altera as chances de problemas de saúde.

Esse seria um erro do tipo II que é feito com probabilidade β, rejeitar Ho quando a mesma é verdadeira. No caso do exemplo, a decisão errônea poderia custar a população de uma cidade toda os efeitos da não construção de um aeroporto. Importante lembrar que o valor de β não é diretamente determinado pelo experimentador. Isto se deve ao fato de que a hipótese alternativa é definida mais genericamente que a hipótese nula e usualmente consiste da união de muitas hipóteses alternativas específicas. Enquanto α depende da distribuição nula, a qual deve ser conhecida de forma a conduzir o teste,  β depende de qual hipótese alternativa é realmente verdade, e isso é raramente conhecido. Note que diminuir α pode implicar em aumentar β

4)      Decidir que a poluição afeta a saúde humana e que o aeroporto não pode ser construído quando a poluição altera as chances de problemas de saúde.

Em geral, esse é o tipo de resultado que, na maioria das vezes, gostaríamos de provar (no caso do exemplo, estamos testando se as médias podem ser consideradas diferentes de zero).  A probabilidade de tomar essa decisão é 1- β e é dada o nome de “power”. Se β fosse alto, como um resultado 1- β seria pequeno

 

  1. Testes “one-sided”  versus “two-sided” ( usa uma cauda ou as duas caudas da distribuição)

 

Um teste estatístico pode usar uma ou duas caudas da distribuição. A cauda da distribuição é usada porque queremos saber sobre a probabilidade de extremos (caudas) da hipótese nula que governa a significância do teste. Quando usamos uma ou duas caudas? Depende da natureza do problema a ser testado.

O teste que usa uma única cauda é apropriado se existe a priori (por exemplo, baseado na física do problema) razões para se esperar que violações da hipótese nula levarão a valores do teste estatístico em um lado particular da distribuição nula. Esta situação pode ser ilustrada na figura 3, a qual foi desenhada para implicar que a hipótese alternativa produzindo menores valores do teste estatístico foi determinada com base numa informação a priori. Aqui a hipótese alternativa estaria estabelecida em termos do valor verdadeiro sendo maior que o valor da hipótese nula (por exemplo, HA: μ > μo), ao invés de uma hipótese alternativa vaga de que o valor verdadeiro não é igual ao valor nulo (HA: μ ≠ μo). Na Fig. 3 qualquer teste estatístico maior que 100( 1 – α) da porcentagem determinada da distribuição nula resulta na rejeição de Ho ao nível α, enquanto valores baixos não levam a rejeição de Ho.

Um teste do tipo “one side” é também apropriado quando apenas os valores em uma cauda ou na outra da distribuição nula são desfavoráveis para Ho, por causa do jeito que o teste estatístico foi construido. Por exemplo, um teste estatístico envolvendo o quadrado da diferença será próximo de zero se a diferença for pequena, mas terá valores positivos altos se a diferença for alta. Neste caso, resultados a esquerda na cauda esquerda da distribuição nula poderia dar suporte para Ho, tal que apenas as probabilidades da cauda direita seriam de interesse.

Testes de dois lados (two-sided tests) são apropriados quando valores muito grandes ou muito pequenos de um teste estatístico são desfavoráveis para a hipótese nula. Usualmente, tais testes pertencem a alternativa de hipótese bem geral do tipo “Ho não é verdade”. A região de rejeição da distribuição nula para testes de dois lados consiste de ambos extremos esquerdo e direito das caudas da distribuição. Estas duas porções da região de rejeição são delineadas de tal forma que a soma de suas duas probabilidades sob a hipótese de rejeição nula é igual ao nível de significância do teste α. Isto é, a hipótese nula é rejeitada ao nível α do teste estatístico se o teste estatístico é maior que 100(1-α)/2 % desta distribuição na cauda a esquerda. Assim, um teste estatístico precisa cair bem fora da cauda para ser declarado significante em um teste de dois lados (two-tailed, two sided) comparativamente a teste de uma cauda.

 aula em .doc

 

 

Home ] Up ] Teste Correlacao ] Test Anomalias ] Dif. medias ] Tabela t-student ] Tabela chi-square ] Tabela -z normal ]

Send mail to leila@model.iag.usp.br with questions or comments about this web site.
Last modified: 11/08/05