ANOVA - Análise de variância

ANOVA - Análise de variância

(Parte 1 de 3)

Análise de Variância (ANOVA) 1 fator

Queremos determinar se a diferença observada entre duas médias amostrais♣ é devida, apenas, às variações aleatórias de uma amostra a outra, ou se os dados vêm de populações onde as médias são verdadeiramente diferentes. Esse é um outro modo de dizer que nós queremos descobrir se a diferença entre as médias é estatisticamente diferente. Enfim, mesmo que nós possamos concluir que as médias são diferentes, nós também temos de decidir se elas diferem o suficiente para poderem ser consideradas de importância prática (clínica).

Vamos considerar três situações (A, B e C) onde os grupos Controle e Tratado apresentam a mesma média amostral, porém, diferem em termos de variabilidade (em dispersão, ou seja, em desvio-padrão).

C T C T C T 0

10 caso Acaso Bcaso C m m

C = grupo controle T = grupo tratado

Caso A: duas médias diferentes (não podemos dizer outra coisa, senão que diferem numericamente).

Caso B: as mesmas duas médias (de A) com valores bem dispersos (a diferença não é estatisticamente significante). Devido à dispersão, a diferença não é muito convincente.

Caso C: as mesmas médias (as duas de A e B) com valores concentrados (próximos ao valor médio). Nesse caso, há diferença estatisticamente significante.

Q O teste t (de Student) para a diferença entre duas médias é um caso especial de análise de variância (ANOVA 1 fator). A fórmula para t pode ser expressa para F. Vale a relação: F = t2.

O problema é como decidir quando as médias são diferentes, em relação à dispersão dos valores em cada grupo, a fim de concluir se há diferença estatisticamente significante entre as médias.

A análise de variância ajuda-nos a responder esta questão. O que temos a fazer é descobrir um modo de avaliar (medir) numericamente o quão diferentes são as médias e quanto as observações se afastam (encontram-se dispersas) ao redor das respectivas médias.

Com essas duas medidas (avaliações) à nossa disposição, somos capazes de dizer se as médias diferem significantemente ou não.

A idéia da Análise de Variância Esta é a idéia principal para a comparação de médias: o que importa não é o quanto as médias amostrais estão distantes , mas o quão distantes estão relativamente à variabilidade de observações individuais.

A ANOVA compara a variação resultante de fontes específicas com a variação entre indivíduos que deveriam ser semelhantes. Em particular, a ANOVA testa se várias populações têm a mesma média, comparando o afastamento entre as médias amostrais com a variação existente dentro das amostras.

A ANOVA pressupõe que podemos decompor cada valor observado em três termos aditivos; ou seja, nós somos capazes de escrever cada observação como uma soma de três termos. A decomposição pode ser escrita como:

Valor obtido (x) = média geral (μ) + desvio da média do grupo em relação à média geral (x - μ) + desvio (εij ) entre o valor observado em relação à média do grupo ( x - x) ou Data = fit + residue (error)

O modelo formal de ANOVA (1 fator ) é:xij = μ + αij + εij

xij – são os valores observados em cada grupo i – refere-se ao grupo j – refere-se à observação dentro do grupo μ – é uma constante (é a média geral) ε – são os termos residuais (diferença entre o valor observado e o fit, modelo ajustado)

Observação. Suposições do modelo ANOVA:

(i)todas as populações têm o mesmo desvio padrão σ , de valor desconhecido;

(i) os resíduos devem seguir uma curva normal com média igual a zero e variância σ2.

A estatística F da ANOVA F = variação (entre médias amostrais) / variação (entre indivíduos dentro das amostras)

As medidas de variação no numerador e denominador de F são chamadas de médias quadráticas. Uma média quadrática é uma forma mais geral de uma variância amostral. Uma variância amostral usual s2 é uma média dos desvios quadráticos das observações a partir de suas médias, logo se qualifica de “média quadrática”. A estatística F testa a hipótese nula de que todas as I populações têm a mesma média:

Ho: µ1 = µ2 = µ3== µ G

Ha: nem todos os µ são iguais Sob Hipótese Ho, então, a estatística F tem distribuição F com G-1 e N-G graus de liberdade.

Exemplo resolvido:

Na Tabela 1, mostrada a seguir, temos cinco grupos com cinco observações em cada grupo. Queremos saber “as diferenças nas médias amostrais são variações aleatórias que ocorrem apenas devido ao acaso (just by chance) ou se existem diferenças sistemáticas entre as médias”.

Tabela 1. Dados obtidos em cinco grupos num experimento inteiramente casualizado com cinco réplicas.

médias amostrais (x)

Observação:

Primeira regra de análise de dados: “make a picture” Segunda regra de análise de dados: “make a picture” Terceira regra de análise de dados: “make a picture” assim, um “dot plot”, e/ou um box-plot e/ou ou histograma convém serem apresentados!

Valores

G r u p o s

Dotplot of Valores vs Grupos

Dotplot for A-E

Mean Mean +- 1 StDev

Descriptive Statistics: A, B, C, D, E

A5 7.0 1.414 20.20
B5 8.0 0.707 8.84
C5 5.0 1.0 20.0
D5 6.0 1.225 20.41
E5 4.0 0.707 17.68

Grupos N Média DP CoefVar (%) Obs.: 1.414 é o dobro de 0.707

Resolução: SQ entre grupos: n(x- µ)2

Grupo A

InícioEfeito tratamento

Grupo (-x-) Resíduo (jogo) Final ε2

Grupo B

InícioEfeito tratamento

Grupo (-x-) Resíduo (jogo) Final ε2

Grupo C

InícioEfeito tratamento

Grupo (-x-) Resíduo (jogo) Final ε2

Grupo D

InícioEfeito tratamento

Grupo (-x-) Resíduo (jogo) Final ε2

(Parte 1 de 3)

Comentários