Testes de diferenças entre médias

Testes de diferenças entre médias

TESTES DE DIFERENÇAS ENTRE MÉDIAS

Os exemplos a seguir referem-se aos testes de diferença entre médias para grupos relacionados ou independentes.  

EXEMPLO 1 Dez cobaias foram submetidas ao tratamento de engorda com certa ração. Os pesos em gramas, antes e após o teste são dados a seguir (supõe-se que provenham de distribuições normais). A 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos animais?  

Cobaia

1

2

3

4

5

6

7

8

9

10

Antes

635

704

662

560

603

745

698

575

633

669

Depois

640

712

681

558

610

740

707

585

635

682

Resolução: Trata-se de uma situação em que queremos comparar as MÉDIAS DE DUAS distribuições normais, supondo que se trata da MESMA população, mas em dois momentos diferentes: antes e após um tratamento de engorda. Há interesse em verificar se a dieta contribuiu para o peso médio dos animais: ou seja, queremos verificar se a média de peso antes do tratamento é MENOR do que a média de peso após o tratamento (se a dieta fez efeito os animais estarão em média mais pesados ao final do tratamento). Reparem que é exigido que se tome uma decisão, o que configura um problema de TESTE DE HIPÓTESES.

Iremos então aplicar um TESTE DE DIFERENÇAS ENTRE MÉDIAS POPULACIONAIS, PARA DADOS PAREADOS (MESMA POPULAÇÃO: ANTES E DEPOIS). O roteiro deste teste está na página 4 da apostila de Roteiros e Tabelas.

1) Enunciar as hipóteses

De acordo com o que foi dito acima queremos verificar se a média antes é menor do que a média depois; o melhor ponto de partida, que servirá para a definição da hipóteses H0, é que a dieta NÃO FAZ EFEITO, ou seja as médias antes e após o tratamento são iguais (costumamos colocar em H0 o CONTRÁRIO do que queremos provar), ou seja a DIFERENÇA ENTRE AS MÉDIAS DEVE SER SUPOSTA IGUAL A ZERO, teremos então:

2) Estabelecer o nível de significância ou nível de confiança.

Conforme foi estabelecido no enunciado do problema:

3) Identificar a variável de teste.

No presente problema temos uma amostra de apenas 10 elementos. Como a amostra tem menos de 30 elementos a variável de teste que será utilizada será a variável tn-1 da distribuição t de Student.  

4) Definir a região de aceitação de H0, de acordo com o tipo de teste e variável.

Trata-se de um teste unilateral à esquerda (com 1% de significância), e a variável de teste é tn-1 (a amostra tem 10 elementos), então o valor crítico (obtido da tabela da distribuição t de Student) será:

Observe a região de aceitação de H0 na figura abaixo:

Para valores maiores de -2,82 aceitaremos H0 (ou seja a dieta não faz efeito, a diferença entre as médias é nula). Se tn-1 for menor do que -2,82 rejeitaremos H0 (a média DEPOIS aumentou demais em relação à média ANTES da dieta para que a diferença seja devida apenas ao acaso. Claro que há uma chance de 1% de que venhamos a rejeitar H0 sendo ela verdadeira.

5) Através dos valores das amostras antes e depois, calcular a diferença di entre cada par de valores, onde

di = Xantes - Xdepois.

Para o conjunto sob análise teremos:  

Cobaia

1

2

3

4

5

6

7

8

9

10

Antes

635

704

662

560

603

745

698

575

633

669

Depois

640

712

681

558

610

740

707

585

635

682

di

-5

-8

-19

2

-7

5

-9

-10

-2

-13

di2

25

64

361

4

49

25

81

100

4

169

6)e 7) Calcular a diferença média e o desvio padrão da diferença média.

Para o presente problema:

8) Calcular o valor da variável de teste.

Neste problema é a variável tn-1:

9) Decidir pela aceitação ou rejeição de H0.

Conforme foi visto anteriormente, se o valor da variável de teste fosse MENOR do que -2,82 a hipótese H0 seria rejeitada:

Assim, REJEITAMOS H0 a 1% de significância.

10) Interpretar a decisão dentro do contexto do problema.

Assim, concluímos com 99% de confiança (ou uma chance de erro de 1%) que a dieta contribuiu para o aumento do peso médio dos animais.  

EXEMPLO 2 Deseja-se saber se 2 máquinas de empacotar café estão fornecendo o mesmo peso médio em kg. Extraem-se duas amostras, uma de cada máquina (supondo que os pesos das amostras sigam uma distribuição normal):

Máquina Nova - 36 amostras, média = 0,81 kg, variância = 0,00020 kg2.

Máquina Velha - 39 amostras, média = 0,78 kg, variância = 0,00135 kg2.

Qual é a sua conclusão a 5% de significância?

Resolução:

Trata-se de uma situação em que queremos comparar as MÉDIAS DE DUAS distribuições normais, supondo que se tratam de duas populações distintas, podemos supor que as amostras são independentes: estão sendo avaliadas as produções de 2 máquinas DIFERENTES. Há interesse em verificar simplesmente se há diferença entre as médias das duas populações: em qualquer direção. Reparem que é exigido que se tome uma decisão, o que configura um problema de TESTE DE HIPÓTESES.

Iremos então aplicar um TESTE DE DIFERENÇAS ENTRE MÉDIAS POPULACIONAIS, PARA DADOS NÃO PAREADOS (POPULAÇÕES DISTINTAS). O roteiro deste teste está nas páginas 5 e 6 da apostila de Roteiros e Tabelas.

1) Enunciar as hipóteses

De acordo com o que foi dito acima queremos verificar se as médias diferem entre si; o melhor ponto de partida, que servirá para a definição da hipóteses H0, será considerar que NÃO HÁ DIFERENÇA entre as médias, ou seja A MÉDIA DA MÁQUINA VELHA SERIA IGUAL À DA MÁQUINA NOVA (costumamos colocar em H0 o CONTRÁRIO do que queremos provar), teremos então:

2) Estabelecer o nível de significância ou nível de confiança.

Conforme foi estabelecido no enunciado do problema:

3) Identificar a variável de teste.

Neste ponto do roteiro é necessário ter muito cuidado. Há 3 variáveis de teste possíveis, dependendo das condições do problema, mais especificamente das variâncias das duas populações.

Se as variâncias de ambas as populações forem conhecidas (caso muito raro na prática) deverá ser usada a variável Z da distribuição normal padrão.

Se as variâncias populacionais forem desconhecidas, deverá ser usada a variável t da distribuição t de Student, mas a determinação dos GRAUS DE LIBERDADE desta variável dependerá do fato de as variáveis serem IGUAIS (quando a variável terá n1+ n2 - 2 graus de liberdade, onde n1 e n2 são os tamanhos das amostras), ou DIFERENTES (quando a variável terá  graus de liberdade, cuja expressão de cálculo está na página 5 da apostila de Roteiros e Tabelas e será mostrada posteriormente).

Uma pergunta bastante razoável que surge é: "SE EU NÃO CONHEÇO AS VARIÂNCIAS POPULACIONAIS COMO PODEREI SABER SE SÃO IGUAIS OU DIFERENTES"?

Para resolver este problema é necessário usar o TESTE F DE DIFERENÇA ENTRE VARIÂNCIAS POPULACIONAIS (ou teste de razão entre variâncias, já que a variável do teste é um quociente entre as 2 variâncias amostrais). Em suma, quando fazemos um teste de diferença entre médias de duas populações distintas devemos inicialmente fazer um teste para verificar se suas variâncias, caso desconhecidas, são iguais ou diferentes.

No presente problema as variâncias populacionais são desconhecidas, portanto devemos realizar o teste F para obter a variável de teste com o número correto de graus de liberdade.

TESTE F

Queremos apenas verificar se há DIFERENÇA entre as variâncias, por isso o teste será sempre BILATERAL.

Nível de significância: como a tabela da distribuição F (que está na apostila de Roteiros e Tabelas) apresenta valores apenas para 5% de significância (teste bilateral) este será o nível adotado em todos os testes F (se for possível obter outras tabelas, níveis diferentes poderão ser utilizados).

Encontrar a maior variância amostral, que será chamada de  (e por conseguinte nA) e a menor que será chamada  (e por conseguinte nB). Neste problema teremos:

Então a variável de teste do teste F será:

Esta variável segue uma distribuição amostral chamada de distribuição F de Fisher (ou de Snedecor), trata-se de uma distribuição assimétrica, que somente pode assumir valores positivos, e que possui graus de liberdade associados ao numerador e ao denominador de um quociente. Veja a figura abaixo, de uma distribuição F com 38 e 35 graus de liberdade:

Esta variável será comparada com um valor crítico, que será F38,35;0,025: bastaria procurá-lo em uma tabela adequada (como a tabela que está na apostila de Roteiros e Tabelas, sendo 38 o número de graus de liberdade do numerador da estatística e 35 o número de graus de liberdade do denominador da estatística).

Usando a tabela citada acima, porém, só há os valores F30,30;0,025 = 2,07 e F40,40;0,025 = 1,88. O valor procurado F38,35;0,025 deve estar ENTRE estes 2 valores (na realidade ele vale 1,942). Como o valor da variável F38,35(6,75) é 3 vezes maior do que ambos os valores (2,07 e 1,88) podemos tranqüilamente REJEITAR a hipótese de que as variâncias populacionais, desconhecidas, são iguais, com uma chance de erro de 5%. Sendo assim, a nossa variável t de Student terá graus de liberdade.

Então como as variâncias populacionais são desconhecidas e supostas diferentes (de acordo com o teste F) a variável t terágraus de liberdade, que serão calculados a seguir:

onde  (máquina nova)  

(máquina velha)

Então a variável de teste t de Student terá 50 graus de liberdade.  

4) Definir a região de aceitação de H0, de acordo com o tipo de teste e variável.

Trata-se de um teste bilateral (com 5% de significância), e a variável de teste é t com 50 graus de liberdade então o valor crítico (obtido da tabela da distribuição t de Student) será:

Observe a região de aceitação de H0 na figura abaixo:

Para valores de t50 menores do que -2,01 ou maiores do que 2,01, ou seja valores em módulo maiores do que 2,01, REJEITAREMOS H0, ou seja há diferença entre as médias de peso dos pacotes das 2 máquinas (claro que há 5% de chance de que venhamos a rejeitar H0 sendo ela verdadeira).  

5) Calcular o desvio padrão das diferenças.

Como as duas variâncias são desconhecidas, e o teste F mostrou que são diferentes, iremos utilizar a terceira expressão para calcular o desvio padrão das diferenças que está no roteiro (no item 5 da página 5 da apostila de Roteiros e Tabelas):

6) Calcular a variável de teste.

Novamente, como as duas variâncias são desconhecidas, e o teste F mostrou que são diferentes, iremos utilizar a terceira expressão para calcular o valor da variável de teste que está no roteiro (no item 6 da página 6 da apostila de Roteiros e Tabelas):

7)Decidir pela aceitação ou rejeição de H0.

Conforme foi visto anteriormente se o módulo da variável de teste fosse maior do que 2,01 a hipótese H0 seria rejeitada:

Assim, REJEITAMOS H0 a 5% de significância.

8) Interpretar a decisão dentro do contexto do problema.

Assim, concluímos com 95% de confiança (ou uma chance de erro de 5%) que há diferença entre os pesos médios dos pacotes fornecidos pelas duas máquinas. Seria recomendável descobrir qual das duas está com problemas para efetuar as correções necessárias.

RETORNAR

Comentários