aula parte9 testes de hipoteses com duas amostras

aula parte9 testes de hipoteses com duas amostras

O teste de hipóteses da diferença das médias de duas populações é freqüentemente utilizado para determinar se é ou não razoável concluir que as médias das duas populações são diferentes. Por exemplo:

É de interesse do controle de qualidade determinar se o mesmo produto oferecido por dois fornecedores diferentes apresenta a mesma quantidade de peças com defeitos.

Ao médico do laboratório farmacêutico interessa determinar se o novo remédio para controle de diabetes é eficiente acompanhando dois grupos de pacientes, o primeiro grupo que recebeu o remédio e o outro que recebeu apenas placebo, produto com a mesma forma, porém sem o elemento ativo.

O gerente de compras pode estar interessado em determinar se o mesmo produto oferecido por dois fornecedores diferentes apresenta o mesmo prazo real de entrega.

Da mesma forma, o gerente de salários necessita conhecer se os salários da mesma categoria de trabalhadores têm o mesmo valor em duas cidades diferentes.

Os exemplos mostram o objetivo do analista em determinar se há diferença entre as médias de duas populações independentes considerando que as respostas de um grupo são independentes das respostas do outro grupo.

TH – Diferenças entre Médias TH – Diferenças entre Médias

Amostras Grandes

Qual é a forma da distribuição da diferença de duas médias?

A resposta é dada pelo teorema central do limite, que foi apresentado anteriormente. Se for retirado um numero grande de amostras das duas populações, a distribuição da diferença das duas médias será aproximadamente normal.

Para amostras grandes, n>30, o Z observado Zo é obtido da normalização da diferença entre as duas médias utilizando a expressão:

X Z o

Sendo as variâncias das populações desconhecidas, as variâncias das amostras fornecerão uma boa aproximação, sendo o denominador da fórmula seguinte o erro amostral.

nSn S

X Z o

Na célula F12 o modelo registra o Z observado, resultado obtido com:

Na célula F13 é calculado o p-value para duas caudas da distribuição. Como o p-value é maior que o nível de significância α=0,05, a hipótese nula deve ser aceita, pois há evidencias de que a diferença de médias não seja significativa.

Na célula F14 é apresentada a decisão por extenso, Aceitar Ho ou Rejeitar Ho.

Esse procedimento com a distribuição Z deve ser aplicado quando as variâncias das populações são conhecidas, o que, na prática, é difícil de ocorrer.

Daí que se o tamanho de uma das amostras for igual ou menor que trinta e um, o modelo não apresentará os títulos e resultados relevantes.

Como em geral as variâncias das populações não são conhecidas, é recomendado utilizar o procedimento com a distribuição t.

FdeA - Teste Z: Duas amostras para Médias FdeA - Teste Z: Duas amostras para Médias

Amostras Pequenas Variâncias das Populações Iguais

FdeA - Teste T: Duas amostras Variâncias Eq. FdeA - Teste T: Duas amostras Variâncias Eq.

Amostras Pequenas Variâncias das Populações Diferentes

O procedimento do teste de hipóteses da diferença das médias de duas populações com variâncias desconhecidas, ou presumindo que sejam diferentes, tem as mesmas premissas do procedimento do teste de hipóteses com variâncias iguais, incluindo as seguintes alterações de cálculo:

Deve ser utilizada a estatística teste t* definida com a expressão:

nSn S

X t

O teste t* pode ser aproximado ao teste t obtendo o número de graus de liberdade gl com a expressão:

Como, em geral, o resultado de gl não é um número inteiro, deve ser adotado o número inteiro mais próximo.

n S n S nSn S

FdeA - Teste T: Duas amostras Variâncias Dif. FdeA - Teste T: Duas amostras Variâncias Dif.

Amostras Emparelhadas

Quando for necessário comparar, por exemplo, as vendas diárias de duas filiais que operam com os mesmos produtos, ou os resultados de um treinamento, confrontando o conhecimento antes e depois do treinamento, os procedimentos de teste de hipóteses para diferença das médias utilizados até este momento não podem ser aplicados, pois se referem a duas populações independentes.

Agora, necessitamos analisar duas populações relacionadas, isto é, duas populações dependentes.

Neste caso, a variável de interesse será a diferença entre os pares das duas amostras, no lugar das próprias amostras, que devem ter o mesmo tamanho.

Como premissa, a população das diferenças tem distribuição aproximadamente normal e a amostra das diferenças é extraída aleatoriamente da população das diferenças.

O procedimento é o seguinte:

X12,X1n e X21, X22, ... X2n é formada a nova variável D das
diferenças entre esses valoresD1= X11- X21, ... , Dj=
X1j- X2j,, Dn= X1n- X2n.

Das duas variáveis X1 e X2 definidas pelos valores X11, Na variável D é calculada a média D e a variância

O t observado é calculado com a fórmula:

t D o

Definido o nível de significância α, é realizado o teste de hipóteses.

FdeA – Teste T: Duas amostras em Par para Médias FdeA – Teste T: Duas amostras em Par para Médias

Distribuição F

O teste de hipóteses para a diferença das médias é utilizado para determinar se é ou não razoável concluir que as médias das duas populações são diferentes.

Também é freqüente verificar se é ou não razoável concluir que as variâncias das duas populações são diferentes.

variâncias das amostras

Para verificar se duas populações independentes têm a mesma variância é utilizada a estatística da relação das retiradas de duas populações. 2221/S

relação

Se as distribuições das duas populações forem normais, então a

tem distribuição F.

Sempre que as distribuições das populações forem normais, a distribuição F será também utilizada para comparar simultaneamente duas ou mais médias, procedimento denominado análise da variância.

As principais características da distribuição F são as seguintes:

A distribuição F é contínua e sempre positiva com valores no intervalo (0, +∞).

A distribuição F tem inclinação positiva.

Há uma família de distribuições F identificadas por dois parâmetros, graus de liberdade do numerador ν1 e graus de liberdade do denominador ν2. A forma final da distribuição depende dos graus de liberdade ν1 e ν2, como mostra o slide da distribuição.

Exemplo

Calcular o F crítico Fc da distribuição F com probabilidade de 5% na cauda superior de superar o valor do F crítico, considerando que o número de graus de liberdade do numerador é 6, e o do denominador, 10.

Tradicionalmente, os cálculos são realizados com a tabela da distribuição F.

No capítulo Tabelas do livro o leitor encontrará duas tabelas da distribuição F, uma para o nível de significância α=0,01 e a outra para α=0,05.

A Tabela F_DISTR permite construir a tabela de valores críticos de F para qualquer valor de nível de significância.

A tabela seguinte apresenta parte da tabela da distribuição F para o nível de significância α=0,05.

Nos cabeçalhos das colunas estão registrados os graus de liberdade do numerador, e nos cabeçalhos das linhas, os graus de liberdade do denominador.

O Fc da distribuição F com 6 graus de liberdade do numerador e 10 graus de liberdade do denominador correspondente ao nível de significância 0,05 na cauda superior obtido da tabela F é 3,2.

Para informar os valores que participam do F crítico, costuma-se escrever: Fc(α;ν1;ν2)=Fc(0,05;6;10)=3,2.

A fórmula =DISTF(3,2173;6;10) retornará o valor 0,0500, que é a probabilidade P(F≥3,2173) na cauda superior da distribuição F. Ou, a função DISTF retornou o nível de significância 5%.

Como proceder se for necessário realizar cálculos na cauda inferior da distribuição F?

Denominando FS ao F crítico da cauda superior e

Fi ao F crítico da cauda inferior, para o nível de significância α, demonstra-se que:

Nessa expressão, ν1 é o número de graus de liberdade do numerador, e ν2 é o número de graus de liberdade do denominador.

Observe que para o cálculo do F crítico na cauda inferior é utilizado o procedimento de cálculo do F crítico da cauda superior, porém permutando os graus de liberdade.

νν =νν Si F

Teste F

Freqüentemente, é necessário verificar se é ou não razoável concluir que as variâncias das duas populações são diferentes.

O teste F é um teste de hipóteses utilizado para verificar se as variâncias de duas populações com distribuição normal são diferentes, ou para verificar qual das duas populações com distribuição normal têm mais variabilidade.

De outra maneira, conhecidas duas amostras com qualquer tamanho, o teste F dá condições para determinar se as duas amostras pertencem à mesma população.

Exemplo

Verificar se há diferença nas variâncias de duas populações com distribuição normal conhecendo as medidas estatísticas registradas na tabela seguinte e extraídas dessas populações, considerando o nível de significância α=5%.

Como os tamanhos das amostras são n1=17 e n2=21, a distribuição F possui ν1=16 graus de liberdade do numerador e ν2=20 graus de liberdade do denominador.

Como Fo>Fc, a hipótese nula não deve ser aceita, há evidência de que a diferença entre as variâncias é significativa.

Como ou p-value<α a hipótese nula não deve ser aceita.

FdeA – Teste F: Duas amostras para variâncias FdeA – Teste F: Duas amostras para variâncias

DISTRIBUIÇÃO χ2

Na maioria dos testes de hipóteses aplicados até este momento a distribuição da população era conhecida.

Há casos em que a distribuição da população não é conhecida e se deseja verificar se um grupo de valores segue um determinado modelo de probabilidade teórico utilizando a distribuição Qui-Quadrado, ou χ2.

O slide seguinte mostra uma das possíveis distribuições χ2 dependente do número de graus de liberdade gl.

Comentários