Estatística Básica-Testes de Hipóteses

Estatística Básica-Testes de Hipóteses

(Parte 2 de 5)

Amostra

Valor observado da estatística.

Rejeitar a hipótese

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 8

1. Formular as hipóteses.

Estabelecer as hipóteses nula e alternativa. A construção de um teste de hipóteses pode ser colocado de forma geral do seguinte modo. Toma-se uma amostra da variável (ou das variáveis) X (no caso) de uma dada população, de onde se tem uma hipótese sobre um determinado parâmetro, por exemplo: θ. Esta hipótese é a hipótese nula ou hipótese de igualdade: H0: θ = θ0

Tendo formulado a hipótese nula é conveniente determinar qual será a hipótese aceita caso a hipótese nula seja rejeitada, isto é, convém explicitar a hipótese alternativa. A hipótese alternativa vai depender de cada situação mas de forma geral tem-se:

H1: θ = θ2 (hipótese simples), ou então o que é mais comum, hipóteses compostas: H1: θ > θ0 (teste unilateral ou unicaudal à direita) θ < θ0 (teste unilateral ou unicaudal à esquerda) θ ≠ θ0 (teste bilateral ou bicaudal)as hipóteses são do tipo composto.

2. Estabelecer a estatística (estimador ) a ser utilizado.

Após fixar as hipóteses é necessário determinar se a diferença entre a estatística amostral e o suposto valor do parâmetro da população é suficiente para rejeitar a hipótese. A estatística utilizada deve ser definida e sua distribuição teórica determinada.

3. Fixar o nível de significância do teste.

Fixar a probabilidade de ser cometer erro do tipo I, isto é, estabelecer o nível de significância do teste. Fixado o erro do tipo I, é possível determinar o valor crítico, que é um valor lido na distribuição amostral da estatística considerada (tabela). Este valor vai separar a região de crítica (de rejeição) da região de aceitação.

4. Calcular a estatística teste (a estimativa).

Através da amostra obtida calcular a estimativa que servirá para aceitar ou rejeitar a hipótese nula. Dependendo do tipo de hipótese alternativa este valor servirá para aceitar ou rejeitar H0. O procedimento é:

Teste estatístico = (Estatística - Parâmetro) / Erro padrão da Estatística

5. Tomar a decisão.

Se o valor da estatística estiver na região crítica rejeitar Ho, caso contrário, aceitar H0.

5. Formular a conclusão.

Com base na aceitação ou rejeição da hipótese nula, enunciar qual a decisão a ser tomada na situação do problema.

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 9

2. TIPOS DE TESTES PARAMÉTRICOS

Os testes paramétricos podem ser divididos em testes para: • Uma amostra

• Duas amostras emparelhadas (dependentes)

• Várias amostras (Análise de Variância)

2.1.1. TESTE PARA A MÉDIA DE UMA POPULAÇÃO

(a) σσσσ conhecido

O teste para a média de uma população pode ser executado com qualquer tamanho de amostra se soubermos que a população de onde for extraída a amostra segue uma distribuição normal. Se a distribuição da população não for conhecida então é necessário trabalhar com amostras grandes (pelo menos 30 elementos) para poder garantir a normalidade da média da amostra através do teorema central do limite.

As hipóteses são:

H0: µ = µ0 contra H1: µ = µ1 ou então, o que é mais comum: H1: µ > µ0 µ < µ0

A estatística teste utilizada aqui é a média da amostra: X. Esta média para ser comparada com o valor tabelado, determinado em função da probabilidade do erro do tipo I, (isto é, o nível de significância do teste), precisa ser primeiramente padronizada. Isto é feito, baseado no seguinte resultado:

Se X é uma variável aleatória normal com média µ e desvio padrão σ, então a variável:

Tem uma distribuição normal com média “0” e desvio padrão “1”. A variável resultante Z se encontra tabelada. Qualquer livro de Estatística traz esta tabela que fornece os valores desta variável, para z variando de -3,9 até 3,9 em intervalos de 0,1 (aproximação decimal), entre -3,9 e -3,0 e entre 3,0 e 3,9, e em intervalos de 0,01 (aproximação centesimal) para os valores entre -3,0 e 3,0.

Para X sabe-se que Xµ = µ (média das médias) que Xσ = σn (erro padrão da média), então o valor padronizado de X será:

Z = (X - Xµ) / Xσ = (X - µ) / σn

Supondo-se fixado um nível de significância de α = P(Erro do Tipo I), verifica-se na tabela qual o valor de zα (no teste unilateral) ou zα/2 (teste bilateral). Rejeita-se H0 (hipótese nula) se o valor de z calculado na expressão acima for:

(i) Maior do que zα (no teste unilateral à direita); (i) Menor do -zα (no teste unilateral à esquerda) e (i) Maior que zα/2 ou menor que -zα/2 (no teste bilateral).

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 10

Tabela 03 - Valores de z para alguns níveis de significância αααα = Nível de significância = P(Erro do Tipo I)

Teste bilateral 1,64 1,96 2,57 Teste unilateral 1,28 1,64 2,3

Exemplo

A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo perdido em acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 hora /homens por ano com desvio padrão de 20 horas/homem. Tentou-se um programa de prevenção de acidentes e, após o mesmo, tomou-se uma amostra de 9 indústrias e mediu-se o número de horas/homem perdidas por acidente, que foi de 50 horas. Você diria, ao nível de 5%, que há evidência de melhoria?

Solução As hipóteses a serem testadas são:

H0: µ = 60 hora/homens

H1: µ < 60 hora/homens

A evidência amostral para sugerir que a média baixou é dada através da amostra de n = 9

(elementos) que forneceu x = 50 horas/homens. Vamos testar se esta diferença de 10 horas/homens é ou não significativa ao nível de 5%. Para isto é necessário padronizar o resultado amostral.

Z = (X - Xµ) / Xσ = (X - µ) / σ/n = (50 - 60) / 20/9 = -1,50 Para saber se este valor (-1,50) é pouco provável é necessário compará-lo com o valor crítico - zα (pois se trata de um teste unilateral à esquerda), que neste caso vale -1,64, já que o nível de significância foi fixado em 5%. Vê-se portanto que o valor amostral não é inferior ao valor crítico, não estando portanto na região de rejeição. Isto quer dizer que a diferença apresentada na amostra não é suficientemente grande para provar que a campanha de prevenção deu resultado. Então a conclusão é:

“Não é possível ao nível de 5% de significância afirmar que a campanha deu resultado, isto é, rejeitar H0. ”

Convém lembrar que o fato de não rejeitar a hipótese nula, não autoriza a fazer afirmações a respeito da veracidade dela. Ou seja, não se provou H0, pois no momento que se aceita a hipótese nula, o risco envolvido é o do Tipo I, e este neste caso não está fixado (controlado). O teste de hipóteses é feito para rejeitar a hipótese nula e sua força está na rejeição. Assim quando se rejeita se prova algo, mas quando se aceita, nada se pode afirmar.

(b) σσσσ desconhecido

A distribuição t de Student

Quando o desvio padrão populacional (σ) é desconhecido é necessário estimá-lo através do desvio padrão da amostra (s). Mas ao substituir o desvio padrão da população na expressão:

Z = (X - Xµ) / Xσ = (X - µ) / σ/n não teremos mais uma distribuição normal.

De fato, conforme demonstrado por W. S. Gosset (Student) a distribuição da variável:

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 1

Não é mais normal padrão. Ao substituir σ por s na expressão teremos uma distribuição parecida com a normal, isto é, simétrica em torno de zero, porém com uma variabilidade maior. Desta forma a distribuição “t” é mais baixa no centro do que a normal padrão, mas mais alta nas caudas.

Assim:

(X - Xµ) / X σ = (X - µ) / s/n = tn-1, onde “n - 1” indica a distribuição “t” considerada, pois cada tamanho de amostra produz uma distribuição de Student diferente.

A distribuição t de Student encontra-se tabelada em função de n = tamanho da amostra ou então em função de n - 1 denominado de graus de liberdade da distribuição. Neste caso cada linha de uma tabela se refere a uma distribuição particular e cada coluna da tabela a um determinado nível de significância. Conforme a tabela o nível de significância poderá ser unilateral ou bilateral. Em todo caso é necessário sempre ler no cabeçalho ou no rodapé da tabela as explicações sobre como ela está estruturada.

Desta forma a diferença entre o teste para a média de uma população com σ conhecido e um com σ desconhecido é que é necessário trocar a distribuição normal padrão pela distribuição “t “ de Student.

Exemplo

O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos. Introduziu-se uma modificação para diminuir este tempo, e, após certo período, sorteou-se uma amostra de 16 operários, medindo-se o tempo de execução gasto por cada um. O tempo médio da amostra foi 85 minutos com desvio padrão de 12 minutos. Este resultado evidencia uma melhora no tempo gasto para realizar a tarefa? Apresente as conclusões aos níveis de 5% e 1% de significância e diga quais as suposições teóricas necessárias que devem ser feitas para resolver o problema.

Solução

A suposição teórica necessária é admitir que a distribuição da população de onde foi extraída a amostra segue uma normal pois n < 30.

H0: µ = 100

H1: µ < 100

Considerando, então, um teste unilateral à esquerda e tendo α = 5% (α = 1%) tem-se que a região de rejeição é constituída por RC = [-∞, -1,753].(RC = [-∞, -2,602])

O valor de teste é:

t15 = X s

− = -5

Como este valor pertence as duas regiões críticas, pode-se rejeitar a hipótese nula, aos níveis de 5% e 1% de significância, isto é, neste caso, pode-se afirmar que a modificação diminuiu o tempo de execução da tarefa.

2.1.2. TESTE PARA A PROPORÇÃO

O teste para a proporção populacional é normalmente baseado na seguinte suposição: tem-se uma população e tem-se uma hipótese sobre a proporção π de elementos da população que possuem uma determinada característica. Esta proporção é supostamente igual a um determinado valor π0. Assim a hipótese nula é:

H0 : π = π0 O problema fornece informações sobre a alternativa, que pode ser uma das seguintes:

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 12

H1 : π ≠ π0 H1 : π > π0

H1 : π < π0

A estatística teste a ser utilizada é a proporção amostral “P”, que para amostras grandes (n > 50) tem uma distribuição aproximadamente normal com média:

µP = π, e desvio padrão

Exemplo

As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem até 60 anos é de 0,60. Testar esta hipótese ao nível de 5% de significância se em 1000 nascimentos amostrados aleatoriamente, verificou-se 530 sobreviventes até os 60 anos.

Solução

H1: π = 0,60

H0: π ≠ 0,60

Considerando, então, um teste bilateral e tendo α = 5% tem-se que a região de aceitação é constituída pelo intervalo RA = [-1,96, 196].

O valor de teste é:

z = pn

Como este valor não pertence a região de aceitação, pode-se rejeitar a hipótese nula, ao nível de 5% de significância, isto é, neste caso, pode-se afirmar que a taxa dos que sobrevivem até os 60 anos é menor do que 60%. Neste caso, também poderia ser realizado um teste unilateral à esquerda.

Este teste também rejeitaria a hipótese nula, pois para ele o valor crítico zα = -1645.

Para aplicar o teste para a variância é necessário supor a normalidade da população de onde será extraída a amostra.

As hipóteses são:

A estatística teste é ()ns−12

Quer dizer o quociente acima tem uma distribuição qui-quadrado com “n-1” graus de liberdade. A qui-quadrado é uma distribuição assimétrica positiva que varia de zero a mais infinito. Esta distribuição é tabelada também em função dos número de graus de liberdade, isto é, cada grau de liberdade (n -1) representa uma distribuição diferente. As colunas das tabelas representam diferentes níveis de significância, isto é, área sob a curva acima do valor tabelado.

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 13

Em função do tipo de hipótese alternativa define-se a região de rejeição. No primeiro caso tem-se uma região de rejeição do tipo bilateral. Logo, fixado um nível de significância “α“, a região crítica será

RC = [0, 12χ] U [2χ, ∞). Desta forma, aceita-se a hipótese nula se a estatística teste, acima, pertencer ao intervalo [12χ, 2χ]. Exemplo

Uma das maneiras de controlar a qualidade de um produto é controlar a sua variabilidade.

Uma máquina de empacotar café está regulada para encher os pacotes com desvio padrão de 10 g e média de 500g e onde o peso de cada pacote distribuí-se normalmente. Colhida uma amostra de n = 16, observou-se uma variância de 169 g2. É possível afirmar com este resultado que a máquina está desregulada quanto a variabilidade, supondo uma significância de 5%?

Solução c2χ = (15.169)/100 = 25,35. Como α = 5% a região de aceitação é a região compreendida entre os valores:

com esta amostra não é possível afirmar que a máquina está desregulada, ao nível de 5% de significância.

Supõem-se a existência de duas populações. Uma população X com média Xµ e desvio padrão

Xσ e uma população Y com média Yµ e desvio padrão Yσ. Da população X é extraída uma amostra de tamanho “n” com média X e da população Y é extraída uma amostra de tamanho “m” com média Y.

Define-se a variável D como sendo a diferença entre as duas médias amostrais. Assim D = X - Y e tem-se:

σD = V(D) = V(X - Y) = V(X) + V(Y) = mn

Neste tipo de teste são retiradas duas amostras de forma independente, isto é, as medidas são obtidas em unidades amostrais diferentes.

2.2.1. TESTE PARA A IGUALDADE ENTRE AS VARIÂNCIAS DE DUAS POPU LAÇÕES

Supõem-se a existência de duas populações. Uma população X com média Xµ e desvio padrão

Xσ e uma população Y com média Yµ e desvio padrão Yσ. Da população X é extraída uma amostra de tamanho “n” com média X e variância XS2 e da população Y é extraída uma amostra de tamanho “m” com média Y e variância YS2. As hipóteses são:

SÉRIE: Estatística Básica Texto 4: TESTES DE HIPÓTESES

Prof. Lorí Viali - viali@mat.pucrs.br- http://w.mat.pucrs.br/~lori/ 14

Nestas condições sabe-se que: χ mYSS nm distribuição F (de Snedekor) com “n-1” graus de liberdade no numerador e “m - 1” graus de liberdade no denominador.

Como a distribuição F depende de dois parâmetros ν1 e ν2, uma tabela tridimensional será necessária para computar os valores de F correspondentes a diferentes probabilidades e valores de ν1 e ν2. Como conseqüência, somente os pontos da cauda à direita de 5% e 1% de área são tabelados, correspondendo a vários valores de ν1 e ν2, isto é, encontram-se tabelados os valores P(F > f) = 0,01 e P(F > f) = 0,05. Para poder se obter valores bilaterais da distribuição F é necessário usar a propriedade que se F é tal que tem uma distribuição com ν1 e ν2 graus de liberdade, então F’ = 1 / F tem distribuição F’ com ν2 e ν1 graus de liberdade. Assim a probabilidade de que F < f pode ser calculada por:

P(F < f) = P(1 / F > 1 / f) = P(F’ > 1 / f)

Lembrando que só são fornecidos valores com as significâncias de 1% e 5%. Outro valor entre estes dois poderá ser obtido aproximadamente por interpolação.

Assim por exemplo dados ν1 = 5 (graus de liberdade do numerador) e ν2 = 8 (graus de liberdade do denominador), o valor de f de F(5, 8) tal que P(F > f) = 5% é f = 3,69. Então o valor f’ de

F(5, 8) tal que P(F < f’) = 5% é dado por: 1 / F(8, 5) = 1 / 4,82 = 0,21.

Fixado um nível de significância α a região crítica RC é encontrada através de dois valores F1 e F2 da distribuição F tais que:

P(F ∈ RC) = P(F < F1 ou F > F2) = α, onde F1 e F2 são encontrados na tabela de modo a satisfazer a igualdade: P(F < F1) = P(F > F2) = α/2.

(Parte 2 de 5)

Comentários