Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Inferencia estatistica, Notas de estudo de Ciências Biologicas

Inferencia estatistica

Tipologia: Notas de estudo

2010
Em oferta
30 Pontos
Discount

Oferta por tempo limitado


Compartilhado em 13/10/2010

Jambu98
Jambu98 🇧🇷

4.5

(104)

222 documentos

Pré-visualização parcial do texto

Baixe Inferencia estatistica e outras Notas de estudo em PDF para Ciências Biologicas, somente na Docsity! Universidade Federal da Bahia Instituto de Matemática Departamento de Estatística Estatística IV (MATO27T) e Introdução à Estatística (MATOS5O) ) NOTAS DE AULA UNIDADE HI INFERÊNCIA ESTATÍSTICA NA / 1 INTRODUÇÃO Até o presente momento, nós aprendemos a descrever uma amostra através das medidas de tendência central e de dispersão, que são parte da chamada “estatística descritiva”. Com a utilização da “inferência estatís- tica”, desejamos inferir indutivamente propriedades de uma população (ou universo) com base nos resultados obtidos com a amostra (ou subconjunto do inverso ) o que constitui uma ferramenta muito importante no desenvolvimento de uma disciplina científica. Toda a inferência na Estatística está baseada na “teoria das probabilidades”, que nós acabamos de ver. Freqiientemente, devemos tomar decisões sobre populações com base em informações obtidas em amostras das mesmas. Tais decisões chamam-se decisões estatísticas. Por exemplo, com base em resultados amostrais, podemos querer decidir se determinada droga é eficiente na cura de determinada doença, se um processo educacional é melhor do que outro, se um determinado número de caixas de um banco é suficiente para um atendimento rápido ao cliente, etc. Para a tomada de tais decisões utilizaremos a inferência estatística. Nesta etapa do nosso curso, iniciaremos a discussão falando sobre aspectos fundamentais da amostragem, após a qual introduziremos as noções sobre distribuição amostral da média e da proporção, intervalos de confiança e testes de hipóteses para médias e proporções, finalizando com um método para avaliação de relações entre variáveis qualitativas, que é o teste qui-quadrado de independência. 2 AMOSTRAGEM Amostragem é o ato de obter uma amostra de uma população, podendo-se definir população como um conjunto de elementos, cada um deles apresentando uma ou mais características em comum. Amostra é, simplesmente, uma parte da população. O levantamento por amostragem, quando comparado com o levantamento total, apresenta certas vanta- gens: e custo menor; e resultado em menor tempo; e objetivos mais amplos; e dados mais fidedignos. Há situações em que a amostragem se impõe. Assim, pode-se ter o caso de a população de estudo ser muito grande, sendo impraticável o levantamento total. Em casos em que o processo de investigação das características de cada elemento for destrutivo (teste de resistência de materiais, por exemplo), só tem sentido trabalhar-se com amostras. Há também os problemas de ordem ética: novas drogas, vacinas, técnicas cirúrgicas devem ser testadas inicialmente em amostras, antes de seu uso amplo na população. 2.1 ETAPAS DE UM LEVANTAMENTO POR AMOSTRAGEM Quer a amostragem seja feita dentro de um laboratório (por exemplo, para selecionar ratos que serão usados em um experimento sobre agentes cancerígenos), quer a amostragem seja feita sobre a população geral (por exemplo, para obter informações sobre aspectos de fertilidade de mulheres moradoras em uma grande cidade, como São Paulo), existem etapas que devem ser seguidas, intimamente ligadas aos princípios de metodologia de pesquisa científica. Tais itens serão comentados com linguagem mais dirigida a levantamentos objetivando estimar parâmetros de populações reais de seres humanos. Tais comentários, todavia, são aplicáveis a qualquer situação em que se requeira amostragem, bastando para isso pequenos ajustes, basicamente de forma e não de conteúdo. Às principais etapas de um levantamento por amostragem são: Seja N o tamanho da população e n o tamanho da amostra. Então, calcula-se o intervalo de amostragem ; en . Sorteia-se um número entre 1 e “a” e seja x esse número. un a — ou o inteiro mais próximo que chamaremos de n Formamos, assim, a amostra dos elementos correspondentes aos números: x; (z+a); (x+2a);..; [2+(n— 1a]. Exemplos: 500 1. Seja N=500en=50. Então, 30 — 10, oua = 10. Sorteia-se um número de 1 a 10. Seja 3 (x = 3) o número sorteado. Logo, os elementos numerados por 3;13;2 . serão os componentes da amostra. 5 5 2. Para uma população de tamanho N = 32, numerada sequencialmente de 1 a 32, e amostra de tamanho n=8, tem-se a = 4. O início casual “x” deve ser sorteado entre 1,2,3 e 4; admita-se que tenha sido v =3. A amostra fica constituída das unidades amostrais de número (ou ordem): 3;7;11;15;19;23;27;31. Pode ser visto que o resultado é obtido somando-se sucessivamente o intervalo de amostragem a = 4 a cada número obtido imediatamente antes. 2.3.3 AMOSTRAGEM ESTRATIFICADA No caso de população heterogênea, na qual podemos distinguir subpopulações mais ou menos homogêneas denominadas estratos, podemos usar a amostragem estratificada. Estratificar uma população é dividi-la em L subpopulações denominadas estratos, tais que nm +no+.. «np = n, onde os estratos são mutuamente exclusivos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação. Muitas vezes uma população é composta de subpopulações (ou estratos) bem definidos, havendo maior homogeneidade entre as unidades amostrais dentro de cada estrato do que entre as unidades amostrais de es- tratos diferentes. Sexo, idade, condição sócio-econômica, são exemplos típicos. Nestas condições, tais estratos devem ser levados em consideração e o sorteio da amostra deve ser feito em cada um deles independentemente; daí o nome de amostragem estratificada. Um caso muito importante da amostragem estratificada é aquele em que o pesquisador deseja que as subpopulações sejam representadas na amostra com a mesma proporcionalidade com que compõe a população total. Trata-se da situação denominada amostragem casual simples estratificada com partilha proporcional ou simplesmente amostragem estratificada proporcional. 3 COMPARAÇÃO ENTRE ESTATÍSTICAS E PARÂMETROS Quando estamos trabalhando com dados provenientes de uma amostra, poderemos calcular algumas estatísti- cas, que 5 são caracterizações da amostra. Por exemplo, pode-se calcular a média ou a variância desses dados. Logo, estatística é uma função dos dados da amostra X1, Xo,..., Xn: T = (Xi, Xo,.. Xn) Temos então que: = =» a média da amostra n => a variância da amostra que são funções de X1, Xo, Xn. Xe Sº são as estatísticas mais comuns. Por sua vez, os parâmetros caracterizam a população. Os símbolos mais comuns utilizados para distinguir se estamos trabalhando com amostra ou população são dados na tabela a seguir: Discriminação Estatística | Parâmetros Média X u Variância sz o? Número de elementos n N Proporção p p 4 DISTRIBUIÇÕES AMOSTRAIS O problema da Inferência Estatística é fazer uma afirmação sobre parâmetros da população através da amostra. 4.1 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Suponha uma população identificada pela v.a. X, cujos parâmetros média populacional y = E(X) e variância populacional o2 = Var(X) são supostamente conhecidos. Vamos retirar todas as possíveis amostras ao acaso simples, de tamanho n dessa população, e para cada uma calcular a média X. Vamos supor a seguinte população: A população (2,3,4,5) tem média yu = 3,5 e variância o? = 1,25. Vamos relacionar todas as amostras possíveis de tamanho 2 dessa população: (2.2) (3.2) (4,2) (5.2) Agora vamos calcular a média de cada amostra acima relacionada. Então teremos: 20 2,5 30 3,5 2,5 30 35 40 30 3,5 40 45 35 40 45 5,0 Por fim, Jamos calcular a média das médias, ou eia, EX) = it =8,5 De modo análogo, vamos calcular a variância da média X por: n Var(X)= =D; -=2 os i=1 A Para o cálculo da parte denotada por 4, teremos que: n Elm — DP = (m1 — 3) + (xa — 3)? + (us DP + + (an — 3? =(2.0-3,5)2+4+(2,5-3,5)2+..+(5,0-3,5)2=10 Substituindo na fórmula da variância, teremos: =, V Var(X) = L(10 = 0,625 = Lor(X) 1.25 16 2 Teorema: Para amostras casuais simples (X1, X»> Xn). retiradas de uma população com média u e (Xi + Xo ++ Xn) n variância o?, a distribuição amostral da média = 2 Normal com média yu e variância —, quando n tende ao infinito. n aproxima-se de uma Distribuição Desta forma: 2 — o Se X-Nuo)-=>X-Nu—),Yn>1 — n Para padronizarmos a v.a.X vamos usar a mesma transformação em que subtrai-se a média e divide-se pelo desvio-padrão: Z = A PsTZo N(0,1) vn Exemplo: Uma variável aleatória X tem distribuição normal, com média 100 e desvio-padrão 10. Se X é a média de uma amostra de 16 elementos retirados desta população, calcule? 1. P(90<X <h110); 2, Que deveria ser o tamanho da amostra de modo a garantir a que P(90 < X < 110) = 95%? Resolução: e X N(100,100) => X = N(100;6,25) o P(0<X <110)-P | ot cg 10H -P(5s <Z<s5)-Ploa<z<ag-10 vn vn e Calculando o valor de n para a condição dada: — —10 10 P(90<X<110)=P q “Z< = 95% vn vn Como o n é fixo, então teremos Z entre dois pontos simétricos e queremos saber que pontos são estes que deixam uma área de 95% entre eles. =“ P(-w<Z<z)=1l-a Conforme o gráfico da distribuição de Z, verifica-se: alfa/2 -Zo o Zo Se o intervalo de confiança é definido pelo intervalo (—z9; 20), a área em branco é a que fornece a proba- bilidade acima requerida. Logo, a área restante será igual a a. Como temos duas áreas iguais, cada uma delas será igual a $. Vamos chamar os pontos zo de 2ge —z8, pois eles nos fornecerão os pontos que deixam nas caudas da distribuição uma área de 5. Então, rescrevendo a probabilidade, teríamos que: P(-za <Z< 28) =1-a x- Vamos substituir: Z = 52, Logo, P(-23 <Z = 7 <zs)=1-a nm 1. o o Por definição, a expressão X — za. . 2 vn vn ao nível de confiança 1 — a, quando q é conhecido e o erro amostral é definido por ze o va de c. Exemplo: Seja X a v.a. que representa a taxa de colesterol no plasma sangiiíneo humano. Vamos supor que essa variável tem distribuição aproximadamente normal com média | e desvio padrão o = 20mg/100ml de plasma. Vejamos como se obtém o intervalo de confiança para o parâmetro |. Vamos estabelecer o nível de confiança (1 — a) = 0, 95; isto é, um nível de 95% de confiança. Observe a seguinte figura: <u<X+za é o intervalo de confiança para o parâmetro |, que chamaremos 2% 47% 47% 2H -196 o 196 10 Através de uma tabela da Distribuição Normal Zero-Um ou X = N(0,1), obtemos a probabilidade corre- spondente a área 0, 475, o valor z = 1,96. Portanto, os valores de z = +1,96 delimitam a área de probabilidade igual a 0,95 (0,475 + 0,475). Para encontrarmos o intervalo de confiança para |, supondo amostras de tamanho n = 25, podemos escrever: = 20 — 20 = — P(X 1,96. <u <X+1,96.55) = 0,95 =» P(X -T,84< X+7T,84)= 0,95. Portanto, a expressão: X-T,84<u<X+T,84 é o intervalo de confiança ao nível de 95% para a taxa média de colesterol no plasma sangiiíneo humano, obtido com base em uma amostra qualquer de tamanho 25. Portanto, o erro amostral nesse exemplo é de 7,84 mg/100ml de plasma. Para o cálculo dos valores entre os quais se encontra o verdadeiro valor do parâmetro, teríamos que calcular X e substituir na expressão anterior. Vamos supor que a média da amostra é X = 198mg/100ml de plasma. Então, o intervalo de 95% de confiança, determinado com base nessa amostra é 190,16 < yu < 205,84 Na prática, esperamos que a verdadeira média populacional esteja contida neste intervalo com 95% de confiança, ou seja, que a amostra utilizada para a estimativa seja uma das 95% das amostras possíveis da população cujo erro amostral seja menor ou igual a erro máximo admitido (7,84 mg/100ml de plasma). É importante frisar que o intervalo de confiança para yu é um indicador da precisão da estimativa de X . 5.2 INTERVALO DE CONFIANÇA para a MÉDIA POPULACIONAL (4) Quando a VARIÂNCIA POPULACIONAL (9?) é desconhecida. Neste caso, como não conhecemos 02, precisaremos calcular a estimativa S2 a partir de uma amostra. Devemos lembrar que: 2 Sabemos que X N(u,0?) => X = N(y, z )e a tem distribuição N(0, 1) X-u Ss vn Esta v.a. T tem uma distribuição conhecida como “t” de Student com (n — 1) graus de liberdade. O gráfico da distribuição “” de Student é simétrico e tem forma similar à curva da Normal, só que menos “achatada”. Os graus de liberdade de uma distribuição correspondem ao número de variáveis independentes que estão Agora, vamos considerar a variável aleatória T = sendo somadas. Sua representação gráfica seria a seguinte: As probabilidades para uma v.a. T' com distribuição “t” de Student também encontram-se tabeladas. Vejamos agora como pode ser obtido um intervalo de confiança para |; quando o valor de o é desconhecido. Dispomos de uma estimativa de o obtida com base em uma amostra casual simples de tamanho n e sabendo-se que T tem distribuição “t” de Student com (n — 1) graus de liberdade, associados a S. O procedimento a ser adotado é parecido com o adotado para o uso da distribuição Normal. Dada uma amostra de tamanho n, imediatamente obtemos o valor (n —1) dos graus de liberdade associados à estimativa S de o. Então, definido o intervalo de confiança (1 — a), iremos procurar na tabela a seguinte probabilidade: P(-t<T<t)=1-a Os pontos —t. e te vão ser encontrados da mesma forma verificada para a Distribuição Normal. X- X- Já vimos que T = +Gt . Então, podemos escrever P(-te<T = s Po t)=1I-a. va va Rearranjando a expressão entre parênteses, obtemos: - Ss - P(X —te—= X+Hte. ( Aus + S-t-a Por definição, a expressão X —te. é o intervalo de confiança para o parâmetro |, ya ao nível de confiança 1 — a, quando o é desconhecido. Exemplo: Seja X a variável aleatória, que representa a taxa normal de colesterol no plasma sangiiíneo hu- mano. Suponhamos que, com base em uma amostra casual simples de 25 indivíduos normais, um pesquisador obteve a média X = 198mg/100mi de plasma e o desvio-padrão S = 30mg/100ml de plasma. Vamos obter, com base nessa amostra, o intervalo de 90% de confiança para u. Na tabela “t” de Student procuraremos o valor tc para (n — 1) = 24 graus de liberdade e a = 10%. Este valor é t. = 1,71. Então, escrevemos: 198 — Ls <u< 198 + 1,715 => 187,74< q < 208,26 é o intervalo de 90% de confiança para |1, obtido com base na amostra. Então, espera-se que o intervalo calculado seja um dos 90% dos intervalos, para amostras casuais simples de 25, conterão o parâmetro ju. Ou seja, a média da população se encontra entre 187,74 mg/100ml de plasma e 208,26 mg/100ml de plasma com 90% de confiança. 6.2.2 ERRO do TIPO IH Definimos esse erro quando aceitamos Ho (hipótese nula) quando esta é falsa. A probabilidade de cometer este erro é indicada por 3, Logo, 8 = P(erro do tipoll) = P(não rejeitar Ho / Ho é falsa). A determinação do valor de 3 já é mais difícil, pois usualmente não se especificam valores fixos para o parâmetro na situação alternativa. Este procedimento não será visto no momento e estará relacionado com o poder do teste. A tabela a seguir resume as situações em que cometermos os erros do tipo I e tipo II: Realidade Decisão Aceitar Ho Rejeitar Ho Ho é verdadeira | Decisão correta Erro tipo I Ho é falsa Erro tipo II Decisão correta 6.3 TESTE DE HIPÓTESE para uma MÉDIA Este teste é feito baseando-se nas distribuições da média amostral X. Veremos dois testes para a média, que dependerão do conhecimento ou não do verdadeiro valor da variância. 6.3.1 Teste para a Média quando o? é Conhecida (e quando a amostra é grande) O procedimento para a realização desse teste de hipóteses pode ser resumido nos seguintes passos: Assim teremos; 1. Enumerar as hipóteses: Ho:u = ão Hu fo 2. Determinar a distribuição de X. e, por conseguinte, a estatística de teste. > - Já vimos que X = N(u, —) => n A estatística de teste é uma estatística amostral, usada para tomar uma decisão em relação à hipótese nula. 3. Fixar o nível de significância a. 4, Determinar a Região de Aceitação e a Região de Rejeição (crítica) que serão definidas de acordo com o a fixado: Distribuição Normal (0,1) 15 A região crítica é o conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula. Com base no gráfico acima, iremos formular a seguinte regra de decisão ou teste de hipótese ou de significância: * Rejeitar a hipótese nula ao nível de significância a se o valor de Z for maior que o valor de + Ze ou menor que o valor —zs. e Em caso contrário, não rejeitar a hipótese nula. T T T » da Ó za Z = N(6, 1) Reg. Rejeição Ho ne Reg. Aceitação de Ho e Reg. Rejeição Ho O valor + ze é chamado valor crítico, separando a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Exemplo: Em indivíduos sadios, a taxa de fósforo no sangue tem distribuição aproximadamente normal com média £ = 3mg/100cc e desvio-padrão o = 0, 6mg/100cc. Com o objetivo de saber se no artritismo essa taxa média era alterada, um pesquisador tomou uma amostra de 36 doentes e testou sua hipótese ao nível de 5% de significância; observou-se na amostra a média X =3, 12mg/100cc. Resolução: Os hipóteses serão as seguintes: H:u=3,0 1 H14:u£3,0 Usaremos a = 0,05 X- N(3;(0,6)2/36) => X - N(3;0,01) A estatística a ser utilizada será: X-u 30-30 =D 010 0h As regiões de aceitação e de rejeição serão as seguintes: Para a = 0,05 Distribuição Normal (0,1) 9/5% 0,025 2% — Zar-1,96 Os pontos —zs e z3 serão fornecidos pela tabela da faixa central de maneira idêntica à qual foi observado para construção de intervalos de confiança. Logo 29025 — 1,96 e —z0,025 = —1,96. Estes pontos serão chamados de pontos críticos. A área hachurada corresponde à região de rejeição da hipótese nula. 16 Se a estatística Z > ze ou Z < —zs, então rejeitaremos a hipótese nula. Caso contrário, aceitaremos-a. Como Z = 1,2 < 20, 025 = 1,96 => não rejeitamos a hipótese de que a taxa de fósforo no sangue de pessoas com artritismo seja igual a 3, 0mg/100cc. Então não há evidência amostral suficiente para rejeitamos a hipótese ao nível de significância de 5%. 6.3.2 Teste para Média quando o? é Desconhecida (e para pequenas amostras) x 2 . as 2 . Neste caso, como não conhecemos o”, precisamos calcular a estimativa Sº a partir de uma amostra. Seguindo os mesmos passos do teste anterior para a construção das hipóteses a serem analisadas; teremos como única diferença o fato de agora a estatística a ser utilizada ser: X -— T= SÉ ta = T tem distribuiçao “t” de Student com n — 1 graus de liberdade. 1. De forma similar ao teste com base da distribuição Normal, agora teremos que: (a) Se —ta <t<ta, aceita-se Ho 2 2 (b) Set > ta, rejeita-se Ho (c) Set < -tg, rejeita-se Ho. Exemplo: Os registros dos últimos anos de um colégio atestam para os calouros admitidos a nota média 115 (teste vocacional). Para testar a hipótese de que a média de uma nova turma é a mesma, tirou-se, ao acaso, uma amostra de vinte notas, obtendo-se média de 118 e desvio-padrão 20. Admitir que a = 0,05 para efetuar o teste. Resolução: Ho:u=115 “115 a=0,05; n=20 Os graus de liberdade (g.1.) para o teste “t” de Student será obtido da seguinte forma gl=n-1=20-1=19, Verificando-se na tabela da “t” de Student com 19 graus de libedade e a = 0,05, obteremos os seguintes pontos —ta = —to,02 = —2,093 e ta =tooos = 2,093; que irão nos fornecer as seguintes áreas: gilão de Região de Aceiltação Região de Rejeição NO +%=-2,093 0 t%=2,093 X-u 18-115 3 AestatísticaT =>" =D — = = (0,6708 estatística s 50 TA 7 Vas VD Como —2,093 <t < 2,093 — não rejeita-se a hipótese nula ao nível de significância de 5%. 17 Como Zeaiculado = —2, 71 < —1,96 = Zyabelados conforme figura acima, então rejeitamos Ho, ao nível de 5% de significância. Logo, poderemos afirmar que existem indícios que o tempo de vida médio entre homens e mulheres que contraíram o vírus Y não é igual. Ou seja, os tempos médios de vida diferem significativamente entre sexo, ao nível de 5%. 6.5.2 Comparação entre Médias de duas Populações Quando as variâncias populacionais o e o Desconhecidas. Este teste de hipóteses é conhecido como teste “t” de Student para diferença de médias. Quando as variâncias das populações não são conhecidas, caso muito comum na prática, há necessidade de estimá-las a partir dos dados amostrais. Neste caso, devemos substituir o7 e o2 pelos seus estimadores SZ e Sã, obtendo a seguinte estatística: onde S. = E m Dizemos que T tem distribuição “” de Student com ny +n2 — 2 graus de liberdade. O teste de hipóteses deve ser conduzido de maneira análoga, lembrando-se da modificação dos valores críticos de t, que vão ter outro número de graus de liberdade. Exemplo: Desejamos testar se dois tipos de ensino profissional são igualmente eficazes. Para isso, sortearam- se duas amostras de operários; a cada uma, deu-se um dos tipos de treinamento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de conclusão você poderia tirar, baseando-se nos resultados abaixo. Amostra N, de elementos Média Desvio-Padrão Tipo 1 12 T5 5 Tipo II 10 Tá 10 Resolução: As hipóteses serão: Ho: m = o Hm ft Vamos fixar a = 0,05. Calcularemos a estatística: onde Se = my + Sob Ho => uy = o Então: (15-74) 1 - = Dot — Se = 7, 88954 e T= 7.88954. 0,026846 1,2927 T=0,7735 Iremos definir os pontos críticos —tg e ta, que serão, respectivamente, —2,20 e 2,20. Como -2,20 < T < 2,20, aceitamos a hipótese nula. Com base no teste acima, pode-se concluir que os dois tipos de testes não diferem significativamente, ao nível de 5%. Logo, qualquer um dos dois tipos de ensino profissional são igualmente eficazes. 6.6 TESTES BILATERAIS e UNILATERAIS. As caudas de uma distribuição são as regiões extremas delimitadas por valores críticos. Nos exemplos desen- volvidos nesta apostila os testes de hipótese envolveram testes bilaterais no sentido de que a região crítica está situada nas duas regiões extremas (caudas) sob a curva. Rejeitamos a hipótese nula se nossa estatística de teste está na região crítica porque isto indica uma discrepância significativa entre a hipótese nula e os dados amostrais. Alguns testes são unilaterais, podendo ser unilaterais esquerdos ou direitos. Os testes unilaterais esquerdo têm a região crítica localizada na região extrema esquerda sob a curva, enquanto que os unilaterais direitos têm a região crítica localizada na região extrema direita sob a curva. Nos testes bilaterais, o nível de significância é dividido igualmente entre as duas caudas que constituem a região crítica. Em testes unilaterais, a área crítica é igual a a. À figura a seguir esquematiza estas informações. É Nie Sinalde Hj: < Sinalde Hj :> Teste Unilateral à Esquerda Teste Unilateralà Direita A Ni Sinalde Hi: + Teste Bilateral Exemplo: Determinação de valores críticos: Muitos passageiros de navios de cruzeiro utilizam adesivos que fornecem dramamina ao corpo a fim de evitar o enjôo. Testa-se a informação sobre a quantidade da dosagem média, ao nível de significância de 0,05. As condições são tais que permitem a utilização da distribuição normal. 1. Determine o(s) valore(; crítico(s) de z se o teste é: (a) bilateral; (b) unilateral esquerdo; (c) unilateral direito. Resolução: (a) Em um teste bilateral, o nível de significância é dividido igualmente entre as duas caudas, o que determina uma área de 0,025 em cada cauda. Podemos encontrar os valores críticos pelo uso da tabela da normal padrão através dos valores que correspondem a áreas de 0,475 à direita ou à esquerda de média. Assim, obteremos os valores críticos z = —1,96 e z = 1,96. (b) Em um teste unilateral esquerdo, o nível de significância 0,05 é a área da região crítica à esquerda, de forma que o valor crítico corresponde a uma área de 0,45 à esquerda da média. Recorrendo à tabela da normal padrão, obtemos o valor crítico z = —1,645. (c) Em um teste unilateral à direita, o nível de significância 0,05 a área da região crítica à direita, de forma que o valor crítico corresponde a uma área de 0,45 à direita da média. Com o uso da tabela normal padrão, obtém-se o valor crítico z = 1,645. 6.7 NÍVEL DESCRITO (p-valor). O procedimento descrito até o momento é conhecido como procedimento clássico de testes de hipóteses. Um outro procedimento que vem sendo muito adotado consiste em apresentar o nível descritivo (ou p-valor) do teste. A diferença básica entre esses dois procedimentos é que, neste último, não é necessário construir a região crítica. Em lugar disto, indica-se a probabilidade de ocorrerem valores da estatística mais extremos que o observado, supondo a hipótese HO verdadeira. Regra de decisão p-valor > « => aceitar Ho p-valor < a => rejeitar Ho Então, o p-valor é a probabilidade, sob a hipótese nula, de se observar um valor igual ou maior que o obtido. Ou seja, um p-valor (ou valor de probabilidade) é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, na suposição de a hipótese nula ser verdadeira. Este tipo de procedimento é usualmente o adotado quando se trabalha com softwares estatísticos para análise de dados, pois a informação a respeito do p-valor está disponível dentre os resultados apresentados pelo computador. Com o objetivo de realizar o teste de hipóteses através desse procedimento, iremos apresentar dois ex- emplos. Para auxiliar nessa análise usaremos alguns resultados apresentados por um pacote estatístico para análise de dados denominado Minitab. Exemplo 1: Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fab- rica, apresenta-se abaixo de 23 mg por cigarro. Um laboratório realiza 10 análises desse índice, obtendo: 27,24,21,25,26,22, 23,25,27,22. Sabe-se que o índice de nicotina se distribui normalmente. Pode-se aceitar, ao nível de 10%, a afirmação do fabricante? Ho: u=23mg vs Hi: u+23mg (suponha um teste bilateral) X-m 24,2-93 A Estatística do teste é T = s Do — 1,77 vn O Valor da tabela que servirá de base para comparar com a estatística do teste é —ta(n — 1) = to 10,9 = —1,383, logo não podemos rejeitar Ho ao nível de significância de 10%. O Minitab utiliza como critério o nível descritivo do teste: Test of | = 23.000 vs | = 23.000 Variable N Mean StDev SE Mean T P-Value ci 10 24.200 2.150 0. 680 1.77 0.94 Observa-se que o p-valor > 0,10 e, portanto, aceitamos a hipótese nula. Logo, os dados amostrais não possuem evidência suficiente para aceitarmos a afirmação do fabricante. Exemplo 2: Uma rede de pizzarias deseja testar se o teor médio de gordura em peças de salame produzidas por determinada indústria de alimentos é igual a 15%. De um grande lote que adquiriu retirou uma amostra de 50 peças de salame e os resultados estão a seguir: 19 13 Neste caso queremos testar a hipótese de não haver relação entre o nível educacional do indivíduo e o êxito no seu casamento. Para podermos calcular as freqiiências esperadas para as diversas caselas, sob a suposição de independência, estaremos esperando que não haja diferença entre as modalidades, logo poderemos usar os totais marginais: 232,116 e 52. Assim, encontraremos a distribuição de escolaridade sem levar em consideração o ajustamento matrimonial, de forma que: 232 116 52 300 = 0:58 ; 700 — 0:29 ; 300 = 0:13 Aplicaremos estas taxas em todas as caselas da tabela anterior, obtendo as freqiiências esperadas, que estão representadas dentro dos parênteses da tabela anterior. Nosso teste procederá do seguinte modo: Ho : O ajustamento matrimonial é independente da educação H,:O ajustamento matrimonial não é independente da educação a=5% y = número de graus de liberdade = (h —1)(k-1)=(3-1)(4-1)=223=6 => y2=12,6 A estatística do teste, sob Ho, será: (18 — 27)? 4 (17-13) Eu (20 232 + 27 3 º 23 20,7 Como Xiculado > 12,6, rejeita-se a hipótese de independência. Por inspeção da tabela parece que os indivíduos com alguma educação colegial parecem ajustar-se melhor ao casamento do que aqueles que não a possuem. 8 EXERCÍCIOS DE FIXAÇÃO 1) Um antropólogo mediu as alturas (em polegadas) de uma amostra aleatória de 100 homens de determinada população, encontrando a média amostral de 71,3. Se a variância da população for o? = 9, determine um intervalo de 99% de confiança para a altura média de toda a população. 2) Para os tempos de reação de 30 motoristas selecionados aleatoriamente, encontrou-se uma média de 0,83 segundos e um desvio-padrão de 0,20 segundos. Determinar um intervalo de 95% de confiança para o tempo médio de reação de toda a população de motoristas. 3) Uma amostra aleatória de 400 domicílios mostra que 25% deles são casas de aluguel. Qual é o intervalo de confiança que podemos razoavelmente supor que seja o da proporção de casas de aluguel, com um nível de significância de 2%? 4) Certo tipo de semente cresce, em média, até a altura de 8,5 polegadas, com desvio-padrão de uma pole- gada. Semeiam-se 100 delas em um solo enriquecido, a fim de testar qual a média na melhora de crescimento. Se nesta amostra, encontrarmos uma altura média de 8,8 polegadas de altura, qual será nossa conclusão? 5) Estamos desconfiados de que a média das receitas municipais per capita das cidades pequenas (até 20.000 habitantes) é maior do que a das receitas do estado, que é de 1.229 unidades. Para comprovar ou não esta hipótese, sorteamos dez cidades pequenas e obtivemos os seguintes resultados: 1.230; 582; 576; 2.093; 2.621; 1.045; 1.439; 717; 1.838; 1.359. O relatório do software Minitab encontra-se a seguir. Test of u= 1229 vs > 1229 Variable N Mean StDev SE Mean T P-Value Renda 10 1350 676 214 0.57 0.29 Com base nestas informações, que conclusões podem ser feitas. Construa as regiões críticas para este teste de hipóteses e compare este procedimento com o do uso do p-valor. 6) Duas máquinas, A e B, são usadas para empacotar pó de café. A experiência passada garante que o desvio adrão de ambas é de 10g. Porém, suspeita-se de que elas têm médias diferentes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da máquina À e outra com 16 pacotes da máquina B. As médias foram, respectivamente, X 4 — 502, 749 e Xp — 490,60g. Com estes números, e ao nível de 5%, qual seria a conclusão do teste Ho: ua = Hp? T)Suponha que está sendo realizada uma pesquisa para avaliar diversas características físicas e compor- tamentais dos ursos polares. Alguns pesquisadores acreditam que o peso nesse grupo de animais não difere segundo o sexo. Com o objetivo de se verificar se esta afirmação é verdadeira, 99 ursos do sexo masculino e 44 do sexo feminino foram pesados. Os resultados obtidos encontram-se a seguir. Com base nesses resultados, que conclusões você pode obter? Twosample T for Weight Sex N Mean StDev SE Mean 1 99 214 120 12 2 44 143.0 64.5 9.7 95% C.I. for ul — 2: ( 40, 101.5) T -—- Test ul = u2 (vs not =): T = 4.59 P = 0.0000 DF = 135 8) Fez-se um estudo de 531 pessoas feridas em acidentes de bicicleta; os resultados de uma amostra aleatória constam da tabela abaixo. Com o nível de 0,05 de significância, teste a afirmação de que o uso do capacete não reduz a possibilidade de ferimentos no rosto. Com base nos resultados, acha que o uso do capacete ajuda a reduzir o risco de ferimentos no rosto? Resultados | Com capacete [ Sem capacete Com ferimentos faciais 30 182 Todos os ferimentos não faciais 83 236 Fonte: “A Case-control study of the Effectiveness of bicycle safety helmets in preventing facial injury”, de Thompson, Thompson, Rivara e Wolf, American Journal of Public Health, vo. 80, no. 12. 9) Um estudo feito para determinar a taxa de fumantes entre pessoas de diferentes grupos etários originou os dados amostrais aleatórios resumidos na tabela a seguir. Com o nível de 0,05 de significância, teste a afirmação de que o fumo é independente do grupo etário. Com base nesses dados, tem sentido dirigir a propaganda de cigarros a grupos etários específicos? Hábito de fumar | 20-24 anos I 25-34 anos | 35-44 anos | 45-64 anos Fumante 18 15 17 15 Não fumante 32 35 33 35 TOTAL 50 50 50 50 Fonte: Baseado em dados do Centro Nacional de Estatísticas em Saúde (E.U.A)
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved