Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Técnicas de Estatística Descritiva - Apostilas - Estatística Parte1, Notas de estudo de Estatística

Apostilas de Estatística sobre o estudo do Conceitos Básicos e Técnicas de Estatística Descritiva, Estatística descritiva x estatística inferencial

Tipologia: Notas de estudo

2013
Em oferta
30 Pontos
Discount

Oferta por tempo limitado


Compartilhado em 11/04/2013

jacare84
jacare84 🇧🇷

4.5

(376)

501 documentos

1 / 52

Documentos relacionados


Pré-visualização parcial do texto

Baixe Técnicas de Estatística Descritiva - Apostilas - Estatística Parte1 e outras Notas de estudo em PDF para Estatística, somente na Docsity! UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA CE003 ESTATÍSTICA II (Notas de Aula) DEPARTAMENTO DE ESTATÍSTICA UFPR Curitiba, 27 de fevereiro de 2009 Sumário 1 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva 1 1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1 Estat́ıstica descritiva x estat́ıstica inferencial . . . . . . . . . . . . . 3 1.1.2 População e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.3 Variáveis e suas classificações . . . . . . . . . . . . . . . . . . . . . . 8 1.2 Técnicas de estat́ıstica descritiva . . . . . . . . . . . . . . . . . . . . . . . . 9 1.2.1 Tabelas de freqüências . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2.2 Medidas-resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2 Teoria das Probabilidades 33 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2 Conceitos Básicos de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 33 2.2.1 Definição clássica de probabilidade . . . . . . . . . . . . . . . . . . . 34 2.2.2 Aproximação da Probabilidade pela frequência relativa . . . . . . . . 35 2.2.3 Propriedades de probabilidades . . . . . . . . . . . . . . . . . . . . . 35 2.2.4 Teorema da soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.5 Probabilidade condicional . . . . . . . . . . . . . . . . . . . . . . . . 36 2.2.6 Teorema do produto . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.2.7 Teorema da probabilidade total . . . . . . . . . . . . . . . . . . . . . 38 2.2.8 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3 Variáveis Aleatórias 40 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.2 Variável Aleatória Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.3 Variável Aleatória Cont́ınua . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.4 Esperança Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.6 Principais Distribuições de Probabilidades . . . . . . . . . . . . . . . . . . . 42 3.6.1 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . 42 3.6.2 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.6.3 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 44 i Lista de Tabelas 1.1 Resumo de técnicas de estat́ıstica descritiva . . . . . . . . . . . . . . . . . . 3 1.2 Resumo de técnicas de estat́ıstica inferencial . . . . . . . . . . . . . . . . . . 4 1.3 Freqüências de estado civil em uma amostra de 385 indiv́ıduos. . . . . . . . 10 1.4 Tabela de freqüências para a variável Idade. . . . . . . . . . . . . . . . . . . 11 1.5 Tabela de freqüências para a variável horas semanais de atividade f́ısica . . 12 1.6 Tabela de freqüências para a variável Peso . . . . . . . . . . . . . . . . . . . 12 1.7 Tipos sangúıneos de 1000 pacientes. . . . . . . . . . . . . . . . . . . . . . . 16 1.8 Medidas de tendência central para as notas das turmas A e B. . . . . . . . 17 1.9 Principais medidas de dispersão. . . . . . . . . . . . . . . . . . . . . . . . . 18 1.10 Peso de 10 nascidos vivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.11 Intenção de votos para os partidos A,B,C e D. . . . . . . . . . . . . . . . . . 22 1.12 Número de crianças por famı́lia. . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.13 Nı́vel de estresse em 70 funcionários de uma empresa. . . . . . . . . . . . . 25 1.14 Resumo de 5 números para o número de laranjas por caixas. . . . . . . . . . 27 1.15 Alturas de crianças do sexo masculino (m) e feminino (f). . . . . . . . . . . 29 2.1 Gosto pela disciplina de estat́ıstica segundo sexo. . . . . . . . . . . . . . . . 37 4.1 População de alunos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2 Todas as posśıveis amostras aleatórias simples com reposição de tamanho 2, da população de alunos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.3 Distribuição amostral da idade média. . . . . . . . . . . . . . . . . . . . . . 53 5.1 Erros cometidos na tomada de decisão. . . . . . . . . . . . . . . . . . . . . . 72 5.2 Algumas ocorrências, implicações e decisões após a retirada da amostra. . 74 5.3 Distribuição de probabilidades das posśıveis amostras. . . . . . . . . . . . . 75 5.4 Resumo das decisões para o Exemplo 5.1. . . . . . . . . . . . . . . . . . . . 76 5.5 Resumo das decisões para o novo experimento. . . . . . . . . . . . . . . . . 77 5.6 Algumas tomadas de decisão e regras de decisão conforme a hipótese nula, o ńıvel de significância e a distribuição de probabilidade. . . . . . . . . . . . 81 5.7 Valores de 1 − β(µ∗) para o exemplo 5.2 de acordo com os prâmetros α, σ, n e µ∗. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 iv LISTA DE TABELAS v 5.8 Resistência (kgf) de dois tipos de concreto. . . . . . . . . . . . . . . . . . . 92 5.9 Pressão antes e após seis meses da adiminstração do medicamento. . . . . 94 5.10 Tabela auxiliar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.11 .Número de acidentes por dia da semana. . . . . . . . . . . . . . . . . . . . 98 5.12 Quadro auxiliar com as freqüências esperadas. . . . . . . . . . . . . . . . . 99 5.13 Renda e número de filhos por famı́lia em uma cidade. . . . . . . . . . . . . 100 5.14 Representação de duas caracteŕısticas (A e B). . . . . . . . . . . . . . . . . 100 5.15 Número esperado para número de filhos e renda. . . . . . . . . . . . . . . . 102 6.1 Tempo de reação ao est́ımulo em função da idade. . . . . . . . . . . . . . . 106 7.1 Tabela da análise de variância. . . . . . . . . . . . . . . . . . . . . . . . . . 116 7.2 Crescimento de explantes de morangos em gramas. . . . . . . . . . . . . . . 117 7.3 Análise de variância do exemplo 7.1. . . . . . . . . . . . . . . . . . . . . . . 118 7.4 Consumo de energia elétrica de três motores durante uma hora. . . . . . . . 121 8.1 Dados de espessura (mm) de uma peça de metal. . . . . . . . . . . . . . . 132 8.2 Dados de espessura (mm) de uma peça de metal avaliados após intervenção no processo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 1 Distribuição Normal: P (0 ≤ Z ≤ zc). . . . . . . . . . . . . . . . . . . . . . . 137 2 Distribuição Normal padrão com valores de P [−∞ ≤ Z ≤ Zc]. . . . . . . . . 138 3 Distribuição Normal padrão com valores de P [−∞ ≤ Z ≤ Zc] (continuação). 139 4 Limites unilaterais de F ao ńıvel de 5% de probabilidade n1=número de graus de liberdade do numerador, n2= número de graus de liberdade do denominador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 5 Limites unilaterais de F ao ńıvel de 1% de probabilidade n1=número de graus de liberdade do numerador, n2= número de graus de liberdade do denominador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 6 Valores de t em ńıveis de 10% a 0,1% de probabilidade. . . . . . . . . . . . 142 7 Valores da amplitude total estudentizada (q), para uso no teste de Tukey, ao ńıvel de 5% de probabilidade. I=número de tratamentos, GLRES= número de graus de liberdade do reśıduo.143 8 Distribuição de Qui-quadrado. Valor cŕıtico de χ2 tal que P (χ2k > χ 2 0) = α. . . . . . . . . . . . . . . . . . . 144 9 Constantes utilizadas em gráficos de controle. . . . . . . . . . . . . . . . . . 145 10 Tabela de números aleatórios. . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Lista de Figuras 1.1 Gráfico de setores para a intenção de votos nos partidos A,B,C e D. . . . . 22 1.2 Gráfico de barras para o número de filhos por famı́lia. . . . . . . . . . . . . 24 1.3 Histograma para o ńıvel de estresse. . . . . . . . . . . . . . . . . . . . . . . 25 1.4 Desenho esquemático do box-plot com base no resumo de 5 números. . . . . 26 1.5 Box-plot do número de laranjas nas 20 caixas. . . . . . . . . . . . . . . . . . 27 1.6 Desenho esquemático do box-plot com base nos quartis e critério para va- lores at́ıpicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.7 Altura de crianças conforme o sexo. . . . . . . . . . . . . . . . . . . . . . . 30 1.8 Variação mensal na Taxa Selic no peŕıodo de 1995 a 2005. . . . . . . . . . . 31 1.9 Gráfico sequencial das vendas ao longo dos meses. . . . . . . . . . . . . . . 32 3.1 Densidade Normal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 4.1 Analogia entre as propriedades dos estimadores e o jogo de dardos. . . . . . 52 4.2 Distribuição de X̄ quando X tem distribuição normal, para alguns tama- nhos de amostra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.3 Densidades de T e Z. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.4 Densidade de Z e o quantil z. . . . . . . . . . . . . . . . . . . . . . . . . . . 58 4.5 Máximo de p(1 − p). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.1 Área hachurada relativa ao P-Valor do teste . . . . . . . . . . . . . . . . . . . . 80 5.2 Probabilidade de não rejeitar H0 quando ela é falsa. . . . . . . . . . . . . . 84 5.3 Região cŕıtica associada à estat́ıstica t . . . . . . . . . . . . . . . . . . . . . . . 87 5.4 Região cŕıtica associada à estimativa da média . . . . . . . . . . . . . . . . . . . 88 5.5 Probabilidade associada à ocorrência de estimativas da média menores do que 495 g. 88 5.6 Gráfico da distribuição χ2. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1 Gráficos de dispersão e coeficientes de correlação associados. . . . . . . . . . . . . 104 6.2 Idade versus tempo de reação a um est́ımulo. . . . . . . . . . . . . . . . . . . . 107 6.3 Análise gráfica dos reśıduos associados ao modelo ajustado. . . . . . . . . . . . . 109 6.4 QQplot dos reśıduos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.5 Tempos de reação em função da idade e MRLS ajustado. . . . . . . . . . . . . . 111 vi 2 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. Em um rápido levantamento é posśıvel encontrar várias definições para Estat́ıstica, das quais citaremos algumas interessantes. ”Ciência que utiliza métodos ŕıgidos para lidar com incertezas”. ”Ciência que procura estabelecer os limites da incerteza”. ”Ciência que coleta, classifica e avalia numericamente fatos que servirão de base para inferência”. ”Ciência da Incerteza”. Outras definições de conteúdo metafórico são: ”...é a arte de torturar os dados até que eles confessem a verdade”. ”...nada mais é do que o bom senso expresso em números”. Embora todas as definições apresentadas contenham elementos importantes, a Es- tat́ıstica a ser apresentada neste material estará mais relacionada a definição a seguir: A Estat́ıstica é um conjunto de métodos e técnicas que auxiliam a tomada de decisão sob a presença de incerteza.”‘ Na maioria das definições apresentadas, verificamos a presença da palavra incerteza. De fato, o conceito de incerteza está vinculado à aplicação dos métodos e técnicas de análise estat́ıstica. A incerteza A incerteza permea várias áreas do conhecimento: f́ısica, ciências sociais, compor- tamento humano, economia e ciências naturais. O tratamento quantitativo adequado a incerteza é obtido por meio do estudo de probabilidades. A incerteza é conseqüência da variabilidade de um fenômeno e dificulta a tomada de decisões. Considere um simples exemplo da vida cotidiana: a ida de uma pessoa a uma agência bancária. Em torno deste fenômeno há uma série de incertezas, por exemplo: a quantidade de pessoas na fila, o número de atendentes, o tempo de atendimento, as condições do tempo, a cotação da moeda,etc. Mesmo que um indiv́ıduo procure informações prévias sobre todos estes elementos, sob os quais paira a incerteza, ainda assim não será posśıvel predizer o desfecho. Podemos, por exemplo, analisar as condições do tempo, obter informações sobre o tráfego, ligar para a agência bancária e, ainda assim, não conseguimos precisar o horário em que receberemos o desejado atendimento bancário. 1.1. Introdução 3 1.1.1 Estat́ıstica descritiva x estat́ıstica inferencial A Estat́ıstica é conhecida, por muitas pessoas, como uma ferramenta meramente descritiva, ou seja, descreve dados por meio de percentagens, gráficos e tabelas. Apesar da estat́ıstica cumprir, também, este papel de resumir as informações, seu potencial de uso é muito mais amplo. A tomada de decisão se apóia no uso da Estat́ıstica Inferencial. A seguir são deline- adas as funções destas duas abordagens: Estat́ıstica descritiva (Dedutiva) O objetivo da Estat́ıstica Descritiva é resumir as principais caracteŕısticas de um conjunto de dados por meio de tabelas, gráficos e resumos numéricos. Descrever os dados pode ser comparado ao ato de tirar uma fotografia da realidade. Caso a câmera fotográ- fica não seja adequada ou esteja sem foco, o resultado pode sair distorcido. Portanto, a análise estat́ıstica deve ser extremamente cuidadosa ao escolher a forma adequada de re- sumir os dados. Apresentamos na Tabela 1.1 um resumo dos procedimentos da Estat́ıstica Descritiva. Tabela 1.1: Resumo de técnicas de estat́ıstica descritiva Tabelas de freqüência Ao dispor de uma lista volumosa de dados, as tabelas de freqüência servem para agrupar infor- mações de modo que estas possam ser analisa- das. As tabelas podem ser de freqüência simples ou de freqüência em faixa de valores. Gráficos O objetivo da representação gráfica é dirigir a atenção do analista para alguns aspectos de um conjunto de dados. ”Um gráfico vale mais que mil pala- vras”. Alguns exemplos de gráficos são: diagrama de barras, diagrama em setores, histograma, box- plot, ramo-e-folhas, diagrama de dispersão, grá- fico sequencial. Resumos numéricos Por meio de medidas ou resumos numéricos po- demos levantar importantes informações sobre o conjunto de dados tais como: a tendência cen- tral, variabilidade, simetria, valores extremos, valores discrepantes, etc. 4 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. Estat́ıstica inferencial (Indutiva) A Estat́ıstica Inferencial utiliza informações incompletas para tomar decisões e tirar conclusões satisfatórias. O alicerce das técnicas de estat́ıstica inferencial está no cálculo de probabilidades. Duas técnicas de estat́ıstica inferencial são as mais conhecidas: a estimação e o teste de hipóteses que são descritas na Tabela 1.2. Tabela 1.2: Resumo de técnicas de estat́ıstica inferencial Estimação A técnica de estimação consiste em utilizar um conjunto de dados incompletos, ao qual iremos chamar de amostra, e nele calcular estimativas de quantidades de interesse. Estas estimativas podem ser pontuais (representadas por um único valor) ou intervalares. Teste de Hipóteses O fundamento do teste estat́ıstico de hipóteses é levantar suposições acerca de uma quantidade não conhecida e utilizar, também, dados incom- pletos para criar uma regra de escolha. Um exemplo tradicional do uso da estat́ıstica inferencial é apresentado a seguir. Exemplo 1.1. Um instituto de pesquisa deseja estimar a proporção de eleitores do partido de situação no primeiro turno das eleições presidenciais. Ao coletar uma amostra de 1200 eleitores, a proporção foi estimada em 54%. No Exemplo 1.1, a quantidade a ser estimada é a proporção de eleitores que votarão no partido de situação nas eleições presidenciais. Somente a realização das eleições revelará esta quantidade. Entretanto, estimá-la, com base em uma amostra, auxilia a tomada de decisões tais como a alteração de uma estratégia de campanha poĺıtica. Uma outra aplicação da estat́ıstica inferencial aparece no Exemplo 1.2 em que duas hipóteses são colocadas em questão. Será que uma nova droga a ser lançada aumenta, ou não, a produção de um hormônio ? Exemplo 1.2. Um laboratório deseja verificar se uma nova droga aumenta a produção de testosterona em homens com idade acima de 35 anos. Ao aplicá-la em um grupo de 40 in- div́ıduos, constatou-se que após um peŕıodo de tempo a droga aumentou significativamente a quantidade do referido hormônio. Exemplo 1.3. Em uma fábrica de parafusos, a peça é considerada dentro da especificação caso seu comprimento esteja no intervalo entre 4,8cm e 5,2cm. Os técnicos de controle de qualidade selecionam diariamente 100 parafusos fabricados e calculam o comprimento médio. Conhecendo a variabilidade nos tamanhos dos parafusos fabricados, caso o compri- mento médio esteja abaixo de 4,99 cm ou acima de 5,01 cm, o processo será interrompido. 1.1. Introdução 7 que sejam mais homogêneos internamente e heterogêneos entre si, em relação à ca- racteŕıstica investigada. Nestas situações há um ganho em relação à amostragem aleatória simples pois a seleção dentro dos estratos leva a diminuição do tamanho de amostra, mantendo a precisão das estimativas. Uma etapa importante da amostra- gem aleatória estratificada é a alocação da amostra pelos estratos, ou seja, quantos elementos da amostra pertencerão ao estrato 1, estrato 2,. . ., estrato h. Dois tipos de alocação são comumente aplicados: alocação uniforme (mesmo número de ele- mentos nos estratos) e a alocação proporcional (número de elementos proporcional ao tamanho do estrato). • Amostragem por Conglomerados (Clusters): Neste método, ao invés da seleção de unidades da população, são selecionados conglomerados (clusters) destas unidades. Esta é uma alternativa para quando não existe o cadastro. Se a unidade de interesse, por exemplo, for um aluno, pode ser que não exista um cadastro de alunos, mas sim de escolas. Portanto, pode-se selecionar escolas e nelas investigar todos os alunos. Este tipo de amostragem induz indiretamente aleatoriedade na seleção das unidades que formarão a amostra e tem a grande vantagem de facilitar a coleta de dados. • Amostragem Sistemática: Caso exista uma lista das unidades populacionais, a amos- tragem sistemática é uma técnica simples que a partir da razão k = Nn , de unidades populacionais para cada unidade amostral, sorteia-se um número inteiro no inter- valo [1, k] que serve como ponto de partida para a escolha do primeiro elemento a ser inclúıdo na amostra. Descartando os k − 1 próximos elementos, seleciona-se o segundo e assim por diante. Tal como na amostragem aleatória simples, é necessária a existência de um cadastro, entretanto nem todas amostras são pasśıveis de seleção, por isto este procedimento é classificado como quasi-aleatório. Uma das grandes van- tagens da amostragem sistemática, em relação à amostragem aleatória simples, é a praticidade na seleção dos elementos. Problemas com a amostragem sistemática po- dem surgir quando a seqüência dos elementos no cadastro induz um comportamento periódico ou ćıclico na principal variável a ser investigada. Considere, por exemplo, uma vila com 20 casas numeradas de 1 a 20. Se todas as casas cujos números são múltiplos de 4 estiverem mais perto da linha de trem e o intuito é medir poluição sonora, a amostragem sistemática não será adequada. • Amostragem por Cotas: A amostragem por cotas assemelha-se é amostragem estra- tificada, embora dentro dos estratos não seja feita a amostragem aleatória simples. é uma alternativa para casos em que não há a existência de um cadastro, mas há informação dispońıvel sobre o perfil desta população em relação a um fator de estra- tificação que pode auxiliar a representatividade da amostra (exemplo:50% de homens e 50% de mulheres). • Amostragem de Conveniência: Esta é uma forma de amostragem não-probabiĺıstica que leva em conta as restrições envolvidas no levantamento amostral. A unidades 8 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. amostrais são inclúıdas por algum tipo de conveniência, em geral ausência de tempo e recursos materiais para o levantamento dos dados. Embora não sejam feitas in- ferências em amostras de conveniência, estas podem ser importantes para levantar hipóteses e formular modelos. Exemplo 1.6. Uma firma de contabilidade tem N = 50 clientes comerciantes. Seu pro- prietário pretende entrevistar uma amostra de 10 clientes para levantar possibilidades de melhora no atendimento. Escolha uma amostra aleatória simples de tamanho n = 10. • Primeiro passo: atribuir a cada cliente um número entre 1 e 50. • Segundo passo: recorrer à tabela de números aleatórios para selecionar aleatoria- mente 10 números de 1 a 50. Os clientes identificados pelos números selecionados comporão a amostra. Exemplo 1.7. Uma escola tem um arquivo com 5000 fichas de alunos e será selecionada, sistematicamente, uma amostra de 1000 alunos. Neste caso, a fração de amostragem é igual a n N = 1000/5000 que representa k = 5 elementos na população para cada elemento selecionado na amostra. Na amostragem sistemática somente o ponto de partida é sorteado dentre as 5 primeiras fichas do arquivo. Admitamos que foi sorteado o número 2, então a amostra é formada pelas fichas 2, 7, 12, 17, . . . , 4992, 4997. 1.1.3 Variáveis e suas classificações Em um levantamento de dados, censitário ou por amostragem, investiga-se uma ou mais caracteŕısticas de interesse que supostamente variam de uma unidade para outra. Estas caracteŕısticas serão chamadas a partir de agora de variáveis. A variável pode ser uma quantidade, sobre a qual podem ser realizadas operações aritméticas, ou pode ser um atributo como cor de pele, zona de moradia ou classe social. No primeiro caso, a variável é classificada como quantitativa e na outra situação ela é dita ser qualitativa. A classificação da variável vai ser determinante para o tipo de análise estat́ıstica a ser conduzida. Sobre uma variável qualitativa, não podemos calcular muitos dos resu- mos numéricos tais como a média aritmética, a variância e o desvio padrão. Por outro lado, o gráfico de setores (ou pizza), não é adequado para representar as freqüências das temperaturas observadas durante um ano, ao menos que os valores sejam categorizados. As variáveis quantitativas possuem uma subclassificação, elas podem ser discretas ou cont́ınuas. O primeiro caso ocorre quando os posśıveis valores da variável podem ser enumerados. Esta situação é t́ıpica de dados oriundos de contagens, como por exemplo o número diário de assaltos em um quarteirão que pode assumir valores no conjunto {0, 1, 2, 3, . . .}. A segunda subclassificação ocorre nos casos em que a variável pode assumir valores em um intervalo cont́ınuo, por conseqüência, os posśıveis valores são infinitos e não- enumeráveis. A variável idade, por exemplo, é uma variável cont́ınua pois se for medida com bastante precisão, um indiv́ıduo pode apresentar 32,1023 anos de idade e, dificilmente 1.2. Técnicas de estat́ıstica descritiva 9 dois indiv́ıduos terão idades iguais. A seguir são apresentados alguns outros exemplos de variáveis quantitativas: • Variáveis quantitativas Discretas: número de filhos, número de plantas, quantidade de peças e número de assaltos. Cont́ınuas: as variáveis cont́ınuas podem assumir infinitos valores (́ındice de preços, salário, peso, altura e pressão sistólica). Toda variável que não é quantitativa, será classificada como qualitativa. Os valores que a variável pode assumir são chamados de ńıveis ou categorias. Caso estes ńıveis sejam ordenáveis, a variável é dita ser ordinal, caso contrário ela é classificada como nominal. É importante ressaltar que esta ordenação nos ńıveis (categorias) da variável é natural tal como ocorre com a variável classe social. Nesta situação, Classe A > Classe B > Classe C > Classe D. Como já foi comentado, o tipo de variável determina o tipo de análise e, para variáveis qualitativas ordinais, um resumo numérico, uma técnica gráfica ou uma tabela de freqüência deve incorporar a idéia de ordenação. • Variáveis qualitativas (atributos) Ordinais (ex: classe social, cargo na empresa e classificação de um filme.) Nominais (ex: sexo, bairro, cor de pele e canal de TV preferido.) além das classificações mencionadas, vamos destacar uma outra situação em que a caracteŕıstica de interesse é investigada ao longo do tempo (espaço) constituindo o que chamamos de uma série temporal. A análise de uma variável que é medida ao longo do tempo deve considerar aspectos espećıficos como tendência e sazonalidade. Ao resumir estas variáveis, quando há a presença de tendência o valor médio modifica-se ao longo do tempo, enquanto a sazonalidade pode explicar variações periódicas, como o aumento de venda de televisores nos meses de novembro e dezembro. Série temporal Conjunto de observações ordenadas no tempo (́ındice mensal de inflação, tempera- tura máxima diária, cotação diária do dólar e número de nascimentos diários.). 1.2 Técnicas de estat́ıstica descritiva A principal função da Estat́ıstica Descritiva é resumir as informações contidas em um conjunto de dados por meio de tabelas, gráficos e medidas caracteŕısticas (resumos numé- ricos). A descrição dos dados deve ser objetiva, ter precisão de significado e simplicidade no cálculo para que outras pessoas possam compreender e, eventualmente, reproduzir os resultados. Recorremos novamente aqui à metáfora da fotografia pois realizar uma análise 12 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. Veja o exemplo na Tabela 1.5 que traz dados sobre as horas semanais de atividades f́ısicas dos 50 estudantes que participaram do levantamento sobre hábitos de lazer. Tabela 1.5: Tabela de freqüências para a variável horas semanais de atividade f́ısica horas semanais de atividade f́ısica ni fi fac 0 |– 2 11 0,22 0,22 2 |– 4 14 0,28 0,5 4 |– 6 12 0,24 0,74 6 |– 8 8 0,16 0,90 8 |– 10 3 0,06 0,96 10 |– 12 2 0,04 1,00 total 50 1 O resumo na Tabela 1.5 é feito mediante a construção de 6 intervalos de comprimento igual a 2 horas e posteriormente a contagem de indiv́ıduos com valores identificados ao intervalo. Um indiv́ıduo que gastou 6 horas semanais de exerćıcio será contado no quarto intervalo (6|–8) que inclui o valor 6 e exclui o valor 8. No mesmo levantamento amostral foi observado o peso dos 50 estudantes. A variável peso é classificada como quantitativa cont́ınua e foi mensurada com uma casa decimal. Com esta precisão de medida foram observados 36 valores diferentes, o que inviabiliza a construção da tabela de freqüência simples. Novamente o recurso a ser utilizado e construir classes ou faixas de pesos e contar o número de ocorrências em cada faixa. Com 6 intervalos de peso, os dados foram agrupados conforme a Tabela 1.6. Tabela 1.6: Tabela de freqüências para a variável Peso Peso de crianças ni fi fac 40,0 |– 50,0 8 0,16 0,16 50,0 |– 60,0 22 0,44 0,60 60,0 |–70,0 8 0,16 0,76 70,0 |– 80,0 6 0,12 0,88 80,0 |–90,0 5 0,10 0,98 90,0 |–100,0 1 0,02 1,00 total 100 1 Se concordamos que a tabela em faixa de valores ajuda a resumir a quantidade de informações em um conjunto de dados, com variáveis cont́ınuas ou discretas que assumam muitos valores, ainda fica pendente a questão de quantos intervalos serão necessários para a construção desta tabela. 1.2. Técnicas de estat́ıstica descritiva 13 Para a decepção de muitos, não há uma resposta definitiva a esta pergunta e existem várias sugestões na literatura para se chegar a este número. Esta questão será discutida posteriormente ao falarmos de uma técnica gráfica chamada de histograma, mas o bom senso indica que o número de intervalos deve estar entre 5 e 10 neste tipo de descrição. 1.2.2 Medidas-resumo Em um processo de coleta de dados, por meio de amostragem ou censo, faz-se neces- sário resumir as informações contidas nas observações das variáveis utilizando as medidas adequadas. Neste caṕıtulo, estas serão chamadas medidas-resumo. Veja o exemplo a seguir. Exemplo 1.8. Em um ponto de ônibus, uma pessoa pergunta sobre o tempo até a passa- gem de uma determinada linha. Suponha que você havia registrado, na semana anterior, os tempos (em minutos) e obteve os seguintes resultados: 9; 12; 8; 10; 14; 7; 10 Ao responder: ”o ônibus demora, em média, 10 minutos”, você está trocando um conjunto de valores por um único número que os resume. Ao adotar este procedimento foi utilizada uma medida-resumo, neste caso a média aritmética. Novamente, a classificação da variável vai orientar a escolha da medida resumo mais adequada. A maior parte das medidas a serem apresentadas aplicam-se somente à variáveis quantitativas. As medidas-resumo podem focar vários aspectos no conjunto de dados; tendência central, dispersão, ordenação ou simetria na distribuição dos valores. Aqui serão apresen- tadas 3 classes de medidas: • Tendência Central • Dispersão (Variabilidade) • Separatrizes 1 Tendência central As medidas de tendência central indicam, em geral, um valor central em torno do qual os dados estão distribúıdos. Este valor no Exemplo 1.8 é igual a 10 e corresponde a média aritmética. As principais medidas de tendência central na Estat́ıstica são: média, mediana e moda. Além destas, outras medidas são utilizadas com fins espećıficos tais como: média geométrica, média harmônica, média ponderada e trimédia. Sejam as observações obtidas a partir da variável X, em uma população ou em uma amostra: 1Alguns autores classificam as medidas de tendência central e separatrizes como medidas de posição. 14 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. x1, x2, . . . , xn e considere a seguinte notação para os dados ordenados: x(1), x(2), . . . , x(n) . em que x(1) é o menor valor(mı́nimo) no conjunto de dados e x(n) é o maior valor(máximo). Com base nesta notação, apresentamos a seguir os conceitos de média, mediana e moda. Média (Aritmética) A média aritmética também é conhecida como ponto de equiĺıbrio e centro de gra- vidade, denominações surgidas da F́ısica. Ela indica o valor em torno do qual há um equiĺıbrio na distribuição dos dados. O seu cálculo é feito conforme: x̄obs = ∑n i=1 xi n . Definindo desvio da i-ésima observação, em torno da média observada, como di = xi− x̄obs , a soma destes desvios sempre será igual a zero. A demonstração deste resultado é trivial. Basta observar que: n∑ i=1 (xi − x̄obs) = n∑ i=1 xi − nx̄obs = n∑ i=1 xi − n∑ i=1 xi = 0. A média aritmética é pouco robusta às mudanças em valores extremos no conjunto de dados observados. Suponha um conjunto de valores ordenados de forma crescente, x(1),x(2),. . .,x(n) e neles a média aritmética permanece x̄obs. Se um erro de anotação acrescentasse k unidades ao maior valor da amostra (x(n)), a média inicialmente calculada x̄obs será acrescida de k/n unidades. O impacto da alteração na média será diretamente proporcional a magnitude de k e inversamente proporcional a quantidade de observações n. A média só poderá ser calculada para variáveis quantitativas (discretas e cont́ınuas). A única exceção ocorre quando a variável qualitativa é binária, ou seja, apresenta duas categorias como por exemplo: masculino e feminino. Se atribuirmos os valores 0 e 1 às categorias masculino e feminino, respectivamente, ao realizar o cálculo da média o resultado indica a proporção de mulheres na amostra. Exemplo 1.9. Uma pesquisa registrou em um grupo de 10 pessoas a satisfação em relação ao governo. Cada respondente deveria simplesmente informar se estava satisfeito ou não. Para os que estavam satisfeitos, anotou-se o valor 1 e os que estavam insatisfeitos 0. No final foi obtido o seguinte conjunto de dados: 1.2. Técnicas de estat́ıstica descritiva 17 Medidas de dispersão Muito embora as medidas de tendência central sejam utilizadas como o primeiro resumo numérico de um conjunto de dados, a sua representatividade está diretamente ligada com a variabilidade. Veja o Exemplo 1.12 a seguir. Exemplo 1.12. Ao aplicar a mesma prova em dois grupos de 4 alunos cada, foram obtidos os resultados: Notas da Turma A aluno 1 2 3 4 nota 5 5 5 5 Notas da Turma B aluno 1 2 3 4 nota 10 0 10 0 Ao utilizar a média,mediana e moda para resumir as informações das duas turmas, repare que os resultados coincidem (Tabela 1.8). A nota média é 5 e, em ambas as turmas, 50% dos alunos têm nota igual ou abaixo da média. Embora as turmas sejam iguais em relação às medidas de tendência central, a hete- rogeneidade da turma B é maior, ou seja, a variabilidade das notas é maior nestes alunos. Isto faz com que a média da turma B, seja menos representativa do que a média da turma A, que realmente reflete o conhecimento dos 4 alunos. Tabela 1.8: Medidas de tendência central para as notas das turmas A e B. Média Mediana Moda Turma A 5 5 não existe Turma B 5 5 não existe As medidas de dispersão servem para quantificar a variabilidade dos valores em um conjunto de dados. Uma medida de tendência central para ser melhor compreendida deve estar acompanhada de uma medida de dispersão. Nesta seção, serão apresentadas 5 medidas de dispersão (ver Tabela 1.9) para va- riáveis quantitativas, sendo que 4 delas utilizam a média como referência: desvio médio absoluto, variância, desvio padrão e coeficiente de variação. Amplitude total Esta medida é obtida a partir da diferença entre o máximo(x(n)) e o mı́nimo (x(1)) em um conjunto de dados ordenados. Esta medida possui o valor 0 como limite inferior e é altamente senśıvel à valores extremos. 18 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. Tabela 1.9: Principais medidas de dispersão. Medidas Notação Amplitude Total ∆obs Desvio absoluto médio damobs Variância varobs Desvio padrão dpobs Coeficiente de Variação cvobs ∆obs = x(n) − x(1). Para o Exemplo 1.12, o valor calculado para esta medida foi ∆obs = 0 para a turma A e ∆obs = 10 para a turma B. A diferença entre as amplitudes das duas turmas é a máxima que poderia ocorrer. A turma A tem menor variabilidade posśıvel, pela amplitude total, enquanto a turma B tem a maior variabilidade posśıvel de ser encontrada com o uso desta medida. A grande limitação da amplitude total é quantificar a variabilidade com apenas o uso de duas observações; máximo e mı́nimo. Outras medidas exploram com maior profundidade o conjunto de dados e, apresentaremos na seqüência, 4 medidas baseadas no desvio em relação à média. Desvio médio absoluto É simplesmente o cálculo da média dos desvios absolutos. Para o seu cálculo, primei- ramente deve ser calculada a média (x̄obs), posteriormente os desvios di das observações em relação a média e, por último, a média do módulo destes desvios conforme a fórmula a seguir. dmaobs = n∑ i=1 |xi − x̄obs| n . Exemplo 1.13. Em uma prova, os alunos obtiveram as seguintes notas: 5; 6; 9; 10; 10. Obtenha o desvio médio absoluto. dmaobs = |5 − 8| + |6 − 8| + |9 − 8| + |10 − 8| + |10 − 8| 5 = 2. Algo importante sobre esta medida, assim como a variância, desvio padrão e o coeficiente de variação é que todas são calculadas usando como referência de tendência central a média (x̄obs). Exemplo 1.14. Um estudo sobre aleitamento materno investigou o peso de 10 nascidos vivos cuja média observada foi x̄obs = 3, 137. Cada um dos pesos é apresentado na Tabela 1.10. 1.2. Técnicas de estat́ıstica descritiva 19 Tabela 1.10: Peso de 10 nascidos vivos peso 2,50 2,45 4,15 3,30 2,86 3,45 3,48 2,33 3,70 3,15 desvios -0,63 -0,69 1,01 0,16 -0,28 0,31 0,34 -0,81 0,56 0.01 dmaobs = 0, 63 + 0, 69 + . . . + 0, 01 10 = 0, 48 A interpretação desta medida para o Exemplo 1.14 indica que, em média, um nascido vivo tem peso 0,48kg distante da média observada que é 3,137kg. Variância Esta é a mais conhecida medida de variabilidade. Como será visto mais adiante, em muitas situações o cálculo de probabilidades depende exclusivamente do conhecimento da média e variância de uma variável na população. O cálculo da variância assemelha-se com o do dmaobs, pois utiliza desvios quadrá- ticos em vez dos absolutos. Assim, a variância também é chamada de média dos desvios quadráticos. varobs = n∑ i=1 (xi − x̄obs)2 n . Para o mesmo conjunto de dados do Exemplo 1.13, a variância observada é igual a: varobs = (5 − 8)2 + (6 − 8)2 + (9 − 8)2 + (10 − 8)2 + (10 − 8)2 5 = 4, 4. Propriedades da variância: 1. A variância de um conjunto de números iguais é sempre 0. 2. Ao multiplicar todos os valores do conjunto por uma constante, a variância fica multiplicada por esta constante ao quadrado. 3. Ao somar uma constante a todos os valores de um conjunto, a variância não se altera. Exemplo 1.15. O conjunto de notas do Exemplo 1.13 deve ser multiplicado por 10 para que este possa ser lançado no boletim. Deste modo, o novo conjunto é: 50, 60, 90, 100, 100 Qual a variância das notas lançadas no boletim ? Solução: Basta multiplicar a variância encontrada anteriormente por 100. Por utilizar a média como referência, o desvio absoluto médio e a variância também são afetados por valores extremos. No caso da variância o efeito é ainda maior pois os valores estão elevados ao quadrado. 22 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. Gráfico de setores ou pizza Este gráfico é adequado para representar variáveis qualitativas. Sua construção consiste em repartir um disco em setores cujos ângulos são proporcionais às freqüências relativas observadas nas categorias da variável. Exemplo 1.18. Uma pesquisa de intenção de votos para os partidos A,B,C e D, realizada com 100 eleitores resultou na Tabela 1.11. Tabela 1.11: Intenção de votos para os partidos A,B,C e D. Partido Freqüência Absoluta Freqüência Relativa A 40 0,4 B 30 0,3 C 20 0,2 D 10 0,1 Total 100 1 Conforme a Figura 1.1 a maior fatia corresponde ao partido A que detem 40% das intenções de voto. Embora tal informação esteja na Tabela 1.11, a assimilação das diferenças entre as intenções de votos é mais rápida no gráfico de setores. partido A partido B partido C partido D Intenções de Voto Figura 1.1: Gráfico de setores para a intenção de votos nos partidos A,B,C e D. 1.2. Técnicas de estat́ıstica descritiva 23 Gráfico de barras Este gráfico representa a informação de uma tabela de freqüências simples e, por- tanto, é mais adequado para variáveis discretas ou qualitativas ordinais. Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as freqüências no eixo das ordenadas. Para cada valor da variável desenha-se uma barra com altura correspondendo à sua freqüência. É importante notar que este gráfico sugere uma ordenação dos valores da variável, podendo levar a erros de interpretação se aplicado à variáveis quantitativas nominais. Exemplo 1.19. Um posto de saúde contém um cadastro das famı́lias regularmente aten- didas em que consta o número de crianças por famı́lia. Ao resumir esta informação para todas as famı́lias em que há no máximo 5 crianças é obtida a Tabela 1.12. Tabela 1.12: Número de crianças por famı́lia. Número de crianças Freqüência Absoluta Freqüência Relativa 0 52 0,302 1 38 0,221 2 43 0,25 3 22 0,128 4 11 0,064 5 6 0,035 Total 172 1 A representação gráfica da Tabela 1.12 é apresentada na Figura 1.2. A altura de cada barra é diretamente proporcional ao número de famı́lias com a quantidade de filhos especificada no eixo das abcissas. Histograma O histograma é um gráfico que possibilita o primeiro contato com a formato da distribuição dos valores observados. Precede a sua construção a organização dos dados de uma variável quantitativa em faixas de valores. Consiste em retângulos cont́ıguos com base nas faixas de valores da variável e com área igual à freqüência relativa da faixa. A altura de cada retângulo é denominada den- sidade de freqüência ou simplesmente densidade definida pelo quociente da freqüência relativa pela amplitude da faixa2. 2Alguns autores usam a freqüência absoluta ou porcentagem na construção do histograma. O uso da densidade impede que o histograma fique distorcido quando as faixas têm amplitudes diferentes. 24 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. 0 1 2 3 4 5 número de filhos fre qu ên ci a 0 10 20 30 40 50 Figura 1.2: Gráfico de barras para o número de filhos por famı́lia. Há 3 elementos que determinam a configuração da tabela de freqüências em faixas de valores e do histograma: • L - Número de faixas de valores • h - Comprimento dos intervalos de classe • ∆obs - Amplitude total. com a seguinte relação entre eles: L = ∆obs h . Conforme já foi comentado, não existe uma regra definitiva para a determinação destes elementos. Entretanto, algumas formulações para L, o número de faixas de valores, são utilizadas com bastante freqüência em pacotes computacionais. Dentre estas fórmu- las, vamos citar duas de fácil aplicação que dependem somente de n, a quantidade de observações: 1. Fórmula de Sturges L = 1 + 3, 3 log n. 2. Raiz quadrada de n L = √ n. 1.2. Técnicas de estat́ıstica descritiva 27 Tabela 1.14: Resumo de 5 números para o número de laranjas por caixas. Mediana Observada (mdobs) 46 Primeiro Quartil (Q1) 36, 50 Terceiro Quartil (Q3) 55, 50 Mı́nimo (x(1)) 22 Máximo (x(20)) 69 Na Figura 1.5 é apresentado para esses dados o box-plot com base no resumo de 5 números. 30 40 50 60 70 la ra nj as Min Q1 Q3 md Max Figura 1.5: Box-plot do número de laranjas nas 20 caixas. A representação gráfica no box-plot informa, dentre outras coisas, a variabilidade e simetria dos dados. Na Figura 1.5, a distribuição dos dados está muito próxima da perfeita simétria pois: a diferença entre a mediana(46) e a média(46,55) é pequena e a distância da mediana para os quartis é a mesma. Outra possibilidade na construção do box-plot é utilizar nas extremidades dos traços adjacentes à caixa um critério para identificar observações at́ıpicas. Este critério é baseado na amplitude interquartis(AIQ = Q3 − Q1). A esquematização que utiliza este critério é apresentada na Figura 1.6. No exemplo das laranjas, não há valores fora destes limites e, quando isto ocorre, os limites são representados pelo mı́nimo e máximo conforme a Figura 1.4. 28 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. 0 20 40 60 80 Q1−1,5AIQ Q1 Q3 md Q3+1,5AIQ Figura 1.6: Desenho esquemático do box-plot com base nos quartis e critério para valores at́ıpicos. O box-plot pode também ser utilizado como ferramenta de análise bivariada. O exemplo na Figura 1.7 compara alturas de crianças dos sexos masculino e feminino. Os dados utilizados apra elaboração dessa figura estão na tabela 1.15 1.2. Técnicas de estat́ıstica descritiva 29 Tabela 1.15: Alturas de crianças do sexo masculino (m) e feminino (f). criança altura sexo criança altura sexo 1 99.00 m 39 118.00 f 2 115.00 m 40 118.00 m 3 114.00 f 41 86.00 m 4 133.00 m 42 124.00 m 5 106.00 m 43 113.00 m 6 160.00 m 44 121.00 f 7 96.00 m 45 92.00 m 8 96.00 m 46 104.00 m 9 127.00 f 47 75.00 f 10 110.00 f 48 108.00 m 11 111.00 f 49 105.00 f 12 128.00 f 50 102.00 f 13 107.00 f 51 96.00 m 14 134.00 f 52 96.00 f 15 109.00 f 53 113.00 m 16 104.00 f 54 88.00 m 17 106.00 m 55 100.00 m 18 117.00 m 56 152.00 f 19 147.00 m 57 88.00 f 20 132.00 m 58 108.00 m 21 148.00 f 59 120.00 m 22 80.00 f 60 93.00 f 23 91.00 f 61 98.00 m 24 107.00 f 62 110.00 f 25 79.00 f 63 108.00 m 26 127.00 m 64 119.00 m 27 107.00 m 65 93.00 f 28 123.00 m 66 116.00 m 29 91.00 f 67 98.00 m 30 119.00 m 68 108.00 m 31 75.00 m 69 91.00 m 32 75.00 m 70 109.00 f 33 101.00 m 71 97.00 m 34 105.00 f 72 115.00 m 35 97.00 m 73 88.00 m 36 100.00 f 74 58.50 m 37 116.00 m 75 88.00 m 38 127.00 m 76 103.00 f 32 Conceitos Básicos e Técnicas de Estat́ıstica Descritiva Corrêa da Rosa, J. M. mês qtd e v end ida 2 4 6 8 10 12 10 15 20 25 Figura 1.9: Gráfico sequencial das vendas ao longo dos meses. Caṕıtulo 2 Teoria das Probabilidades 2.1 Introdução No caṕıtulo anterior, foram mostrados alguns conceitos relacionados à estat́ıstica descritiva. Neste caṕıtulo apresentamos a base teórica para o desenvolvimento de técnicas estat́ısticas a serem utilizadas nos caṕıtulos posteriores. Vamos considerar as seguintes questões: Como saber se um determinado produto está sendo produzido dentro dos padrões de qualidade? Como avaliar a capacidade de um determinado exame acertar o verdadeiro diagnóstico? Questões como estas envolvem algum tipo de variabilidade ou incerteza, e as decisões podem ser tomadas por meio da teoria de probabilidades que permite a quantificação da incerteza. A seguir, veremos alguns conceitos básicos de probabilidade. 2.2 Conceitos Básicos de Probabilidade • Fenômeno Aleatório: É um processo de coleta de dados em que os resultados posśıveis são conhecidos mas não se sabe qual deles ocorrerá. Assim, um fenômeno aleatório pode ser a contagem de ausências de um funcionário em um determinado mês, o resultado do lançamento de uma moeda, verificar o resultado de um exame de sangue, entre outros. • Espaço Amostral: O conjunto de todos os resultados posśıveis do fenômeno aleatório é chamado de espaço amostral. Vamos representá-lo por Ω. Exemplo 2.1. Lançamento de uma moeda. Ω = {cara, coroa}. Exemplo 2.2. Lançamento de um dado. Ω = {1, 2, 3, 4, 5, 6}. Exemplo 2.3. Número de chips defeituosos em uma linha de produção durante 24 horas. Ω = {0, 1, 2, 3, . . . , n}, sendo n o número máximo de itens defeituosos. Exemplo 2.4. Tempo de reação de uma pomada anestésica aplicada em queimados. Ω = {t ∈ ℜ | t≥ 0 }. 33 34 Teroria das Probabilidades Winter, L. M. W. & Sganzerla, N. M. Z. • Evento: Qualquer subconjunto do espaço amostral Ω é chamado de evento. Serão representados por letras maiúsculas A, B, . . . . Dentre os eventos podemos considerar o evento união de A e B, denotado por A ∪ B, que, equivale à ocorrência de A, ou de B, ou de ambos. A ocorrência simultânea dos eventos A e B, denotada por A ∩ B é chamada de evento interseção. Dois eventos A e B dizem-se mutuamente exclusivos ou disjuntos, quando a ocorrência de um deles impossibilita a ocorrência do outro. Os dois eventos não têm nenhum elemento em comum, isto é, A ∩ B = ∅ (conjunto vazio). Exemplo 2.5. Suponha um fenômeno aleatório conduzido com a finalidade de se conhecer a eficiência de uma terapia na cura de uma śındrome. Para tanto, dois pacientes foram tratados com a referida terapia. Vamos representar C e C, como curado e não curado, respectivamente. O espaço amostral nesse caso é dado por: Ω = {CC, CC, CC, CC}. Considere os seguintes eventos: A “obter uma cura” e B “obter quatro curas”: Sendo assim, temos: A = {CC, CC} e B = ∅. 2.2.1 Definição clássica de probabilidade Em fenômenos aleatórios tais como lançamento de uma moeda, de um dado, extra- ção de uma carta de um baralho entre outros, temos que todos os resultados posśıveis tem a mesma chance de ocorrer. Assim, por exemplo no lançamento de uma moeda a probabi- lidade do evento cara ou coroa ocorrer são igualmente prováveis, ou seja, a probabilidade atribúıda a cada um é 1/2. A probabilidade de um evento A qualquer ocorrer pode ser definida por: P (A) = número de casos favoráveis ao evento A número de casos posśıveis . Exemplo 2.6. Considere o fenômeno aleatório lançamento de um dado e o evento A“sair número par”. Qual a probabilidade deste evento ocorrer? P (A) = 3 6 = 0, 50. Na maioria das situações práticas, os resultados não têm a mesma chance de ocorrer, deste modo, a probabilidade dos eventos deve ser calculada pela frequência relativa. 2.2. Conceitos Básicos de Probabilidade 37 Exemplo 2.10. Em uma universidade foi selecionada uma amostra de 500 alunos que cursaram a disciplina de Estat́ıstica. Entre as questões levantadas estava: Você gostou da disciplina de Estat́ıstica? De 240 homens, 140 responderam que sim. De 260 mulheres, 200 responderam que sim. Para avaliar as probabilidades podemos organizar as informações em uma tabela. maneira: Tabela 2.1: Gosto pela disciplina de estat́ıstica segundo sexo. Gostou Sexo Sim Não Total Homem 140 100 240 Mulher 200 60 260 Total 340 160 500 Qual é a probabilidade de que um aluno escolhido aleatoriamente: (a) H = Seja um homem? P (H) = 240 500 = 0, 48. (b) G = Gostou da disciplina de Estat́ıstica? P (G) = 340 500 = 0, 68. (c) M = Seja uma mulher? P (M) = 260 500 = 0, 52. (d) NG = Não gostou da disciplina de Estat́ıstica? P (NG) = 160 500 = 0, 32. (e) Seja uma mulher ou gostou da disciplina de Estat́ıstica. P (M ∪ G) = 260 500 + 340 500 − 200 500 = 0, 80. (f) Seja uma mulher e gostou da disciplina de Estat́ıstica. P (M ∩ G) = 200 500 = 0, 40. (g) Dado que o aluno escolhido gostou da disciplina de Estat́ıstica. Qual a probabilidade de que o aluno seja um homem? P (H | G) = P (H ∩ G) P (G) = 140 340 = 0, 41176. (h) Dado que o aluno escolhido é uma mulher. Qual a probabilidade de que ela não gostou da disciplina de Estat́ıstica? P (NG | M) = P (NG ∩ M) P (M) = 60 260 = 0, 23077. 38 Teroria das Probabilidades Winter, L. M. W. & Sganzerla, N. M. Z. 2.2.6 Teorema do produto Da definição de probabilidade condicional P (A|B) = P (A∩B)P (B) podemos obter o teo- rema do produto, que nos permite calcular a probabilidade da ocorrência simultânea de dois eventos. Sejam A e B eventos de Ω, a probabilidade de A e B ocorrerem juntos é dada por: P (A ∩ B) = P (A) P (B|A), com P(A) > 0 ou P (A ∩ B) = P (B) P (A|B), com P(B) > 0. Dois eventos A e B são independentes quando a ocorrência de um não altera a probabilidade de ocorrência do outro. Desse modo, P (A ∩ B) = P (A) P (B). Exemplo 2.11. Uma empresária sabe por experiência, que 65% das mulheres que com- pram em sua loja preferem sandálias plataformas. Qual é a probabilidade de as duas próximas clientes comprarem cada uma delas, uma sandália plataforma? Vamos admi- tir que o evento A “a primeira cliente compra uma sandália plataforma” e o evento B “a segunda cliente compra uma sandália plataforma”. Então, P (A ∩ B) = (0, 65)(0, 65) = 0, 4225. 2.2.7 Teorema da probabilidade total Suponha que os eventos C1, C2, . . . , Cn formam uma partição do espaço amostral. Os eventos não têm interseções entre si e a união destes é igual ao espaço amostral. Seja A um evento qualquer desse espaço, então a probabilidade de ocorrência desse evento será dada por: P (A) = P (A ∩ C1) + P (A ∩ C2) + · · · + P (A ∩ Cn) e usando a definição de probabilidade condicional, P (A) = P (C1) P (A|C1) + P (C2) P (A|C2) + · · · + P (Cn) P (A|Cn). Exemplo 2.12. Uma caixa I contém 2 fichas verdes e 3 vermelhas. Uma segunda caixa II contém 4 fichas verdes e 3 vermelhas. Escolhe-se, ao acaso, uma caixa e dela retira-se, também ao acaso uma ficha. Qual a probabilidade de que a ficha retirada seja verde? Se denotarmos por I e II o evento caixa I e caixa II, respectivamente e V o evento a ficha é verde, temos: P (I) = 12 , P (V |I) = 25 , P (II) = 12 e P (V |II) = 47 . Desta forma, o evento V (“ficha verde”) pode ser escrito em termos de interseções do evento V com os eventos I e II, 2.2. Conceitos Básicos de Probabilidade 39 V = (V ∩ I) ∪ (V ∩ II) P (V ) = (P (V ∩ I)) + (P (V ∩ II) = P (I)(P (V |I)) + (P (II)P (V |II) = 1 2 2 5 + 1 2 4 7 = 0, 48571. Exemplo 2.13. Um estabilizador pode provir de três fabricantes I, II e III com probabili- dades de 0,25, 0,35 e 0,40, respectivamente. As probabilidades de que durante determinado peŕıodo de tempo, o estabilizador não funcione bem são, respectivamente, 0,10; 0,05 e 0,08 para cada um dos fabricantes. Qual é a probabilidade de que um estabilizador escolhido ao acaso não funcione bem durante o peŕıodo de tempo especificado. Se denotarmos por A o evento“um estabilizador não funcione bem”e por C1, C2 e C3 os eventos “um estabilizador vem do fabricante I, II e III”, respectivamente. A probabilidade de que um estabilizador escolhido ao acaso não funcione bem durante o peŕıodo de tempo especificado é: P (A) = P (C1)P (A|C1) + P (C2)P (A|C2) + P (C3)P (A|C3) = (0, 25)(0, 10) + (0, 35)(0, 05) + (0, 40)(0, 08) = 0, 07450. 2.2.8 Teorema de Bayes Considere C1, C2, ..., Cn eventos que formam uma partição do espaço amostral Ω, cujas probabilidades são conhecidas. Considere que para um evento A se conheçam as probabilidades condicionais, desta forma: P (Cj |A) = P (Cj) P (A|Cj) P (C1) P (A|C1) + P (C2) P (A|C2) + · · · + P (Cn). P (A|Cn) , j = 1, 2, . . . , n. Exemplo 2.14. Considere o exemplo anterior para o desenvolvimento do Teorema de Bayes. Dado que o estabilizador escolhido ao acaso não funciona bem durante o peŕıodo de tempo especificado, qual a probabilidade de que tenha sido produzido pelo fabricante I, isto é, P(C1|A). P (C1|A) = P (C1) P (A|C1) P (C1)P (A|C1) + P (C2)P (A|C2) + P (C3)P (A|C3) = (0, 25)(0, 10) 0, 07450 = 0, 33557. 42 Variáveis Aleatórias Winter, L. M. W. & Sganzerla, N. M. Z. 3.5 Variância A variância de uma variável aleatória X é dada por: V ar(X) = σ2 = E(X)2 − [E(X)]2. 3.6 Principais Distribuições de Probabilidades A distribuição de probabilidade de uma variável descreve como as probabilidades estão distribúıdas sobre os valores da variável aleatória. A seguir veremos as distribuições de probabilidade Bernoulli, Binomial e Poisson para variáveis aleatórias discretas e a distribuição Normal para uma variável aleatória cont́ınua. 3.6.1 Distribuição de Bernoulli Em situações em que o fenômeno aleatório é realizado uma só vez e a variável de interesse assume somente dois valores, tais como: um gestor de informação reconhece uma determinada editora ou não, um paciente sobrevive a um transplante de medula óssea ou não, um equipamento eletrônico é classificado como bom ou defeituoso. Estas situações têm alternativas dicotômicas, ou seja, podem ser representadas por respostas do tipo sucesso com probabilidade p que se atribui o valor 1 ou fracasso com probabilidade q que se atribui o valor 0. Podemos definir estes experimentos como ensaios de Bernoulli. Uma variável X tem distribuição de Bernoulli e sua função discreta de probabilidade é dada por: P (X = x) = pxq1−x, x = 0, 1. Exemplo 3.3. Uma caixa tem 20 bolas azuis e 30 verdes. Retira-se uma bola dessa caixa. Seja X o número de bolas verdes. Determinar P (X). Para x = 0 temos q = 2050 = 0, 4 e para x = 1, p = 30 50 = 0, 6. Logo, P (X = x) = 0, 6x0, 41−x. 3.6.2 Distribuição Binomial Consideremos n tentativas independentes de ensaios de Bernoulli. Cada tentativa admite apenas dois resultados complementares: sucesso com probabilidade p ou fracasso com probabilidade q, de modo a se ter p + q = 1. As probabilidades de sucesso e fracasso são as mesmas para cada tentativa. A variável aleatória X que conta o número total de sucessos é denominada Binomial. Para indicar qua a variável aleatória X segue o modelo Binomial, usaremos a notação X ∼ b(n, p), em que n e p são denominados parâmetros dessa distribuição. A sua função de probabilidade é dada por: 3.6. Principais Distribuições de Probabilidades 43 P (X = x) = ( n x ) pxqn−x, x = 0, 1, 2, . . . , n, em que ( n x ) = n! x!(n − x)! sendo n = número de tentativas, x = número de sucessos, p = probabilidade de sucesso, q = probabilidade de fracasso e P (x)= a probabilidade de se obter exatamente x sucessos em n provas. Para uma variável aleatória X com distribuição binomial a média e sua variância são dadas, respectivamente, por: µ = E(X) = np; e σ2 = npq. Exemplo 3.4. Uma moeda é lançada 6 vezes. Qual a probabilidade de: a) Exatamente duas caras ocorrerem? P (X = 2) = ( 6 2 ) 0, 520, 56−2 = 0, 23438. b) Ocorrerem pelo menos 4 caras? P (X ≥ 4) = P (X = 4) + P (X = 5) + P (X = 6) = ( 6 4 ) 0, 540, 56−4 + ( 6 5 ) 0, 550, 56−5 + ( 6 5 ) 0, 560, 56−6 = 0, 23438 + 0, 09375 + 0, 01563 = 0, 34375. c) Pelo menos 1 cara? P (X ≥ 1) = 1 − P (X = 0) P (X ≥ 1) = ( 6 0 ) 0, 500, 56−0 P (X ≥ 1) = 1 − 0, 01563 = 0, 98438. Exemplo 3.5. Num muńıcipio, há uma probabilidade de 0,70 de uma empresa de ma- teriais recicláveis ter seguro contra incêndio; qual a probabilidade de que, dentre cinco empresas: a) Nenhuma tenha seguro contra incêndio? P (X = 0) = ( 5 0 ) 0, 700, 35−0 = 0, 00243. b) Exatamente quatro tenham seguro contra incêndio? P (X = 4) = ( 5 4 ) 0, 740, 35−4 = 0, 36015. 44 Variáveis Aleatórias Winter, L. M. W. & Sganzerla, N. M. Z. 3.6.3 Distribuição de Poisson Como aplicações da distribuição de Poisson podemos citar estudos de acidentes com véıculos; número de mortes por derrame cerebral por ano, numa cidade, número de recla- mações que chegam em uma operadora telefônica por hora, número de clientes que chegam numa loja durante uma hora de promoção relâmpago e número de usuários de computador ligados à Internet. A distribuição de Poisson é uma distribuição discreta de probabilidade, aplicável a ocorrência de um evento em um intervalo especificado (tempo, distância, área, volume ou outra unidade análoga). A probabilidade do evento ocorrer x vezes em um intervalo é dada a seguir: P (X = x) = λxe−λ x! . em que λ é a média (λ = np) ou o número esperado de ocorrências num determinado intervalo de tempo, por exemplo. Utilizaremos a seguinte notação: X ∼ Po(λ). Exemplo 3.6. O número de mulheres que entram diariamente em uma cĺınica de estética para bronzeamento artificial apresenta distribuição de Poisson, com média de 5 mulheres por dia. Qual é a probabilidade de que em um dia particular, o número de muheres que entram nesta cĺınica de estética para bronzeamento artificial, seja: a) Igual a 2? P (X = 2) = 52e−5 2! = 0, 08422. b) Inferior ou igual a 2? P (X ≤ 2) = 5 0e−5 0! + 51e−5 1! + 52e−5 2! = 0, 12465. 3.6.4 Distribuição Normal A distribuição Normal é a mais importante distribuição de probabilidade para des- crever variáveis aleatórias cont́ınuas. Isto justifica-se pelo grande número de aplicações que a utilizam tais como, altura, pressão arterial, medidas de testes psicológicos, tempo de vida útil de um dispositivo eletrônico, temperatura corporal, dentre outras. Além disso, pela sua capacidade de aproximar outras distribuições e também pela grande aplicação na inferência estat́ıstica. A variável aleatória cont́ınua X com distribuição Normal tem função de densidade de probabilidade dada por: f(x) = 1√ 2πσ e (x−µ)2 2σ2 , para −∞ < x < ∞ em que os parâmetros µ e σ representam a média e o desvio padrão, respectivamente.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved