Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Estatística e Introdução a Econometria, Notas de estudo de Economia

Estatística, introdução à econometria

Tipologia: Notas de estudo

2011
Em oferta
30 Pontos
Discount

Oferta por tempo limitado


Compartilhado em 09/07/2011

luiza-rodrigues-5
luiza-rodrigues-5 🇧🇷

5

(4)

1 documento

Pré-visualização parcial do texto

Baixe Estatística e Introdução a Econometria e outras Notas de estudo em PDF para Economia, somente na Docsity! 1 CAPÍTULO 1 – PROBABILIDADE 1.1 Conceito O conceito de probabilidade está sempre presente em nosso dia a dia: qual é a probabilidade de que o meu time seja campeão? Qual é a probabilidade de que eu passe naquela disciplina? Qual é a probabilidade de que eu ganhe na loteria? Probabilidade é uma espécie de medida associada a um evento. No caso específico da primeira pergunta do parágrafo anterior o evento em questão é “meu time será campeão”. Se este evento é impossível de ocorrer, dizemos que a sua probabilidade é zero. Se, entretanto, ele ocorrerá com certeza, a sua probabilidade é igual a um (ou cem por cento). Chamando este evento simplesmente de “A”, então dizemos que: Se A é impossível de ocorrer, então P(A) = 0. Se A ocorre com certeza, então P(A) = 1. Onde a expressão P(A) é lida como “probabilidade de A ocorrer”, ou simplesmente “probabilidade de A”. A probabilidade de um evento A qualquer pode ser definida, de uma maneira simplificada1 como: P(A) = ocorrem eventos os todosque em vezesde número ocorreA que em vezesde número Esta definição desse ser vista com ressalvas: não se trata do número de vezes que de fato ocorreriam em um experimento, mas sua proporção teórica. Assim, se jogássemos uma moeda comum três vezes e nas três ela desse “cara”, isto não significa que a probabilidade de dar “cara” é igual a 1, o que nos levaria a concluir que com certeza esta moeda dará “cara” sempre, o que é um absurdo. O conjunto de todos os eventos possíveis deste experimento (conjunto este que chamamos de espaço amostral) é composto de dois possíveis resultados: “cara” ou “coroa”. Considerando que estes dois eventos têm a mesma chance de ocorrer (o que vale dizer que a moeda não está viciada), teremos: P(“cara”) = ocorrem eventos os todosque em vezesde número cara"" ocorre que em vezesde número = 2 1 = 0,5 “Todos os eventos”, neste caso, são dois: “cara” ou “coroa”. Destes dois, um deles é o evento em questão (“cara”). Portanto a probabilidade de dar cara é igual a 0,5 (ou 50%). E, de maneira idêntica, temos para o evento “coroa”: P(“coroa”) = ocorrem eventos os todosque em vezesde número coroa"" ocorre que em vezesde número = 2 1 = 0,5 1 No apêndice 1.B deste capítulo é dada uma definição formal de probabilidade. 2 Repare que a soma das duas probabilidades é igual a 1. E tinha que ser mesmo. A soma das probabilidades (neste caso específico) representa a probabilidade do evento “dar cara ou coroa”, ou generalizando “ocorrer qualquer evento possível”, que é algo que ocorrerá com certeza. Se mudarmos o jogo, de cara ou coroa para dados, se jogarmos o dado uma única vez, temos seis possibilidades, que correspondem aos números inteiros de 1 a 6. A probabilidade de cair um número qualquer (digamos, o 3) será dada por: P(“cair 3”) = ocorrem eventos os todosque em vezesde número "3" ocorre que em vezesde número = 6 1 Uma outra maneira de encontrarmos estas probabilidades seria se fizéssemos um experimento (por exemplo, jogar a moeda) um número muito grande de vezes (na verdade, deveriam ser infinitas vezes) e encontrássemos a proporção entre caras e coroas. Este experimento foi feito2 e os resultados são mostrados na tabela abaixo: no de jogadas no de caras no de coroas proporção de caras proporção de coroas 10 6 4 0,6000 0,4000 100 47 53 0,4700 0,5300 1000 509 401 0,5090 0,4010 10000 4957 5043 0,4957 0,5043 25000 12486 12514 0,4994 0,5006 O experimento evidencia que, à medida que o número de jogadas aumenta, a proporção de caras e de coroas se aproxima do valor 0,5. Chamando de n o número de vezes que o experimento é feito, uma maneira de definir probabilidade é: P(A) = limn→∞ n ocorreA que em vezesde número Que é chamada de definição de probabilidade pela freqüência relativa ou ainda, definição freqüentista de probabilidade. Exemplo 1.1.1 Qual a probabilidade de, jogando um único cartão, acertar a sena (seis dezenas em um total de 60)? O acerto exato das seis dezenas é uma única possibilidade entre todas as combinações possíveis (combinações mesmo3, já que a ordem em que os números são sorteados não é relevante): P(“ganhar na sena”) = 60,6C 1 = !6!54 !60 1 × = 860.063.50 1 ≅ 0,00000002 2 Na verdade a moeda não foi realmente jogada 25000 vezes, mas os resultados foram obtidos através de uma simulação por computador. 3 Para uma revisão de análise combinatória veja o apêndice 1.A. 5 Em que a região em que o conjunto A está representado representa a sua probabilidade em relação ao espaço amostral S. Esta representação gráfica de probabilidade é conhecida como Diagrama de Venn. Um caso particular importante é um evento que não está em S (impossível de ocorrer), como o dado cair no número 7 ou a moeda não dar nem cara, nem coroa, representado pelo conjunto vazio (∅), em que, evidentemente5 P(∅) = 0. Pelo diagrama de Venn podemos verificar uma relação importante: a probabilidade de “não- A”, ou seja, o complementar de A, representado6 por A . O conjunto A é representado por todos os pontos que pertencem a S, mas não pertencem a A, o que no Diagrama de Venn abaixo é representado pela região sombreada: A probabilidade de A será dada então por: P( A ) = P(S) – P(A) Mas como P(S) = 1, então: P( A ) = 1 – P(A) Ou: 5 A recíproca não é verdadeira. Pelo exemplo 1.1.2, vimos que P(A) pode ser igual a zero mesmo que A não seja um conjunto vazio. No exemplo P(x=1) = 0 não porque x não pudesse ser igual a 1, mas por fazer parte de um conjunto contínuo. 6 Há quem prefira a notação AC. 6 P(A) + P( A ) = 1 Isto é, a soma da probabilidade de um evento com a do seu complementar é sempre igual a 1. Suponhamos agora dois eventos quaisquer de S, A e B. A representação no Diagrama de Venn será: Dados dois eventos poderemos ter a probabilidade de ocorrer A e B, isto é, ocorrer A e também B. Por exemplo, jogar dois dados e dar 6 no primeiro e 1 no segundo; ser aprovado em Estatística e em Cálculo. Em linguagem de conjuntos, a ocorrência de um evento e também outro é representada pela intersecção dos dois conjuntos (A∩B). No Diagrama de Venn é representada pela área sombreada abaixo: P(A e B) = P(A∩B) Há ainda a probabilidade de ocorrência de A ou B. Isto equivale a ocorrer A, ou B, ou ambos7. Em linguagem de conjuntos equivale a união de A e B (A∪B), representada abaixo: 7 Não confundir com o chamado “ou exclusivo”, em que ocorre A, ocorre B, mas não ambos. 7 P(A ou B) = P(A∪B) Podemos verificar que, se somarmos as probabilidades de A e B, a região comum a ambos (a intersecção) será somada duas vezes. Para retirarmos este efeito, basta subtrairmos a intersecção (uma vez). Portanto: P(A ou B) = P(A∪B) = P(A) + P(B) – P(A∩B) Um caso particular desta regra é aquele em que A e B jamais ocorrem juntos, são eventos ditos mutuamente exclusivos (ocorrer um implica em não ocorrer outro).Os conjuntos não terão pontos em comum, portanto (a intersecção é o conjunto vazio) e A e B então são ditos disjuntos, como mostrado abaixo: Neste caso, não há dúvida: P(A ou B) = P(A∪B) = P(A) + P(B) Portanto, a chamada “regra do ou” pode ser resumida assim: Se A e B são eventos quaisquer: P(A∪B) = P(A) + P(B) – P(A∩B) Se A e B são eventos mutuamente exclusivos (disjuntos): P(A∪B) = P(A) + P(B) 10 Não confunda: o fato de dois eventos serem independentes não quer dizer que eles sejam mutuamente exclusivos. Pelo contrário: se dois eventos (não vazios) são mutuamente exclusivos (disjuntos) eles são, necessariamente, dependentes, já que a ocorrência de um implica a não ocorrência de outro. Resumindo: para dois eventos independentes temos: P(A e B) = P(A)×P(B) P(A ou B) = P(A) + P(B) - P(A)×P(B) Para dois eventos disjuntos (mutuamente exclusivos): P(A e B) = 0 P(A ou B) = P(A) + P(B) Para dois eventos quaisquer: P(A e B) = P(A)×P(B|A) = P(B)×P(A|B) P(A ou B) = P(A) + P(B) – P(A e B) Exemplo 1.4.1 Qual a probabilidade de que, jogando dois dados em seqüência, obtenhamos exatamente 7? E se na primeira jogada já obtivemos um 6? Para obtermos um total de 7 temos os seguintes resultados possíveis: 1 e 6, 2 e 5, 3 e 4, 4 e 3, 5 e 2, 6 e 1. O resultado de cada dado é independente do resultado do outro, de modo que: P(1 e 6) = P(2 e 5) = P(3 e 4) = P(4 e 3) = P(5 e 2) = P(6 e 1) = 6 1 × 6 1 = 36 1 A probabilidade de que ocorra qualquer um desses resultados, tendo em vista que eles são mutuamente exclusivos é: P[(1 e 6) ou (2 e 5) ou (3 e 4) ou (4 e 3) ou (5 e 2) ou (6 e 1)] = 36 1 + 36 1 + 36 1 + 36 1 + 36 1 + 36 1 = 6 1 Se já deu 6 no primeiro dado o único resultado possível para somar 7 é que dê 1 no segundo dado. A probabilidade é 6 1 , portanto. De fato, usando a definição 3.4.1: P(soma=7|1odado=6) = 6) dado P(1o 6) dado 1o e 7P(soma = == = 6) dado P(1o 6) dado 1o e 1dado P(2o = == = 6 1 36 1 = 6 1 Note que: P(soma=7|1odado=6) = P(soma=7) 11 Portanto os eventos “a soma dar exatamente 7” e o resultado8 do 1o dado são independentes. Exemplo 1.4.2 No exemplo 1.3.2 os eventos são independentes? Caso não sejam, qual é a probabilidade de que a primeira criança chore dado que a segunda chora? E qual a probabilidade de que a segunda criança chore dado que a primeira chora? Os eventos C1 e C2 não são independentes (são dependentes) dado que: P(C1)×P(C2) = 0,65×0,45 = 0, 2925 é diferente de: P(C1 e C2) = 0,3 Para calcularmos as probabilidades condicionais, temos: P(C1 e C2) = P(C1) × P(C2|C1) 0,3 = 0,65 × P(C2|C1) P(C2|C1) = 65,0 3,0 ≅ 0,4615 P(C1 e C2) = P(C2) × P(C1|C2) 0,3 = 0,45 × P(C1|C2) P(C1|C2) = 65,0 45,0 ≅ 0,6923 Portanto, se a primeira criança chorar, há uma probabilidade de 46,15% de que a segunda criança chore e, se a segunda criança chorar, a probabilidade que a primeira chore é de 69,23%. Como as probabilidades incondicionais eram de 45% e 65%, respectivamente, percebe-se que o fato de uma criança chorar aumenta a chance da outra chorar também. Exemplo 1.4.3 Através do Diagrama de Venn abaixo (onde os valores marcados correspondem às probabilidades das áreas delimitadas), verifique que, apesar de que P(A∩B∩C) = P(A)×P(B)×P(C), A e B e C não são eventos independentes. Do diagrama, temos: 8 Verifique que a conclusão é válida para qualquer resultado no 1o dado. 12 P(A) = 0,1 + 0,15 + 0,1 + 0,05 = 0,4 P(B) = 0,25 + 0,05 + 0,1 + 0,1 = 0,5 P(C) = 0,15 + 0,15 + 0,1 +0,1 = 0,5 P(A∩B) = 0,1 + 0,05 = 0,15 P(A∩C) = 0,1 + 0,15 = 0,25 P(B∩C) = 0,1 + 0,1 = 0,2 P(A∩B∩C) = 0,1 De fato, P(A∩B∩C) = P(A)×P(B)×P(C), mas: P(A∩B) ≠ P(A)×P(B) P(B∩C) ≠ P(B)×P(C) P(A∩C) ≠ P(A)×P(C) Portanto, A, B e C são dependentes. Exemplo 1.4.4 Foi feita uma pesquisa com 100 pessoas sobre as preferências a respeito de programas na televisão. Os resultados obtidos foram os seguintes: homens mulheres total futebol 40 20 60 novela 5 35 40 total 45 55 100 Entre o grupo de entrevistados, qual a probabilidade de preferir novela? E futebol? P(novela) = 100 40 = 0,4 = 40% P(futebol) = 100 60 = 0,6 = 60% Qual a probabilidade de ser mulher e preferir futebol? P(mulher e futebol) = 100 20 = 0,2 = 20% Qual a probabilidade de, em sendo homem, preferir futebol? Podemos resolver diretamente já que, pela tabela, dos 45 homens, 40 preferem futebol: P(futebol | homem) = 45 40 = 0,888... ≅ 88,8% Ou pela definição de probabilidade condicional: P(futebol | homem) = P(homem) futebol) e P(homem = 100 45 100 40 = 0,888... ≅ 88,8% Qual a probabilidade de que, se preferir novela, for mulher? De novo é possível resolver diretamente pela tabela, tendo em vista que, dos 40 que preferem novela, 35 são mulheres: P(mulher | novela) = 40 35 = 0,875 = 87,5% Ou pela definição de probabilidade condicional: 15 Exercícios 1. Em uma caixa há 7 lâmpadas, sendo 4 boas e 3 queimadas. Retirando três lâmpadas ao acaso, sem reposição, qual é a probabilidade de que: a) todas sejam boas. b) todas estejam queimadas. c) exatamente 2 sejam boas. d) pelo menos 2 sejam boas. 2. Calcule a probabilidade de que, no lançamento de um dado, o número que der seja: a) ímpar b) primo c) no mínimo 4. d) no máximo 5. 3. Ao lançar dois dados em seqüência, quer-se atingir um total de 11 pontos. a) Qual a probabilidade que isto ocorra? b) Qual a probabilidade que isto ocorra supondo que o primeiro dado deu “4”? c) Qual a probabilidade que isto ocorra supondo que o primeiro dado deu “6”? d) O evento “total de 11 pontos” é independente do resultado do primeiro dado? Justifique. 4. Um apostador aposta no lançamento de um dado em um único número. Qual a probabilidade de: a) em três jogadas, ganhar as três b) em quatro jogadas, ganhar exatamente as duas primeiras. c) em quatro jogadas, ganhar exatamente duas (quaisquer). d) em quatro jogadas, ganhar pelo menos duas. e) em quatro jogadas, ganhar duas seguidas. 5. Na primeira loteria de números lançada no país, o apostador deveria acertar cinco dezenas em um total de 100 possíveis, apostando para isso em 5, 6, 7, 8, 9 ou 10 dezenas. a) Qual a probabilidade de acertar as 5 dezenas em cada uma das situações? b) Se a aposta em 5 dezenas custasse $ 1,00, qual deveria ser o preço dos demais tipos de apostas levando-se em consideração a probabilidade de acerto? 6. Considerando que, em jogos de futebol, a probabilidade de cada resultado (vitória de um time, de outro ou empate) é igual, qual a probabilidade de fazer os treze pontos na loteria nos seguintes casos: a) sem duplos ou triplos. b) com um único duplo. c) com um único triplo. d) com dois duplos e três triplos. 7. Represente no diagrama de Venn: a) A ∩B b) A ∩B c) A ∪B d) A ∪B 8. Verifique que a probabilidade do “ou exclusivo” é dada por: P (A “ou exclusivo” B) = P[( A ∩B)∪(A∩B )] (Sugestão: utilize o diagrama de Venn) 16 9. Foram selecionados 200 prontuários de motoristas e o resultado foi o seguinte: homens mulheres total com multa 65 50 115 sem multa 45 40 85 Total 110 90 200 a) Qual a probabilidade de que um motorista deste grupo tenha sido multado? b) Qual a probabilidade de que um motorista (homem) deste grupo tenha sido multado? c) Qual a probabilidade de que uma motorista deste grupo tenha sido multada? d) Qual a probabilidade de que, sendo o motorista homem, ele tenha sido multado? e) Qual a probabilidade de que, sendo mulher, a motorista tenha sido multada? f) Qual a probabilidade de, em sendo multado, o motorista seja homem? g) A probabilidade de ser multado é independente do sexo? Justifique. 10. Perguntou-se para 300 estudantes o que fariam após a faculdade: procurariam emprego ou cursariam pós-graduação (ou ambos). As respostas foram: homens mulheres Emprego 110 90 pós-grad. 90 80 Total 160 140 Calcule a probabilidade de um estudante, escolhido ao acaso: a) ser homem e procurar emprego. b) ser mulher e continuar estudando. c) ser homem e não continuar estudando. d) ser mulher ou não procurar emprego. e) em sendo homem, querer continuar apenas estudando. f) se quer apenas trabalhar, ser mulher. 11. Um cubo de madeira é pintado e a seguir é dividido em 512 cubinhos de mesmo tamanho. Qual a probabilidade de que, se pegarmos um destes cubinhos aos acaso, ele: a) tenha apenas uma face pintada. b) tenha duas faces pintadas. c) tenha pelo menos duas faces pintadas. d) tenha três faces pintadas. 12. Dado um conjunto X = {x ∈ ù | 0 < x < 8}, onde ù representa o conjunto dos números naturais. Se escolhermos ao acaso um número deste intervalo, calcule as probabilidades pedidas: a) P(x = 2) b) P(x > 2) c) P(x < 5) d) P(x = 8) 13. Dado um conjunto X = {x ∈ ú | 0 < x < 8}, onde ú representa o conjunto dos números reais. Se escolhermos ao acaso um número deste intervalo, calcule as probabilidades pedidas: a) P(x = 2) b) P(x > 2) c) P(x < 5) d) P(0 ≤ x ≤ 8) 17 14. Em um colégio de ensino médio há 120 alunos no 1o ano, 100 no 2o ano e 80 no 3o ano. Se dois alunos são escolhidos ao acaso e o primeiro está mais adiantado do que o segundo, qual a probabilidade de que ele esteja no 3o ano? 15. Verifique se são verdadeiras ou falsas as afirmações abaixo e justifique. a) Sendo S o espaço amostral, então P(S) = 1. b) Se P(A) = 1 então A = S. c) Se P(A) = 0 então A = ∅. d) Se A e B são mutuamente exclusivos, então P(A∩B) = 0 e) Se P(A∩B) = 0, então A e B são disjuntos. f) Se A e B são independentes, então P(A∪B) = P(A) + P(B). g) Se P(A∩B) = 0, então A e B são independentes. h) Se P(A∩B) = 1, então A = B = S. i) Se P(A∩B) = 1, então A = S ou B = S. j) Se A, B e C são independentes, então P(A∩B∩C) = P(A).P(B).P(C). k) Se P(A∩B∩C) = P(A).P(B).P(C), então A, B e C são independentes. l) Se P( A ) = 1 então A = ∅. m) Se A e B são independentes, então A e B são independentes. 16. Há 60% de probabilidade que haja desvalorização cambial. Se a desvalorização ocorrer, há 70% de chances do governo lançar um pacote emergencial de medidas. Se não ocorrer, as chances deste pacote ser lançado caem para 40%. Se o pacote foi lançado, qual a probabilidade que tenha ocorrido desvalorização cambial? 17. Num jogo de dominó uma peça com dois valores iguais é tirada. Qual a probabilidade de que a peça seguinte se encaixe? 18. Num jogo de pôquer cada jogador tem cinco cartas. Considerando que seja utilizado o baralho completo, qual a probabilidade do jogador obter: a) um par. b) uma trinca. c) dois pares. d) um par e uma trinca (full house). e) uma quadra. f) todas as cartas do mesmo naipe, mas não em seqüência (flush). g) uma seqüência (por exemplo: 7, 8, 9, 10 e J), mas não do mesmo naipe. h) uma seqüência (exceto a maior) com o mesmo naipe (straight flush). i) a maior seqüência (10, J, Q, K e A) com o mesmo naipe (royal straight flush). 19. Num dado viciado a probabilidade de cair um certo número é proporcional a este número. a) Qual a probabilidade de cada número? b) Qual a probabilidade de, em uma jogada, o número ser no mínimo 4? c) Qual a probabilidade de, em duas jogadas, a soma ser no máximo 9? 20. Considere que a probabilidade de um recém nascido ser menino é igual a de ser menina. Neste caso, qual a probabilidade de um casal com quatro filhos: a) ter exatamente 2 meninas. b) ter, no máximo, 2 meninos. c) ter pelo menos 1 menina. d) o mais velho ser um menino. 20 AMRO MARO OARM RAOM ARMO MORA OMRA RMOA AROM MOAR OMAR RMAO AOMR MRAO ORAM ROAM AORM MROA ORMA ROMA Portanto, são possíveis 24 anagramas. Os anagramas são as permutações (“trocas de lugar”) das letras da palavra. Temos então, no caso P4 (lê-se permutações de 4 elementos) anagramas. Se a palavra fosse “castelo”, o exercício acima seria muito mais trabalhoso. Como fazer, então? Na palavra “amor” temos 4 “espaços” onde podemos colocar as 4 letras. No 1o espaço podemos colocar qualquer uma das 4 letras. Para cada letra colocada no 1o espaço, sobram 3 letras para preencher o 2o espaço; uma vez preenchido este espaço, sobram apenas 2 para o 3o; finalmente, sobrará uma última letra no 4o espaço. Assim P4 = 4×3×2×1 = 4! = 24 Generalizando: Pn = n! Portanto, o total de anagramas da palavra “castelo” é: P7 = 7! = 5040 1.A.3 Arranjos Utiliza-se um arranjo quando se quer formar grupos a partir de um conjunto maior em que a ordem é importante. Por exemplo, de um grupo de 5 pessoas, deseja-se montar uma chapa para uma eleição composta por um presidente, um vice e um tesoureiro. Há 3 vagas. Para a vaga de presidente, temos 5 opções; escolhido o presidente, temos 4 opções para vice, sobrando 3 opções para tesoureiro. Então o número total de chapas será dado por A5,3 (lê-se arranjos de 5 elementos, 3 a 3) calculado assim: A5,3 = 5×4×3 = 60 Seriam 60 chapas possíveis, portanto. Faltaria, para completar o 5!, multiplicar por 2 e por 1. Multiplicando e dividindo, temos: A5,3 = 12 12345 × ×××× = !2 !5 Generalizando, temos An,k = k)!-(n n! 1.A.4 Combinações 21 Quando falamos em combinações, como em arranjos, estamos querendo formar grupos a partir de um conjunto de elementos, a diferença é que a ordem não importa. Suponhamos que, no exemplo anterior, a chapa não tenha cargos (é uma chapa para um conselho, por exemplo), então não importa quem é escolhido primeiro. O total de chapas possíveis será dado pelo número de arranjos, descontando-se uma vez escolhida a chapa, trocando-se as posições na mesma (isto é, fazendo permutações) teremos uma chapa idêntica. Portanto, o número de chapas será dado por C5,3 (lê-se combinações de 5 elementos, 3 a 3) calculado por: C5,3 = 3 5,3 P A = !3!2 !5 × = 10 Generalizando: Cn,k = k)!-(nk! n! 1.A.5 Triângulo de Pascal Uma maneira simples de calcular combinações é através do Triângulo de Pascal: 0 1 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 A construção do Triângulo é simples. Cada linha começa e termina com 1. Os outros números de cada linha são obtidos através da soma do número acima com o número à sua esquerda. Por exemplo, o 3o número da linha correspondente ao número 5 (que é 10) pode ser obtido pela soma do 2o e do 3o números da linha acima (4 + 6). E assim pode ser feito com qualquer número apresentado no Triângulo, inclusive para linhas que não foram mostradas (8,9, 10, etc.). As combinações podem ser obtidas imediatamente. Poe exemplo, se quisermos combinações de 6 elementos, devemos utilizar os números da linha correspondente, que são 1, 6, 15, 21, 15, 6 e 1. Temos que (verifique!): C6,0 = 1 C6,1 = 6 C6,2 = 15 C6,3 = 21 C6,4 = 15 C6,5 = 6 C6,6 = 1 E assim podemos obter quaisquer combinações que quisermos diretamente do Triângulo. Adicionalmente, uma outra propriedade (entre muitas) que pode ser obtida do Triângulo é que a soma dos números de uma linha é exatamente a potência de 2 do número correspondente. Por exemplo, se tomarmos a mesma linha, correspondente ao número 6: 22 1 + 6 + 15 + 21 + 15 + 6 + 1 = 64 = 26 25 Temos que: (A∪B)∩S = A∪B Pela definição de complementar: (A∪B)∩(B∪B ) = A∪B Como a união também tem a propriedade distributiva, colocando B “em evidência”: B∪(A∩B ) = A∪B Os eventos B e A∩B são disjuntos, pelo axioma 3 temos: P[B∪(A∩B )] = P(B) + P(A∩B ) E, pelo teorema 1.B.3 temos: P(A) = P(A∩B) + P(A∩B ) P(A∩B ) = P(A) – P(A∩B) Logo: P(A∪B) = P[B∪(A∩B )] = P(B) + P(A) – P(A∩B) 26 27 CAPÍTULO 2 - MEDIDAS DE POSIÇÃO E DISPERSÃO 2.1 Variável aleatória Variável aleatória (v.a.) é uma variável que está associada a uma distribuição12 de probabilidade. Portanto, é uma variável que não tem um valor fixo, pode assumir vários valores. O valor que cai ao se jogar um dado, por exemplo, pode ser 1, 2, 3, 4, 5 ou 6, com probabilidade igual a 6 1 para cada um dos valores (se o dado não estiver viciado). É, portanto, uma variável aleatória. Assim como são variáveis aleatórias: o valor de uma ação ao final do dia de amanhã; o número de pontos de um time num campeonato que está começando esta semana; a quantidade de chuva que vai cair no mês que vem; a altura de uma criança em fase de crescimento daqui a seis meses; a taxa de inflação no mês que vem. Todas estas variáveis podem assumir diferentes valores e estes por sua vez estão associados a probabilidades E não são variáveis aleatórias: o valor de uma ação no final do pregão de ontem; o número de pontos de um time num campeonato que já acabou; a altura de uma pessoa na faixa dos 30 anos de idade daqui a seis meses; a área útil de um apartamento; a velocidade de processamento de um computador. Todas estas variáveis têm valores fixos. 2.2. Medidas de posição central 2.2.1 Média Há diferentes tipos de média: a média aritmética, a mais comum, é a soma dos elementos de um conjunto dividido pelo número de elementos. Assim, um grupo de 5 pessoas, com idades de 21, 23, 25, 28 e 31, terá média (aritmética) de idade dada por: X = 21+ 23 + 25 + 28 + 31 5 = 25,6 anos De um modo geral, a média aritmética será dada por: X = X + X +...+X n 1 2 n Ou, escrevendo de uma maneira mais resumida: X = 1 n Xi i=1 n ∑ A média aritmética também pode ser ponderada — isto não é um tipo diferente de média — ponderar significa “atribuir pesos”. Ter um peso maior significa simplesmente que aquele valor entrará “mais vezes” na média. Digamos, por exemplo, que em três provas um aluno tenha tirado 4, 6 e 8. Se a média não for ponderada, é óbvio que será 6. Se, no entanto, a média for ponderada da seguinte forma: a primeira prova com peso 1, a segunda com 2 e a terceira 3. A média será calculada como se as provas com maior peso tivessem “ocorrido mais vezes”, ou seja X = 4 6 6 8 8 8 6 + + + + + 12 Voltaremos ao conceito de distribuição de probabilidade no próximo capítulo. 30 H = 5,8 4 7 3 5,4 2 3 1 10 +++ H ≅ 5,96 c) Supondo que os pesos sejam, respectivamente, 30%, 25%, 25% e 20%. Agora os pesos são dados em termos relativos (percentuais) e somam, portanto, 1. O cálculo da média aritmética será, então: X = 0,3×3 + 0,25×4,5 + 0,25×7+ 0,2×8 X = 5,475 O da média geométrica será: G = 30,3×4,50,25×70,25×8,50,2 G ≅ 5,05 E a harmônica: H = 2,0 5,8 125,0 7 125,0 5,4 13,0 3 1 1 ×+×+×+× H ≅ 4,66 Exemplo 2.2.1.2 (dados agrupados) Foram medidas as alturas de 30 pessoas que estão mostradas na tabela abaixo (as medidas são em centímetros). 159 168 172 175 181 161 168 173 176 183 162 169 173 177 185 164 170 174 178 190 166 171 174 179 194 167 171 174 180 201 Agrupe estas pessoas em classes de 10cm e faça o histograma correspondente. Para agrupar em classes de 10cm, o mais lógico (mas não obrigatório) seria agrupar em: de 150 a 160; de 160 a 170, e assim sucessivamente. O problema é, onde incluir aqueles que têm, por exemplo, exatamente 170 cm? Na classe de 160 a 170 ou na de 170 a 180? Há que se escolher uma, mas esta escolha é completamente arbitrária. Vamos optar por incluir sempre o limite inferior, por exemplo, a classe de 170 a 180 inclui todas as pessoas com 170 cm (inclusive) até 180 cm (exclusive)13, para o que utilizaremos a notação [170; 180[. Então, para os valores da tabela acima, teremos: [150; 160[ 1 [160; 170[ 8 [170; 180[ 14 [180; 190[ 4 [190; 200[ 2 13 Em linguagem de conjuntos equivaleria a dizer que o conjunto é fechado em 170 e aberto em 180. 31 [200; 210[ 1 Um histograma é uma maneira gráfica de representar este agrupamento, utilizando-se de retângulos cuja altura é proporcional ao número de elementos em cada classe. O histograma para o agrupamento realizado é mostrado na figura abaixo: 0 2 4 6 8 10 12 14 16 150 160 170 180 190 200 210 Exemplo 2.2.1.3 A partir dos dados agrupados do exemplo anterior, calcule a média14. Utilizaremos como dados os agrupamentos, é como se (e freqüentemente isso acontece) não tivéssemos conhecimento dos dados que originaram este agrupamento. Já que a nossa única informação é o agrupamento (seja pela tabela, seja pelo histograma), não é possível saber como os dados se distribuem pelo agrupamento, então a melhor coisa que podemos fazer (na falta de outra opção) é supormos que os dados se distribuem igualmente por cada agrupamento, de modo que, por exemplo, no agrupamento que vai de 170 a 180 é como se tivéssemos 14 pessoas com altura de 175 cm. Em outras palavras, tomaremos a média de cada classe para o cálculo da média total. Obviamente, a não ser por uma grande coincidência, este não será o valor correto da média, mas é uma aproximação e, de novo, é o melhor que se pode fazer dada a limitação da informação. Então, temos: X = 30 1205219541851417581651155 ×+×+×+×+×+× X ≅ 175,33 cm Repare que, o valor correto da média, tomando-se os 30 dados originais, é de 174,5 cm. 2.2.2 Moda Moda é o elemento de maior freqüência, ou seja, que aparece o maior número de vezes15. No exemplo das idades na classe com 20 alunos, a moda é 22 anos, que é a idade mais freqüente neste conjunto. Pode haver, entretanto, mais de uma moda em um conjunto de valores. Se houver apenas uma moda, a distribuição é chamada de unimodal. Se houver duas, bimodal. 14 Quando se fala “média”, sem especificar, supõe-se estar se tratando da média aritmética. 15 Assim como na linguagem cotidiana dizemos que uma roupa está na moda quando ela é usada pela maioria das pessoas. 32 2.2.3 Mediana Mediana é o valor que divide um conjunto ao meio. Por exemplo, num grupo de 5 pessoas com alturas de 1,60m, 1,65m, 1,68m, 1,70m e 1,73m, a mediana é 1,68m, pois há o mesmo número de pessoas mais altas e mais baixas (duas). A mediana apresenta uma vantagem em relação à média: no grupo acima, a média é 1,672m, então, neste caso, tanto a média como a mediana nos dão uma idéia razoável do grupo de pessoas que estamos considerando. Se, no entanto, retirarmos a pessoa de 1,73m, substituindo-a por outra de 2,10m, a média passará a ser 1,746m. Neste caso, a média não seria muito representativa de um grupo que, afinal de contas, tem apenas uma pessoa acima de 1,70m. A mediana, entretanto, fica inalterada. A mediana, ao contrário da média, não é sensível a valores extremos. Seguindo a mesma lógica, os quartis são os elementos que dividem o conjunto em quatro partes iguais. Assim, o primeiro quartil é aquele elemento que é maior do que 4 1 dos elementos e, portanto, menor do que 4 3 dos mesmos; o segundo quartil (que coincide com a mediana) é aquele que divide, 4 2 para cima 4 2 para baixo; finalmente o terceiro quartil é aquele elemento que tem 4 3 abaixo e 4 1 acima. Da mesma forma, se dividirmos em 8 pedaços iguais, teremos os octis, decis se dividirmos em 10, e, mais genericamente os percentis: o percentil de ordem 20 é aquele que tem abaixo de si 20% dos elementos, e 80% acima. Exemplo 2.2.3.1 A partir da tabela apresentada no exemplo 2.2.1.1, determine: a) a moda O elemento que aparece mais vezes (3) é 174 cm, portanto: Mo = 174 cm E só há uma moda, o que não é necessário que ocorra. No caso deste exemplo, bastaria que houvesse mais uma pessoa com 168 cm de altura para que esta distribuição se tornasse bimodal. b) a mediana Há 30 dados. Do menor para o maior, o 15o dado é, pela ordem, 173 cm, enquanto o 16o é 174 cm. Como a mediana deve ter 15 elementos abaixo e 15 acima, tomaremos o ponto médio entre o 15o e o 16o dado: Md = 2 174173+ Md = 173,5 cm c) o 1o e 2o quartis. Devemos dividir o total de elementos por 4, o que dá 7,5. Como o 7o e o 8o elemento, indo do menor para o maior, são iguais, temos: 1o quartil = 168 cm 35 Para eliminar o efeito dos quadrados existente na variância basta extrairmos a raiz quadrada. Chamaremos de desvio padrão da variável X (dp(X) ou σX): dp(X) ≡ σX = var(X) Portanto, o desvio padrão na situação 2 do exemplo dos frangos será dado por: dp(X) = 0 67, ≅ 0,8 frangos Estando na mesma unidade dos dados (e da média), no caso específico, frangos, é possível comparar o desvio padrão com a média: neste caso, o desvio padrão é 80%17 da média. Note-se que, se o objetivo é a comparação entre dois conjuntos de dados, tanto faz usar a variância ou o desvio padrão. Se a variância é maior, o desvio padrão também é maior (e vice- versa) — necessariamente. 2.3.3. Outra maneira de calcular a variância Se, a partir da definição de variância, desenvolvermos algebricamente, obteremos: var(X) = 1 n (X - X)i 2 i=1 n ∑ var (X) = 1 n (X - 2X X + Xi 2 i 2 i=1 n )∑ var(X) = 1 n Xi 2 i=1 n ∑ - 1n 2X X ii=1 n ∑ + 1n X 2 i=1 n ∑ var(X) = 1 n Xi 2 i=1 n ∑ - 2X 1n X ii=1 n ∑ + 1n nX 2 var(X) = 1 n Xi 2 i=1 n ∑ - 2 2X + X2 var(X) = 1 n Xi 2 i=1 n ∑ - X2 Ou, em outras palavras: var(X) = média dos quadrados - quadrado da média Utilizando este método para calcular a variância da situação 2 do exemplo dos frangos: Situação 2 ao quadrado indivíduo1 2 4 indivíduo2 1 1 indivíduo3 0 0 MÉDIA 1 5/3 var(X) = média dos quadrados - quadrado da média = 5/3 - 12 = 2/3 17 Esta proporção, que é obtida através da divisão do desvio padrão pela média, é também chamada de coeficiente de variação. 36 Encontramos o mesmo valor. Tomemos agora o exemplo de um aluno muito fraco, que tem as seguintes notas em três disciplinas: aluno A notas ao quadrado economia 3 9 contabilidade 2 4 administração 4 16 matemática 1 1 MÉDIA 2,5 7,5 Para este aluno, temos: X = 2,5 var(X) = 7,5 - 2,52 = 1,25 dp(X) = 1,12 Suponha agora um aluno B, mais estudioso, cujas notas são exatamente o dobro: aluno B notas ao quadrado economia 6 36 contabilidade 4 16 administração 8 64 matemática 2 4 MÉDIA 5 30 Para o aluno B, os valores são: X = 5 Isto é, se os valores dobram, a média dobra. var(X) = 30 - 52 = 5 = 4×1,25 Ou seja, se os valores dobram, a variância quadruplica. Isto porque variância lembra quadrados. Em outras palavras, vale a relação18: var(aX) = a2var(X) (2.3.3.1) dp(X) = 2,24 Isto é, o desvio padrão dobra, assim como a média. Vale, portanto, a relação: dp(aX) = a.dp(X) (2.3.3.2) Agora tomemos um aluno C, ainda mais estudioso, que tira 5 pontos a mais do que o aluno A em todas as matérias: aluno C notas ao quadrado 18 Veja demonstração no apêndice 37 economia 8 64 contabilidade 7 49 administração 9 81 matemática 6 36 MÉDIA 7,5 57,5 Para este aluno teremos: X = 7,5 Se o aluno tira 5 pontos a mais em cada disciplina, a média também será de 5 pontos a mais var(X) = 57,5 - 7,52 = 1,25 dp(X) = 1,12 A variância e o desvio padrão são os mesmos do aluno A. Isto porque são medidas de dispersão — se somarmos o mesmo valor a todas as notas de A elas continuarão dispersas, espalhadas da mesma forma, apenas mudarão de posição. Valem portanto as relações19: var(X+a) = var(X) (2.3.3.3) dp(X+a) = dp(X) (2.3.3.4) 2.3.4. Relações entre variáveis — covariância A covariância pode ser entendida como uma “variância conjunta” entre duas variáveis. Enquanto a variância sai de quadrados (da variável menos a média), a covariância é definida através de produtos: cov(X,Y) = 1 n (X - X)(Y - Y)i i i=1 n ∑ Que, assim como a variância, pode ser calculada de outra forma: cov(X,Y) = média dos produtos - produto da média (2.3.4.1) Vejamos um exemplo do consumo e da taxa de juros de um país: Ano consumo (X) taxa de juros (Y) produto (XY) 1 800 10 8000 2 700 11 7700 3 600 13 7800 4 500 14 7000 MÉDIA 650 12 7625 cov(X,Y) = 7625 - 650x12 = -175 E agora entre o consumo e a renda: 19 Cujas demonstrações também podem ser vistas no apêndice. 40 Os seus valores variam apenas no intervalo de -1 a 1 e podem sem interpretados como um percentual21. Portanto, um valor de 0,99 (quase 1) indica que a renda é muito importante para a determinação do consumo. O valor de 1 (ou -1) para o coeficiente de correlação só é encontrado para duas variáveis que tenham uma relação exata e dada por uma função do 1o grau. Por exemplo, o número de cadeiras e de assentos em uma sala de aula; o número de pessoas e dedos da mão (supondo que não haja indivíduos polidáctilos, acidentados ou com defeitos congênitos entre estas pessoas); a área útil e a área total em apartamentos de um mesmo edifício. Valores muito pequenos (em módulo) indicam que a variável tem pouca influência uma sobre a outra. 2.3.6. Outras propriedades. No exemplo do consumo e da taxa de juros, multipliquemos o consumo por 3 e a taxa de juros por 2: ano 3X 2Y produto 1 2400 20 48000 2 2100 22 46200 3 1800 26 46800 4 1500 28 42000 MÉDIA 1950 24 45750 A nova covariância será dada por: cov(3X,2Y) = 45750 - 1950x24 = -1050 = 6×(-175) Ou seja, o sêxtuplo da covariância entre as variáveis originais. A propriedade apresentada aqui pode ser assim resumida: cov(aX,bY) = a.b.cov(X,Y) (2.3.6.1) 21 Com ressalvas, pois ele é calculado sem considerar a influência de outras variáveis. 41 Tomemos agora duas variáveis X e Y: X Y X2 Y2 XY 1 0 1 100 1 10 1 2 3 144 9 36 1 8 2 324 4 36 2 0 2 400 4 40 MÉDIA 1 5 2 242 4,5 30,5 Podemos calcular: var(X) = 242-152 = 17 var(Y) = 4,5 -22 = 0,5 cov(X,Y) = 30,5 - 15x2 = 0,5 Vamos “inventar” duas novas variáveis: X+Y e X-Y X+Y X-Y (X+Y)2 (X-Y)2 11 9 121 81 15 9 225 81 20 16 400 256 22 18 484 324 MÉDIA 17 13 307,5 185,5 Então temos: var(X+Y) = 307,5 - 172 = 18,5 var(X-Y) = 185,5 - 132 = 16,5 Note que poderíamos obtê-las dos valores anteriores da seguinte forma: var(X+Y) = 17 + 0,5 + 2×0,5 =18,5 var(X-Y) = 17 + 0,5 - 2×0,5 = 16,5 Generalizando, vem22: var(X+Y) = var(X) + var(Y) + 2cov(X,Y) (2.3.6.2) var(X-Y) = var(X) + var(Y) - 2cov(X,Y) (2.3.6.3) 22 Note que é muito semelhante à forma do produto notável (a+b)2 = a2 + b2 + 2ab, fazendo a variância análoga ao quadrado e a covariância análoga ao produto. 42 Exercícios 1. Num sistema de avaliação há duas provas (com notas variando de 0 a 10) e, para ser aprovado, o aluno deve ter média final 5. Qual é a nota mínima que é preciso tirar na primeira prova para ter chance de ser aprovado, supondo: a) média aritmética ponderada, com a primeira prova tendo peso 2 e a segunda 1. b) média geométrica (simples). c) média harmônica (simples). 2. Dados o conjunto {2; 3; 5; 8; 12}, calcule as médias aritmética, geométrica e harmônica, supondo: a) pesos iguais. b) pesos 9, 7, 5, 3 e 1 c) pesos 10%, 20%, 30%, 25%, 15% 3. A partir dos dados do exemplo 2.2.1.2: a) agrupe os dados em classes de 5 cm. b) calcule a média e a variância. c) comente os resultados obtidos no item anterior. d) trace o histograma correspondente. 4. Com base nos histogramas abaixo, calcule a média, a variância e o desvio padrão. a) 0 10 20 30 40 50 10 12 14 16 18 20 22 24 b) 0 2 4 6 8 10 12 14 20 25 30 35 40 45 5. Calcule o coeficiente de correlação entre o consumo e a taxa de juros da tabela 2.3.4.1 6. Para os dados das tabelas abaixo, calcule: 45 Apêndice 2.B - Demonstrações 2.B.1 Demonstração da expressão 2.3.3.1 var(aX) = a2var(X) var(aX) = 1 n ∑ n 1=i 2 i )X-X( aa var(aX) = 1 n [ ]∑ n 1=i 2 i )X-(Xa var(aX) = 1 n ∑ n 1=i 2 i 2 )X-(Xa var(aX) = a2 1 n (X - X)i 2 i=1 n ∑ var(aX) = a2var(X) (c.q.d) 2.B.2 Demonstração da expressão 2.3.3.2 dp(aX) = a.dp(X) dp(aX) = X)var(a dp(aX) = var(X)2a dp(aX) = var(X)a dp(aX) = a.dp(X) (c.q.d.) 2.B.3 Demonstração da expressão 2.3.3.3 var(X+a) = var(X) var(X+a) = 1 n [ ]∑ + n 1=i 2 i )X(-+X aa var(X+a) = 1 n [ ]∑ n 1=i 2 i )-X-+X aa var(X+a) = 1 n (X - X)i 2 i=1 n ∑ var(X+a) = var(X) (c.q.d.) 2.B.4 Demonstração da expressão 2.3.3.4 dp(X+a) = dp(X) dp(X+a) = )+var(X a dp(X+a) = var(X) 46 dp(X+a) = dp(X) (c.q.d.) 2.B.5 Demonstração da expressão 2.3.4.1 cov(X,Y) = média dos produtos - produto da média cov(X,Y) = 1 n (X - X)(Y - Y)i i i=1 n ∑ cov(X,Y) = 1 n (X Y - X Y - XY + XY)i i i i i=1 n ∑ cov(X,Y) = 1 n X Yi i i=1 n ∑ - 1n X Yii=1 n ∑ - 1n XYii=1 n ∑ + 1n XYi=1 n ∑ cov(X,Y) = 1 n X Yi i i=1 n ∑ - Y 1n Xii=1 n ∑ - X 1n Yii=1 n ∑ + 1n n XY cov(X,Y) = 1 n X Yi i i=1 n ∑ - XY - XY + XY cov(X,Y) = 1 n X Yi i i=1 n ∑ - XY cov(X,Y) = média dos produtos - produto da média (c.q.d.) 2.B.6 Demonstração da expressão 2.3.6.1 cov(aX,bY) = a.b.cov(X,Y) cov(aX,bY) = 1 n ∑ n 1=i ii )Y-Y)(X-X( bbaa cov(aX,bY) = 1 n ∑ n 1=i ii )Y-(Y)X-(X ba cov(aX,bY) = a.b. 1 n (X - X)(Y - Y)i i i=1 n ∑ cov(aX,bY) = a.b.cov(X,Y) 2.B.7 Demonstração da expressão 2.3.6.2 var(X+Y) = var(X) + var(Y) + 2cov(X,Y) var(X+Y) = 1 n (X Y )i i 2 i=1 n +∑ - ( )X Y+ 2 var(X+Y) = 1 n (X Y + 2X Y )i i 2 i i i=1 n 2 +∑ - ( )X Y XY2 2 2+ + var(X+Y) =( 1 n Xi i=1 n 2∑ - X2 ) + ( 1n Yi 2 i=1 n ∑ - Y2 ) + 2( 1n X Yi ii=1 n ∑ - XY ) 47 var(X+Y) = var(X) + var(Y) + 2cov(X,Y) (c.q.d.) 2.B.8 Demonstração da expressão 2.3.6.3 var(X-Y) = var(X) + var(Y) - 2cov(X,Y) var(X-Y) = var[X+(-Y)] var(X-Y) = var(X) + var(-Y) + 2cov(X,-Y) var(X-Y) = var(X) + var(Y) - 2cov(X,Y) (c.q.d.) 50 Aliás, podemos pensar em P(X) como uma função que associa o valor de X à sua probabilidade, que é chamada de função de probabilidade. Uma outra função importante que pode ser associada às probabilidades é a função que, dado o valor de X, nos fornece a probabilidade acumulada, e que chamamos função de distribuição acumulada, ou simplesmente, função de distribuição, que representamos por F(X). Se X for o preço da ação que falamos no início do capítulo, então X só pode assumir 3 valores, isto é, 15, 20 e 25. F(15) seria a probabilidade do preço da ação ser, no máximo, 15, o que é exatamente 30%. F(20) é a probabilidade de ser até 20 que, neste caso, equivale à probabilidade de ser 15 ou 20, que é 80%. Finalmente, F(25) é a probabilidade de ser, no máximo, 25, isto é, de ser 15, 20, ou 25 que é, obviamente 100%. Esta é uma característica das funções de distribuição, o “último” valor24 da função é 1 (100%). 0% 10% 20% 30% 40% 50% 60% 15 20 25 P(X) Função de probabilidade 0% 20% 40% 60% 80% 100% 120% 15 20 25 F(X) Função distribuição acumulada Nos gráficos acima o formato de histograma foi utilizado para uma melhor visualização, não sendo, evidentemente, obrigatório, embora seja adequado para uma variável aleatória discreta. Exemplo 3.1.1 Num sorteio de números inteiros de 1 a 5, a probabilidade de um número ser sorteado é proporcional a este número (isto é, a probabilidade do número 5 ser sorteado é cinco vezes a probabilidade do número 1 ser sorteado). Qual a probabilidade de cada número ser sorteado. 24 Ou o limite para quando X tende ao infinito. 51 Se chamarmos a probabilidade do número 1 ser sorteado (P(1)) de uma constante desconhecida A, temos que: P(2) = 2A P(3) = 3A P(4) = 4A P(5) = 5A Ora, sabemos que a soma de todas as probabilidades, sendo os eventos mutuamente exclusivos, tem que ser igual a 1: P(1) + P(2) + P(3) + P(4) + P(5) = 1 A + 2A + 3A + 4A + 5A = 1 15 A = 1 A = 15 1 Portanto: P(1) = 1/15 P(2) = 2/15 P(3) = 3/15 = 1/5 P(4) = 4/15 P(5) = 5/15 = 1/3 Voltando à Esperança, ela é uma média ponderada pelas probabilidades. Valem portanto, para a Esperança, as mesmas propriedades da média: E(aX + b) = aE(X) + b E(X + Y) = E(X) + E(Y) Podemos, inclusive, escrever a variância em termos da Esperança. Como a variância é definida como a média dos quadrados dos desvios em relação à média, temos que: var(X) = E[X – E(X)]2 Ou ainda, podemos calcular a variância como sendo a média dos quadrados menos o quadrado da média, portanto: var(X) = E(X2) – [E(X)]2 Da mesma forma, a covariância entre duas variáveis pode ser escrita utilizando a esperança: cov(X,Y) = E[(X-E(X))(Y-E(Y)] = E(XY) – E(X)E(Y) Exemplo 3.1.2 Uma ação comprada por R$ 10 pode assumir, após 30 dias, os seguintes valores: R$ 5, com probabilidade 20%; R$ 10, com probabilidade 30%; R$ 16, com probabilidade 25% e R$ 20, com probabilidade 25%. Determine o valor esperado da ação e a sua variância. O valor esperado (esperança) da ação será dado por: 52 E(X) = 5×0,2 + 10×0,3 + 16×0,25 + 20×0,25 E(X) = 2,5 + 3 + 4 + 5 = 14,5 Como o preço da ação foi de R$ 10, o lucro médio (esperado) desta ação é R$ 4,50. Quanto à variância: E(X2) = 52×0,2 + 102×0,3 + 162×0,25 + 202×0,25 E(X2) = 25×0,2 + 100×0,3 + 256×0,25 + 400×0,25 E(X2) = 12,5 + 30 + 64 + 100 = 206,5 var(X) = E(X2) – [E(X)]2 var(X) = 206,5 – 14,52 var(X) = 210,25 Repare que a variância, ao medir a dispersão dos possíveis valores da ação, é uma medida do risco da ação. 3.2 Algumas distribuições discretas especiais Há distribuições que, por sua importância, merecem um destaque especial e até um “nome”. Trataremos de algumas delas agora. 3.2.1 Distribuição uniforme discreta A distribuição uniforme é aquela em que todos os elementos têm a mesma probabilidade de ocorrer. Imagine, por exemplo o marcador das horas em um relógio digital Qual a probabilidade de que, ao olhar para ele num momento qualquer do dia, ele esteja mostrando um particular número? Obviamente, é 1/12 para qualquer número, considerando um mostrador de doze horas, ou 1/24 para um mostrador de vinte e quatro horas. Também é igual a probabilidade de ocorrência de um número qualquer em um dado não viciado, 1/6. Também se trata de uma distribuição uniforme. O gráfico da função de probabilidade para o caso do dado é mostrado abaixo (de novo, em forma de histograma): 1 2 3 4 5 6 P(X) 1/6 Exemplo 3.2.1.1 Joga-se um dado uma única vez. Qual o valor esperado do número obtido? E a sua variância? O valor esperado (esperança) será dado por: 55 A distribuição Binomial nada mais é do que a generalização da distribuição de Bernouilli. Há um “sucesso”, com probabilidade p e um “fracasso”, com probabilidade 1–p, mas o número de experimentos (de “jogadas”) pode ser qualquer. Tomemos o exemplo mais simples, que é o da cara ou coroa, com três jogadas, que representamos na árvore abaixo: 3 caras 2 caras 1 cara 2ca 1co 1ca 1co 1 coroa 1ca 2co 2 coroas 3 coroas Já conhecemos o resultado da primeira jogada: P(1 cara) = p = 2 1 P(1 coroa) = 1 – p = 2 1 Para a segunda jogada, observando a árvore, verificamos que, da origem, há 4 caminhos possíveis e, neste caso, todos com a mesma probabilidade. Destes 4, em 1 deles chegaríamos a 2 caras ou 2 coroas. Entretanto, para 1 cara e 1 coroa há 2 caminhos possíveis. Portanto, para duas jogadas temos: P(2 caras) = 4 1 P(1 cara e 1 coroa) = 4 2 P(2 coroas) = 4 1 Repare que: P(2 caras) = p×p P(1 cara e 1 coroa) = 2×p×(1–p) P(2 coroas) = (1–p)×(1–p) O número 2 que aparece para 1 cara e 1 coroa se deve ao fato de que este resultado é possível de ocorrer de duas maneiras, isto é, dando cara na primeira jogada ou dando coroa logo na primeira. Para 3 jogadas, há 8 caminhos possíveis (verifique!). Destes 8, em apenas 1 ocorrem só caras ou só coroas. Em 3 deles ocorrem 2 caras e 1 coroa e em outros 3, 2 coroas e 1 cara. 56 P(3 caras) = 8 1 P(2 caras e 1 coroa) = 8 3 P(1 cara e 2 coroas) = 8 3 P(3 coroas) = 8 1 Temos agora que: P(3 caras) = p×p×p P(2 caras e 1 coroa) = 3×p×p×(1–p) P(1 cara e 2 coroas) = 3×p×(1–p)×(1–p) P(3 coroas) = (1–p)×(1–p)×(1–p) E agora aparece o número 3 para 2 caras e 1 coroa (ou 1 cara e 2 coroas). De onde? Bom, há realmente 3 possibilidades: 1a cara, 2a cara e 3a coroa; ou, 1a cara, 2a coroa e 3a cara; ou ainda, 1a coroa, 2a cara, 3a cara. Podemos combinar as posições das 2 caras de 3 maneiras diferentes. O número 3, na verdade, é a quantidade de combinações28 de 3 elementos em grupos de 2. Portanto: P(3 caras) = C3,3×p×p×p P(2 caras e 1 coroa) = C3,2×p×p×(1–p) P(1 cara e 2 coroas) = C3,1×p×(1–p)×(1–p) P(3 coroas) = C3,0×(1–p)×(1–p)×(1–p) Nota: as combinações de n elementos em grupos de k também é podem ser escritas como: Cn,k =       k n Que se lê binomial de n, k (por razões que agora são óbvias). Portanto, as probabilidades para 3 jogadas podem ser escritas assim: P(3 caras) =       3 3 ×p×p×p P(2 caras e 1 coroa) =       2 3 ×p×p×(1–p) P(1 cara e 2 coroas) =       1 3 ×p×(1–p)×(1–p) P(3 coroas) =       0 3 ×(1–p)×(1–p)×(1–p) Podemos generalizar, para um experimento qualquer, onde a probabilidade de “sucesso” é p e a probabilidade de fracasso é 1–p, a probabilidade de que, em n “jogadas”, ocorram k sucessos é: 28 Veja apêndice 1.A. 57 P(x = k) =       k n pk(1–p)n-k Exemplo 3.2.3.1 Suponha um jogo de dados em que se aposta em um único número. Determine a probabilidade de: a) em 3 jogadas, ganhar 2 É uma distribuição binomial onde p = 1/6, temos 3 jogadas e o “sucesso” ocorre em 2 delas: P(x = 2) =       2 3 × 2 6 1       × 1 6 5       P(x = 2) = 3× 36 1 × 6 5 P(x = 2) = 216 15 b) em 4 jogadas, ganhar 2. P(x = 2) =       2 4 × 2 6 1       × 2 6 5       P(x = 2) = 6× 36 1 × 36 25 P(x = 2) = 1296 150 c) em 5 jogadas, ganhar 3. P(x = 3) =       3 5 × 3 6 1       × 2 6 5       P(x = 3) = 10× 216 1 × 36 25 P(x = 3) = 7776 250 Exemplo 3.2.3.2 Calcule a média e a variância no jogo de cara ou coroa, atribuindo valor 1 para cara e 0 para coroa, considerando 1, 2 e 3 jogadas. Para 1 jogada, ficamos reduzidos ao caso particular da distribuição de Bernouilli, cujo resultado já conhecemos: E(x) = p = 2 1 var(x) = p(1–p) = 4 1 Façamos então, o cálculo para 2 e 3 jogadas. Para 2 jogadas, temos: 60 p = N s A pergunta aqui, então, é: qual a probabilidade de que, retirando-se n elementos, k possuam o atributo “sucesso” e n-k o atributo “fracasso”. Do total de N elementos, podemos tirar       n N grupos de n elementos. Dos s que possuem o atributo “sucesso”, há       k s grupos de k elementos que poderiam sair nesta extração. Finalmente, dos N-r que possuem o atributo “fracasso”, há       k-n s-N grupos de n-k elementos. Então, a probabilidade de encontrarmos k elementos com o atributo “sucesso” é: P(x = k) =                   n N k-n s-N k s Exemplo 3.2.5.1 Sabe-se que há 10% de peças defeituosas em um lote de 50. Ao retirar 8 peças deste lote, sem reposição, qual a probabilidade de que 2 delas sejam defeituosas? Como são 10% de peças defeituosas em um total de 50, há 5 peças defeituosas. Pede-se a probabilidade de retirar 2 (do total de 5) peças defeituosas e 6 (de um total de 45) peças em bom estado. Esta probabilidade é calculada como se segue: P(x = 2) =                   8 50 6 45 2 5 ≅ 0,1517 = 15,17% 3.2.6 Distribuição de Poisson Você é capaz de dizer quantas vezes, em média, toca o telefone por dia na sua casa ou no seu escritório? Provavelmente, sim. Mas quantas vezes não toca o telefone? Esta pergunta é muito difícil de se responder. Quando uma variável aleatória tem um comportamento parecido com este, dizemos que ela segue uma distribuição de Poisson. Se considerarmos que “sucesso” é tocar o telefone, é muito difícil calcular o p, a probabilidade disso ocorrer, já que não temos como calcular a não ocorrência do evento. A solução é imaginar que o p é muito pequeno, já que o toque do telefone dura apenas alguns segundos em um dia de 24 horas. Portanto, o número de vezes que este experimento é realizado (telefone toca ou não toca), que é o n da distribuição Binomial, é realizado muitas vezes. 61 Assim que modelamos este tipo de distribuição: partindo de uma distribuição Binomial, considerando que p é muito pequeno (tende a zero) e n é muito grande (tende a infinito). p → 0 n → ∞ Mas de tal modo que o produto np é um número finito diferente de zero. np = λ Mas o que significa este novo parâmetro λ? Como partimos de uma distribuição Binomial, temos que: E(x) = np = λ Portanto, λ é exatamente o número médio de vezes que o evento ocorre. No exemplo do telefone, é o número de vezes que o telefone toca por dia. Ainda é possível calcular a variância partindo de uma distribuição Binomial: var(x) = np(1–p) Mas, como p tende a zero, 1–p tende a 1. Portanto: var(x) = np = λ A distribuição de Poisson se caracteriza, desta forma, por ter média igual a variância. Para calcularmos a probabilidade de uma variável como esta, partimos da distribuição Binomial e fazemos p → 0 e n → ∞. Fazendo isto30, chegamos a: P(x = k) = k! e k- λλ Exemplo 3.2.6.1 Suponha que, em média, o telefone toque 4 vezes ao dia em uma casa. Qual a probabilidade de que, num certo dia, ele toque, no máximo, 2 vezes? É uma distribuição de Poisson, cujo parâmetro é λ = 4. A probabilidade de tocar no máximo 2 vezes é equivalente à probabilidade de tocar 0, 1 ou 2 vezes. P(x = 0) = 0! 4e 04- = e-4 P(x = 1) = 1! 4e 14- = 4e-4 P(x = 2) = 2! 4e 24- = 8e-4 30 Veja a demonstração no apêndice 3.B. 62 Portanto: P(x ≤ 2) = 13e-4 ≅ 0,2381 = 23,81% A distribuição de Poisson também pode ser útil como uma aproximação da binomial quando, embora não seja impossível, o valor de p seja tão pequeno de modo que os cálculos se tornem um tanto quanto trabalhosos, como no exemplo abaixo. Exemplo 3.2.6.2 Um candidato tem apenas 2% das intenções de voto. Qual a probabilidade de que, em 100 eleitores escolhidos ao acaso, encontremos 5 que desejem votar neste candidato? Usando a binomial pura e simplesmente, temos: P(x = 5) =       5 100 0,025×0,9895 ≅ 0,0353 = 3,53% Podemos, entretanto, usar a distribuição de Poisson como aproximação, tendo como parâmetro λ = np = 100×0,02 = 2 P(x = 5) = 5! 2e 52- ≅ 0,0361 = 3,61% Que é um valor bem próximo do encontrado através da binomial. Exercícios 1. Calcule a média, a variância e o desvio padrão das seguintes variáveis aleatórias discretas: a) valor de uma ação: $ 50 com probabilidade 35% $ 40 com probabilidade 30% $ 30 com probabilidade 20% $ 20 com probabilidade 15% b) pontos de um time ao final do campeonato: 40 com probabilidade de 5% 36 com probabilidade de 10% 32 com probabilidade de 25% 28 com probabilidade de 25% 24 com probabilidade de 20% 20 com probabilidade de 15% c) o valor em uma jogada de um dado não viciado. d) o valor em uma jogada de um dado viciado em que a probabilidade é inversamente proporcional a cada número (isto é, a probabilidade de dar 1 é seis vezes maior do que dar 6). e) ganhos em jogo de cara ou coroa (com uma moeda não viciada) onde, após 4 jogadas: 65 qS-S = aqn - a S(q-1) = a (qn -1) S = 1-q )1(qn −a Assim, conseguimos encontrar um termo geral para calcular a soma de uma PG. Para isso, devemos identificar o primeiro termo da série (o a da fórmula), a razão (q) e o número de termos (n). E se a PG for infinita? É possível que a soma seja finita? A resposta é sim. Tomemos, por exemplo, uma pessoa que come um chocolate seguindo uma regra: em cada mordida, ela come exatamente metade do que falta. Quantos chocolates ela irá comer ao final de infinitas mordidas? Obviamente, 1 chocolate. Mas isto só acontece porque em cada mordida ela come sempre uma fração do que falta. Isto é, é necessário que a razão seja (em módulo) menor do que 1. A soma que representa as mordidas do chocolate é dada por: S = 2 1 + 4 1 + 8 1 + 16 1 + ... = 1 Que é uma PG com infinitos termo, cujo primeiro é 2 1 e a razão também é 2 1 e que, sabemos, é igual a 1. Neste caso temos uma PG infinita, portanto: S = a + aq + aq2 + aq3 + ... (3.A.5) Que, se multiplicarmos por q e subtrairmos, temos: S = a + aq + aq2 + aq3 + ... -(qS = aq + aq2 + aq3 + ... ) S - qS = a (1- q)S = a S = q1− a APÊNDICE 3.B – Tópicos adicionais em distribuições de probabilidade discretas 3.B.1 Média e variância de uma distribuição de Bernouilli E(X) = 1×p + 0×(1 – p) E(X) = p E(X2) = 12×p + 02×(1 – p) E(X2) = p var(X) = E(X2) – [E(X)]2 var(X) = p – p2 66 var(X) = p(1 – p) 3.B.2 Da Binomial à Poisson A probabilidade em uma distribuição Binomial é dada por: P(x = k) =       k n pk(1–p)n-k Pela definição de binomial (combinações): P(x = k) = k!k)!-(n n! pk(1–p)n-k P(x = k) = k!k)!-(n k)!-1)(nk-2)...(n-1)(n-n(n + pk(1–p)n-k P(x = k) = k! 1)k-2)...(n-1)(n-n(n + pk(1–p)n-k No numerador da fração acima temos k fatores. Colocando n em evidência em cada um deles: P(x = k) = k! 1 nk[(1- n 1 )(1- n 2 )...(1- n 1-k )]pk(1–p)n-k Como n tende ao infinito, n 1 , n 2 , etc. tendem a zero. P(x = k) = k! 1 nk pk(1–p)n-k Como, por definição, λ = np, temos que p = n λ . P(x = k) = k! 1 nk kn kλ (1– n λ )n-k Do cálculo diferencial, sabemos que: limn→∞(1– n λ )n-k = e-λ E assim chegamos a: P(x = k) = k! e k- λλ 3.B.3 Quadro resumindo as principais distribuições discretas Distribuição Forma Geral P(X = k) Média Variância Binomial       k n pk(1–p)n-k np np(1–p) Geométrica (1–p)k-1p p 1 2p p1− 67 Hipergeométrica                   n N k-n s-N k s np = n N s n N s × N s-N × 1-N n-N Poisson k! e k- λλ np = λ λ 70 As probabilidades de probabilidade, entretanto, devem ser mantidas para que f(x) seja uma f.d.p. A soma das probabilidades tem que ser igual a 1, o que vale dizer que a área total tem que ser igual31 a 1. De fato, a área total definida por f(x) é 12× 12 1 = 1. Além disso, a probabilidade não pode ser negativa. Portanto, f(x) tem que ser não negativo, isto é, maior ou igual a zero. Exemplo 4.1.1 Uma variável aleatória (v.a.) contínua, com distribuição uniforme, pode assumir qualquer valor real entre 3 e 6. Determine a função densidade de probabilidade desta função. O gráfico desta função é: Onde A é um valor que ainda temos que determinar. Como temos que f(x) é sempre positiva ou zero, aplicamos a condição de que a área total delimitada pelo gráfico tem que ser igual a 1. A base do retângulo é 3 (= 6 – 3) e a altura igual a A. Portanto: A×3 = 1 A = 3 1 Ou seja, f(x) = 3 1 quando x está entre 3 e 6 e é igual a zero para todos os demais valores de x, o que pode ser representado como se segue: 0 , x < 3 ou x > 6 f(x) = 3 1 , 3 ≤ x ≤ 6 Exemplo 4.1.2 Partindo da f.d.p. do exemplo anterior, determine as probabilidades de que: a) x = 4 Embora seja possível, como se trata de distribuição contínua, a probabilidade de x ser exatamente igual a um valor é igual a zero. Portanto: P(x = 4) = 0 b) x esteja entre 4,6 e 5,5 31 Embora f(x) possa ser maior do que 1. 3 6 A f(x) 71 A função é dada por: 0 , x < 3 ou x > 6 f(x) = 3 1 , 3 ≤ x ≤ 6 Cujo gráfico é mostrado abaixo: A probabilidade será dada pela área delimitada no gráfico, que corresponde a um triângulo de base 0,9 e altura 3 1 . P(4,6 ≤ x ≤ 5,5) = 0,9× 3 1 = 0,3 c) x esteja entre 2 e 4. Como x só assume valores entre 3 e 6, a área relevante a ser calculada corresponde aos pontos entre 3 e 4, já que para qualquer intervalo antes de 3, a probabilidade é igual a zero. P(2 ≤ x ≤ 4) = P(2 ≤ x ≤ 3) + P(3 ≤ x ≤ 4) P(2 ≤ x ≤ 4) = 0 + 1× 3 1 P(2 ≤ x ≤ 4) ≅ 0,33 Exemplo 4.1.3 Dada a f.d.p. de uma v.a. contínua abaixo: Ax , 0 ≤ x ≤ 3 f(x) = 0 , x < 0 ou x > 3 Determine: a) o valor de A. O gráfico desta função é dado abaixo: 3 4,6 5,5 6 1/3 f(x) 72 Como f(x) = Ax, f(3) = 3A e f(0) = 0. A figura definida pelo gráfico é um triângulo de base 3 e altura 3A. Sabemos que f(x) é sempre não negativo, portanto basta aplicarmos a propriedade de que a área total seja igual a 1: 2 3A3 × = 1 2 A9 = 1 A = 9 2 b) a probabilidade de que x esteja entre 2 e 3. Agora temos que f(2) = 2× 9 2 = 9 4 e f(3) = 3× 9 2 = 9 6 = 3 2 . A área correspondente a esta probabilidade está assinalada no gráfico: Que determina um trapézio. Podemos calcular diretamente a área do trapézio ou calcular a diferença entre a área dos dois triângulos (o maior, cuja base vai de 0 a 3, e o menor, cuja base vai de 0 a 2): P(2 ≤ x ≤ 3) = 3× 3 2 × 2 1 – 2× 9 4 × 2 1 75 A     −− )1(0 α = 1 A× α 1 = 1 A = α 4.2 Função de distribuição de variáveis contínuas A função de distribuição acumulada, ou simplesmente função de distribuição, no caso de variáveis contínuas, segue a mesma lógica do caso discreto. No caso discreto, a função de distribuição F(x) é a soma das probabilidades de todos os valores possíveis que a variável x pode assumir até o valor de x propriamente dito. Assim, se x é um número inteiro não negativo, a função de distribuição é dada por: F(0) = P(0) F(1) = P(0) + P(1) F(2) = P(0) + P(1) + P(2) F(3) = P(0) + P(1) + P(3) E assim sucessivamente. Para o caso de uma variável contínua, porém, devemos somar todos os valores possíveis, o que é feito pela integral. Desta forma, temos: F(x) = ∫ ∞− x tt)df( Portanto, do ponto de vista matemático, f(x) é a derivada da função F(x): f(x) = x x d )dF( Exemplo 4.2.1 Dada a f.d.p. de uma distribuição exponencial abaixo, determine a função de distribuição correspondente: e-x , x ≥ 0 f(x) = 0 , x < 0 Como a função só e definida para x ≥ 0, o limite de integração inferior será zero. F(x) = ∫ x tt 0 )df( F(x) = ∫ x te 0 t- d F(x) = [ ]xe 0-t− F(x) = – e-x + e0 F(x) = 1 – e-x 76 A função de distribuição será dada então, por: 1 – e-x , x ≥ 0 F(x) = 0 , x < 0 Exemplo 4.2.2 Dada a função de distribuição abaixo, determine a função densidade de probabilidade correspondente. 0,5(x3 + 1) , -1 ≤ x ≤ 1 F(x) = 0 , x < -1 1 , x > 1 A função densidade de probabilidade será dada por: f(x) = x x d )dF( f(x) = x x d )1d(0,5 3 + f(x) = 3×0,5x2 + 0 f(x) = 1,5x2 Portanto, a f.d.p. será: 1,5x2 , -1 ≤ x ≤ 1 f(x) = 0 , x < -1 ou x > 1 A função de distribuição F(x), assim como a função densidade, deve preencher alguns “requisitos”: o primeiro é que, em se tratando de uma soma de probabilidades, jamais pode ser negativa. E, como a soma das probabilidades tem que ser 1, F(x) não pode ser nuncamaior do que 1 e, além disso, o seu valor “final” tem que ser, necessariamente, 1. Portanto: 0 ≤ F(x) ≤ 1 limx→∞ F(x) = 1 É fácil verificar que, tanto no exemplo 4.2.1 como no 4.2.2 as funções F(x) apresentadas atendem a estas condições. 4.3 Esperança e variância de variáveis aleatórias contínuas Para uma v.a. discreta, a esperança é dada por: E(X) = X1P(X1) + X2P(X2) +...+ XnP(Xn) = ∑ = n 1i ii )P(XX 77 Para uma v.a. contínua, teríamos que somar continuamente todos os valores de x pelas suas respectivas probabilidades. Uma soma contínua e a integral e, por sua vez, a probabilidade é encontrada pela f.d.p. Então, temos que, no caso contínuo: E(x) = ∫ +∞ ∞− xxx d)(f A variância, por sua vez, é: var(X) = E[X – E(X)]2 Chamando, por simplicidade, E(X) (que é a média de X) de µ, temos que: var(X) = E(X – µ)2 Para o caso contínuo, bastaria substituir (x – µ)2 na expressão da esperança acima e teríamos: var(x) = ∫ +∞ ∞− − xxx d)(f)( 2µ Ou podemos utilizar a expressão de que a variância é a soma dos quadrados menos o quadrado da média: var(x) = E(x2) – [E(x)]2 Onde: E(x) = ∫ +∞ ∞− xxx d)(f e E(x2) = ∫ +∞ ∞− xxx d)(f2 Exemplo 4.3.1 Da f.d.p. do exemplo 3.3.4, determine: a) o valor médio de x Trata-se aqui de calcular a esperança de x: E(x) = ∫ +∞ ∞− xxx d)(f O que, para esta variável, equivale a: E(x) = ∫ 1 0 2d3 xxx E(x) = 3 ∫ 1 0 3dxx E(x) = 3 1 0 4 4      x 80 Para n = 5: Ou mesmo para n = 10: Suponha que aumentemos n indefinidamente, de tal forma que os retângulos do histograma se tornem cada vez mais “espremidos” ou os pontos de um gráfico comum se “colapsem” se tornando uma função contínua. Esta função teria a seguinte “aparência”: 81 Esta distribuição de probabilidade é conhecida como normal ou gaussiana33, cuja f.d.p. é dada por: f(x) = 22 1 πσ 2 2 2σ µ)(x e − − Onde µ é a média e σ é o desvio padrão. Se a variável x tem distribuição normal (isto é, é normalmente distribuída) costumamos simbolizar por: x ~ N(µ, σ) Que se lê: “x segue uma distribuição normal com média µ desvio padrão σ”. Note que definimos completamente uma distribuição normal com a média e o desvio padrão (ou a variância), já que não há nenhum outro parâmetro a ser especificado na função acima. A média determina a posição da curva em relação à origem, enquanto o desvio padrão determina se a curva será mais “gorda” (mais dispersa, maior desvio padrão) ou mais “magra” (mais concentrada, menor desvio padrão). O cálculo das probabilidades sob uma distribuição normal pode se tornar um tanto quanto trabalhoso, já que não há uma função cuja derivada é e-x2. Este cálculo deve ser feito por métodos numéricos. Uma particular distribuição Normal, conhecida por Normal padronizada, que tem média 0 e desvio padrão igual a 1, tem seus resultados das integrais tabeladas. Esta tabela34 encontramos ao fim do livro. Chamando de z a variável normal padronizada, encontramos na tabela a probabilidade de z estar entre 0 e o valor especificado35. Por exemplo, se quisermos encontrar a probabilidade de z estar entre 0 e 1,23, encontramos diretamente a probabilidade na tabela, como mostra o gráfico: 33 Devido ao matemático alemão Carl Friedrich Gauss (1777-1855). 34 A utilidade desta tabela é limitada hoje em dia, tendo em vista que há vários softwares de computador que se utilizam destes métodos numéricos e calculam rapidamente as integrais sob a curva normal (a própria tabela no final do livro foi calculada assim). A tabela hoje serve para fins didáticos e para utilização em exames. 35 Nas linhas da tabela encontramos o valor de z até a primeira casa decimal, enquanto os valores da segunda casa decimal se encontram nas colunas. 82 P(0 < z < 1,23) ≅ 0,3907 = 39,07% Para um valor de z que esteja entre 0,27 e 1,43, temos: Os valores encontrados na tabela para z = 0,27 e z = 1,43 são as integrais de 0 até cada um deles. A área que vai de 0,27 a 1,43 é a diferença entre estes dois valores: P(0,27 < z < 1,43) = P(0 < z < 1,43) – P(0 < z < 0,27) P(0,27 < z < 1,43) ≅ 0,4236 – 0,1064 = 0,3172 = 31,72% Para valores negativos (como a média é zero, vale dizer para valores abaixo da média), há que se notar que a Normal é simétrica, portanto o que vale para os valores de z positivos vale também para os negativos. Suponha então que queiramos calcular a probabilidade de z estar entre – 1,38 e 0,97. Neste caso, claramente somamos as duas áreas: P(-1,38 < z < 0,97) = P(-1,38 < z < 0) + P(0 < z < 0,97) P(-1,38 < z < 0,97) = P(0 < z < 1,38) + P(0 < z < 0,97) P(-1,38 < z < 0,97) ≅ 0,4162 + 0,3340 = 0,7502 = 75,02% E se quisermos calcular a probabilidade de z ser maior do que 2,22: 85 ∫ +∞ ∞− yy d)(g =1 Isto é, a função, integrada em relação a y (e não a x) deve ser igual a 1. Mas, diferenciando a equação (4.5.1) temos: dx = a 1 dy Substituindo: ∫ +∞ ∞− − y aa by d1)(f =1 Portanto, a função: g(y) = a 1 f( a by − ) Têm as características de uma f.d.p. e é, portanto, a f.d.p. da variável y. Este resultado é um caso particular de um teorema mais geral que é enunciado abaixo: Teorema 4.5.1 Dada uma v.a. x com f.d.p. dada por f(x), e sendo y = u(x), existindo uma função inversa x = v(y) e v’(y) a sua derivada, a função densidade de probabilidade de y será dada por: g(y) = |v’(y)|f(v(y)) Nos pontos em que v(y) existir e u’(x) ≠ 0, e 0 em caso contrário. A presença do módulo é necessária para garantir a não negatividade da função densidade de probabilidade de y. A aplicação direta do teorema no exemplo anterior nos levaria a: u(x) = ax + b v(y) = a by − v’(y) = a 1 g(y) = |v’(y)|f(v(y)) g(y) = a 1 f( a by − ) E, como a é positivo: g(y) = a 1 f( a by − ) 86 Exemplo 4.5.2 Dada a v.a. x cuja f.d.p. é: e-x , x ≥ 0 f(x) = 0 , x < 0 Supondo y = x2, determine a f.d.p. de y. Temos que u(x) = x2, portanto v(y) = y , desde que, é claro, y seja positivo, e: v'(y) = y2 1 Aplicando o Teorema 4.5.1, vem: g(y) = y2 1 ye− E, como y tem que ser positivo, assim como y , a f.d.p. de y será dada por: y2 1 ye− , y ≥ 0 g(y) = 0 , y < 0 4.6 Teorema de Tchebichev36 Se conhecemos a função densidade de uma variável, é possível conhecer sua média e variância. A recíproca não é verdadeira, mas é possível se estabelecer um limite para uma distribuição de probabilidade qualquer (seja discreta ou contínua), limite este que é dado pelo Teorema de Tchebichev Teorema 4.6.1 (Teorema de Tchebichev) Dada uma v.a. x com média µ e desvio padrão σ. A probabilidade desta variável estar, acima ou abaixo da média, no máximo, k desvios padrão (k é uma constante positiva) é, no mínimo, igual a 1 – 2k 1 . Ou: P(|x – µ| < kσ) ≥ 1 – 2k 1 Conseqüentemente, a probabilidade de ultrapassar este valor será, no máximo, 2k 1 , isto é: P(|x – µ| ≥ kσ) ≤ 2k 1 36 Devido ao matemático russo Pafnuti Lvovitch Tchebichev (1821-1894). 87 O que vale dizer que a probabilidade de uma variável aleatória qualquer, estar entre dois desvios padrão acima ou abaixo é de, no mínimo37, 1 – 4 1 = 4 3 = 75%. Exemplo 4.6.1 Uma v.a. contínua x tem média 50 e desvio padrão 10. Calcule a probabilidade mínima de que x esteja entre 35 e 65. Pede-se portanto: P(35 < x < 50) = ? O que é a probabilidade de x estar 1,5 desvios padrão acima ou abaixo da média, ou seja: P(35 < x < 50) = P(|x – µ| < 1,5σ) Pelo Teorema de Tchebichev: P(35 < x < 50) ≥ 1 – 21,5 1 P(35 < x < 50) ≥ 0,5556 = 55,56% Exercícios 1. É possível encontrar um valor de A para que a função f(x) representada no gráfico abaixo seja uma f.d.p.? Justifique 2. Determine os valores de A para que as funções abaixo sejam f.d.p.(funções densidade de probabilidade): a)  0, x<2 ou x>8 f(x) =   A, 2 ≤ x ≤ 8 b)  0, x<0 ou x>4 f(x) =   Ax , 0 ≤ x ≤ 4 c)  0, x<1 ou x>3 37 Note que, para a distribuição Normal, esta probabilidade é de cerca de 95%. 90 13. Se y = x 1 e x é uma v.a. contínua cuja f.d.p. é dada por: 3x2 , 0 ≤ x ≤ 1 f(x) = 0 , x < 0 ou x > 1 Determine a f.d.p. de y. 14. Determine a média e a variância de uma variável aleatória x cuja f.d.p. é dada por: αe-αx , x ≥ 0 f(x) = 0 , x < 0 15. Dada uma variável aleatória contínua x cuja média é 20 e a variância é 25. Determine limites para as probabilidades abaixo: a) P (10 < x < 30) b) P (14 < x < 26) c) P (x < 12,5 ou x > 27,5) 16. Mostre que, para uma v.a. com média µ e variância σ2, é válida a expressão: P(|x – µ| < k) ≥ 1 – 2 2 k σ 91 Apêndice 4.A - Cálculo diferencial e integral 4.A.1 Derivadas Derivada é a variação instantânea. Se você percorre, com seu carro, 100 km em 1h, sua velocidade média é 100 km/h. É pouco provável, entretanto, que durante todo este percurso a velocidade tenha sido constante. A velocidade que marca o velocímetro (ou o radar) é a velocidade do carro naquele instante. A definição formal é a seguinte: x y d d = lim∆x→0 x y ∆ ∆ Onde x y ∆ ∆ é a taxa de variação média (a velocidade média, por exemplo). Se tomamos uma variação de x muito pequena, então a taxa de variação média tende a coincidir com a taxa de variação instantânea (a derivada). Os termos dy e dx (diferenciais de y e x) indicam que se trata de uma variação (diferença) infinitamente pequena destas variáveis, em contraste com os símbolos ∆y e ∆x, que representam a diferença (variação) finita. Se usamos a notação y = f(x), a derivada também pode ser escrita como f’(x). 4.A.1.1 Regras de derivação A partir da definição acima é possível calcular a derivada de qualquer função, se ela existir. Entretanto, normalmente se usam algumas regras gerais, que são mostradas na tabela abaixo: f(x) f'(x) a (constante) 0 x 1 x2 2x xn nxn-1 ex ex ln x 1/x sen x cos x cos x –sen x ag(x) ag'(x) g(x) + h(x) g'(x) + h’(x) g(x).h(x) g'(x).h(x) + g(x).h’(x) g(x)/h(x) [g’(x).h(x) – g(x).h’(x)]/[h(x)]2 g(h(x)) h’(x).g’(h(x)) 4.A.2 Integral A integral de uma função é o limite de uma soma 92 ∫ b a )(f dxx = limn→∞∑ = n 1i f(xi)∆xi Daí a sua utilidade em cálculos de áreas, por exemplo. É como se aproximássemos a curva em questão através de um conjunto de retângulos e calculássemos o a área destes retângulos. Quanto maior o número de retângulos, e portanto menor o seu tamanho, mais próximo estaremos da área correta da figura. Demonstra-se, através do Teorema do Valor Médio, que: ∫ b a )(f dxx = F(b) – F(a) Onde F(x) é chamada de primitiva de f(x), isto é, é a função cuja derivada é f(x), ou seja: F’(x) = f(x) Na tabela abaixo apresentamos algumas primitivas: f(x) F(x) a ax x x2/2 xn (n ≠ -1) xn+1/(n+1) 1/x ln x ex ex e-x –e-x xe-x –xe-x–e-x x2e-x –e-x(x2 + 2x + 2) 4.A.3 Máximos e mínimos Podemos encontrar os máximos e mínimos da função resolvendo a seguinte equação: f’(x) = 0 Isto é, derivando e igualando a zero. Para saber se é ponto de máximo, substituímos o(s) valor(es) encontrado(s) acima, que chamaremos de x0 na derivada segunda (condição de 2a ordem), onde valem as seguintes regras: f’’(x0) > 0 ⇒ ponto de mínimo f’’(x0) < 0 ⇒ ponto de máximo f’’(x0) = 0 ⇒ ponto de inflexão 95 Se x é uma variável cuja distribuição é normal com média µ e desvio padrão σ, e seja y definida como y = ex (ou seja, x = ln y) , dizemos que y segue uma distribuição conhecida como log- Normal. Aplicando o Teorema 3.6.1, temos que: u(x) = ex v(y) = ln y v’(y) = y 1 A f.d.p. de uma variável normal é: f(x) = 22 1 πσ 2 2 2σ µ)(x e − − A f.d.p. da variável log-Normal (y) será então: g(y) = 22 1 πσy 2 2 2 ln σ µ)y( e − − Cuja média é 2 2σ µ+ e e a variância é e2µ( e2σ2 – eσ2). 4.B.4 Momentos de uma distribuição Definimos o momento de uma distribuição (de uma variável aleatória x) de ordem k, em relação à média38 (Mk) como: Mk = E(x − µ)k É imediato que o primeiro momento em relação à média é sempre zero: M1 = E(x − µ) = E(x) − µ = µ − µ = 0 E o segundo momento é a variância: M2 = E(x − µ)2 = σ2 O terceiro momento, definido por: M3 = E(x − µ)3 Tem a ver com o grau de simetria da distribuição. Uma distribuição simétrica (como a Normal) tem o terceiro momento em relação à média igual a zero. Define-se, inclusive, um coeficiente de assimetria por: α3 = 3 3M σ 38 Também podemos definir o momento em relação à origem, M’k = E(xk). 96 Que é tão maior (em módulo) quanto mais assimétrica for a distribuição. O quarto momento: M4 = E(x − µ)4 Tem a ver com a curtose, que é o grau de “achatamento” de uma distribuição. Se uma distribuição é muito achatada, ela é dita platicúrtica, se é mais para pontiaguda, é chamada leptocúrtica. A referência para esta definição é a distribuição Normal, que é dita mesocúrtica. Define-se o coeficiente de curtose como: α4 = 4 4M σ Cujo valor, para a Normal, é 3. Se for maior do que 3, a distribuição é leptocúrtica, caso contrário, platicúrtica. 97
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved