Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

estatistica descritiva, Notas de estudo de Engenharia Informática

estatistica descritiva

Tipologia: Notas de estudo

Antes de 2010
Em oferta
30 Pontos
Discount

Oferta por tempo limitado


Compartilhado em 12/09/2009

anderson-silva-70
anderson-silva-70 🇧🇷

1 documento

Pré-visualização parcial do texto

Baixe estatistica descritiva e outras Notas de estudo em PDF para Engenharia Informática, somente na Docsity! Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 1 Estatística Descritiva 1 INTRODUÇÃO A Estatística é uma ciência cujo campo de aplicação estende-se a muitas áreas do conhecimento humano. Entretanto, um equívoco comum que deparamos nos dias atuais é que, em função da facilidade que o advento dos computadores nos proporciona, permitindo desenvolver cálculos avançados e aplicações de processos sofisticados com razoável eficiência e rapidez, muitos pesquisadores consideram-se aptos a fazerem análises e inferências estatísticas sem um conhecimento mais aprofundado dos conceitos e teorias. Tal prática, em geral, culmina em interpretações equivocadas e muitas vezes errôneas... Em sua essência, a Estatística é a ciência que apresenta processos próprios para coletar, apresentar e interpretar adequadamente conjuntos de dados, sejam eles numéricos ou não. Pode- se dizer que seu objetivo é o de apresentar informações sobre dados em análise para que se tenha maior compreensão dos fatos que os mesmos representam. A Estatística subdivide-se em três áreas: descritiva, probabilística e inferencial. A estatística descritiva, como o próprio nome já diz, se preocupa em descrever os dados. A estatística inferencial, fundamentada na teoria das probabilidades, se preocupa com a análise destes dados e sua interpretação. A palavra estatística tem mais de um sentido. No singular se refere à teoria estatística e ao método pelo qual os dados são analisados enquanto que, no plural, se refere às estatísticas descritivas que são medidas obtidas de dados selecionados. A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores, organiza e descreve os dados de três maneiras: por meio de tabelas, de gráficos e de medidas descritivas. A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais rápida e viva do fenômeno em estudo. Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou em comparação com outras, é necessário expressar tais tendências através de números ou estatísticas. Estes números ou estatísticas são divididos em duas categorias: medidas de posição e medidas de dispersão. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 2 Para se obter bons resultados numa análise estatística, além dos métodos aplicados, também é necessário ter clareza nos conceitos utilizados. A seguir são apresentados alguns desses conceitos. 1.1 CONCEITOS FUNDAMENTAIS E DEFINIÇÕES A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população ou de uma amostra, definida como: População: conjunto de elementos que tem pelo menos uma característica em comum. Esta característica deve delimitar corretamente quais são os elementos da população que podem ser animados ou inanimados. Amostra: subconjunto de elementos de uma população. Este subconjunto deve ter dimensão menor que o da população e seus elementos devem ser representativos da população. A seleção dos elementos que irão compor a amostra pode ser feita de várias maneiras e irá depender do conhecimento que se tem da população e da quantidade de recursos disponíveis. A estatística inferencial é a área que trata e apresenta a metodologia de amostragem. Em se tratando de conjuntos-subconjuntos, estes podem ser: Finitos: possuem um número limitado de elementos. Infinitos: possuem um número ilimitado de elementos. Segundo Medronho (2003), elemento significa cada uma das unidades observadas no estudo. Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi- los, observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de variável. Variável: é a característica que vai ser observada, medida ou contada nos elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os tipos de variáveis: Variável qualitativa: é uma variável que assume como possíveis valores, atributos ou qualidades. Também são denominadas variáveis categóricas. Variável quantitativa: é uma variável que assume como possíveis valores, números. Cada uma dessas variáveis pode ser sub-classificada em: Variável qualitativa nominal: é uma variável que assume como possíveis valores, Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 5 los na forma em que foram coletados (dados brutos) como na Tabela 01. Em geral, a 1ª coluna da tabela deve conter a identificação do respondente. Tabela 01 - Informações sobre sexo, idade (anos), altura (metro e centímetro), peso (kg), estado civil, número de irmãos, transporte, procedência, relação do trabalho com o curso de Estatística, meio de informação e número de disciplinas reprovadas dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM - 21/03/2005. Nº Sexo Id Altura Peso Est.Civil Nºir. Transp. Procedência Trabalho Inform Disc. 1 F 20 1,60 58 Solteiro 1 Próprio Maringá Não Rel. TV 2 2 F 26 1,65 59 Solteiro 2 Coletivo Fora do Pr Não trab. Revista 0 3 F 18 1,64 55 Solteiro 2 Próprio Maringá Não trab. TV 0 4 F 25 1,73 60 Solteiro 2 Coletivo Outro no Pr Não Rel. TV 2 5 M 35 1,76 83 Casado 6 Coletivo Outro no Pr Não Rel. TV 2 6 F 20 1,62 58 Solteiro 2 Coletivo Outro no Pr Não Rel. Rádio 5 7 F 29 1,72 70 Solteiro 3 Coletivo Maringá Não trab. TV 0 8 M 23 1,71 62 Separado 2 Próprio Outro no Pr Não Rel. Internet 2 9 F 20 1,63 63 Solteiro 2 Próprio Maringá Não trab. TV 1 10 M 20 1,79 75 Solteiro 2 Próprio Fora do Pr Não trab. Internet 2 11 M 20 1,82 66 Solteiro 1 Próprio Fora do Pr Não trab. TV 2 12 F 30 1,68 46 Solteiro 3 Próprio Outro no Pr Parc.Rel. TV 4 13 F 18 1,69 64 Solteiro 1 Próprio Maringá Parc.Rel. TV 0 14 M 37 1,82 80 Casado 2 Próprio Maringá Não Rel. TV 3 15 M 25 1,83 62 Solteiro 1 Próprio Outro no Pr Não Rel. TV 2 16 F 20 1,63 68 Solteiro 2 Coletivo Maringá Não trab. TV 2 17 M 21 1,71 80 Solteiro 2 Coletivo Maringá Não Rel. Internet 0 18 M 25 1,80 82 Casado 1 Próprio Outro no Pr Não Rel. Internet 3 19 F 24 1,62 55 Solteiro 2 Próprio Maringá Não trab. Jornal 2 20 M 19 1,74 58 Solteiro 2 Próprio Maringá Com.Rel. TV 3 21 F 21 1,55 65 Solteiro 1 Próprio Maringá Não trab. TV 1 22 M 22 1,73 62 Solteiro 0 Próprio Maringá Não trab. Jornal 4 Fonte: Departamento de Estatística (DES)/UEM. De acordo com Magalhães (2000), pode-se observar que a Tabela 01, tabela de dados brutos, contém muita informação, porém pode não ser muito rápido e prático obter estas informações. Por exemplo, não é imediato afirmar que existem mais homens que mulheres. Neste sentido, pode-se construir outra tabela para cada uma das variáveis que resumirá as informações ali contidas. Segundo o mesmo autor, observa-se também que, ao usar programas computacionais e para facilitar/agilizar a digitação do banco de dados, às variáveis qualitativas associam-se valores numéricos e nem por isso a variável deixa de ser qualitativa. Cabe ao bom senso lembrar da natureza da variável. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 6 Embora um certo volume de informação seja perdido quando os dados são resumidos, um grande volume pode também ser ganho. “Uma tabela talvez seja o meio mais simples de se resumir um conjunto de observações” (Pagano, 2004, p.10). “Deve ser usada quando é importante a apresentação dos valores” (Medronho, 2003, p.227), e sua leitura depende de quem a lê. Todas as variáveis podem ser resumidas através de uma tabela, mas a construção é diferenciada dependendo do tipo de variável. Denomina-se Tabela Simples à tabela que resume os dados de uma única variável qualitativa e Distribuição de Freqüências ao resumo de uma única variável quantitativa. 2.1 ELEMENTOS DA TABELA Toda tabela deve ser simples, clara, objetiva e auto-explicativa. Segundo Milone (2004, p.25), os elementos fundamentais da tabela são: título, cabeçalho, coluna indicadora e corpo. O título aponta o fenômeno, época e local de ocorrência; o cabeçalho explica o conteúdo das colunas; a coluna indicadora detalha as linhas; o corpo mostra os dados. Complementarmente, tem-se: fonte, notas e chamadas. A fonte cita o informante (caracterizando a confiabilidade dos dados); as notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação; as chamadas clarificam pontos específicos da tabela. A disposição de uma tabela pode ser generalizada como mostra a Figura 01 a seguir. Tabela rs – Título respondendo as perguntas: o quê, onde e quando? Coluna indicadora Cabeçalho Conteúdo da linha Célula C ol un a Fonte: Origem dos dados. Nota: Informação esclarecedora. tabelada Corpo Figura 01 – Representação tabular dos dados. Destaca-se que as tabelas devem ser numeradas em ordem crescente ou em que aparecem no texto, como é o caso de trabalhos científicos; as bordas superiores e inferior devem ser fechadas com traços horizontais enquanto às da esquerda e direita não, podendo ou não ser fechadas por traços verticais a separação das colunas no corpo da tabela. É conveniente também Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 7 que o número de casas decimais seja padronizado. 2.2 TABELA SIMPLES Uma tabela simples contém as diferentes categorias observadas de uma variável qualitativa e suas respectivas contagens, denominadas freqüências absolutas. A contagem refere- se ao número de ocorrências de cada categoria e é realizada utilizando-se, por exemplo, a Tabela 01 ou o banco de dados. Quanto à classificação, uma tabela simples pode ser temporal quando as observações são feitas levando-se em consideração o tempo; geográfica quando os dados referem-se ao local de ocorrência; específica (ou categórica) quando tempo e local são fixos; e comparativa quando a tabela resume informações de duas ou mais variáveis. A tabela comparativa é também denominada tabela cruzada ou de dupla ou mais entradas. Os nomes da coluna indicadora e cabeçalho podem ser escritos iniciando-se com letras maiúsculas. Também é prática comum justificar à esquerda as diferentes categorias da variável qualitativa que se apresentam no conteúdo das linhas, iniciando-se com letras maiúsculas e podem ser dispostas na ordem em que aparecem nos questionários, ordem alfabética ou ordem decrescente de freqüência absoluta. Exemplo 05: Tabela histórica. Tabela 02 – Número de alunos matriculados na disciplina Probabilidade I do curso de Estatística da Universidade Estadual de Maringá. Ano Nº de Alunos 2000 40 2001 59 2002 63 2003 69 2004 71 Fonte: DES/UEM. Nota: Os números de 2003 e 2004 correspondem a duas turmas. Exemplo 06. Tabela geográfica, específica e comparativa construída a partir da Tabela 01. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 10 É a diferença entre o menor e maior valor observado da variável X, denominada amplitude total (AT = xmax – xmin), que definirá a construção de uma distribuição de freqüência pontual ou em classes. O ideal é que uma distribuição de freqüência resuma os dados em um número de linhas que varie de 5 a 10. 2.3.1 Distribuição de freqüência pontual – sem perda de informação A construção de uma distribuição de freqüência pontual é equivalente à construção de uma tabela simples, onde se listam os diferentes valores observados da variável, com suas freqüências absolutas, denotadas por Fi, onde o índice i corresponde ao número de linhas da tabela, como é mostrado na Tabela 7. Tabela 07 – Número de irmãos dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá, 21/03/2005. Número de irmãos Contagem Freqüência (Fi) 0 | 1 1 |||||| 6 2 |||||||||||| 12 3 || 2 6 | 1 Total 22 Fonte: Tabela 01. Observa-se que esta variável foi resumida em 5 linhas. Assim, i = 1,...,5, e, portanto, tem- se 5 valores para as freqüências absolutas. A freqüência absoluta da segunda linha, F2 = 6, por exemplo, indica que seis alunos têm um irmão, enquanto apenas um afirmou ter seis irmãos. A soma de todas as freqüências absolutas deve ser igual ao número total de observações da variável, neste caso, 22. A segunda coluna desta tabela é uma coluna opcional em distribuições de freqüências. Ainda, como colunas complementares em uma distribuição de freqüências e considerando i, a ordem da linha na tabela, tem-se: • a freqüência relativa, denotada por fi, e já definida anteriormente como: Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 11 i i Ff n = onde n é o tamanho da amostra, devendo ser substituída por N se os dados forem populacionais. A soma das freqüências relativas de todas as categorias é igual a 1; • a freqüência relativa em percentual, denotada por fi%, e definida como: i i Ff % 100 n = ⋅ , representando o percentual de observações que pertencem àquela categoria. A soma das freqüências deve, agora, ser igual a 100%; • a freqüência absoluta acumulada, denotada por iaF . Estas freqüências são obtidas somando-se a freqüência absoluta do valor considerado, às freqüências absolutas anteriores a este mesmo valor. • a freqüência acumulada relativa, denotada por iaf % e definida como: i i a a F f % 100 n = Uma tabela contendo todas estas freqüências é dita uma distribuição de freqüências completa. Desta forma, a Tabela 8 pode ser apresentada como: Tabela 08 – Número de irmãos dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá, 21/03/2005. Número de irmãos (xi) iF %fi iaF %f ia 0 1 4,55 1 4,55 1 6 27,26 7 31,81 2 12 54,55 19 86,36 3 2 9,09 21 95,45 6 1 4,55 22 100,00 Total 22 100,00 Fonte: Tabela 01. Segundo Milone (2004), em se tratando das freqüências relativas em percentuais, arredondamentos se fazem necessários e devem ser feitos de maneira convencional. Neste tipo de aproximação opta-se sempre pelo menor erro. Por exemplo, se for necessário aproximar o número 0,483 para a ordem do centésimo, erra-se menos subtraindo 0,003 que adicionando 0,007 ao valor 0,483, portanto a aproximação correta é 0,48. Se a aproximação for do número 0,4853 Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 12 para a ordem do centésimo, então o erro menor será para a adição de 0,0047 e não para a subtração de 0,0053, e a aproximação adequada é 0,49. Já no caso do número 0,485, o tamanho do erro de aproximação é o mesmo que se obtém quando feita para mais ou para menos (0,005), e neste caso, cabe ao pesquisador decidir qual aproximação é mais conveniente. A soma de todas as freqüências relativas percentuais deve ser igual a 100. Entretanto, quando são feitas aproximações, tal fato pode não ocorrer. Para o caso em que for menor que 100, soma-se uma unidade ao dígito de interesse das maiores freqüências relativas até que a soma seja 100. Se for maior que 100, deve-se subtrair uma unidade das maiores freqüências relativas. Agora, se ocorrem empates ou se as maiores freqüências forem números inteiros, é conveniente trabalhar com as outras freqüências. O importante é que a distribuição dos dados não seja alterada. 2.3.2 Distribuição de freqüência em classes – com perda de informação “A distribuição de freqüências em classes é apropriada para apresentar dados quantitativos contínuos ou discretos com um número elevado de possíveis valores” (Medronho, 2003, p231). É necessário dividir os dados em intervalos ou faixas de valores que são denominadas classes. Uma classe é uma linha da distribuição de freqüências. O menor valor da classe é denominado limite inferior (li) e o maior valor da classe é denominado limite superior (Li). O intervalo ou classe pode ser representado das seguintes maneiras: a) li |____ Li, onde o limite inferior da classe é incluído na contagem da freqüência absoluta mas o superior não; b) li ____| Li, onde o limite superior da classe é incluído na contagem mas o inferior não; c) li |____| Li, onde tanto o limite inferior quanto o superior são incluídos na contagem; d) li ____ Li, onde os limites não fazem parte da contagem. Pode-se escolher qualquer uma destas opções sendo o importante tornar claro no texto ou na tabela qual está sendo usada. “Se houver muitos intervalos, o resumo não constituirá grande melhoria com relação aos dados brutos. Se houver muito poucos, um grande volume de informação se perderá. Embora não seja necessário, os intervalos são freqüentemente construídos de modo que todos tenham larguras iguais, o que facilita as comparações entre as classes”. (Pagano, 2004, p.11). Milone (2004, p.36) apresenta os seguintes critérios para a determinação do número de intervalos, denotado por k: Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 15 Tabela 10 – Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá, 21/03/2005. Idade ix iF %fi iaF %f ia 18 |---22 20 11 50,00 11 50,00 22 |---26 24 6 27,27 17 77,27 26 |---30 28 2 9,09 19 86,36 30 |---34 32 1 4,55 20 90,91 34 |---38 36 2 9,09 22 100,00 Total - 22 100,00 - - Fonte: Tabela 01. Nota-se que cada um dos valores observados deve pertencer a uma e somente uma classe. É usual que o limite inferior da primeira classe seja igual ao menor valor observado e que o maior valor pertença à última classe. Quando o limite superior da última classe coincidir com o maior valor observado é mais apropriado fechar este intervalo, contando o elemento nesta classe, do que abrir uma nova classe contendo apenas uma freqüência absoluta. Por outro lado, se o maior valor observado for inferior ao limite superior da classe, não há problemas, pois fixamos todas as classes com a mesma amplitude. Nada impede que se construa uma tabela com amplitude de classes desiguais. Isto dependerá do objetivo do pesquisador. O que se recomenda é o cuidado na interpretação da tabela. O primeiro passo é calcular as amplitudes das classes (∆i) e apresentá-las numa coluna. Em seguida, calculam-se as densidades de freqüências de cada classe, dividindo-se Fi por ∆i, para conhecer a concentração por unidade da variável. Pode-se, também, calcular as densidades das proporções para se conhecer o percentual de concentração em cada classe (fi / ∆i). Exemplo 08. Considere os dados do exemplo 07. A distribuição de freqüências com intervalos de classes desiguais é apresentada na Tabela 11. Tabela 11 – Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá, 21/03/2005. Idade Frequência iF Amplitude i∆ Densidade ii /F ∆ Proporção if Densidade ii /f ∆ 18 |---20 3 2 1,50 0,14 0,07 20 |---22 9 2 4,50 0,40 0,20 22 |---24 2 2 1,00 0,09 0,05 24 |---28 5 4 1,25 0,23 0,06 28 |---38 3 10 0,30 0,14 0,01 Total 22 - - 1,00 - Fonte: Tabela 01. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 16 Uma outra forma de construir uma distribuição de freqüências com amplitudes de classes desiguais é a que se apresenta na Tabela 12, onde a última classe não apresenta limite superior especificado. Isto poderia, também, ocorrer na primeira classe, mas agora com o limite inferior não especificado. Tabela 12 – Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá. Idade iF %fi iaF %f ia 18 |---20 3 14 3 14 20 |---22 8 36 11 50 22 |---24 2 9 13 59 24 |---26 4 18 17 77 Acima de 26 5 23 22 100 Total 22 100 - - Fonte: Tabela 01. Com este tipo de distribuição dificuldades podem ocorrer na construção de gráficos e no cálculo da média, por exemplo. Exercício 02. Construa uma distribuição de freqüência completa para as variáveis da Tabela 01: a) número de disciplinas reprovadas no 1º ano do curso; b) peso. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 17 3 GRÁFICOS Gráfico é um recurso visual da Estatística utilizado para representar um fenômeno. Sua utilização em larga escala nos meios de comunicação social, técnica e científica, devem-se tanto à sua capacidade de refletir padrões gerais e particulares do conjunto de dados em observação, como à facilidade de interpretação e a eficiência com que resume informações dos mesmos. Embora os gráficos forneçam menor grau de detalhes que as tabelas, estes apresentam um ganho na compreensão global dos dados, permitindo que se aperceba imediatamente da sua forma geral sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do pesquisador. Uma representação gráfica coloca em evidência as tendências, as ocorrências ocasionais, os valores mínimos e máximos e também as ordens de grandezas dos fenômenos que estão sendo observados. Todo gráfico, em sua versão final deve primar pela simplicidade, clareza e veracidade nas informações. Para atingir tal objetivo, a construção de um gráfico exige muito trabalho e cuidados. Segundo Silva (apud WALLGREN, 1996), a escolha da representação gráfica e, conseqüentemente, a escolha do tipo de gráfico mais adequado para representar um conjunto de dados deve ser feita com base nas respostas de questões como: - Um gráfico realmente é a melhor opção? - Qual é o público-alvo? - Qual é o objetivo do gráfico? - Que tipo de gráfico deve ser usado? - Como o gráfico deve ser apresentado? - Que tamanho o gráfico deve ter? - Deverá ser usado apenas um gráfico? - A qual meio técnico se deve recorrer? Ao incluir um gráfico em um trabalho, sua identificação deve aparecer na parte inferior, precedido pela palavra Gráfico seguida de seu número de ordem de ocorrência no texto (algarismos arábicos), de seu respectivo título e/ou legenda explicativa de maneira breve e clara (dispensando a leitura do texto) e da fonte de onde se extraiu os dados. Uma regra básica para a elaboração adequada do título de qualquer gráfico, é verificar se o mesmo responde a três exigências: o quê, onde e quando. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 20 Ao se descrever simultaneamente duas ou mais categorias para uma variável, é conveniente fazer uso dos gráficos de barras ou colunas justapostas (ou sobrepostas), chamados de gráficos comparativos. De acordo com as normas contidas em Gráficos (UFPR, 2001), este tipo de gráfico só deve ser utilizado quando apresentar até três elementos para uma série de no máximo quatro valores. 0 1 2 3 4 5 6 7 8 9 Fora do PR Maringá Outro no PR Nº de alunos Coletivo Próprio Figura 04 - Município de procedência segundo o tipo de transporte utilizado pelos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. Fonte: Tabela 01. 3.1.3 Gráfico de setores Tipo de gráfico onde a variável em estudo é projetada num círculo, de raio arbitrário, dividido em setores com áreas proporcionais às freqüências das suas categorias. São indicados quando se deseja comparar cada valor da série com o total. Recomenda-se seu uso para o caso em que o número de categorias não é grande e não obedecem a alguma ordem específica. A Figura 05 mostra um gráfico de setores para a variável município de procedência que constam na Tabela 01. O procedimento para o cálculo do ângulo correspondente a cada categoria é feito por meio de simples proporções: 360º que corresponde a um círculo completo está para o total de alunos entrevistados, 22, assim como xº está para o total de alunos que pertencem à categoria desejada. Por exemplo, os 54% de alunos que residem no município de Maringá corresponderá a um ângulo x resultante da expressão 360º xº 22 12 = , cujo valor é aproximadamente 196º. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 21 Figura 05 - Município de procedência dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. Fonte: Tabela 01. 3.1.4 Gráfico de linhas Sua aplicação é mais indicada para representações de séries temporais sendo por tal razão, conhecidos também como gráficos de séries cronológicas. Sua construção é feita colocando-se no eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem crescente. Este tipo de gráfico permite representar séries longas, o que auxilia detectar suas flutuações tanto quanto analisar tendências. Também podem ser representadas várias séries em um mesmo gráfico. 0 10 20 30 40 50 60 70 80 1999 2000 2001 2002 2003 2004 Ano Nº d e al un os Figura 06 - Número de matrículas anuais na disciplina Probabilidade do curso de Estatística da UEM, 21/03/2005. Fonte: Tabela 01. Fora do Paraná 14% Outro no Paraná 32% Maringá 54% Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 22 Exercício 03: Considerando as informações sobre os alunos da disciplina de Inferência Estatística do curso de Estatística da Uem, contidas na Tabela 01, construa um gráfico adequado para representar as variáveis: a) sexo; b) estado civil; c) transporte; d) meios de informação segundo o sexo dos alunos. 3.2 GRÁFICOS PARA VARIÁVEIS QUANTITATIVAS DISCRETAS 3.2.1 Gráfico de bastões Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal (eixo da variável), cujo comprimento corresponde à freqüência absoluta ou relativa de cada elemento da distribuição. Suas coordenadas não podem ser unidas porque a leitura do gráfico deve tornar claro que não há continuidade entre os valores individuais assumidos pela variável em estudo. Nº de alunos 12 11 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 Nº irmãos Figura 07 – Número de irmãos dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. Fonte: Tabela 01. 3.2.2 Gráfico da freqüência acumulada A Figura 08 mostra o gráfico para freqüência acumulada de uma variável quantitativa discreta. Na abscissa são alocados os valores assumidos pela variável número de irmãos e no eixo das ordenadas suas freqüências acumuladas. Observa-se que a leitura do gráfico exige alguns Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 25 3.3.2 Polígono de freqüência É um gráfico de linha cuja construção é feita unindo-se os pontos de coordenadas de abscissas correspondentes aos pontos médios de cada classe e as ordenadas, às freqüências absolutas ou relativas dessas mesmas classes. O polígono de freqüência é um gráfico que deve ser fechado no eixo das abscissas. Então, para finalizar sua elaboração, deve-se acrescentar à distribuição, uma classe à esquerda e outra à direita, ambas com freqüências zero. Tal procedimento permite que a área sob a linha de freqüências seja igual à área do histograma. Uma das vantagens da aplicação de polígonos de freqüências é que, por serem gráficos de linhas, permitem a comparação entre dois ou mais conjuntos de dados por meio da superposição dos mesmos. 0 2 4 6 8 10 12 12 16 20 24 28 32 36 40 Idade Nº d e al un os Figura 10 - Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. Fonte: Tabela 01. 3.3.3 Gráfico da freqüência acumulada ou Ogiva É um gráfico que permite descrever dados quantitativos por meio da freqüência acumulada. A ogiva é um gráfico de linha que une os pontos cujas abscissas são os limites superiores das classes, e, ordenadas suas respectivas freqüências acumuladas. Convém observa-se que o ponto Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 26 inicial desse gráfico é o limite inferior do primeiro intervalo, com freqüência acumulada zero, pois não existe qualquer valor inferior a ele. Quando os dados contidos em cada classe são distribuídos uniformemente, pode-se estimar, a partir da ogiva, o número de elementos pertencentes a qualquer uma das classes que compõe a distribuição de freqüência dos dados e a quantidade ou porcentagem de elementos que estão abaixo de certo valor pertencente ao conjunto de dados. Pela Figura 11, nota-se que não existem alunos com idade inferior a 18 anos enquanto que abaixo de 34 anos existem vinte alunos. 0 5 10 15 20 25 18 22 26 30 34 38 42 Idade Nº de alunos Figura 11 - Idade acumulada dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, 21/03/2005. Fonte: Tabela 01. Exercício 04: Considerando as informações sobre os alunos da disciplina de Inferência Estatística do curso de Estatística da UEM, contidas na Tabela 01, construa os gráficos adequados para as variáveis: a) peso; b) altura; c) número de reprovas no 1º ano de curso. 3.3.4 Ramo-e-Folhas O diagrama Ramo-e-Folhas, criado por John Tukey, é um procedimento utilizado para armazenar os dados sem perda de informação. É utilizado para se ter uma idéia visual da distribuição dos dados. Cada valor observado, xi, da variável X, deve consistir de no mínimo dois dígitos e a variável pode ser tanto quantitativa discreta como contínua. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 27 Para construí-lo, divide-se cada número em duas partes. A primeira é denominada ramo e a segunda, folhas. O ramo consistirá de um ou mais dígitos iniciais se o valor da variável for um número inteiro e do número inteiro, se o valor da variável for um número com decimais. Nas folhas, colocam-se os dígitos restantes se o valor observado for número inteiro, ou os decimais, caso contrário. A Figura 12 (a) apresenta o ramo-e-folhas correspondente a variável idade do aluno da Tabela 01. Observa-se que o ramo correspondente ao dígito 2 tem muitas folhas. Neste caso, a opção é dividir este ramo em dois: as folhas de 0 a 4 pertencerão a uma linha e as folhas de 5 a 9 pertencerão à outra linha. Os ramos são discriminados por um sinal no seu expoente, como na Figura 12 (b). Ramo Folha Freqüência 1 8 8 9 3 2 0 0 0 0 0 0 0 1 1 2 3 4 5 5 6 9 16 3 5 7 2 (a) Sem divisão de ramos. Ramo Folha Freqüência 1 8 8 9 3 2 0 0 0 0 0 0 0 1 1 2 3 4 12 2* 5 5 6 9 4 3 5 7 2 (b) Com divisão de ramos. Figura 12 - Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá, 21/03/2005. Fonte: Tabela 01. Exercício 05: Construir o ramo-e-folhas para a variável altura, da Tabela 01. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 30 decidir pela moda ou mediana. Para ilustrar, considere o número de filhos, por família, para um grupo de 8 famílias: 0, 1, 1, 2, 2, 2, 3, 4. Neste caso, a média é x 1,875= filhos por família. Entretanto, incluindo ao grupo uma nova família com 10 filhos, a média passa a ser x 2,788= , o que eleva em 48,16% o número médio de filhos por família. Assim, ao observar a média, pode-se pensar que a maior parte das famílias deste grupo tem três filhos quando, na verdade, apenas uma tem três filhos. Exemplo 09: Considerando a idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá, a idade média é n i i 1 x 20 26 18 21 22 518X 23,5 n 22 22 = + + + + += = = = ∑ anos Assim, a idade média dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá é 23,5 anos. No entanto, ao considerar os dados agrupados como na Tabela 10, a média é: 5 i i i 1 x F 20 11 24 6 36 2 524X 23,8 n 22 22 = ⋅ + ⋅ + + ⋅= = = = ∑ anos. Nota-se que esta diferença ocorre devido ao fato de se utilizar os dados sem o conhecimento de seus valores individuais. Neste caso, tornou-se necessário representá-los pelos pontos médios de suas respectivas classes resultando numa certa perda de informação. Exercício 06: Calcule a média aritmética para a variável altura dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM. a) utilizando os dados brutos; b) utilizando a distribuição de freqüência (dados agrupados). Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 31 4.1.2 Moda A moda (Mo) é o valor que apresenta a maior freqüência da variável entre os valores observados. Para o caso de valores individuais, a moda pode ser determinada imediatamente observando-se o rol ou a freqüência absoluta dos dados. Por outro lado, em se tratando de uma distribuição de freqüência de valores agrupados em classes, primeiramente é necessário identificar a classe modal, aquela que apresenta a maior freqüência, e a seguir a moda é calculada aplicando-se a fórmula: i i 1 o i i i 1 i i 1 h(F F )M l (F F ) (F F ) − − + − = + − + − onde i é a ordem da classe modal; li é o limite inferior da classe modal; h é a amplitude da classe modal; Fi é a freqüência absoluta da classe modal; i 1F − é a freqüência absoluta da classe anterior à classe modal; i 1F + é a freqüência absoluta da classe posterior à classe modal. É relevante salientar que um conjunto de dados pode apresentar todos seus elementos com a mesma freqüência absoluta, e neste caso não existirá um valor modal, o que significa que a distribuição será classificada como amodal. Pode ocorrer, também, casos em que a seqüência de observações apresente vários elementos com freqüência iguais, implicando numa distribuição plurimodal. O uso da moda é mais indicado quando se deseja obter, rapidamente, uma medida de tendência central. Um outro aspecto que favorece a utilização da moda é que seu valor não é afetado pelos valores extremos do conjunto de dados analisado. Exemplo 10: A moda da idade dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM, determinada pontualmente, é Mo= 20 anos. Isto significa que a idade mais freqüente entre estes alunos é de 20 anos. Ao considerar a distribuição apresentada na Tabela 10, a moda é ( ) ( ) ( ) i i 1 o i i i 1 i i 1 h F F 4 (11 0) 44M l 18 18 18 2,75 20,75 F F F F (11 0) (11 6) 16 − − + ⋅ − ⋅ − = + = + = + = + = − + − − + − anos. A interpretação é análoga à determinada pontualmente. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 32 Exercício 07: Calcule a moda para a variável altura dos alunos da disciplina Inferência Estatística do curso de Estatística da UEM. a) utilizando os dados brutos; b) utilizando a distribuição de freqüência (dados agrupados). Graficamente, utilizando-se um conjunto de dados hipotéticos, identifica-se a classe modal como aquela que apresenta o retângulo de maior altura (freqüência). A intersecção das retas que unem os pontos AD e os pontos BC, determina o ponto P que, projetado perpendicularmente no eixo da variável, corresponderá ao valor da moda Mo. 4.1.3 Mediana A mediana (Md) é o valor que ocupa a posição central da série de observações de uma variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores inferiores à mediana é igual à quantidade de valores superiores a mesma. Exemplo 11: Retomando o exemplo do número de filhos por famílias, verifica-se que: Para o caso de oito famílias, n=8, a mediana é determinada como a seguir: X x1 x2 x3 x4 x5 x6 x7 x8 Valor observado 0 1 1 2 4 5 x +x 2 2 2 3 4 4 observações Md=2 4 observações Quando se acrescenta ao grupo uma outra família com 10 filhos o tamanho da amostra passa 0 2 4 6 8 10 12 N º de a lu no s 18 22 30 3426 38 AnosB D CA Mo Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 35 4.2 MEDIDAS SEPARATRIZES Estas medidas são valores que ocupam posições no conjunto de dados, em rol, dividindo-o em partes iguais e podem ser: Quartil: Os quartis dividem o conjunto de dados em quatro partes iguais. Quadro 02: Descrição dos quartis (dados amostrais). Estatística Notação Interpretação Posição 1º quartil Q1 25% dos dados são valores menores ou iguais ao valor do primeiro quartil. p=0,25(n+1) 2º quartil Q2 =Md 50% dos dados são valores menores ou iguais ao valor do segundo quartil. p=0,50(n+1) 3º quartil Q3 75% dos dados são valores menores ou iguais ao valor do terceiro quartil. p=0,75(n+1) Decil: Os decis dividem o conjunto de dados em dez partes iguais. Quadro 03: Descrição dos decis (dados amostrais). Estatística Notação Interpretação Posição 1º decil D1 10% dos dados são valores menores ou iguais ao valor do primeiro decil. p=0,10(n+1) 2º decil D2 20% dos dados são valores menores ou iguais ao valor do segundo decil. p=0,20(n+1) 3º decil D3 30% dos dados são valores menores ou iguais ao valor do terceiro decil. p=0,30(n+1) 4º decil D4 40% dos dados são valores menores ou iguais ao valor do primeiro decil. p=0,40(n+1) 5º decil D5=Q2=Md 50% dos dados são valores menores ou iguais ao valor do segundo decil. p=0,50(n+1) 6º decil D6 60% dos dados são valores menores ou iguais ao valor do terceiro decil. p=0,60(n+1) 7º decil D7 70% dos dados são valores menores ou iguais ao valor do primeiro decil. p=0,70(n+1) 8º decil D8 80% dos dados são valores menores ou iguais ao valor do segundo decil. p=0,80(n+1) 9º decil D9 90% dos dados são valores menores ou iguais ao valor do terceiro decil. p=0,90(n+1) Percentil: Os percentis dividem o conjunto de dados em cem partes iguais. A seguir são apresentados alguns dos percentis mais usados: Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 36 Quadro 04: Descrição de alguns percentis (dados amostrais). Estatística Notação Interpretação Posição 5º Percentil P5 5% dos dados são valores menores ou iguais ao valor do primeiro percentil. p=0,05(n+1) 10º Percentil P10 10% dos dados são valores menores ou iguais ao valor do décimo percentil. p=0,10(n+1) 25º Percentil P25=Q1 25% dos dados são valores menores ou iguais ao valor do percentil cinquenta. p=0,25(n+1) 50º Percentil P50= D5 =Q2 = Md 50% dos dados são valores menores ou iguais ao valor do primeiro percentil. p=0,50(n+1) 75º Percentil P75=Q3 75% dos dados são valores menores ou iguais ao valor do primeiro percentil. (Q3) p=0,75(n+1) 90º Percentil P90 90% dos dados são valores menores ou iguais ao valor do percentil noventa. p=0,90(n+1) 95º Percentil P95 95% dos dados são valores menores ou iguais ao valor do percentil noventa e cinco. p=0,95(n+1) Para os dados em rol, o cálculo das medidas separatrizes é a mesma que a da mediana, a saber: p p 1 pk I p I IS x F (x x )+= + − onde Ip é a parte inteira de p e Fp a parte fracionária (ou decimal). Para os dados em distribuição de freqüências em classes, o cálculo das medidas separatrizes é a mesma que a da mediana, a saber: ( )a k i i i 1h p FS l F −−= + onde: np k 4 = , com k 1, 2,3= , para determinação dos quartis; k 10 np = , k 1,2, ,9= para o cálculo dos decis; e np k 100 = , k 1, 2, , 99= para os percentis; i é a ordem da classe que contém o menor valor de iaF , tal que iaF p≥ ; i 1aF − é a freqüência acumulada da classe anterior à da separatriz. Exemplo 14: Considerando o rol do exemplo 12, o terceiro quartil e o quadragésimo percentil são: Terceiro quartil: p 0,75(22 1) 17,25= + = e Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 37 3 3 17 18 17Q S x 0,25(x x ) 25 0,25 (26 25) 25,25= = + − = + ⋅ − = anos. Assim, pode-se afirmar que 75% dos alunos que cursam a disciplina Inferência Estatística do curso de Estatística da UEM têm idade inferior ou igual a 25,25 anos. Quadragésimo percentil: p 0,40(22 1) 9,2= + = e 40 40 9 10 9P S x 0,20(x x ) 20 0,20 (21 20) 20,2= = + − = + ⋅ − = anos. Logo, 40% dos alunos que cursam a disciplina Inferência Estatística do curso de Estatística da UEM têm idade inferior ou igual a 20,2 anos. Exemplo 15: Em continuação ao exemplo 14, da Tabela 10 tem-se: Primeiro quartil: ia n 22p k 1 5,5 F 5,5 i 1 4 4 = = = ⇒ ≥ ⇒ = ( )a 1 1 1 1 1h p F 4(5,5 0)Q l 18 20 F 11 −− −= + = + = anos, Terceiro quartil: ia n 22p k 3 16,5 F 16,5 i 2 4 4 = = = ⇒ ≥ ⇒ = ( )2 1a 3 2 2 h p F 4 (16,5 11)Q l 22 25,67 F 6 − − ⋅ − = + = + = anos Sétimo decil: ia n 22p k 7 15,4 F 17 i 2 10 10 = = = ⇒ ≥ ⇒ = 47,23 6 )114,15(222 F )Fp(h lD 2 a 27 1 = − += − += anos Nonagésimo percentil: ia n 22p k 90 19,8 F 19,8 i 4 100 100 = = = ⇒ ≥ ⇒ = ( )a 90 4 4 3h p F 4(19,8 19)P l 30 33, 2 F 1 − − = + = + = anos Conclui-se, que 25% dos alunos que cursam a disciplina Inferência Estatística do curso de Estatística da UEM têm idade inferior ou igual a 20 anos, 75% tem idade inferior a 25,67, 70% tem idade inferior a 22,8 e 90% tem idade inferior a 33,2 anos. 4.3 MEDIDAS DE DISPERSÃO De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas caracterizam- se por suas semelhanças e variabilidades. As medidas de dispersão auxiliam as medidas de Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 40 Enquanto não há nada conceitualmente errado em se considerar o desvio médio, segundo Pagano (2004), esta medida não tem certas propriedades importantes e não é muito utilizada. O mais comum é considerar o quadrado dos desvios em relação à média e então calcular a média. Obtém-se, assim a variância que é definida por: N )x( N 1i 2 i 2 ∑ = µ− =σ ou 1n )xx( S n 1i 2 i 2 − − = ∑ = , se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados segundo uma distribuição de freqüência, tem-se: N F)x( k 1i i 2 i 2 ∑ = µ− =σ ou 1n F)xx( s k 1i i 2 i 2 − − = ∑ = . Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades quadráticas, o que dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz quadrada da variância, definindo-se, assim, o desvio padrão: N )x( N 1i 2 i∑ = µ− =σ ou 1n )xx( S n 1i 2 i − − = ∑ = , se os dados são populacionais ou amostrais e, se estiverem em distribuição de freqüências: N F)x( k 1i i 2 i∑ = µ− =σ ou 1n F)xx( S k 1i i 2 i − − = ∑ = . É importante destacar que se duas populações apresentam a mesma média, mas os desvios padrão não são iguais, isto não significa que as populações têm o mesmo comportamento. Exemplo 19: Considere três alunos cujas notas em uma disciplina estão apresentadas na Tabela 13. Observa-se que as médias das notas dos três alunos são iguais, porém, seus desvios em torno da média são diferentes. Isto quer dizer que seus desempenhos são diferentes. O aluno A é constante em seu desempenho, o segundo vai progredindo aos poucos e o terceiro diminui abruptamente seu desempenho. Em outras palavras, apesar dos três alunos terem o mesmo desempenho médio, a variabilidade difere. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 41 Tabela 13. Notas, desvios e média dos alunos em uma disciplina. Aluno Notas Soma Média µ id=x -µ i|x -µ| 2 i(x -µ) 2 i(x )−µ∑ 8 0 0 0 8 0 0 0 8 0 0 0 8 0 0 0 A 8 40 8 0 0 0 Total 0 0 0 0 =0 6 -2 2 4 6 -2 2 4 8 0 0 0 10 2 2 4 B 10 40 8 2 2 4 Total 0 8 16 16 =4 10 2 2 4 10 2 2 4 10 2 2 4 5 -3 3 9 C 5 40 8 -3 3 9 Total 0 12 30 30 =5,48 Como demonstrado no exemplo, geralmente, o desvio padrão é maior ou igual ao desvio médio, e isto devido ao fato de que para o cálculo do desvio-padrão cada desvio em torno da média é elevado ao quadrado, aumentando desproporcionalmente o peso dos valores extremos. Exemplo 20: Retomando a idade dos alunos apresentada na Tabela 10, temos: Desvio médio: m 20 23,8 11 36 23,8 2 D 3,82 22 − + + − = = anos Variância: 2 2 2 (20 23,8) 11 (36 23,8) 2s 23,63 22 1 − + + − = = − anos Desvio padrão: s 23,63 4,86= = anos. 4.3.5 Coeficiente de Variação O coeficiente de variação é uma medida de dispersão relativa definida como a razão entre o desvio padrão e a média: CV 100σ= µ ou SCV 100 X = , se os dados são populacionais ou amostrais. Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 42 A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de dados e, conseqüentemente, se a média é uma boa medida para representar estes dados. É utilizado, também, para comparar conjuntos com unidades de medidas distintas. Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média está próxima de zero. Uma média muito próxima de zero pode inflacionar o CV. Um coeficiente de variação superior a 50% sugere alta dispersão o que indica heterogeneidade dos dados. Quanto maior for este valor, menos representativa será a média. Neste caso, opta-se pela mediana ou moda, não existindo uma regra prática para a escolha de uma destas medidas. O pesquisador, com sua experiência, é que deverá decidir por uma ou outra. Por outro lado, quanto mais próximo de zero, mais homogêneo é o conjunto de dados e mais representativa será sua média. Exemplo 21: Para idades apresentadas na Tabela 10, temos: 4,86CV 100 20,42% 23,8 = = . Como CV<50%, pode-se afirmar que a média é uma medida descritiva representativa para a variável idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá do ano de 2002. Exercício 09: Calcule as medidas de dispersão para a variável altura da Tabela 10. 4.3.6 Medidas de Assimetria A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir uma distribuição de freqüências e/ou um histograma, está-se buscando, também, identificar visualmente, a forma da distribuição dos dados que é ou não confirmada pelo coeficiente de assimetria de Pearson (As) definido como: o s MA µ −= σ ou os X MA S − = para dados populacionais e amostrais, respectivamente. Uma distribuição é classificada como: simétrica se média = mediana = moda ou As = 0; assimétrica negativa se média ≤ mediana ≤ moda ou As < 0. O lado mais longo do Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 45 como discrepante é aquela que supera 1,5dq. De maneira geral, são considerados outliers todos os valores inferiores Li= Q1-1,5dq ou os superiores a Ls=Q3+1,5dq. Exemplo 24:A construção do gráfico Box Plot pode ser exemplificada tomando-se a variável idade da Tabela 01. Sua elaboração segue os seguintes passos: Ordenar os dados em seqüência crescente. 18 18 19 20 20 20 20 20 20 21 21 22 23 24 25 25 25 26 29 30 35 37 Determinar as cinco medidas. Mediana: i 0,5(22 1) 11,50= + = , logo, a mediana é d 11,50M x= d 11 12 11M x 0,50(x x )= + − dM 21 0,50(22 21)= + − dM 21,50= Primeiro quartil: i 0, 25(22 1) 5,750= + = , temos então que o primeiro quartil é 1 5,75Q x= 1 5 6 5Q x 0,75(x x )= + − 1Q 20 0,75(20 20)= + − 1Q 20= Terceiro quartil: i 0,75(22 1) 17,25= + = , temos então que o terceiro quartil é 3 17,25Q x= 3 17 18 17Q x 0,25(x x )= + − 3Q 25 0,25(26 25)= + − 3Q 25,75= Desvio interquartílico: dq= Q3 – Q1 = 25,75 – 20,00 = 5,75 Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 46 Limite inferior: Li= Q1-1,5dq Li = 20 – 1,5. 5,75 = 11,375 Limite superior: Ls= Q3+1,5dq Ls= 25,75 + 1,5. 5,75 = 34,375 Construir uma escala com valores que incluam os valores máximo e mínimo dos dados. Construir uma caixa (retangular) estendendo-se de Q1 a Q3, e trace uma linha na caixa no valor da mediana. Traçar uma linha paralela à reta, com uma das extremidades alinhada ao limite inferior Li e a outra no centro do lado do retângulo correspondente ao primeiro quartil. Trace uma outra linha paralela à reta, com uma extremidade no centro do lado do retângulo correspondente ao terceiro quartil e a outra alinhada com o limite máximo Ls . Projeto de Ensino Aprender Fazendo Estatística Drª Terezinha Aparecida Guedes Msc. Ana Beatriz Tozzo Martins, Msc. Clédina Regina Lonardan Acorsi Msc. Vanderly Janeiro 47 Identificar os pontos discrepantes Figura 17 - Idade dos alunos da disciplina Inferência Estatística do curso de Estatística da Universidade Estadual de Maringá. No conjunto de dados não existe aluno com idade inferior a 11,375, ou seja, não há aluno com idade considerada discrepante inferiormente. Entretanto, existem dois indivíduos cujas idades são superiores a 34,375, pontos estes considerados discrepantes neste conjunto de dados: as idades 35 e 37. Estes pontos são identificados no diagrama de caixas por meio de um asterisco na direção das linhas traçadas nos item v. Note-se que no intervalo interquartílico (dentro do retângulo) existem 50% dos dados, dos quais, 25% estão entre a linha da mediana e a linha do primeiro quartil e os outros 25% estão entre a linha da mediana e a linha do terceiro quartil. Cada linha da cauda mais os valores discrepantes contêm os 25% restantes da distribuição. A Figura 17 mostra que a distribuição das idades dos alunos apresenta assimetria positiva, ou seja, dispersam-se para os valores maiores. O gráfico Box Plot pode ser utilizado para fazer comparações entre várias distribuições. Essa comparação é feita através de vários desenhos esquemáticos numa mesma figura. Na Figura 18 é apresentado o gráfico para a variável idade classificada segundo o sexo do aluno. Nota-se que para o sexo feminino, não valores discrepantes e a distribuição apresenta assimetria positiva, com idade mediana inferior ao do sexo masculino.
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved