(Parte 3 de 5)

1º ordenar a série: _, _, _, _, _, _, _, _, _,
n =P = (n + 1)/2 é dado por P = (_+1)/2 = 5.5, logo, P- = 5 e P+ = 6, ou seja, o 5º e o 6º

Exemplo: Calcule a mediana da seguinte série de dados: 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 elementos da série ordenada, que representam os seguintes valores: _ e _, respectivamente. Pela definição, a mediana será a média aritmética do 5º e 6º termos da série, ou seja,

Notas:

1) Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série.

2) Quando o número de elementos da série estatística for par, a mediana será sempre a média aritmética dos 2 elementos centrais da série.

3) Em uma série de dados, a mediana, a média e a moda não têm, necessariamente, o mesmo valor.

4) A mediana, depende da posição e não dos valores dos elementos na série ordenada. Essa é uma diferença marcante entre mediana e média (que se deixa influenciar, e muito, pelos valores extremos). Vejamos:

Na série: 5, 7, 10, 13, 15 Média = 10 e Mediana = 10; Na série: 5, 7, 10, 13, 65 Média = 20 e Mediana = 10, isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por influência dos valores extremos, ao passo que a mediana permanece a mesma.

Mediana para dados agrupados em Tabelas de Freqüências Nesse caso, utilizamos a freqüência acumulada para identificar qual o valor da mediana.

Exemplo: Considere novamente o exemplo da empresa de segurança que desejava estudar qual o número de ligações a cobrar mais freqüentes recebidas em um determinado bairro de classe alta da cidade de São Paulo no mês de março. Vamos introduzir uma nova coluna na tabela dos dados referentes a freqüência acumulada.

Números de Ligações a Cobrar (xi) Número de Residências (ni) Freqüência Acumulada (Fi) 0 2

1 5 2 15 3 8 Total 30

Como o rol é par, pois n = _, a mediana é a média dos valores que estão nas posições 15 e 16.

Ambos valores que estão nestas posições são _ ligações a cobrar recebida por residência, pois F3 é a primeira freqüência acumulada que contém os elementos 15 e 16.

5.5. Exercícios – Parte I – A1

1) Os tempos de sobrevivência (em meses) de um tipo de bateria estão listados a seguir. 5, 21, 21, 23, 23, 25, 27, 29, 30, 31, 32, 32, 32, 34, 35, 36, 38, 38, 38, 42, 43, 4, 60. Calcule o mínimo, máximo, moda, média e mediana.

2) Um artigo em Computers and Industrial Engineering (2001, p.51) descreve os dados de tempos de falha (em horas) para motores de jatos. Alguns desses dados estão a seguir.

Tabela 5.1: Dados Brutos (em horas)

Máquina # Tempo de Falha Máquina # Tempo de Falha

Obtenha mínimo, máximo, moda, média e mediana dos tempos de falhas das máquinas e interprete os resultados.

3) As idades dos 20 ingressantes num certo curso de pós-graduação em finanças de uma universidade foram as seguintes: 2, 2, 2, 2, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. Construa uma tabela de freqüências e calcule o mínimo, máximo, moda, média e mediana das idades organizadas nessa tabela.

6. MEDIDAS DE DISPERSÃO 6.1. Motivação

Para preencher uma única vaga existente em uma empresa, 50 candidatos foram submetidos a 6 provas sobre conhecimentos específicos de interesse da empresa. Três destes candidatos destacaram-se com as notas descritas na tabela abaixo:

Tabela 6.1: Distribuição das Notas

Provas Candidatos

A 7,0 7,5 8,0 8,0 8,5 9,0 B 6,0 7,0 8,0 8,0 9,0 10,0 C 7,5 8,0 8,0 8,0 8,0 8,5

Fonte: Dados Hipotéticos

Que candidato escolher? Um critério inicial poderia ser o de escolher o que tem a maior média, mas:

Média

Candidatos A B C

De modo análogo, nem adianta pensar em moda ou mediana, pois:

Moda
Mediana

Candidatos A B C

Solução: Um segundo critério de escolha pode ser escolher o candidato que apresentou notas mais homogêneas, isto é, aquele que apresentou menor dispersão das notas.

6.2. Amplitude

A amplitude é definida pelo intervalo entre o valor máximo e o valor mínimo da série de dados, ou seja,

Amplitude = Máximo – Mínimo (6.1) Exemplo: Para os três candidatos temos:

Amplitude

Candidatos A B C

6.3. Variância e Desvio Padrão A variância mede a dispersão dos dados em torno de sua média.

s n i inL (6.2)

O desvio padrão é simplesmente a raiz quadrada positiva da variância 2ss= (6.3)

Exemplo: Vamos calcular a variância e o desvio padrão para os três candidatos:

Resumindo

Tabela 6.2: Medidas de Posição e Dispersão dos 3 melhores candidatos

A 8,0 8,0 8,0
B 8,0 8,0 8,0
C 8,0 8,0 8,0

Candidatos Média Moda Mediana Amplitude Variância Desvio Padrão

Fórmula alternativa para o cálculo da variância Podemos calcular a variância através da seguinte fórmula alternativa:

i i (6.4)

A fórmula (6.4) é obtida através de algumas manipulações algébricas na fórmula (6.2). Esta tem a facilidade de apenas necessitar da informação da média (x) e da soma dos valores ao quadrado da variável ()∑2ix.

6.4. Intervalo Interquartil

O intervalo interquartil é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1), ou seja,

IQ = Q3 – Q1. (6.5)

Essa medida nos dá a informação da amplitude dos 50% pontos centrais do conjunto de dados ordenados.

6.5. Exercícios – Parte I – A1

1) Considere o seguinte conjunto de dados: 2, 3, 5, 7, 10. Utilize a fórmula alternativa para calcular a variância, sabendo que a média é 5,4.

2) Foram coletados aleatoriamente 5 empregados de 3 empresas (A, B e C) e perguntado para cada um deles o seu salário (em salários mínimos). Se estas 3 empresas estivessem oferecendo emprego, em qual delas você trabalharia sendo que o resultado da pesquisa com os 15 funcionários entrevistados foi:

Empresa A Empresa B Empresa C 5,5 4 5 6 5 6 6 6 6 6 6 6 6,5 9 7

Obs: Obtenha a Amplitude, Variância, Desvio Padrão e o Intervalo-Interquartil de cada empresa para tomar sua decisão.

3) Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A, B, C) para dosagem de sangue. Para isto o responsável pelas análises preparou uma substância de concentração conhecida (10 mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles foram os seguintes:

Em medidas clínicas três termos são utilizados freqüentemente: Precisão: refere-se à dispersão dos resultados

Não-viciado: refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro valor”

Exato: refere-se ao instrumento preciso e não-viciado (a) Descreva os três instrumentos em termos das definições acima. (b) Qual instrumento lhe parece recomendável? Justifique sua resposta.

7. ESTATÍSTICA GRÁFICA

7.1. Gráficos para as Variáveis Qualitativas

A representação gráfica da distribuição de uma variável tem a vantagem de, rápida e concisamente, informar sobre sua variabilidade.

Existem vários tipos de gráficos para as variáveis Qualitativas. Aqui serão ilustrados três deles: Gráficos em Barras, o de Composição em Setores (“Pizza”) e o Gráfico de Pareto.

7.1.1. Gráfico em Barras

O gráfico em Barras consiste em construir retângulos ou barras, em que uma das dimensões é proporcional à magnitude a ser representada (ni), sendo a outra arbitrária, porém igual para todas as barras. Essas barras são dispostas paralelamente uma às outras, horizontalmente ou verticalmente. No exemplo a seguir temos o gráfico em barras (verticais) para a variável Grau de Instrução.

Tabela 7.1: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução.

Grau de Instrução Freqüência (ni) Proporção (fi) Porcentagem (100 x fi) Fundamental 12 0,3 3,3%

Fr eqüência ( n i)

Fundamental Médio Superior Grau de Instrução

Figura 7.1: Gráfico em Barras para a variável Grau de Instrução

7.1.2. Gráfico de Composição em Setores (“Pizza”)

O gráfico de composição em setores (“pizza”), destina-se a representar a composição, usualmente em porcentagem, de partes de um todo. Consiste num círculo de raio arbitrário, representando o todo, dividido em setores, que correspondem às partes de maneira proporcional.

Para o exemplo anterior temos o seguinte gráfico:

Fundamental Médio Superior

Figura 7.2: Gráfico em Setores para a variável Grau de Instrução

7.1.3. Gráfico de Pareto

O gráfico de Pareto é um gráfico de barras representando a freqüência absoluta com um gráfico de linha, representando a porcentagem acumulada. Ele exibe a freqüência absoluta e a porcentagem acumulada no eixo vertical e as categorias da classificação no eixo horizontal (Ver Figura 7.3 a seguir). Organizamos sempre as categorias em ordem decrescente da freqüência de ocorrência, isto é, a de maior freqüência absoluta fica à esquerda, seguida pela segunda de maior freqüência, e assim por diante.

F r e q ue nc ia A b s o l u t

P o r c e n t a g e m A c um a d a

Modelo-Aviões Count

Figura 7.3: Produção de aviões em 2000. (Fonte: Boeing Commercial Airplane Company)

A Figura 7.3 apresenta um gráfico de Pareto para a produção de aviões de transporte da

Boeing Commercial Airplane Company no ano de 2000. Note que o 737 foi o modelo mais popular, seguido pelos 7, 757, 767, 717, 747, MD-1 e o MD-90. A linha no gráfico de Pareto conecta as porcentagens acumuladas dos k modelos produzidos com maior freqüência (k = 1, 2, 3, 4, 5). Nesse exemplo, os dois modelos produzidos com maior freqüência respondem aproximadamente 69% do total dos aviões produzidos em 2000.

Nú m e r o d e D e f e i t o s

P o r c e n t a g e m A c um a d a

Tipo de Defeito

Count

Outros

Entalhes/fendas/goivas

Partes salientes

Partes não lubrificadas Fora de seqüência

Falta de furos/ranhuras Partes mal aparadas

Fora do contorno

Figura 7.4: Gráfico de Pareto dos defeitos em elementos estruturais da porta.

Os gráficos de Pareto são muito úteis na análise dos dados defeituosos em sistemas de produção. A Figura 7.4 apresenta um gráfico de Pareto que mostra a freqüência com que vários tipos de defeitos ocorrem em peças de metal usadas em um componente estrutural da moldura de uma porta de automóvel. Note como o gráfico de Pareto realça os relativamente poucos defeitos que são responsáveis pela maioria dos defeitos observados na peça. O gráfico de Pareto é parte importante no programa de melhora da qualidade, porque permite que a gerência e a engenharia concentrem sua atenção nos defeitos mais críticos do produto ou processo. Uma vez identificados esses defeitos críticos, devem-se desenvolver e implementar ações corretivas para reduzi-los ou eliminá-los.

Curiosidade: O gráfico de Pareto tem esse nome em homenagem ao economista italiano Vilfredo Pareto que estabeleceu a teoria de que, em certas economias, a maior parte da riqueza (80%) pertence à minoria da população (20%).

7.2. Gráficos para as Variáveis Quantitativas

Para variáveis Quantitativas podemos considerar uma variedade maior de representações gráficas.

7.2.1. Gráfico em Barras

O gráfico em Barras para as variáveis quantitativas é construído da mesma forma ao das variáveis qualitativas.

Como ilustração, considere a variável “Número de Filhos” dos empregados casados da seção de orçamentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 7.2: Freqüências e Porcentagens dos empregados da seção de orçamentos da Companhia MB, segundo o número de filhos.

Números de Filhos (xi) Freqüência (ni) Porcentagem (100 x fi) 0 4 20

Total n = 20 100 Fonte: Bussab e Morettin (2002)

Figura 7.5: Gráfico de Barras para a variável Números de Filhos

7.2.2. Gráfico de Pontos ou Gráfico de Dispersão Unidimensional (ou Dot-Plot)

Quando os dados consistem em um pequeno conjunto de números, estes podem ser representados traçando-se uma reta com uma escala que abranja todas as mensurações observadas e grafando-se as respectivas freqüências como pontos acima da reta. Por esse motivo, é também conhecido como gráfico de pontos.

Exemplo: Considere a variável tempo, em segundos, entre carros que passam por um cruzamento, viajando na mesma direção: 6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

Figura 7.6: Gráfico de Dispersão – Dot Plot

7.2.3. Histograma

O Histograma é utilizado para representar a distribuição de freqüência. É um gráfico de barras contíguas, com bases proporcionais aos intervalos de classes e a área de cada retângulo proporcional à respectiva freqüência relativa. Indicaremos a amplitude do i-ésimo intervalo por ai. Para que a área do retângulo respectivo seja proporcional a fi, a sua altura deve ser proporcional a di = fi/ai, que é chamada de densidade de freqüência da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retângulo. Com essa convenção, a área total do histograma

Exemplo: Considerando a variável Salário dos empregados da seção de orçamentos da Companhia MB, temos os seguintes dados:

Tabela 7.3: Freqüências e Porcentagens dos 36 empregados da seção de orçamentos da Companhia MB, por faixas de salário

Classe de Salário Freqüência

(ni)

Proporção (fi)

Porcentagem (100 x fi)

Densidade de Freqüência

Densidade de

F r e qüê nc i a

Figura 7.7: Histograma da variável Salário

7.2.4. Gráfico em Linhas (ou Gráfico Temporal)

É um gráfico utilizado para representar observações feitas ao longo do tempo, em intervalos iguais ou não. Tais conjuntos de dados constituem as chamadas séries históricas, ou séries temporais. Traduzem o comportamento de um fenômeno em certo intervalo de tempo.

Tabela 7.4: Dívida Externa do Brasil de 1956 a 2006, em Milhões de Dólares. Ano Dívida Ano Dívida Ano Dívida

Fonte: IPEADATA

Ano

Dí vi da em Mi l h ões d e Dó re s

Figura 7.8: Gráfico de Linhas para a variável Dívida Externa do Brasil no período 1956 a 2006 7.2.5. Ramo-e-Folhas

Suponha que os dados sejam representados por x1, x2,, xn, e que cada número xi consista

em, pelo menos, dois dígitos. Para construir um diagrama ramo-e-folhas dividimos cada número xi em duas partes: um ramo, que consiste em um ou mais dos dígitos líderes, e uma folha, que consiste nos dígitos restantes. Por exemplo, se os dados representam porcentagens de defeitos (valores entre 0 e 100), em lotes de placas de semicondutores, então poderíamos dividir o valor 76 no ramo 7 e na folha 6. Em geral, devemos escolher poucos ramos em comparação com o número de observações. Usualmente, é utilizado entre 5 e 20 ramos. Uma vez escolhido um conjunto de ramos, eles são listados ao longo da margem esquerda do diagrama e, ao lado de cada ramo, são listadas todas as folhas que correspondem aos valores dos dados observados.

Tabela 7.5: Força de ruptura em libras por polegada para 100 garrafas descartáveis de 1 litro de refrigerante. 176 221 242 253 261 265 271 278 286 301

117 6
218 7
319 7
620 058
921 045
731 78
532 18
33 47
134 6

Oliveira, D. C. R. e Oliveira, M. S. _/_/_ 29 13 2 0138 19 23 114555 26 24 2235688 36 25 0001344788 (2) 26 0000123344555555778899 42 27 01124444566788 28 28 0000113367 18 29 0346899 1 30 0178 Figura 7.9: Diagrama ramo-e-folhas para os dados da força de ruptura de garrafas da Tabela 7.5.

O ramo-e-folhas resultante está representado na Figura 7.9. A inspeção dessa representação revela imediatamente que a maioria das forças de ruptura fica entre 220 e 308 psi, e que o valor central está em algum ponto entre 260 e 270 psi. Além disso, as forças de ruptura estão distribuídas de maneira aproximadamente simétrica em torno do valor central. Assim, o ramo-e-folhas, como o histograma, nos permite determinar rapidamente algumas características importantes dos dados que não eram tão imediatamente óbvias na apresentação original da Tabela 7.5. Note que, aqui, os números originais não se perdem, como ocorre em um histograma. Através do ramo-e-folhas podemos calcular qualquer medida de posição e dispersão.

(Parte 3 de 5)

Comentários