Livro - Estatística aplicada

Livro - Estatística aplicada

(Parte 3 de 4)

Estatística Aplicada Minhas anotações:

CapCtuCo 2 Distribuição de

Frequências e Medidas de Posição Central

Nesse capítulo, estudaremos como organizar os dados numa distribuição de frequências e aprenderemos a resumir conjuntos de dados numéricos em alguns valores representativos de todo conjunto.

Quando realizamos uma coleta de dados, geralmente estamos lidando com uma quantidade muito grande de informações. Portanto, torna-se imprescindível a utilização de certas técnicas visando simplificar a leitura de tais informações. Para que se tenha uma visão do todo (sobre o fenômeno que está sendo estudado) precisamos, por exemplo, dispor as informações em tabelas ou apresentá-las em gráficos. É o que estaremos abordando num primeiro momento. Logicamente, há mais técnicas que podem ser aplicadas, mas elas serão vistas nos próximos capítulos.

Objetivos da sua aprendizagem Organizar, resumir e apresentar, através de distribuição de frequências, as informações contidas em grandes conjuntos de dados. Calcular e interpretar as medidas de posição central.

Você se lembra? Você se lembra de já ter visto tabelas em jornais, livros ou revistas, em que eram utilizados percentuais para indicar as frequências de ocorrências de respostas em uma pesquisa? Ou com os percentuais referentes à avaliação de um governo? E informações como média salarial de determinada categoria de profissionais, ou ainda, idade média dos estudantes do primeiro ciclo de determinada universidade?

Neste capítulo, veremos como (e para quê) construimos tabelas dessa natureza e como calculamos medidas descritivas como a média aritmética.

Estatística Aplicada

2.C Distribuição de Frequências

Para entendermos a ideia de distribuição de frequências, vamos analisar a seguinte situação: quando um pesquisador termina de coletar os dados para sua pesquisa, geralmente fica com muitos questionários em mãos (respondidos pelas pessoas que foram sorteadas para pertencer a sua amostra) ou com os dados digitados em alguma planilha eletrônica. O fato é que os dados “brutos” (sem tratamento) não trazem as informações de forma clara, por isso devemos tabular esses dados. Quando tabulamos os dados estamos resumindo as informações para melhor compreensão da variável em estudo. A esta tabulação damos o nome de distribuição de frequências (ou tabela de frequências).

Distribuição de frequências é uma tabela em que se resumem grandes quantidades de dados, determinando o número de vezes que cada dado ocorre (frequência) e a porcentagem com que aparece (frequência relativa).

Para facilitar a contagem do número de vezes que cada dado ocorre, podemos ordenar os dados. A uma sequência ordenada (crescente ou decrescente) de dados brutos damos o nome de Rol. Os tipos de frequências com os quais iremos trabalhar são:

Frequência absoluta ou simplesmente frequência (f): é o nº de vezes que cada dado aparece na pesquisa.

Frequência relativa ou percentual (fr): é o quociente da frequência absoluta pelo número total de dados. Esta frequência pode ser expressa em porcentagem. O valor de (fr x100) é definido como fr (%).

Frequência acumulada (fa): é a soma de cada frequência com as que lhe são anteriores na distribuição.

Frequência relativa acumulada (fra): é o quociente da frequência acumulada pelo número total de dados. Esta frequência também pode ser expressa em porcentagem. O valor de (fra x100) é definido como fra (%).

Exemplo 2.1: Com as informações fornecidas na tabela 2.1, vamos indicar e classificar a variável em estudo. Depois, completaremos a distribuição de frequências encontrando a frequência relativa (%).

Distribuição de Frequências e Medidas de Posição Central. – Capítulo 2

Em todos os nossos exemplos, na distribuição de frequências construída com intervalos de classes, vamos considerar que o intervalo de classe é fechado à esquerda e aberto à direita. Por exemplo, no caso dessa tabela, considerando a terceira classe de frequência, podemos dizer que os 16 operários que estão nesta classe recebem de 4 a menos que 6 salários mínimos por mês.

Tabela 2.1 – Distribuição de renda de operários de uma determinada empresa.

Faixa de renda

(em salários mínimos)

Número de operários (f)fr(%)

0 ├ 2 2 ├ 4 4 ├ 6 6 ├ 8 8 ├ 10

Resolução: A variável em estudo é a renda dos operários de uma determinada empresa. Esta variável é classificada como quantitativa contínua, pois pode assumir qualquer valor dentro de um intervalo numérico.

As frequências absolutas (f) são fonecidas no problema.

As frequências relativas (fr(%)) são encontradas dividindo cada frequência absoluta (de cada classe de frequência) pelo total de operários (110) e multiplicando por 100.

Uma distribuição de frequências apresenta, basicamente, as 3 colunas apresentadas na tabela 2.1. Desta maneira, conseguimos organizar de forma resumida um conjunto de dados.

Em alguns estudos podemos ter interesse em outras quantidades relacionadas à tabela, como, por exemplo, a frequência acumulada ou a frequência acumulada (%). Veremos mais adiante que a frequência acumulada é utilizada na construção de um gráfico denominado Ogiva. A tabela 2.2 apresenta a frequência acumulada e a frequência relativa acumulada (%).

Estatística Aplicada

Tabela 2.2 – Distribuição das frequências acumuladas da variável faixa de renda.

Faixa de renda

(em salários mínimos)

Número de operários (f)fr(%)Frequência acumulada (fa)fra (%)

2 ├ 4 4 ├ 6 6 ├ 8 8 ├ 10

A coluna frequência acumulada (fa) decada classe é obtida somando a frequência da respectiva classe com as que lhe são anteriores e a fra(%) é obtida dividindo a fa pelo número total de dados e multiplicando por 100. Para organizar dados de variáveis qualitativas ou quantitativas dis- cretas (cujos valores não estão agrupados em classes) seguimos o mesmo procedimento que foi utilizado na construção da tabela 2.1.

Exemplo 2.2: Uma determinada empresa resolveu traçar o perfil socioeconômico de seus empregados. Uma das variáveis estudadas foi o número de filhos, com idade inferior a 18 anos, de cada um dos empregados. A tabela 2.3 fornece a frequência e a frequência relativa (%) para cada valor obtido.

Tabela 2.3 – Distribuição de frequências dos empregrados, segundo o número de filhos.

Número de filhosNúmero de operários (f)fr(%)

Distribuição de Frequências e Medidas de Posição Central. – Capítulo 2

Para encontrarmos a fa e a fra (%) seguimos o mesmo procedimento que foi utilizado na tabela 2.2.

2.C.C Agrupamento em CCasses

Como vimos no exemplo 2.1, para representar a variável contínua “renda”, organizamos os dados em classes. Portanto, podemos dizer que a variável renda foi dividida em “5 classes de frequências”.

Quando agrupamos em classes de frequências perdemos informações, pois não sabemos exatamente quais são os valores que estão contidos em cada uma das classes (a não ser que seja possível pesquisar esta informação no conjunto de dados brutos). Na análise das distribuições de frequências com intervalos de classes podemos identificar os seguintes valores:

Limite inferior (Li): é o menor valor que a variável pode assumir em uma classe de frequência;

Limite superior (Ls): serve de limite para estabelecer qual o maior valor que a variável pode assumir em uma classe de frequência, mas, ge- ralmente, os valores iguais ao limite superior não são computados naquela classe e sim na seguinte;

Ponto médio (Pm): é a média aritmética entre o Li e o Ls da mesma classe, ou seja, PmLiLs= +

Amplitude (h): é a diferença entre o Ls e o Li da classe, ou seja, h = Ls – Li;

Amplitude total (ht): é a diferença entre o Ls da última classe de frequência e o Li da primeira classe, ou seja: ht = Ls – Li.

Na construção de uma distribuição de frequências com intervalos de classes devemos determinar o número de classes que uma tabela deve ter e qual o tamanho (ou a amplitude) destas classes. Podemos usar o bom senso e escolher arbitrariamente quantas classes e qual a amplitude que estas classes devem ter.

Estatística Aplicada

Quando não tivermos nenhuma referência sobre qual deve ser o número de classes a se trabalhar, podemos utilizar o critério que é sugerido por vários autores. Chama-se regra da raiz e será apresentado a seguir. Considere:

onde k é o número de classes que vamos construir na distribuição de frequências; n é o tamanho da amostra que estamos trabalhando; h é a amplitude de cada uma das classes e R é a amplitude total dos dados.

lor). O número de classes seria dado porkn≅==≈507071068,

Os valores de k e h devem ser arredondados sempre para o maior valor. Por exemplo, para uma amostra de tamanho n = 50 cujo menor valor é 4 e o maior valor é 445 temos que R = 441 (maior valor – menor va- (maior inteiro depois de 7) e a amplitude (tamanho) de cada uma das

8 classes acima deverá ser hR k

8 5512556, (maior inteiro depois de 5). Ou seja, deveríamos, para este exemplo, montar uma tabela com 8 classes e de amplitude 56. A tabela pode ser iniciada pelo menor valor do conjunto de dados.

Resumindo, para montar uma distribuição de frequências com intervalos de classes devemos: • Achar o mínimo e o máximo dos dados.

• Determinar as classes de frequências que na verdade nada mais é do que escolher intervalos de mesmo comprimento que cubra a amplitude entre o mínimo e o máximo. Para determinar o número de classes, usaremos kn≅ e para determinar o “ta- manho” das classes usaremos hk k'

• Contar o número de observações que pertencem a cada intervalo de classe. Esses números são as frequências observadas da classe.

Distribuição de Frequências e Medidas de Posição Central. – Capítulo 2

• Calcular as frequências relativas e acumuladas de cada classe. • De modo geral, a quantidade de classes não deve ser inferior a 5 e nem superior a 25.

Agora, aprenderemos como caracterizar um conjunto de dados através de medidas numéricas que sejam representatativas de todo o conjunto.

As medidas de posição, também chamadas de medidas de tendência central, têm o objetivo de apresentar um ponto central em torno do qual os dados se distribuem. As mais conhecidas são: a média, a mediana e a moda. Vamos estudar cada uma dessas medidas de posição (estatísticas).

Primeiramente, vamos fazer um estudo para os dados não tabulados, ou seja, quando os dados não estiverem na forma de distribuição de frequência. Em seguida, as mesmas medidas serão calculadas com base em dados tabulados.

2.2.C Média aritmética

A média aritmética x() é a mais comum e mais simples de ser calculada dentre todas as medidas de posição mencionadas.

Para calculá-la, basta fazer a divisão da soma de todos os valores

(x1, x2,, xn) da variável pelo número total de elementos do conjunto de

x xn i i onde: x = a média aritmética; xi = os valores da variável; n = o número de valores no conjunto de dados.

A mediana é outra medida de posição, dita mais robusta que a média, pois, da forma como ela é determinada, não permite que alguns valores muito altos ou muito baixos interfiram de maneira significativa em seu

Estatística Aplicada

A mediana é a medida de posição mais frequentemente usada quando a variável em estudo for renda (R$), pois algumas rendas extremamente elevadas podem inflacionar a média. Neste caso, a mediana é uma melhor medida de posição central.

valor. Desta forma, se o conjunto de dados apresentar alguns poucos valores discrepantes em relação à maioria dos valores do conjunto de dados, em geral, é aconselhável usar a mediana ao invés da média.

A mediana é encontrada ordenando os dados do menor para o maior valor e em seguida identificando o valor central destes dados ordenados. É uma medida que divide o conjunto de dados ao meio, deixando a mesma quantidade de valores abaixo dela e acima.

A determinação da mediana difere no caso do tamanho (n) do conjunto de dados ser par ou ímpar. Vejamos a seguir.

Se o número de elementos do conjunto de dados for ímpar, então a mediana será exatamente o valor “do meio”, ou seja:

Se o número de elementos do conjunto de dados for par, então a mediana será exatamente a média “dos dois valores do meio”, isto é:

nnnxxxindicam as posições onde os dados se encontram.

A moda de um conjunto de dados é o valor (ou valores) que ocorre com maior frequência. A moda, diferentemente das outras medidas de

Distribuição de Frequências e Medidas de Posição Central. – Capítulo 2 posição, também pode ser encontrada quando a variável em estudo for qualitativa. Existem conjuntos de dados em que nenhum valor aparece mais vezes que os outros. Neste caso, dizemos que o conjunto de dados não apresenta moda.

Em outros casos, podem aparecer dois ou mais valores de maior frequência no conjunto de dados. Nestes casos, dizemos que o conjunto de dados é bimodal e multimodal, respectivamente.

Por conta das definições diferentes, a média, a mediana e a moda fornecem, muitas vezes, informações diferentes sobre o centro de um conjunto de dados, embora sejam todas medidas de tendência central.

No exemplo 2.3 apresentaremos os cálculos das medidas de posição para dados não tabelados (dados brutos).

Exemplo 2.3: Um gerente de banco deseja estudar a movimentação de pessoas em sua agência na segunda semana de um mês qualquer. Ele constata que no primeiro dia entraram 1.348 pessoas, no segundo dia, 1.260 pessoas, no terceiro, 1.095, no quarto, 832 e no último dia do levantamento, 850 pessoas. Encontre a média aritmética, a mediana e a moda para este conjunto de dados e interprete os resultados.

Resolução: A média aritmética é dada por:

x n

O número médio de pessoas que entram na agência bancária na segunda semana do mês é de 1.077 pessoas. Isto quer dizer que, alguns dias entram menos que 1.077 e outros dias entram mais, ou seja, 1.077 é um valor em torno do qual o número de pessoas que entram na agência, durante a segunda semana de cada mês, se concentra.

Para encontrar a mediana, devemos, primeiramente, ordenar os dados em ordem crescente (pode ser decrescente também):

832, 850, 1095, 1.260, 1.348

Estatística Aplicada

Como a quantidade de dados (n) é um número ímpar, a mediana é exatamente o valor que se encontra no meio do conjunto de dados:

Isto significa que temos o mesmo número de observações menores ou iguais ao valor da mediana e o mesmo número de observações maiores ou iguais ao valor da mediana.

Este conjunto de dados não possui moda, pois não existe nenhum valor que “aparece” com mais frequência que os outros.

Agora, vamos fazer um estudo para os dados tabulados, ou seja, quando os dados estiverem na forma de uma distribuição de frequências.

Neste caso, a maneira de se calcular a média aritmética muda um pouco. Como as frequências são números que indicam quantas vezes aparece determinado valor ou quantos valores têm em cada classe de frequência, elas funcionarão como “fatores de ponderação”. Estas situações serão apresentadas nos exemplos 2.4 e 2.5, respectivamente.

Média Aritmética No caso de dados tabulados, o cálculo da média aritmética é:

x x f i i

i i

1 onde:

xi é o valor da variável (ou o ponto médio de uma classe de frequência); fi é a frequência referente a cada valor (ou classe);

A expressão (2.5) apresentada acima também é conhecida como fórmula da média ponderada.

Distribuição de Frequências e Medidas de Posição Central. – Capítulo 2

No caso de distribuições de frequências que não apresentam intervalos de classes, a mediana e a moda são encontradas utilizando os conceitos apresentados nos itens 2.2.2 e 2.2.3, respectivamente.

(Parte 3 de 4)

Comentários