Trabalho de Estatística

Trabalho de Estatística

(Parte 2 de 4)

Distribuição por ponto ou valores

Considere um conjunto de valores resultados de uma contagem. Por exemplo, o número filhos dos funcionários da Empresa Alpha.

0 1 0 0 1 2 0 0 2 3

2 2 1 3 3 3 4 0 3 2

3 2 2 0 1 1 2 3 1 1

Esta coleção de valores não constitui informação mas pode transformada em informação mediante sua representação em uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados(os pontos ou valores) e a coluna da direita pelo número de vezes que cada valor se repetiu(as freqüências simples ou absolutas). Para o exemplo, na tabela 1.1 tem-se:

Tabela 1.1 Número de filhos dos funcionários da Empresa Alpha

da Cidade de São Paulo -2001

Número de filhos (xi)

Número de funcionários (fi)

0

1

2

3

4

5

7

7

8

6

1

1

6

fi = 30

i=1

Distribuição Por Classes ou intervalos

Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados originais em uma distribuição de freqüências, onde os valores observados não mais aparecerão individualmente, mas agrupados classes.

Quando a variável objeto de estudo for contínua, será sempre conveniente agrupar os valores observados em classes. Se, por outro lado, a variável for discreta e o número de valores representativos dessa variável for mito grande, recomenda-se o agrupamento dos dados em classes.

Nesse último caso, o procedimento visa a evitar certos inconvenientes, como:

  1. Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação dos resultados apurados.

  2. Aparecimento de diversos valores da variável com freqüência nula.

  3. Impossibilidade ou dificuldade de visualização do comportamento do fenômeno com um todo, bem como de sua variação.

  4. Considere-se um conjunto de valores resultados de uma medida. Por exemplo, a idade dos funcionários da Empresa Alpha:

Idade (em anos) dos funcionários da Empresa Alpha

26 20 41 23 37 39 25 34 32 29

32 40 43 33 44 31 37 41 35 40

36 28 34 27 30 39 30 26 46 35

Este conjunto de valores, obviamente não pode ser representado da mesma forma que o anterior, pois quase não há repetições. Neste caso é necessário construir uma tabela denominada “distribuição de freqüências por classes ou intervalos”.

O procedimento para construir esta distribuição envolve os seguintes passos.

  1. Determinar a amplitude dos dados: h= xmax – xmin.

  2. Decidir sobre o número e classes “k” a ser utilizado. Recomenda-se um número de classes entre 5 e 15.

  3. Determinar a amplitude de cada classe. Sempre que possível manter todas as amplitudes iguais. Para tanto deve-se dividir a amplitude dos dados “h” pelo número de classes “k”, arredondando para mais, ou seja, hi = h/k

  4. Contar o número de valores pertencentes a cada classe. O símbolo

Um exemplo de uma distribuição por classes ou intervalos é apresentado na tabela abaixo.

Tabela 1.2 Idade dos funcionários da Empresa Alpha

Idades

Número de funcionários (fi)

2630

3034

3438

3842

4246

5

6

6

7

2

5

fi = 26

i=1

Elementos de uma distribuição de freqüência

Para construir uma tabela de freqüências, e necessário conhecer alguns termos próprios e de uso corrente, bem como o procedimento técnico mais adequado. Esses termos serão listados a seguir.

Freqüência Simples Absoluta

Símbolo: fi

A freqüência simples absoluta é o número de repetições de um valor individual ou de uma classe de valores da variável. Trata-se do caso visto até o presente. A soma das frequências simples absolutas em uma tabela é chamada freqüência total e corresponde ao número total de observações.

Freqüência Simples Relativa ou percentual

Símbolo: fri

A freqüência simples relativa representa a proporção de observação de um valor individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo.

Amplitude Total : At

A amplitude total ou intervalo total é a diferença entre o maior e o menor valor observado da variável em estudo. Se, por exemplo, a idade mais elevada dos funcionários é 46 e a menor é 20, a amplitude total do conjunto de valores observados seria:

At : 46 - 20 = 26

Ponto médio da classe:

Como não é possível trabalhar com classes é necessário escolher um representante da classe. Este representante é denominado de ponto médio da classe. É representado por xi e calculado por: xi = (li + lsi)/2 ou então xi = lii + hi/2

Classe

Classe de freqüências, ou simplesmente, classe, é cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável.

Uma determinada classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice i). Na tabela 1.2

Classe 2630 ou primeira classe (i = 1)

Classe 38 42 ou quarta classe (i = 4)

É importante que a distribuição conte com um número adequado de classes. Se esse número for escasso, os dados originais ficarão tão comprimidos que pouca informação se poderá extrair da tabela. Se, por outro lado, forem utilizadas muitas classes, haverá algumas com freqüências nula ou muito pequena, e o resultado será uma distribuição irregular e prejudicial à interpretação do fenômeno com um todo.

Para determinar o número de classes há diversos métodos. A regra de Sturges, um dos métodos, estabelece que o número de classes é igual a:

K = 1 + 3,3 log10 n

K = número de classes

n = número total de observações

Exemplo:

  1. Se o número de observações for 50:

K = 1 + 3,3 log 50

K= 1 + (3,3 x 1,69897) = 1 + 5,606601 = 6,606601

K 7

Esse exemplo revela um dos inconvenientes resultantes da aplicação da fórmula de Sturges, que é o de propor um número demasiado de classes para um número pequeno de observações e relativamente poucas classes, quando o total de observações for grande.

Um outro método para determinar o número de classes é usar a raiz quadrada do número de valores como o número de classes, ou seja, k √n.

Limites de Classe

  1. Limite inferior da classe “i”. Anota-se por lii

Na Tabela 1.2 o limite inferior da terceira classe é 42.

  1. Limite superior da classe “i”.

Anota-se por lsi. Na tabela 1.2 o limite superior da terceira classe é 38.

Tipos de freqüências

Freqüência Simples

  1. Freqüência Simples Absoluta

Símbolo: fi

A freqüência simples absoluta é o número de repetições de um valor individual ou de uma classe de valores da variável. Trata-se do caso visto até o presente. A soma das frequências simples absolutas em uma tabela é chamada freqüência total e corresponde ao número total de observações.

k

Σ fi = n

i=1

Considerem-se os exemplos dados pelas Tabelas 1.1e 1.2. Na Tabela 1.1 a freqüência simples absoluta do valor zero é 7, indicando que esse número aparece sete vezes no levantamento efetuado. Há, portanto sete funcionários sem filhos.

Na Tabela 1.2, a freqüência simples absoluta da quarta classe é 7. Há, sete funcionários cujas idades se situam no intervalo compreendido pelas idades de 38, inclusive, a 42, exclusive.

  1. Freqüência Simples Relativa ou percentual

Símbolo: fri

A freqüência simples relativa representa a proporção de observação de um valor individual ou de uma classe, em relação ao número total de observações. Trata-se, portanto, de um número relativo. Para calcular a freqüência relativa, basta dividir a freqüência absoluta da classe ou do valor individua pelo número total de observações. Simbolicamente,

Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100. Observando essa última expressão, vê-se claramente que a freqüências é sempre igual a 1,00 ou 100%.

Considere-se o exemplo da tabela 1.3. Como ali observa, a freqüência simples relativa do valor 2

Tabela 1.3 Número de filhos dos funcionários da Empresa Alpha

da Cidade de São Paulo.

(xi)

(fi)

fri

Frequências

relativas

percentuais

0

1

2

3

4

5

7

7

8

6

1

1

7/30 = 0.23

7/30 = 0.23

8/30 = 0.27

6/30 = 0.20

1/30 = 0.03

1/30 = 0.03

23%

23%

27%

20%

3%

3%

6

Σ fi = 30

i=1

6

Σ fri = 30/30 = 1,00

i=1

6

Σ fri = 100%

i=1

Frequências Acumuladas

  1. Freqüência Absoluta Acumulada

Símbolo: Fi

A freqüência absoluta acumulada de uma classe ou de um valor individual é a soma da freqüência simples absoluta dessa classe ou desse valor com as frequências simples absolutas das classes ou dos valores anteriores.

Considerem-se os exemplos das Tabela 1.4 e 1.5

Tabela 1.4 Número de filhos dos funcionários da Empresa Alpha.

xi

fi

Fi

0

1

2

3

4

5

7

7

8

6

1

1

7

14

22

28

29

30

Tabela 1.5 Idade dos funcionários da Empresa Alpha

Idades

fi

Fi

2630

3034

3438

3842

4246

5

6

6

7

2

5

11

17

24

26

5

Σ fi = 26

i=1

No caso da Tabela 1.5, F3 = 17, por exemplo, indica que houve 17 funcionários com idades iguais ou inferiores a 38.

  1. Frequência Relativa Acumulada

Símbolo: Fri

A freqüência relativa acumulada da classe ou do valor individual i é igual à soma da frequências simples relativa dessa classe ou desse valor com as freqüências simples relativas das classes ou dos valores anteriores. A obtenção das frequências relativas acumuladas pode ser feita de duas formas:

  1. Acumulando as frequências simples relativas de acordo com a definição de frequências acumuladas.

  1. Calculando as frequências relativas diretamente a partir das frequências absolutas, de acordo com a definição de frequências relativas: Fri=

Considerem-se os exemplos das Tabelas 1.6 e 1.7.

Tabela 1.6 Número de filhos dos funcionários da Empresa Alpha .

xi

fi

fri(%)

Fi

De acordo com item (a)

De acordo com item (b)

Fri(%)

Fri

0

1

2

3

4

5

7

7

8

6

1

1

23

23

27

20

3

3

7

14

22

28

29

30

0 + 23 = 23

23 + 23 = 46

46 +27 = 73

73 + 20 = 93

93 + 3 = 96

96 + 3 = 99

7/30 = 0.23 ou 23%

14/30 = 0.57 ou 57%

27/30 = 0.9 ou 90%

20/30 = 0.67 ou 67%

3/30 = 0.1 ou 10%

3/30 = 0.1 ou 10%

30

100

Tabela 1.7 Idade dos funcionários da Empresa Alpha

Idades

fi

fri(%)

Fi

De acordo com item (a)

De acordo com

item (b)

Fri (%)

Fri

2630

3034

3438

3842

4246

5

6

6

7

2

19,23

23,1

23,1

26,7

7,7

5

11

17

24

26

19,23

42,3

42,3

27

7,7

5/26= 0,19 ou 19%

11/26= 0,42 ou 42%

17/26=0,65 ou 65%

24/26=0,92 ou 92%

26/26= 1,00 ou 100%

26

100

Considerem-se os exemplos das Tabelas 1.4 e 1.5.

Na Tabela 1.6, Fr3 = 0.9, por exemplo, indica que noventa por cento dos funcionários têm dois filhos. Na Tabela 1.7, Fr2 = 0,42 indica que quarenta e dois por cento dos funcionários têm idades iguais ou inferiores a 34.

Representação Gráfica

A representação gráfica é um complemento importante de apresentação tabular. A principal vantagem de um gráfico sobre a tabela prende-se ao fato de que ele permite conseguir uma visualização imediata da distribuição dos valores observados. Propiciam os gráfico uma idéia preliminar mais satisfatória da concentração e dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis. Por outro lado, os fatos essenciais e as relações que poderiam ser difíceis de reconhecer em massas de dados estatísticos podem ser observados mais claramente através dos gráficos.

Gráficos para Variáveis Qualitativas

  1. Gráfico de barras

É um gráfico formado Por retângulos horizontais de larguras iguais, onde cada um deles representa a intensidade de uma modalidade ou atributo.

É recomendável que cada coluna conserve uma distância entre si de aproximadamente 2/3 da largura da base de cada barra, evidenciando desse modo,a não continuidade na seqüência dos dados.

O objetivo desse gráfico é de comparar grandezas e é recomendável para variáveis cujas categorias tenham designações extensas.

O gráfico abaixo, em barras, representa o grau de instrução de 11 funcionários da Empresa Alpha, conforme a idade de cada um.

Figura0.1

  1. Gráfico de colunas

É o gráfico mais utilizado para representar variáveis qualitativas. Difere do gráfico d e barras por serem seus retângulos dispostos verticalmente ao eixo das abscissas sendo mais indicado quando as designações das categorias são breves. Também para este tipo de gráfico deve ser preservada a distancia entre cada retângulo, de aproximadamente, 2/3 da largura da base de cada coluna. O número de colunas ou barras do gráficos não deve superior a doze(12).

Figura 0.2

Ao se descrever simultaneamente duas ou mais categorias para uma variável, é conveniente fazer uso dos gráficos de barras ou colunas justapostas (ou sobrepostas) chamamos de gráficos comparativos. Este tipo de gráfico só deve ser utilizado quando apresentar até três elementos para uma série de no máximo quatro valores.

Figura 0.3

Gráfico de setores

Tipo de gráfico onde a favorável em estudo é projetada num círculo ,de raio arbitrário, dividido em setores com áreas proporcionais às freqüências das suas categorias. São indicados quando se deseja comparar cada valor o total. Recomenda-se uso para o caso em que o número de categorias não é grande e não obedecem a alguma ordem específica. A figura abaixo mostra um gráfico de setores para a variável local de moradia dos funcionários da Empresa Alpha. O procedimento para o cálculo do ângulo correspondente a cada categoria é feito por meio de simples proporções: 360° que correspondem ao círculo completo está para o total de funcionários, 30, assim com x° está para o total de funcionários que pertencem à categoria desejada. Por exemplo, os 54% dos funcionários que moram na capital corresponderá a um ângulo x resultante da expressão = , cujo valor é aproximadamente 196°.

Figura 0.4 – Local de moradia dos funcionários da Empresa Alpha da Cidade de São Paulo – 2001.

Gráficos para Variáveis Qualitativas Contínuas

  1. Histograma

É a representação gráfica através de retângulos adjacentes onde a base colocada no eixo das abscissas corresponde aos intervalos das classes, e a altura é dada pela freqüência absoluta das classes.

Exemplo: De acordo com a tabela 1.9

Figura 0.5

  1. Polígono de Freqüência

É a representação gráfica de uma distribuição de freqüências por meio de um polígono, onde os pontos por perpendiculares traçadas a partir dos pontos médios das classes, e de altura proporcional à freqüência de cada uma das classes. No caso de freqüência acumulada, os segmentos perpendiculares são traçados a partir dos limites da classe. Em ambos os casos, o primeiro e o último pontos são colocados de modo a manter a proporcionalidade do gráfico.

Figura 0.6

Medidas de tendência central

A média Aritmética

A média aritmética de uma distribuição de frequências por pontos ou valores ainda por classes ou intervalos é dada por:

  • = (f1x1+ f2x2 +...+fnxn) / (f1 + f2 +...+fn) = ∑

Assim, por exemplo:

Tabela1.9 –Cálculo da média de uma distribuição por pontos ou valores

Número de filhos (xi)

Número de funcionários (fi)

fixi

0

1

2

3

4

5

7

7

8

6

1

1

0

1

16

18

4

5

Ou seja, o número médio de filhos dos funcionários da Empresa Alpha é 1,47. Já para a Tabela 1.7 é necessário primeiro obter os valores dos pontos médios de cada classe ou intervalo. Fazendo os cálculos na Tabela 1.7, vem:

Tabela 1.10- Cálculo da média de uma distribuição por classes

Idades

Número de funcionários (fi)

xi

fixi

2630

3034

34 38

3842

4246

5

6

6

7

2

28

32

36

40

44

140

192

216

280

88

Deste modo a média das idades será:

Moda

A moda de uma distribuição de valores ou pontos é obtida da mesma forma que para dados não agrupados, ou seja, observando o valor que mais se repetem.Tomando como exemplo os valores da Tabela 1.1 a moda é:

mo = 2, pois este valor com uma freqüência de 8 é o que mais se repete.

A moda de uma distribuição de frequências por classes ou intervalos é dada pelas seguintes expressões:

mo = lii + hi [], denominada de moda de King, ou

mo = lii + hi [], denominada da moda de Kzuber, onde:

lii = limite inferior da classe modal, isto é, a classe de maior freqüência;

(Parte 2 de 4)

Comentários