Material 06 medidas de posição e de dispersão

Material 06 medidas de posição e de dispersão

4 - Medidas de Posição

Através de tabelas e gráficos construídos anteriormente, vimos como resumir e apresentar um conjunto de dados. Contudo, podemos resumir ainda mais este conjunto, apresentando um ou alguns valores que “representam” todo o conjunto. Esses valores são chamados de medidas de posição.

4.1. Medidas de Tendência Central

São valores estabelecidos num ponto central em torno do qual os dados se distribuem. As medidas de tendência central que iremos estudar são: média aritmética, mediana e moda.

4.1.1 - Média Aritmética:

É a soma de todos os elementos em nosso conjunto de dados dividido pelo total de elementos. Isto é,

Onde n é o total de elementos no conjunto de dados.

A média aritmética é um valor que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se em vez de “variável” ela fosse “constante”.

      1. - Mediana (Md)

É o valor que ocupa a posição central de um conjunto de dados ordenados. Ou seja, é o valor que tiver o mesmo número de elementos no seu lado esquerdo e direito.

Sejam os números a seguir, as cinco observações de uma variável qualquer:

5 6 7 8 8

A mediana para este conjunto é 7, correspondente à 3a observação que ocupa a posição central.

Assim, se o número de elementos for ímpar, a mediana é o elemento cuja a ordem da posição central é:

Onde n é o número de elementos no conjunto de dados.

Sejam as seguintes observações: 5,0 5,5 7,0 8,0 8,5 10,0

Como o número de elementos é par, a mediana é a média aritmética dos dois elementos centrais, cuja ordem:

e

Neste exemplo: T1 = 6/2 = 3 (3O termo) e T2 = (6+2)/2 = 4 (4O termo), logo a mediana é:

Md =

Observe que este é um valor teórico, pois não figura entre os dados originais.

      1. - Moda (Mo)

É o valor que ocorre com maior freqüência em um conjunto de dados.

Exemplo: Conjunto de dados: 7 8 5 7 7 7 5 8 9 7

Moda = Mo = 7

Em um conjunto de dados podemos ter duas modas ou nenhuma; a distribuição que possui duas modas chamamos de distribuição bimodal.

Comparação entre média aritmética, mediana e moda.

Há um momento em que o pesquisador fará a seguinte pergunta: Qual a medida de tendência central que representa melhor o conjunto de dados em estudo?

Assim, mostraremos as vantagens e desvantagens de cada uma das medidas de tendência central.

  • A moda é uma medida que requer apenas o conhecimento da freqüência absoluta e pode ser utilizada para qualquer tipo de variáveis, tanto qualitativas, quanto quantitativas.

  • A mediana é uma medida que exige uma ordenação de categorias, da mais alta a mais baixa, assim ela só pode ser obtida para variáveis qualitativas ordinais ou para as quantitativas, jamais para variáveis qualitativas nominais. Além disso, a mediana não é influenciada por valores extremos.

  • A média aritmética trabalha com todos os elementos do conjunto de dados, enquanto a mediana utiliza apenas um ou dois valores. No entanto a média sofre influência de valores extremos (muito alto ou baixo).

  • A média é uma medida que pode ser calculada apenas para variáveis quantitativas. E embora a média seja um valor mais fácil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores muito extremos.

Assim, no caso das variáveis quantitativas, quando o valor da Mediana é muito diferente da Média, é aconselhável considerar sempre a Mediana como valor de referência mais importante.

Quando a distribuição dos dados é considerada "normal", então a melhor medida de localização do centro, é a média. Ora sendo a Distribuição Normal uma das distribuições mais importantes e que surge com mais freqüência em aplicações, esse fato justifica a grande utilização da média. Esquematicamente podemos posicionar a média da forma seguinte, tendo em conta a representação gráfica na forma de histograma.

Outras Medidas de Posição

  • Quartis (Q1 e Q3): São medidas de posição que dividem um conjunto de dados ordenados em quatro partes iguais.

    

Mín. Q1 Md Q3 Máx.

Onde:

  • O 1O Quartil (Q1) significa que 25% dos dados são inferiores a Q1, ou que 75% dos dados são superiores a Q1.

  • O 3O Quartil (Q3) significa que 75% dos dados são inferiores a Q3, ou que 25% dos dados são superiores a Q3.

E

Q1 =

m geral Q1 < Me < Q3.

Q3 =

Box plot ou desenho esquemático

É um tipo de representação gráfica, em que se realçam algumas características da amostra, fornecendo uma idéia da posição central, dispersão, assimetria, cauda e dados discrepantes. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º QUARTIS, que vamos representar por Q1 e Q3 é representado por um retângulo (caixa) com a MEDIANA indicada por uma barra vertical. A largura do retângulo não dá qualquer informação. Consideram-se seguidamente duas linhas que unem os meios dos lados do retângulo com os extremos da amostra. Para obter esta representação, começa por se recolher da amostra, informações sobre 5 números, que são: os 2 extremos (mínimo e máximo), a mediana e o 1º e 3º quartis. A posição central dos valores é dada pela mediana e a dispersão d = Q3 - Q1. As posições relativas Q1, Me e Q3 dão uma noção da simetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores mais afastados que não sejam outliers e pelos próprios outliers. A representação do diagrama de extremos e quartis tem o seguinte aspecto:

Existem fundamentalmente 3 características, que nos dão idéia da simetria ou enviesamento e da sua maior ou menor concentração: distância entre a linha indicadora da mediana e os lados do retângulo; comprimento das linhas que saem dos lados dos retângulos e comprimento da caixa. Apresentamos a seguir 3 exemplos de boxplot, correspondentes a tipos diferentes de distribuição de dados.

Os dados são assimétricos

Os dados são assimétricos

Os dados são simétricos

Exemplo:

Dados os números:

3 4 2 1 7 5 4 2 1 7 8 5 2 1 4 3 5 5 6 7 9 8 8 8

Achar Q1, Q3, mediana e construir o Boxplot

  • Decis: São medidas de posição que dividem um conjunto de dados ordenados em dez partes iguais.

  • Percentis: São medidas de posição que dividem um conjunto de dados ordenados em cem partes iguais.

  1. - Medidas de Dispersão ou

Medidas de Variabilidade

Medidas de dispersão ou de variabilidade são “estatísticas” que medem as oscilações ou as variações de uma variável.

Exemplo:

Seja os quatro conjuntos abaixo, as notas de quatro turmas:

Turma A: 4 4 5 6 6

Turma B: 5 5 5 5 5

Turma C: 2 3 6 6 8

Turma D: 0 0 5 10 10

Os conjuntos são iguais?

Em qual das turmas há maior variação ou dispersão dos dados em relação à média?

Para calcularmos esta dispersão em relação à média, utilizaremos algumas medidas:

5.1 - Variância: (para população)

(para amostras)

5.2 - Desvio Padrão: (para população)

(para amostras)

5.3 - Desvio Médio: DV =

5 .5 - Coeficiente de Variação

O coeficiente de variação mede a homogeneidade dos dados em conjunto, em relação a média, sua fórmula é expressa por:

O valor obtido será dado em porcentagem. E acima de 30% o conjunto de dados é considerado heterogêneo e abaixo de 30% o conjunto é considerado homogêneo.

19

Comentários