Estatística Descritiva

Estatística Descritiva

(Parte 1 de 3)

1 Estatıstica Descritiva

Entendemos a Estatıstica como um conjunto de tecnicas que permite, de forma sistematica, organizar, descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados em qualquer area do conhecimento. Estamos denominando por dados um (ou mais) conjunto de valores, numericos ou nao. A aplicabilidade das tecnicas a serem discutidas se da nas mais variadas areas da atividade humana.

A grosso modo podemos dividir a Estatıstica em tres areas: 1) Estatıstica Descritiva; 2) Probabilidade e 3) Inferencia Estatıstica.

Estatıstica Descritiva e, em geral, utilizada na etapa inicial da analise, quando tomamos contato com os dados pela primeira vez. Objetivando tirar conclusoes de modo informal e direto, a maneira mais simples seria a observacao dos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, percebemos, imediatamente, que a tarefa pode nao ser simples. Para tentar depreender dos dados informacoes a respeito do fenomeno sob estudo, e preciso aplicar alguma tecnica que nos permita resumir a informacao daquele particular conjunto de valores. Em outras palavras, a estatıstica descritiva pode ser definida como um conjunto de tecnicas destinadas a descrever e resumir os dados, a fim de que possamos tirar conclusoes a respeito das caracterısticas de interesse.

Probabilidade pode ser pensada como teoria matematica utilizada para se estudar a incerteza oriunda de fenomenos de carater aleatorio.

Inferencia Estatıstica e o estudo de tecnicas que possibilitam a extrapolacao, a um grande conjunto de dados, das informacoes e conclusoes obtidas a partir de subconjuntos de valores, usualmente de dimensao muito menor. Deve ser notado que se tivermos acesso a todos os elementos que desejamos estudar, nao e necessario o uso das tecnicas de inferencia estatıstica, entretanto, elas sao indispensaveis quando existe a impossibilidade de acesso a todo o conjunto de dados, por razoes de natureza economica, etica ou fısica.

1.2 Populacao e Amostra

Na terminologia estatıstica, o grande conjunto de dados que contem a caracterıstica que temos interesse recebe o nome de populacao. Esse termo refere-se nao somente a uma colecao de indivıduos, mas tambem ao alvo sobre o qual reside nosso interesse. Assim, nossa populacao pode ser todos os habitantes de Maringa, como todas as lampadas produzidas por uma fabrica em um certo perıodo de tempo, ou todo o sangue no corpo de uma pessoa. Algumas vezes podemos acessar toda a populacao para estudarmos caracterısticas de interesse, mas, em muitas situacoes, tal procedimento nao pode ser realizado. Em geral, razoes economicas sao as mais determinantes dessas situacoes. Por exemplo, uma empresa, usualmente, nao dispoe de verba suficiente para saber o que pensam todos os consumidores de seus produtos. Ha ainda razoes eticas, quando, por exemplo, os experimentos de laboratorio envolvem o uso de seres vivos. Alem disso, existem casos em que a impossibilidade de se acessar toda a populacao de interesse e incontornavel. Na analise do sangue de uma pessoa ou em um experimento para determinar o tempo de funcionamento das lampadas produzidas por uma industria, nao podemos observar toda populacao de interesse.

Tendo em vista as dificuldades de varias naturezas para se observar todos os elementos da populacao, tomaremos alguns deles para formar um grupo a ser estudado. Este subconjunto da populacao, em geral com dimensao sensivelmente menor, e denominado amostra.

Portanto, em termos estatısticos, defini-se populacao, ou universo de dados, como sendo o conjunto dos elementos que tem alguma caracterıstica em comum que possa ser contada, medida, pesada ou ordenada de algum modo e que sirva de base para as propriedades que se quer investigar. A amostra, por sua vez, e um subconjunto, representativo, da populacao em estudo.

Figura 1: Populacao e Amostra.

A selecao da amostra pode ser feita de varias maneiras, dependendo, entre outros fatores, do grau de conhecimento que temos da populacao, da quantidade de recursos disponıveis e assim por diante. Devemos ressaltar que, em princıpio, a selecao da amostra tenta fornecer um subconjunto de valores o mais parecido possıvel com a populacao que lhe da origem. O uso de esquemas de amostragem elaborados pode levar a uma diminuicao no tamanho de amostra necessario para uma dada precisao.

1.3 Nocoes de Amostragem

Amostragem Aleatoria Simples: Em uma amostragem aleatoria simples, os elementos da populacao sao escolhidos de tal forma que cada um deles tenha igual chance de figurar na amostra.

Amostragem Aleatoria Estratificada: Subdividimos a populacao em, no mınimo, duas subpopulacoes (ou estratos) e, em seguida, extraımos uma amostra de cada estrato. A amostragem aleatoria estratificada tem as seguintes caracterısticas: 1) dentro de cada estrato ha uma grande homogeneidade, ou entao uma pequena variabilidade; 2) entre os estratos ha uma grande heterogeneidade, ou entao uma grande variabilidade.

Amostragem Aleatoria Sistematica: Consideramos uma populacao de tamanho N e dela retiramos uma amostra de tamanho n. Definimos k = Nn como fator de sistematizacao. Sortamos um numero entre 1 e k. Seja m esse numero, entao o primeiro elemento da amostra sera m, o segudo m+k, o terceiro m+2k, e assim por diante, ate coletarmos o n-esimo elemento.

Amostragem Aleatoria por Conglomerado: Comecamos dividindo a area da populacao em secoes (ou conglomerados), em seguida, escolhemos algumas dessas secoes e, finalmente, tomamos todos os elementos das secoes escolhidas. A amostragem aleatoria por conglomerado tem as seguintes caracterısticas: 1) dentro de cada conglomerado ha uma grande heterogeneidade, ou entao uma grande variabilidade; 2) entre os conglomerados ha uma pequena variabilidade, ou entao uma grande homogeneidade.

Amostragem por Conveniencia: Simplesmente utilizamos resultados de facil acesso, ou que ja estao disponıveis.

1.4 Classificacao de Variaveis

O conjunto de informacoes disponıveis, apos a tabulacao do questionario ou pesquisa de campo, e denominado de tabela de dados brutos e contem os dados da maneira que foram coletados inicialmente. Cada uma das caracterısticas perguntadas aos entrevistados, tais como peso, altura, sexo, fuma, idade, entre outras, e denominada de variavel. Claramente tais variaveis tem naturezas diferentes no que tange aos possıveis valores que podem assumir. Tal fato deve ser levado em conta nas analises e, para fixar ideias, vamos considerar dois grandes tipos de variaveis: Qualitativas e Quantitativas.

A variavel e qualitativa quando os possıveis valores que assume representam atributo e/ou qualidades.

Se tais variaveis tem uma ordenacao natural, indicando intensidades crescentes de realizacao, entao elas serao classificadas como qualitativas ordinais. Caso contrario, quando nao e possıvel estabelecer uma ordem natural entre seus valores, elas sao classificadas como qualitativas nominais.

Variaveis quantitativas, isto e, variaveis de natureza numerica, podem ser subdivididas em discretas e contınuas. A grosso modo, variaveis quantitativas discretas podem ser vistas como resultantes de contagens, assumindo assim, em geral, valores inteiros. De uma maneira mais formal, o conjunto de valores assumidos e finito ou enumeravel. Ja as variaveis quantitativas contınuas assumem valores nos intervalos dos numeros reais e, geralmente, sao provenientes de uma mensuracao.

Qualitativa Nominal: Sexo, Profissao, Curso. Qualitativa Ordinal: Grau de Instrucao, Classe Social. Quantitativa Discreta: Numero de filhos, Numero de carros. Quantitativa Contınua: Peso, Altura.

Tabela 1: Rol de dados brutos. Var 1 Var 2 Var 3 · Var k

Caso 1 Caso 2 Caso 3

1.5 Organizacao de Dados: Tabelas e Graficos

Veremos a seguir alguns procedimentos que podem ser utilizados para organizar e descrever um conjunto de dados, seja em uma populacao ou em uma amostra.

Tabela 2: Pesquisa sobre a industria do cigarro - Dados Brutos

Filtro Marca Peso do Cigarro (g) Indice de Nicotina (mg)

Variavel Qualitativa:

Tabela 3: Distribuicao de frequencia considerando a variavel filtro dos cigarros. Filtro Frequencia Frequencia Relativa

A Tabela 3 apresenta a distribuicao de frequencia considerando a variavel filtro dos cigarros, onde 70% dos cigarros possuem filtro, enquanto que 30% nao possuem.

Figura 2: Grafico de setores para variavel filtro dos cigarros.

A Figura 2 apresenta o grafico de setores para variavel filtro dos cigarros, onde 70% dos cigarros possuem filtro, enquanto que 30% nao possuem.

Tabela 4: Distribuicao de frequencia considerando a variavel marca dos cigarros. Marca Frequencia Frequencia Relativa

A Tabela 4 apresenta a distribuicao de frequencia considerando a variavel marca dos cigarros, onde 27,5% dos cigarros sao da marca F, enquanto que 5% sao da marca D.

A Figura 3 apresenta o grafico de setores para variavel marca dos cigarros, onde 27,5% dos cigarros sao da marca F, enquanto que 5% sao da marca D.

Figura 3: Grafico de barras para variavel marca dos cigarros.

Tabela 5: Distribuicao de frequencia considerando as variaveis filtro e marca dos cigarros. Marca/Filtro Sim Nao Total

A Tabela 5 apresenta a distribuicao de frequencia considerando as variaveis filtro e marca dos cigarros, onde 3,75% sao da marca D e possuem filtro, enquanto que 2,5% sao da marca F e possuem filtro.

Figura 4: Grafico de barras considerando as variaveis filtro e marca dos cigarros. 5

Variavel Quantitativa:

Tabela 6: Distribuicao de frequencia considerando a variavel ındice de nicotina dos cigarros.

Indice de Nicotina (mg) Frequencia Frequencia Acumulada Freq. Relativa Freq. Relativa Acum.

A Tabela 6 apresenta a distribuicao de frequencia considerando a variavelındice de nicotina dos cigarros, onde 27,5% dos cigarros tem entre 2 e 23mg de nicotina, enquanto que 10% dos cigarros tem entre 25 e 26mg de nicotina.

Obs: O pesquisador pode definir o numero de classes (k), baseando-se em sua experiencia. A amplitude de classe (h) e definida por: h = ATk , onde AT e a amplitude total dos dados.

Figura 5: Histograma para variavel ındice de nicotina dos cigarros.

A Figura 5 apresenta o histograma considerando a variavel ındice de nicotina dos cigarros, onde 2 cigarros tem entre 2 e 23mg de nicotina, enquanto que 8 cigarros tem entre 25 e 26mg de nicotina.

2 Medidas de Posicao

(Parte 1 de 3)

Comentários