Estatistica Completa

Estatistica Completa

(Parte 1 de 3)

Luis Felipe Dias Lopes, Dr. lflopes@smail.ufsm.br phil.zaz@zaz.com.br

D E - UFSM 2 0 0 3

Sumário

3.1 Gráficos de Linhas 3.2 Gráficos de colunas ou barras

4 Medidas descritivas 4.1 Medidas de posição

5.3 Conceitos de probabilidade 5.4 Exercícios

5.7 Função de probabilidade

6.2 Exercícios 6.2 Distribuições contínuas de probabilidade

7.6 Distribuições amostrais de probabilidade 7.7 Exercícios

10 Regressão e Correlação

10.9 Exercícios

1 Referências bibliográficas

1Conceitos Básicos

· População (N): Conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum, a população é o conjunto Universo, podendo ser finita ou infinita.

• Finita - apresenta um número limitado de observações, que é passível de contagem. • Infinita - apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos.

• Amostra (n): É um subconjunto da população e deverá ser considerada finita, a amostra deve ser selecionada seguindo certas regras e deve ser representativa, de modo que ela represente todas as características da população como se fosse uma fotografia desta.

Uma população pode, mediante processos operacionais, ser considerada infinita, pois a mesma irá depender do tamanho da amostra. Se a freqüência relativa entre amostra e população for menor do que 5% ela é considerada infinita, se a freqüência relativa for maior do 5% ela é considerada finita.

• Pesquisa Estatística: É qualquer informação retirada de uma população ou amostra, podendo ser através de Censo ou Amostragem.

• Censo: É a coleta exaustiva de informações das "N" unidades populacionais.

• Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, no qual deve seguir um método criterioso e adequado (tipos de amostragem).

1.3 Dado x Variável

• Dados estatísticos: é qualquer característica que possa ser observada ou medida de alguma maneira. As matérias-primas da estatística são os dados observáveis.

• Variável: É aquilo que se deseja observar para se tirar algum tipo de conclusão, geralmente

Z,que pode assumir qualquer valor de um conjunto de dados. As variáveis podem ser

as variáveis para estudo são selecionadas por processos de amostragem. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, classificadas dos seguintes modos:

- Qualitativas (ou atributos): São características de uma população que não pode ser medidas.

Nominal : são utilizados símbolos, ou números, para representar determinado tipo de dados, mostrando, assim, a qual grupo ou categoria eles pertencem.

Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo “maior do que”, “menor do que”, “igual a”, os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, sucessivamente.

- Quantitativas: São características populacionais que podem ser quantificadas, sendo classificadas em discretas e contínuas.

Discretas: são aquelas variáveis que pode assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem, como o número de veículos que passa em um posto de gasolina, o número de estudantes nesta sala de aula.

Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição. Neste caso serve como exemplo o volume de água em um reservatório ou o peso de um pacote de cereal.

· Parâmetros: são medidas populacionais quando se investiga a população em sua totalidade, neste caso é impossível fazer inferências, pois toda a população foi investigada.

• Estatísticas ou Estimadores: são medidas obtidas da amostra, torna-se possível neste caso utilizarmos as teorias inferências para que possamos fazer conclusões sobre a população.

Regras: Portaria 36 de 06/07/1965 - INPM Þ Instituto Nacional de Pesos e Medidas.

1a) Se o primeiro algarismo após aquele que formos arredondar for de 0 a 4, conservamos o algarismo a ser arredondado e desprezamos os seguintes. Ex.: 7,34856 (para décimos) fi 7,3

2a) Se o primeiro algarismo após aquele que formos arredondar for de 6 a 9, acrescenta-se uma unidade no algarismo a ser arredondado e desprezamos os seguintes. Ex.: 1,2734 (para décimos) fi 1,3

3a) Se o primeiro algarismo após aquele que formos arredondar for 5, seguido apenas de zeros, conservamos o algarismo se ele for par ou aumentamos uma unidade se ele for ímpar, desprezando os seguintes.

Ex.: 6,2500 (para décimos) fi 6,2 12,350 (para décimos) fi 12,4

Se o 5 for seguido de outros algarismos dos quais, pelo menos um é diferente de zero, aumentamos uma unidade no algarismo e desprezamos os seguintes. Ex.: 8,2502 (para décimos) fi 8,3

8,4503 (para décimos) fi 8,5

4a) Quando, arredondarmos uma série de parcelas, e a soma ficar alterada, devemos fazer um novo arredondamento (por falta ou por excesso), na maior parcela do conjunto, de modo que a soma fique inalterada.

1.6 Fases do método estatístico O método estatístico abrange as seguintes fases:

a) Definição do Problema Consiste na:

- examinar outros levantamentos realizados no mesmo campo (revisão da literatura); - saber exatamente o que se pretende pesquisar definindo o problema corretamente

(variáveis, população, hipóteses, etc.) b) Planejamento Determinar o procedimento necessário para resolver o problema:

- Tipos de levantamentos: Por Censo (completo); Por Amostragem (parcial).

c) Coleta ou levantamento dos dados Consiste na obtenção dos dados referentes ao trabalho que desejamos fazer.

A coleta pode ser: Direta - diretamente da fonte; Indireta - feita através de outras fontes.

Os dados podem ser obtidos pela própria pessoa (primários) ou se baseia no registro de terceiros (secundários).

d) Apuração dos Dados ou sumarização Consiste em resumir os dados, através de uma contagem e agrupamento. É um trabalho de coordenação e de tabulação.

Apuração: manual, mecânica, eletrônica e eletromecânica.

e) Apresentação dos dados É a fase em que vamos mostrar os resultados obtidos na coleta e na organização.

Esta apresentação pode ser: Tabular (apresentação numérica) Gráfica (apresentação geométrica) f) Análise e interpretação dos dados É a fase mais importante e também a mais delicada. Tira conclusões que auxiliam o pesquisador a resolver seu problema.

2Representação tabular

Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. A elaboração de tabelas obedece à Resolução no 886, de 26 de outubro de 1966, do Conselho Nacional de Estatística. As normas de apresentação são editadas pela Fundação Brasileira de

Geografia e Estatística (IBGE).

2.1 Representação esquemática Título

Cabeçalho

Corpo Rodapé

· Título: O título deve responder as seguintes questões: - O que? (Assunto a ser representado (Fato));

- Onde? (O lugar onde ocorreu o fenômeno (local)); - Quando? (A época em que se verificou o fenômeno (tempo)).

• Cabeçalho: parte da tabela na qual é designada a natureza do conteúdo de cada coluna.

• Corpo: parte da tabela composta por linhas e colunas. • Linhas: parte do corpo que contém uma seqüência horizontal de informações.

• Colunas: parte do corpo que contém uma seqüência vertical de informações.

• Coluna Indicadora: coluna que contém as discriminações correspondentes aos valores distribuídos pelas colunas numéricas.

• Casa ou célula: parte da tabela formada pelo cruzamento de uma linha com uma coluna.

• Rodapé: É o espaço aproveitado em seguida ao fecho da tabela, onde são colocadas as notas de natureza informativa (fonte, notas e chamadas).

• Fonte: refere-se à entidade que organizou ou forneceu os dados expostos. • Notas e Chamadas: são esclarecimentos contidos na tabela (nota - conceituação geral; chamada - esclarecer minúcias em relação a uma célula).

Uma série estatística é um conjunto de dados ordenados segundo uma característica comum, as quais servirão posteriormente para se fazer análises e inferências.

· Série Temporal ou Cronológica: É a série cujos dados estão dispostos em correspondência com o tempo, ou seja, varia o tempo e permanece constante o fato e o local.

Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)

Anos Produção

1980 10 562 Fonte: Conjuntura Econômica (fev. 1983)

• Série Geográfica ou Territorial: É a série cujos dados estão dispostos em correspondência com o local, ou seja, varia o local e permanece constante a época e o fato.

População Urbana do Brasil em 1980 (x 1000)

Região População

Norte 3 037

Nordeste 17 568 Sudeste 42 810

Sul 1 878 Centro-Oeste 5 115

Total 80 408 Fonte: Anuário Estatístico (1984)

• Série Específica ou Qualitativa: É a série cujos dados estão dispostos em correspondência com a espécie ou qualidade, ou seja, varia o fato e permanece constante a época e o local.

População Urbana e Rural do Brasil em 1980 (x 1000)

Localização População

Urbana 80 408 Rural 38 566

Total 118 974 Fonte: Anuário Estatístico (1984)

· Série Mista ou Composta: A combinação entre duas ou mais séries constituem novas séries denominadas compostas e apresentadas em tabelas de dupla entrada. O nome da série mista surge de acordo com a combinação de pelo menos dois elementos.

Local + Época = Série Geográfica Temporal População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

Anos N NE SE S CO

Fonte: Anuário Estatístico (1984)

É o tipo de série estatística na qual permanece constante o fato, o local e a época. Os dados são colocados em classes preestabelecidas, registrando a freqüência de ocorrência. Uma distribuição de freqüência pode ser classificada em discreta e intervalar.

a) Distribuição de Freqüência Discreta ou Pontual: É uma série de dados agrupados na qual o número de observações está relacionado com um ponto real.

Notas do Aluno "X" na Disciplina de Estatística segundo critérios de avaliação do DE da UFSM – 1990

Xi fi

S 15 Fonte: Departamento de Estatística (1990) b) Distribuição de Freqüências Intervalar: Na distribuição de freqüência, os intervalos parciais deverão ser apresentados de maneira a evitar dúvidas quanto à classe a que permanece determinado elemento.

Altura em centímetros de 160 alunos do Curso de Administração da UFSM - 1990

Altura (cm) Xi fi

S ---- 160 Fonte: Departamento de Estatística (1990)

Elementos de uma Distribuição de Freqüências:

Ø Classe ou Classe de Freqüência (K): É cada subintervalo (linha) na qual dividimos o fenômeno.

Para determinar o número de classes a partir dos dados não tabelados, podemos usar a

Fórmula de Sturges, mas deve-se saber que existem outros métodos de determinação do número de classes em uma tabela de freqüência. O que se deseja fazer é apenas comprimir um conjunto de dados em uma tabela, para facilitar a visualização e interpretação dos mesmos.

Além da Regra de Sturges, existem outras fórmulas empíricas para resolver o problema para determinação nos levam a uma decisão final; esta vai depender na realidade de um julgamento pessoal, que deverá estar ligado a natureza dos dados, procurando, sempre que possível, evitar classes com freqüências nulas ou freqüências relativas exageradamente grandes.

Ø Limite de Classe (li ou Li): São os valores extremos de cada classe.

li = limite inferior da i-ésima classe; Li = limite superior da i-ésima classe;

superiores consecutivos

Ø Amplitude total (H): É a diferença entre o limite superior da última classe e o limite inferior da 1ª classe, ou a diferença entre último e o primeiro elemento de um conjunto de dados postos em ordem crescente.

Ø Ponto médio de classe (Xi): É a média aritmética simples do limite inferior com o limite superior de uma mesma classe.

2 LlXiii+=

Quando substituirmos os intervalos de classes pelos pontos médios (Xi), ter-se-á uma distribuição de freqüência pontual.

Ø Freqüência absoluta (fi): É a quantidade de valores em cada classe

Ø Freqüência Acumulada (Fi): É o somatório da freqüência absoluta da i-ésima classe com a freqüência absoluta das classes anteriores, ou a freqüência acumulada da classe anterior.

nfF n

Ø Freqüência Relativa (fri): É o quociente entre a freqüência absoluta da i-ésima classe com o somatório das freqüências.

i i ffr Obs.: 1fr

Ø Freqüência Relativa Acumulada (Fri): É o somatório da freqüência relativa da i-ésima classe com as freqüências relativas das classes anteriores.

1frFr n

3Representação gráfica

Os gráficos são uma forma de apresentação visual dos dados. Normalmente, contém menos informações que as tabelas, mas são de mais fácil leitura. O tipo de gráfico depende da variável em questão

3.1 Gráficos de Linhas Usado para ilustrar uma série temporal.

Produção de Petróleo Bruto no Brasil de 1976 a 1980 (x 1000 m³)

Anos

Produção

População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

Fonte: Anuário Estatístico (1984)

Representação gráfica da distribuição de freqüências. Este gráfico é utilizado para variáveis nominais e ordinais. Características:

3.2.1 Gráfico de Colunas Usado para ilustrar qualquer tipo de série. População Urbana do Brasil em 1980 (x 1000)

N NE SE S CO Regiões

Pop.

N NE SE S CO Regiões

Fonte: Anuário Estatístico (1984)

As larguras das barras que deverão ser todas iguais podendo ser adotado qualquer dimensão, desde que seja conveniente e desde que não se superponham. O número no topo de cada barra pode ou não omitido, se forem conservados, a escala vertical pode ser omitida.

a) Colunas Justapostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

b) Colunas Sobrepostas (gráfico comparativo) População Urbana do Brasil por Região de 1940 a 1980 (x 1000)

Fonte: Anuário Estatístico (1984) 3.2.2 Gráfico de Barras

As regras usadas para o gráfico de barras são iguais as usadas para o gráfico de colunas. População Urbana do Brasil em 1980 (x 1000)

Regiões

Fonte: Anuário Estatístico (1984) Assim como os gráficos de Colunas podem ser construídos gráficos de barras comparativas.

3.3 Gráficos circulares ou de Setores (Pie Charts)

Representação gráfica da freqüência relativa (percentagem) de cada categoria da variável. Este gráfico é utilizado para variáveis nominais e ordinais. É uma opção ao gráfico de barras quando se pretende dar ênfase à comparação das percentagens de cada categoria. A construção do gráfico de setores segue uma regra de 3 simples, onde as freqüências de cada classe correspondem ao ângulo que se deseja representar em relação a freqüência total que

Características:

- A área do gráfico equivale à totalidade de casos (360o = 100%); - Cada “fatia” representa a percentagem de cada categoria

População Urbana e Rural do Brasil em 1980 (x 1000)

Urbana Rural

Fonte: Anuário Estatístico (1984)

Tem por objetivo despertar a atenção do público em geral, muito desses gráficos apresentam grande dose de originalidade e de habilidade na arte de apresentação dos dados.

Evolução da matricula no Ensino Superior no Brasil de 1968 a 1994 (x 1000)

Fonte: Grandes números da educação brasileira março de 1996

3.4.1 Exemplos de pictogramas Evolução da frota nacional de carros à álcool de 1979 à 1987

Os métodos mais eficientes para deixar de fumar segundo 30.0 fumantes entrevistados no Canadá

(Parte 1 de 3)

Comentários