introdução estatistica

introdução estatistica

(Parte 1 de 5)

NOTAS DE AULA MAT236 – MÉTODOS ESTATÍSTICOS 1ª UNIDADE

Elaborada pelas professoras:

Giovana Silva, Lia Moraes, Rosana Castro e Rosemeire Fiaccone

Revisada em 2010.2 Monitora: Tatiana Felix da Matta

1. INTRODUÇÃO

1.1 O que é estatística e suas divisões

Para muitos a Estatística não passa de conjuntos de tabelas de dados numéricos. Mas será que a estatística é só isso?

A Estatística originou-se com a coleta e construção de tabelas de dados para o governo. A situação evoluiu e esta coleta de dados representa somente um dos aspectos da Estatística. Hoje em dia podemos adotar a seguinte definição para a Estatística:

A Estatística constitui-se num conjunto de técnicas e métodos científicos que tratam da coleta, análise e interpretação de informações numéricas, cujo objetivo principal é auxiliar na tomada de decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas.

A Teoria Estatística moderna se divide em dois grandes campos:

Estatística Descritiva - consiste num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante numerosa por um número pequeno de medidas, substitutas e representantes daquela massa de dados.

Estatística Indutiva ou Inferência Estatística - consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades.

A Estatística Descritiva abrange métodos gráficos e numéricos, utilizados para resumir dados de maneira que características importantes da amostra possam ser expostas.

A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou a área da Estatística denominada “Estatística Descritiva”.

Na maioria das vezes não podemos investigar o fenômeno que estamos interessados em estudar em todos os elementos da população por ser o custo muito alto, por necessitar de muito tempo para o levantamento dos dados. Para resolver o problema devemos trabalhar com um subconjunto da população, chamado de AMOSTRA.

Se selecionarmos os elementos da amostra de acordo com critérios estatísticos, podemos conhecer as informações relativas à população através da amostra.

A inferência estatística procura com base nos dados amostrais tirar conclusões sobre a população. Considere o exemplo abaixo para ilustrar as definições dadas.

Exemplo: (Notas de Aula da Disciplina MAT116 - USP) Numa pesquisa eleitoral um Instituto de Pesquisa procura com base nos resultados de um levantamento aplicado a uma amostra da população prever o resultado da eleição. Considere o candidato “A”: a) Denomine por p a proporção de pessoas que votarão em “A” na eleição.

b) Denomine por a proporção de pessoas no levantamento de opinião (amostra) que expressam intenção de voto em “A”.

Podemos usar o valor de para estimar a proporção p da população.

O esquema a seguir resume as etapas de um trabalho estatístico:

1.2 Por que precisamos aprender Estatística?

Quase toda atividade e experiência humana envolvem coleta e análise de algum tipo de informação (dados). Na coleta de dados relativos ao comportamento ou outras características de um grupo de indivíduos, amostras aleatórias de um processo ou resultados de repetitivas medições, sempre envolvem variação.

Métodos estatísticos representam as ferramentas básicas para compreender as variações, porque a análise estatística é a única base para tentar entender variabilidade.

Os métodos estatísticos são consciente ou inconscientemente usados em várias situações, especialmente na apresentação de informações oriundas de dados numéricos. Diversas vezes, apresentações são baseadas, principalmente, em algum tipo de técnica utilizando teorias matemáticas; porém durante a preparação e apresentação dos dados, métodos estatísticos são utilizados para definir a técnica de coleta de dados e chegar a uma conclusão através das informações coletadas. Os métodos estatísticos têm aplicações em:

• Indústrias: coleta de dados na linha de produção, para manter e controlar o processo produtivo, o que assegura o nível de produção e os padrões de qualidade; otimização do processo produtivo; detecção das variáveis que realmente influenciam o processo, viabilizando-se as experiências que possam levar a alterações efetivas nesse processo; planejamento de experimentos

População Amostra

Técnicas de Amostragem

Análise Descritiva

Conclusões sobre as características da população

Informações contidas nos dados

Inferência Estatística viáveis, com vistas à economia de observações e, portanto, de custo; planejamento de métodos de coleta e análise de dados para a exploração mineral;

• Instituições públicas: planejamento da coleta, do armazenamento e do processamento de informações; processamento de dados com o objetivo de sintetizar e divulgar resultados; montagem de tecnologia adequada de geração de indicadores econômicos; previsão de safras, projeção de demandas;

• Hospitais e instituições de pesquisa médica: prestação de assessoria estatística no exame da validade de testes clínicos; no estabelecimento de padrões de referência; na determinação de fatores de risco de doenças; na comparação de resultados de diversos tratamentos clínicos e no planejamento de experimentos clínicos controlados, de estudos de casos e de estudos prospectivos;

• Empresas de pesquisa de opinião e mercado: prestação de assessoria estatística no levantamento de audiências de programas de televisão, da popularidade de candidatos a cargos políticos; na avaliação da aceitação de novos produtos; na realização de pesquisas para determinação do perfil do consumidor e no planejamento e execução e pesquisa para determinação das características sócioeconômicas dos habitantes da região;

• Bancos e companhias de seguro: elaboração de previsões a serem utilizadas como instrumento gerencial; trabalho em associação com a atuária nos cálculos das probabilidades de morte, doença, roubo de carro, etc.; otimização de procedimentos de atendimento ao público

• Centros de pesquisa: prestação de assessoria estatística em todas as fases de um projeto de pesquisa que envolva coleta, tratamento e análise de dados.

Os empregados de uma empresa devem tornar-se mais familiarizados com estatística. Eles devem entender e conhecer as técnicas estatísticas disponíveis, e adaptação de dados de experimentos para a análise estatística. Um profissional treinado em Estatística terá maior facilidade em identificar um problema em sua área de atuação, determinar os tipos de dados que irão contribuir para a sua análise, coletar estes dados e a seguir estabelecer conclusões e determinar um plano de ação para a solução do problema detectado. Qualquer um que derive informações a partir de dados está agindo como um estatístico.

1.3 População e amostra

População - Conjunto de indivíduos, objetos ou informações que apresentam pelo menos uma característica comum, cujo comportamento interessa-nos analisar. Ou, em outras palavras, conjunto de todas as medidas, observações relativas ao estudo de determinado fenômeno.

i) Deseja-se conhecer o consumo total de energia elétrica em MWH nas residências da cidade de Salvador no ano de 1998. População ou universo: todos as residências que estavam ligadas a rede elétrica em Salvador, em 1998. Características: X = consumo anual de energia elétrica em MWH. i) Deseja-se saber se nas indústrias situadas no Estado da Bahia, em 1997, existia algum tipo de controle ambiental. População ou universo: indústrias situadas no Estado da Bahia em1997.

Característica: X = existência ou não de algum tipo de controle ambiental na indústria.

i) Estudo sobre a precipitação pluviométrica na Região Nordeste no ano 1997.

População ou universo: área referente à Região Nordeste. Característica: X = precipitação pluviométrica.

Populações finitas e infinitas: Quanto ao número de elementos, as populações podem ser classificadas em finita ou infinita, dependendo do número de elementos que a compõe.

Exemplos : i) População finita: empresas do Pólo Petroquímico de Camaçari. i) População infinita: as pressões atmosféricas ocorridas nos diversos pontos do Continente em determinado momento.

Em geral, como os universos são grandes, investigar todos os elementos populacionais para determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de investigação leva a destruição do elemento observado, ou, como no caso de populações infinitas, é impossível observar a totalidade da população. Assim, estudar parte da população constitui-se um aspecto fundamental da Estatística.

Amostra: É qualquer subconjunto da população.

1.4 Tipos de variáveis

As características da população que nos interessa analisar recebem o nome de variáveis. As características ou variáveis podem ser divididas em dois tipos: qualitativas e quantitativas.

Variáveis qualitativas - quando o resultado da observação é apresentado na forma de qualidade ou atributo. Exemplos: sexo; estado civil; grau de escolaridade; etc.

Variáveis quantitativas - quando o resultado da observação é um número, decorrente de um processo de mensuração ou contagem. Exemplos: número de filhos; salário mensal; altura; peso; idade; tamanho da família; etc.

As variáveis qualitativas são divididas em dois tipos: nominal, para a qual não existe nenhuma ordenação nas possíveis respostas da referida variável, e ordinal, para a qual existe uma ordenação. Por exemplo,

Qualitativa NOMINAL (SEXO, COR DOS OLHOS,TIPOS DE DEFEITOS...)

As variáveis quantitativas são divididas em: discretas, que assumem valores em um conjunto finito ou enumerável de números, contínuas, que assumem valores em um intervalo números reais.

Quantitativa CONTÍNUA (PESO, ALTURA, VIDA ÚTIL DE BATERIA...)

Para resumir as informações levantadas durante uma pesquisa usaremos a técnica e a representação mais apropriada, a depender do tipo de variável que estamos analisando.

2. APRESENTAÇÃO DOS DADOS

Esta seção apresenta alguns procedimentos que podem ser utilizados para organizar e descrever um conjunto de dados, tanto em uma população como em uma amostra.

O conjunto de informações disponíveis, após a tabulação do questionário ou pesquisa de campo, é denominado de tabela de dados brutos. Apesar de conter muita informação, a tabela de dados brutos pode não ser prática para respondermos às questões de interesse.

Exemplo: Banco de dados (dados brutos)

Foi realizada uma pesquisa por amostragem junto às indústrias de matérias plásticas nas principais regiões metropolitanas do Brasil e investigou-se as seguintes variáveis: constituição jurídica; porte; número total de empregados em 1999; faturamento anual em 1998 e 1999; tempo de existência; região metropolitana; e setor de atividade. As observações referentes às 106 empresas amostradas encontram-se no arquivo Empresa.xls.

Dado um conjunto de dados o modo de condensação ou apresentação das informações pode ser na forma de tabelas de frequências ou de gráficos que facilitam a visualização do fenômeno, permitem a comparação com outros elementos ou, ainda, fazer previsões.

2.1 Tabela ou Distribuição de frequências

O fenômeno considerado é uma variável qualitativa ou quantitativa (discreta ou contínua) e seus valores observados são descritos considerando o número de vezes que ocorreram na tabela de dados brutos (frequência). Algumas definições:

Frequência simples absoluta( fi ): é o número de ocorrências ou repetições de um valor individual ou um intervalo de valores.

Frequência simples relativa(fri): é a razão entre a frequência simples absoluta e o número total de dados (soma de todas as frequências simples absolutas).

Agora vamos exemplificar distribuições de frequência para cada tipo de variável.

1ª) Variável qualitativa Nominal ou Ordinal

As variáveis qualitativas obtidas em uma pesquisa podem ser organizadas em formas de tabelas para facilitar a visualização e análise dos dados.

Exemplo 2.1: Considere a planilha de dados empresa.xls. Para a variável “porte de empresa” construa uma tabela:

Tabela 2.1: Porte das indústrias de matérias plásticas nas principais regiões metropolitanas do Brasil - 1999

Porte da Indústria Números de indústrias %

Total geral 106 100,0 Fonte: Dados fictícios a) Variável Quantitativa Discreta

Exemplo 2.2: Foi observado o número de defeitos apresentados por uma máquina industrial durante o período de 30 dias. Os resultados foram os seguintes:

Tabela 2.2: Número de defeitos em uma máquina industrial durante o período de 30 dias

Número de defeitos Quantidade (fi) %

Total 30 100,0 Fonte: Dados fictícios b) Variável Quantitativa Contínua Para certo conjunto de dados, vamos adotar a seguinte nomenclatura:

1. Máximo (max): maior valor do conjunto. 2. Mínimo (min): menor valor do conjunto. 3. Amplitude total (AT): é a diferença entre o valor máximo e mínimo.

AT = MAX – MIN 4. Classe: é cada um dos intervalos em que se subdivide a amplitude total. Representação: k = número de classes

5. Limite superior ( lsup): é a cota superior para os valores da classe. 6. Limite inferior ( linf): é a cota inferior para os valores da classe.

7. Amplitude do intervalo de classe (hi): é o comprimento da classe, definida como a diferença entre o limite superior e inferior.

8. Ponto médio (Xi): é a média entre os limites superior e inferior da classe i.

Determinação do número de classes e amplitude do intervalo de classes:

Não existem regras gerais, universalmente aceitas, para a determinação do número de classes. Existem, no entanto, algumas regras propostas por diferentes autores, que dão ideia aproximada do número de classes em função do número de dados.

Um dos métodos utilizado é chamado de regra de Sturges ou regra do logaritmo. Ele estabelece que em que k é o número de classes e n é o número de dados. Outra maneira para obter o número de classes é

Mesmo conhecendo alguns métodos para a determinação do k, deve-se saber que a escolha dependerá antes da natureza dos dados, da unidade de medida e da experiência e do bom senso de quem fará a organização dos dados da pesquisa.

Uma vez encontrado o número de classes, determina-se a amplitude do intervalo de classes através da fórmula:

70,7 71,8 73,9 74,4 75,9 76,0 76,6 76,7 7,4 78,0 78,1 78,1
78,278,4 78,4 78,4 78,5 78,5 78,5 78,9 79,0 79,1 79,3 79,3
79,5 79,579,7 79,8 79,9 79,9 80,1 80,2 80,4 80,4 80,5 80,7
80,7 80,780,9 81,3 81,4 81,6 81,8 81,9 82,0 82,0 82,1 82,3
82,582,7 82,9 83,0 83,0 83,2 83,4 83,5 83,6 83,6 83,7 83,8
84,3 84,5 84,5 84,5 84,6 85,2 85,5 85,5 85,786,4 86,5 86,8
86,886,8 87,1 87,1 87,1 87,3 8,5 90,0

Exemplo 2.3: (Werkema, 1995) Os dados abaixo representam o rendimento em (%) de uma reação para fabricação de uma substância química, em 80 bateladas produzidas por uma indústria. A empresa decidiu construir uma tabela de frequência para obter um resumo do conjunto de dados.

Procedimento para construir uma tabela de distribuição de frequências com intervalos de classes.

Solução: Neste caso, n = 80 ⇒ k = (80)1/2 ≅ 9 A amplitude total será dada por AT = 90 – 70,7 = 19,3.

Assim, a amplitude de cada intervalo de classe será: h ≅ 2,2

Dessa forma, a tabela de distribuição de frequências para dados agrupados em classes fica da seguinte maneira:

Tabela 2.3: Rendimento (em %) de uma reação para fabricação de uma substância química.

Rendimento Número de substância (fi) %

Total 80 10,0 Fonte: Dados fictícios

2.1.1 Tabela de múltipla entrada

(Parte 1 de 5)

Comentários