Estatistica aula I

Estatistica aula I

(Parte 1 de 3)

Aula 1

Apresentação: Introdução, bibliografia básica, carga horária formas de avaliação, arredondamento de dados, Organização de Dados

1. Introdução

A Estatística consiste de um conjunto de técnicas utilizadas em diversas situações com o propósito de simplificar e facilitar a interpretação de um determinado fenômeno que está sendo estudado. O método estatístico surge com a necessidade da ciência em satisfazer uma série de indagações que não era possível com o método experimental. Neste contexto, este método atua como uma ferramenta importante nos trabalhos de pesquisa das mais diversas áreas do conhecimento como: Engenharia, Ciências Sociais, Educação, Medicina entre outras.

A expansão da aplicação das técnicas estatísticas foi possível graças ao grande avanço da Ciência na área de Informática a partir do Século X que possibilitou a criação de softwares que facilitaram a execução de cálculos e forneceram visualizações gráficas a respeito do fenômeno estudado. O impacto da evolução tecnológica faz-se, sobretudo, sentir na rapidez com que se analisa uma base de dados de grande dimensão e relativa complexidade. Em um período anterior ao desenvolvimento de softwares estatísticos, muitas técnicas, sobretudo as multivariadas, eram evitadas devido a complexidade de seus cálculos e na demora na obtenção dos resultados.

O desenvolvimento da Estatística se deu principalmente a partir do Século XV juntamente com outras áreas científicas. Levantamento de dados estatísticos para censos populacionais e avaliações de produções agrícolas já eram utilizados na Europa no Século XI, no entanto, passou a ter um papel importante com o desenvolvimento da teoria da probabilidade, pois interagiu de forma intensa com diversos ramos da ciência (GADELHA, 2004).

Contribuições importantes foram dadas à Estatística por pesquisadores de Ciências Sociais. No

Século XVII, John Grunt e Willian Petty utilizaram a Estatística para analisar os índices de natalidade e mortalidade em Londres. Mais tarde, em 1693, Edmond Halley construiu a primeira tabela de sobrevivência elaborada com registros vitais da cidade alemã de Breslaw (atual Wroclaw, Polônia) referente ao período de 1687 a 1691 (MEMORIA, 2004).

Christian Huygen, mais conhecido por suas importantes contribuições à astronomia, à ótica e à teoria ondulatória da luz publicou a primeira obra sobre teoria da probabilidade. Ele foi o primeiro a utilizar o termo esperança matemática e com dados estatísticos levantados por John Grunt, em 1662, construiu uma curva de mortalidade e definiu a noção de vida média e probabilidade de sobrevida (GADELHA, 2004).

Matemáticos como Blaise Pascal (1623-1662) e Pierre Fermat (1601-1665) deram valiosas contribuições na aplicação sistemática de análise matemática e estabelecimento de regras gerais para a

2 Apontamentos de Aula - Probabilidade e Estatística - Prof. Rubens A Requena solução de jogos de azar que deu origem a teoria da probabilidade. Nicolo Fontana Tartáglia (1499-1557), Girolano Cardano (1501-1576) e Galileu Galilei (1564-1642) também deram contribuições importantes desenvolvendo princípios estatísticos de probabilidade. Cardano definiu probabilidade de um evento como sendo a razão entre o número de resultados favoráveis e o número de resultados possíveis. Galileu fez um estudo completo sobre resultados possíveis em jogos de dados e Tartáglia realizou estudos de calculo de probabilidade e combinatoriais. Jacob Bernoulli (1654-1705) provou a lei dos grandes números, o que marcou o início de uma nova era na teoria da probabilidade. Essa lei foi o primeiro teorema limite de probabilidade, fundamental para a moderna teoria de amostragem. DeMoivre (1667-1754), matemático francês, propõe técnicas para reduzir problemas de probabilidade a equações diferenciais e usar funções geratrizes para resolver estes problemas. Estas equações foram, mais tarde aperfeiçoadas por Laplace (1749-1827) que obteve para as seqüências de Bernoulli o Teorema Central do Limite. Em 1733, DeMoivre publicou um trabalho no qual introduz pela primeira vez a distribuição normal que usou como aproximação para a distribuição binomial. Daniel Bernoulli (1700-1782), outro membro de uma família de grandes matemáticos, foi o primeiro a propor o uso de estimativas de máxima verossimilhança e aplicar o cálculo diferencial ao invés de combinatoriais na solução de problemas de probabilidade. Computou também a primeira tabela da distribuição normal em 1738 (cinco anos após DeMoivre tê-la descoberta). O matemático e físico suíço Leonard Euler (1707–1783) também deu contribuições importantes na aplicação de probabilidade na análise de loterias, demografia e seguros. Uma contribuição significativa à combinatória foi feita pelo filósofo e matemático alemão Gottfried W. Leibniz (1646-1716) (o primeiro a criar, em 1684, o cálculo diferencial e integral). Os estudos de Leibniz contribuíram para o desenvolvimento de linguagens modernas de lógica de computação e teoria da probabilidade (STINGLER, 2002).

O naturalista francês George-Louis Leclerc, o conde de Buffon, (1707–1788), abriu caminho para o desenvolvimento da paleontologia e investigou a origem dos planetas como produto de colisões para o qual fez estudos de probabilidades. Thomas Bayes (1702–1761), teólogo e matemático inglês, contribuiu muito para a Estatística. LaPlace (1749-1827) deduziu a fórmula hoje conhecida como regra de Bayes, nome dado mais tarde por Poincaré (MEMORIA, 2004).

No Século XIX o alemão Carl Friedrich Gauss (1777–1855), um dos maiores gênios da matemática, estabeleceu a relação da distribuição de erros de medidas com a curva normal e desenvolveu o método dos mínimos quadrados. Entretanto, o matemático francês André Marie Legendre (1752–1833), já havia proposto a aplicação desse método ao combinar observações astronômicas e geodésicas baseado em critério intuitivo (STINGLER, 2002).

Siméon-Denis Poisson (1781–1840), outro grande personagem no desenvolvimento da estatística propôs a aplicação da teoria da probabilidade em correções de decisões judiciais para o qual deduziu a distribuição que hoje leva seu nome. A distribuição de Poisson é utilizada na análise de vários problemas relativos a ocorrências de eventos aleatórios no tempo e no espaço (estudo de filas, radioatividade entre outros) (GADELHA, 2004).

3 Apontamentos de Aula - Probabilidade e Estatística - Prof. Rubens A Requena

Outras contribuições dadas à Estatística pelas ciências sociais e biológicas foram feitas através de

Adolphe Jacques Quetelet (1796–1874) e Sir Francis Galton (1822–1911) respectivamente. As maiores contribuições de Quetelet na análise estatística de dados sociais foram o conceito de homem médio e o ajustamento da distribuição normal conjugados com a interpretação de regularidade estatística. Quetelet usou a curva normal no ajuste de medidas de peso estatura e perímetro torácico em recrutas franceses. Coletou também dados sobre criminalidade e delinqüência agrupando-os de acordo com o sexo, idade, escolaridade e o tipo de delito, introduzindo a idéia de predisposição ao crime. As contribuições mais notáveis de Galton foram a enunciação do conceito de regressão e correlação (MEMORIA, 2004).

Karl Pearson (1857–1936) focou seus estudos em problemas de Biologia e teoria evolucionista. Em 1883 inventou o nome desvio padrão para representar a média quadrática dos afastamentos a partir da média de uma distribuição de freqüências. Seus trabalhos deram contribuições importantes à teoria da regressão, coeficiente de correlação e o teste de significância estatística chamado de Qui-quadrado. Entre 1906 e 1914, Pearson fundou e desenvolveu um centro de pós-graduação em Estatística como extensão da disciplina de Matemática Aplicada. Pearson é conhecido por seus importantes trabalhos em diferentes campos do conhecimento humano como Antropologia, Biometria, Genética, Métodos Científicos e outros. Inicialmente, ganhou fama devido aos seus estudos sobre o comportamento assimétrico das distribuições de freqüências, seus estudos levaram ao desenvolvimento da regressão e correlação múltiplas. (STINGLER, 2002)

Willian Sealey Gosset (1876-1937), conhecido pelo pseudônimo de Student, estudou Matemática e

Química e deu contribuições importantes a Estatística com seus trabalhos sobre pequenas amostras. Estes trabalhos foram continuados por Sir Ronald Aylmer Fisher (1890-1962). O interesse de Fisher pela Estatística decorreu do interesse pela Genética e pelo estudo da teoria da evolução de Darwin. Fisher correspondeu-se com Gosset para conhecer mais a respeito de sua equação sobre o desvio padrão, chegando a conclusões importantes sobre a diferença entre as médias amostrais e populacionais. Formulou a teoria dos graus de liberdade e provou ser verdadeira a formulação matemática de Gosset sobre o assunto. Fisher desenvolveu a teoria do teste de hipótese chamada de análise de variância. Em 1922 e 1925 publicou dois importantes estudos a respeito de estimações (Inferência Estatística) a partir de pequenas amostras. Rao relatou que Fisher foi também o arquiteto da análise multidimensional servindo como base para diversos trabalhos. (STINGLER, 2002)

A teoria clássica dos testes de hipóteses foi fruto da colaboração de dois eminentes estatísticos,

Jerzy Neyman (1894–1981) e Egon Sharpe Pearson, filho de Karl Pearson. Neyman é considerado um dos grandes fundadores da Estatística moderna teorizando sobre probabilidades, teste de hipóteses, intervalo de confiança, teste de qui-quadrado e outras áreas da Estatística. As idéias de Neyman e E. Pearson foram disputadas por matemáticos da época, incluindo Fisher (MEMÓRIA, 2004).

É oportuno registrar que nessa época ainda não havia sido axiomatizado o cálculo de

4 Apontamentos de Aula - Probabilidade e Estatística - Prof. Rubens A Requena probabilidades que só se deu em 1933 com a obra do matemático russo Andrei Nikolaevich Kolmogorov (1903-1987). Kolmogorov foi um dos mais importantes matemáticos do Século X com trabalhos em várias áreas da Matemática. Em 1929, publicou o trabalho Teoria Geral de Medidas e Teoria de Probabilidades, neste foi apresentada pela primeira vez uma descrição da construção axiomática de probabilidade baseada na teoria de medidas que havia sido criada em torno de 1901 por Henry Lebesgue (1875-1941) e Émile Borel (1871-1956). Em 1933, desenvolveu em seu trabalho a teoria de probabilidade de forma bastante rigorosa a partir de fundamentos da axiomatização. Obteve-se então, a base para o desenvolvimento da teoria dos processos estocásticos e definição rigorosa de esperança condicional (STINGLER, 2002).

Pode-se observar, a partir do relato histórico acima, que durante o desenvolvimento da Ciência, sobretudo a partir do Século XV, floresceram numerosas pesquisas estatísticas cobrindo domínios tão diversos como ciências sociais, biológicas e outros. Progressivamente, a finalidade “social e política” da Estatística se desdobrou em uma finalidade científica.

A década de 70 foi marcada pelo agravamento dos problemas ambientais, e, conseqüentemente, pela maior conscientização desses problemas em todo o mundo. Pesquisadores de diversas áreas do conhecimento voltaram sua atenção para o estudo do meio ambiente relatando problemas de contaminação do ar, nas bacias hidrográficas e na litosfera. O uso de técnicas estatísticas tornou-se importante no conhecimento dos fenômenos que permeiam a contaminação do meio ambiente e suas conseqüências sociais, auxiliando na obtenção de respostas e tomada de decisões (YABE et al., 1998).

O uso de técnicas estatísticas multivariadas, no início do Século X, eram bastante restritas devido a complexidade dos cálculos. Graças ao desenvolvimento da informática, sobretudo a partir da I Guerra Mundial tornou-se possível a análise de qualquer tipo de dados, sejam eles, ambientais, econômicos, sociais, comportamentais e outros. A evolução tecnológica facilitou a execução de cálculos, oferecendo rapidez e confiança nos resultados. As limitações metodológicas deixaram de ser uma preocupação, existindo uma bibliografia extensa e variada sobre métodos de análises estatísticas (REIS, 2001).

1.2 Bibliografia básica

NETO, P. L. O. C. Estatística. São Paulo: Edgard Blücher, 2003 SPIEGEL, M. R. Probabilidade e Estatística. Rio de Janeiro: Mcgraw-Hill, 2004 Bibliografia Complementar BRAIO, A. A.; MUSETTI, A. V.; SCHNEIDERMAN, B. Introdução à estatística. São Paulo: Edgard Blücher, 2005.

1.3 Carga Horária: 72 h.a.

5 Apontamentos de Aula - Probabilidade e Estatística - Prof. Rubens A Requena

1.4 Formas de avaliação A1, A2, A3 e A4 (A3 e A4 obrigatórias)

é  3

(A1 ou A2) – a maior nota entre A1 e A2

Composição da avaliações A1, A2 e A4 Prova (P) – 0 a 9 pontos

Trabalhos realizados (T) – 0 a 1 pontos

A1 = P + T (ídem para A2 e A3)

1.5 Arredondamento de dados A prática de arredondamento de dados é bastante valiosa para reduzir ao mínimo os erros acumulados.

Exemplo: Considere a equação

0,16 2,7182818… = 0,45304697

Arredondamento para o menor

Arredondamento para o mais próximo

Note que o erro produzido é menor no caso do arredondamento para algarismo mais próximo. Este sistema é utilizado nas calculadoras.

6 Apontamentos de Aula - Probabilidade e Estatística - Prof. Rubens A Requena Outros exemplos

72,8 (arredondamento para o inteiro mais próximo) 73 72,8146 (arredondamento para o centésimo mais próximo) 72,81 72,465 (arredondamento para o centésimo mais próximo) 72,47

Exercício

Faça o arredondamento dos valores de acordo com as instruções: a) 2,653863 (2 casas decimais) b) 12,36558 (3 casas decimais) c) 59,900365 (4 casas decimais) d) 0,553697 (2 casas decimais) e) 365,986542 (inteiro mais próximo)

1.6 Organização de dados: Etapas da pesquisa, Tabelas e gráficos Etapas da pesquisa

População: é o conjunto de dados que possui as características de interesse. A população pode ser todos os funcionários de uma empresa, todos os colaboradores de uma obra ou todas as peças produzidas por uma máquina.

Amostra: é qualquer subconjunto da população. Muitas vezes não podemos acessar toda a população e precisamos de um conjunto de valores representativos para inferir sobre ela. Não podemos, por exemplo, testar todas as lâmpadas produzidas por uma empresa, coletamos amostras e inferimos sobre a qualidade de toda a população de lâmpadas.

Estatística descritiva: é em geral um conjunto de técnicas utilizadas em uma etapa inicial da análise dos dados. O objetivo é tirar conclusões de modo informal e direito. Estas técnicas permitem descrever e resumir os dados.

Interferência estatística: refere-se a um conjunto de técnicas que permitem inferir sobre um grande conjunto de dados. Utilizamos a interferência quando existe a impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física.

(Parte 1 de 3)

Comentários