Curva Normal explicada por Julian Simon

Curva Normal explicada por Julian Simon

Dificilmente existe algo que impressione tanto a imaginação como a admirável forma da ordem cósmica expressa pela Lei da Freqüência do Erro. Esta lei teria sido personificada e deificada pelos gregos, se eles a tivessem conhecido”.

(Sir Francis Galton)

Curva Normal: - qual é o seu “significado”?

“What Does the Normal Curve “Mean”? by Julian L. Simon (University of llinois)

The Journal of Educational Research. v. 61, n.10, July-August, p. 435-438,1968.

Resumo. Nos primórdios da história da Distribuição Normal, vários autores, sobretudo E. G. Boring1; advertiram que a Distribuição Normal não é inerida na natureza, e que não há nada de “normal” sobre essa distribuição que segue a função f(z) = [1/sqrt(2π)] e-(z2/2). mas infelizmente muitos não compreenderam isso.

O objetivo deste artigo vai mais além. A Distribuição Normal é realmente criada pelo pesquisador. Constitui uma prática científica comum isolar e controlar de forma sucessiva todas as variáveis explanatórias importantes, onde cada uma constitui causas de que a distribuição original não se assemelhe à Normal. O aparecimento da Distribuição Normal indica, apenas, que foi permitida a atuação da maioria dentre as mais importantes variáveis explicativas, enquanto as restantes, dentre muitas relevantes variáveis, tiveram pequena influência. Este é o momento no qual o cientista termina o seu trabalho. Isto é o que “significa” a Curva Normal.

Pode-se definir, simplesmente, a Curva Normal como a função traçada pela expressão [1/sqrt(2π)] e-(z2/2). Ou, pode-se falar da Curva Normal como a função da distribuição gerada pelo seguinte processo. Coloque dezesseis moedas em um copo, sacuda o copo com as moedas, e jogue as moedas sobre uma mesa; conte o resultado +1 para cara e -1 para cada coroa; então repita o processo muitas vezes. Os dados obtidos representam a Figura 1, mostrada a seguir sob duas formas equivalentes.

comando no Minitab: após Ctrl+L

DPlot;

Distribution;

Binomial 16 0,5.

Figura 1a. Distribuição de probabilidade do número de caras em 16 lançamentos de uma moeda.

Figura 1b. Distribuição de probabilidade para 16 moedas expressa em termos de excesso de caras (Warren Weaver, Lady Luck (New York: Doubleday Anchor, página 246, 1963).

Se o número de caras for aumentado de forma elevada, digamos para uma escala de mil ou um milhão de vezes – e se as moedas forem lançadas muitíssimas vezes, o gráfico de barras irá se assemelhar ao formato de sino da Curva Normal.

Os estudantes, porém, querem saber o que tem de “normal” esta curva em particular. Por que é encontrada com tanta freqüência na natureza? Por que é tão empregada por professores do ensino médio, quando classificam o desempenho dos seus alunos por conceitos A, B...?

Considerações ou afirmações desse tipo são encontradas em muitos livros-texto que são referências em vários campos, como por exemplo, “... para a maior parte das distribuições, os psicólogos, encontrarão a abordagem do tipo normal” (Guilford2); e existem muitas variáveis biológicas cujas distribuições são, aproximadamente, do tipo normal, por exemplo, a altura dos homens ou comprimento das espigas de milho3.

Um dos infelizes aspectos de explicações como essa é de que a palavra “normal” é escrita com “N” em letra minúscula, assim essas afirmações sugerem que o escritor está se referindo à experiência normal e não à Curva Normal. Não é de se admirar que o estudante que cursou um semestre de estatística acredite que a Curva Normal seja uma lei básica da natureza, uma lei que carrega uma qualidade mística devido ao nome e por causa do entendimento imperfeito do estudante sobre esse conceito. E o estudante de agora não está sozinho nesse credo; pois em 1733, quando Abraham De Moivre chegou à função exponencial, descobrindo a Curva Normal, pensava que se tratava de um teorema teológico; de que estava determinando a freqüência das irregularidades do Plano Original da Divindade”4.

Alguns autores, por exemplo, Warren Weaver, no seu livro Lady Lucky de 1963, chama a atenção de que não há nada de anormal sobre as distribuições que não se parecem com a Normal, e evita o título “Normal” e usa a “Distribuição Gaussiana”. Mas isso não evita a noção de que existe algo de profundo na natureza de natureza que corresponde a este tipo especial de curva.

Explicações sérias sobre a Curva Normal são apresentadas na forma de erros e, de fato, a Curva Normal é algumas vezes chamada de “Lei dos Erros”. Em qualquer medição, há um número elevado de pequenas fontes de erro, precisamente por serem muitíssimo pequenas, forças complexas atuam e determinam se, no lançamento da moeda, o resultado será cara ou coroa: a força do vento, a pressão do ar próximo da moeda, sua posição inicial e etc. Portanto, esperamos que o modelo seguido pelas moedas seja, também, o modelo seguido pelas medições científicas que contém muitos pequenos erros identificáveis e muitos pequenos erros não identificáveis. Isto explica porque a Curva Normal é tão comumente empregada no andamento de um estudo científico; pois sempre existe erro, e os erros com freqüência são “Normalmente distribuídos”. Ebbinghaus5 foi muito claro quanto a este significado restrito do conceito há muito tempo.

Em 1928, Boring6 resumiu a situação de forma brilhante:

(...) vamos deixar de lado a questão a priori da natureza da lei normal. Não existe, enfim, nada de mágico. A curva nos devolve sempre o que damos a ela. Se soubermos, por experiência, o que a natureza pode nos dar, como fizemos com a moeda, então prosseguimos com motivos justificados na aplicação da lei e obtemos os resultados. Se não conhecemos o que a natureza nos pode dar, devemos apelar à natureza e observar. Não temos motivo algum para esperar encontrar uma lei, antes que seja efetuada a apelação à natureza; enquanto temos um motivo, considerável, em esperar não encontrá-la, pois a forma da distribuição depende da unidade de medição e temos, em nossa escolha arbitrária, um número infinito de possibilidades. Quando vamos à natureza encontramos todos os graus de semelhança à lei dos erros e divergências dela. E podemos mesmo encontrar que o grau de divergência da normal se torna um fato significante de nossa observação.

Mas eu, Julian L. Simon, penso que tal explicação ainda precisa de algo para ser completa e para dar o significado mais importante.

A característica mais importante da Distribuição Normal é: (i) sua ocorrência é inteiramente causada pelo pesquisador; (ii) o seu surgimento “significa”que o pesquisador pode considerar que sua pesquisa está acabada. Desejo justificar as duas partes desse argumento.

(i) a sua ocorrência é inteiramente causada pelo pesquisador

Quando você decide avaliar um determinado fenômeno, é sua a decisão de não avaliar todos os outros fenômenos neste mundo, quer sejam similares ou não em relação ao que você está avaliando. A escolha é efetuada sob determinada proposta científica (sentido amplo). Quanto mais homogêneo for o conjunto de eventos escolhido para avaliação, com maior probabilidade a Curva Normal será um bom ajuste dos dados.

O fato de a Curva Normal ser resultante das escolhas e das táticas científicas constitui minha alegação de que a Curva Normal é feita pelo pesquisador, ao invés de afirmar que é encontrada pelo pesquisador, como Guilford sugere.

Existe, também, um outro sentido no qual o surgimento da Curva Normal se deve ao pesquisador. Se for observada uma medição discrepante (não usual), então, o pesquisador tem duas possibilidades. Após a investigação, pode (a) tratar o ocorrido como algo isolado, não representativo, ou (b) certificar-se da causa que motivou o valor incomum. Em qualquer dos casos, tem-se uma distribuição empírica semelhante à Normal.

A variável altura é o exemplo mais freqüente de uma variável que segue a Curva Normal, assim, por esse motivo vamos considerá-la. Imagine que estamos o suficientemente loucos para empreender um levantamento das alturas de todos os organismos sobre o planeta Terra, faremos um censo de todos os organismos vivos. Poderei com muita dificuldade opinar por algum tipo de distribuição porque dependerá em muito do que eu decidir contar nesse levantamento e, também, do grau de habilidade que tiver nas minhas medições da altura. Em particular, consideraríamos os vírus como organismos independentes? E seríamos capazes de distinguir entre as alturas de vírus individuais? Também, em qual direção mediremos a altura de uma baleia? Nossa distribuição poderia ser parecida, talvez, com aquela da Figura 2. Não sabemos com seria, mas não há motivo algum para cogitar que fosse parecida com a Normal.

Figura 2. Curva imaginária sobre todos os organismos vivos.

Nenhum cientista começaria tal projeto. Ele poderia efetuar um levantamento da altura de todos os mamíferos. Mesmo nesse caso, não saberia nem mesmo opinar qual seria a forma da curva. Contudo, observe que a distribuição dependeria em saber: (i) se as autoridades da cidade tiveram a preocupação de exterminar os ratos; (ii) se o número de humanos aumentou em relação ao número de baleias, etc. Outra vez, não há motivo algum para supor que a distribuição de alturas fosse parecida com a Normal.

Não seria tão fora de propósito que um cientista efetuasse um levantamento sobre a altura da espécie dos Homo sapiens. Penso que isso nunca foi feito. Mesmo que fosse duvidaria que os resultados fossem parecidos com a Normal. Os pigmeus da África e os aborígines da Austrália, mais o número de crianças no mundo poderia ser como a figura 3.

Figura 3. Os pigmeus da África e os aborígines da Austrália, mais o número de crianças no mundo.

O pesquisador seguiria a prática usual de classificar a altura dos seres humanos pela raça. Entretanto, como fazê-lo? Não é algo óbvio porque há misturas de raças em muitos países. Tentaria isolar tais grupos como o dos pigmeus. O pesquisador seguiria a prática usual de restringir a sua investigação a um país ou a uma localidade, especialmente se a sua pesquisa for motivada por questões práticas, por exemplo, os proprietários de teatro precisam conhecer a distância entre as fileiras dos assentos. Mas mesmo as distribuições de alturas das pessoas nos EUA não serão necessariamente Curvas Normais; em 1967 havia uma proporção maior de crianças não ainda crescidas do que na população de 1945; em qualquer uma delas, seja a de 1967 ou a de 1945, certamente, as distribuições não foram parecidas com a Normal – e talvez em nenhum ano.

Bem, você poderá dizer: - o que aconteceria se excluirmos as crianças da distribuição? Sim, a distribuição resultante será provavelmente muito próxima da Normal. Contudo, a curva ainda pode ser do tipo como apresentada na Figura 4.

Figura 4. Os pigmeus da África e os aborígines da Austrália, com exclusão das crianças.

Mesmo um leigo irá opinar que os dois picos são causados pela inclusão de homens e de mulheres. E de fato, os estudos em geral apresentam separadamente a distribuição de homens e de mulheres. E neste estágio da investigação a distribuição de homens e de mulheres pode parecer com a Curva Normal.

Ainda os dados divergirão de alguma forma da Normal. Mas se formos sucessivamente fazendo novas classificações, estreitando os dados segundo a idade, o país de origem dos ancestrais, educação e outras variáveis, cada uma das curvas resultantes será próxima e cada vez mais próxima da Normal. Por quê? Porque a variação nas alturas em cada uma das classificações, ou dos sub-grupos, é o resultado de muitíssimas forças, cada uma delas tendo um efeito relativamente pequeno, mas nenhuma delas tem um efeito grande ou que possamos juntar informações: elementos específicos da dieta, quantidade de exercício, fatores genéticos e psicológicos, e assim por diante. Em outras palavras, a situação agora é muito semelhante àquela do lançamento das moedas, cada uma delas é influenciada por numerosos e pequenos fatores.

O ponto importante a salientar é de que por meio desse processo de continuamente estreitarmos a população em direção à homogeneidade, o cientista causa a distribuição por se parecer com a Normal. Uma explicação similar se aplica para cada etapa da pesquisa científica que mostra esta maravilhosa, mas artificial curva. Dito de outra forma, as Curvas chamadas de Normal são feitas e não nascidas.

Agora, vamos para a segunda idéia.

A característica mais importante da Distribuição Normal é: (i) sua ocorrência é inteiramente causada pelo pesquisador; (ii) o seu surgimento “significa”que o pesquisador pode considerar que sua pesquisa está acabada.

(ii) o aparecimento“significa”: a pesquisa chegou a bom termo

A ocorrência da Curva Normal em um conjunto de resultados pode ser considerada como um sinal de que a investigação científica está terminada (“is complete”).

Pode-se dizer que o cientista tenta encontrar um relacionamento entre as diferentes classes de fenômenos. Ele tenta encontrar variáveis independentes que o ajudem a explicar ou predizer a variável dependente. Pretende avaliar o relacionamento entre os fatores (de um estudo experimental) com a variação do fenômeno, a variável resposta de um estudo experimental. Mas, o cientista não está atrás de qualquer relacionamento. Ele procura importantes relacionamentos, ou seja, relacionamentos que dizem quanto de variação da variável dependente pode ser explicada pela variável independente. O bom cientista no dizer de um publicitário7 procura por “relacionamentos que gritam (impactantes), não por relacionamentos que sussurram”.

A Curva Normal surge de uma combinação linear de muitas variáveis, que são independentes entre si e nenhuma delas, em termos comparativos, apresenta um grande efeito em relação às outras. Dito de outra forma, um tipo de fenômenos que segue a Normal não contém nenhum relacionamento que “grita”, mas apenas aqueles relacionamentos cujo efeito não é grande comparado às outras variáveis.

Considere como o nosso imaginário cientista prosseguiria, quando diante de dados de altura de vários objetos deste mundo. Ele imediatamente excluiria o grande grupo dos objetos inanimados da sua investigação. Então ele começaria a sub-classificar o restante, provavelmente por espécies, raças, Idade, tamanho, e muitas outras variáveis. Se, dentro de qualquer sub-grupo, a distribuição fosse como a Figura 5, ele tentaria sub-classificar mais uma vez. Ele pararia de tentar uma nova sub-classificação quando a distribuição parecesse com a Normal. Ele pararia porque estaria acreditando não poder encontrar mais variáveis independentes (fatores em estudo) que pudessem explicar muito da variação encontrada na variável resposta (dependente). É o mesmo que dizer que a variação remanescente é o resultado de muitas pequenas e não relacionadas variáveis independentes. E isto é porque dizemos, que quando a distribuição parece com a Curva Normal, o cientista pode então assumir que seu trabalho está pronto (“his job is done”). A existência de uma distribuição diferente da Normal é um sinal que ainda tem trabalho a ser feito, da existência de variáveis importantes em ação que não foram identificadas, e cuja influência também não foi considerada.

Figura 5. O pesquisador, diante dessa figura, prosseguiria com a sub-classificação.

Testes de inteligência e a Curva Normal

Os testes de inteligência são um exemplo interessante. Eles podem ser elaborados de forma tal que produza qualquer tipo de resultado. Poderiam apresentar apenas resultado um ou zero; se o teste fosse idealizado, por exemplo, com exatamente uma questão. Esse resultado poderia sem dúvida ser obtido com um teste de múltiplas questões. Temos de notar que a forma da distribuição dependerá da população considerada. Um conjunto residencial com crianças pobres e ricas irá requerer diferentes tipos de teste para se obter uma Curva Normal.

Por que então os idealizadores dos testes ficam satisfeitos, apenas, quando os resultados obtidos se distribuem “Normalmente” ? Talvez, seja devido às grandes conveniências estatísticas oferecidas pela Distribuição Normal; mas talvez seja porque ainda acreditam que a distribuição Normal é “normal”.

Termo atribuído por Francis Galton em 1877.

1 Edwin G. Boring. The Normal law in Mental Measurements. American Journal of Psychology, 1920.

2 J. P. Guilford. Psychometric Methods .New York: McGraw Hill, p. 107, 1936.

3 George W. Snedecor. Statistical Methods. 4th edition, Ames, Iowa: Iowa State, p. 36, 1946.

4 Karl Pearson. Historical Note on the origin of the Normal Curve of Errors. Biometrika. XVI, may-dec., p. 403, 1924.

Termo atribuído por Laplace em 1810.

5 Herman Ebbinghaus. Memory: A Contribution to Experimental Psychology, translated by H.A. Ruger and C. E.Bussenius. New York: Teachers College, p. 18, 1913.

6 Edwin G. Boring. The Normal law in Mental Measurements. American Journal of Psychology, p.18, 1920.

O mesmo argumento se aplica à Distribuição de Poisson e à lognormal.

Por homogêneo quero indicar eventos que caiam dentro de uma definição comum muito restrita, com relação à dimensão em estudo.

O mesmo argumento se aplica à Distribuição de Poisson e à lognormal.

7 Victor O. Schwab. Advertising and Selling. April, p. 33, 1948.

Sem dúvida, os testes servem, também, para predizer o desempenho de um aluno, se ele irá obter sucesso na escola.

Comentários