correlação e regressão linear

correlação e regressão linear

(Parte 1 de 2)

1. INTRODUÇÃO

Nas unidades anteriores, descrevemos a distribuição de valores de uma única variável, com esse objetivo aprendemos a calcular medidas de tendência central e variabilidade. Porém, se considerarmos duas ou mais variáveis surge um novo problema: as relações que podem existir entre as variáveis estudadas.

Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem predizer uma ou mais variáveis em termos de outras. Assim é que se fazem estudos para predizer as vendas futuras de um produto em função do seu preço, ou a perda de peso de uma pessoa em decorrência do número de semanas que se submete a uma dieta de 800 calorias--dia, ou a despesa de uma família com médico e remédios em função de sua renda, ou o consumo per capita de certos alimentos em função de seu valor nutritivo e do gasto com propaganda na TV, etc.

Naturalmente, o ideal seria que pudéssemos predizer uma quantidade exatamente em termos de outra, mas isso raramente é possível. Na maioria dos casos, devemos contentar-nos com a predição de médias, ou valores esperados. Por exemplo, não podemos predizer exatamente quanto ganhará um bacharel nos 10 anos subseqüentes à sua formatura, mas, com base em dados adequados, é possível predizermos o ganho médio de todos os bacharéis nos 10 anos após a formatura. Analogamente, podemos predizer a safra média de certa variedade de trigo em termos do índice pluviométrico de julho, e a nota média de um calouro do curso de Direito em função do seu QI.

Assim, quando consideramos variáveis como peso e altura de um grupo de pessoas, uso de cigarro e incidência de câncer, procuramos verificar se existe alguma relação entre as variáveis de cada um dos pares e qual o grau dessa relação. Para isso, é necessário o conhecimento de novas medidas.

A regressão e a correlação são duas técnicas estreitamente relacionadas que envolvem uma forma de estimação. A análise de correlação dá um número que resume o grau de relacionamento entre duas variáveis; a análise de regressão tem como resultado uma equação matemática que descreve o relacionamento

2. CORRELAÇÃO

O objetivo do estudo correlacional é a determinação da força do relacionamento entre duas observações. O termo “correlação” significa literalmente “co-relacionamento”, pois indica até que ponto os valores de uma variável estão relacionados com os da outra. Como vimos anteriormente há muitos casos em que pode existir um relacionamento entre duas variáveis:

-duração nas prateleiras e a estabilidade de um produto. -treinamento de um empregado e o número de defeitos.

-custos e horas de uso direto de máquinas numa produção.

A CORRELAÇÃO mede a força, ou grau, de relacionamento entre duas variáveis; a REGRESSÃO dá uma equação que descreve o relacionamento em termos matemáticos.

-preço e quantidade demandada. -preço e quantidade ofertada.

Uma forma visual de observarmos a correlação entre duas variáveis é através do diagrama de dispersão. Um diagrama de dispersão é um método de representar graficamente a relação, entre duas variáveis. Nesse diagrama duas variáveis são plotadas usando-se coordenadas x e y; os pontos nos darão uma idéia se existe ou não correlação entre as duas variáveis.

Para entendermos melhor vamos criar um exemplo hipotético:

Exemplo 1:Suponhamos duas variáveis quantitativas x e y e que delas dispomos de um conjunto de valores históricos, isto é, um conjunto de pares de valores observados e anotados no passado. Vamos ordenar esses pares segundo valores crescentes da primeira variável. Para verificar se as duas variáveis possuem correlação, podemos representar graficamente esses pares num diagrama de dispersão. a) Dados históricos

Diagrama de dispersão

Diagrama de dispersão

Analisando um conjunto de pares ordenados pelo primeiro elemento e o diagrama de dispersão correspondente, podemos responder algumas indagações:

•As variáveis parecem manter uma tendência conjunta, isto é, à medida que a primeira variável aumenta, a segunda variável parece apresentar uma tendência sistemática ao crescimento, como pode ser observado no exemplo 1 letra “b”?

•À medida que a primeira variável cresce, a segunda variável parece apresentar uma tendência sistemática ao decrescimento?

•Ou então, os pontos parecem espalhados sem nenhuma tendência observável definida, como no exemplo 1 letra “a”?

Em outras palavras um diagrama de dispersão pode nos dar idéia se a correlação é: a)linear positiva:se os pontos do diagrama têm como "imagem" uma reta ascendente; b)linear negativa:se os pontos têm como "imagem" uma reta descendente; c)não linear:se os pontos têm como "imagem" uma curva. d)não há relação:se os pontos apresentam-se dispersos, não oferecendo idéia de uma "imagem" definida.

Exemplo 2:Correlação Linear positiva:

Exemplo 3:Correlação Linear negativa:

Exemplo 4:Correlação não Linear Exemplo 5:Não há correlação

2.1 COEFICIENTE DE CORRELAÇÃO LINEAR

A determinação da correlação entre duas variáveis por meio de uma inspeção nos pares anotados ou no diagrama de dispersão correspondente é pouco precisa e depende do treinamento e da sensibilidade do observador.

Uma forma de contornar essa dificuldade é procurar uma medida que caracteriza essa correlação linear. O instrumento empregado para a medida da correlação linear é o coeficiente de correlação (ou “r de Pearson’) proposto por Karl Pearson. Esse coeficiente deve indicar o grau de intensidade da correlação entre duas variáveis e, ainda, o sentido dessa correlação ( positiva ou negativa ).

yxxyn r

onde: n é o número de observações.

Os valores limites de r são -1 e +1, isto é, o valor de r pertence ao intervalo [- 1 ; + 1]. Onde:

•r = -1:indica correlação linear negativa perfeita. Os pontos (x,y) estão sobre uma reta com coeficiente angular negativo; •r = 0: os pontos não estão correlacionados nem apresentam tendência crescente ou decrescente; •r = +1:indica correlação linear positiva perfeita. Os pontos (x, y) estão sobre uma reta com coeficiente angular positivo.

Exemplo 6: Exemplo de coeficiente de correlação

Exemplo 7:Calcular o coeficiente de correlação das variáveis do exemplo 1 letra “a”.

r =

3.REGRESSÃO LINEAR

A regressão linear simples constitui uma tentativa de estabelecer uma equação matemática linear (linha reta) que descreva o relacionamento entre duas variáveis.

A finalidade de uma equação de regressão seria então estimar valores de uma variável, com base em valores conhecidos da outra.

Na regressão, os valores y são preditos com base em valores dados ou conhecidos de x. a variável y é chamada de variável dependente, e a variável x de variável independente.

O método mais usado para ajustar uma linha reta a um conjunto de pontos é conhecido como a técnica dos mínimos quadrados. A reta resultante tem duas características importantes:

a)a soma dos desvios verticais dos pontos em relação à reta é zero; b)a soma dos quadrados desses desvios é mínima ( isto é, nenhuma outra reta daria menor soma de quadrados de tais desvios).

A equação da reta que aproxima um conjunto de pontos pelo método dos mínimos quadrados é dada por:

onde:

yxnxy a

sendo: ∑xy a soma dos produtos de x por y n é o número de pontos observados

∑2x a soma dos quadrados dos valores de x n x∑=e n y∑= são as médias aritméticas

Método dos mínimos quadrados - empregado para determinar a linha de regressão que se ajusta a uma série de pontos. O método é puramente objetivo no sentido de que a mesma linha de tendência ou modelo linear sempre será obtido com os mesmos dados.

b) analise esse diagrama e diga se há correlação (positiva ou negativa, linear ou não linear); c) trace a reta que na sua opinião melhor ajusta o conjunto de pontos; d) determine a equação y = ax + b de uma reta que aproxima o conjunto de pontos dados; e) diga se há ou não correlação entre as variáveis (que aqui não foram explicitadas).

1)Escreva a equação da reta que aproxima o conjunto de pontos dados, usando o método dos mínimos quadrados. a)A = (0;0)B=(2;5)C=(3;8)D=(4;9)

3)Uma pesquisa sobre a demanda de mercado de um produto X levou à seguinte escala de demanda:

(Parte 1 de 2)

Comentários