Regressão e Correlação

Regressão e Correlação

(Parte 1 de 6)

Notas sobre Regressão, Preparadas por L. A. Bertolo

Correlação e Regressão Notas preparadas por L.A. Bertolo

Termos básicos e conceitos1
Regressão simples5
Regressão Múltipla13
Terminologia de Regressão20
Fórmulas de Regressão21

Índice

Termos Básicos e conceitos

1. Um gráfico de espalhamento (scatter plot) é uma representação gráfica da relação entre duas ou mais variáveis. Num gráfico de espalhamento de duas variáveis x e y, cada ponto no gráfico é um par x-y.

2. Nós usamos regressão e correlação para descrever a variação em uma ou mais variáveis.

A. A variação é a soma dos desvios quadrados de uma variável de sua média.

B. A variação é o numerador da variância de uma amostra:

C. Ambas, a variação e a variância, são medidas da dispersão de uma amostra.

3. A covariância entre duas variáveis aleatórias é uma medida estatística do grau para o qual as duas variáveis se movem juntas.

A. A covariância captura quanto uma variável é diferente da sua média quando a outra variável for diferente da sua média.

B. Uma covariância positiva indica que as variáveis tendem a se moverem juntas; uma covariância negativa indica que as variáveis tendem a se moverem em direções opostas.

C. A covariância é calculada como a razão da co-variação pelo tamanho da amostra menos um:

xi é a i-ésima observação da variável x, é a média das observações da variável x, yi é a i-ésima observação da variável y, e é a média das observações da variável y.

D. O valor real da covariância não é significante porque ele não é afetado pela a escala das duas variáveis. Isto é o porquê de se calcular o coeficiente de correlação – para tornar algo interpretável da informação da covariância.

E. O coeficiente de correlação, r, é uma medida da intensidade da relação entre ou dentre as variáveis. Cálculo:

Exemplo1: Preços de vendas de casas e pés quadrados Preços de venda de casas (eixo vertical) v. pés quadrados para uma amostra de 34 casas em Setembro de 2005 em St. Lucie County.

de 2 - Notas sobre Regressão, Preparadas por L. A. Bertolo

Notas sobre Regressão, Preparadas por L. A. Bertolo

iO tipo de relação está representada pelo coeficiente de correlação:

r =+1 correlação perfeitamente positiva +1 >r > 0 relação positiva r = 0 nenhuma relação 0 > r > −1 relação negativa r = −1 correlação perfeitamente negativa i. Você pode determinar o grau de correlação observando o gráfico de espalhamento.

• Se a relação é para cima existe correlação positiva. • Se a relação é para baixo existe correlação negativa.

Observação x y

Desvio de x x - xMédio

Desvio

Quadrado de x

Desvio de y y - yMédio

Desvio

Quadrado de y

Produto dos desvios

xMédio=135/10=13,5
yMédio=416/10=41,6
x=374,5/9=41,611

Nota: A correlação não implica que um causa o outro. Podemos dizer que duas variáveis X e Y estão correlacionadas, mas não que X causa Y ou que Y causa X, na média – eles simplesmente estão relacionados ou associados um com o outro.

Notas sobre Regressão, Preparadas por L. A. Bertolo de 2 3

Notas sobre Regressão,

Preparadas por L. A. Bertolo i. O coeficiente de correlação está limitado por –1 e +1. Quanto mais próximo o coeficiente estiver de –1 ou +1, mais forte é a correlação.

iv. Com a exceção dos extremos (isto é, r = 1,0 ou r = -1), nós não podemos realmente falar acerca da intensidade de uma relação indicada pelo coeficiente de correlação sem um teste estatístico de significância.

v. As hipóteses de interesse a respeito da correlação da população, ρ, são:

Hipóteses Nulas H0: ρ = 0

Em outras palavras, não existe correlação entre as duas variáveis

Hipóteses Alternativas Ha: ρ =/ 0

Em outras palavras, há uma correlação entre as duas variáveis vi. O teste estatístico está t-distribuído com n-2 graus de liberdade:

vii. Para tomar uma decisão, compare a estatística-t calculada com a estatística-t crítica para os graus de liberdade apropriados e nível de significância.

Exemplo 2, continuação No exemplo anterior, r = 0,475 N = 10

Problema Suponha o coeficiente de correlação como 0,2 e o número de observações como 32. Qual é o teste estatístico calculado? Isto é uma correlação significante usando um nível de significância de 5%?

Solução Hipóteses: H0: ρ = 0 Ha: ρ ≠ 0

Estatística-t calculada:;= M,√N?√?O,OP= O,√NO√O,QR=1,11803

Graus de liberdade = 32-1 = 31

O valor-t crítico para um nível de significância de 5% e 31 graus de liberdade é 2,042. Então, não existe correlação significante (1,11803 cai entre os dois valores críticos de –2.042 e +2.042).

Problema Suponha o coeficiente de correlação como 0,80 e o número de observações como 62. Qual é o teste estatístico calculado? Isto é uma correlação significante usando um nível de significância de 1%?

Solução Hipóteses: H0: ρ = 0 Ha: ρ ≠ 0

Estatística-t calculada:;= M,VO√R?√?O,RP= O,VO√WO√O,NR=W,RWRVWO,R=9,42809

O valor-t crítico para um nível de significância de 1% e 1 observações é 3,169. Então, a hipótese nula é rejeitada e concluímos que existe correlação significante.

de 2 - Notas sobre Regressão, Preparadas por L. A. Bertolo

Notas sobre Regressão, Preparadas por L. A. Bertolo

(Parte 1 de 6)

Comentários