Análise de Regressão Múltipla

Análise de Regressão Múltipla

(Parte 1 de 2)

Professor Assistente Doutor

Engenharia Ambiental UNESP/Sorocaba

Professor Emérito da Universidade Estadual Paulista

Professor Voluntário do Depto. Geologia Aplicada UNESP/Rio Claro

UNESP/campus de Rio Claro

Instituto de Geociências e Ciências Exatas Departamento de Geologia Aplicada

Laboratório de Geomatemática Texto Didático 13

Reprodução autorizada desde que citada a fonte. Norma 6023-2000/ABNT ( http://www.abnt.org.br

LOURENÇO, R. W. & LANDIM, P.M.B. Análise de regressão múltipla espacial. UNESP/Rio Claro, IGCE, DGA, Lab.

Geomatemática,Texto Didático 13, 34 p. 2004. Disponível em <http://w.rc.unesp.br/igce/aplicada/textodi.html>. Acesso em:....

Introdução

A comparação entre mapas têm sido preocupação de diversos especialistas pela sua utilidade na interpretação de qualquer banco de dados temático. Se existem, porém, diversos algoritmos à disposição para a confecção de mapas o mesmo não pode ser afirmado com relação à comparação entre mapas. Alguns trabalhos que tratam do assunto podem ser encontrados em BROWER & MERRIAM (1990, 1992), HERZFELD &

SONDERGARD (1988) e HERZFELD & MERRIAM (1991)

Um interessante enfoque foi apresentado por BOWER & MERRIAM (2001) que utilizaram a análise de regressão múltipla para comparar mapas de contorno estrutural com finalidade de entender a história geológica de uma região. Sendo a camada mais jovem considerada a variável dependente e as demais camadas as variáveis independentes, procuraram verificar qual delas teria tido maior influência na configuração dessa camada. Nesse mesmo sentido LEITE & LANDIM (2003), aplicaram a análise de regressão múltipla em dados provenientes da represa de Três Irmãos, no Rio Tietê, no município de Pereira Barreto/SP, para quantificar a influência de diversas variáveis no comportamento da superfície potenciométrica de um aqüífero livre, escolhida como variável dependente. As variáveis consideradas independentes foram cota do terreno , base da formação aqüífera ou cota do topo do basalto , espessura da formação aqüífera , e as coordenadas X e Y. Nesses dois exemplos a análise de regressão múltipla foi usada para verificar a relação entre dados do tipo “xyz”, e não os mapas, resultantes, entre si. Neste texto, porem, o que se pretende é apresentar a aplicação da análise de regressão múltipla espacial, conforme encontrada no software IDRISI, para a comparação direta entre mapas.

Regressão Múltipla As relações entre duas variáveis X, considerada independente, e Y, considerada dependente, podem ser representadas num diagrama de dispersão, com os valores de yi em ordenada e os de xi em abcissa, Cada par de valores xi e yi fornecerá um ponto e utilizando-se, por exemplo, o método dos desvios mínimos ao quadrado, pode-se calcular a equação de uma reta que melhor se ajuste à nuvem de distribuição. O método mais comum que pode ser adotado é o da análise de regressão linear simples que fornece a equação da reta:

,xiyiie+b+a= onde a e b são constantes desconhecidas a serem determinadas e åi representa toda a fonte de variabilidade em Y não explicada por X. Não é raro, porém, que o termo åi seja numericamente mais importante que a explicação motivada pela variável independente, significando que outras variáveis devem ser incorporadas ao modelo a fim de explicar o comportamento de Y, Nesse caso o modelo exige uma análise de regressão linear múltipla, representado por

onde xi é a variável independente, responsável pela maior variabilidade, a0 e a1 são os coeficientes e e1 é o erro, isto é, a variabilidade em Y não explicada pela relação linear. A variável que, em seguida, mais reduz a variabilidade do erro é em seqüência adicionada de tal modo que

independentes em relação à dependente seja verificado. Os coeficiente ai são conhecidos como parciais de regressão porque cada um deles fornece a taxa de mudança na variável dependente, correspondente à respectiva variável independente, mantendo constantes as demais variáveis independentes. A análise de regressão linear múltipla de quaisquer m variáveis independentes sobre uma variável dependente, sendo expressa por:

yx yx y x x xxn imi ii2 ii1 i

2 mii1mimi

Uma das mais importantes aplicações da análise de regressão múltipla é a escolha, entre diversas variáveis independentes, daquelas mais úteis na previsão de Y.

A variância total de Y é em parte explicada pelas diversas variáveis X's e o restante pela variabilidade devido ao erro (1e), O termo “explicada” tem apenas um significado numérico não implicando necessariamente em um conhecimento físico sobre o porque da relação existente. Os tamanhos relativos dessas duas componentes de variância são obviamente de grande interesse quando da aplicação da análise de regressão múltipla, A proporção da variância dos yi observados explicada por uma equação de regressão ajustada é representada pelo coeficiente de determinação R².

*y2 s total) nciaa(vari o)a~regress de liseaan pela explicada y de variância( R == &

Valores de R2 irão dispor-se no intervalo 0-1, fornecendo uma medida relativa à quantidade do ajuste do modelo de regressão múltipla aos dados, Se o valor de R2 for próximo de 1 isso significa que as diversas variáveis X's medidas são responsáveis quase que totalmente pela variabilidade de Y, Caso contrário R2 apresentará um valor próximo a zero, Como os coeficientes de regressão são parciais devem ser obtidas as porcentagens

Exemplo

DAWSON & WHITTEN (1962), num estudo petrográfico sobre o complexo granítico de Lacorne, La Motte e Preissac, no Canadá, obtiveram valores para peso específico, quartzo, índice de cor (porcentagem de silicatos escuros), feldspato total, e as coordenadas N-S e E-W de cada ponto de amostragem (Tabela 1) .

Para verificar se o peso específico pode ser previsto em função das outras 5 variáveis e, também, qual a sua ordem de importância nessa previsão, aplicou-se a análise de regressão múltipla.

Tabela 1. Variáveis Y e Xs para o exemplo considerado

P. E. (Y) Quartzo (X1) Cor (X2) Feldspato (X3) NS (X4) EW (X5)

2,6438,9 2,7 57,4 1,15 3,62

Inicialmente é feita uma análise de regressão levando em consideração todas as

5 variáveis, consideradas independentes, e uma análise de variância para verificar a validade do modelo.

com R2 = 0,9177

Tabela 2 - ANOVA

Fonte de variação g.l. Soma de quadrados Médias quadráticas Razão F

Teste F(0,05)

Total 43 0,271

Este resultado mostra que as 5 variáveis explicam 92% da variabilidade de Y e

reduzem significativamente a variação da variável dependente

que o modelo pode ser aceito, pois o teste F (Tabela 2) indica que essas variáveis

O interesse, porém, é verificar a contribuição pura de cada variável, já que existem relações entre elas que interferem nos resultados (Tabela 3)

Tabela 3 - Matriz de coeficientes de correlação (Pearson)

Peso espc. Quartzo Cor Feldspato NS EW Peso espc. 1 -0,853 0,917 -0,369 0,571 0,684

Inicia-se calculando os coeficientes R2s referentes às variáveis independentes, uma de cada vez e, em seguida, combinadas duas a duas, três a três e quatro a quatro.

em um número total de combinações da ordem de 25 – 1, isto é, 31. A seguir estão os coeficientes que apresentaram os maiores valores (Tabela 4): Tabela 4 – Coeficientes de R2

Variáveis R2s

Cor 0,8404 Quartzo 0,7277

EW 0,4673 NS 0,3258 Feldspato 0,1364

Cor+NS 0,8887 Quartzo+Feldspato 0,8711 Cor+Quarzto 0,8640

Cor+NS+Quartzo 0,9061 Cor+NS+Feldspato 0,9034 Cor+NS+EW 0,8896

Quarzto+EW+Felspato 0,8750 Cor+NS+Feldspato+Quartzo 0,9172

Cor+NS+Quartzo+EW 0,9061 Cor+NS+Quartzo+Feldspato+EW 0,9177

A contribuição pura de cada variável independente, com vistas ao seu ordenamento por importância, é encontrada da seguinte maneira: a variável cor é a primeira a ser selecionada com 84,04% do total da soma de quadrados de Y a ela atribuída; em seguida apresentam-se cor+NS com 8,87% e desse modo a variável NS é escolhida com a contribuição de 8,87 – 84,04 = 4,83% para a explicação de Y; de modo idêntico feldspato é escolhida como a terceira variável com 2,24%, resultado de 91,1 –

8,87; quartzo, como a quarta variável, com 0,61%, resultado de 91,72 – 91,1 e, finalmente, EW com 0,05%. Desse modo, a explicação para o comportamento da variável peso específico é mostrada na Tabela 5:

Esses resultados indicam que, para a explicação do comportamento do peso específico, a variável mais importante é a cor, o que é coerente pois esta variável nada mais é que o resultado da presença de minerais máficos. Além disso, como a segunda variável em importância é a coordenada NS isso também esta a indicar que a variabilidade do peso específico ocorre mais ao longo dessa direção do que no sentido

EW. Como se tem à disposição as coordenadas geográficas, pode-se examinar o comportamento espacial das três variáveis, quartzo, feldspato e cor, em confronto com a distribuição do peso específico (Figura 1).

8 peso específico

cor quartzo

feldspato

Figura 1 – Mapa das varáveis estudadas

Novamente é constatado, por simples comparação visual entre os mapas, a semelhança entre os mapas peso específico e cor. Também pode ser observada a maior variabilidade no sentido norte-sul para o peso específico e a relação inversa entre esta variável e quartzo, como já indicada pelo coeficiente de correlação.

Neste caso a análise de regressão múltipla foi efetuada a partir de 4 pontos “xyz”. Pode-se, porém, efetuar esta análise com um enfoque espacial e, para tanto, adotar a

A regressão linear múltipla espacial é usada para testar dependências cumulativas de uma única variável dependente em relação a diversas variáveis independentes, todas com conhecimento de suas coordenadas geográficas.

Neste tipo de simulação, como no método tradicional, assume-se que exista um relacionamento linear entre a variável dependente e as variáveis independentes. Assim, por exemplo, no caso de três variáveis independentes para explicar uma variável dependente, a equação da regressão linear múltipla é descrita da seguinte forma:

onde Y é a variável dependente; x1, x2, e x3 são as variáveis independentes; a é o intercepto; b1,b2 e b3 são os coeficientes das variáveis independentes, que definem o aumento (ou diminuição) da variável Y por unidade de variação da variável xi. Para realizar a modelagem da regressão múltipla espacial as variáveis independentes podem ser contínuas ou discretas. A variável dependente, porem, deve ser contínua. Algumas suposições sobre o uso da regressão múltipla espacial devem ser respeitadas:

i) observações tiradas independentemente da população, e a variável dependente deve apresentar distribuição normal; i) número de observações deve ser maior que o número de variáveis independentes; e i) não deve existir relação linear exata ou próxima entre as variáveis independentes.

A análise por regressão múltipla espacial deve iniciar com o exame da distribuição espacial dos pontos de amostragem e para este exemplo, todas as variáveis foram amostradas no mesmo ponto (Figura 2).

Figura 2 – Localização dos pontos de amostragem Como pode ser visto na Figura 2, a distribuição espacial da amostragem apresenta- se de forma bastante irregular, com dois grupos distintos, um de centro-leste para nordeste, e outro de sul para sudoeste, com uma configuração direcional SW-NE. Como procedimento inicial é aplicada uma análise geoestatística para obter as superfícies contínuas das quatro variáveis (peso específico, quartzo, feldspato e cor), e para tanto é utilizado o programa SURFER, versão 8.

Nesse programa os dados são lidos na forma de tabela, na qual as colunas representam as variáveis e as linhas os registros. A extensão do programa é *.DAT, que aceita arquivos ASCII com divisores do tipo “espaço” tal como no Excel, ou arquivos

*.TXT Na primeira coluna encontra-se a coordenada EW, na segunda a coordenada NS e as variáveis nas demais (Figura 3):

Figura 3 – Entrada de dados segundo o SURFER 8

Em seguida aplica-se para cada uma das variáveis uma análise do tipo “Correlograma”. O Correlograma avalia os padrões espaciais e a correlação espacial de uma malha de pontos gerada a partir da interpolação das variáveis originais. Eles indicam tendências subjacentes na malha e dão uma medida de anisotropia da malha estimada. Geralmente para se realizar essa interpolação é escolhido um método de interpolação do tipo exato, ou seja, que honra o valor original da variável quando este coincidir com o nó da malha gerado no processo de interpolação. Para gerar o correlograma execute os seguintes passos:

Na página principal do programa acionar Grid/Data e, na seqüência, é solicitado a escolha do arquivo contendo a planilha de dados, no formato da Figura 3. Em seguida será disponibilizada uma caixa de entrada de dados como o da Figura 4 abaixo:

Figura 4 – Caixa de entrada da planilha de dados para interpolação Na caixa de entrada Data Columns selecionar a coluna A(EW) para X:, coluna

B(NS) para Y e coluna C para Var(Zi) para Z. Na caixa de entrada Gridding Method selecionar o método Natural Neighbor;

Na caixa de entrada Output Grid File gravar o arquivo na pasta desejada. O arquivo resultante deverá ser salvo na extensão GS ASCII .grd compatível com o IDRISI

O resultado pode ser visto na página principal do programa e para tanto acionar Grid/Grid Node Editor selecionando o arquivo gerado anteriormente (Figura 5):

Figura 5 – Editor da malha de pontos estimada Após a geração da malha de pontos calcular o correlograma de acordo com a seguinte seqüência: · na página principal do programa acionar Grid/Calculus selecionando o arquivo gerado anteriormente GS ASCII.grd (Figura 5):

• na caixa de entrada Grid/Calculus selecionar Fourier & Spectral Analysis/Grid

Correlogram Na caixa de entrada Output Grid File gravar o arquivo resultante na pasta desejada, na extensão GS ASCII .grd .

• o resultado pode ser visto na página principal do programa ao acessar Grid/Grid Node Editor e selecionando o arquivo gerado anteriormente (Figura 6):

Figura 6 – Malha do Correlograma

Para visualizar o mapa gerado, a partir da malha de pontos do correlograma, acionar na página principal do programa Map/Contour Map/New Contour Map selecionando na caixa de diálogo Open/Grid o arquivo gerado anteriormente GS ASCII.grd (Figura 6).

Para cada variável foram gerados correlogramas, com as características específicas que refletem o comportamento espacial de cada variável.

Para colorir e manipular o mapa gerado acionar duplamente, na parte central do mapa, ativando a caixa de diálogo Map/Contours properties| com múltiplas funções para a edição desse mapa (Figura 7):

Figura 7 – Caixa de tratamento para edição do mapa

A seguir são apresentados os correlogramas resultantes das variáveis apresentadas neste exemplo (Figuras 8A, B, C e D):

(A) - Correlograma do peso específico

(B) - Correlograma do quartzo

(C) - Correlograma do feldspato

(D) - Correlograma da cor

Figura 8 - Correlogramas De uma maneira geral os quatro correlogramas apresentam um padrão espacial bastante semelhante, sendo que para o peso específico e quartzo há indício de anisotropia pouco significativa, com maior intensidade na direção SW-NE e menor na direção SE-NW, e nas variáveis feldspato e cor um padrão isotrópico.

O passo seguinte é a aplicação dos estudos variográficos, que neste exemplo foram feitos considerando-se um padrão de distribuição espacial isotrópico para todas as variáveis. Na página principal do programa acionar Grid/Variogram/New variogram e em seguida é solicitado a escolha do arquivo contendo a planilha de dados, conforme a Figura 3. Em seguida será disponibilizada uma caixa de entrada de dados New

(Parte 1 de 2)

Comentários