Modelos Lineares Generalizados

Modelos Lineares Generalizados

(Parte 1 de 7)

MODELOS DE REGRESSAO com apoio computacional

Gilberto A. Paula

Instituto de Matematica e Estatıstica Universidade de Sao Paulo e-mail:giapaula@ime.usp.br home-page:w.ime.usp.br/∼giapaula i i

Prefacio

A area de modelagem estatıstica de regressao recebeu um grande impulso desde a criacao dos modelos lineares generalizados no inıcio da decada de 70. No Brasil a area comecou efetivamente a se desenvolver a partir de meados da decada de 80 e em particular apos a 1a Escola de Modelos de Regressao, realizada no IME-USP em 1989. A 8a Escola de Modelos de Regressao foi realizada em 2003 em Conservatora, Rio de Janeiro.

Este texto comecou a ser desenvolvido a partir de 1994 quando a disciplina Modelos

Lineares Generalizados passou a ser ministrada regularmente no programa de posgraduacao em Estatıstica do IME-USP. O texto e direcionado para alunos que tenham cursado um semestre de inferencia estatıstica e que tenham conhecimentos de regressao linear. Portanto, trata-se de um segundo curso de modelagem estatıstica de regressao com um enfoque inferencial basico e varias aplicacoes. O texto tem sido tambem utilizado na disciplina Topicos de Regress~ao ministrada aos alunos do ultimo ano do Bacharelado em Estatıstica do IME-USP.

Introduzimos no Capıtulo 1 a classe dos modelos lineares generalizados apresentando diversos resultados inferenciais e sempre procurando fazer um paralelo com a regressao normal linear. Forte enfoque e dado na validacao dos modelos estatısticos apresentados. O Capıtulo 2 e dedicado aos modelos de regressao para a analise de dados binarios, particularmente o modelo logıstico de regressao. Iniciamos o capıtulo apresentando algumas tecnicas classicas para a analise de dados binarios. Discutimos em seguida a construcao do modelo logıstico linear, modelos de dose-resposta, modelos para a analise de dados binarios com superdispersao e modelos para a analise de dados emparelhados. No Capıtulo 3 focamos os principais modelos para a analise de dados de contagem. Apresentamos inicialmente alguns metodos classicos e o modelo de regressao de Poisson. Em seguida, discutimos a construcao de modelos com resposta binomial negativa, os quais tem sido largamente aplicados no ajuste de dados de contagem com superdispersao. Concluımos o capıtulo discutindo a relacao entre os modelos log-lineares com resposta de Poisson e os modelos log-lineares com resposta multinomial. Modelos de quase-verossimilhanca, que estendem a teoria dos modelos lineares generalizados para situacoes mais gerais, sao apresentados no Capıtulo 4. Em particular, aplicamos a teoria de quase-verossimilhanca na analise de dados correlacionados com estrutura longitudinal. Comandos, subrotinas e programas especiais em S-Plus e R sao apresentados ao longo do texto bem como diversos exemplos e exercıcios aplicados em Agricultura, Biologia, Economia, Engenharia, Farmacologia, Genetica, Linguıstica, Medicina, Medicina Veterinaria, Pesca, Sociologia dentre outras areas. Muitos dos exemplos e exercıcios propostos sao oriundos de trabalhos desenvolvidos no Centro de Estatıstica Aplicada (CEA) do IME-USP.

A pagina na Web onde estao disponıveis uma versao deste texto, os conjuntos de dados utilizados nos exemplos e exercıcios, alguns programas especiais e uma apostila sobre S-Plus e R bem como alguns links uteis, esta no seguinte endereco: http://www.ime.usp.br/∼giapaula/mlgs.html

Finalizando, gostaria de agradecer aos alunos que cursaram as disciplinas e muito contribuiram com suas sugestoes para o aperfeicoamento dos primeiros manuscritos.

Sao Paulo, junho de 2004 Gilberto A. Paula.

Sumario

Prefacio i

1.1 Introducao1
1.2 Definicao3
1.2.1 Casos particulares3
1.3 Ligacoes canonicas5
1.3.1 Outras ligacoes6
1.4 Funcao desvio9
1.4.1 Analise do desvio12
1.5 Funcao escore e matriz de informacao15
1.6 Estimacao dos parametros17
1.6.1 Estimacao de β17
1.6.2 Estimacao do parametro de dispersao18
1.7 Teste de hipoteses19
1.7.1 Hipoteses simples19
1.7.2 Modelos encaixados2
1.7.3 Modelo de analise de variancia26
1.7.4 Regressao linear simples27
1.7.5 Hipoteses restritas27
1.8 Tecnicas de diagnostico28
1.8.1 Introducao28
1.8.2 Pontos de alavanca31
1.8.3 Resıduos3
1.8.4 Influencia36
1.8.5 Influencia local40

1 Modelos Lineares Generalizados 1 v

1.8.6 Grafico da variavel adicionada43
1.8.7 Selecao de modelos43
1.8.8 Tecnicas graficas45
1.8.9 Bandas de confianca47
1.9 Extensao para os MLGs47
1.9.1 Pontos de alavanca47
1.9.2 Resıduos48
1.9.3 Influencia51
1.9.4 Influencia local52
1.9.5 Grafico da variavel adicionada53
1.9.6 Selecao de modelos54
1.9.7 Tecnicas graficas5
1.9.8 Bandas de confianca5
1.10 Aplicacoes56
1.10.1 Estudo entre escolaridade e renda56
1.10.2 Estudo comparativo de processo infeccioso pulmonar60
1.10.3 Sobrevivencia de bacterias61
1.10.4 Estudo seriado com ratos64
1.10.5 Comparacao de cinco tipos de turbina de aviao6
1.10.6 Consumo de combustıvel71
1.1 Exercıcios73
2.1 Introducao85
2.2 Metodos classicos: uma unica tabela 2 × 285
2.2.1 Risco relativo86
2.2.2 Modelo probabilıstico nao-condicional87
2.2.3 Modelo probabilıstico condicional8
2.2.4 Teste de hipoteses e estimacao intervalar91
2.3 Metodos classicos: k tabelas 2 × 294
2.3.1 Estimacao da razao de chances comum94
2.3.2 Testes de homogeneidade95
2.4 Metodos classicos: tabelas 2 × k96

vii

2.5.2 Efeito de um tipo de extrato vegetal na morte de embrioes100
2.6 Regressao logıstica linear100
2.6.1 Introducao100
2.6.2 Regressao logıstica simples101
2.6.3 Regressao logıstica multipla104
2.6.4 Amostragem retrospectiva105
2.6.5 Selecao de modelos106
2.6.6 Tecnicas de diagnostico e qualidade do ajuste113
2.6.7 Modelos de dose-resposta118
2.6.8 Modelos de dose-resposta de retas paralelas127
2.6.9 Superdispersao129
2.6.10 Modelo logıstico condicional137
2.7 Exercıcios143

2.5.1 Influencia do fungicida Avadex no desenvolvimento de tumor em ratos 98

3.1 Introducao153
3.1.1 Metodos classicos: uma unica tabela 2 × 2154
3.1.2 Estratificacao : k tabelas 2 × 2158
3.2 Modelos de Poisson159
3.2.1 Propriedades da Poisson159
3.2.2 Modelos log-lineares160
3.2.3 Relacao com a exponencial161
3.2.4 Aplicacao162
3.2.5 Modelo log-linear geral164
3.2.6 Superdispersao165
3.3 Relacao entre a multinomial e a Poisson180
3.3.1 Modelos log-lineares hierarquicos182
3.3.2 Exemplos184
3.4 Exercıcios188

3 Modelos para Dados de Contagem 153

4.1 Introducao195
4.2.1 Aplicacoes200
4.3 Classe estendida206
4.4 Respostas correlacionadas207
4.5 Exemplos210
4.5.1 Ataques epilepticos210
4.5.2 Condicao Respiratoria214
4.5.3 Placas dentarias217
4.6 Exercıcios219

viii

Apendice 223 Bibliografia 233

Capıtulo 1 Modelos Lineares Generalizados

Durante muitos anos os modelos normais lineares foram utilizados para descrever a maioria dos fenomenos aleatorios. Mesmo quando o fenomeno sob estudo nao apresentava uma resposta para a qual fosse razoavel a suposicao de normalidade, tentava-se algum tipo de transformacao no sentido de alcancar a normalidade procurada. Provavelmente, a transformacao mais conhecida foi proposta por Box e Cox (1964), a qual transforma o valor observado y (positivo) em

logy se λ = 0, sendo λ e uma constante desconhecida. Acreditava-se que a transformacao de Box e Cox, quando aplicada a um conjunto de valores observados, produzia aproximadamente a normalidade, a constancia de variancia e tambem a linearidade E(Z) = η, em que η = β0 + β1x1 + · + βpxp. No entanto, isso raramente ocorre para um unico valor de λ. Com o desenvolvimento computacional ocorrido na decada de 70, alguns modelos que exigiam a utilizacao de processos iterativos para a estimacao dos parametros comecaram a ser mais utilizados. O modelo normal nao-linear, por exemplo, que assume uma estrutura nao-linear para os parametros em η, teve um grande avanco. Todavia, a proposta mais interessante e pode-se dizer inovadora no assunto, foi apresentada por Nelder e Wedderburn (1972), que propuseram os modelos lineares generalizados (MLGs). A ideia basica consiste em abrir o leque de opcoes para a distribuicao da variavel resposta, permitindo que a mesma pertenca a famılia exponencial de distribuicoes, bem como dar maior flexibilidade para a relacao funcional entre a media da variavel resposta e o preditor linear η. Assim, por exemplo, para dados de contagem, em vez de aplicarmos a transformacao

2 Capıtulo 1

√ y no sentido de buscarmos a normalidade dos dados, podemos supor que a distribuicao de Y e Poisson e que a relacao funcional entre a media de Y e o preditor linear e dada por logµ = η. Essa relacao funcional e conveniente, uma vez que garante para quaisquer valores dos parametros do preditor linear um valor positivo para µ. Similarmente, para proporcoes, pode-se pensar na distribuicao binomial para a resposta e numa relacao funcional do tipo log{µ/(1 − µ)}, em que µ e a proporcao esperada de sucessos. Nelder e Wedderburn propuseram tambem um processo iterativo para a estimacao dos parametros e introduziram o conceito de desvio que tem sido largamente utilizado na avaliacao da qualidade do ajuste dos MLGs, bem como no desenvolvimento de resıduos e medidas de diagnostico.

Inumeros trabalhos relacionados com modelos lineares generalizados foram publicados desde 1972. Um aplicativo, GLIM (Generalized Linear Interactive Models) (vide Aitkin et al., 1989), foi desenvolvido para o ajuste dos MLGs e hoje outros aplicativos, tais como o S-Plus (http://w.insightful.com), R (http://w.r-project.org), SAS(http://w.sas.com), STATA (http://w.stata.com), SUDAAN (http://w.rti. org/sudaan) dentre outros apresentam procedimentos para o ajuste dos MLGs. Uma das extensoes mais importantes dos MLGs foi apresentada por Wedderburn (1974), os modelos de quase-verossimilhan, que estendem a ideia dos MLGs para situacoes mais gerais incluindo dados correlacionaods. Os modelos de dispersao (Jørgensen, 1983) ampliam o leque de opcoes para a distribuicao da variavel resposta. Liang e Zeger (1986) estendem os modelos de quase-verossimilhanca propondo as equacoes de estimacao generalizadas (EEGs) que permitem o estudo de variaveis aleatorias correlacionadas nao-Gaussianas. Os modelos nao-lineares de famılia exponencial (Cordeiro e Paula, 1989a e Wei, 1998) admitem preditor nao-linear nos parametros. Temos ainda os modelos aditivos generalizados (Hastie e Tibshirani, 1990) que supoem preditor linear formado tambem por funcoes semiparametricas e os modelos lineares generalizados mistos (Breslow e Clayton, 1993) que admitem a inclusao de efeitos aleatorios Gaussianos no preditor linear. Recentemente, Lee e Nelder (1996, 2001) estenderam o trabalho de Breslow e Clayton propondo modelos lineares generalizados hierarquicos em que o preditor linear pode ser formado por efeitos fixos e efeitos aleatorios nao-Gaussianos. Muitos desses resultados sao discutidos no livro de McCulloch e Searle (2001). Outras aplicacoes da estrutura dos MLGs podem ser encontradas em diversos artigos e livros da literatura Estatıstica. Referencias de texto no assunto sao os livros de McCullagh e Nelder (1989) e Cordeiro (1986).

Modelos Lineares Generalizados 3 1.2 Definicao

Suponha Y1,...,Yn variaveis aleatorias independentes, cada uma com densidade na forma dada abaixo em que E(Yi) = µi = b′(θi), Var(Yi) = φ−1Vi, V = dµ/dθ e a funcao de variancia e φ−1 > 0 e o parametro de dispersao. A funcao de variancia desempenha um papel importante na famılia exponencial, uma vez que a mesma caracteriza a distribuicao. Isto e, dada a funcao de variancia, tem-se uma classe de distribuicoes correspondentes, e vice-versa. Essa propriedade permite a comparacao de distribuicoes atraves de testes simples para a funcao de variancia. Para ilustrar, a funcao de variancia definida por V (µ) = µ(1 − µ), caracteriza a classe de distribuicoes binomiais com probabilidades de sucesso µ ou 1 − µ. Uma propriedade interessante envolvendo a distribuicao de Y e a funcao de variancia e a

Ou seja, para φ grande Y segue distribuicao aproximadamente normal de media µ e variancia φ−1V (µ). Esse tipo de abordagem assintotica, diferente da usual em que n e grande, foi introduzida por Jørgensen (1987).

Os modelos lineares generalizados sao definidos por (1.1) e pela componente sistematica em que ηi = xTi β e o preditor linear, β = (β1,...,βp)T, p < n, e um vetor de parametros desconhecidos a serem estimados, xi = (xi1,...,xip)T representa os valores de p variaveis explicativas e g(·) e uma funcao monotona e diferenciavel, denominada funcao de ligacao.

Apresentamos a seguir as distribuicoes mais conhecidas pertencentes a famılia exponencial.

1.2.1 Casos particulares

Normal

Seja Y uma variavel aleatoria com distribuicao normal de media µ e variancia σ2, Y ∼ N(µ,σ2). A densidade de Y e expressa na forma

4 Capıtulo 1

12 logφ/2pi − φy2 2 tem-se (1.1). Verifica-se facilmente que a funcao de variancia e dada por

Poisson No caso de Y ∼ P(µ), a densidade fica dada por

em que µ > 0 e y = 0,1,Fazendo logµ = θ, b(θ) = eθ, φ = 1 e c(y,φ) = −logy! tem-se

Binomial

Seja Y ∗ a proporcao de sucessos em n ensaios independentes, cada um com probabilidade de ocorrencia µ. Assumiremos que nY ∗ ∼ B(n,µ). A densidade de Y ∗ fica entao expressa na forma( n

) . A funcao de variancia aqui fica dada por V (µ) = µ(1 − µ).

Gama

Seja Y uma variavel aleatoria com distribuicao gama de media µ e coeficiente de variacao φ−1/2, denotaremos Y ∼ G(µ,φ). A densidade de Y e dada por

exp( −φy

µ + log

0 < φ < 1 a densidade da gama tem uma pole na origem e decresce monotonicamente quando y → ∞. A exponencial e um caso especial quando φ = 1. Para φ > 1 a densidade assume zero na origem, tem um maximo em y = µ − µ/φ e depois decresce para y → ∞. A χ2k e um outro caso especial quando φ = k/2 e µ = k. A distribuicao normal e obtida fazendo φ → ∞. Isto e, quando φ e grande Y ∼ N(µ,φ−1V (µ)). Note que φ = E2(Y )/Var(Y ) e o inverso do coeficiente de variacao de Y ao quadrado (φ = 1/(CV )2). A funcao de variancia da gama e dada por V (µ) = µ2.

Modelos Lineares Generalizados 5

Normal inversa

Seja Y uma variavel aleatoria com distribuicao normal inversa de media µ e parametro de forma φ, cuja densidade e dada por

tem-se (1.1). A funcao de variancia fica aqui dada por V (µ) = µ3. Na Tabela 1.1 tem-se um resumo dessas distribuicoes.

Tabela 1.1 Principais distribuicoes pertencentes a famılia exponencial.

Distribuicao b(θ) θ φ V (µ)

(Parte 1 de 7)

Comentários