Modelos Lineares Generalizados

Modelos Lineares Generalizados

(Parte 1 de 2)

O Modelo normal

Dizemos que X tem distribuição normal com média μ e variância , que denotamos por , se a função densidade de probabilidade (f.d.p.) de X é dada por

, -∞ < x < ∞, em que μ e são parâmetros desconhecidos da distribuição com espaço paramétrico definido Θ={(), -∞ < μ < ∞ e > 0}.

Vamos provar que f é uma densidade de probabilidade, verificando as seguintes condições:

(i) f(x) ≥ 0 para todo x Є R

(i)

Para (i) podemos observar pela f.d.p. que para qualquer valor de x (positivo ou negativo) f(x) ≥ 0. Agora para (i) fazendo y = , podemos escrever na forma = I. Considerando em lugar de I o quadrado desta integral temos:

Introduzindo coordenadas polares para calcular esta integral dupla: z = r e y = r.

Consequentemente, o elemento de área se torna r. Como y e z variam entre -∞ e ∞, r varia entre 0 e ∞, enquanto varia entre 0 e 2. Portanto,

Por isso I = 1.

Sendo , então Z = terá distribuição N(0,1), pois temos que:

Observamos que este último interando é a função densidade de uma Normal com e . A distribuição N(0,1) é denominada Normal Padrão ou Normal

Reduzida. A Figura 1 mostra gráficos da densidade (esquerda) e probabilidade acumulada (direita) da normal padrão. Para fazer o gráfico consideramos valores de Z entre -3 e 3 que correspondem a +/- três desvios padrões da média.

Figura 1: Funções de densidade e probabilidade da distribuição normal padrão.

O gráfico da f.d.p. de uma variável aleatória normal é simétrico em relação a , parâmetro de locação. A escala do gráfico é determinada por . Na figura 2 no lado esquerdo mostra gráfico em que X, Y, Z são normalmente distribuídas com parâmetros = 2, = 3, = 4 respectivamente e para ambas. Já no lado direito temos que

= 0 para X, Y e Z enquanto respectivamente = 2, = 3 e = 4.

Figura 2: No lado esquerdo mostra gráfico em que X, Y, Z são normalmente distribuídas com parâmetros = 2, = 3, = 4 respectivamente e para ambas. Já no lado direito temos que = 0 para X, Y e Z enquanto respectivamente = 2, = 3 e = 4.

O valor esperado da variável aleatória é dado por:

E[X] = = = , com a substituição z = . Segue então que

= A variância da variável aleatória é dada por:

com nova substituição , vem

Var(X) = – = =

Logo podemos verificar que os parâmetros μ e são respectivamente, a média e a variância da variável X.

Sejam ,, uma amostra aleatória da variável X com f.d.p. (ou função de

Estimador de máxima verossimilhança para μ e probabilidade) , com θ ϵ Θ, Θ é o espaço paramétrico. A função de verossimilhança de θ correspondente à amostra aleatória observada é dada por

O estimador de máxima verossimilhança de θ é o valor ϵ Θ que maximiza a função de verossimilhança Temos, então, que para uma amostra aleatória ,

..., da distribuição a função de verossimilhança é dada:

Assim, para uma amostra aleatória ,, da distribuição a função de

O logaritmo natural da função de verossimilhança de θ é denotado por log-verossimilhança será:

Para um caso particular em que ,, é uma amostra aleatória de tamanho 10

. com distribuição temos que

Seja o vetor x=(-0.32454972, -0.26251350, -0.26357663, -0.07887914, - 0.52446160, -1.33919651, 1.93151381, -0.14567116, -0.50627663, -0.34336016) com amostras aleatórias da distribuição podemos observar pelo gráfico da função log-verossimilhança o ponto que maximiza esta.

O valor de θ que maximiza também maximiza . Se θ = (,..., ), ou seja, a verossimilhança depende de dois ou mais parâmetros. Os estimadores de máxima verossimilhança de ,..., podem ser obtidos como solução das equações xl ,

i= 1,, r. Nos casos em que a função de verossimilhança depende de dois parâmetros,

e , utilizando a equação

obtemos uma solução para como função de que podemos denotar por (). Substituindo a solução para na máxima verossimilhança conjunta, temos uma função para , ou seja, denominada por verossimilhança perfilada que pode ser usada para que o estimador de máxima verossimilhança de possa ser obtido.

Logo dada uma amostra aleatória , ..., da variável aleatória , onde μ e são parâmetros desconhecidos. Temos que θ = (), com

, de modo que

. Sendo

i i i i que leva ao estimador . Portanto o logaritmo da verossimilhança perfilada de é dada por

, logo o estimador de máxima verossimilhança de é obtido como solução da equação que leva ao estimador , de forma que os estimadores de máxima verossimilhança de μ e são dados respectivamente, por

Estatísticas conjuntamente suficientes para μ e

Ao tomarmos a informação que os dados contêm sobre a característica de interesse, utilizando uma estatística, é necessário que não ocorra perda de informação sobre θ. Assim esperamos que a estatística contenha toda a informação sobre θ presente na amostra. Pelo critério da fatoração de Neyman para o caso multiparamétrico, sejam

, ..., uma amostra aleatória da distribuição da variável aleatória X, com f.d.p. (ou função de probabilidade) . Temos, então, que a estatística r- dimensional T = (, ..., ), = é conjuntamente suficiente para se onde é uma função que não depende de e depende de e de somente por meio de .

Sejam ,, uma amostra aleatória da variável aleatória X~, onde

são desconhecidos. Para , a função de verossimilhança pode ser escrita como com -∞ < < ∞ e com . Tomando = e

, temos pelo critério da fatoração, que T= (, ) é conjuntamente suficiente para .

Modelos Lineares Generalizados

Um MLG é composto por duas componentes: a variável resposta que deve ser um membro da família exponencial e a função de ligação que descreve como a média da resposta e uma combinação linear dos regressores estão relacionadas.

Família Exponencial Canônica

Seja Y uma variável aleatória com função densidade (ou probabilidade) envolvendo o parâmetro de locação e parâmetro de escala . Dizemos que f pertence à família exponencial canônica se esta puder ser expressa da forma em que b(.) é contínua em e c(., .) é contínua em y e O de parâmetro locação passa a ser denominado parâmetro canônico e passa a ser chamado parâmetro de dispersão.

O logaritmo de é dado por:

dada a condição de regularidade: , temos que, .

A segunda condição de regularidade: , temos que

Daí,

Seja X uma variável aleatória com distribuição , onde são desconhecidos.

(Parte 1 de 2)

Comentários