Estimação de Parâmetros

Estimação de Parâmetros

(Parte 1 de 2)

C-226 Aula 07 - Estimação de Parâmetros

Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008

Estimação de Parâmetros

• Para construir o classificador bayesiano, assumimos as distribuições de probabilidades conhecidas.

• Para as redes bayesianas e o método naïve bayes, haviamos utilizado apenas distribuições discretas.

• Agora queremos estimar uma densidade de probabilidade contínua (e eventualmente multidimensional) a partir de um conjunto de observações.

• Se conhecemos o tipo de variável aleatória com que estamos trabalhando, podemos conhecer a família de distribuições de probabilidades (uniforme, gaussiana, Rayleigh etc) e neste caso bastaria determinar um vetor de parâmetros que definem a forma da distribuição.

• Há casos em que esses parâmetros não são conhecidos e devem ser estimados a partir dos dados (adaptar um modelo paramétrico aos dados como fizemos na regressão linear).

• No problema da regressão linear, minimizamos uma função de erro que media a disparidade entre os dados e um modelo de predição. O que podemos utilizar como função de erro para avaliar se um conjunto de parâmetros modela adequadamente um conjunto de amostras?

Amostragem

Propriedade: distribuição da média amostral

Se os dados X1,...,XN foram amostrados de uma distribuição qualquer com valor médio µ e desvio-padrão σ:

Se T0 = X1 ++ Xn, então:

Propriedade: teorema do limite central

Se os dados X1,...,XN foram amostrados de uma distribuição qualquer com valor médio µ e desvio-padrão σ. Se N é suficientemente grande, a média amostral X tem aproximadamente uma distribuição normal com

AsomaT0 = ∑ i Xi é também aproximadamente normal com µT = nµ

Quanto maior for n melhor a aproximação.

Estimação por Máxima Verossimilhança (MLE)

• Supomos que essa verossimilhança assume uma forma paramétrica,dependente do vetor de parâmetros θi desconhecido e que desejamos estimar.

• Sejam x1xN, N observações com pdf p(x,θ).

• Os dados do conjunto D são independentes e identicamente distribuídos, de forma que:

• O estimador de máxima verossimilhança θML é aquele θ para qual a função de verossimilhança tem valor máximo:

θML = argmax θ

• Na otimização irrestrita, a condição necessária para obter o máximo é que o gradiente da função de verossimilhança em relação ao vetor θ seja nulo.

• O logaritmo é crescente e monotônico, podemos definir a função log-verossimilhança como

• Operando o gradiente do log:

Propriedades da MLE

• Se θ0 é o valor real, o estimador ML é assintoticamente não-viezado, isto é, para amostras grandes (n → ∞) em média converge para o valor real.

• Em geral, o estimador ML pode ser viezado para amostras pequenas (lembrar do σ2).

• Porém, é assintoticamente consistente: a probabilidade de estar arbitrariamente próximo do valor correto é alta quanto maior for N.

• O estimador ML converge na média dos quadrados, isto é, para amostras grandes, a variância do estimador ML tende a zero.

• O estimador de ML tende a ser o estimador de mínima variância e é aproximadamente não-tendencioso.

• A pdf do estimador ML tende a uma gaussiana.

• Princípio da invariância: Se θ é um estimador de máxima verossimilhança para o vetor de estatísticas θ, o estimador de máxima verossimilhança das estatísticas h(θ) é h(θ) qualquer que seja h.

Exemplo

Caso Gaussiano com µ desconhecido. Supomos Σ conhecido.

k=1 xk

O estimador ML da média da distribuição é a média amostral.

Exemplo

Caso Gausiano com µ e Σ desconhecidos. Consideramos o caso unidimensional com θ1 = µ e θ2 = σ2

Com derivadas

Igualando a zero, n∑

Assim, k=1 xk

No caso multivariado:

Notar que o estimador ML para a variância é tendencioso (viezado).E [ 1n

Um estimador não tendencioso seria:

Estimador Máxima a posteriori (MAP)

• Considerando θ como uma variável aleatória, podemos acrescentar informação sobre o parâmetro theta baseado em conhecimento do problema.

• Essa informação é codificada como uma distribuição de probabilidade a priori p(θ).

• O estimador para θ que procuramos é aquele que minimiza a probabilidade a posteriori p(θ|D).

• Expandindo a regra de Bayes:

• O estimador MAP é aquele θ para o qual:

(Parte 1 de 2)

Comentários