Otimização por BFGS para a Distribuição Beta

Otimização por BFGS para a Distribuição Beta

Manaus – AM dezembro – 2010/2

Márcia Brandão Thiago Bentes

Manaus – AM dezembro – 2010/2

Federal do Amazonascomo

Relatório técnico apresentado à professora Themis da Costa Abensur da disciplina Estatística Computacional – IEE482 do curso de Estatística da Universidade requisito parcial de avaliação acadêmica 2010/2.

“A mente que se abre a uma nova ideia jamais voltará ao seu tamanho original” Albert Einstein

INTRODUÇÃOpg. 05
1. Definição do Método BFGSpg. 06
2. Fundamentaçãopg. 06
3. Estrutura e Passos do Algoritmopg. 07
4. Distribuição Beta: Definição e Conceitos Teóricospg. 07
5. Otimizando a Função de Distribuição Beta por BFGSpg. 09
6. Análise dos Parâmetros da Distribuição Betapg. 12
7. Aplicações da Distribuição Betapg. 13
CONCLUSÃOpg. 15
REFERÊNCIAS BIBLIOGRÁFICASpg. 16

O processo de estimação dos parâmetros de algumas funções de distribuição em alguns casos não pode ser resolvido de maneira analítica devido a forma não linear apresentada por suas funções, o que nos leva a utilização de recursos numéricos computacionais para que consigamos estimar os parâmetros relacionados ao modelo escolhido. Um desses recursos é a otimização não linear, a qual mediante alguns métodos nos proporciona a estimação desejada e que não conseguiríamos analiticamente. O método de otimização abordado neste relatório será o BFGS cujas iniciais pertencem aos seus idealizadores. Especificado o método e sua metodologia, bem como a estrutura do algoritmo relacionado ao mesmo, estimaremos os parâmetros da distribuição Beta a partir da estimação por máxima verossimilhança, pois as derivadas parciais de primeira ordem correspondentes a cada um dos parâmetros apresentam forma não linear, em virtude disso desenvolveremos todo o processo de estimação da Beta na utilização do método BFGS.

Estimando os Parâmetros da Função de Distribuição Beta mediante a Otimização pelo Método BFGS

1. Definição do Método BFGS

O método BFGS recebeu as inicias de seus idealizadores Broyden, Fletcher, Goldfarb &

Shanno e representa uma aproximação do método de Newton, o qual não será abordado neste relatório. O BFGS está na classe de técnicas de otimização que tomam um ponto fixo de qualquer função desde que esta seja diferenciável duas vezes. Esse método é indicado para resolver problemas de otimização não linear cuja condição necessária para tal é que o vetor gradiente vetor de derivadas de primeira ordem seja essencialmente nulo.

Neste método de otimização a matriz Hessiana matriz de segundas derivadas não é avaliada diretamente, porém a mesma é aproximada mediante atualizações especificadas das avaliações do próprio vetor gradiente.

Segundo Goldfarbo ponto inicial no estágio é dado pela solução da equação
ondeé uma aproximação da matriz Hessiana, a qual é atualizada iterativamente a cada estágio e
é o vetor gradiente da função que será avaliada emA busca pelo primeiro ponto é
usada para obter o próximo pontopara a Hessiana aproximada no estágio , a qual é

2. Fundamentação atualizada pela adição de duas matrizes

Ambassão matrizes simétricas de mesmo ponto, a condição necessária para a atualização no

método BFGS é que

A partir de um ponto iniciale da aproximação da matriz Hessiana os passos et seq. São
repetidos atéconvergir para a solução procurada:
Obtenha um pontopara resolver
Desenvolva um critério de busca para que se obtenha um pontoe atualize
Faça

3. Estrutura e Passos do Algoritmo

verificada observando a norma do gradiente ׀׀ pode ser inicializada com

é a função objetivo que será minimizada durante o processo, a convergência é

Segundo Mood & Graybilluma família de densidades de probabilidade de variáveis
aleatórias contínuas as quais tomam valores no intervalo abertodefinida por dois parâmetros
positivos, geralmente denotados por e , é chamada família de

4. Distribuição Beta: Definição e Conceitos Teóricos distribuições Beta.

Se uma variável aleatória X tem densidade dada por

ondeé a função Gamma e então X é dita ter distribuição Beta com parâmetros

, cuja função

é denominada função Beta ou primeira integral de Eulleraparece como uma constante de

8 normalização para garantir que a probabilidade total integre a unidade , a qual pode ser expressa em termos da função Gamma

pois ambas funçõessão estreitamente relacionadas dadas as especificações
mostradas nas expressões
Segundo Gneri et alesta demonstração tem basicamente dois passos: escreve-se o

Demonstração: produto das duas gamas e transformam-se ambas as variáveis de integração, chegando-se à identidade proposta.

Portanto, a expressãoe a demonstração acima nos diz que, para calcular valores da

função Beta, basta saber os valores da função Gamma.

ondeé a função Digamma .
Para efeito de curiosidade, segundo Verdugo e Rathiea função de distribuição

As derivadas parciais da função Beta podem ser expressas em termos da função Digamma cumulativa da distribuição Beta é

ondeé a a função Beta incompleta e é a regularização da função Beta incompleta.

5. Otimizando a Função de Distribuição Beta por BFGS

logarítmica da verossimilhança da referida distribuição dada na expressãosessão 4

Para que se otimize a função de distribuição Beta obtemos, primeiramente, a função

derivadas parciaisem função dos dois parâmetros da distribuição

após chegarmos à forma logarítmica da função verossimilhança obtemos suas funções score ou Beta,

onde o termoé conhecido como “função Digamma”, dado a demonstração acima, a qual é não
parâmetros e para, obtivemos os resultados evidenciados na Tabela 1 et seq.
Tabela 1: estimativas dena otimização por BFGS.
Otimização da Distribuição Beta

10 linear e não pode ser resolvida de forma analítica. Otimizando computacionalmente mediante um algoritmo; presente na sessão ANEXOS construído de acordo com a teoria apresentada neste relatório referente à distribuição Beta e ao método BFGS, atribuímos valores fixos aos dois a b

, estimativas decom diversos tamanhos de , aproximam-se cada vez mais dos
verdadeiros valores dos parâmetros quanto maior for o tamanho amostralsegundo a Lei Fraca

Analisando os dados da Tabela 1 obtidos computacionalmente a partir da estimação por máxima verossimilhança e posterior otimização por BFGS notamos que os valores alcançados para dos Grandes Números abordada em estudos anteriores. Isso demonstra que o método BFGS é ideal para estimar a distribuição Beta, em vista que a mesma não pode ser resolvida analiticamente pelo fato de ser uma função não linear. A convergência das estimativas é melhor observada a seguir.

Figura 1: aproximação das estimativas de alfa para o verdadeiro valor do parâmetro.

Val ores r o xi m ad os de al

Tamanho das amostras -n's alfa estimado

Convergencia de alfa valor do parâmetro

Figura 2: aproximação das estimativas de beta para o verdadeiro valor do parâmetro.

Ao verificarmos a Figura 1 e Figura 2 podemos observar com bastante clareza a convergência das estimativas de ambos os parâmetros da distribuição Beta obtidas por BFGS para os seus verdadeiros valores fixados durante o experimento computacional cujos dados estão apresentados na Tabela 1, porém essa relação torna-se mais significativa e evidente quanto maior for o tamanho amostral, ou seja, quanto mais cresce o número de observações mais próximo do verdadeiro valor do parâmetro as estimativas se aproximam.

Val o r es r o xi m ad os de bet

Tamanho das amostras -n's beta estimado

Convergencia de beta valor do parâmetro

6. Análise dos Parâmetros da Distribuição Beta

para cada parâmetro. Sea distribuição é simétrica, se a assimetria é negativa e no caso
de, sua assimetria é positiva. Atribuímos valores diferentes a cada parâmetro e verificamos

No modelo Beta, os parâmetros e definem a forma da distribuição, ou seja, eles determinam e modificam a forma da curvatura da distribuição de acordo com os valores fixados suas respectivas curvaturas, as quais podem ser observadas na Figura 3 abaixo.

Figura 3: curvas de densidade da distribuição Beta com diversos valores de e

A função de densidade Beta pode assumir diferentes formas dependendo dos valores dos dois parâmetros, fixando valores diferentes para ambos observamos, mediante a ilustração da Figura 3, que:

• Se, a densidade de Beta se reduz à Uniforme no intervalo ;
• Sea curva se dá em forma de “U” ;
• Sea curva é estritamente decrescente ;
• Coma curva é estritamente convexa;
• Coma curva torna-se um alinha reta;

• Com a curva é estritamente côncava;

• Seou a curva é estritamente crescente ;
• Coma curva é estritamente convexa;
• Coma curva é um alinha reta;
• Coma curva é estritamente côncava;
• Sea curva é unimodal¹ ;
domínio, oe também devido a variedade de formas que a densidade pode assumir

Notamos que a densidade Beta é apropriada para modelar proporções em virtude do seu de acordo com os valores especificados para e , parâmetros da distribuição.

7. Aplicações da Distribuição Beta

modelar uma função densidade de probabilidadeno intervalo e pela possibilidade de

Devido a grande versatilidade de uma variável aleatória X com distribuição Beta para generalizar essa versatilidade para qualquer variável aleatória Y restrita a um intervalo finito , bastando para isso utilizar a relação

problema do “nascer do sol”. Tal regra afirma que os sucessos são dados nascondicionalmente

o modelo Beta tem inúmeras aplicações para representar quantidades físicas cujos valores estejam restritos a um intervalo identificável. O modelo também é frequentemente usado para descrever a distribuição de um valor de probabilidade desconhecida. Em geral, como a distribuição a priori sobre um parâmetro de probabilidade, tais como a probabilidade de sucesso na distribuição Binomial ou Bernoulli. Outra aplicação clássica da distribuição beta é a regra de sucessão, a qual não abordaremos aqui, introduzida no século XVIII por Pierre Simon de Laplace no interesse de tratar o independentes tentativas de Bernoulli com probabilidade que deve ser estimada como

¹ Na estatística, uma distribuição de probabilidade unimodal é uma distribuição de probabilidade que tem um modo único, ou seja, é um valor no qual a função distribuição ou densidade de probabilidade atinge o seu valor máximo.

seja, Betaque é dado pela “regra de Bayes”, a qual não enunciaremos neste, se
assume uma uniforme sobreisto é e, em seguida, observa que p gera sucessos em

essa estimativa pode ser considerada como o valor esperado da distribuição a posteriori sobre , ou tentativas.

fornece uma família de distribuições a priori conjugadas para Binomiale a

Na estatística Bayesiana a distribuição Beta é amplamente utilizada, uma vez que a mesma distribuição Geométrica.

A distribuição Beta é um dos muitos exemplos de distribuições que não podem ser resolvidas de forma analítica, o que nos leva a utilização de métodos computacionais para a sua resolução e um dos métodos mais eficazes para resolver problemas referentes à otimização é o BFGS, dado suas propriedades teóricas satisfatórias e sua grande flexibilidade na implementação computacional. Utilizando tal método obtivemos resultados importantes, com os dados apresentados neste relatório e sua posterior análise concluímos que o método de otimização por BFGS é uma boa alternativa para ser usada durante o processo de estimação da função Beta, pois as suas derivadas parciais em relação a cada um de seus parâmetros não podem ser resolvidas da maneira convencional e as estimativas obtidas aproximam-se consideravelmente dos verdadeiros valores estabelecidos para os parâmetros que queremos estimar e quanto maior for o tamanho amostral melhor dar-se-á a estimação e mais rápida a estimativa convergirá para seu valor original.

FLETCHER, RPractical methods of optimization, edition. New York: John Wiley & Sons,
GNERI, M; GUIOL, H. & PINHEIRO, A. SProbabilidade. Instituto de Matemática, Estatística

e Computação Científica - UNICAMP, Brasil.

GOLDFARB, DA Family of Variable Metric Updates Derived by Variational Means,

Mathematics of Computation. 24, 23-26.

MIGON, H. S. & GAMERMAN, DStatistical Inference: an Integrated Approach, Arnold.

United States of America.

MOOD, A. M. & GRAYBILL, F. AIntroduction to the Theory of Statistics. edition,

McGraw-Hill Book Company. New York.

VERDUGO A. C. G. & RATHIE P. NSobre a Entropia de uma Distribuição de Probabilidade

Contínua. IEEE Trans – versão traduzida. Inf. Theory. United States of America.

Comandos e algoritmos criados:

################################################### ## Otimização da Distribuição Beta(a,b) por BFGS ## rm(list=ls()) ### Valores escolhidos para n = 30, 50, 100, 500 & 100. n <- 50

x <- rbeta(n, a, b)

fog <- function(vp){## vp = valor paramétrico
a <- vp[1]## argumento 1
b <- vp[2]## argumento 2

### Função Objetivo

### Estimativas ótimas optim(c(1.5,0.9), fog, method="BFGS") optim(c(1.5,0.9), fog, fgg, method="BFGS")

Comentários