Simulação de Monte Carlo no Modelo de Regressão Linear Simples

Simulação de Monte Carlo no Modelo de Regressão Linear Simples

(Parte 1 de 2)

Manaus – AM novembro – 2010/2

Márcia Brandão Thiago Bentes

Manaus – AM novembro – 2010/2

Relatório técnico apresentado à professora Themis da Costa Abensur da disciplina Estatística Computacional – IEE482 do curso de Estatística da Universidade Federal do Amazonas (UFAM) como requisito parcial de avaliação acadêmica 2010/2.

INTRODUÇÃOpg. 04
1. Definição do Modelo de Regressão Linear Simplespg. 05
2. Experimento Computacional: Atribuição de Valores e Simulaçãopg. 06
3. Experimento Computacional: Teste de Hipóteses e Intervalos de Confiançapg. 10
3.1. Intervalos de Confiançapg. 10
3.2. Teste de Hipóteses parapg. 12
CONCLUSÃOpg. 14
REFERÊNCIAS BIBLIOGRÁFICASpg. 15
durante o estudoserão sujeitas a certo conjunto de hipóteses para que as

O modelo de regressão linear simples é utilizado quando a variável resposta é explicada mediante a correlação por uma variável regressora, a qual se relacionará com os valores respostas para que saibamos informações a respeito do que estamos estudando, como por exmplo a relação existentes entre as duas variáveis do modelo de regressão simples e as informações obtidas necessidades do que se deseja conhecer sejam atendidas. Este relatório conterá um experimento computacional, no qual aplicaremos a simulação de Monte Carlo no modelo de regressão linear simples para diferentes tamanhos de amostra, ajustaremos o modelo, calcularemos intervalos de confiança para os coeficientes de regressão e a realizaremos de testes de hipóteses para a posterior comparação e análise dos resultados a medida que n, o tamanho amostral, cresce.

Simulação de Monte Carlo na estimação da função de regressão linear simples

1. Definição do Modelo de Regressão Linear Simples

haver somente uma variável presente do lado direito da equação, a qual apresenta dois
parâmetros distintos que, se conhecidos, nos fornecem informações de extrema

O modelo de regressão é usado para analisar a relação existente entre duas ou mais variáveis aleatórias por meio de uma função linear chamada função de regressão simples, no caso de importância sobre as variáveis que estamos estudando.

A variável aleatóriado modelo de regressão é função linear de duas outras
variáveis:e o erro aleatório . Logo, temos o modelo

de regressão linear simples:

O qual segundo Hill ; Griffiths & Judgeos parâmetros de regressão desconhecidos são,
qual não entraremos em detalhe aqui, para que seja feito o ajuste da regressão. Sendoas
estimativas de mínimos quadrados ordinários de, suas equações são

respectivamente, o intercepto e o coeficiente angular da função de regressão. Porém, por ambos serem desconhecidos é necessário estimá-los pelo princípio dos mínimos quadrados ordinários, o cujo valor ajustado da regressão segundo as estimativas é

Para levar adiante uma análise de regressão, devemos fazer uma suposição sobre os valores da variável X. A ideia da análise de regressão é medir o efeito de alterações em uma variável, X, sobre outra variável, Y. Para tanto, X deve tomar vários valores diferentes, ao menos dois nesse caso, dentro da amostra de dados

2. Experimento Computacional: Atribuição de Valores e Simulação

do modeloe à distribuição de X para cada n distinto e, admitindo distribuição
para o erro do modeloajustamos a regressão linear considerando o tamanho
das réplicas de Monte Carloe os tamanhos das amostras . O tamanho das réplicas fora
fixado em mile consideramos X tendo distribuição Exponencial com média 2, ou seja,

Tomando-se por base a op. cit. na seção anterior, foram atribuídos valores aos coeficientes

Os resultados obtidos com a simulação computacional são dados na Tabela 1 et seq. Tabela 1: valores da regressão estimada obtidos para cada tamanho de amostra.

Valores obtidos a partir da simulação computacional

O que observamos na Tabela 1 é a aproximação das estimativas de mínimos quadrados. Tais estimativas aproximam-se bastante dos verdadeiros valores dos coeficientes de regressão mesmo

com a variação dos diversos tamanhos de amostra, bem como os valores esperados do ’s

para cada n que também convergem para a esperança de uma

Exponencial, pois assumimos X tendo tal distribuição, comoé natural que haja a

convergência das esperanças de X para o valor “2”. As médias dos valores respostas da regressão , por sua vez, também tendem ao valor “20”, o qual é a esperança das médias dos mesmos.

Figura 1: comportamento dos valores de a. Figura 2: comportamento dos valores de b.

Figura 3: comportamento das médias de XFigura 4: comportamento das médias de Y.
verdadeiros valores,e , para , ou seja, suas estimativas tendem ao verdadeiro valor dos

As Figuras 1 e 2 mostram o comportamento dos valores de a e b em torno dos seus coeficientes como pode ser visto nas próprias figuras mencionadas acima. Nas Figuras 3 e 4 para também observamos o comportamento de seus valores em torno de suas médias, no caso em X tendendo a “2” dado a sua distribuição ser Exponencial com média igual a referido valor e em Y tendendo a “20”, o valor resposta correspondente ao número esperado de Y. Decidimos por somente um exemplo para os diversos valores de amostra em vista que o mesmo acontece para os demais valores já especificados e comentados na Tabela 1.

valores respostas da variável Y em função de X e, para isso, segundo Hill ; Griffiths & Judgeé
necessário uma regra que utilizasse todas as informações sobre todos os pontosEssa regra
uma reta aos valores dos dadosA construção da mesma se dá

Após observarmos as estimativas explicitadas nosso objetivo é estimar a posição da reta dos a qual o autor se refere é o próprio princípio dos mínimos quadrados, já mencionado, que ajustará mediante as estimativas de mínimos quadrados a e b, pois a reta que as tem como intercepto e coeficiente angular é a que melhor se ajusta aos dados. Tendo a reta ajustada por meio da simulação no experimento computacional obtivemos os gráficos a seguir.

Figura 5: reta de regressão ajustada paraFigura 6: reta de regressão ajustada para
Nas Figuras 5 e 6 temos os gráficos dos valores de X em relação ao ajuste parae 100
que ela passa pelo ponto definido pelas médias amostrais,como comentado após a

8 respectivamente, optamos por apresentar somente dois exemplos em vista que o mesmo processo de ajuste acontece para as amostras de tamanho 500 e 1000. Observamos em ambas as figuras que a reta ajustada de mínimos quadrados passa pelo meio dos dados de forma precisa, pois uma das características da reta ajustada, baseada nas estimativas de mínimos quadrados dos parâmetros, é especificação dos dados na Tabela 1.

para todos os valores de X correlacionados aos de Y, expressa como׀ Segundo Hill ;
Griffiths & Judgequando a variância permanece constante implica que, para cada valor da
variável independenterelacionado ao valor resposta da variável dependente , temos a
mesma incerteza sobre o quão distante estão os valores de Y da sua média,׀ , essa

Um critério abordado na regressão linear simples é o da variância condicional constante incerteza não está associada a nenhum fator. O conjunto de dados que satisfaz essa condição

chama-se homocedástico e se tal critério for violado, de forma׀ para todos os

valores de X, o conjunto é dito heterocedástico.

Durante o experimento computacional analisamos a variância condicional dado o crescimento dos n’s, os gráficos et seq são dados.

Nas Figuras 7 a 10 relacionamos os valores ajustados pelo modelo com os resíduos de

Pearson. Quando analisamos as Figuras 7 e 8 observamos aleatoriedade nos resíduos tanto no n igual a 50 quanto no igual a 100, portanto há evidencia de homoscedasticidade. Mas, quando observamos a Figura 9 e 10, observamos certa tendência de afunilamento muito sutil dos resíduos conforme aumentam os valores ajustados e os n’s, porém a aleatoriedade ainda é presente.

Figura 7: gráfico de dispersão entre os resíduos de Pearson e os valores ajustados do modelo para n = 50.

Figura 8: gráfico de dispersão entre os resíduos de Pearson e os valores ajustados do modelo para n = 100.

Figura 9: gráfico de dispersão entre os resíduos de Pearson e os valores ajustados do modelo para n = 500.

Figura 10: gráfico de dispersão entre os resíduos de Pearson e os valores ajustados do modelo para n = 1000.

3. Experimento Computacional: Teste de Hipóteses e Intervalos de Confiança

base nos dadosNosso objetivo nesta seção é fazer inferências sobre os

Os procedimentos de teste de hipóteses comparam uma conjectura sobre uma população com as informações contidas numa amostra de dados e a estimação de intervalos, ou a construção de intervalos de confiança, constitui uma técnica importante para fazer inferenciais estatísticas com verdadeiros valores de a e b mediante teste de hipóteses e intervalos de confiança sobre os intervalos que conterão os verdadeiros valores e suas porcentagens de aceitação e rejeição.

Estimação por intervalos é aquela em se atribui a um conjuntode valores, possíveis
valores para os parâmetros a serem estudados, no caso do estudo proposto,, que serão
estimados a partir dos estimadores a e b, onde baseado numa amostra aleatória nXXX,21

3.1. Intervalos de confiança. seguindo uma distribuição de probabilidade, e fixando o valor de significância do intervalo a ser

calculado, obtemos as estatísticas ),(2111nXXXhT, )....,(2122nXXXhT onde, 21TT,

satisfaz a seguinte relação: )Pr(21T, então 21,T é denominado intervalo de confiança para o parâmetro com probabilidade .

No caso do estudo do método de regressão simples a variância da população é desconhecida, pois a regressão linear simples foi realizada a partir de valores aleatórios, neste caso, utilizaremos intervalo de confiança seguindo uma distribuição de Student para populações com variância desconhecida.

Abaixo seguem tabelas com os percentuais dos resultados obtidos para os parâmetros,
é natural que se encontre 1000intervalos de confiança, assim, apresentaremos gráficos dos

como o experimento foi repetido mil vezes por intermédio do método de simulação de Monte Carlo, primeiros cinqüenta intervalos obtidos na simulação, para os tamanhos de amostra n=500 e n=1000, respectivamente.

Tabela 2: Percentual de intervalo de confiança de 95% para

Percentual de Intervalos de confiança para n contiveram alpha não contiveram

96,3% dos intervalos contiveram , enquanto que quando n = 1000, 9,1% dos intervalos contêm
Tabela 3: Percentual de intervalo de confiança de 95% para

Como se pode notar, à medida que n “cresce” as quantidades de valores estimados para aumenta, assim a probabilidade de se inferir valores verdadeiros para este parâmetro pelo método do cálculo de intervalos de confiança vai ganhando mais confiabilidade, note que quando n=50

Intervalos de confiança para beta n % aceitação % rejeição

Nesta tabela pode-se notar 100% dos intervalos de confiança gerados a partir de b contêm o valor pré-determinado para , isso nos mostra que há como ajustar o angulo da reta estimada para

o verdadeiro valor da variável regressora

Figura 12: gráfico dos primeiros 50 intervalos de confiança para a 95% de confiabilidade para n = 1000.

Figura 1: gráfico dos primeiros 50 intervalos de confiança para a 95% de confiabilidade para n = 500.

Como se pode notar, há presença de um intervalo que deixa de fora o verdadeiro valor do parâmetro na Figura 1.

Neste caso, específico onde se estuda os intervalos de confiança para o coeficiente angular , nota-se que todos os intervalos contêm , conforme citado na tabela 3.

3.2. Teste de Hipóteses para
Segundo Gujarati, se a hipóteses for verdadeira, a média da variável

regressora, como pode ser visto pela definição modelo de regressão. Isto significa dizer que quando

o parâmetro não depende de valores específicos, o teste de hipóteseé popularmente

conhecido como “testar a significância da variável regressora no modelo”.

Assim, realizamos testes de hipóteses nos estimadores parae pudemos inferir alguns
simulação de Monte Carlo para 1000réplicas de amostras de diferentes tamanhos de n.

resultados, é natural que tenhamos efetuado 1000(mil) testes de hipóteses, haja vista que foi feita Temos as tabelas que mostram os percentuais de testes que rejeitaram a hipóteses nula

Figura 12: gráfico dos primeiros 50 intervalos de confiança a 95% de confiabilidade para n = 1000.

Figura 13: gráfico dos primeiros 50 intervalos de confiança a 95% de confiabilidade para onde n = 500.

(Parte 1 de 2)

Comentários