Teoria da Resposta ao Item: Conceitos e Aplicações

Teoria da Resposta ao Item: Conceitos e Aplicações

(Parte 2 de 8)

KeimelionRevisão de textos http://www.keimelion.com.br

A.3142

x Conteudo Referencias Bibliograficas 147

Andrade, Tavares & Valle SINAPE 2000

KeimelionRevisão de textos http://www.keimelion.com.br

2.1 Exemplo de uma Curva Caracterıstica do Item – CCI1
2.2 Curvas caracterısticas e de informacao de varios itens14

Lista de Figuras

posta gradual2

2.3 Representacao grafica dos modelos de escala gradual e de res-

pos e de tipos de provas80

4.1 Representacao grafica de 6 situacoes quanto ao numero de gru-

8.a serie entre o RN e o SAEB89

4.2 Grafico de dispersao das estimativas do parametro de dificuldade - b dos itens comuns da prova de Lıngua Portuguesa da

da 8.a serie entre o RN e o SAEB90
6.1 Exemplo de 2 itens ancora1
6.2 Esquema da composicao da prova de ligacao116

4.3 Grafico de dispersao das estimativas do parametro de discriminacao - a dos itens comuns da prova de Lıngua Portuguesa

des em Lıngua Portuguesa dos alunos da 3.a serie117

6.3 Representacao grafica da distribuicao a posteriori das habilida-

des em Lıngua Portuguesa dos alunos da 4.a serie118
7.1 Esquematizacao dos itens comuns entre as provas132

6.4 Representacao grafica da distribuicao a posteriori das habilida- KeimelionRevisão de textos http://www.keimelion.com.br

KeimelionRevisão de textos http://www.keimelion.com.br

Capıtulo 1 Introducao

Resultados obtidos em provas, expressos apenas por seus escores brutos ou padronizados, tem sido tradicionalmente utilizados nos processos de avaliacao e selecao de indivıduos. No entanto, os resultados encontrados dependem do particular conjunto de itens (questoes) que compoem o instrumento de medida, ou seja, as analises e interpretacoes estao sempre associadas a prova como um todo, o que e a caracterıstica principal da Teoria Classica das Medidas. Assim, torna-se inviavel a comparacao entre indivıduos que nao foram submetidos as mesmas provas, ou pelo menos, ao que se denomina de formas paralelas de testes. Maiores detalhes sobre essa metodologia, incluindo sua fundamentacao matematica, podem ser encontrados em Gulliksen (1950), Lord & Novick (1968) e Vianna (1987), entre outros.

Atualmente, em varias areas do conhecimento, particularmente em avaliacao educacional, vem crescendo o interesse na aplicacao de tecnicas derivadas da Teoria de Resposta ao Item – TRI, que propoe modelos para os tracos latentes, ou seja, caracterısticas do indivıduo que nao podem ser observadas diretamente. Esse tipo de variavel deve ser inferida a partir da observacao de variaveis secundarias que estejam relacionadas a ela. O que esta metodologia sugere sao formas de representar a relacao entre a probabilidade de um indivıduo dar uma certa resposta a um item e seus tracos latentes, proficiencias ou habilidades na area de conhecimento avaliada.

Uma das grandes vantagens da TRI sobre a Teoria Classica e que ela permite a comparacao entre populacoes, desde que submetidas a provas que tenham alguns itens comuns, ou ainda, a comparacao entre indivıduos da mesma populacao que tenham sido submetidos a provas totalmente diferentes. Isto porque uma das principais caracterısticas da TRI e que ela tem como elementos centrais os itens, e nao a prova como um todo.

Assim, varias questoes de interesse pratico na area da Educacao podem

KeimelionRevisão de textos http://www.keimelion.com.br

4 Introducao ser respondidas. E possıvel por exemplo, avaliar o desenvolvimento de uma determinada serie de um ano para outro ou comparar o desempenho entre escolas publicas e privadas.

Os primeiros modelos de resposta ao item surgiram na decada de 50, e eram modelos em que se considerava que uma unica habilidade, de um unico grupo, estava sendo medida por um teste onde os itens eram corrigidos de maneira dicotomica. Estes modelos foram primeiramente desenvolvidos na forma de uma funcao ogiva normal e, depois, foram descritos para uma forma matematica mais conveniente, e que vem sendo usada ate entao: a logıstica.

Lord (1952) foi o primeiro a desenvolver o modelo unidimensional de 2 parametros, baseado na distribuicao normal acumulada (ogiva normal). Apos algumas aplicacoes desse modelo, o proprio Lord sentiu a necessidade da incorporacao de um parametro que tratasse do problema do acerto casual. Assim, surgiu o modelo de 3 parametros. Anos mais tarde, Birnbaum (1968) substituiu, em ambos os modelos, a funcao ogiva normal pela funcao logıstica, matematicamente mais conveniente, pois e uma funcao explıcita dos parametros do item e de habilidade e nao envolve integracao. Independentemente do trabalho de Lord, Rasch (1960) propos o modelo unidimensional de 1 parametro, expresso tambem como modelo de ogiva normal e, tambem mais tarde descrito por um modelo logıstico por Wright (1968).

Samegima (1969) propos o modelo de resposta gradual com o objetivo de obter mais informacao das respostas dos indivıduos do que simplesmente se eles deram respostas corretas ou incorretas aos itens. Bock (1972), Andrich (1978), Masters (1982) e Muraki (1992) tambem propuseram modelos para mais de duas categorias de resposta, assumindo diferentes estruturas entre essas categorias.

Recentemente, Bock & Zimowski (1997) introduziram os modelos logısticos de 1, 2 e 3 parametros para duas ou mais populacoes de respondentes. A introducao desses modelos trouxe novas possibilidades para as comparacoes de rendimentos de duas ou mais populacoes submetidas a diferentes testes com itens comuns, conforme discutido em Hedges & Vevea (1997) e Andrade (1999), por exemplo.

Um ponto crıtico na TRI e a estimacao dos parametros envolvidos nos modelos, em particular quando necessita-se estimar tanto os parametros dos itens quanto as habilidades. Inicialmente, a estimacao era feita atraves do

Andrade, Tavares & Valle SINAPE 2000

KeimelionRevisão de textos http://www.keimelion.com.br metodo da maxima verossimilhanca conjunta que envolve um numero muito grande de parametros a serem estimados simultaneamente e, consequentemente, grandes problemas computacionais. Em 1970, Bock & Lieberman introduziram o metodo da maxima verossimilhanca marginal para a estimacao dos parametros em duas etapas. Na primeira etapa estimam-se os parametros dos itens, assumindo-se uma certa distribuicao para as habilidades. Na segunda etapa, assumindo os parametros dos itens conhecidos, estimam-se as habilidades. Apesar do avanco que esse metodo trouxe para o problema, ele requeria que todos os parametros dos itens fossem estimados simultaneamente. Em 1981, Bock & Aitkin propuseram uma modificacao no metodo acima, utilizando o algoritmo EM de Dempster, Laird & Rubin (1977), de modo a permitir que os itens pudessem ter seus parametros estimados em separado, facilitando em muito o aspecto computacional do processo de estimacao. Mais recentemente, metodos bayesianos foram propostos para, entre outras coisas, resolver o problema de estimacao dos parametros dos itens respondidos corretamente ou incorretamente por todos os respondentes, e tambem o problema da estimacao das habilidades dos respondentes que acertaram ou erraram todos os itens da prova.

Nas ultimas decadas, a TRI vem tornando-se a tecnica predominante no campo de testes em varios paıses. Aqui no Brasil, a TRI foi usada pela primeira vez em 1995 na analise dos dados do Sistema Nacional de Ensino Basico - SAEB. A introducao da TRI permitiu que os desempenhos de alunos de 4a. e 8a. series do Ensino Fundamental e de 3a. serie do Ensino Fundamental pudessem ser comparados e colocados em uma escala unica de conhecimento. A partir dos resultados obtidos no SAEB, outras avaliacoes em larga escala, como por exemplo o Sistema de Avaliacao de Rendimento Escolar do Estado de Sao Paulo - SARESP, tambem foram planejadas e implemementadas de modo a serem analisadas atraves da TRI. Uma lista das principais aplicacoes da TRI no Brasil em avaliacoes educacionais pode ser encontrada em Andrade & Klein (1999).

O objetivo desse livro e introduzir os principais conceitos, modelos e resultados que podem ser obtidos a partir da aplicacao da TRI. No Capıtulo 2 sao apresentados os modelos, com suas interpretacoes e suposicoes basicas. No Capıtulo 3 discute-se o processo de estimacao dos parametros dos itens e das habilidades dos respondentes pertencentes a uma unica populacao. O

Andrade, Tavares & Valle SINAPE 2000

KeimelionRevisão de textos http://www.keimelion.com.br

6 Introducao conceito de equalizacao e suas diferentes formas de obtencao sao discutidos no Capıtulo 4. Os metodos de estimacao sao retomados no Capıtulo 5 com o modelo para duas ou mais populacoes. No Capıtulo 6 discute-se a criacao de escalas de habilidade e suas interpretacoes e uma aplicacao a dados reais. No Capıtulo 7 apresentam-se os principais recursos computacionais e no Capıtulo 8 apresentam-se comentarios sobre a utilizacao da TRI, inclusive em outras areas, e possıveis topicos para pesquisa. Por ultimo, apresentam-se demonstracoes de alguns dos resultados do Capıtulo 3 no Apendice e uma bibliografia com outras referencias alem daquelas citadas no texto, com o objetivo de fornecer ao leitor o maior numero de informacoes sobre a TRI.

Os autores recomendam fortemente a leitura de Lord (1980) e Hambleton, Swaminathan & Rogers (1991) para maiores detalhes dos fundamentos e aplicacoes dessa teoria.

Andrade, Tavares & Valle SINAPE 2000

KeimelionRevisão de textos http://www.keimelion.com.br

Capıtulo 2 Modelos Matematicos

2.1 Introducao

A TRI e um conjunto de modelos matematicos que procuram representar a probabilidade de um indivıduo dar uma certa resposta a um item como funcao dos parametros do item e da habilidade (ou habilidades) do respondente. Essa relacao e sempre expressa de tal forma que quanto maior a habilidade, maior a probabilidade de acerto no item. Os varios modelos propostos na literatura dependem fundamentalmente de tres fatores:

(i) da natureza do item — dicotomicos ou nao dicotomicos; (i) do numero de populacoes envolvidas — apenas uma ou mais de uma;

(i) e da quantidade de tracos latentes que esta sendo medida — apenas um ou mais de um.

Nesse livro estaremos somente considerando modelos que avaliam apenas um traco latente ou habilidade, os chamados modelos unidimensionais. Modelos que consideram que mais de uma habilidade esta sendo medida, os chamados modelos multidimensionais, podem ser encontrados em Linden & Hambleton (1997), por exemplo.

Na Secao 2.2 apresentaremos os modelos unidimensionais mais utilizados para um unico grupo. Os modelos para dois ou mais grupos serao discutidos na Secao 2.3.

KeimelionRevisão de textos http://www.keimelion.com.br

8 Modelos Matematicos

2.2 Modelos envolvendo um unico grupo

Em primeiro lugar, e importante definir os conceitos de grupo e populacao, que serao largamente utilizados neste e nos demais capıtulos. Quando usarmos o termo grupo, estaremos nos referindo a uma amostra de indivıduos de uma populacao. Neste trabalho, o conceito de grupo esta diretamente ligado ao processo de amostragem — e estaremos sempre considerando o processo de amostragem aleatoria simples. Portanto, quando falarmos em um unico grupo de respondentes, nos referimos a uma amostra de indivıduos retirada de uma mesma populacao. Consequentemente, dois grupos – ou mais – de respondentes sao dois conjuntos distintos de indivıduos, que foram amostrados de duas – ou mais – populacoes.

Na area de Avaliacao Educacional e comum que uma populacao seja definida por determinadas caracterısticas que podem variar, dependendo dos objetivos do estudo, e portanto, podem ou nao ser relevantes para a diferenciacao de populacoes. Por exemplo, pode-se considerar que a 5.a serie do Ensino Fundamental de Sao Paulo e a populacao alvo. Daı, toma-se uma unica amostra dos alunos dessa populacao, composta de alunos do perıodo diurno e do noturno. Nesse caso, temos entao um unico grupo de respondentes. Ja em outro estudo, poderıamos considerar a 5.a serie diurna e a 5.a serie noturna do Ensino Fundamental de Sao Paulo como duas populacoes de interesse. Entao, seriam tomadas duas amostras: uma dos alunos do perıodo diurno e outra dos alunos do noturno. Nessa situacao, terıamos dois grupos de alunos. Portanto, e pelo proprio processo de amostragem do estudo que identifica-se quantas (e quais) populacoes estao envolvidas.

Exemplos do que usualmente sao consideradas como populacoes distintas sao: series distintas (3.a serie e 4.a serie); perıodos distintos (diurno e noturno); uma mesma serie, mas em anos distintos (3.a serie de 1996 e 3.a serie de 1997), etc.

A seguir, apresentaremos os modelos mais utilizados quando um teste e aplicado a um unico grupo de respondentes.

2.2.1 Modelos para itens dicotomicos ou dicotomizados

Os modelos apresentados nesta subsecao, podem ser utilizados tanto para a analise de itens de multipla escolha dicotomizados (corrigidos como certo

(Parte 2 de 8)

Comentários