Printer Friendly

Uso dos metodos Mantel-Haenszel para a deteccao do funcionamento diferencial dos itens e software relacionado.

Resumo

As estatisticas englobadas sob a denominacao metodos Mantel-Haenszel (MH), por suas simplicidades, baixo custo computacional e bons resultados, sao os metodos mais empregadas para detectar o funcionamento diferencial dos itens (DIF). Os metodos MH podem ser usados para detectar o DIF tanto em itens dicotomicos como em itens politomicos, permitindo comparar dois ou mais grupos simultaneamente, e aplicam-se tanto no ambito da Teoria Classica dos Testes (TCT) como da Teoria da Resposta ao Item (TRI). Este artigo fornece uma visao completa e integrada dos metodos MH e apresenta um programa que permite aplicar essas estatisticas no estudo do DIF. O programa e gratuito e esta disponivel em Espanhol, Ingles e Portugues.

Palavras-chave: Funcionamento diferencial dos itens, DIF software, GMHDIF, metodos de MantelHaenszel, estatisticas generalizadas de Mantel-Haenszel.

Abstract

Statistics comprised under Mantel-Haenszel (MH) methods designation constitute one of the most popular and low cost differential item functioning (DIF) detection methods. Mantel-Haenszel methods permit DIF assessment of dichotomous and polytomous items in multiple groups simultaneously, and they can be applied both under Classical Test Theory and Item Response Theory. This paper provides a framework for integrating the different MH statistics used in DIF research, and describes the software that has been developed to provide an easy-to-use program for conducting DIF analyses using the statistics. The prograto is free of charge and it is available in the following languages: Spanish, English and Portuguese. Keywords: Differential item functioning, DIF software, GMHDIF, Mantel-Haenszel methods, Generalized Mantel-Haenszel statistics.

**********

Using Mantel-Haenszel Methods for Detecting Differential Item Functioning

A crescente padronizacao dos metodos de avaliacao, o aumento da formacao psicometrica e a introducao de novos modelos de medida como a Teoria da Resposta ao Item (TRI), tem levado psicologos, educadores e pesquisadores brasileiros a publicar um numero crescente de revisoes (Andriola, 2001; Sisto, 2006a; Valle, 2002) e estudos sobre a deteccao do funcionamento diferencial dos itens (Differential item functioning [DIF], Andriola, 2000, 2008; Marin Rueda, 2007; Sisto, 2006b; Sisto, Bartholomeu, Angeli dos Santos, Marin Rueda, & Suehiro, 2006; Soares, Gamerman, & Goncalves, 2007; Soares, Genovez, & Galvao, 2005; Traebert, Teline de Lacerda, Thomson, Page, & Locker, 2010). Esta tendencia certamente aumentara nos proximos anos. Este artigo tem como meta oferecer aos pesquisadores uma analise integral das estatisticas que compoem o metodo de referencia para a deteccao do DIF: a metodologia Mantel-Haenszel (MH). Seus principais objetivos sao: (a) fornecer uma visao integral dos metodos MH para a deteccao do DIF; (b) Analisar as possibilidades e limitacoes que esta metodologia tem na analise do DIF; e (c) apresentar um programa de computador que permite avaliar facilmente o DIF com as estatisticas MH. Este artigo e dividido em quatro secoes: Funcionamento diferencial do item versus impacto e causas do DIF; Metodos Mantel-Haenszel; Possibilidades e limitacoes; O programa GMHDIF.

Funcionamento Diferencial do Item Versus Impacto e Causas do DIF

Diz-se que um item funciona diferencialmente quando a probabilidade de sucesso no item e diferente entre pessoas com o mesmo nivel de habilidade na variavel medida pelo item, mais que pertencem a diferentes subgrupos de uma populacao determinada. Por exemplo, se um item de um teste para medir a capacidade espacial estivesse bem construido, todas as pessoas com o mesmo nivel de habilidade ou aptidao deveriam ter a mesma chance de acerta-lo. Se, no entanto, para o mesmo nivel de aptidao, os homens tem uma probabilidade do sucesso no item mais elevada do que as mulheres, pode-se dizer que o item funciona diferencialmente contra as mulheres. O DIF e, portanto, uma clara ameaca a validade dos itens e do teste.

Do exposto, conclui-se que se um item tem DIF, necessariamente, apresentaria diferentes propriedades estatisticas entre os grupos comparados. No entanto, isso nao implica que qualquer teste ou item que mostre diferencas entre os grupos apresente DIF. Deve-se distinguir claramente o termo DIF do termo impacto (impact). Suponha que os homens tenham uma maior capacidade espacial do que as mulheres. Se isso fosse verdade, os homens, em media, obteriam maiores escores em testes de habilidade espacial, e tambem teriam uma probabilidade maior do que as mulheres de acertar os itens desses testes. No entanto, os testes so mostram diferencas reais na habilidade medida. Essas diferencas sao chamadas de impacto. Mais formalmente, o impacto, considerando a definicao de Ackerman (1992), e a diferenca entre os grupos no desempenho em um item causada por uma diferenca real na variavel medida pelo teste. Se um item apresenta impacto, a probabilidade de responde-lo corretamente sera maior para um grupo do que para outro, refletindo as diferencas entre os grupos na habilidade medida. No entanto, a probabilidade de responder corretamente a este item sera a mesma para individuos com o mesmo nivel de habilidade, independentemente do grupo a que pertencam. Pelo contrario, se a probabilidade de responder corretamente ao item fosse diferente para individuos com o mesmo nivel de habilidade mais que pertencem a diferentes grupos, entao, o item apresenta DIF. O requisito minimo exigido de qualquer tecnica de analise do DIF e distinguir as diferencas reais entre os grupos na variavel medida pelo item (impacto) das diferencas espurias (DIF).

Por que os itens funcionam diferencialmente? A teoria multidimensional do DIF e a explicacao mais elegante e consistente teorica e formalmente (Ackerman, 1992; Camilli, 1992; Kok, 1988). Segundo dita teoria, o DIF ocorre quando sob certas condicoes e violada a suposicao de unidimensionalidade do teste. O coracao da teoria e a distincao entre a habilidade principal, aquela habilidade que procura medir o teste, e as habilidades espurias, outras variaveis que nao se pretendem medir, mas estao sendo medidas e afetam os resultados do teste. Para simplificar, suponha que temos uma habilidade principal, denotada por [THETA], e so uma habilidade espuria, denotada por [eta]. Se um teste contem itens que avaliam dita habilidade espuria, alem da habilidade principal, entao esses itens podem apresentar DIF. Isso acontecera se a distribuicao condicional da variavel espuria difere entre os grupos. Ou seja, se

[G.sub.1] ([eta] | [THETA]) [desigual a] [G.sub.2] ([eta] | [THETA]) (1)

em que [G.sub.i] e a distribuicao de [eta] para os examinados com valores fixos em [THETA], ou seja, a distribuicao condicional de [eta]. Portanto, o DIF e causado por diferencas nos parametros que definem as distribuicoes [G.sub.1] e [G.sub.2]. Note-se que o descumprimento da desigualdade (1), implicaria que ainda que o teste fosse multidimensional, a probabilidade de acertar o item seria a mesma para individuos com o mesmo nivel em [THETA], independentemente do grupo a que pertence, ou seja, nao haveria DIF. A multidimensionalidade de um item nao e per se a causa do DIF, se nao as diferencas na distribuicao condicional das variaveis espurias (Ackerman, 1992). Um tratamento mais detalhado do tema pode encontrar-se em Fidalgo (1996).

As Estatisticas Mantel-Haenszel

Na literatura ha varias estatisticas MH para avaliar o DIF tanto em itens dicotomicos como politomicos. No caso de itens dicotomicos foram Holland e Thayer (1988) quem propuseram analisar o DIF usando a estatistica qui-quadrado de Mantel-Haenszel ([[ji al cuadrado].sub.MH]), desenvolvida por Mantel e Haenszel (1959). Tambem foi formulada uma abordagem bayesiana ao procedimento MH para itens dicotomicos (Zwick, Thayer, & Lewis, 1999, 2000), mas essas estatisticas nao demonstraram nenhuma vantagem adicional em relacao a estatistica [[ji al cuardrado].sub.MH] (Fidalgo, Hashimoto, Bartram, & Muniz, 2007). No caso de itens politomicos, as estatisticas com base no trabalho original de Mantel Haenszel tambem tem sido utilizadas para a deteccao do DIF: o teste generalizado de Mantel-Haenszel (GMH; Mantel & Haenszel, 1959; Zwick, Donoghue, & Grima, 1993) e o teste de Mantel (Mantel, 1963; Zwick et al., 1993). A estatistica GMH trata as categorias de resposta do item como uma variavel nominal, enquanto o teste de Mantel considera a natureza ordinal das categorias de resposta. No caso da estatistica GMH, a hipotese alternativa (H1) especifica que a distribuicao das respostas ao item difere entre os grupos comparados. Por outro lado, o teste de Mantel, ao considerar a natureza ordinal das categorias do item, especifica que a media das respostas difere atraves da variavel de agrupamento. Por tanto, o teste de Mantel pode ser aplicado a itens politomicos com categorias ordenadas. Uma limitacao de todas as estatisticas anteriormente expostas e que so permitem a analise do DIF em dois grupos. Felizmente, existem alternativas melhores, embora nao sejam suficientemente conhecidas.

Recentemente, Fidalgo e Madeira (2008) formularam um marco unificado para a analise do DIF usando a estatistica generalizada de Mantel-Haenszel proposta por Landis, Heyman e Koch (1978). Fidalgo e Madeira (2008) afirmam que dita estatistica engloba a estatistica GMH e o teste de Mantel, alem do mais da estatistica [[ji al cuadrado].sub.MH]. Portanto, pode-se aplica-la para avaliar o DIF em varios grupos, tanto para itens dicotomicos como para itens politomicos (Fidalgo & Scalon, 2010).

Embora seja possivel ignorar a estatistica [[ji al cuadrado].sub.MH], pois e um caso especial da estatistica generalizada de MH, apresentaremos esta estatistica por razoes pedagogicas: e muito mais facil apreciar a logica do procedimento MH no caso mais simples do que na formulacao matricial.

Estatistica [[ji al cuadrado].sub.MH]

Conforme o mencionado na primeira secao, os metodos de deteccao de DIF deverao estabelecer as comparacoes entre os grupos, empregando individuos com o mesmo nivel de competencia, na medida em que nao queiram confundir o DIF com o impacto. Os metodos MH comumente utilizam o escore total (a soma das pontuacoes dos itens no teste) como um estimador da variavel que pretende medir o teste ([THETA]). Assim, a escore total sera a variavel de estratificacao que servira para estabelecer as comparacoes necessarias entre os grupos.

A primeira coisa que devemos fazer para implementar o procedimento MH e dispor as respostas dos examinados no teste em Q tabelas de contingencia de 2 x 2, onde Q e o numero de intervalos em que a escore total e dividida (1 ... h ... ... Q). Assim, para cada nivel de pontuacao h, temos uma tabela de contingencia 2 x 2, com os membros do grupo (focal / referencia) em uma das entradas e a resposta ao item (sucesso/erro) na outra (Tabela 1). Os valores das celas [A.sub.h], [B.sub.h], [C.sub.h] e [D.sub.h] denotam o numero de examinados em cada categoria. Os valores marginais [N.sub.Rh] e [N.sub.Fh] representam o numero de examinados no grupo de referencia e focal, respectivamente, enquanto [N.sub.1h] e [N.sub.0h] representam o numero de examinados que responderam ao item corretamente e incorretamente, respectivamente. Finalmente, [N.sub.h] e o numero total de examinados ao nivel de pontuacao h.

A logica por tras do procedimento MH e a seguinte: se o item nao apresenta DIF, a razao entre o numero de pessoas que acertam o item e aquelas que o erram deve ser a mesma nos dois grupos comparados em todos os niveis de pontuacao. Formalmente

H0 : ([A.sub.h]/[B.sub.h]) = [alfa] ([C.sub.h]/[D.sub.h])

sendo [alfa] = 1 para todos os h (nao DIF)

H1 : ([A.sub.h]/[B.sub.h]) = [alfa] ([C.sub.h] / [D.sub.h])

sendo [alfa] [desigual a] 1 em algum h (DIF).

Holland e Thayer (1988) propuseram utilizar a estatistica [[ji al cuadrado].sub.MH] para testar a hipotese nula de ausencia de DIF. Esta estatistica e dada por:

[EXPRESION MATEMATICA IRREPRODUCIBLE EN ASCII] (2)

em que E ([A.sub.h]) e o valor esperado de [A.sub.h], Var ([A.sub.h]) e a sua variancia, que sao iguais a:

E ([A.sub.h]) = ([N.sub.Rh] [N.sub.1h]) / [N.sub.h]

Var([A.sub.h]) = [N.sub.Rh] [N.sub.Fh] [N.sub.1h] [N.sub.0h]/ [N.sup.2.sub.h] ([N.sub.h] - 1)

A estatistica [[ji al cuadrado].sub.MH] segue uma distribuicao [ji al cuadrado] com um grau de liberdade. Se [[ji al cuadrado].sub.MH] > [alfa] [[ji al cuadrado].sub.1], entao o item estudado mostra DIF com um nivel de confianca 1-[alfa].

Uma ampla descricao da estatistica [[ji al cuadrado].sub.MH] pode ser encontrada na entrada que a Encyclopedia of Statistics in Behavioural Science dedica aos metodos MantelHaenszel (Fidalgo, 2005a). Embora os calculos necessarios para obter a estatistica sejam muito simples, quem quiser poupar-se dos incomodos pode solicitar, ao primeiro autor do artigo, uma copia do programa MHDIF (Fidalgo, 1994).

Estatistica Generalizada de MH

Em 1978 Landis et al. propuseram uma estatistica generalizada de MH para a analise de tabelas de contingencia de dimensao Q: R x C. A estrutura dos dados para esta tabela de contingencia geral e mostrada na Tabela 2.

O teste generalizado de Mantel-Haenszel para testar a hipotese nula (H0) de associacao entre o fator (os grupos) e a variavel de resposta (as categorias de resposta do item), controlando o efeito da covariavel (o nivel de competencia estimado pelo escore total), e definido em termos de matrizes por Landis et al. (1978) como:

[EXPRESION MATEMATICA IRREPRODUCIBLE EN ASCII] (3)

Onde [n.sub.h], [m.sub.h], [V.sub.h] e [A.sub.h] sao, respectivamente, o vetor de frequencias, o vetor de frequencias esperadas, a matriz de covariancias, e uma matriz de funcoes lineares definidas em conformidade com a hipotese alternativa (H1) de interesse. A hipotese nula (H0) de nao-associacao sera testada contra diferentes H1, que serao funcoes da escala de medida do fator e da variavel de resposta. Assim, teremos uma serie de estatisticas que servirao para detectar a associacao geral (ambas variaveis sao nominais), as diferencas medias (o fator e uma variavel nominal e a resposta e uma variavel ordinal), e a correlacao linear (ambas as variaveis sao ordinais). Nos descreveremos apenas as duas primeiras estatisticas por ser ate hoje as unicas que tem sido utilizada para detectar o DIF. A partir da Tabela 2, estes vetores e matrizes sao definidos como:

[EXPRESION MATEMATICA IRREPRODUCIBLE EN ASCII] (3)

em que [P.sub.h] x * e [P.sub.h] *. Sao, respectivamente, vetores de dimensoes (C x 1) e (R x 1) com as proporcoes marginais das colunas ([P.sub.h.j] = [N.sub.h.j]/ [N.sub.h..]) e as proporcoes marginais das linhas ([P.sub.hi.] = [N.sub.hi.]/ [N.sub.h..]), denotando [producto cruzado] o produto de Kronecker, [EXPRESION MATEMATICA IRREPRODUCIBLE EN ASCII] e uma matriz diagonal com elementos do vetor [EXPRESION MATEMATICA IRREPRODUCIBLE EN ASCII] em sua diagonal principal, e [EXPRESION MATEMATICA IRREPRODUCIBLE EN ASCII]. e uma matriz diagonal com elementos do vetor [P.sub.h]*. em sua diagonal principal.

Como foi assinalado anteriormente, a equacao 3 sera resolvida atraves da definicao da matriz [A.sub.h] ([A.sub.h] = [C.sub.h] [producto cruzado] [R.sub.h]), utilizando uma estatistica diferente para a deteccao de cada [H.sub.1] Resumidamente, estas sao:

[Q.sub.GMH(1)] ou a estatistica generalizada nominal de MH. Quando a variavel linha e a variavel coluna sao nominais, a H1 especifica que a distribuicao da variavel resposta difere entre os diferentes niveis do fator. Aqui, [R.sub.h] = [[I.sub.R-1], -[J.sub.R-1]] e [C.sub.h] = [I.sub.C-1], -[J.sub.C-1]], onde [I.sub.R-1] e uma matriz de identidade, e [J.sub.R-1] e um vetor de uns. Assim, a dimensao de [R.sub.h] sera (R-1 x R). Da mesma forma, [I.sub.C-1], e uma matriz de identidade, e [J.sub.C-1], e um vetor de uns. Sob H0, [Q.sub.GMH(1)] segue aproximadamente uma distribuicao qui-quadrado com graus de liberdade (gl) = (R-1) (C-1). Quando R = C = 2, [Q.sub.GMH(1)] e identica a estatistica [[ji al cuadrado].sub.MH], com excecao da falta da correcao de continuidade. Para o caso especial de dois niveis do fator, [Q.sub.GMH(1)] e identica a estatistica generalizada proposta por Mantel e Haenszel (1959).

[Q.sub.GMH(2)] ou estatistica generalizada ordinal de MH. Aqui, a hipotese H1 estabelece que a media das respostas difere entre os niveis do fator, sendo [R.sub.h] a mesma matriz que foi utilizada no caso anterior e [C.sub.h] = ([C.sub.h1], ..., [c.sub.hC]), sendo um vetor de dimensoes (1 x C), em que [c.sub.hj] e uma pontuacao que reflete adequadamente a natureza ordinal da categoria daj-esima resposta no h-esimo estrato. Na literatura sobre o DIF, os inteiros sao a opcao mais comum, embora que a selecao dos valores da [C.sub.h] admita outras possibilidades (Fidalgo & Barram, 2010). Sob H0, [Q.sub.GMH(2)] tem aproximadamente uma distribuicao qui-quadrado com gl = (R-1). Para o caso especial de dois niveis do fator, [Q.sub.GMH(2)] e identico ao teste proposto por Mantel (1963).

Obviamente, quando C = R = 2, [Q.sub.GMH(1l)] = [Q.sub.GMH(2)] = [[ji al cuadrado].sub.MH] (para que esta equivalencia seja cumprida, [[ji al cuadrado].sub.MH] tem de ser calculado sem a correcao de continuidade que normalmente inclui).

A diferenca entre a aplicacao da estatistica apresentada na equacao 2, que inclui a correcao de continuidade, e da estatistica generalizada, onde nao esta incluida, e uma maior potencia para detectar o DIF, e um ligeiro aumento na taxa de erro Tipo I (identificar itens que nao funcionam diferencialmente como se tivessem DIF), para a ultima estatistica. Estas diferencas ocorrem com tamanhos de amostra pequenos (50 examinados por grupo). Com uma amostra de 500 examinados, as diferencas entre as duas estatisticas sao praticamente nulas (Fidalgo et al., 2007). O leitor pode encontrar maiores informacoes sobre as estatisticas generalizadas de MH e exemplos de seu calculo em Fidalgo (2005a), Fidalgo e Madeira (2008) e Fidalgo e Scalon (2010).

Possibilidades e Limites dos Metodos MH

Na hora de avaliar o DIF utilizando alguma das estatisticas MH, tem-se que conhecer as vantagens e as limitacoes que apresentam. A seguir enumeram-se as principais consideracoes que se deve ter em mente quando se utilizam essas estatisticas na deteccao do DIF:

1. Podem ser usadas para detectar o DIF tanto nos testes construidos ou analisados desde a perspectiva da TCT como da TRI. Deve ser conhecido, no entanto, que essas estatisticas se comportam melhor quando os itens do teste se ajustam a familia de modelos de Rasch, como o modelo de um parametro logistico em itens dicotomicos, ou o modelo de credito parcial em itens politomicos. Ainda assim, os estudos de simulacao mostram as estatisticas MH eficazes em uma ampla variedade de situacoes, embora os dados nao sejam conformes ao modelo de Rasch (para citar apenas alguns estudos de simulacao: Roussos & Stout, 1996; Uttaro & Millsap, 1994).

2. Podem ser usadas para detectar o DIF tanto em itens dicotomicos como itens politomicos nominais e politomicos ordinais (Fidalgo, Quintanilla, Fernandez, Pons, & Aguerri, 2010), e tanto em dois grupos como simultaneamente em varios grupos (Fidalgo & Scalon, 2010).

3. Podem ser usadas com tamanhos de amostras muito pequenos. No caso de itens dicotomicos, a maioria dos autores recomenda tamanhos de amostra em torno de 200 pessoas por grupo (Mazor, Clauser, & Hambleton, 1992), mas pode ser util com amostras tao baixas quanto 50 pessoas por grupo, desde que sejam utilizados niveis de significancia mais elevados (Fidalgo, Ferreres, & Muniz, 2004; Fidalgo et al., 2007).

4. Podem ser usadas para detectar uma grande variedade de tipos de DIF. Alem de ser uma das melhores estatisticas para detectar o DIF uniforme (um grupo tem vantagem sobre outro ao largo de todo o nivel de habilidade), varios estudos de simulacao mostraram que eles tambem podem detectar o DIF nao-uniforme (um grupo tem vantagem em alguns niveis de habilidade, e desvantagem em outros -- Fidalgo, Mellenbergh, & Muniz, 1998; Hidalgo & Lopez-Pina, 2004; Mazor, Clauser, & Hambleton, 1994; Rogers & Swaminathan, 1993). Deve-se notar, contudo, que no caso de itens dicotomicos a deteccao do DIF nao uniforme requer a modificacao do procedimento MH proposta por Mazor et al., (1994), e que implementa o programa MHDIF (Fidalgo, 1994). Aplicando o referido programa Hidalgo e Lopez-Pina (2004) encontraram taxas de deteccao do DIF nao-uniforme semelhante as obtidas por meio da regressao logistica. No caso de itens politomicos, a estatistica GMH tem boas taxas de deteccao do DIF nao-uniforme. No entanto, o teste de Mantel apresenta uma potencia muito baixa para detectar este tipo de DIF (Kristjansson, Aylesworth, Mcdowell, & Zumbo, 2005). Finalmente, baseando-se em um amplo estudo de simulacao, Fidalgo e Bartram (2010) recomendam aplicar [Q.sub.GMH(1)] no caso de aplicar uma unica estatistica MH, ja que tem maior potencia que [Q.sub.GMH(2)] para detectar a maioria dos padroes de DIF.

5. Ao utilizar o escore total no teste como variavel de estratificacao, as estatisticas devem ser aplicadas em duas etapas, ou de forma iterativa, para evitar que os itens com DIF contaminem a referida variavel (Fidalgo, Mellenbergh, & Muniz, 2000; Miller & Oshima, 1992; Wang & Su, 2004a). Alem disso, o item em questao deve ser incluso sempre no computo da pontuacao total, mesmo que tenha sido identificado com DIF na primeira etapa (Zwick et al., 1993).

6. A presenca de diferentes distribuicoes entre os grupos na variavel medida pelo teste, ou seja, aquilo que

chamamos de impacto, implica um aumento na taxa de erro Tipo I. Especialmente quando o procedimento e aplicado para itens que nao seguem a familia de modelos de Rasch (Penny & Johnson, 1999; Su & Wang, 2005; Wang & Su, 2004b).

7. Deve-se notar que a aplicacao do [Q.sub.GMH(2)], ou do teste de Mantel, sempre exige a escolha do sistema de pontuacao que melhor represente as categorias de resposta do item, e que escolher um ou outro afetam a potencia para detectar diferentes padroes de DIF (Fidalgo & Bartam, 2010). Na ausencia de criterios baseados nas caracteristicas dos itens, e ate que nao sejam formulados claros criterios estatisticos, podem empregar-se os habituais numeros inteiros.

8. Alem de verificar a significancia estatistica, mediante algumas das estatisticas apresentadas, os estudos sobre DIF devem ser sempre completados com as estimativas da magnitude de DIF que tem os itens. Quando se tem itens dicotomicos e dois grupos, Mantel e Haenszel (1959) propuseram o bem conhecido estimador da razao de chances comum (common odds Ratio, [[??].sub.MH] -- O leitor pode encontrar uma descricao desta estatistica em Andriola, 2001). Tambem no caso de ter somente dois grupos, existem generalizacoes para itens politomicos, sendo a mais recomendavel a estatistica formulada por Liu e Agresti (1996) (ver Penfield & Algina, 2003, para sua aplicacao nos estudos de DIF).

9. O emprego de varios procedimentos para avaliar o DIF acarreta um aumento na taxa de erro Tipo I (identificar itens que nao funcionam diferencialmente como se tivessem DIF), ou na taxa de erro Tipo II (nao identificar itens que apresentam DIF -- Fidalgo et al., 2004). Em Fidalgo e Ferreres (2002) o leitor encontrara uma analise dos custos que, em termos de erro de Tipo I e Tipo II, tem algumas das decisoes mais frequentemente tomadas nos estudos empiricos do DIF e que afetam a os metodos MH: o uso de provas de avaliacao do DIF unidimensionais em contextos multidimensionais, a avaliacao do DIF numa primeira e unica etapa, a ausencia de medidas do tamanho de efeito, a escolha dos niveis de significancia convencionais, e o uso de diversos procedimentos de avaliacao do DIF, entre outras.

10. Finalmente, a Figura 1 mostra um diagrama para determinar, em funcao das caracteristicas dos itens e das variaveis relacionadas com o estudo do DIF, que tipo de estatisticas MH devem ser utilizadas.

[FIGURA 1 OMITIR]

O Programa GMHDIF

O programa GMHDIF (Fidalgo, 2011) e um programa baseado em Windows que foi desenvolvido para proporcionar um software amigavel que permita conduzir analises do DIF a usuarios nao expertos. O programa permite, atraves de um simples teste de significancia, avaliacoes simultaneas do DIF em diversos grupos utilizando as estatisticas generalizadas de Mantel-Haenszel, sendo aplicado tanto para itens dicotomicos como para itens politomicos. Alem disso, o programa executa analises do DIF em duas etapas, e para os itens identificados com DIF realiza comparacoes entre os grupos, dois a dois, empregando a correcao de Bonferroni para um determinado nivel de significancia (nivel de significancia / numero de comparacoes pareadas).

Para realizar analises do DIF, utilizando com o programa GMHDIF, basta seguir os seguintes passos:

1. Importe os dados para serem analisados. Arquivos importados devem ser separados por espaco, tab, virgula ou ponto e virgula.

2. Forneca informacoes sobre as seguintes variaveis: (a) Itens que serao submetidos a uma analise do DIF; (b) Itens que serao usados como variavel de estratificacao; (c) Variavel de agrupamento.

3. Selecione a estatistica generalizada de MH desejada: [Q.sub.GMH(1)] ou [Q.sub.GMH(2)].

4. Explore os resultados das analises do DIF. Caso queira, os resultados podem ser salvos como arquivos de texto ou rtf.

A Figura 2 mostra os resultados de uma analise do DIF empregando quatro grupos. Como pode-se ver na figura, o primeiro item (variavel 2) nao apresenta DIF ao nivel de significancia de 0,05 em nenhuma das etapas. O segundo item (variavel 3) mostra DIF em ambas etapas, tornando-se necessario determinar entre quais grupos o DIF ocorre. Neste caso, pode-se tomar a decisao de comparar todos os grupos entre eles. As comparacoes pareadas mostram que o DIF existe entre o grupo 2 e todos os outros. Atualmente, esta em desenvolvimento uma nova versao do programa que inclui medidas do tamanho do efeito (effect size).

Disponibilidade

O programa GMHDIF, o manual do usuario, e exemplos com arquivos de dados podem ser obtidos diretamente com o Dr. Angel M. Fidalgo no seguinte e-mail: fidalgo@uniovi.es. O programa e a documentacao relacionada estao disponiveis nos seguintes idiomas: Espanhol, Ingles e Portugues. O uso do programa esta limitado ao ambito academico e a outras aplicacoes sem fins lucrativos.

Conclusao

A enorme versatilidade dos metodos MH fez deles uma das metodologias de referencia na avaliacao do funcionamento diferencial dos itens dicotomicos e politomicos. Como tem sido apresentado, sao estatisticas nao parametricas que podem ser aplicadas com tamanhos de amostra pequenas, que permitem detectar um grande numero de tipos de DIF, que permitem a avaliacao simultanea do DIF em varios grupos, e que, alem dos testes de significancia apresentados, dispoem tambem de estatisticas para avaliar o tamanho do efeito. Alem do acima exposto, o comportamento destas estatisticas esta bem estabelecido em uma ampla variedade de situacoes, pela grande quantidade de estudos teoricos e de simulacao que tem sido feitos; e contam com software especialmente planejado que facilita sua aplicacao pelos pesquisadores aplicados (Fidalgo, 1994, 201l; Penfield, 2005). Assim, pode-se concluir que, embora existam muitas outras alternativas para detectar o DIF, especialmente na TRI (Andriola, 2001; Fidalgo, 1996, 2005b), no momento, os metodos MH seguem sendo o padrao-ouro para avaliar o DIF.

Referencias

Ackerman, T. A. (1992). A didactic explanation of item bias, item impact, and item validity from a multidimensional perspective. Journal of Educational Measurement, 29, 67-91.

Andriola, W. B. (2000). Funcionamento diferencial dos itens (DIF): Estudo com analogias para medir o raciocinio verbal. Psicologia: Reflexao e Critica, 13, 475-483.

Andriola, W. B. (2001). Descricao dos principais metodos para detectar o funcionamento diferencial dos itens (DIF). Psicologia." Reflexao e Critica, 14, 643-652.

Andriola, W. B. (2008). Uso da Teoria de Resposta ao Item (TRI) para analisar a equidade do processo de avaliacao do aprendizado discente. Revista Iberoamaericana de Evaluacion Educativa, 1, 171-189.

Camilli, G. (1992). A conceptual analysis of differential item functioning in terras of a multidimensional item response model. Applied Psychological Measurement, 16, 129-147.

Fidalgo, A. M. (1994). MHDIF: A computer program for detecting uniform and nonuniform differential item functioning with the Mantel-Haenszel procedure. Applied Psycholog,ical Measurement, 18, 300.

Fidalgo, A. M. (1996). Funcionamiento diferencial de los items. In J. Muniz (Ed.), Psicometria (pp. 371-455). Madrid, Espana: Universitas.

Fidalgo, A. M. (2005a). Mantel-Haenszel Methods. In B. S. Everitt & D. C. Howell (Eds.), Encyclopedia of Statistics in Behavioral Science (Vol. 3, pp. 1120-1126). Chichester, UK: John Wiley & Sons.

Fidalgo, A. M. (2005b). Enfoque de la Teoria de Respuesta a los Items. In J. Muniz, A. M. Fidalgo, M. A. Garcia-Cueto, R. Martinez, & R. Moreno (Eds.), Analisis de los items (pp. 79-131). Madrid, Espana: La Muralla.

Fidalgo, A. M. (2010). GMHDIF: Manual do usuario [Manual software]. Oviedo, Espana.

Fidalgo, A. M. (2011). GMHDIF: A computer program for detecting DIF in dichotomous and polytomous items using generalized Mantel-Haenszel Statistics. Applied Psychological Measurement, 35, 247-249. doi: 10.1177/0146621610375691

Fidalgo, A. M., & Bartram, D. (2010). A comparison between some generalized Mantel-Haenszel statistics for detecting DIF in data simulated under the graded response model. Applied Psychological Measurement, 34, 600-606. doi: 10.1177/0146621610378405

Fidalgo, A. M., & Ferreres, D. (2002). Supuestos y consideraciones en los estudios empiricos sobre el funcionamiento diferencial de los items. Psicothema, 14, 491-496.

Fidalgo, A. M., Ferreres, D., & Muniz, J. (2004). DIF detection using several statistical procedures: Implications on the type I and type II error rate. The Journal of Experimental Education, 73, 23-39.

Fidalgo, A. M., Hashimoto, K., Bartram, D., & Muniz, J. (2007). Application of ah empirical Bayes enhancement of the Mantel-Haenszel procedure for detecting DIF under small-sample conditions. The Journal of Experimental Education, 75(4), 293-314.

Fidalgo, A. M., & Madeira, J. M. (2008). Generalized Mantel-Haenszel methods for DIF detection. Educational and Psychological Measurement, 68, 940-958.

Fidalgo, A. M., Mellenbergh, G. J., & Muniz, J. (1998). Comparacion dei procedimiento Mantel-Haenszel frente a los modelos loglineales en la deteccion del funcionamiento diferencial de los items. Psicothema, 10, 209-218.

Fidalgo, A. M., Mellenbergh, G. J., & Muniz, J. (2000). Effects of amount of DIF, test length, and purification type on robustness and power of Mantel-Haenszel procedures. Methods of Psychological Research, 5, 43-53. Retrieved from http://www.psychologie.de/fachgruppen/methoden/mpronline/issue 11/art3/fidalgo.pdf

Fidalgo, A. M., Quintanilla, L., Fernandez, R., Pons, F., & Aguerri, M. E. (2010). Deteccion del DIF en items politomicos mediante el uso de los metodos Mantel-Haenszel. Revista Espahola de Metodologia Aplicada, 15, 12-18. Retrieved from http://www.psico.uniovi.es/REMA/vl5nl/ indice.html

Fidalgo, A. M., & Scalon, J. D. (2010). Using Generalized Mantel-Haenszel Statistics to Assess DIF among Multiple Groups. Journal of Psychoeducational Assessment, 28, 60-69. doi: 10.1177/0734282909337302

Hidalgo, M. D., & Lopez-Pina J. A. (2004). Differential Item Functioning Detection and Effect Size: A comparison between logistic regression and Mantel-Haenszel Procedures. Educational and Psychological Measurement, 64, 903-915.

Holland, W. P., & Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel Procedure. In H. Wainer & H. I. Braun (Eds.), Test validity (pp. 129-145). Hillsdale, N J: LEA.

Kok, F. G (1988). Item bias and test multidimensionality. In R. Langeheine & J. Rost (Eds.), Latent trait and latent class models (pp. 263-274). New York: Plenum.

Kristjansson, E., Aylesworth, R., Mcdowell, I., & Zumbo, B. D. (2005). A comparison of Four Methods for Detecting Differential Item Functioning in Ordered Response Items. Educational and Psychological Measurement, 65, 935-953.

Landis, J. R., Heyman, E. R., & Koch, G. G. (1978). Average partial association in three-way contingency tables: A review and discussion of alternative tests. International Statistical Review, 46, 237-254.

Liu, I.-M., & Agresti, A. (1996). Mantel-Haenszel-type inference for cumulative odds ratios with a stratified ordinal response. Biometrics, 52, 1223-1234.

Mantel, N. (1963). Chi-square tests with one degree of freedom; extension of the Mantel-Haenszel procedure. Journal of the American Statistical Association, 58, 690-700.

Mantel, N., & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. Journal of the National Cancer Institute, 22, 719-748.

Marin Rueda, F. J. (2007). O funcionamento diferencial do item no teste pictorico de memoria. Avaliacao Psicologica, 6, 229-237.

Mazor, K. M., Clauser, B. E., & Hambleton, R. K. (1992). The effect of sample size on the functioning of the Mantel-Haenszel Statistic. Educational and Psychological Measurement, 52, 443-452.

Mazor, K. M., Clauser, B. E., & Hambleton, R. K. (1994). Identification of nonuniform differential item functioning using a variation of the Mantel-Haenszel Procedure. Educational and Psychological Measurement, 54, 284-291.

Miller, M. D., & Oshima, T. C. (1992). Effect of sample size, number of biased items, and magnitude of bias on a two-stage item bias estimation method. Applied Psychological Measurement, 16, 381-388.

Penfield, R. D. (2005). DIFAS: Differential Item Functioning Analysis System. Computer Program Exchange. Applied Psychological Measurement, 29, 150-151.

Penfield, R. D., & Algina, J. (2003). Applying the Liu-Agresti estimator of the cumulative common odds ratio to DIF detection in polytomous items. Journal of Educational Measurement, 40(4), 353-370.

Penny, J., & Johnson, R. L. (1999). How group differences in matching criterion distribution and IRT item difficulty can influence the magnitude of the Mantel-Haenszel chi-square DIF index. The Journal of Experimental Education, 67, 343-366.

Rogers, H. J., & Swaminathan, H. (1993). A comparison of logistic regression and Mantel-Haenszel Procedures for detecting differential item functioning. Applied Psychological Measurement, 17, 105-116.

Roussos, L. A., & Stout, W. F. (1996). Simulations studies of the effects of small sample size and studied item parameters on SIBTEST and Mantel-Haenszel Type I error performance. Journal of Educational Measurement, 33, 215-230.

Sisto, F. F. (2006a). O funcionamento diferencial dos itens. Psico-USF, 11, 35-43.

Sisto, F. F. (2006b). Estudo do funcionamento diferencial de itens para avaliar o reconhecimento de palavras. Avaliacao Psicologica, 5, 1-10.

Sisto, F. F., Bartholomeu, B., Angeli dos Santos, A. A., Marin Rueda, F. J., & Suehiro, A. C. B. (2006). Funcionamento diferencial de itens para avaliar a agressividade de universitarios. Psicologia: Reflexao e Critica, 21, 474-481.

Soares, T. M., Gamerman, D., & Goncalves, F. B. (2007). Analise bayesiana do funcionamento diferencial do item. Pesquisa Operativa, 27, 271-291.

Soares, T. M., Genovez, S. F., & Galvao, A. F. (2005). Analise do Comportamento Diferencial dos Itens de Geografia: Estudo da 4a serie avaliada no PROEB/SIMAVE 2001. Avaliacao Educacional, 16, 81-110

Su, Y.-H., & Wang, W.-C. (2005). Efficiency of the Mantel, generalized Mantel-Haenszel, and logistic discriminant function analysis methods in detecting differential item functioning in polytomous items. Applied Measurement in Education, 18, 313-350.

Traebert, J., Telino de Lacerda, J., Thomson, W. M., Page, L. F., & Locker, D. (2010). Differential item functioning in a Brazilian-Portuguese version of the Child Perceptions Questionnaire ([CPQ.SUB.11-14]). Community Dentistry and Oral Epidemiology, 38, 129-135.

Uttaro, T., & Millsap, R. E. (1994). Factors influencing the Mantel-Haenszel procedure in the detection of differential item functioning. Applied Psychological Measurement, 18, 15-25.

Valle, R. C. (2002). Comportamento Diferencial do Item: Uma apresentacao. Estudos em Avaliacao Educacional, 25, 3-21.

Wang, W.-C., & Su, Y.-H. (2004a). Effect of average signed area between two item characteristic curves and test purification procedures on the DIF detection via the Mantel-Haenszel Method. Applied Measurement in Education, 17, 113-144.

Wang, W.-C., & Su, Y.-H. (2004b). Factors influencing the Mantel and Generalized Mantel-Haenszel Methods for the assessment of differential item functioning in polytomous items. Applied Psychological Measurement, 28, 450-480.

Zwick, R., Donoghue, J. R., & Grima, A. (1993). Assessment of differential item functioning for performance tasks. Journal of Educational Measurement, 30, 233-251.

Zwick, R., Thayer, D. T., & Lewis, C. (1999). An empirical Bayes approach to Mantel-Haenszel DIF analysis. Journal of Educational Measurement, 36, 1-28.

Zwick, R., Thayer, D. T., & Lewis, C. (2000). Using loss functions for DIF detection: An empirical Bayes approach. Journal of Educational and Behavioral Statistics, 25, 225-247.

Angel M. Fidalgo *, (a) & Joao D. Scalon (b)

(a) Universidad de Oviedo, Oviedo, Espana & (b) Universidade Federal de Lavras, Lavras, Brasil

* Endereco para correspondencia: Departamento de Psicologia, Universidade de Oviedo, Plaza de Feijoo, s/n, Oviedo, Espana 33003. E-mail: fidalgo@uniovi.es. Este trabalho foi financiado pelo Ministerio Espanhol de Ciencia e Educacao (projetos numeros PR2006-0424, SEJ2006-07491, PCI2006-A7-0553), e tem sido parcialmente escrito na estadia que o primeiro autor realizou no Departamento de Ciencias Exatas da Universidade Federal de Lavras, dentro do projeto: "Cooperacion internacional entre Espana, Argentina, Brasil y Mexico para el desarrollo de tecnologia y estudios sobre DIF".
Tabela 1
Tabela de Contingencia 2 x 2 para o Nivel de Pontuacao h

Grupo         Acertos (1)   Erros (0)     Total

Referencia    [A.sub.h]     [B.sub.h]     [N.sub.rh]
Focal         [C.sub.h]     [D.sub.h]     [N.sub.Fh]
              [N.sub.Ih]    [N.sub.nh]    [N.sub.h]

Tabela 2
Tabela de Contingencia R x C no h-esimo Estrato

Niveis do       Categorias da variavel de resposta
Fator

             1              2              j

1            [n.sub.h11]    [n.sub.h12]    [n.sub.h1j]
2            [n.sub.h21]    [n.sub.h22]    [n.sub.h2j]
i            [n.sub.hi1]    [n.sub.hi2]    [n.sub.hij]
R            [n.sub.hR1]    [n.sub.hR2]    [n.sub.hRj]

Total        [N.sub.hx1]    [N.sub.hx2]    [N.sub.hxj]

Niveis do    Categorias da variavel de
Fator                resposta

             C              Total

1            [n.sub.h1C]    [n.sub.h1x]
2            [n.sub.h2C]    [n.sub.h2x]
i            [n.sub.hiC]    [n.sub.hix]
R            [n.sub.hRC]    [n.sub.hRx]

Total        [N.sub.hxC]    [N.sub.hxx]

Figura 2. Saida com os resultados de uma analise do DIF em duas etapas
na que se comparavam quatro grupos.

GMHDIF

Estatistica generalizada de MH = QMH2

Nivel de significancia = 0,05

Os resultados estatisticamente significativos ao nivel de 0,05 sao
marcados com um asterisco.

VARIAVEL 2

Etapa 1: QMH = 0,8620 gl = 3 p = 0,8346

Etapa 2: QMH = 2,0241 gl = 3 p = 0,5674

VARIAVEL 3

Etapa 1: QMH = 18,6560 gl = 3 p = 0,0003 *

Etapa 2: QMH = 20,5184 gl = 3 p = 0,0001 *

COMPARACOES MULTIPAS PAREADAS

As comparacoes pareadas (CP) estatisticamente significativas sao
marcadas com um asterisco.

O nivel de significancia esta corrigido pela equacao de Bonferroni
(0,05/6= 0,0083).

CP entre o grupo 1 e o grupo 2 : QMH = 19,8531 gl = 1 p = 0,0000 *

CP entre o grupo 1 e o grupo 3 : QMH = 0,5497 gl = 1 p = 0,4584

CP entre o grupo 1 e o grupo 4 : QMH = 0,0085 gl = 1 p = 0,9264

CP entre o grupo 2 e o grupo 3 : QMH = 8,7135 gl = 1 p = 0,0032 *

CP entre o grupo 2 e o grupo 4 : QMH = 10,8825 gl = 1 p = 0,0010 *

CP entre o grupo 3 e o grupo 4 : QMH = 0,0048 gl = 1 p = 0,9445
COPYRIGHT 2012 Federal University of Rio Grande do Sul (JFRGS)
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2012 Gale, Cengage Learning. All rights reserved.

 
Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:articulo en portugues
Author:Fidalgo, Angel M.; Scalon, Joao D.
Publication:Psicologia: Reflexao & Critica
Date:Jan 1, 2012
Words:6856
Previous Article:Desenvolvimento e validacao de escalas brasileiras de percepcao e internalizacao de normas corporais.
Next Article:Zulliger e habilidade social: evidencias de validade no contexto empresarial.
Topics:

Terms of use | Privacy policy | Copyright © 2018 Farlex, Inc. | Feedback | For webmasters