Printer Friendly

Funcionamiento diferencial de itemes: examen de matematica--universidad Jorge Tadeo Lozano.

Differential item functioning: Math Test Universidad Jorge Tadeo Lozano

Introduccion

Los modelos de la Teoria de Respuesta al Item (TRI) permiten realizar un analisis del desempeno estadistico de itemes y de instru mentos en su conjunto, al igual que estimar la habilidad de los evaluados mediante una prueba en los dominios considerados (conceptuales y cognitivos). Estos modelos aportaron solucion a problemas presentados en la Teoria Clasica de los Test (TCT), que no podia predecir como responderia un individuo a una prueba (conjunto de itemes) a menos que esta hubiera sido aplicada a individuos similares. La TRI abrio caminos a dichos analisis en los cuales mostro que los puntajes obtenidos pueden independizarse de la prueba utilizada. Las curvas caracteristicas de los itemes (CCI) o funciones de respuesta (P(0)) permiten establecer la relacion que existe entre la probabilidad (P) de que un evaluado responda correctamente un item y el nivel de habilidad (0) en que se ubica el individuo (Baker, 2001; Lord, 1980).

En el analisis del sesgo o Funcionamiento Diferencial de los Itemes (DIF) se comparan las respuestas a un item, dadas por individuos de diferentes grupos con un mismo nivel de habilidad. Se establece que un item exhibe funcionamiento diferencial cuando dichos individuos tienen diferente probabilidad de responder correctamente el item (Angoff, 1993; Attorresi, Galibert, Zanelli, Lozzia & Aguerri, 2003).

Los procedimientos estadisticos utilizados en el analisis del DIF se basan en la aplicacion de los modelos de la TRI, los cuales fueron empleados en el estudio del instrumento del Examen Clasificatorio de Matematicas Basicas que aplica la Universidad Jorge Tadeo Lozano, con el fin de detectar si los itemes que componen dicho instrumento exhiben DIF.

El origen del estudio del sesgo en los itemes, se remonta a los anos 60, con Cardall y Coffman (1964) y posteriormente con Cleary y Hilton (1968), quienes por medio de metodos estadisticos pretendian identificar los factores que causaban las diferencias significativas entre los puntajes obtenidos en una prueba psicologica, aplicada en 1963 a grupos de blancos y negros (Angoff, 1993; Angoff & Ford, 1973).

El termino sesgo estaba siendo utilizado simultaneamente en dos sentidos, uno social y otro estadistico (1), solo hasta la decada de los 80, en la que el Educational Testing Service (ETS), entre otros, comenzo a usar el termino funcionamiento diferencial de los itemes, referido a las propiedades estadisticas que arrojaba un item aplicado en grupos distintos, una vez controladas las diferencias de habilidades de dichos grupos.

Entre los metodos para analizar el DIF, se cuentan aquellos que se derivan de la TCT, como el de Mantel-Haenszel, Regresion Logistica y Estandarizacion; entre los metodos que se apoyan en la TRI se encuentran, areas exactas con signos y areas exactas sin signo y el estadistico ji cuadrado ([ji al cuadrado]). El metodo de Mantel-Haenszel (Dorans & Holland, 1993) permite evaluar y describir como la relacion entre variables se modifica por la presencia de una variable externa; la hipotesis nula a contrastar es la existencia de igualdad entre las proporciones de sujetos que responden en forma correcta o no el item en cada muestra y en cada nivel en que se ha dividido la puntuacion. Este estadistico sigue una distribucion ji cuadrado con un grado de libertad. El metodo de regresion logistica (Swaminathan & Rogers, 1990) se emplea fundamentalmente en el estudio y deteccion del DIF no uniforme que existe cuando hay interaccion entre el nivel de habilidad y los miembros del grupo, es decir, la diferencia en la probabilidad de responder correctamente, para dos grupos, no es la misma en todos los niveles de habilidad. En TRI, el DIF no uniforme esta indicado por las curvas de regresion logistica para dos grupos diferentes: si dichas curvas no son paralelas hay presencia de DIF no uniforme; si son paralelas pero no se superponen puede inferirse que hay DIF uniforme; y si se superponen puede concluirse que no hay DIF. El metodo de estandarizacion (Dorans & Kulick, 1986; Dorans & Holland, 1993) establece un control para las diferencias en la habilidad de una subpoblacion y en la calidad de un item. Usar la estandarizacion significa que las diferencias en una variable han sido controladas, lo cual permite efectuar comparaciones entre grupos y variables relacionadas. En el metodo propuesto por Raju (1990), areas exactas con signos y areas exactas sin signo, se utiliza como indice el area comprendida entre las curvas caracteristicas de los itemes de la poblacion de referencia, definida como aquella respecto de la cual se explora la existencia de DIF y la poblacion focal. Si el area observada es cero, se concluye que no hay DIF; a medida que aumenta el area, aumenta tambien el DIF. En el metodo de Lord (1980) se propone un estadistico para contrastar la hipotesis nula de la igualdad de los vectores que definen los parametros de los itemes en las poblaciones de referencia y focal, es decir, si las curvas caracteristicas de las dos poblaciones para el mismo item son similares, se concluye que no hay funcionamiento diferencial en ese item.

La presencia de DIF puede derivarse de dos fuentes: defectos en los itemes a los que personas de grupos distintos son sensiblemente diferentes, y diferencias entre los grupos, las cuales pueden o no ser detectadas por la prueba aplicada. En la primera fuente se identifican caracteristicas particulares de los itemes que conducen a estimaciones erroneas de la habilidad de las personas (Angoff & Ford, 1973; Linn & Harnish, 1981; Scheuneman & Gerriz, 1990). En la segunda fuente, las diferencias en la instruccion recibida por los integrantes de cada grupo son la principal causa del DIF. Al respecto, Miller y Linn (1988) (2) investigaron en que grado las funciones caracteristicas de los itemes, de grupos con diferentes experiencias instruccionales, eran invariables.

Los metodos de identificacion del DIF frecuentemente se enfocan en la opcion correcta; sin embargo, las otras opciones o las omisiones pueden ejercer un efecto importante sobre la dificultad del item y es probable que el origen del DIF se encuentre alli (Angoff, 1993). De igual manera, un indice para DIF muy grande puede indicar que el item esta midiendo un constructo adicional en uno de los grupos, por lo que la hipotesis de unidimensionalidad no se satisface: la prueba no es unidimensional para al menos uno de los grupos, o no mide la misma dimension en los grupos (Lord, 1980).

Metodos

La Universidad de Bogota Jorge Tadeo Lozano desde el ano 2007 ofrece el Examen de Clasificacion en Matematicas Basicas, como una evaluacion diagnostica que posibilita identificar, analizar y evaluar el nivel de los conocimientos del aspirante y de los estudiantes que realicen transferencias internas o externas. En la actualizacion de su Proyecto Educativo Institucional ha establecido el proceso de seleccion dentro de las politicas de admision de estudiantes y es por esto que considera:

"En razon de la heterogeneidad en la formacion de los estudiantes admitidos, la Universidad aplicara examenes de clasificacion y ofrecera asignaturas de enlace bachillerato-universidad en aquellos temas y procesos cognitivos de mayor relevancia para los estudios universitarios, con el fin de alcanzar las condiciones academicas apropiadas para avanzar en los estudios de educacion superior. Entre estas asignaturas se incluyen en especial, una asignatura de fundamentacion en humanidades y otra en matematica basica" (Universidad de Bogota Jorge Tadeo Lozano, 2011, p. 143).

Por el caracter decisorio que representa esta evaluacion, la Universidad adelanta entre otros estudios, el analisis del instrumento empleado. La base de datos que se utiliza consta de 1.623 cadenas de respuestas obtenidas en diferentes momentos de aplicacion comprendidos entre el tercer periodo lectivo de 2011 (2011 -III) y el primero de 2012 (2012-I). Se seleccionaron 61 itemes, de un banco de 231, los cuales conformaron el instrumento empleado en todas las aplicaciones; estos 61 itemes comprenden los dominios conceptuales propuestos en la asignatura Matematicas Basicas. Utilizando la metodologia de bloques completos, se disenaron seis cuadernillos, cada uno conformado por dos bloques de 15 itemes; cada estudiante evaluado respondio solo un cuadernillo.

Para el analisis de itemes y la calibracion del instrumento se empleo la Teoria de Respuesta al Item (TRI), con la que se obtuvieron, incluyendo todas las cadenas de respuestas de los estudiantes, los siguientes valores para los parametros estimados: confiabilidad igual a .73; coeficiente Alpha de Cronbach, .40; porcentaje de variancia explicada por las medidas, 22.3%, y en contraste con el primer componente, 2.3%, e intervalo de dificultad de los itemes desde -1.80 hasta 2.22 logits (3).

El instrumento analizado forma parte de la prueba empleada como Examen de Clasificacion en Matematicas Basicas que tiene lugar en dos sesiones al inicio de cada periodo lectivo. Las variables de contexto seleccionadas: Sexo, Naturaleza juridica del colegio de procedencia, rango de Edad y Facultad en la que el aspirante tramita su ingreso, fueron recopiladas mediante preguntas directas enunciadas en el formulario de inscripcion. Se presentaron datos faltantes debido a que no era obligatorio diligenciar los campos en los que se solicitaba esta informacion (ver Tabla 1).

Como el objetivo de la prueba es examinar el nivel de conocimiento de los aspirantes, de forma tal que la Universidad pueda ofrecer una ruta academica adecuada al estudiante, se pretende verificar que las diferencias en habilidad no provengan de las variables seleccionadas del grupo al que pertenece el evaluado.

En la conformacion de cada base de datos para el estudio del DIF de las variables elegidas (una base por cada variable de contexto) se eliminaron las cadenas de respuestas correspondientes a los datos faltantes y a los grupos de tamano reducido que no permitian una comparacion efectiva. Por otra parte y con ayuda del paquete estadistico SPSS (1998) se seleccionaron muestras aleatorias con distribucion uniforme para conformar grupos del mismo tamano dentro de cada variable. Con estas consideraciones las bases de datos se organizaron con el siguiente numero de registros en cada grupo de las variables de contexto: para la variable Sexo, 728; en Naturaleza juridica del colegio, 309 registros; para Edad, 323; y para Facultad en la que el aspirante tramita su ingreso, 476 registros.

En el proceso de equiparar los grupos conformados para llevar a cabo el analisis de funcionamiento diferencial de las variables de contexto elegidas, se eliminaron en total 167 cadenas de respuestas para la variable Sexo, 1.005 para Naturaleza juridica del colegio, 195 para Facultad y 654 para Edad.

Considerando estudiantes con similar habilidad, en grupos distintos segun las variables antes senaladas, se inicio un estudio del DIF, con el fin de detectar y retirar aquellos itemes que presenten una diferencia en la dificultad estimada mayor que .64 logits (4), y asi garantizar equidad en la asignacion del puntaje correspondiente para los diferentes grupos de aspirantes. Si se confirma la presencia de DIF, se afecta la validez del instrumento para predecir la habilidad de los aspirantes evaluados.

Para garantizar un alto poder de discriminacion en los itemes y que suministren informacion con un nivel apreciable de confiabilidad, se uso la clasificacion de la severidad del DIF segun la escala propuesta por ETS (Linacre, 2008; Zwick, Thayer & Lewis, 1999) que se indica en la Tabla 2.

Se aplicaron tres metodos para detectar DIF: el primero, diferencia entre los centros de las dificultades, el segundo, diferencia entre los extremos mas proximos de los intervalos de las dificultades y finalmente, la prueba estadistica de Mantel y Haenszel.

Resultados

Prueba 1: Contraste del DIF--Diferencia entre LOS CENTROS DE LAS DIFICULTADES

El procesamiento de la informacion se llevo a cabo con el software WINSTEPS Version 3.73 que estima la dificultad de cada item, dentro de los grupos de la poblacion considerada por variable de contexto. En la Tabla 3 se ilustra el valor calculado del contraste del DIF, para la variable Sexo en el Item 1; los valores encontrados muestran que el item es mas dificil para las mujeres en .20 logits, lo cual indica que tiene un DIF con severidad grado A, considerado no significante segun el criterio propuesto por ETS que se muestra en la Tabla 2. De igual manera, el Item 59 tiene una dificultad de 2.34 para los aspirantes que cursaron su bachillerato en un colegio oficial, en tanto que para los de colegios no oficiales la dificultad es de 1.73. Asi este item es mas dificil en .61 logits, para quienes vienen de un colegio oficial. Esta situacion clasifica al Item 59 con una severidad grado B que se interpreta como de ligera a moderada, de acuerdo con el mismo criterio aplicado al Item 1.

El Item 34 exhibe una dificultad de .44 para los aspirantes cuya Edad se encuentra entre los 15 y los 17 anos y de -.68 para los que tienen edades entre 21 y 30 anos; de este modo el item es mas dificil para el primer grupo. Como el valor que representa la diferencia en tre las dos dificultades es de 1.12 logits, el item se clasifica en Categoria C. Debido a que la severidad grado C es considerada de moderada a grande, es necesario realizar el analisis del DIF en las otras tres variables consideradas, antes de tomar la decision de retirar el Item 34 del examen.

El numero de itemes, por categoria de severidad del DIF, en cada una de las variables de contexto se registra en la Tabla 4. En la categoria leve a moderada se ubicaron 10 itemes tanto en el analisis combinado de la variable Edad, 18-20 vs 21-30 anos, como en la de la variable Facultad, FCEA - FCNI. En moderada a grande se ubicaron 7 itemes en el analisis combinado de la variable Edad, 15-17 vs 21-30 anos y en la categoria no significante, entre 47 y 58 itemes en cada uno de los analisis combinados de las variables de contexto.

Avanzando en el analisis del DIF para la variable Edad, en la cual se presento el mayor numero de itemes clasificados en categoria C, se representan en la Figura 1, utilizando el software Geogebra 4.2, las dificultades de los 61 itemes en dos dimensiones: para el grupo 15-17 anos en el eje horizontal y para 21-30 anos en el eje vertical. En la franja gris claro, se encuentran los itemes que fueron clasificados en categoria no significante de acuerdo al criterio de severidad de ETS; esta franja se encuentra delimitada por las rectas y = x + .43 e y = x - .43. En la franja oscura, comprendida entre las rectas y = x + .64 e y = x + .43 y las rectas y = x - .43 e y = x - .64, se encuentran los itemes que fueron clasificados en categoria ligera a moderada. Finalmente los itemes que exhiben DIF, categoria C, se encuentran fuera de las bandas sombreadas, representados con un triangulo y el numero del item correspondiente. El item que se encuentra mas alejado de las rectas y = x + .64 o y = x - .64 es el 34 con una dificultad promedio para el grupo 15-17 anos de .44 y para el grupo 21-30 de -.68 y con una diferencia entre los centros de dificultad de 1.12.

La Tabla 5 ilustra los itemes que presentan DIF con un grado de severidad de moderada a grande en al menos una de las variables estudiadas. Se observa que el Item 34 exhibe grado de severidad C en dos analisis combi nados de la variable Edad, entre los grupos de 15-17 con 21-30 anos y los de 18-20 con 2130 anos; de igual manera el Item 59 exhibe grado de severidad C en tres de los analisis combinados, en las variables Colegio, oficial con no oficial y en Facultad, en los analisis combinados FCEA--FCNI y FCHAD--FCNI.

Al usar el metodo diferencia entre los centros de las dificultades, se resalta el hecho de que ningun item presento DIF con severidad C para la variable Sexo, ni para el analisis combinado de la variable Edad entre los grupos de 15-17 y 18-20 anos.

PRUEBA 2: CONTRASTE DEL DIF--DIFERENCIA ENTRE LOS EXTREMOS MAS PROXIMOS DE LOS INTERVALOS DE LAS DIFICULTADES

Considerando el numero de registros relativamente pequeno en cada base de datos y el consecuente incremento en el tamano del error generado en la estimacion de la dificultad de los itemes, se definieron intervalos para la dificultad, dentro de cada grupo, del siguiente modo: el limite inferior, calculado como la dificultad menos el error estandar y el limite superior, como la dificultad mas este error estandar.

Cuando los intervalos asi definidos no se superponen, es decir, si el limite inferior de la dificultad para el grupo de menor desempeno (5) es mayor que el limite superior de esta dificultad para el grupo de mayor desempeno, se revela la existencia de DIF. En la Figura 2 se ilustra el mapa que se siguio para realizar los calculos en la variable Sexo. Al identificar la diferencia entre las dificultades que presentaban los 61 itemes para los hombres menos las que presentaban para las mujeres, se evidenciaron dos casos: itemes relativamente mas dificiles para las mujeres (diferencia negativa) o relativamente mas faciles para ellas (diferencia positiva). Para cada caso, el limite superior del intervalo de la menor de las dos dificultades puede ubicarse bien a la izquierda o a la derecha del limite inferior del intervalo con centro en la mayor de las dificultades, dando lugar a intervalos disyuntos o con interseccion no vacia respectivamente. Si los itemes presentan DIF, los intervalos para la dificultad entre los dos grupos comparados resultan disyuntos.

En la Tabla 6, las entradas representan el numero de itemes clasificados en cada categoria de severidad del DIF propuestas por la ETS y aplicadas en la Prueba 1, de acuerdo con el analisis combinado correspondiente, al realizar la diferencia entre los extremos mas proximos de los intervalos de las dificultades; para ilustrar lo anterior, en la Categoria B quedaron 3 itemes al hacer el analisis combinado en la variable facultad FCEA--FCNI, y en la categoria C se ubico un item, tanto en el analisis combinado 15-17 vs 21-30 como en 18-20 vs 21-30, en la variable Edad. Cabe anotar que este item es el 34.

PRUEBA 3: PRUEBA ESTADISTICA DE MANTEL Y HAENSZEL

El metodo de Mantel-Haenszel es un procedimiento estadistico para detectar DIF basado en la comparacion de la proporcion de respuestas correctas p e incorrectas q entre dos grupos: el grupo focal y el grupo de referencia. Los evaluados objeto de analisis componen el grupo focal y aquellos que sirven de base para la comparacion estan en el grupo de referencia. La prueba hace uso del cociente entre la proporcion de respuestas correctas sobre respuestas no correctas (odds = p/q) del grupo de referencia y el odds en el grupo focal. Un item presenta DIF si para los integrantes del grupo de referencia se revela sistematicamente un mayor valor del cociente mencionado (odds) respecto del valor para el grupo focal, dado un nivel similar de habilidad. Este metodo proporciona un estimador de la magnitud del DIF llamado cociente de razones o tambien odds-ratio de MH ([[alfa].sub.MH]) asi como una prueba de significacion estadistica conocida como ji cuadrado MH ([[ji].sup.2.sub.MH]) con un grado de libertad. [[alfa].sub.MH] toma valores positivos siempre; cuando [[alfa].sub.MH] > 1 indica que el item favorece al grupo de referencia. Si 0 < [[alfa].sub.MH] < 1, revela que el grupo focal presenta un mejor desempeno. Por ultimo, si [[alfa].sub.MH] = 1 no hay DIF (Dorans & Holland, 1993).

Es posible hacer una transformacion de [[alfa].sub.mH] a una escala logaritmica: cuando [[alfa].sub.MH] > 1, el logaritmo del odds-ratio es positivo y confirma la presencia de DIF a favor del grupo de referencia; si 0 < [[alfa].sub.MH] < 1, su logaritmo es negativo e indica DIF a favor del grupo focal.

Se dispone de un criterio para categorizar la severidad del DIF con base en la magnitud y en la significancia alcanzada por la prueba estadistica. Este criterio fue propuesto por ETS (Dorans & Holland, 1993), para diversos valores del logaritmo del odds-ratio en una metrica delta Amh conocido con el nombre de Mantel-Haenszel delta difference y denotado MH D-DIF. El criterio se concentra en dos aspectos: el valor absoluto de MH DDIF y la significancia asociada a la hipotesis de que difiera de algunos niveles preestablecidos; ambos son importantes dado que valores pequenos de MH D-DIF pueden ser significativos y senalar la presencia de DIF.

Las categorias utilizadas, A, B y C indican en su orden DIF leve, moderado y severo:

--Categoria A: itemes con [valor absoluto de MH D-DIF] < 1 (unidad delta) o con valores de MH D-DIF que no sean significativamente diferentes de cero seran considerados con DIF leve.

--Categoria C: itemes con [valor absoluto de MH D-DIF] [mayor que o igual a] 1.5 y con valores de MH D-DIF que sean significativamente mayores que uno seran considerados con DIF severo.

--Categoria B: aqui estan aquellos itemes que no pertenezcan a las anteriores categorias. No obstante, se pueden especificar las siguientes opciones: la primera, compuesta por itemes con valores de MH D-DIF que sean significativamente diferentes de cero pero con [valor absoluto de MH D-DIF] [mayor que o igual a] 1 y valores de MH D-DIF que no sean significativamente mayores de uno. La segunda la componen itemes con 1 [menor que o igual a] [valor absoluto de MH D-DIF] < 1.5.

Un criterio equivalente al de ETS pero en unidades logit denotando la magnitud ahora con DIF (ver Tabla 2) establece las categorias en esta metrica asi:

--Categoria A: itemes con [valor absoluto de DIF] < .43 o con valores de DIF que no sean significativamente diferentes de cero seran considerados con DIF leve.

--Categoria C: itemes con [valor absoluto de DIF] [mayor que o igual a] .64 y con valores de DIF que sean significativamente mayores de .43 seran considerados con DIF severo.

--Categoria B: itemes que no pertenecen a las anteriores categorias, tambien con dos opciones: la primera, compuesta por itemes con valores de DIF que sean significativamente diferentes de cero pero con [valor absoluto de DIF] [mayor que o igual a] .43 y valores de DIF que no sean significativamente mayores de .43; la segunda, con itemes donde .43 [mayor que o igual a] [valor absoluto de DIF] < .64.

Puesto que wInsTePS 3.73 utiliza este ultimo criterio, al tomar como base el reporte del DIF obtenido con este software, se detecta si el valor absoluto del tamano del estadistico Mantel y Haenszel es mayor que .64 y el valor-p asociado a la correspondiente prueba estadistica es menor que .05. Los hallazgos referidos a la severidad en categoria C, moderada a grande, se relacionan en la Tabla 7. Las celdas vacias indican que no se cumplieron las dos condiciones simultaneamente.

En la implementacion del metodo de Mantel-Haenszel, el Item 20 fue clasificado en categoria C al realizar dos analisis combinados en la variable edad; los otros 8 itemes fueron clasificados en esta categoria al realizar un analisis combinado en las variables Edad y Facultad. Al realizar los analisis de las variables Sexo y Edad, ningun item quedo clasificado en Categoria C, moderada a grande.

Despues de la aplicacion de los tres tipos de procedimientos: Diferencia entre centros, Diferencia entre extremos mas proximos y Prueba Estadistica de Mantel y Haenszel, se comparan los hallazgos en la Figura 3.

El Item 34 presenta consistentemente funcionamiento diferencial, pues aparece en la interseccion de los grupos de itemes encontrados con los tres procedimientos utilizados.

ANALISIS DEL ITEM 34 EN EL EXAMEN DE CLASIFICACION EN MATEMATICAS BASICAS

El Item 34 fue vinculado al bloque 3 del Examen de Matematica, y en las aplicaciones consideradas lo contestaron 705 aspirantes, de los cuales 93 tenian edades entre 21-30 anos. En dicha prueba se lo formulo con el siguiente texto:

34) Una asociacion de actores tiene 28.000 miembros, pero solo el 30% de ellos tiene empleo. El numero de actores que se encuentra desempleado es:

a. 4.000

b. 8.400

c. 9.333

d. 19.600 (Clave)

Los resultados obtenidos fueron los siguientes: 12 estudiantes marcaron la opcion A, 280 la B, 82 la C y 327 la clave. Unicamente se presentaron 4 omisiones. El proceso de calibracion con las 1.623 cadenas de respuestas reporta como parametros para el Item 34: dificultad, .11; error, .08; ajuste proximo, 1.04; ajuste lejano, 1.10; discriminacion, .81; correlacion .31 y porcentaje de respuesta correcta 46.4%.

El Item 34 presento menor dificultad para los aspirantes con edades entre 21-30 que para los que tienen edades entre 15-17 y 18-20: para estudiantes con edad de 15-17, la dificultad resulto igual a .44 logits; con edad de 18-20, igual a .47 logits; y para edad de 21-30, igual a -.68.

CURVA CARACTERISTICA DEL ITEM 34

Para analizar el desempeno estadistico del Item 34 se grafico con el software Excel su curva caracteristica CCI, en donde se representa la probabilidad de respuesta correcta pa ra el item como una funcion de la habilidad. Se observa que el grupo de evaluados en el rango 21 a 30 anos tiene consistentemente una mayor probabilidad de respuesta correcta con respecto a los otros dos grupos, controlando por habilidad. Los estudiantes con habilidad media del grupo 18 a 20 anos tienen mayor probabilidad de respuesta correcta que los de 15 a 17, pero en aquellos con mayor habilidad tienen mayor probabilidad de respuesta correcta quienes estan en el grupo de 15 a 17 anos. Esto evidencia la presencia de funcionamiento diferencial en el Item 34 (ver Figura 4).

Conclusiones

Se analizo el instrumento empleado en el Examen de Clasificacion en Matematicas Basicas de los estudiantes que ingresan a la Universidad de Bogota Jorge Tadeo Lozano con el fin de establecer si algunos de los itemes incluidos en dicha prueba presentaban DIF en cuatro variables de contexto: Sexo, Naturaleza juridica del colegio de procedencia, rango de Edad y Facultad en la que el aspirante tramita su ingreso. El estudio se realizo teniendo como base 1.623 registros y se seleccionaron muestras con una distribucion uniforme de modo que en cada base se garantizara el mismo tamano de los grupos en cada variable de contexto.

Al realizar la Prueba 1 (Contraste del DIFDiferencia entre los centros de las dificultades) se encontro que los itemes 34 y 59 exhibieron un grado de severidad grande, Categoria C, en dos de los analisis combinados de la variable Edad para el primer item y para el segundo item, en el analisis de la variable Colegio y en dos analisis de la variable Facultad.

Con la Prueba 2 (Contraste del DIF--Diferencia entre los extremos mas proximos de los intervalos de las dificultades) se clasifico unicamente el Item 34 en Categoria C, al realizar en la variable Edad, el analisis combinado entre el grupo de 15 a 17 anos con el de 21 a 30 y entre los de 18 a 20 anos con los de 21 a 30. Teniendo en cuenta el criterio de se vendad propuesta por ETS, con sus respectivos valores, todos los itemes quedaron en categoria A en el analisis de la variable Edad.

Al realizar la Prueba 3 (Prueba estadistica de Mantel y Haenszel) se clasifican en categoria C los itemes 13, 20, 34 y 61 en la variable Edad y los itemes 4, 30, 36, 43 y 59 para la variable Facultad; los valores considerados para esta asignacion en categoria C corresponden al estadistico Mantel y Haenszel mayor que .64 y el valor-p asociado a la correspondiente prueba estadistica menor que .05.

Una vez realizado el estudio utilizando las tres pruebas se concluye que ningun item presenta DIF al hacer la comparacion en la variable Sexo, en tanto que la variable Edad es la que muestra mayor numero de itemes con clasificacion en categoria C en dos de los analisis combinados. Al comparar los resultados encontrados con los tres procedimientos utilizados, se observa que consistentemente el Item 34 exhibe funcionamiento diferencial, razon por la cual se recomienda retirarlo en el procesamiento, antes de proceder a estimar las habilidades de los estudiantes evaluados.

Referencias bibliograficas

Angoff, W. (1993). Perspectives on differential item functioning methodology. En P. Holland & H. Wainer (Eds.), Differential item functioning (pp. 3-23). New Jersey: Erlbaum.

Angoff, W. & Ford, S. (1973). Item-race interaction on a test of scholastic aptitude. Journal of Educational Measurement, 10(2), 95-106. http://dx.doi.org/10.1111/j.1745-3984.1973 .tb 00787.x

Attorresi, H., Galibert, M., Zanelli, M., Lozzia, G. & Aguerri, M. (2003). Error tipo I en el analisis del funcionamiento diferencial del item basado en la diferencia de los parametros de dificultad [Type I error in the analysis of differential item functioning based on the difference in the difficulty parameters]. Psicologica, 24 (002), 289-306.

Baker, F. (2001). The basics of item response theory (2da. ed.). Wisconsin, USA: ERIC Clearinghouse on Assessment and Evaluation.

Cardall, C. & Coffman, W. E. (1964). A method for comparing the performance of different groups on the items in a test. Princeton, NJ: Educational Testing Service.

Cleary, T. & Hilton, T. (1968). An investigation of item bias. Educational and Psychological Measurement, 28, 61-75. http://dx.doi.org/v10.117 7/001316446802800106

Dorans, N.J. & Kulick, E. (1986). Demonstrating the utility of the standardization approach to assessing unexpected differential item performance on the Scholastic Aptitude Test. Journal of Educational Measurement, 23(4), 355-368. http:// dx.doi.org/10.1111/j.1745-3984.1986.tb 00255.x

Dorans, N. & Holland, P. (1993). DIF detection and description: Mantel-Haenszel and standardization. En P. Holland & H. Wainer (Ed.), Differential item functioning (pp. 35-66). New Jersey: Erlbaum.

Linacre, J. (2008). A user's guide to WINSTEPS Rasch-Model computer programs. Chicago: John M. Linacre.

Linn, R. & Harnisch, D. (1981). Interactions between item content and group membership on achievement test items. Journal of Educational Measurement, 18(2), 109-118. http://dx.doi. org/10.1111/j.1745-3984.1981 .tb 00846.x

Lord, F. (1980). Applications of item response theory to practical testing problems. Michigan: Erlbaum.

Miller, M. & Linn, R. (1988). Invariance of item characteristic functions with variations in instructional coverage. Journal of Educational Measurement, 25(3), 205-219. http://dx.doi. org/10.1111/j.1745-3984.1988.tb00303.x

Raju, N. (1990). Determining the significance of estimated signed and unsigned areas between two item response functions. Applied Psychological Measurement, 14(2), 197-207. http://dx. doi.org/10.1177/014662169001400208

Scheuneman, J. & Gerritz, K. (1990). Using differential items functionig procedures to explore sources of item difficulty and group performance characteristics. Journal of Educational Measurement, 27(2), 109-131.http://dx.doi.org/ 10.1111/j.1745-3984.1990.tb00737.x

SPSS Base 8.0 for Windows (1998). User's guide. Chicago IL: SPSS Inc.

Swaminathan, H. & Rogers, H. (1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, 27(4), 361-370. http://dx.doi. org/10.1111/j.1745-3984. 1990.tb00754.x

Universidad de Bogota Jorge Tadeo Lozano. (2011). Proyecto educativo institucional PEI [Institutional educational project PEI]. Bogota: Universidad de Bogota Jorge Tadeo Lozano. http ://www.utadeo.edu. co/ files/ collections/docu ments/field_attached_file/pei_2012.pdf

Zwick, R., Thayer, D. & Lewis, C. (1999). An empirical bayes approach to Mantel-Haenszel DIF Analysis. Journal of Educational Measurement, 36(1), 1-28. http://dx.doi.org/10.1111/j.1745-39 84.1999.tb00543.x

Universidad Jorge Tadeo Lozano (UJTL) Bogota--Colombia

Fecha de recepcion: 1 de octubre de 2013 Fecha de aceptacion: 4 de febrero de 2014

(1) En lo social, referido a injusticia, parcialidad e inequidad contra los grupos minoritarios o menos favorecidos; en lo estadistico, asociado a la obser vacion de un item que muestra propiedades estadisticas diferentes en grupos distintos que tienen la misma habilidad (Angoff, 1993).

(2) La idea de concentrar la atencion en la instruccion como posible fuente del DIF corresponde con una vision que asegura que la habilidad desarrollada por los estudiantes es funcion del proyecto educativo, de las practicas de aula, de las oportunidades de aprendizaje desplegadas al interior de una institucion de educacion, y no del genero, raza, edad u otras variables de origen de la poblacion que es objeto de evaluacion.

(3) Los valores utilizados en la escala recogidos por Zwick usan Unidades Delta. Se empleo la equivalencia 1 logit = 2.35 Unidades Delta, en razon de que la unidad trabajada con el software WINSTEPS Version 3.73 es el logit (Linacre, 2008).

(4) Si un item muestra una diferencia de dificultad mayor que .64 logits, entre dos poblaciones, se dice que presenta funcionamiento diferencial de moderado a grande, de acuerdo con la clasificacion de la severidad del DIF sugerida mediante la escala del ETS (Linacre, 2008).

(5) Para el grupo que muestra un menor desempeno relativo frente al item que se analiza, la dificultad resulta ser mayor que para el grupo con un desempeno relativo mas alto.

Daniel Bogoya M. **, Adelina Ocana Gomez ***, Sandra Patricia Barragan Moreno **** y Ricardo Contento Rubio *****

* Trabajo realizado en el marco del proyecto de investigacion Elementos de evaluacion en ciencias mediante la matematica y el lenguaje (codigo 402- 08-11), financiado por la Universidad Jorge Tadeo Lozano.

** Ingeniero Quimico y Magister en Ingenieria de Sistemas. Consultor Independiente. E-Mail: dbogoya@yahoo.com Carrera 4 # 22-61, Bloque 15, Oficina 201. Bogota, Colombia.

*** Licenciada en Matematica y Magister en Investigacion y Docencia Universitaria. Profesora Asociada del area de Matematica del Departamento de Ciencias Basicas y miembro del Grupo de Investigacion de Didactica de las Ciencias en Evaluacion de la Educacion de la Universidad Jorge Tadeo Lozano (UJTL). E-Mail: adelina.ocana@utadeo.edu.co

**** Magister en Ciencias Matematicas. Profesora Asociada del area de Matematica del Departamento de Ciencias Basicas y miembro del Grupo de Investigacion de Didactica de las Ciencias en Evaluacion de la Educacion de la Universidad Jorge Tadeo Lozano (UJTL). E-Mail: sandra.barragan@utadeo.edu.co

***** Estadistico y Magister en Ensenanza de las Ciencias Exactas y Naturales. Profesor adscrito al Departamento de Ciencias Basicas y miembro del Grupo de Investigacion de Didactica de las Ciencias en Evaluacion de la Educacion de la Universidad Jorge Tadeo Lozano (UJTL). E-Mail: manuel.contento@utadeo.edu.co

TABLA 1

DISTRIBUCION PORCENTUAL Y DE FRECUENCIA DE LOS ESTUDIANTES
EVALUADOS DE 2011-III A 2012-I

Variable              Grupo          Frecuencia   Frecuencia
                                      absoluta    relativa %

Sexo            Femenino                888          54.7
                Masculino               728          44.9
                No hay informacion       7            .4
Naturaleza      Oficial                 1072         54.7
  juridica      No Oficial              309          44.9
  del colegio   No hay informacion      242           .4
Rango de edad   15-17                   403          24.8
                18-20                   857          52.8
                21-30                   323          19.9
                31-54                    30          1.8
                No hay informacion       10           .6
Facultad        FCEA                    488          30.1
                FCHAD                   641          39.5
                FCNI                    476          29.3
                FRICJP                   6            .4
                Convenios colegio-       5            .3
                  proyecto enlace
                No hay informacion       7            .4

Nota:

N = 1.623 cadenas de respuestas

FCEA: Facultad de Ciencias Economico Administrativas

FCHAD: Facultad de Ciencias Humanas Arte y Diseno

FCNI: Facultad de Ciencias Naturales e Ingenieria

FRICJP: Facultad de Relaciones Internacionales y
Ciencias Juridicas y Politicas

Tabla 2

Criterio de severidad del funcionamiento diferencial de los itemes
segun ETS

Categoria para DIF    Contraste DIF en logits        Significancia
                                                  estadistica del DIF

C: de Moderado        [valor absoluto de DIF]      p([valor absoluto
  a Grande           [mayor que o igual a] .64   de DIF]) = .43) < .05
B: de Ligero             .43 [menor que o          p([valor absoluto
  a Moderado           igual a] |DIF| < .64       de DIF]) > 0) < .05
A: No significante      [valor absoluto de
                            DIF] < .43

Tabla 3

Clasificacion del funcionamiento diferencial de un item en Categoria A

Item   Dificultad                 F-M (Contraste    ABS    Categoria
                                     del DIF)      (F-M)

           F             M
       (Femenino)   (Masculino)

1         .29           .49            -.20         .20        A

Tabla 4

Numero de itemes clasificados en cada categoria de severidad del
DIF mediante el metodo diferencia entre los centros de las
dificultades

Variable   Analisis combinado   Severidad

                                     No         Leve a    Moderada
                                significante   Moderada   a Grande

Sexo       Femenino-Masculino        58           3          0
           15-17 vs 18-20            53           8          0
Edad       15-17 vs 21-30            47           7          7
           18-20 vs 21-30            50           10         1
Colegio    Oficial-No Oficial        53           5          3
           FCEA-FCHAD                55           4          2
Facultad   FCEA-FCNI                 50           10         1
           FCHAD-FCNI                57           3          1

Tabla 5

ITEMES CLASIFICADOS CON GRADO DE SEVERIDAD DE MODERADA A
GRANDE (C) EN ANALISIS DEL DIF MEDIANTE EL METODO
DIFERENCIA ENTRE LOS CENTROS DE LAS DIFICULTADES, SEGUN
LAS VARIABLES DE CONTEXTO

Item     Sexo      Edad

       Femenino    15-17   15-17   18-20
       Masculino   18-20   21-30   21-30

1          A         B       C       A
2          A         B       C       A
6          A         A       C       A
20         B         A       C       B
34         A         A       C       C
53         A         A       C       A
57         A         B       C       A
11         B         A       A       A
29         A         A       B       A
59         A         A       A       A
30         A         A       A       A
36         A         A       A       A

Item     Colegio     Facultad

       No Oficial-   FCEA      FCEA     FCHAD
         Oficial     FCHAD     FCNI     FCNI

1           A          A        A         A
2           A          A        A         A
6           B          A        A         A
20          A          A        A         A
34          A          A        A         A
53          A          A        B         A
57          A          A        B         A
11          C          A        A         A
29          C          A        B         B
59          C          A        C         C
30          A          C        B         A
36          B          C        B         A

Tabla 6

NUMERO DE ITEMES CLASIFICADOS EN CADA CATEGORIA DE SEVERIDAD
DEL DIF MEDIANTE EL METODO DIFERENCIA ENTRE LOS EXTREMOS MAS
PROXIMOS DE LOS INTERVALOS DE LAS DIFICULTADES

Variable   Analisis     Severidad                            No hay
           combinado                                          DIF

                             No         Leve a    Moderada
                        significante   Moderada   a Grande

                             A            B          C

Sexo       Fem.-Masc.        18           0          0         43
Edad       15-17 vs          12           0          0         49
             18-20
           15-17 vs          20           2          1         38
             21-30
           18-20 vs          9            0          1         51
             21-30
Colegio    Oficial-No        11           1          0         49
             Oficial
Facultad   FCEA-FCHAD        19           1          0         41
           FCEA-FCNI         18           3          0         40
           FCHAD-FCNI        30           0          0         31

TABLA 7

ITEMES CLASIFICADOS CON GRADO DE SEVERIDAD C DE ACUERDO
CON EL ESTADISTICO DE MANTEL Y HAENSZEL

Item   Categoria en las variables de contexto

       Sexo              Edad              Colegio

        Fem.    15-17    15-17    18-20        No
       Masc.    18-20    21-30    21-30    oficial--
                                            Oficial

13                                  C
20                         C        C
34                                  C
61                C
4
30
36
43
59

Item   Categoria en las
       variables de contexto

                Facultad

        FCEA    FCEA   FCHAD
       FCHAD    FCNI    FCNI

13
20
34
61
4        C
30               C
36               C
43                       C
59                       C
COPYRIGHT 2014 CIIPCA-CONICET
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2014 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Bogoya M., Daniel; Ocana Gomez, Adelina; Barragan Moreno, Sandra Patricia; Contento Rubio, Ricardo
Publication:Interdisciplinaria
Date:Jan 1, 2014
Words:6744
Previous Article:Evaluacion psicometrica de un instrumento de deseabilidad social para ninos.
Next Article:Analisis psicometrico de la evaluacion del aspecto pragmatico del lenguaje infantil: Bateria ICRA-A.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters