Olea & Ponsoda (200x). Tests Adaptativos Informatizados

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/265040034

Views 49 Downloads 1 File size 681KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/265040034

TEST ADAPTATIVOS INFORMATIZADOS Article CITATIONS

READS

8

1,117

2 authors: Julio Olea Díaz

Vicente Ponsoda

Universidad Autónoma de Madrid

Universidad Autónoma de Madrid

77 PUBLICATIONS   527 CITATIONS   

101 PUBLICATIONS   831 CITATIONS   

SEE PROFILE

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Compputerized adaptive testing View project

Model fit evaluation in cognitive diagnosis modeling View project

All content following this page was uploaded by Julio Olea Díaz on 18 February 2015.

The user has requested enhancement of the downloaded file.

TEST ADAPTATIVOS INFORMATIZADOS Julio Olea Vicente Ponsoda

Presentación

Cuando elaboramos la presente monografía lo hacemos con el objetivo básico de que nuestros alumnos (los presenciales y, fundamentalmente, los no presenciales) del curso “Tests Adaptativos Informatizados”, del programa de doctorado interuniversitario de “Metodología de las Ciencias del Comportamiento”, dispongan de forma ordenada de los contenidos básicos para un buen aprovechamiento del mismo. Dada la gran variedad de formación en Psicometría que tienen nuestros alumnos, hemos optado por incluir una breve introducción a la TRI para quienes no hayan tenido la oportunidad de estudiarla en su licenciatura. Pueden ampliarse los conocimientos sobre estos modelos TRI en los textos en castellano de López Pina (1995), Martínez Arias (1995, caps. 10 y 11), Muñiz (1997), Santisteban (1990, caps. 10 a 14) y, en esta misma colección de monografías, en Santisteban y Alvarado (2001, caps. 4 y 5). En cuanto a los objetivos que nos marcamos, no vamos a limitarnos a

mostrar el funcionamiento básico de este tipo de pruebas, sino que pretendemos entrar en la descripción de los principales desafíos con que se enfrenta en la actualidad la investigación teórica y aplicada sobre el tema. Es nuestro interés acercar al estudiante los diferentes métodos de investigación que se aplican para resolver los problemas, para lo cual describiremos determinados trabajos de investigación, entre los cuales se encuentran algunos de los desarrollados por un equipo al que pertenecen de forma estable Pedro Hontangas, de la universidad de Valencia, Steve Wise, de la James Madison university (USA) y Paco Abad, Javier Revuelta, Carmen Ximénez y nosotros mismos, en la universidad Autónoma de Madrid. Resulta un tanto paradójico transmitir en papel la complejidad de procedimientos implicados en estas pruebas, que por definición se aplican en soporte informático. Los alumnos tendrán la oportunidad durante el curso de comprobar cómo se responde a este tipo de tests en un ordenador, la información que proporcionan, diversas variantes en los algoritmos y algunas de sus ventajas e inconvenientes.

Madrid, Noviembre de 2002 Los autores

Índice

1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA 1.1. Elementos básicos y beneficios previsibles..................... 5 1.2. Orígenes, desarrollo y aplicaciones.................................. 9 2. CONCEPTOS BÁSICOS DE LA TEORÍA DE LA RESPUESTA AL ÍTEM 2.1. 2.2. 2.3. 2.4. 2.5.

Ventajas de la teoría de la respuesta al ítem.................... Algunos modelos de la teoría de la respuesta al ítem...... El supuesto de unidimensionalidad.................................. Estimación del nivel de rasgo.......................................... Precisión de las estimaciones...........................................

13 15 19 21 26

3. DISEÑO DEL BANCO DE ÍTEMS 3.1. 3.2. 3.3. 3.4. 3.5.

Componentes de un banco de ítems................................. Elaboración de ítems........................................................ Calibración....................................................................... Propiedades psicométricas............................................... Mantenimiento y renovación del banco de ítems.............

31 31 34 41 45

4. ALGORITMOS ADAPTATIVOS 4.1. Proceso de aplicación de un TAI.................................... 47 4.2. Procedimientos de arranque............................................ 48 4.3. Métodos de estimación del nivel de rasgo...................... 51

TESTS ADAPTATIVOS INFORMATIZADOS

4

4.4. Algoritmos para la selección de ítems............................. 54 4.5. Procedimientos de parada................................................ 61 4.6. Requerimientos informáticos........................................... 63 5. PROPIEDADES PSICOMÉTRICAS DEL TAI 5.1. Precisión........................................................................... 67 5.2. Validez............................................................................. 69 6. INVESTIGACIÓN ACTUAL EN TESTS ADAPTATIVOS INFORMATIZADOS (en colaboración con P. Hontangas, F. J. Abad y J. Revuelta) 6.1. 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8. 6.9.

Presentación..................................................................... 73 Precisión y sesgo de las estimaciones.............................. 75 Alternativas a la información de Fisher........................... 79 Restricciones en la selección de ítems............................. 82 Control de la exposición................................................... 85 Generación automática de ítems...................................... 87 Nuevos modelos............................................................... 94 Condiciones de aplicación............................................... 107 Otros objetivos de investigación...................................... 114

7. REFERENCIAS BIBLIOGRÁFICAS.................................... 125

Capítulo 1 Introducción conceptual e histórica

1.1.- Elementos básicos y beneficios previsibles Un Test Adaptativo Informatizado (TAI) es una prueba, construida para fines de evaluación psicológica o educativa, cuyos ítems se presentan y responden mediante un ordenador, siendo su característica fundamental que se va adaptando al nivel de competencia progresivo que va manifestando la persona. Tal denominación, hoy generalmente empleada en los trabajos publicados en castellano y propuesta por primera vez en Olea y Ponsoda (1996), es la traducción de la expresión inglesa “Computerized Adaptive Test” (CAT). Los elementos básicos de un TAI son: a) un banco de ítems con propiedades psicométricas conocidas, es decir, con parámetros estimados desde un modelo de la Teoría de la Respuesta al Ítem (TRI) determinado, b) un procedimiento que establezca la manera de comenzar y finalizar la prueba, así como la forma de seleccionar progresivamente los mejores ítems, y c) un método estadístico de estimación de los niveles de rasgo. Aunque ya desde Binet se han intentando procedimientos de evaluación adaptativos mediante tests psicológicos (sus tests de inteligencia tenían formas diferentes según el nivel educativo de los niños), en las últimas décadas, y dada la confluencia entre los avances psicométricos realizados desde la TRI y los avances técnicos en el campo de la informática, se han desarrollado instrumentos informatizados para presentar únicamente

6

TESTS ADAPTATIVOS INFORMATIZADOS

los ítems que resultan altamente informativos para estimar el nivel de cada sujeto en un determinado rasgo. Entre otros factores, el nivel de información depende de que los ítems seleccionados para un evaluando tengan una dificultad apropiada para su nivel de rasgo. En este sentido, en un test convencional de longitud fija se presentan todos los ítems que lo integran (y en la misma secuencia) a todos los individuos. Para una persona en concreto, los ítems que le resulten muy fáciles o muy difíciles pueden contribuir poco a determinar de forma precisa su nivel; de hecho, los tests fijos requieren ítems de dificultad heterogénea y tienen algunas características mejorables: requieren mayor tiempo para la aplicación y pueden incrementar en los evaluandos su sensación de aburrimiento (si se le presentan muchos ítems que le resultan fáciles) o de fracaso (cuando un número elevado de ítems resultan excesivamente difíciles para su nivel). Sin embargo, desde la conocida propiedad de invarianza de la TRI, en un TAI será posible estimar los niveles de rasgo de personas diferentes en la misma escala aunque hayan respondido a ítems diferentes (fáciles, los evaluandos de bajo nivel; difíciles, los de alto nivel de rasgo). En principio, cualquier test informatizado tiene ya determinadas ventajas de indudable valor aplicado (Olea y Hontangas, 1999): permiten homogeneizar las condiciones de aplicación, establecer controles para preservar la seguridad de la prueba, registrar información que puede ser útil para la evaluación (por ejemplo, los tiempos de respuesta a los ítems), conseguir un rápido procesamiento de los datos, minimizar errores de corrección, proporcionar feedback inmediato a los evaluandos, evaluar procesos psicológicos básicos u otro tipo de destrezas o competencias que exigen la presentación de la información de forma dinámica, etc. Parshall, Davey y Pashley (2000) han denominado como “tipos innovadores de ítems” a los que se benefician del soporte informático en varios aspectos relacionados con su construcción (uso de sonido, gráficos, animación o vídeo) o con el procedimiento de respuesta (por ejemplo, marcar en figuras o gráficos, seleccionar partes de un texto, mover objetos, reordenar estímulos, escribir el resultado de un problema, responder mediante micrófono...). Los TAIs, dada su

CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA

condición adaptativa, adicionales:

7

tienen al menos tres importantes ventajas

a) Mejoran la seguridad del test, ya que gran parte de los ítems que se presentan a los evaluandos son diferentes. Esta es una preocupación fundamental de los responsables de la evaluación en contextos aplicados ya que, incluso cuando se decide aplicar tests convencionales, uno de los mayores obstáculos a la validez de los tests es que los evaluandos puedan conocer de antemano los ítems que se le van a administrar. Como veremos, esto no significa que los TAIs resuelvan el problema de la copia o transmisión de los ítems (suele ocurrir que un escaso porcentaje de ítems se aplican a muchos evaluandos), pero el problema es menor que en los tests convencionales de lápiz y papel o en los tests informatizados fijos; de hecho, cualquier algoritmo adaptativo desarrollado recientemente incorpora procedimientos para preservar la integridad del banco de ítems en que se fundamenta el TAI. b) Reducen el tiempo de aplicación (a veces a menos de la mitad), ya que consiguen niveles similares de precisión que los tests convencionales con un número menor de ítems. Para las empresas responsables de la aplicación, el tiempo se asocia inexorablemente a los costes de la evaluación. Para los evaluandos, que además suelen manifestar una actitud positiva hacia los tests informatizados en general y hacia los TAIs en particular, este tipo de pruebas tienen la ventaja de permitir conocer sus puntuaciones en varios rasgos o conocimientos en una única sesión de evaluación, que eventualmente podría incluso realizarse mediante Internet. c) Permiten además, con el mismo número de ítems que un test convencional, realizar estimaciones más precisas. Bajo condiciones similares a las de un test convencional (en tiempo requerido y número de ítems aplicados) un TAI permite mayores garantías (menor error de medida) respecto

8

TESTS ADAPTATIVOS INFORMATIZADOS

a los niveles que se estiman y, por tanto, respecto a las decisiones que se toman a partir de las puntuaciones en los tests. Si el banco tiene un tamaño suficiente de ítems con elevado poder discriminante para los diferentes niveles de rasgo, un TAI puede resultar enormemente eficaz para medir los niveles extremos de rasgo, algo difícil de conseguir en la aplicación de tests convencionales, informatizados o no. Estos tres aspectos resultan muy importantes cuando se realizan aplicaciones masivas de tests de rendimiento o de conocimientos, por ejemplo en contextos de selección de personal, de evaluación educativa o en pruebas de certificación profesional o licenciatura. De hecho, algunos de los TAIs que más se aplican (por ejemplo el CATASVAB, el CAT-GRE o algunos tests de certificación) tuvieron sus ancestros en versiones de lápiz y papel o en versiones informatizadas convencionales, que requerían más tiempo de aplicación (por tanto mayor incomodidad para los evaluandos y, bajo ciertas circunstancias, mayores costes) además de mayor riesgo de difusión para futuras aplicaciones a las mismas o a distintas personas. De cualquier forma, resultaría equívoco creer que los tests adaptativos representan la “piedra filosofal” de la evaluación mediante tests psicométricos. Lo han reflejado muy bien algunos autores (Wainer, 2000b, Wainer y Eignor, 2000) al reflexionar sobre los resultados de la masiva aplicación de los TAIs que se ha producido en la última década y al analizar bajo qué circunstancias u objetivos de evaluación resultan auténticamente útiles; para estos autores, tiene sentido su uso: a) cuando la naturaleza del constructo sea tal que la administración informatizada ayude a su evaluación, b) cuando el test ha de ofrecerse de forma continua y no sólo una o pocas veces al año, y c) cuando las personas que hacen el test , y por supuesto los responsables de la aplicación, tienen interés en obtener el nivel de rasgo correcto (por ejemplo, cuando la puntuación estimada va a servir para recomendar o no un determinado programa de instrucción, o en situaciones donde los evaluandos no tienen interés en obtener una puntuación más alta o baja que les dé más posibilidades de ser seleccionado a un puesto de trabajo,..). Algunos inconvenientes, como por ejemplo la necesidad de calibrar bancos en

CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA

9

muestras muy numerosas, la escasa información diagnóstica que proporcionan o determinados impactos negativos que pueden tener en los evaluandos, podrían incluso hacerlos inviables en la práctica. Tampoco los TAIs pueden considerarse como algo único e invariable. Existen modos bastante diferentes de aplicar de forma adaptativa un banco de ítems, pueden utilizarse modelos de TRI diferentes para estudiar sus propiedades y, como veremos, tienen todavía que dar respuesta a diversos interrogantes o problemas, tanto técnicos como aplicados, que se intentan responder desde diferentes líneas de investigación.

1.2.- Orígenes, desarrollo y aplicaciones Las primeras experiencias sobre aplicación adaptativa de ítems las desarrollaron Binet y Simon (1905), quienes construyeron tests de inteligencia diferentes según la edad o el nivel educativo de los estudiantes. Sin embargo, al plantear los orígenes de los TAIs resulta obligado citar la obra de Lord y Novick (1968), fundamentalmente los capítulos de Birnbaum en este libro, donde se establecen las bases de la TRI y los fundamentos estadísticos para ordenar a diversos evaluandos en la misma escala de medida aunque hayan respondido ítems distintos. La idea original de los TAIs fundamentados en la TRI es de Lord (1970), y se ha desarrollado durante los años 80 en el marco de un convenio de la Universidad de Minnesota (dirigido por D. Weiss) con el ejército estadounidense para elaborar versiones adaptativas del Armed Services Vocational Aptitude Battery (ASVAB). La necesidad aplicada del ejército era realizar estimaciones precisas de los niveles aptitudinales de muestras muy numerosas y heterogéneas de candidatos. Durante una década se estudiaron las previsibles ventajas de una versión adaptativa de este test, aplicado anualmente a más de 500.000 personas, antes de utilizarla realmente como prueba de selección. A mediados de los 80 se aplicó la primera versión adaptativa del ASVAB.

10

TESTS ADAPTATIVOS INFORMATIZADOS

Durante las décadas de los 70 y 80 se propusieron diferentes procedimientos o estrategias adaptativas de selección de ítems (una descripción más detallada puede verse en Renom, 1993), algunas de las cuales se idearon para la presentación de los ítems en formato de papel y lápiz, dado que en esos años los ordenadores difícilmente podían realizar con la rapidez necesaria los cálculos matemáticos requeridos por la TRI: a) Lord (1971c) propuso la estrategia de dos etapas, según la cual todos los evaluandos responden a un primer test de escasa longitud (test rutina). Después de estimar sus niveles de rasgo, se aplica a cada sujeto uno de k tests de ubicación, homogéneo en dificultad y apropiado para el nivel estimado en el test rutina. b) También Lord (1971a,b) propuso la estrategia de nivel flexible, apropiada para la administración de bancos de escasa longitud. Se divide el banco de ítems en dos mitades según su dificultad: la primera con los ítems más fáciles y la segunda con los más difíciles; se comienza con el ítem de dificultad media; si se acierta se pasa al siguiente más difícil y si se falla se presenta el siguiente más fácil (entre los que no se han presentado todavía de esa mitad); la prueba se termina cuando se responde a la mitad del banco. c) Weiss (1974) describe varias estrategias alternativas de ramificación fija o estructura de árbol, que tienen en común el establecimiento previo de una ordenación de los ítems a modo de pirámide según su dificultad; la elección de un ítem depende de la respuesta al ítem previo, pero las posibles secuencias de ítems a presentar están prefijadas de antemano. d) Lord (1980) describe una estrategia de ramificación variable, según la cual se estima un nivel provisional de rasgo después de responder a un número determinado de ítems y se elige el ítem más informativo para dicho nivel; este procedimiento de selección se denominará como método de “máxima

CAPÍTULO 1. INTRODUCCIÓN CONCEPTUAL E HISTÓRICA

11

información”. Owen (1975) había propuesto previamente procedimientos bayesianos de selección progresiva de ítems. En paralelo a los desarrollos psicométricos comienzan a ensayarse los primeros TAIs en contextos aplicados para la evaluación de conocimientos de diversas oposiciones (Urry, 1977), exámenes escolares (Cusick, 1989; Kingsbury, 1990), aptitudes intelectuales (Lord, 1977; McBride, 1988; Schoonman, 1989) o dominio del inglés (Abernathy, 1986). Actualmente existen versiones adaptativas de tests convencionales, por ejemplo, del Test of English as a Foreign Language (TOEFL), del Graduate Management Admissions Tests (GMAT), o del Graduate Record Exam (GRE), de diversos tests de aptitudes intelectuales (como el Differential Aptitude Tests), y de múltiples tests desarrollados tanto en Estados Unidos como en Europa para evaluar los conocimientos y aptitudes en contextos de selección de personal (por ejemplo, el CAT-ASVAB en su versión actual o algunos subtests de la batería MICROPAT para la selección de pilotos y controladores aéreos), en pruebas de admisión a centros educativos (es el caso del Law School Admission Test), para la evaluación educativa de niños y jóvenes (por ejemplo el COMPASS placement tests, el NWEA o el sistema CARAT), para la evaluación de conocimientos matemáticos de personas adultas (la prueba holandesa MATHCAT) o en exámenes de licenciatura o certificación (por ejemplo los que se realizan en Estados Unidos para las profesiones de enfermería y medicina). Wainer (2000b) plantea el crecimiento exponencial de la aplicación de los TAIs, que él estima en más de un millón de pruebas aplicadas en el año 1999 sólo en USA.

Capítulo 2 Conceptos básicos de la Teoría de la respuesta al ítem

2.1.- Ventajas de la teoría de la respuesta al ítem Hace ya unos 40 años desde que se publicaron los primeros bosquejos de una nueva teoría de los tests, denominada como Teoría de la Respuesta al Ítem (TRI) o modelos de rasgo latente, en parte para superar algunos de los inconvenientes de la más tradicional Teoría Clásica de los Tests (TCT). Como es conocido, la TCT se sustenta en un supuesto fundamental (X=V+E), según el cual la puntuación empírica de una persona en un test es igual a la suma de su puntuación verdadera y el error. Se asume que los errores en un test son aleatorios (con media cero) en la población de referencia, que correlacionan cero con las puntuaciones verdaderas y con los errores de otros tests. A partir de estos supuestos, y otros adicionales sobre el concepto de formas paralelas, se deducen teoremas que posibilitan la obtención de medidas empíricas de fiabilidad (coeficiente de fiabilidad, error típico de medida) y validez (coeficiente de validez, error típico de estimación) de los tests, así como indicadores estadísticos de las propiedades psicométricas de los ítems (v.g. dificultad, discriminación,..). Algunas de las limitaciones de la TCT, que por otra parte intentarán superar los diferentes modelos propuestos desde la TRI, son las siguientes:

14

TESTS ADAPTATIVOS INFORMATIZADOS

a) En primer lugar, resulta difícil contrastar empíricamente el cumplimiento de los supuestos en que se fundamenta. b) Es evidente que las propiedades psicométricas de los ítems (por ejemplo, los índices de dificultad y de discriminación) y del test en su conjunto (coeficientes de fiabilidad y de validez) dependen de las características de la muestra donde se obtienen (su nivel medio, su variabilidad) y de la propia longitud del test. c) Resulta difícil comparar el rendimiento de dos personas en dos tests diferentes que no son paralelos (por ejemplo, si tienen ítems de diferente dificultad). d) La TCT asume que la precisión con la que se estima el nivel de rasgo de cualquier persona en un test es la misma. Como cuestiones generales, desde la TRI se van a plantear los siguientes objetivos fundamentales: a) Establecer modelos estadísticos cuyo ajuste a los datos se puede contrastar. b) Realizar estimaciones invariantes de las propiedades psicométricas de los ítems (independientes del nivel de rasgo de las personas) y de los niveles de rasgo de las personas (independientes de las propiedades psicométricas de los ítems). Por ejemplo, algo que resultará esencial en los TAIs, las estimaciones estadísticas del nivel de rasgo de dos personas podrán compararse, aunque se les haya aplicado distintos ítems (otra cosa será la precisión obtenida en cada caso). c) Obtener medidas individuales de precisión para cada persona evaluada.

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

15

2.2.- Algunos modelos de teoría de la respuesta al ítem Cualquier modelo de TRI establece una relación matemática entre la probabilidad de emitir una determinada respuesta a un ítem (v.g. dar con la respuesta correcta o elegir una de k categorías de respuesta) y otras características del sujeto (v.g. su nivel en uno o más rasgos) y del ítem (v.g. su dificultad o su discriminación). Cuando se asume y se comprueba que el rendimiento en un ítem depende de un único rasgo latente se habla de modelos unidimensionales; cuando el rendimiento en un ítem depende de dos o más rasgos se habla de modelos multidimensionales. Por otra parte, si el modo de cuantificación de las respuestas es dicotómico, normalmente el que corresponde a ítems de rendimiento óptimo donde se producen aciertos y errores, se formulan modelos dicotómicos; si se consideran más de dos categorías de respuesta (v.g. en ítems de escalas de actitudes o de tests de personalidad) se establecen modelos politómicos. En las siguientes páginas describiremos fundamentalmente algunos modelos unidimensionales dicotómicos, aunque en apartados posteriores avanzaremos las características de ciertos modelos multidimensionales y politómicos que representan la base psicométrica de ciertos TAIs particulares que actualmente están siendo sometidos a prueba. Comencemos por uno de los modelos más sencillos, que es un modelo dicotómico unidimensional, denominado modelo logístico de 1 parámetro (1P) o modelo de Rasch: D (θ −b )

j e P (θ ) = D (θ −b j ) 1+ e

En este modelo P(θ) es la probabilidad de acertar el ítem j cuando la persona tiene un nivel de rasgo θ. Este parámetro normalmente asume valores entre –4 y +4. bj es el parámetro de dificultad del ítem (normalmente asume valores entre –4 y +4, pues se mide en la misma escala que θ), D es un valor constante (si D=1 se

TESTS ADAPTATIVOS INFORMATIZADOS

16

habla de escala logística; si D=1.7, de escala normal), y e es la base de los logaritmos naturales (e=2.718). Con el modelo 1P se está asumiendo en realidad que el rendimiento en un ítem depende únicamente del nivel de rasgo del sujeto y de la dificultad del ítem. Gráficamente, el funcionamiento de cualquier ítem descrito por un modelo dicotómico unidimensional puede representarse mediante la curva característica del ítem (CCI), que pone en relación los niveles θ con sus correspondientes P(θ). Figura 1. Curvas características de dos items para modelo 1P 1,0

,8

,6

P(θ) ,4

,2 ítem 1 0,0

ítem 2

-4,00

-3,00

-3,50

-2,00

-2,50

-1,00

-1,50

,00

-,50

1,00 ,50

2,00 1,50

3,00 2,50

4,00 3,50

θ

Véase por ejemplo la figura 1, en ella se han representado las curvas características de dos ítems según 1P: el ítem 1 con una dificultad de 0 (curva más a la derecha), y el ítem 2 que tiene un parámetro de dificultad igual a –2. La dificultad de un ítem indica por tanto el grado en que su CCI está desplazada hacia la izquierda (tendencia a la facilidad) o a la derecha (tendencia a la dificultad). Para un ítem en concreto, basta con sustituir en la expresión del

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

17

modelo 1P los correspondientes valores θ y su parámetro b para obtener los correspondientes valores P(θ). Si se analizan con detalle la expresión de P(θ) y la figura anterior, pueden comprobarse tres propiedades importantes de este modelo: a) Cuando el nivel de rasgo θ coincide con la dificultad del ítem, la probabilidad de acertarlo es igual a 0.5. Dicho de otro modo, la dificultad de un ítem es el valor θ tal que P(θ)=0.5. b) Si el nivel θ es extremadamente bajo, la probabilidad de acierto se aproxima a cero. En la expresión de P(θ) se puede ver que cuando el nivel θ tiende a -∞, el valor P(θ) tiende a 0. Es decir, este modelo considera que no se producen aciertos por azar. c) La pendiente que tiene la CCI en b es la misma para cualquier ítem. Como veremos a continuación, tal pendiente tiene que ver con la discriminación del ítem. Este modelo considera que todos los ítems tienen la misma discriminación. El modelo logístico de 2 parámetros (2P) incorpora a la función logística un parámetro de discriminación del ítem (aj). Su expresión matemática es: Da (θ −b )

e j j P (θ ) = Da (θ −b ) 1+ e j j donde aj es proporcional a la pendiente de la CCI en el valor θ = bj. Este parámetro de discriminación, que suele oscilar entre 0 y 3, indica el grado en que el ítem discrimina entre los niveles θ superiores e inferiores a la dificultad del ítem. Si la CCI tiene poca pendiente en bj (aj cercano a 0), el ítem resulta poco discriminativo; si su pendiente es elevada, el ítem sirve para diferenciar los niveles de rasgo por encima y por debajo de su dificultad.

TESTS ADAPTATIVOS INFORMATIZADOS

18

En la figura 2 se representan las CCI de dos ítems según el modelo 2P. Ambos tienen la misma dificultad (b=0) pero diferente discriminación (a1=2, a2= 1). Podemos observar que el punto de intersección entre las dos CCI indica precisamente que ambos tienen la misma dificultad, dado que en este caso coincide en los dos ítems que θ=0 para P(θ) = 0.5. Figura 2. Curvas características de dos items para modelo 2P 1,0

,8

,6

P(θ) ,4

,2 ítem1 0,0

ítem2

-4,00

-3,00

-3,50

-2,00

-2,50

-1,00

-1,50

,00

-,50

1,00 ,50

2,00 1,50

3,00 2,50

4,00 3,50

θ

Además, puede verse también que la pendiente de ambos ítems en b no es la misma. El ítem 1 discrimina mejor que el 2 entre los sujetos que tienen un nivel de rasgo cercano a θ=0. Como ocurría en el modelo 1P, este modelo no considera tampoco la probabilidad de acierto aleatorio. Podemos comprobar también que, si en el modelo 2P se sustituye el parámetro a por el valor 1, el modelo resultante es el 1P. El modelo logístico de 3 parámetros (3P) añade al anterior un nuevo parámetro (cj), denominado como parámetro de pseudoazar (puede oscilar aproximadamente entre 0 y 0.5), que es la asíntota inferior de la CCI y representa la probabilidad que tienen de acertar el

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

19

ítem personas con nivel θ extremadamente bajo (límite de P(θ) cuando θ tiende a -∞). Su expresión matemática es: Da (θ −b )

e j j P (θ ) = c j + (1 − c j ) Da (θ −b ) 1+ e j j En la figura 3 se representan dos ítems con igual dificultad, idéntica discriminación pero diferente parámetro de pseudoazar. Mientras que para el ítem 1 c1=0.5, el parámetro de pseudoazar del ítem 2 es c2=0.1. Si supiéramos, por ejemplo, que ambos ítems tienen diferente número de opciones de respuesta, seguramente el ítem 2 tendría mayor número de opciones que el ítem 1, ya que resulta menos probable de acertar teniendo un nivel de rasgo muy bajo. Figura 3. Curvas características de dos items para modelo 3P 1,0

,8

,6

P(θ) ,4

,2 ítem 1 0,0

ítem 2

-4,00

-3,00

-3,50

-2,00

-2,50

-1,00

-1,50

,00

-,50

1,00 ,50

θ

2,00 1,50

3,00 2,50

4,00 3,50

20

TESTS ADAPTATIVOS INFORMATIZADOS

Algunas propiedades de este modelo son: a) Cuando cj=0, el modelo resultante es el 2P. b) El valor de cj suele asumir valores alrededor de 1/k, siendo k el número de opciones de respuesta del ítem. c) A diferencia de los modelos 1P y 2P, en el modelo 3P, P(bj)= (1+cj)/2. De ahí que las CCI representadas en la figura 3 no sean en principio muy ilustrativas para comprobar visualmente la equivalencia en dificultad y discriminación de los dos ítems.

2.3.- El supuesto de unidimensionalidad Los tres modelos expuestos son modelos unidimensionales, dado que suponen que el rendimiento en un ítem depende del nivel que tienen las personas en un único rasgo θ. El grado de unidimensionalidad de un test o de un banco de ítems puede evaluarse mediante técnicas de análisis factorial exploratorio aplicadas a la matriz de correlaciones entre los ítems (Lord y Novick, 1968). Una vez extraída la matriz factorial sin rotar, se estudia el porcentaje de varianza explicado por el primer factor. Algunos autores (Reckase, 1979) plantean que se cumplen los mínimos de unidimensionalidad cuando este primer factor explica más del 20% de la varianza total. Conviene considerar que siempre puede ganarse en unidimensionalidad si después del primer análisis se eliminan los ítems con cargas factoriales bajas en el primer factor sin rotar (Lumsden, 1976). Otro aspecto importante es el tipo de correlación más adecuada para el tipo de datos que pretendemos estudiar (variables dicotómicas). Cuando se utiliza la correlación de Pearson, el primer factor sin rotar correlaciona significativamente con la proporción de aciertos en los ítems, lo cuál se interpreta como un “factor espurio de dificultad”. Aunque tampoco está exento de problemas, parece más adecuado un procedimiento (Lord, 1980) que consiste en aplicar el análisis factorial sobre la matriz de correlaciones tetracóricas, propuestas para el análisis de variables dicotomizadas bajo el supuesto de distribución normal en las

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

21

variables continuas subyacentes. McDonald (1999) justifica y recomienda el uso de modelos no lineales de análisis factorial. Existen muchos otros métodos para comprobar el grado de unidimensionalidad de las respuestas de una muestra a un test, varios de los cuales se exponen en Cuesta (1996).

2.4.- Estimación del nivel de rasgo La primera vez que se aplica un test a una muestra debemos estimar los parámetros de los ítems, proceso que se denomina calibración, y también los parámetros θ de los sujetos. Una vez que el test está calibrado, el problema estadístico se reduce a estimar los niveles de rasgo de los sujetos. Por motivos didácticos, vamos a suponer en principio que estamos ante esta segunda situación. Vamos a suponer además que un test está formado por 2 únicos ítems (los que hemos utilizado en la figura 1 para explicar el modelo 1P) con parámetros b1=0 y b2=-2. Supongamos que una persona acierta el primero y falla el segundo. ¿Cuál es el nivel θ que más probablemente le correspondería a esta persona? Para responder a esta pregunta podemos obtener lo verosímil que resulta el patrón de respuestas dado para cada nivel θ posible (tomando en principio 17 valores distintos en un rango desde –4 a +4). Como ha acertado el primer ítem y ha fallado el segundo, para cada θ obtenemos el valor L=P1(1-P2), siendo P1 y P2 las correspondientes probabilidades de acierto obtenidas mediante el modelo 1P. Gráficamente, los resultados L para cada valor θ serían los que se representan en la figura 4. Podemos observar en la gráfica que el nivel de rasgo que hace más probable el patrón de respuestas observado es θ = -1, ya que el valor máximo de L corresponde a dicho nivel de rasgo.

TESTS ADAPTATIVOS INFORMATIZADOS

22

Figura 4. Estimación de L para cada nivel de rasgo ,08

,06

L ,04

,02

0,00 -4,00

-3,00

-3,50

-2,00

-2,50

-1,00

-1,50

,00 -,50

1,00 ,50

2,00 1,50

3,00 2,50

4,00 3,50

θ

El procedimiento que hemos seguido se denomina estimación de máxima verosimilitud condicionada, dado que consiste en buscar el valor θ asociado al máximo valor de la función de verosimilitud, tomados los parámetros de los ítems como conocidos. Obsérvese que se asume que, dado un nivel de rasgo concreto, la probabilidad de emitir un patrón de respuestas determinado es igual al producto de las probabilidades de emitir cada respuesta individualmente, lo que se conoce como supuesto de independencia local, muy relacionado con el de unidimensionalidad. Para Santisteban y Alvarado (2001) ambos supuestos resultan equivalentes para datos estrictamente unifactoriales. En general, la función de verosimilitud se obtiene a partir de la expresión: n

L(u | θ ) = Π Pj j Q j j =1

u

1− u j

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

23

donde u es el vector de respuestas (aciertos, 1, y fallos, 0) a los ítems, Pj es la probabilidad de acertar el ítem j (uj=1) dado un nivel de rasgo θ, y Qj es la probabilidad de fallarlo. Lo que significa que, dado un determinado patrón de respuestas a los ítems que forman el test, el valor L asociado a un nivel de rasgo θ se obtiene multiplicando las correspondientes probabilidades de acierto y error obtenidas mediante el modelo de TRI en uso. Veamos otro ejemplo. Supongamos que una persona responde a un test de 5 ítems, con los siguientes parámetros de dificultad: b1=-2, b2=-1, b3=0, b4=1 b5=2. Supongamos que la persona acierta los tres primeros ítems y falla los dos últimos. ¿Cuál será el nivel θ para el que la función L alcanza el máximo valor? Fijando 17 valores θ posibles y aplicando el modelo de Rasch, obtenemos los datos señalados en la tabla 1. Tabla 1. Ejemplo de cálculo de L para cada nivel de rasgo P1 P2 P3 P4 P5 L=P1P2P3Q4Q5 θ -4,00 0,12 0,05 0,02 0,01 0,00 0,00 -3,50 0,18 0,08 0,03 0,01 0,00 0,00 -3,00 0,27 0,12 0,05 0,02 0,01 0,00 -2,50 0,38 0,18 0,08 0,03 0,01 0,01 -2,00 0,50 0,27 0,12 0,05 0,02 0,01 -1,50 0,62 0,38 0,18 0,08 0,03 0,04 -1,00 0,73 0,50 0,27 0,12 0,05 0,08 -0,50 0,82 0,62 0,38 0,18 0,08 0,15 0,00 0,88 0,73 0,50 0,27 0,12 0,21 0,50 0,92 0,82 0,62 0,38 0,18 0,24 1,00 0,95 0,88 0,73 0,50 0,27 0,22 1,50 0,97 0,92 0,82 0,62 0,38 0,17 2,00 0,98 0,95 0,88 0,73 0,50 0,11 2,50 0,99 0,97 0,92 0,82 0,62 0,06 3,00 0,99 0,98 0,95 0,88 0,73 0,03 3,50 1,00 0,99 0,97 0,92 0,82 0,01 4,00 1,00 0,99 0,98 0,95 0,88 0,01

TESTS ADAPTATIVOS INFORMATIZADOS

24

Por tanto, de los 17 niveles de rasgo considerados, la estimación máximo verosímil coincide con el valor θ=0.5. En la última columna de la tabla 1 podemos observar que también existen otros niveles de rasgo adyacentes que resultan bastante probables, pero esto es otra cuestión que trataremos posteriormente al hablar de la precisión asociada a una estimación concreta. El problema de estimación es mucho más complejo en situaciones reales. En primer lugar, es necesario trabajar con tamaños muestrales N muy altos (normalmente por encima de 500 sujetos), y no sólo con un sujeto como en los ejemplos anteriores. En segundo lugar, la primera vez que se aplica el test necesitamos estimar los parámetros de los sujetos y los parámetros de los n ítems que forman el test, es decir, tenemos que realizar una estimación conjunta. En tercer lugar, el problema de la estimación y los requerimientos muestrales son mayores cuantos más parámetros tenemos que estimar para los ítems. En cuarto lugar, los niveles de rasgo considerados deben ser, desde luego, más de los 17 establecidos en nuestro ejemplo. A la vista de lo anterior, se comprende que la estimación máximo verosímil requiere la obtención de los valores de los parámetros de las personas (θ) y de los ítems (a, b, y c, si aplicamos el modelo 3P) que hacen máxima la función de verosimilitud L. La solución a este problema está bien resuelto: consiste en encontrar las soluciones del sistema de ecuaciones que se obtiene al igualar a cero la derivada de L respecto a cada parámetro. El sistema no tiene solución analítica y se recurre a procedimientos numéricos para encontrar sus soluciones (ver Baker, 1992; Hambleton y Swaminathan, 1985;). Por razones de simplicidad matemática, se suele maximizar LnL en vez de L, pues es más fácil de operar con LnL y se encuentran las mismas soluciones en uno y otro caso. Por lo tanto, si tenemos N personas y n ítems, la expresión a maximizar sería la siguiente: N

n

ln L = ∑∑ [ uij ln Pij + (1 − uij ) ln Qij i =1 j =1

]

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

25

Una explicación detallada y en castellano del procedimiento aproximación numérica (de Newton-Raphson) se encuentra en López Pina (1995, apartado 5.2.3) y en Santisteban y Alvarado (2001, apartado 2.3 del capítulo de estimación). El método de estimación de máxima verosimilitud tiene una característica que dificulta su uso para estimar progresivamente el nivel de rasgo de una persona a la que se aplica un TAI: no permite obtener estimaciones finitas de θ mientras un sujeto tiene un patrón constante de respuestas (todo aciertos o todo errores). En el modelo 1P, si una persona responde a n ítems, cuyos parámetros suponemos conocidos, el estimador máximo verosímil de su nivel de rasgo es el valor de θ obtenido al igualar a cero la expresión: n

∂ ln L(u j ) / ∂θ = D Σ (uij − Pij ) i =1

Se puede comprobar que a) si sólo ha habido aciertos (es decir uij = 1, i: 1, 2, .. n), cuanto mayor es θ, más se acerca P al valor de 1 y por lo tanto más cerca estamos de la solución de la ecuación. b) Si sólo ha habido errores, ocurre lo mismo cuanto más pequeño sea θ. Dicho de otro modo, cuando una persona obtiene un patrón constante de respuestas no puede obtenerse un máximo en la función de verosimilitud. Una manera de resolver este problema es utilizar un procedimiento de estimación bayesiano, que permitirá obtener estimaciones finitas aún con patrones constantes de respuesta. La idea fundamental es incorporar a la función de verosimilitud información sobre la distribución a priori del rasgo en la población. Así, este tipo de procedimientos establecen que el estimador de θ será la moda (estimación bayesiana MAP) o la media (estimación bayesiana EAP) de la distribución de probabilidad posterior de θ, P(θ|u), cuya expresión es:

TESTS ADAPTATIVOS INFORMATIZADOS

26

P (θ | u ) =

g (θ ) L(u | θ ) L(u )



g (θ ) L(u θ )

donde g(θ) es la función de densidad (distribución a priori) del rasgo, L(u|θ) es la función de verosimilitud y L(u) es la verosimilitud del patrón de respuestas u independientemente de θ. Dado que el denominador es un valor concreto, puede afirmarse que la función de densidad posterior, P(θ|u), es proporcional al producto de la distribución a priori y la función de verosimilitud. Esto significa que si la función g(θ) fuera la uniforme, el estimador bayesiano coincidiría con el máximo verosímil. Siguiendo a Baker (1992), puede demostrarse que, siendo g(θ) una distribución normal N(µ,σ), para la estimación bayesiana MAP el máximo se encuentra resolviendo la ecuación:



n (θ − µ ) + D Σ (uij − Pij ) = 0 i =1 σ2

Como puede verse en la expresión anterior, el estimador MAP proporciona estimaciones finitas para θ, aún con patrones constantes de respuesta, dada la incidencia del primer sumando en la ecuación. La estimación de parámetros en TRI es un asunto complejo. Los procedimientos de estimación vistos se combinan con tres estrategias distintas y dan lugar a los métodos de estimación conjunta, marginal o condicionada. En el primer caso, se estiman simultáneamente los parámetros de los ítems y de las personas. En el segundo, a partir de la distribución conjunta de los ítems y de las personas, se obtiene la distribución marginal de los estimadores de los parámetros de los ítems, y a partir de esta información se obtienen los parámetros de las personas. En los métodos condicionados los parámetros de los ítems se obtienen a partir de su distribución condicionada, en vez de la marginal. Puede encontrarse una descripción detallada de estos métodos y sus características en Santisteban y Alvarado (2001, cap.5) y Revuelta y Ponsoda (2001, cap.3).

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

27

2.5.- Precisión de las estimaciones Una de las propiedades de la estimación de máxima verosimilitud es que, asintóticamente (es decir, con un número razonablemente grande de ítems), la distribución del estimador de θ es normal, con media θ y varianza igual a:

σ (2θˆ|θ ) =

1 Pi´2 ∑ i =1 Pi Qi n

donde P´es la derivada del correspondiente modelo. La raíz cuadrada de la expresión anterior será el error típico de medida (Se). El denominador de la expresión se denomina información del test o información de Fisher, y suele simbolizarse como I(θ). Dicho de otro modo, la información de un test para un valor de rasgo concreto es el inverso de la varianza del estimador para ese nivel. Puede observarse que la información del test es el resultado de sumar las informaciones de los n ítems que lo integran. De la misma forma, la relación entre el error típico de medida y la información puede expresarse como:

Se =

1 I (θ )

El valor de I(θ) para cada uno de los modelos logísticos se obtiene de la siguiente forma: 1) Para el modelo 1P:

I (θ ) = D 2ΣPiQi

28

TESTS ADAPTATIVOS INFORMATIZADOS

2) Para el Modelo 2P:

I (θ ) = D 2 Σa 2 Pi Qi 3) Para el modelo 3P:

a 2Qi ( Pi − c ) 2 I (θ ) = D Σ Pi (1 − c) 2 2

A partir de las expresiones anteriores puede verse que la información de un test, y por tanto el error típico de medida, para un determinado nivel de rasgo, depende fundamentalmente: a) de los parámetros de discriminación de los ítems (cuanto mayores sean los parámetros a, mayor será el valor de la información), b) de los parámetros de pseudoazar (cuanto más bajos sean los valores de c, mayor será la información), c) del número de ítems que tenga (suponiendo que los ítems tienen las propiedades psicométricas usuales, a mayor longitud, mayor información), y d) de la convergencia entre el nivel de rasgo θ y los parámetros de dificultad b de los ítems (cuanto más próximos sean, mayor será el producto PQ, y por tanto más elevada será la información). Esto tiene una capital importancia para conseguir los objetivos que se pretenden con la aplicación de los TAIs: a pesar de aplicar pocos ítems, particularidad que en principio dificultaría la obtención de una adecuada precisión en la medida, conseguiremos buenos niveles de precisión si presentamos a una persona los ítems más apropiados para su nivel de rasgo, es decir, aquellos ítems discriminativos y de dificultad apropiada para su nivel. En la figura 5 se representan las funciones de información de los 5 ítems y del test completo que sirvieron como ejemplo (tabla 1, apartado 2.3) para describir el cálculo de la función de verosimilitud, siguiendo el modelo 1P.

CAPÍTULO 2. CONCEPTOS BÁSICOS DE LA TRI

29

Figura 5. Funciones de Información de los ítem y del test 1,0

,8

I(θ)

,6

ITEST I1

,4 I2 I3 ,2 I4 0,0

I5

-4,00

-3,00

-3,50

-2,00

-2,50

-1,00

-1,50

,00

-,50

1,00 ,50

1,50

2,00

3,00

2,50

4,00

3,50

θ

A partir de la gráfica concluimos que el test resulta más informativo para valores centrales de rasgo que para niveles extremos. Resulta curioso que, a pesar de que el test dispone de 5 ítems heterogéneos en dificultad (lo cuál podría hacernos pensar que resultaría igualmente informativo para los diferentes niveles de rasgo), los niveles más elevados de precisión se obtienen para un rango de valores centrales de rasgo, lo cuál resulta bastante habitual en la mayoría de los tests o bancos de ítems de rendimiento óptimo. Además, dado que se aplica el modelo 1P, podemos comprobar que el mayor nivel de información de un ítem coincide con los valores θ que se aproximan a su dificultad. En el caso de la estimación bayesiana MAP, la varianza del estimador es de nuevo asintóticamente el inverso de la función de información (Mislevy y Bock, 1990), que en este caso queda como :

30

TESTS ADAPTATIVOS INFORMATIZADOS

J (θ ) =

1 + I (θ ) σ2

con lo que puede observarse que la información para un mismo nivel de rasgo es mayor en este método bayesiano que en el método de máxima verosimilitud (tanto mayor cuanto menor sea la dispersión de la distribución a priori de θ).

Capítulo 3 Diseño del banco de ítems

3.1.- Componentes de un banco de ítems Un banco de ítems se puede considerar como una base de datos sobre los ítems que está formada por una parte sustantiva (enunciado, opción correcta, opciones incorrectas), cierta información psicométrica (parámetros estimados de los ítems desde los desarrollos de la TCT o de la TRI) y cualquier otra que pueda ser relevante (v.g. contenido que mide cada ítem, tasas de exposición en aplicaciones precedentes, distribución de respuestas en los distractores, etc.). Ningún algoritmo adaptativo resolverá los problemas de representación, tamaño o calidad psicométrica que pueda tener un banco de ítems. Por tanto, todas las orientaciones que se establecen para elaborar un buen banco (ver, por ejemplo, Barbero, 1999) son de general aplicación al caso en que el banco de ítems sea la base sustantiva fundamental de un TAI.

3.2.-Elaboración de ítems a) Formato, nº de opciones y especificaciones de contenido. Como en cualquier test, los ítems del banco pueden incluir información verbal o gráfica, que puede ser presentada de forma

32

TESTS ADAPTATIVOS INFORMATIZADOS

estática o dinámica mediante medios técnicos diversos (la propia pantalla, sistemas audio o vídeo, etc.). Cuando se pretende medir el rendimiento máximo (v.g. conocimientos o rasgos intelectuales), lo más usual es utilizar un formato de respuesta de elección múltiple, aunque se están probando sistemas adaptativos para ítems de respuesta construida, como pueden ser los que se desarrollan para evaluar el nivel de conocimientos en matemáticas o en programación informática. Algunos trabajos que estudian el número óptimo de opciones que deben tener los ítems (Abad, Olea y Ponsoda, 2001) concluyen que tanto los indicadores psicométricos clásicos como los derivados de la TRI se mantienen en niveles aceptables cuando se elaboran 3 buenas opciones de respuesta. Cuando el objetivo es la medición del rendimiento típico (v.g. rasgos de personalidad o actitudes) se establece un formato de respuesta de categorías ordenadas. De cualquier forma, en uno u otro formato, todas las consideraciones técnicas sobre la construcción de ítems deben tenerse en consideración en la elaboración del banco (ver, por ejemplo, Prieto y Delgado, 1996). Entre otras muchas cosas, y fundamentalmente cuando se quiere realizar una determinada clasificación de los sujetos a partir de sus puntuaciones en el TAI (aprobado-suspenso, apto-no apto, admitido-excluido, etc.), resulta importante el asesoramiento por parte de los especialistas en el contenido que pretende medir la prueba. Por ejemplo, en países donde se aplican TAIs de conocimientos para objetivos de licenciatura, de acceso a determinado tipo de estudios o de certificación, suele formarse un comité técnico, formado por miembros de la asociación profesional, especialistas en el campo de interés y expertos en Psicometría, que se encargan de establecer los objetivos del test, los criterios de rendimiento mínimo que definen el punto de corte, así como de realizar la construcción inicial y la revisión técnica del banco de ítems. Estos especialistas son también los que indican a los psicómetras qué mínimos de contenidos (v.g. cierto número de ítems para cada una de las categorías diferentes especificadas) deben estar incluidos en todas las aplicaciones del TAI, de cara a preservar la validez de contenido de las estimaciones que se realicen.

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

33

Para preservar el supuesto de independencia local, conviene que se cuide especialmente la redacción de ítems, de modo que un ítem no proporcione pistas para responder correctamente otro ítem. En el caso de que varios ítems tengan evidentes relaciones sustantivas entre sí, conviene establecer ciertas restricciones en el algoritmo de selección para que no se presenten simultáneamente a un mismo sujeto. b) Tamaño del banco El número de ítems que deben elaborarse tiene mucho que ver con otras consideraciones prácticas como, por ejemplo, con la cantidad de restricciones que se establecen en el algoritmo de selección de ítems, con el número previsible de aplicaciones del TAI en un futuro inmediato o con el propósito de diseñar bancos de ítems diferentes que se vayan rotando en las sucesivas aplicaciones. Renom (1993) revisa varios trabajos donde se plantea el número de ítems que debe tener un banco que se va a emplear en un TAI. Algunos autores recomiendan un mínimo de 100 ítems, aunque lo normal es que tenga más de 500. Otros aconsejan que el banco tenga 10 veces más ítems que los que se van a emplear como promedio en la aplicación del TAI. Muchos de los TAIs operativos disponen de bancos con más de 1000 ítems (Wise y Kingsbury, 2000). El CATASVAB, quizás el “buque insignia de los TAIs”, comenzó con la redacción de unos 4000 ítems (450 para cada una de las 9 áreas de contenido que incluye). El sistema CARAT (Computerized Adaptive Reporting and Testing), empleado en Portland para evaluar 5 áreas diferentes de conocimientos en educación primaria y secundaria, dispone de un banco total de conocimientos matemáticos de 6.500 ítems calibrados, de los que se van construyendo bancos parciales para diferentes niveles educativos (varios para cada nivel) que se van usando de forma rotatoria por razones de seguridad. Cuando se establecen diferentes categorías de contenido, conviene que en cada una haya un número parecido de ítems (o en su caso un número proporcional a las restricciones establecidas en el algoritmo de selección) ya que, de lo contrario, los ítems que pertenecen a las categorías menos numerosas pueden sobrexponerse en las sucesivas aplicaciones del TAI. Adicionalmente al tamaño

34

TESTS ADAPTATIVOS INFORMATIZADOS

requerido, algunos autores (Bergstrom y Lunz, 1999) aconsejan que la distribución de la dificultad de los ítems sea similar a la del rasgo de la población de examinados.

3.3.- Calibración Uno de los requerimientos que resultan más costosos en un TAI tiene que ver con la necesaria calibración del banco de ítems a partir de los desarrollos de un modelo concreto de la TRI. Algunos estudios empíricos (Hetter, Segall y Bloxon, 1994) concluyen que la calibración realizada a partir de la aplicación en lápiz y papel proporciona resultados comparables a la que se obtiene en aplicaciones informatizadas de los mismos ítems. Desde un punto de vista operativo, este dato resulta importante dado que la aplicación informatizada siempre resulta más costosa a todos los niveles. Para el proceso de calibración debe decidirse el tamaño mínimo muestral recomendable, el modelo TRI más apropiado y si se va a establecer un determinado diseño de anclaje y equiparación. Como en cualquier otro test, deben comprobarse también el grado de ajuste de los ítems al modelo TRI seleccionado y otras propiedades psicométricas adicionales. a) Tamaño muestral El tamaño de la muestra que se requiere para la calibración tiene que ver fundamentalmente con el número de ítems que tiene el banco (o cada uno de lo bloques de ítems que se establezcan) y con el modelo de TRI que se va a aplicar (los modelos con más parámetros requieren tamaños muestrales mayores). Una de las ventajas del modelo de Rasch es que exige un tamaño muestral sensiblemente inferior a otros modelos (con 200 sujetos puede ser suficiente). Renom y Doval (1999) comentan que suele aceptarse como mínimo un tamaño muestral de 500 personas por cada bloque de ítems en que se divida el banco en el diseño de anclaje (véase el subapartado siguiente). Un tamaño insuficiente puede dar lugar a estimaciones de los parámetros de los ítems con alto nivel de imprecisión. En el caso

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

35

de los TAIs, por ejemplo, la sobrestimación de los parámetros de discriminación de ciertos ítems puede dar lugar a medidas sobrestimadas de precisión. De todas formas, siempre pueden plantearse estudios de simulación para determinar los niveles de error y sesgo en la estimación de los parámetros que se obtienen con un banco concreto y ciertas condiciones muestrales particulares (tamaño, distribución del nivel de rasgo, etc.). A veces, las condiciones reales llevan, por ejemplo, a calibrar mediante el modelo 3P un banco de 164 ítems de razonamiento matemático en una muestra de 200 sujetos (Zickar, Overton, Taylor y Harms, 1999), ya que el TAI correspondiente se aplicaba con objetivos de selección de programadores informáticos en una empresa de servicios financieros. Dada la escasez del tamaño muestral, estos autores procedieron mediante simulación a calibrar el banco bajo dos condiciones muestrales distintas (200 y 1000 sujetos simulados), comprobando que bajo ambas condiciones los niveles de precisión y sesgo que proporcionaba el TAI resultaban comparables. Por poner otro ejemplo, los estudios de calibración del banco de ítems del CAT-ASVAB, aplicando los desarrollos del modelo 3P, se realizaron a partir de las respuestas de 1500 sujetos por ítem. b) Diseño de anclaje y equiparación de parámetros El elevado número de ítems que contienen los bancos hace muchas veces inviable su aplicación completa a los mismos sujetos para realizar la calibración. Una solución posible a este problema sería aplicar subconjuntos diferentes de ítems a muestras distintas de sujetos, y proceder por separado a la calibración de esos tests. Ahora bien, si no se ha fijado la escala de medida para los niveles de rasgo θ (su origen y su unidad de medida) los parámetros que se estimen para los ítems no estarán expresados en la misma escala de medida. Para resolver este inconveniente, suele establecerse un diseño de anclaje cuya versión más común consiste en dividir el banco en diversos tests diferentes que tienen un conjunto de ítems en común (denominado como test de anclaje). Los diferentes tests serán aplicados a muestras diferentes de sujetos. Por ejemplo, si el banco está formado por 100 ítems pueden elaborarse 2 tests (X, aplicado en

36

TESTS ADAPTATIVOS INFORMATIZADOS

la muestra 1, e Y, aplicado en la muestra 2) de 60 ítems, cada uno con 40 ítems diferentes y 20 que son comunes a ambos (test de anclaje -V-). Se trata de que el test de anclaje sea representativo del banco completo (v.g. en cuanto a dificultad prevista o en relación a los subdominios que representan) y que suponga alrededor del 20% del número de ítems que tienen los diferentes tests a equiparar (véase Navas, 1996). Dado que los ítems que componen el test de anclaje V se han aplicado a muestras diferentes, el proceso de equiparación de parámetros de los ítems más extendido consiste en seguir el procedimiento siguiente: a) Por tratarse de los mismos ítems, las estimaciones de dificultad de los ítems de V habrán de estar relacionadas linealmente. Por tanto, podremos expresar la dificultad de un ítem en un grupo en función de la dificultad que ha correspondido a ese mismo ítem en el otro grupo, mediante la ecuación:

b2 = d + kb1 donde b1 y b2 son las estimaciones de los parámetros de dificultad de los ítems que forman el test de anclaje V obtenidas en el grupo 1 y 2, respectivamente. A partir de las dificultades de los ítems de V en los dos grupos se obtienen las constantes k y d. Una posibilidad es tomar como valores de k y d los coeficientes de la ecuación de regresión lineal que mejor predice las dificultades en el grupo 2 partir de las del grupo 1. Otra posibilidad (Muñiz, 1997, pag. 154 y ss) es aplicar las siguientes expresiones:

k=

Sb ( 2 ) Sb (1)

siendo el numerador la desviación típica de los parámetros de dificultad de los ítems que forman V en el test Y (aplicado al grupo 2), y el denominador la correspondiente en el test X (aplicado al grupo 1).

d = −k b1 + b2

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

37

donde b1 y b2 son, respectivamente, las medias de los parámetros de dificultad de los ítems de anclaje obtenidas en los tests X e Y. b) Una vez transformadas las estimaciones de dificultad de los ítems de anclaje del grupo 1 a la métrica del grupo 2, mediante la misma ecuación pueden transformarse las estimaciones de dificultad del resto de ítems (en nuestro ejemplo, 40) aplicados al grupo 1, a la métrica establecida como definitiva. c) Si se han aplicado el modelo 2P o el modelo 3P, la transformación para las estimaciones de los parámetros de discriminación es:

a2 =

a1 k

Los parámetros de pseudoazar no necesitan transformación. Aunque nuestro ejemplo se limita a establecer únicamente dos bloques de ítems, en situaciones operativas con bancos muy grandes (por ejemplo en el caso del banco inicial que soporta el CATASVAB) se establecen hasta más de 40 bloques distintos de ítems con tests de anclaje encadenados. El banco de matemáticas del sistema CARAT se dividió en 134 bloques. Por otra parte, cuando un TAI tiene versiones iniciales en lápiz y papel, suelen establecerse diseños de anclaje para equiparar sus estimaciones de rasgo; es decir, para expresar las estimaciones del TAI en la misma escala en que se expresaban las estimaciones en el test convencional. En el caso del CAT-ASVAB, por ejemplo, se usó el método de equipercentiles basado en las puntuaciones directas, que era la escala del test de lápiz y papel de partida.

38

TESTS ADAPTATIVOS INFORMATIZADOS

c) Modelo de TRI Aparentemente, el modelo 3P siempre sería preferible, en la medida que es el que permite mayor flexibilidad para dar cuenta de los datos empíricos. Sin embargo, esto no siempre resulta así de claro porque, entre otras cosas, la cantidad de parámetros que se tienen que estimar en este modelo (3*Nº de ítems) requiere tamaños muestrales mucho más grandes que, por ejemplo, el modelo 1P. De hecho, bastantes de los TAIs operativos que más se usan (v.g. el CAT-GRE o pruebas adaptativas para la certificación de la profesión de especialistas médicos) se fundamentan en bancos de ítems calibrados mediante el modelo de Rasch. El sistema MATHCAT emplea el modelo logístico de dos parámetros, ya que dispone de un procedimiento de respuesta construida (teclear una solución numérica) donde es mínima la probabilidad de acierto aleatorio. Una vez aplicado el banco, algunos estudios preliminares pueden ayudarnos a decidir sobre el modelo de TRI más apropiado. Por ejemplo, obteniendo las tasas de acierto de los sujetos con bajo nivel de rasgo en los ítems más difíciles podemos tener información sobre el grado en que se han producido aciertos por azar (lo cuál podría aconsejar la aplicación del modelo 3P). Estudiando la variabilidad de los índices clásicos de discriminación de los ítems, relacionados con sus parámetros aj, podemos obtener una información inicial sobre la viabilidad del modelo 1P. Suele ser frecuente en estas fases iniciales de análisis de ítems obtener los indicadores psicométricos clásicos y, por ejemplo, eliminar los que obtienen correlaciones biseriales bajas con las puntuaciones directas en el total de la prueba. De cualquier forma, existen indicadores estadísticos de bondad de ajuste que pueden aplicarse para tomar la decisión sobre los ítems a eliminar y sobre el modelo a elegir. d) Ajuste al modelo Como ya dijimos, una de las principales ventajas de la TRI en relación a la TCT es que puede contrastarse el grado de ajuste de los modelos a los datos empíricos. En este sentido, las principales comprobaciones que deben hacerse con el banco de ítems elaborado

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

39

inicialmente tienen que ver con: a) el grado de cumplimiento del supuesto de unidimensionalidad, b) el grado de invarianza de los parámetros (de los sujetos y de los ítems) estimados, y c) el grado en que el modelo predice los resultados empíricos observados. Respecto al tema de la unidimensionalidad, Wise y Kingsbury (2000) recuerdan muy apropiadamente que un banco no tiene una dimensionalidad determinada, sino que esta es una cualidad de las respuestas emitidas por las muestras de sujetos que lo responden, y por tanto puede variar de una muestra a otra. Por tanto, el grado de unidimensionalidad de un banco debe analizarse cuando se diseña por primera vez, cuando se aplica a muestras diferentes de la inicial y, desde luego, cuando se añaden nuevos ítems. En el apartado 2.2 hemos visto algunos de los procedimientos más utilizados para evaluar el grado de unidimensionalidad. En cuanto a la invarianza de los parámetros, pueden realizarse dos comprobaciones distintas: a) En relación a la invarianza de las estimaciones de θ, podemos obtener la correlación entre los niveles de rasgo que se estiman para toda la muestra de sujetos con dos submuestras distintas de ítems (v.g. los fáciles en el primer subtest y los difíciles en el segundo). La correlación entre ambas estimaciones debería ser próxima a 1. b) En cuanto a la invarianza de las estimaciones de los parámetros de los ítems, puede procederse a la calibración del banco en dos submuestras distintas (v.g. una formada por los sujetos de menos nivel y la otra por los sujetos con más elevadas estimaciones de rasgo). Si aplicamos el modelo 1P, la correlación entre los valores bj estimados en ambas submuestras debería ser próxima a 1. En realidad, la invarianza de los parámetros es una propiedad derivada de un buen ajuste del modelo. Se han propuesto indicadores estadísticos de bondad de ajuste para comprobar el grado en que cada ítem individualmente o el banco de ítems al completo se ajustan a un modelo determinado. Uno de los procedimientos más comunes (Bock, 1972; descrito en Muñiz, 1997, pp. 73 y ss) consiste en

TESTS ADAPTATIVOS INFORMATIZADOS

40

comparar las CCI empíricas y teóricas, siguiendo el siguiente procedimiento: a) Dividir el continuo de rasgo θ en “k” intervalos o categorías diferentes. b) Obtener la probabilidad teórica P(θj) asociada al punto medio del intervalo que predice el modelo correspondiente. c) Obtener la proporción empírica de aciertos - Pe(θj)- de cada una de las categorías. d) A partir de los datos anteriores, calcular el valor que asume el estadístico: k

Q=∑ j =1

[

n j P(θ j ) − Pe (θ j )

P(θ j )[ 1 − P(θ j )

]

2

]

con distribución Chi-cuadrado con k-s grados de libertad, siendo s el número de parámetros del ítem según el correspondiente modelo TRI. Los valores de Q superiores a los valores críticos tabulares correspondientes indicarán un desajuste estadístico entre el modelo y los datos empíricos en el ítem. Si sumamos los n valores Q de un banco de ítems, obtendríamos un indicador global de ajuste con distribución Chi-cuadrado con[(n-1)(k-s)] grados de libertad. e) Software Quizás el programa para la estimación de parámetros más empleado en la actualidad sea la versión para Windows de BILOG (Mislevy y Bock, 1990) que emplea el método de máxima verosimilitud marginal y los métodos bayesianos EAP y MAP para estimar los parámetros de los 3 modelos logísticos. ASCAL y RASCAL (Assesment Systems Corporation, 1994) permiten realizar, respectivamente, una estimación pseudobayesiana según los modelos 2P y 3P (ASCAL) y 1P (RASCAL), de tal forma que combina una estimación de máxima verosimilitud conjunta con el procedimiento

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

41

bayesiano MAP para la estimación de los niveles de rasgo, asumiendo su distribución normal en la población. MULTILOG (Thissen, 1991) y PARSCALE (Muraki y Bock, 1996) realizan las estimaciones de los tres modelos logísticos y las de la mayoría de los modelos politómicos; el primero permite la aplicación de modelos politómicos nominales y ordinales, y realiza una estimación máximo verosímil marginal para los parámetros de los ítems y permite la estimación bayesiana para los parámetros de rasgo; el segundo realiza una estimación de máxima verosimilitud marginal para los parámetros de los ítems con formato de respuesta ordenada. Existen programas específicos de estimación para el modelo de Rasch (v.g. WINSTEPS, FACETS,...) que proporcionan información más detallada sobre las propiedades de los parámetros estimados.

3.4.- Propiedades psicométricas Hemos indicado que, en principio, cuanto mayor sea el número de ítems que incluye el banco mayor eficiencia tendremos en la aplicación del TAI. Si el rango de los niveles de rasgo de la muestra es amplio, conviene disponer de un banco cuyos ítems sean heterogéneos en sus parámetros de dificultad (idealmente, la distribución del número de ítems para cada valor de dificultad debería ser uniforme) y tengan parámetros de discriminación elevados (con un número muy elevado de ítems para discriminaciones superiores a 1). Por el contrario, si los objetivos de la aplicación son selectivos, conviene que existan muchos ítems de dificultad apropiada para el nivel de rasgo donde se situará el punto de corte (no puede ocurrir, por ejemplo, que existan pocos ítems difíciles si se va a admitir aproximadamente al 2% de los candidatos que se presentan a un proceso de selección). La representación gráfica de la función de información será ilustrativa de la precisión que tendrá el banco para diferentes niveles de rasgo. Si, como suele ocurrir, la distribución de los parámetros de dificultad no es uniforme (dado que se dispone de pocos ítems adecuados para los niveles extremos de rasgo), es muy probable que las estimaciones de dichos niveles extremos se realicen con más imprecisión que la asociada a los niveles centrales.

TESTS ADAPTATIVOS INFORMATIZADOS

42

Una parte importante de la investigación que hemos desarrollados sobre tests adaptativos y autoadaptados ha tenido su base sustantiva en un banco de ítems de vocabulario inglés, cuyas propiedades se describen en Olea, Ponsoda, Revuelta y Belchí (1996). El banco inicial estaba formado por 250 ítems, cada uno de los cuales consta de la correspondiente palabra inglesa junto a 5 alternativas de respuesta, entre las que se encuentra su traducción correcta al castellano. Se intentó incluir palabras inglesas usualmente conocidas para diversos niveles de dominio del idioma y de categorías gramaticales variadas. El banco se aplicó inicialmente, mediante soporte informático y de forma aleatoria, a una muestra de 425 personas1 de diferentes niveles educativos (desde estudiantes de educación secundaria hasta doctores). Cada persona debe seleccionar mediante el teclado la alternativa que considera como correcta y confirmar su respuesta mediante la barra espaciadora. A partir de las respuestas de esta muestra se obtuvo para cada ítem, mediante los programas ITEMAN y ASCAL (Assessment Systems Corporation, 1994): a) su índice de discriminación (correlación biserial ítem-test), b) sus parámetros de discriminación (a), dificultad (b) y pseuodoazar (c) según el modelo 3P, y c) el grado de ajuste (medida Chi-cuadrado) de los datos empíricos al modelo. La variabilidad de los índices de discriminación y la evidente posibilidad de acierto aleatorio nos hizo elegir este modelo. Se eliminaron 29 ítems por no manifestar buenos indicadores (índices de discriminación bajos o valores Chi-cuadrado muy elevados), con lo que el banco definitivo quedó constituido por 221 ítems, cuyas propiedades psicométricas fundamentales se detallan en las figuras 6, 7 y 8:

1

Reconocemos la posibilidad de cierto grado de inestabilidad de los parámetros estimados, debida a la ratio tan exigua entre sujetos e ítems y al número elevado de opciones de respuesta que éstos tienen. El tamaño muestral empleado en este trabajo no debe ser tomado como ejemplo de las necesidades muestrales que exige el modelo 3P.

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

43

Figura 6. Distribución de parámetros de discriminación 40

30

N 20

10

0 0.25

0.5

0.8

1.1

1.4

1.7

2

2.3

parámetro de discriminación (a)

Figura 7. Distribución de parámetros de dificultad 30

N

20

10

Figura 8. Información según nivel de rasgo 0 -3.2

-2.4

-1.6

-0.8

0

0.8

1.6

2.4

3.2

parámetro de dificultad (b)

Como puede observarse en la figura 6, la mayoría de los ítems tienen parámetros de discriminación aceptables (entre 0.8 y 1.5).

TESTS ADAPTATIVOS INFORMATIZADOS

44

Figura 8. Información según nivel de rasgo 60

50

información

40

30

20

10

0 -3.5

-2.5

-1.5

-0.5

0.5

1.5

2.5

3.5

niveles de rasgo

Respecto a los parámetros de dificultad (ver figura 7), la distribución de frecuencias resulta bastante uniforme, excepto para los niveles de rasgo extremadamente altos. En la Figura 8 podemos ver que la función de información no es simétrica respecto al nivel de rasgo cero, con lo que el banco resulta más informativo para los niveles medios-altos que para los medios-bajos; podemos constatar además que resulta muy informativo para los niveles centrales de rasgo (aproximadamente entre –2 y 2). En relación al parámetro de pseudoazar, la inmensa mayoría de los ítems obtuvieron un parámetro estimado entre 0.18 y 0.25, lo cuál resulta bastante coherente si recordamos que el número de opciones de respuesta de cada ítem era 5. Para comprobar el grado de unidimensionalidad del banco, se obtuvo la matriz de correlaciones tetracóricas entre los 221 ítems, con el programa PRELIS de la versión para Windows de SPSS. El primer autovalor de esta matriz representó el 25.0% de la varianza total, lo que resultó sustancialmente más elevado que la varianza explicada por el segundo autovalor (5.7%). En relación a su validez como una medida del dominio del idioma inglés, se realizaron algunas comprobaciones adicionales. En primer

CAPÍTULO 3. DISEÑO DEL BANCO DE ÍTEMS

45

lugar, en una muestra de 62 personas, las estimaciones de su nivel de vocabulario realizadas mediante el modelo 3P se correlacionaron con 3 puntuaciones del “Oxford Placement Test” (Allan, 1992): con el subtest de gramática (r=0.69), con el de “listening” (0.55) y con la puntuación total (0.76). En segundo lugar, a partir de las respuestas de la muestra de calibración, se aplicó un análisis de varianza de un factor, donde la variable independiente era el nivel educativo (1º, 2º, 3º y 4º de secundaria, estudiantes universitarios y doctores) y la dependiente, las estimaciones del nivel de vocabulario. Prácticamente todas las comparaciones de medias resultaron significativas, lo que indica la capacidad del banco para discriminar los niveles de vocabulario obtenidos en los diferentes niveles académicos.

3.5.- Mantenimiento y renovación del banco de ítems Respecto al mantenimiento, los estudios sucesivos del banco pueden llevarnos a eliminar ítems con propiedades psicométricas inadecuadas (por ejemplo, ítems desajustados al modelo de TRI empleado, otros defectuosos en su redacción o algunos escasamente discriminativos). El estudio de las tasas de exposición de los ítems (número de veces que se han presentado a diversos evaluandos) puede hacer que los responsables de la aplicación decidan posponer la presentación de ítems que aparecen en un porcentaje elevado de las aplicaciones del TAI. De cara a la renovación y ampliación del banco, en los TAIs operativos suelen incorporarse progresivamente nuevos ítems, que no se usan para estimar el nivel de rasgo de los evaluandos. La estimación de los parámetros de estos ítems nuevos se realiza mediante un procedimiento denominado como calibración online, considerando como parámetros de los sujetos las estimaciones realizadas en el TAI con los ítems antiguos y reduciendo así el problema estadístico a la estimación de los parámetros de los nuevos ítems. En el caso del CAT-ASVAB, los ítems experimentales que se incluyen en los TAIs operativos (uno sólo en cada aplicación) se incorporan al inicio del test, cuando para un sujeto se aplican ítems de

46

TESTS ADAPTATIVOS INFORMATIZADOS

diferente dificultad debido a que las estimaciones de rasgo no son precisas en las primeras fases de la aplicación, es decir, cuando se realizan con pocos ítems. También mediante este procedimiento pueden re-calibrarse los ítems originales a medida que se dispone de más respuestas a los mismos; Glas (2000) propone varios procedimientos para estudiar si los datos iniciales y los nuevos pueden ser descritos mediante el mismo modelo de TRI, es decir, si en ambos conjuntos de datos se mantienen los valores de los parámetros estimados. En el caso de TAIs que se aplican un número de veces muy elevado, y por tanto con elevado riesgo de transmisión del contenido de los ítems de una aplicación a otra, es posible establecer múltiples bancos de ítems que se van usando de forma rotatoria. Así se hace, por ejemplo, en el caso del CAT-GRE, que dispone de más de 70 bancos diferentes de ítems que se emplean de forma rotatoria en las sucesivas aplicaciones.

Capítulo 4 Algoritmos adaptativos

4.1.- Proceso de aplicación de un TAI En la actualidad la mayoría de los TAIs siguen estrategias de selección de ítems denominadas como estrategias de ramificación variable, lo que significa que se realiza una estimación del nivel de rasgo tras la respuesta a cada uno de los ítems, a partir de la cual se seleccionará el siguiente ítem a presentar. Calibrado el banco de ítems, la aplicación de un TAI requiere un algoritmo que incluya: a) un procedimiento para determinar el primer ítem a presentar, b) un método estadístico para estimar después de cada respuesta un nivel de rasgo provisional y la precisión asociada a dicha estimación, c) un algoritmo para la selección sucesiva de ítems, y d) un criterio para finalizar la presentación de ítems. El núcleo fundamental de un algoritmo adaptativo consiste en establecer la estrategia de selección progresiva de ítems que facilite una estimación precisa del nivel de rasgo con la presentación de un número reducido de ítems para cada evaluando. El proceso de aplicación de un TAI a un evaluando puede resumirse en el diagrama de flujo que muestra la figura 9. La sesión se inicia con una determinada estrategia de arranque, que consiste en establecer de alguna forma el nivel de rasgo inicial que se asigna al evaluando y que determina, por tanto, cual será el primer ítem a presentar. Después de que el evaluando responde al primer ítem, se realiza, mediante procedimientos estadísticos bayesianos o máximo-

48

TESTS ADAPTATIVOS INFORMATIZADOS

verosímiles, una primera estimación (por supuesto, muy imprecisa) de su nivel de rasgo. También se emplean procedimientos derivados de la TRI para seleccionar el segundo ítem a presentar al evaluando, considerando que sea apropiado para el primer nivel de rasgo provisional estimado. Así pues, en cada paso del proceso, se procede a la selección y presentación sucesiva de ítems, considerando el patrón de respuestas (aciertos/fallos) que se dan a los ítems precedentes para la estimación del nivel de rasgo provisional (y la precisión asociada a esta estimación) en ese momento de la aplicación del TAI. Se requiere además algún criterio para dar por terminada la secuencia de presentación de ítems, que normalmente tiene que ver con la consecución de cierto nivel de precisión o con el establecimiento de una determinada longitud del TAI. Veamos con cierto detalle algunas de las posibilidades a considerar para cada uno de estos componentes o requerimientos.

4.2.- Procedimientos de arranque Existen diversas formas de decidir cuál será el primer ítem que se presentará a un evaluando. La elección entre una u otra dependerá fundamentalmente de si se dispone o no de información previa de los evaluandos en aplicaciones previas de la prueba o en otro tipo de variables relacionadas con el rasgo que mide el TAI (v.g. curso, edad o nivel manifestado en otros tests). En el caso de que se disponga de información previa en determinadas variables, pueden considerarse como predictoras del nivel de rasgo que interesa y realizarse estimaciones mediante regresión para decidir el primer nivel que asignaremos a cada evaluando. Por ejemplo, Schoonman (1989) utiliza la estimación en el subtest “Names” de una batería adaptativa de aptitudes intelectuales (GATB) para estimar el nivel inicial en los otros tres subtests que componen la prueba (Computation, Words y Arithmetic). En el sistema CARAT (Kingsbury y Houser, 1999), si no se sabe nada del rendimiento previo del alumno, se eligen al azar los primeros ítems (entre los que tienen dificultad media para ese nivel educativo) para evitar que se repita la secuencia inicial en diferentes estudiantes; cuando se dispone de evaluación previa de los alumnos

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

49

en otros tests aplicados previamente, se realiza una estimación mediante regresión y el TAI comienza con un ítem ajustado en dificultad al nivel de rasgo estimado en la regresión; otras veces se utiliza como información previa sus calificaciones en las asignaturas que se relacionan con los diversos tests o el rendimiento medio del nivel educativo actual del evaluando. Figura 9. Diagrama de flujo de la aplicación de un TAI

50

TESTS ADAPTATIVOS INFORMATIZADOS

Cuando en el proceso de evaluación, como ocurre en muchos contextos reales, los responsables de la aplicación no tienen información relevante sobre el rendimiento previsible de los evaluandos, la estrategia de arranque puede establecerse: a) Asignando un nivel de rasgo aleatorio entre un rango de valores cercano a la media (por ejemplo, un valor seleccionado al azar entre niveles de rasgo superiores a –0.4 e inferiores a 0.4). b) Aplicando un test corto inicial, heterogéneo en dificultad y común a todos los sujetos, para estimar el nivel de rasgo inicial a partir de datos empíricos. c) Permitiendo al evaluando que elija el nivel inicial de dificultad del ítem (estrategia típica de los tests autoadaptados, que se comentarán más tarde). d) Cuando se usan métodos bayesianos de estimación de los niveles de rasgo, puede establecerse como nivel inicial la media de la distribución a priori. e) En algunos tests de certificación se inicia el TAI con un ítem cuya dificultad se encuentra próxima al nivel θ que delimita el punto de corte (Bergstrom y Lunz, 1999). Se establece también una restricción que consiste en presentar los siguientes 9 ítems con una dificultad que no se separe en más de 0.10 logits del punto de corte establecido. f) La versión adaptativa del GRE comienza con ítems fáciles, dado que sus responsables quieren que los estudiantes acierten los primeros ítems para incrementar su motivación en la ejecución del resto de ítems. g) En la aplicación simulada de ciertos TAIs se elige al azar el primer ítem entre los 10 más informativos para θ = -1 (Yi, 2002). Algunos de estos métodos pueden tener incidencia en la estimación final del nivel de rasgo, fundamentalmente si el nivel inicial asignado está lejos del nivel verdadero del evaluando. En estos casos, con una persona en concreto, pueden producirse secuencias iniciales de errores (o aciertos) que inciden en los niveles de rasgo

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

51

provisionales estimados tras responder a los primeros ítems de la prueba. Esto tendría incidencia en el nivel de rasgo definitivo estimado si se aplican pocos ítems (alrededor de 10 como criterio de parada), mientras que se consigue recuperar el nivel de estimación al nivel paramétrico si el TAI finaliza después de aplicar unos 20 ítems (van der Linden y Pashley, 2000).

4.3.- Métodos de estimación del nivel de rasgo Una vez que el evaluando responde al primer ítem, se requiere aplicar un método estadístico para estimar un primer nivel provisional de rasgo. En tests convencionales, existen programas de ordenador para estimar el nivel de rasgo, que se aplican después de obtener el patrón de respuesta a los ítems de cada evaluando. En el caso de un TAI se requiere la programación específica del método estadístico de estimación de los niveles de rasgo, ya que dicha estimación hay que realizarla tras la respuesta a cada ítem, y determina también el siguiente ítem a seleccionar. En la aplicación de un TAI debemos estimar progresivamente niveles de rasgo, dando por conocidos los parámetros de los ítems, lo cual tiene también algunos problemas que pasamos a comentar, junto a algunas de las soluciones propuestas. El método de máxima verosimilitud, como se dijo, no proporciona estimaciones finitas mientras un evaluando tiene un patrón constante de respuestas (todo aciertos o todo fallos), lo que puede producirse en los primeros ítems que se le presentan. A este problema se han dado varias soluciones: a) Herrando (1989) propone que se considere, previamente a la estimación del nivel de rasgo tras la respuesta al primer ítem, que el evaluando ha acertado un ítem muy fácil (b=-4) y que ha fallado otro muy difícil (b=4). De esta forma, incorporando estas respuestas a dos ítems ficticios, conseguiremos tener variabilidad en las respuestas desde el inicio de la prueba.

52

TESTS ADAPTATIVOS INFORMATIZADOS

b) Dodd (1990) propone obtener las sucesivas estimaciones del nivel de rasgo mediante las fórmulas que siguen a continuación, hasta que sea posible estimar mediante el procedimiento de máximo verosimilitud. Se parte de una estimación de nivel de rasgo inicial. El primer ítem será el más apropiado para dicha estimación inicial. Si el ítem es acertado, se actualiza el nivel de rasgo mediante la expresión:

b − θˆi θˆi +1 = θˆi + M 2 Si el primer ítem es fallado, la expresión a aplicar es:

b − θˆ θˆi +1 = θˆi + m i 2 donde bM y bm son, respectivamente, los parámetros de dificultad mayores y menores de los ítems que componen el banco. Las expresiones se siguen aplicando hasta que se obtiene un vector de respuestas que contenga tanto aciertos como errores. c) Revuelta y Ponsoda (1997) modifican el procedimiento de Dodd (1990) y proponen que el valor de rasgo actualizado no sea el punto medio entre el último valor de rasgo y el parámetro de dificultad, sino la media o la mediana de una distribución normal truncada en esos dos valores. De esta forma se tiene en cuenta la distribución probable de los niveles de rasgo en la población. d) Yi (2002) aplica una estimación bayesiana EAP hasta que el vector de respuestas tiene aciertos y errores; a partir de ese momento aplica un método de máxima verosimilitud. El problema que tiene el método de máxima verosimilitud con los patrones constantes de respuesta podría resolverse también

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

53

mediante la aplicación de métodos bayesianos. Ahora bien, tampoco estos carecen de problemas: a) Uno importante es que la estimación del nivel de rasgo no depende únicamente del rendimiento de la persona, sino de los valores de media y varianza que se asignan a la distribución a priori del rasgo en la población. Desde un punto de vista aplicado, este hecho ha dado lugar a demandas legales en Estados Unidos (Wise y Kingsbury, 2000). b) Desde un punto de vista teórico, dependiendo de la distribución a priori establecida puede darse una distribución posterior multimodal, con lo que la estimación bayesiana MAP puede referirse a un máximo local. c) Por otra parte, tenemos el problema del sesgo de las estimaciones que, aunque lo trataremos con más extensión en los apartados finales de este texto, avanzamos someramente en este momento. Normalmente, el sesgo en las estimaciones es tanto mayor cuanto menor es la longitud del test, con lo cuál podría representar un problema importante si, como es el caso en los TAIs, se aplica un número reducido de ítems. Por otra parte, en TAIs operativos, que establecen un tiempo límite global para realizar la prueba, ocurre un problema con los sujetos que se dejan ítems sin responder. En estos casos, los procedimientos bayesianos sesgan hacia adentro la estimación, es decir, proporcionan una estimación con cierta regresión hacia la media de la distribución a priori del rasgo (lo cuál puede favorecer a los sujetos de bajo nivel y perjudicar a los de alto nivel). De este problema no escapan los procedimientos de máxima verosimilitud, si bien la dirección del sesgo es la contraria.

54

TESTS ADAPTATIVOS INFORMATIZADOS

4.4.- Algoritmos para la selección de ítems Ya desde que se decide arrancar el TAI mediante un procedimiento concreto, entra en funcionamiento uno de los componentes fundamentales del algoritmo, que consiste en establecer la forma de elegir el siguiente ítem a presentar después de estimar el nivel de rasgo provisional de un evaluando. Mientras éste lee un ítem y piensa sobre su respuesta, el algoritmo realiza los cálculos oportunos para determinar cuál será el siguiente ítem a administrar si se acierta o falla el ítem actual. De esta forma, el tiempo transcurrido entre la emisión de una respuesta y la presentación del siguiente ítem resulta imperceptible para el sujeto. Los procedimientos de selección de los ítems han experimentado importantes mejoras con el transcurso de los años. Los primeros TAIs establecían procedimientos de selección de ítems bastante rígidos (ver el apartado 1.2). Prácticamente cualquier procedimiento actual de selección de ítems sigue una estrategia de nivel múltiple con ramificación variable, que permite actualizar el nivel de rasgo estimado para una persona después de responder progresivamente a los ítems que se le presentan. Para un nivel de rasgo estimado provisionalmente se selecciona el siguiente ítem mediante alguno de estos dos criterios: a) El criterio de máxima información consiste en seleccionar, del banco de ítems disponible en un momento dado de la aplicación, el ítem con mayor nivel de información (ver apartado 2.4) para el nivel de rasgo actual estimado. En el caso de estimar el nivel de rasgo por el método de máximaverosimilitud, la información que suministran los ítems tiene una estrecha relación con la precisión con la que medimos el nivel de rasgo. Supongamos que el TAI ha administrado cinco ítems; habrá entonces 32 = 25 posibles patrones de respuesta (u1, u2, .. u5). En 30 patrones se podrá obtener el estimador máximo-verosímil. No se podrá obtener en los patrones que sólo contengan aciertos o errores. Si conociésemos el verdadero nivel de rasgo de la persona

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

55

podríamos calcular la varianza del estimador θˆ del siguiente modo: 30

V = ∑ P (u1 , u 2 ,..u 5 θ )(θˆ − θ ) 2 , i =1

donde θ es la media de los estimadores, es decir: 30

θ = ∑ P (u1 , u 2 ,..u 5 θ )θˆ i =1

El TAI, tras el quinto ítem, ofrecerá como varianza del estimador el inverso de la información que suministran los cinco ítems para el último nivel de rasgo estimado; este valor es una aproximación a la varianza real, V. De haber administrado 50 ítems, cabría un razonamiento similar. El número de posibles vectores de respuesta sería mucho mayor 250, solamente en (250 – 2) de los cuales podrá obtenerse el estimador máximo verosímil. La varianza del estimador sería la varianza de estos posibles valores. Aplicado el test a una persona, dará lugar a un vector de respuestas. El recíproco de la información suministrada por los 50 ítems para la última estimación del nivel de rasgo será la estimación de la varianza del estimador θˆ . Cuanto mayor sea el número de ítems, mejor estimación será de la varianza real el inverso de la información suministrada por el conjunto de ítems administrado. Esto significa que si aplicamos este criterio de selección de ítems, reduciremos progresivamente lo máximo posible la incertidumbre sobre el nivel verdadero de rasgo. Si el banco se ha calibrado mediante el modelo 1P, el ítem elegido será el que tenga un parámetro de dificultad más próximo al nivel de rasgo estimado tras la última respuesta del sujeto. Si se ha empleado el modelo 3P, además de la proximidad entre

56

TESTS ADAPTATIVOS INFORMATIZADOS

ambas estimaciones incidirá en la información el valor de los parámetros de discriminación y pseudoazar. b) El criterio de máxima precisión esperada, también denominado como método de Owen (1975), es un método de selección bayesiano que consiste en elegir el ítem que proporciona una varianza menor de la distribución posterior del nivel de rasgo. Después de que el evaluando responde a una secuencia de k ítems disponemos de la distribución posterior de θ [es decir, P(θ|u)]. En este punto se estima la precisión (varianza de la distribución posterior) que se conseguiría si se acertara o fallara cualquiera de los ítems que quedan disponibles en el banco, seleccionando el que proporcione una menor varianza, es decir, una mayor precisión esperada. En este caso ya no se busca el ítem que más contribuye a la precisión de la estimación de un nivel concreto de rasgo, sino el más apropiado para toda una distribución de estimaciones. Desde un punto de vista aplicado, el método de máxima información ha sido el más empleado, entre otras cosas porque tiene la ventaja, cada vez menos importante dada la potencia de los ordenadores personales actuales, de que permite establecer tablas de información calculadas de antemano, lo cuál contribuye a agilizar la selección del siguiente ítem. Tiene sin embargo el inconveniente de “quemar” ítems muy discriminativos entre los primeros que se presentan, cuando el nivel de rasgo estimado puede estar alejado del parámetro de rasgo del sujeto. Esto es algo importante, ya que aparentemente estamos seleccionando ítems de alto poder discriminante, cuando en realidad no es así (lo que se hace es emplear ítems que serían apropiados para otros niveles de rasgo). ¿Por qué entonces agotar ítems que pueden no ser informativos para el nivel de rasgo real del evaluando y podrían sin embargo serlo para otros sujetos? Dentro de las líneas actuales de investigación en TAIs abordaremos algunas alternativas para resolver estos problemas. El criterio de máxima precisión esperada se fundamenta en el supuesto de distribución normal a priori de los niveles de rasgo en la

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

57

población. Computacionalmente, este método bayesiano es mucho más exigente como procedimiento de selección de ítems. Esto ha llevado a utilizar procedimientos híbridos de estimación-selección, como el empleado en el CAT-ASVAB, que realiza una estimación bayesiana del nivel de rasgo (con objeto de poder realizar estimaciones finitas ante patrones constantes de respuesta) pero selecciona los ítems según el principio de máxima información. Parece (Segall y Moreno, 1999) que el procedimiento híbrido proporciona mayor precisión y eficiencia (requiere menos ítems para alcanzar un determinado nivel de precisión) que cualquiera de los dos procedimientos aplicados individualmente. Un problema común a ambos métodos es que presentan muchas veces los ítems más discriminativos (y de menor parámetro de pseudoazar cuando se emplea el modelo 3P). Esto puede tener como consecuencia que estos ítems con mayores tasas de exposición se difundan entre los evaluandos, con lo cual se pone en riesgo la seguridad del test y por tanto la validez de las puntuaciones estimadas a partir de las respuestas de los evaluandos (Wise y Kingsbury, 2000). Este riesgo exigirá el establecimiento de métodos para el control de la exposición, que actualmente representa un requisito de cualquier TAI que se aplique en contextos de evaluación un número elevado de veces. Según datos recientes (Hornke, 2000) existen bancos donde más del 80% de los ítems prácticamente no se seleccionan en ninguna de las aplicaciones (piénsese en los costes económicos asociados a su elaboración), mientras que otros se presentan a más de la mitad de los evaluandos que reciben el TAI (lo cuál incrementa el riesgo de que se difundan para posteriores aplicaciones). No debe olvidarse que, dada su escasa longitud, el efecto en ganancia ilegítima que tiene conocer la respuesta correcta de un ítem es mucho mayor en un TAI que en un test convencional. Hoy en día, cualquier algoritmo de selección de ítems de los TAIs operativos incorpora un procedimiento para reducir la tasa de exposición de los ítems aplicados más frecuentemente e incrementar la de los infrautilizados. Es importante considerar que todos los procedimientos establecidos para controlar la exposición tienen alguna repercusión en la precisión de las estimaciones, ya que tendrán

58

TESTS ADAPTATIVOS INFORMATIZADOS

como consecuencia no seguir estrictamente el método de la máxima información. Algunos de los métodos de control de la exposición que más se aplican en los TAIs operativos son los siguientes: a) Método 5-4-3-2-1 (McBride y Martin, 1983): consiste en administrar como primer ítem uno al azar entre los 5 más informativos; como segundo, otro entre los 4 más informativos; y así hasta el quinto, a partir del cuál se sigue el criterio de máxima información. b) Método “Randomesque” (Kingsbury y Zara, 1989): la selección se realiza siempre al azar entre los 5 ítems más informativos. c) Método de Sympson-Hetter (Sympson y Hetter, 1985): quizás el procedimiento más utilizado hasta el momento, consiste en asignar a cada ítem un parámetro “ki”, que varía entre 0 y 1, para controlar su tasa de exposición. Este valor se obtiene, antes de la aplicación del test, mediante un estudio de simulación que pone en relación la tasa de exposición permitida –r- (prefijada según los intereses de la aplicación) y la tasa obtenida para cada ítem mediante la simulación de respuestas de una población amplia (ti). Si ti>r, entonces ki=r/ti; de lo contrario, ki=1. Durante la aplicación del TAI se selecciona el ítem más informativo para el último nivel de rasgo estimado; se elige al azar un valor aleatorio entre 0 y 1; si este valor es menor de “ki” se administrará el ítem; de lo contrario, se sigue con el siguiente ítem más informativo repitiendo el procedimiento. La versión experimental del CAT-ASVAB empleaba el método 5-4-3-2-1. Posteriormente se implementó el método de SympsonHetter, que precisamente se propuso en el contexto de esta prueba para resolver algunos de los problemas que manifestaba el método anterior. En el CAT-GRE se utilizó primero el método Randomesque (seleccionando al azar entre los 10 ítems más informativos) y con posterioridad se ha optado por el de Sympson-Hetter. Algunos TAIs

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

59

para objetivos de certificación seleccionan al azar cada ítem entre los más informativos para un determinado rango de niveles de rasgo (Bergstrom y Lunz, 1999). En el caso de TAIs para objetivos de licenciatura y certificación, Way (1998) propuso que: a) el banco tenga 8 veces más ítems que los que se van a aplicar en cada test, b) como promedio, cada ítem no se presente a más del 15% de los candidatos, c) como promedio, para cualquier par de candidatos, no deben presentarse más de un 20% de ítems comunes, y d) para cualquier par de personas con similar nivel de rasgo, no deben solaparse más de un 40% de los ítems. Los requerimientos que acabamos de exponer precisan la disponibilidad de métodos condicionados de control de la exposición (véase Hontangas, Ponsoda, Olea y Abad, 2000). Ninguno de estos métodos carece de dificultades, pero la más importante es que controlan la tasa máxima de exposición pero no incrementan de forma apreciable la tasa de exposición de los ítems menos discriminativos. En apartados posteriores veremos algunas modificaciones interesantes para resolver estos problemas. Además, alguno de los TAIs operativos incorporan restricciones adicionales en el algoritmo de selección de los ítems, que pueden ser de varios tipos. Unas tienen que ver con balancear los contenidos que deben incluirse en cualquier aplicación (de forma que se preserve la validez de contenido del test) y el formato de los ítems (para asegurarse que todos los evaluandos reciben ítems con formato similar). Otras restricciones evitan que se presente a la misma persona ítems relativos al mismo contenido y que por tanto pueden colisionar con el principio de independencia local. En definitiva, a los criterios de selección de ítems estrictamente estadísticos se han añadido otro tipo de criterios y restricciones, que tienen mucho que ver con que los clientes de los TAIs (las instituciones o empresas donde se van a aplicar) los acepten como pruebas justas y de validez aparente. Entre los procedimientos más clásicos citaremos los siguientes: a) Partición del banco. Uno de los primeros procedimientos para incorporar restricciones no estadísticas en el algoritmo de selección de ítems fue propuesto por Kingsbury y Zara (1989), quienes dividieron un banco según varias categorías

60

TESTS ADAPTATIVOS INFORMATIZADOS

de contenido y establecieron un algoritmo para elegir el ítem más informativo entre la categoría más numerosa de ítems. Supongamos que cada ítem pertenece a una de cuatro categorías de contenido y que queremos que el test presente un 30% de los ítems de cada una de de las tres primeras categorías y un 10% de la cuarta. Antes de seleccionar un ítem, el test obtendría el porcentaje de ítems administrados de cada categoría y determinaría en qué categoría la diferencia entre el porcentaje de ítems administrados y el de referencia es mayor. El siguiente ítem a administrar seria el ítem de la categoría seleccionada que proporcionase la máxima información para la estimación del nivel de rasgo actual. b) Método de las desviaciones ponderadas. Stocking y Swanson

(1993) propusieron un procedimiento para formular matemáticamente las restricciones establecidas por los expertos (por ejemplo, un límite mínimo y máximo de ítems para cada categoría de contenido) junto a otras restricciones estadísticas (por ejemplo, límites para la función de información). Cuando va a seleccionarse un ítem se considera el valor que proporciona cada ítem disponible en el banco en una función matemática donde se pondera de manera diferente las desviaciones respecto a los límites establecidos para cada restricción (ver más detalles en Olea, Ponsoda, Revuelta, Hontangas y Suero, 1999). c) Testlets. Wainer y Kiely (1987) establecieron unidades de

análisis alternativas a los ítems, que consistían en grupos de ítems referidos a un mismo contenido (por ejemplo, preguntas sobre comprensión lectora referidas a un mismo texto). Será la selección de testlets, y no de ítems aislados, la que se adaptará al nivel del evaluando. d) Tests multietápicos informatizados. Propuestos por Lord

(1980) representan una extensión de la estrategia de dos niveles a k-niveles, de tal forma que en los niveles últimos se ubican tests, cada uno de los cuales es apropiado para niveles

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

61

homogéneos de rasgo. Un ejemplo de esta estrategia se aplica en USA para la evaluación de conocimientos de medicina en los exámenes de certificación de esta profesión, mediante el denominado como sistema CAST (Luecht y Nungester, 2000).

4.5.- Procedimientos de parada El algoritmo debe incluir también un procedimiento para dar por concluida la prueba; es decir, para considerar que una estimación provisional del nivel de rasgo es la que se va a tomar como estimación definitiva para el evaluando. Las posibilidades que tenemos son cuatro: a) el criterio de longitud variable, que consiste en detener la aplicación cuando el error típico de medida desciende de un valor predeterminado, b) el criterio de longitud fija, que consiste en parar el test cuando se presentan un número determinado de ítems, c) hacerlo mediante un criterio que combina los dos precedentes, y d) un procedimiento especial de longitud variable, que consiste en dejar de presentar ítems cuando el nivel de rasgo estimado se aleja significativamente del punto de corte establecido. La elección de uno u otro procedimiento depende fundamentalmente de los objetivos de la aplicación y de las propiedades psicométricas (distribuciones de los correspondientes parámetros de los ítems) que tiene el banco. Por ejemplo, si el objetivo es disponer de una primera evaluación de conocimientos en el acceso a un determinado nivel educativo, un criterio de longitud fija puede tener la ventaja de emplear en la sesión de evaluación un tiempo parecido para todos los evaluandos (Wise y Kingsbury, 2000). El problema de este procedimiento es que dispondremos de estimaciones de rasgo con diferentes niveles de precisión; normalmente, dado que las funciones de información de los bancos de ítems no son uniformes (se alcanza menor información para los niveles de rasgo muy bajos o muy altos, dado que es difícil elaborar muchos ítems con alto valor discriminante para estos niveles), las estimaciones de los evaluandos con niveles de rasgo extremos se realizarán con menor precisión. Esto será grave cuando el banco

62

TESTS ADAPTATIVOS INFORMATIZADOS

disponga de pocos ítems informativos para niveles de rasgo muy bajos o muy altos. El procedimiento de longitud variable tiene la ventaja de proporcionar estimaciones con la misma precisión, pero tiene la desventaja de que el test tiene diferente longitud para los evaluandos, lo cuál puede no ser bien percibido por aquellos que reciben pocos ítems. Suele ser el procedimiento que se elige cuando las consecuencias de la evaluación son especialmente importantes para las personas; por ejemplo, en procesos de selección de personal o de evaluación de conocimientos para obtener la licenciatura o la certificación para desempeñar una determinada profesión. Una manera de preservar cierto nivel de precisión sin que la sesión se haga excesivamente larga consiste en emplear un criterio mixto. El sistema CARAT utiliza un criterio de parada de este tipo, que consiste en detener el test cuando se responden 22 ítems o cuando el error de medida desciende de 0.4. En algunos exámenes de certificación se ha decidido aplicar un criterio de parada de longitud fija, ya que candidatos que no pasaban la prueba, a los que se presentaban pocos ítems (según un criterio de longitud variable), sentían que no habían tenido las suficientes oportunidades para manifestar su competencia (Bergstrom y Lunz, 1999). En otros, sin embargo, se usa un criterio de longitud variable estableciendo un mínimo de ítems a aplicar (60 en algunos casos) y terminando la prueba cuando el nivel de rasgo estimado cae fuera del intervalo de confianza establecido para el punto de corte. Este último criterio de parada se emplea en tests referidos al criterio, donde los objetivos de la aplicación tienen que ver con la clasificación de los sujetos en uno de dos grupos (apto-no apto, aprobado-suspenso, admitido-no admitido, etc.). Los evaluandos que tienen un nivel de rasgo próximo al punto de corte establecido por los especialistas necesitarán responder a un mayor número de ítems para así poder determinar con cierto nivel de confianza que su estimación está por encima o por debajo de dicho punto de corte. Por ejemplo, en el MATHCAT se establecen dos puntos de corte (θ = -0.544 y θ = 0.021) para clasificar a los evaluandos en uno de los 3 niveles de conocimiento establecidos; el TAI finaliza cuando el intervalo de

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

63

confianza (con probabilidad 0.90) del nivel de rasgo estimado no incluye ninguno de los puntos de corte. En relación con el criterio de parada empleado, pueden surgir problemas de sesgo en la estimación si un evaluando deja un número elevado de ítems sin responder en el tiempo total asignado para la sesión de evaluación. En el caso del CAT-ASVAB, donde se realizan estimaciones bayesianas del nivel de rasgo, se ha propuesto un procedimiento para corregir este problema en función de la cantidad de ítems que se dejan sin responder (ver Segall y Moreno, 1999). En la experiencia con el CAT-GRE se ha decidido estimar los niveles de rasgo cuando se responde al menos al 80 % del número total de ítems establecido para una sesión concreta de evaluación (Mills y Steffen, 2000); además, se han ensayado diferentes formas para puntuar los tests incompletos: a) puntuar de modo que se penalice la cantidad de ítems sin contestar, b) considerar que los ítems no alcanzados se fallan, c) suponer que se aciertan por azar, o d) asumir que se aciertan según las predicciones del modelo. Los responsables de esta prueba han optado por el primer procedimiento, avisando previamente a los alumnos, dado que consideran que es mejor animar a completar la prueba en el tiempo prefijado que emplear cualquier procedimiento corrector.

4.6.- Requisitos informáticos La aplicación de los TAIs puede hacerse en ordenadores que trabajan de forma independiente, en un sistema de red local o, lo que es posible desde hace poco tiempo, a través de Internet. En el primer caso, cada ordenador debe disponer del software completo que se necesita para una sesión de evaluación. En caso de disposición en red, cada ordenador puede conectarse con los restantes y con una unidad central que controla el proceso de evaluación y registra los resultados. La ventaja fundamental de una disposición en red se refiere al control central del proceso, que permite diagnosticar posibles errores puntuales en el momento de la evaluación (por ejemplo detectar patrones aberrantes de respuesta) y centralizar toda la información de un grupo de evaluandos. Sobre las posibilidades que ofrece Internet para

64

TESTS ADAPTATIVOS INFORMATIZADOS

cualquier tipo de test, Hontangas (1999) describe el procedimiento de construcción, aplicación y transmisión de respuestas, así como el software de programación disponible. En cuanto a la configuración de los equipos, los avances técnicos que tienen los ordenadores personales actuales (capacidad y rapidez de procesamiento, amplitud de memoria, disposición de periféricos) son suficientes para cubrir las necesidades que exigen los TAIs más usuales. Ahora bien, conviene recordar algunas exigencias concretas (Olea y Ponsoda, 1996): a) En primer lugar, resulta imprescindible que transcurra un período de tiempo prácticamente imperceptible entre la emisión de una respuesta y la presentación del siguiente ítem. Hay que considerar que el ordenador debe realizar en ese tiempo una cantidad importante de operaciones (las más complejas son la estimación provisional de un nivel de rasgo y la selección del siguiente ítem) que se facilitan con procesadores rápidos. Una estrategia frecuente es aprovechar los segundos en los que el sujeto está pensando su respuesta para que el ordenador vaya adelantando algunos de los muchos cálculos que ha de realizar. b) En segundo lugar, necesitamos una importante capacidad de almacenamiento permanente (donde resida la información sobre el banco de ítems, los resultados de la calibración, las instrucciones, los ejemplos de prueba, los resultados de cada evaluando y el software) cuyos requisitos mínimos cumplen ya la mayoría de las unidades de almacenamiento que incorporan los ordenadores personales. Se precisa también una apreciable cantidad de memoria RAM. c) En tercer lugar, cuando el banco incluye ítems con contenido gráfico, necesitamos una buena resolución de pantalla, considerar las exigencias de almacenamiento que requiere este tipo de ítems, y cuidar que la presentación y desaparición de los ítems sean instantáneas y no graduales.

CAPÍTULO 4. ALGORITMOS ADAPTATIVOS

65

d) Finalmente, conviene simplificar al máximo el procedimiento de respuesta mediante el teclado. Algo usual es hacer que el evaluando marque la opción que crea correcta con las teclas del cursor o con el ratón, y que presione ENTER o la barra espaciadora para que la selección realizada sea considerada como la respuesta proporcionada. Respecto al software, tenemos la opción de programar los algoritmos o de utilizar algunos programas disponibles en el mercado. La idea básica que se sigue es la programación de módulos (que pueden incluir variables, procedimientos o estructuras de datos), relativamente independientes, pero entre los cuales pueden establecerse relaciones de jerarquía según las cuales un módulo hereda las propiedades de otro. Para Hambleton, Zaal y Pieters (1991), un software completo para una evaluación adaptativa puede incorporar: • Procedimientos de identificación de personas y pruebas aplicadas. • Texto y parámetros del banco de ítems. • Un módulo de construcción de tests. • Un módulo de presentación de ítems, que representa el núcleo fundamental de un TAI. Podría encargarse de las siguientes funciones: a) administración de los ítems de prueba, b) arranque del test, c) selección sucesiva de ítems a aplicar y estimación sucesiva de los niveles de rasgo, d) finalización de la prueba, e) cálculo de la precisión con la que se ha obtenido la estimación final, y f) almacenamiento de los resultados. • Un módulo de baremación y de actualización del banco, que sirve para tener información sobre el rendimiento de los examinados y de la historia de cada ítem del banco (veces que ha sido aplicado, información que permita futuras recalibraciones,..). • Un módulo para ofrecer al usuario un informe escrito de su rendimiento. En cualquier caso, el software debe facilitar la interacción con el usuario, empleando expresiones simples, proporcionando ayuda en el

66

TESTS ADAPTATIVOS INFORMATIZADOS

proceso y facilitando una clara información sobre el rendimiento obtenido. También es posible recurrir a programas ya elaborados. Entre el software disponible para realizar evaluaciones adaptativas informatizadas, Hontangas (1999) describe las prestaciones de los dos programas mas empleados: el paquete MicroCAT (Assessment Systems Corporation, 1994) y el CAT Software System (Computer Adaptive Technologies, 1994). El primero, sin duda el que más posibilidades ofrece, permite construir bancos de ítems, calibrarlos desde diversos modelos de la TRI, así como administrar tests convencionales, informatizados y adaptativos informatizados que siguen estrategias bayesianas o máximo verosímiles. En España se han desarrollado dos programas con prestaciones mucho más limitadas: DEMOTAC (Renom, 1993) y ADTEST (Ponsoda, Olea y Revuelta, 1994).

Capítulo 5 Propiedades psicométricas del TAI

Muñiz y Hambleton (1999) describen y comentan las directrices específicas o requerimientos exigibles a cualquier TAI. Antes de que los TAIs se encuentren operativos, normalmente se someten a muy diversos controles psicométricos de calidad que básicamente tienen que ver con su precisión y validez.

5.1.- Precisión Como se dijo en apartados anteriores, una de las ventajas fundamentales de la TRI es que proporciona medidas de precisión (información o error típico de medida) condicionadas a los diferentes niveles de rasgo; es decir, diferentes para distintos evaluandos. Haciendo uso de esta propiedad, la eficiencia del TAI puede estudiarse mediante los oportunos estudios empíricos o de simulación, informando de los siguientes aspectos: a) Error típico medio. o información que se obtienen para los diferentes niveles de rasgo. Estos datos, ilustrativos de la eficacia de los TAIs cuando se emplea un criterio de parada de longitud fija o uno mixto, pueden obtenerse mediante estudios empíricos promediando los valores para los evaluandos con un mismo nivel de rasgo estimado. La

TESTS ADAPTATIVOS INFORMATIZADOS

68

precisión teórica que manifiesta el TAI puede estudiarse también mediante procedimientos de simulación, obteniendo el promedio de error típico para los diferentes niveles de rasgo establecidos en el diseño. b) RSME. (

∑ (θˆ − θ ) i

i

2

N ). Mediante simulación, puede

calcularse la raíz cuadrada del error cuadrático medio entre las estimaciones de rasgo y sus correspondientes parámetros, para valorar las discrepancias entre ambas. c) Sesgo empírico. ( Σ(θˆi − θ i ) / N ). Mediante estudios de simulación pueden obtenerse las diferencias medias entre los niveles de rasgo estimados para los sujetos simulados y sus correspondientes parámetros. En general, cuando los TAIs son cortos, los procedimientos máximo verosímiles producen un sesgo “hacia fuera” (infraestimando los niveles de rasgo bajos y sobrestimando los altos) mientras que los procedimientos bayesianos obtienen un sesgo “hacia adentro” (sobrestimando los niveles bajos e infraestimando los altos). d) Eficiencia. También mediante estudios empíricos o de simulación, y fundamentalmente cuando el criterio de parada es de longitud variable, puede estudiarse la cantidad media de ítems que se requiere para alcanzar el error típico prefijado. e) Correlación con las estimaciones obtenidas a partir del banco. Mediante cualquiera de las dos metodologías pueden correlacionarse las estimaciones obtenidas en el TAI con las que se obtienen a partir de las respuestas (reales o simuladas) al banco completo de ítems. f) Procedimientos derivados de la TCT. Resulta factible aplicar indicadores clásicos de fiabilidad, como por ejemplo el coeficiente de fiabilidad test-retest o el coeficiente de fiabilidad de formas equivalentes (cuando se dispone de dos bancos diferentes).

CAPÍTULO 5. PROPIEDADES PSICOMÉTRICAS DEL TAI

69

5.2.- Validez Un TAI, como cualquier otro test, debe someterse a las oportunas comprobaciones empíricas de validez para estudiar el grado en que se cumplen determinadas inferencias realizadas a partir de las puntuaciones que proporciona. En este sentido, los algoritmos adaptativos no garantizan en principio mayor o mejor prueba de validez, aunque hay algunas consideraciones particulares que debemos tener en cuenta. a) En relación a la validez de contenido, las restricciones que se impongan al algoritmo de selección de ítems pueden ayudar a que la muestra de ítems que se presenta sea representativa de todos los diferentes núcleos de contenido establecidos por los especialistas en la fase de elaboración del banco de ítems. b) En cuanto a la validez predictiva, suele ser común, dado los contextos donde se aplican los TAIs, correlacionar sus resultados con medidas externas que se quieren predecir. Así, por ejemplo, un TAI de razonamiento matemático para seleccionar programadores informáticos se correlacionó con las valoraciones de los supervisores en rendimiento laboral de programadores con mucha experiencia (Zickar et al., 1999). Las estimaciones del CAT-ASVAB suelen correlacionarse con las calificaciones que obtienen los reclutas en cursos posteriores de adiestramiento militar. c) Respecto a la validez de constructo, podríamos considerar que ya las comprobaciones iniciales sobre la unidimensionalidad del banco representa un primer estudio de validez de constructo. Por otra parte, cuando los TAIs tienen sus ancestros de lápiz y papel, suelen plantearse estudios para comprobar la equivalencia entre ambas versiones. Se han contrastado, por ejemplo, las capacidades predictivas del CAT-ASVAB y del P&P-ASVAB (ancestro en lápiz y papel) respecto al éxito obtenido posteriormente por los evaluandos en cursos de adiestramiento. También puede estudiarse la

70

TESTS ADAPTATIVOS INFORMATIZADOS

equivalencia de la estructura factorial y de las cargas factoriales de ambas versiones. Para concretar con un caso la aplicación de algunos de estos procedimientos para estudiar la precisión y validez, resumimos ahora algunos de los estudios realizados sobre un TAI para evaluar el nivel de vocabulario inglés. A partir del banco de ítems calibrado de vocabulario inglés se elaboró un programa de ordenador (el programa ADTEST) que convierte un banco calibrado en un TAI, con las siguientes características: a) procedimiento de arranque aleatorio entre niveles de rasgo medios, b) estimación de máxima verosimilitud, c) selección de ítems según el principio de máxima información. Para comprobar las cualidades psicométricas del TAI de vocabulario inglés se diseñó un estudio de simulación (Ponsoda et al., 1994) en el que se establecieron 15 niveles de parámetros θ (-3.5, -3,....3, 3.5) y se realizaron 3.750 simulaciones (es decir, 250 sujetos simulados para cada nivel). Siguiendo el procedimiento adaptativo, y definiendo un criterio de parada mixto (finalizar la aplicación si Se < 0.30 o si se presentan 34 ítems), se obtuvieron los correspondientes niveles definitivos de rasgo estimados ( θˆ ). Para cada uno de los niveles reales (parámetros) se obtuvo: a) El sesgo o media de las diferencias con los correspondientes niveles estimados. La diferencia máxima se produjo para niveles de rasgo bajos, y nunca superó el valor 0.09. Para niveles de rasgo por encima de 0.5 el sesgo resultó prácticamente nulo. b) La media de los valores Se. Se obtuvieron mejores niveles de precisión para los valores de rasgo medios y altos (en torno a 0.3), lo cuál puede deberse a la forma asimétrica que tenía la función de información del banco de ítems. c) La media del número de ítems administrados para conseguir el criterio de parada. Para niveles de rasgo entre –2 y +2, es decir, aproximadamente para el 95% de la población si el rasgo se distribuye normalmente, se aplicaron menos de 20 ítems para alcanzar el nivel de precisión establecido.

CAPÍTULO 5. PROPIEDADES PSICOMÉTRICAS DEL TAI

71

Se diseñó un estudio empírico (Olea et al., 1996), ya comentado brevemente en el apartado 3.3, para obtener datos de precisión con aplicaciones reales del TAI de vocabulario inglés y obtener información sobre su validez predictiva. A una muestra de 62 estudiantes de un centro de enseñanza del idioma inglés, se aplicó: a) El TAI con las especificaciones descritas en el trabajo anterior. b) Los ítems remanentes del banco, es decir, los ítems del banco que no formaban parte del TAI. c) Una prueba de papel y lápiz, el Oxford Placement Test (Allan, 1992), que proporciona dos puntuaciones distintas: una de conocimientos gramaticales y otra de "listening" relativa a la capacidad para entender el inglés en su expresión oral. Se registró, además, el total de tiempos invertidos en las respuestas al banco completo. Los principales resultados obtenidos fueron los siguientes: a) Una correlación de 0.9 entre los niveles de vocabulario estimados con el TAI y los correspondientes estimados a partir de las respuestas a los 221 ítems; b) Una correlación significativa negativa (r = -0.33) entre el tiempo invertido y el nivel de vocabulario estimado; c) Relaciones lineales (simples y multivariadas) significativas entre los niveles de vocabulario inglés estimados (en el TAI y en el banco completo) y las dos medidas del Oxford Placement Test, resultando más elevadas con el rendimiento manifestado en gramática que en "listening".

Capítulo 6 Investigación actual en tests adaptativos informatizados En colaboración con Pedro Hontangas (universidad de Valencia) Francisco J. Abad y Javier Revuelta (UAM)

6.1.- Presentación No son pocos los desafíos que tiene planteados la investigación sobre TAIs para que resulten eficientes en diversos contextos de evaluación psicológica y educativa, que tienen a su vez muy diversos objetivos, necesidades y restricciones. En uno de los últimos congresos de la National Council on Measurement in Education, una de las principales reuniones científicas internacionales sobre Psicometría, alrededor del 25 % de las comunicaciones se relacionaron con investigaciones sobre TAIs (Ponsoda, 2000). Mientras que los primeros libros específicos sobre el tema (v.g. Wainer, 1990; Weiss, 1983) describían algoritmos de selección de ítems muy básicos y escasas aplicaciones reales, los más actuales (v.g. Drasgow y Olson-Buchanan, 1999; Olea, Ponsoda y Prieto, 1999; Sands, Waters y McBride, 1997; van der Linden y Glas, 2000) incluyen la descripción pormenorizada de diversas aplicaciones en programas de evaluación a gran escala y la revisión de las líneas de investigación que se desarrollan sobre el tema en los últimos años,

74

TESTS ADAPTATIVOS INFORMATIZADOS

algunas de las cuales han dado lugar a cambios importantes en el diseño y aplicación de los TAIs. En una reciente revisión bibliométrica (García, 2002) sobre 5 de las principales revistas científicas internacionales de Psicometría se detecta también una importante presencia de esta temática en la investigación actual sobre teoría de los tests. Prueba de este auge son también los números monográficos dedicados al tema en Applied Measurement in Education (1994), Applied Psychological Measurement (1999) y, en España, una sección monográfica de la revista Psicológica (2000) y una revisión actualizada de tendencias de investigación en Metodología de las Ciencias del Comportamiento (Hontangas et al., 2000). Uno de los problemas tiene que ver con los métodos estadísticos de estimación que se aplican, que pueden manifestar problemas de precisión y sesgo cuando, como ocurre en los TAIs, el número de ítems no es elevado; debemos considerar, además, que las estimaciones provisionales de rasgo serán especialmente sensibles a estos problemas, lo cual puede influir en el tipo de ítems que se van seleccionando en la prueba. Muy en relación con estas estimaciones provisionales (en las fases iniciales con elevado nivel de sesgo e imprecisión) se encuentra el debate sobre el procedimiento aplicado para la selección sucesiva de ítems: el método de máxima información puede llevar a “gastar” los ítems más informativos para niveles provisionales de rasgo que pueden estar alejados del parámetro del sujeto, lo que ha llevado a ensayar procedimientos alternativos de selección. Por otra parte, los métodos más tradicionales de control de las tasas de exposición no resuelven bien problemas como la infrautilización de una parte importante del banco de ítems o su solapamiento, por lo que se han propuesto métodos alternativos o métodos que resultan de modificar los que se propusieron inicialmente. Una forma alternativa de abordar el problema de la tasa de exposición, y quizás de resolver los enormes requerimientos que exige la calibración de bancos, es la generación automática de ítems. En relación con los objetivos de evaluación para los cuales resultan apropiados los TAIs, se intenta ampliar el tipo de rasgos que se pueden medir mediante estrategias adaptativas, lo que dará lugar,

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

75

por ejemplo, al estudio de TAIs politómicos (para medir de modo eficiente determinadas actitudes o rasgos de personalidad) o TAIs multidimensionales (pruebas adaptativas que se fundamentan en modelos de TRI multidimensionales). Cuando el objetivo de la evaluación sea eminentemente clasificatorio, como ocurre en determinados contextos educativos o de selección de personal, se ensayarán estrategias adaptativas (TAIs de maestría) que tendrán como objetivo fundamental optimizar la fiabilidad de la clasificación. Tal como están diseñados los TAIs en la actualidad proporcionan escasa información diagnóstica que, por ejemplo, pueda resultar útil para el proceso de enseñanza-aprendizaje de los alumnos; fundamentalmente desde contextos educativos, se intentan proponer estrategias adaptativas que sean eficaces para planificar un entrenamiento adaptativo. Finalmente, y desde la experiencia acumulada sobre el impacto que tienen los TAIs en quien los responde, se ha intentado mejorar las condiciones de aplicación para que no tengan consecuencias indeseables sobre el modo en que los evaluandos afrontan la prueba.

6.2.- Precisión y sesgo de las estimaciones En el capítulo 3 del libro de Revuelta y Ponsoda (2001) y en el capítulo 5 del libro de Santisteban y Alvarado (2001), ambos de esta misma colección, se desarrollan con cierta extensión los principales procedimientos de estimación de parámetros y sus propiedades. Como en cualquier procedimiento estadístico de estimación de parámetros, con la aplicación de un TAI se busca que las estimaciones de rasgo sean precisas (con bajos errores típicos de medida) e insesgadas . Cuando, como ocurre realmente en situaciones aplicadas, los tests necesariamente deben tener una longitud reducida, aparecen problemas de sesgo y precisión que se han estudiado mediante procedimientos de simulación. Tanto la estimación de máxima verosimilitud (ML) como las bayesianas (EAP y MAP) producen problemas cuando se aplican tanto a tests convencionales como a TAIs, aunque conviene matizar estos efectos.

76

TESTS ADAPTATIVOS INFORMATIZADOS

Respecto a la precisión, ya se comentó (apartado 2.4) que el estimador bayesiano MAP tiene un menor error típico de medida para un mismo nivel de rasgo que el máximo-verosímil. En cuanto al sesgo, Kim y Nicewander (1993) han comprobado que en tests convencionales la estimación por máxima verosimilitud produce un sesgo “hacia fuera”; es decir, que se sobrestiman los niveles altos de rasgo (sesgo positivo) y se subestiman los bajos (sesgo negativo). Lo contrario ocurre con los métodos bayesianos, que suelen provocar cierta regresión a la media de la distribución a priori. Lord (1983, 1986) derivó la función de sesgo teórico para el procedimiento de máxima verosimilitud y su relación con el sesgo bayesiano-MAP ( I e Ij son la información del test y del ítem, respectivamente, en θ; a, la discriminación del ítem; P*, su probabilidad de acierto según el modelo 2P; y n es el número de ítems del test): n

SESGO( ML(θ )) ≈

∑a I j =1

j

j

( Pj* − 0.5) I2

En la ecuación anterior puede comprobarse que el sesgo que produce el método de máxima verosimilitud será mínimo cuando, como ocurre en los TAIs, la dificultad de los ítems se ajusta al nivel de rasgo del evaluando (entonces será cercano a cero el numerador). Por ello se asume que la aplicación de este procedimiento a un TAI produce estimaciones “esencialmente insesgadas”, ya que el sesgo será mínimo cuando se aplique un número elevado de ítems. Wang y Vispoel (1998) han comprobado que los métodos bayesianos producen mayor sesgo absoluto y en dirección “hacia adentro”, lo cuál podría perjudicar a los sujetos de alto nivel de rasgo y beneficiar de forma ilegítima a los de nivel bajo. Si las estimaciones máximo verosímiles son esencialmente insesgadas, en la expresión que sigue puede comprobarse esta dirección del sesgo:

SESGO( MAP(θ )) ≈ SESGO( ML(θ )) −

θ I

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

77

En los últimos años se han propuesto varios métodos para reducir el sesgo. Los métodos correctivos son fundamentalmente analíticos y actúan después de obtener una estimación, restando el sesgo teórico correspondiente a partir de las fórmulas que hemos visto. Los métodos preventivos modifican la función a maximizar, con lo que intervienen antes de realizar la estimación. En Hontangas et al. (2000) se citan algunos métodos preventivos máximoverosímiles y bayesianos. Veamos como ejemplo un trabajo donde se estudia el sesgo que pueden tener las estimaciones que se realizan con dos tests diferentes. En un estudio empírico (Olea, Revuelta, Ximénez y Abad, 2000), en el que se planteó un diseño inter-sujeto, se asignaron los sujetos aleatoriamente a dos tipos de tests: a) Un TAI que seleccionaba los ítems según el procedimiento de máxima información, estimaba los niveles de rasgo mediante el procedimiento de máxima verosimilitud y utilizaba un criterio de parada de longitud fija (20 ítems). b) Un test óptimo (TO) fijo de 20 ítems ordenados en dificultad, seleccionado del banco para que resultaran óptimos para la distribución de rasgo de la población [N(0.57; 0.92)]. Se eligieron al azar 20 valores de la distribución anterior y se eligieron los ítems que resultaban más informativos para esos niveles de rasgo. Las estimaciones del nivel de rasgo en este test se realizaron con el mismo procedimiento estadístico. Ambos tests se fundamentaban en el banco de vocabulario inglés (véase el apartado 3.3). De forma imprevista, el nivel de rasgo medio estimado en el TO (0.92) fue significativamente más alto que el correspondiente a la condición TAI (0.58), lo que en principio parece contradecir la propiedad de invarianza de la TRI. En principio, este resultado podría deberse al menos a dos razones: a) que el nivel de rasgo de los sujetos en el TO fuese más elevado, o bien b) que se cometiera cierto sesgo en las estimaciones máximo-verosímiles realizadas en alguno o en ambos tests.

78

TESTS ADAPTATIVOS INFORMATIZADOS

Con objeto de aclarar las causas de las diferencias en nivel de rasgo estimado, se plantearon dos estudios diferentes (Abad, Olea, Real y Ponsoda , 2002): a) Un estudio empírico, con un diseño intrasujeto en el que cada participante recibió de forma consecutiva los dos tests (de tal forma que se asegurase que el nivel de rasgo medio verdadero es el mismo en las condiciones TAI y TO). En el TAI se estimaron los niveles de rasgo según el procedimiento ML, mientras que en el TO se aplicaron tanto el procedimiento ML, como los bayesianos MAP y EAP, con dos distribuciones a priori distintas: N(0, 1) y N(0.57, 0.92). A partir de las fórmulas correspondientes se obtuvieron las funciones de sesgo y error típico asociadas a cada uno de los procedimientos de estimación. b) Un estudio de simulación, donde se replicaron 100 muestras partiendo de los parámetros θ, a, b y c estimados empíricamente. A partir de los resultados de la simulación se obtuvo el promedio en las 100 réplicas (para cada nivel de rasgo) de: 1) los niveles de rasgo estimados, 2) el valor RSME (raíz cuadrada de la media de los errores cuadráticos), 3) el sesgo, y 4) el error típico de medida. Algunos de los principales resultados obtenidos en estos estudios fueron los siguientes: • El sesgo teórico (obtenido mediante la fórmula de Lord), para los distintos valores de θ, de las estimaciones ML en el TAI osciló entre 0.08 y –0.05, con una media de 0.0097. El correspondiente a las estimaciones TO-ML osciló entre 0.13 y –0.14 (media 0.01), mientras que para TO-MAP se encontró un sesgo negativo para los niveles altos de rasgo, hasta un máximo de –0.40 (media –0.06). • Los errores típicos medios obtenidos fueron 0.28 (TAI), 0.31 (TO-ML), 0.32 (TO-EAP) y 0.29 (TO-MAP). • Las correlaciones entre las estimaciones proporcionadas por el TAI y las realizadas a partir del TO estuvieron en torno a

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

79

0.80, mientras que las diferentes estimaciones en el TO correlacionaron por encima de 0.99. • El nivel de rasgo medio estimado en la condición TAI (0.71) fue significativamente inferior a la media de las estimaciones en la condición TO-ML (0.85). No se obtuvieron diferencias significativas respecto a las estimaciones TO bayesianas. • Respecto al estudio de simulación, puede decirse que en general se obtienen los resultados derivados del estudio del sesgo teórico. Con este segundo trabajo, y dado el diseño de investigación establecido, se asegura que las diferencias en nivel de rasgo estimado encontradas en el primer trabajo no se deben a las diferencias en nivel de rasgo que pudieran tener el grupo TAI del grupo TO. Aún así, vuelve a aparecer una diferencia significativa entre la estimación ML en el TAI y en el TO, que no pueden atribuirse a problemas de sesgo. En el trabajo citado se abren vías alternativas de explicación.

6.3.- Alternativas a la información de Fisher Los procedimientos de estimación de è m ás usuales (máxima verosimilitud y bayesianos) producen estimaciones sesgadas cuando se presentan pocos ítems. La existencia de sesgo y el gran error típico de las estimaciones cuando el test es corto repercuten en la precisión total de un TAI. Los ítems seleccionados son los más informativos para la última estimación obtenida. Si ésta se aleja apreciablemente de la estimación final, los ítems que resulten muy informativos para estas estimaciones provisionales lo serán muy poco para la estimación final. En consecuencia, algunos ítems habrán resultado escasamente útiles en el test, de ahí el interés de explorar reglas alternativas de medir la información de los ítems. Chen, Ankenmann y Chang (2000) han comparado cinco reglas de selección de ítems diferentes y comprobado su impacto en el sesgo, RSME y error típico del nivel de rasgo estimado en las fases iniciales de un TAI. Las cinco funciones de información aplicadas fueron las siguientes:

80

TESTS ADAPTATIVOS INFORMATIZADOS

a) La función de información de Fisher, Ij(è). Como vimos (apartado 1.4), para un ítem “j”, siendo Pj(è) la probabilidad de acierto, su información para un valor è viene dado por

I j (θ ) =

(P (θ ))

2

' j

Pj (θ )Q j (θ )

b) La función de información de Fisher en un intervalo propuesta por Veerkamp y Berger (1997), FIIj(è), viene dada por la siguiente expresión

FII j (θ ) =



∫W (θ ) I

j

(θ )dθ

−∞

=

θu

∫I

j

(θ )dθ

θl

Ij(è) es la función de información de Fisher y W(è) es la función de ponderación, con valor 1 cuando è ∈ (è l , è u), que es el intervalo de confianza de la è estimada, y con valor 0 para valores è no comprendidos en el intervalo. c) La función de Fisher con distribución posterior, FIPj(è). Al principio del test, el intervalo de confianza puede no contener la è final del sujeto, por lo que el ítem elegido no sería apropiado. En esta regla de selección de ítems se toma como función de ponderación la distribución posterior de è. Por lo tanto,

FIPj (θ ) =



∫ p(θ | X

n

) I j (θ )dθ

−∞

d) La función de información de Kullback-Leibler, KLj( θˆ ). La función de información global de Kullback-Leibler permite saber la capacidad de un ítem para discriminar entre los niveles è y è0:

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

81

 Pj (θ 0 )   1 − Pj (θ 0 )   + (1 − Pj (θ 0 ) )log  KL j (θ || θ 0 ) = Pj (θ 0 ) log  P (θ )   1 − P (θ )  j  j   

Tomando como è0 el último valor estimado θˆ y siendo (èl , èu) su intervalo de confianza, el ítem a elegir sería el que tuviese el mayor valor de KLj( θˆ ). θu

∫ KL (θ || θˆ)dθ

KL j (θˆ) =

j

θl

e) Kullback-Leibler con distribución posterior, KLPj( θˆ ). En este caso, en vez de ponderar por 1 la información de Kullback-Leibler para las è incluidas en el intervalo (èl , èu), y por cero las excluídas, se va a ponderar por la distribución posterior de è.

KLPj (θˆ) =



∫ p(θ | X

n

)KL j (θ || θˆ)dθ

−∞

La comparación entre las cinco reglas de selección de ítems proporcionó los siguientes resultados: No hubo diferencias en tests de más de 10 ítems. El número de ítems “10” resulta mágico en este contexto. Cheng y Liou (2000) comprobaron mediante simulación el sesgo y error típico de 4 algoritmos diferentes, resultado de combinar dos métodos de estimación (máximo-verosímil y máximo-verosímil ponderado de Warm (1989)) y dos métodos de selección de ítems: la información de Fisher y Kullback-Leibler. También obtuvieron que en tests de más de 10 ítems no hay diferencias entre las cuatro condiciones estudiadas. Van der Linden (1998) y van der Linden y Pashley (2000) exponen varios criterios de selección de ítem bayesianos, que complementan el de máxima precisión esperada (definido en el apartado 4.3). De los 3 que vamos a ver, los 2 primeros enfatizan el modo de establecer la distribución a priori de θ, mientras que el

82

TESTS ADAPTATIVOS INFORMATIZADOS

último incorpora en la selección de ítems el error de estimación de sus parámetros: a) Cuando resulte posible, lo más sencillo sería establecer una distribución a priori derivada de las estimaciones sobre el rasgo obtenidas en estudios empíricos. b) Cuando se dispone de información de los sujetos en X variables adicionales relacionadas con θ, otra alternativa bayesiana empírica consiste en fijar la distribución a priori a partir de las estimaciones puntuales de rasgo realizadas mediante la oportuna ecuación de regresión. c) Si los errores de estimación de los parámetros de los ítems son elevados, como ocurre cuando la muestra de calibración es poco numerosa, los valores de estos parámetros pueden actualizarse a medida que se dispone de mayor número de respuestas. Básicamente, la idea es actualizar progresivamente las estimaciones de los parámetros de los ítems, no asignando estimaciones puntuales sino obteniendo su distribución posterior dadas todas las respuestas disponibles en un momento determinado, lo que supone considerar la incertidumbre que tenemos en su estimación. De esta manera, en la fórmula que permite obtener la distribución posterior de θ (véase apartado 2.3), la expresión L(u|θ), que es la función de verosimilitud asociada a un conjunto concreto de parámetros de los ítems, se sustituye por un promedio de las verosimilitudes posibles dada la distribución posterior de estos parámetros .

6.4.- Restricciones en la selección de ítems Si la selección de ítems se realizara únicamente mediante criterios psicométricos, por ejemplo mediante el método de máxima información, sin duda el más empleado en los programas de evaluación mediante TAIs, no sólo se plantearía el problema de la

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

83

falta de control de la exposición de los ítems, sino que se desatenderían otros aspectos importantes. Por ejemplo, los ítems más informativos para determinados niveles de rasgo pueden corresponder a temáticas concretas, lo que puede hacer que los evaluandos se preparen especialmente en esos contenidos y no en otros. Además, los responsables del programa de evaluación consideran importante que la composición del test (contenidos evaluados, formato de los ítems, posición aleatoria de la respuesta correcta,...) sea similar para los diferentes sujetos. En algunas ocasiones, cuando el TAI tiene su ancestro en un test fijo, conviene que ambos mantengan ciertas condiciones formales similares. Podríamos decir que los TAIs difícilmente serían aceptados en contextos de evaluación si a sus bondades psicométricas no se incorporan otro tipo de especificaciones no estadísticas. Algunos de los procedimientos clásicos para incorporar restricciones en los algoritmos de selección de ítems, que fueron expuestos en el apartado 4.3., pueden mejorarse notablemente. Por ejemplo, el método de las desviaciones ponderadas, un procedimiento basado en heurísticos, tiene el problema de que el mejor ítem en cada elección no lleva a que el conjunto de ítems seleccionados al final sea el mejor subconjunto posible para los requisitos impuestos. Los métodos basados en la construcción de testlets o tests multietápicos informatizados permiten sólo relativamente un auténtico proceso de adaptación de la prueba al sujeto, con la consiguiente pérdida en eficiencia. Van der Linden y Reese (1998) aplican el método de la programación lineal 0-1 a los TAIs para resolver los problemas que tienen los métodos clásicos. En este procedimiento, la decisión sobre los ítems que han de componer el test se resuelve como un problema en el que hay que maximizar la información que el test proporciona, sujeta a un conjunto de restricciones. Supongamos que queremos formar el test más informativo para è 0 sujeto a las siguientes cinco restricciones: a) no más de 10 de ítems de conocimiento, b) al menos 10 sobre aplicaciones, c) 5 ítems con gráficos, d) que su longitud sea 25 ítems, y e) los ítems 64 y 65 no deben ir en un mismo test. El problema a resolver sería el que se describe a continuación.

TESTS ADAPTATIVOS INFORMATIZADOS

84

Sean xj, j= 1, ... J, las variables que representan si el ítem “j” ha de formar parte (xj= 1) o no (xj= 0) del test. Ij(è0) es la información del ítem “j” en è0. Los conjuntos de ítems sobre conocimientos, sobre aplicaciones y con gráficos son V1, V2 y V3, respectivamente. El J

∑I j =1

j

(θ 0 ) x j

problema consiste en encontrar los valores (0 ó 1) de las variables xj que maximizan: con las siguientes restricciones: J

∑x j =1

j

= 25 , x 64 + x65 ≤ 1 ,

∑x j∈V1

j

≤ 10 ,

∑x j∈V2

j

≥ 10 ,

∑x j∈V3

j

=5

El procedimiento anterior muestra como ensamblar un test fijo. Cuando hay que generar un TAI, el procedimiento cambia algo dado que debe actualizarse continuamente el nivel de rasgo estimado, y por tanto también el test apropiado para ese nivel que cumpla las restricciones impuestas. La secuencia de acciones a seguir es la siguiente (van der Linden, 2000): a) Se comienza con una asignación determinada de rasgo como criterio de arranque, b) antes de administrar el primer ítem hay que ensamblar on-line un test completo (denominado como shadow test), de acuerdo al procedimiento anterior, que cumpla las restricciones y sea máximamente informativo para el nivel inicial, c) a continuación, de los ítems del test ensamblado, se administra el más informativo para el primer nivel de rasgo asignado, d) se estima un nuevo nivel de rasgo, e) para administrar el segundo ítem, se vuelve a ensamblar online otro shadow test, introduciendo en él el ítem ya administrado, y se elige el más informativo para el nuevo nivel de rasgo, f) se procede de esta manera hasta que se cumpla el criterio de parada establecido. En un TAI aplicado en un contexto de admisión escolar (el Law School Admission Test), van der Linden y Reese (1998) comprobaron que la precisión de θˆ no perdió eficiencia a pesar de incorporar 433 restricciones. Van der Linden (2000) cita varios trabajos en los que se utilizó la programación lineal para cumplir

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

85

restricciones sobre el tiempo necesario para responder a los ítems en relación al tiempo disponible para finalizar el TAI, para incorporar procedimientos de control de la exposición de los ítems y para obtener puntuaciones en el TAI equiparadas con las de un test fijo.

6.5.- Control de la exposición En el apartado 4.3 expusimos los procedimientos más utilizados para el control de la exposición de los ítems y los problemas que se intentaban resolver con ellos, que son fundamentalmente dos: evitar una exposición excesiva de los que se aplican con mayor frecuencia y, de forma secundaria, incrementar la exposición de los ítems infrautilizados. Lejos de representar una línea de investigación cerrada, en los últimos años se han propuesto nuevos procedimientos y se ha comparado su eficacia con los más tradicionales. Por ejemplo, Revuelta y Ponsoda (1998a) proponen dos nuevos procedimientos: a) El método restringido consiste en fijar para cada ítem una tasa máxima de exposición que, cuando se alcanza, hace que el ítem no pueda presentarse. Por ejemplo, si la tasa de exposición máxima se fija en un 30%, un ítem que se presenta a un primer evaluando dejará de estar operativo en las siguientes tres administraciones, pero podrá ser elegido y administrado a un quinto evaluando: después de que se presenta al primero, la tasa de exposición del ítem es del 100%, pero después del cuarto evaluando, la tasa será 25% (inferior a la máxima establecida) y podrá ser seleccionado para la quinta aplicación. b) El Método progresivo consiste en obtener un peso w=(1s)R+sI para cada ítem y seleccionar como siguiente ítem el de mayor peso. En la expresión anterior, I es la información del ítem para el último nivel de rasgo estimado, R es un número aleatorio extraído entre 0 y el máximo de los valores I, y s es la proporción de ítems ya administrados en relación a la longitud del TAI. Por tanto, el peso de un ítem resulta de la

86

TESTS ADAPTATIVOS INFORMATIZADOS

suma ponderada de un valor aleatorio y de la información del ítem para el último nivel de rasgo estimado. La información se pondera por el número de ítems administrados en ese TAI en particular, mientras que el valor aleatorio se pondera por el número de ítems que quedan por administrar en ese test. De esta forma, al principio del TAI importa más el componente aleatorio, y por tanto no se eligen en este momento los ítems muy informativos, mientras que la información adquiere mayor ponderación a medida que avanza la aplicación (cuando el nivel de rasgo estimado está más cerca del parámetro del evaluando). En el mismo trabajo, estos autores comparan mediante simulación la eficiencia de estos dos nuevos métodos con otros más tradicionales (entre otros, los métodos 5-4-3-2-1, Randomesque y Sympson-Hetter, descritos en el apartado 4.3) y con el método de máxima información sin ningún tipo de restricción. Para los métodos restringido y Sympson-Hetter se estableció una tasa máxima de exposición de 0.4. Todos los métodos se probaron en dos condiciones diferentes de parada del TAI: un criterio de longitud fija (35 ítems) y otro mixto (error típico inferior a 0.22 ó aplicar 50 ítems). Se simularon las respuestas de 2.000 sujetos, cuyos parámetros de rasgo se distribuyeron N(0, 1), al test de vocabulario inglés. En un segundo estudio se ampliaron las condiciones de simulación a otro tipo de bancos, criterios de parada, tasas de exposición máximas y distribuciones de los parámetros de los ítems. Como variables dependientes establecieron el error típico de medida, el sesgo, el número de ítems administrados, el porcentaje de ítems que no se administran nunca y la tasa de exposición o porcentaje de veces que se eligen los ítems (así como el coeficiente de variación, el mínimo y el máximo de esta tasa de exposición). Algunos resultados interesantes fueron: a) ninguno de los métodos resulta completamente satisfactorio, b) los métodos 5-4-3-2-1 y Randomesque son los preferibles cuando se desea que los evaluandos no reciban ítems similares al comienzo del test, c) los métodos que consiguen reducir en mayor grado la sobrexposición de algunos ítems son los de Sympson-Hetter y restringido, d) el método progresivo es el que, sin

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

87

una perdida considerable en precisión, incrementa en mayor grado las tasas de exposición de los ítems infrautilizados, e) un método que combina los métodos progresivo y restringido consigue los resultados globales más positivos en cuanto a precisión, reducción de las tasas máximas de exposición y del número de ítems no seleccionados. Existen otros problemas relacionados con las tasas de exposición de los ítems, y por tanto con el establecimiento de métodos para su control. El primero es que, aunque los métodos sean eficaces para controlar la tasa máxima de exposición, puede ocurrir que ciertos ítems siempre se presenten a evaluandos con un determinado nivel de rasgo. Un segundo problema tienen que ver con el grado de solapamiento entre cualquier par de ítems, es decir, con su tasa de ocurrencia simultanea. La solución a estos problemas es la elaboración de métodos de control de la exposición condicionados. En Hontangas et al. (2000) y Stocking y Lewis (2000) se describen algunos de estos métodos.

6.6.- Generación automática de ítems La generación automática de ítems es un método de construcción de bancos de ítems mediante algoritmos. Se encuentra todavía en fase de investigación por lo que no existen ejemplos en los que se haya logrado su aplicación completa. Sin embargo, es un tema activo de trabajo en distintos centros de elaboración de tests y se espera su aplicación en contextos reales en un futuro inmediato (Bejar, 1993; Irvine, Dann y Anderson, 1990; Irvine y Kyllonen, 2002; Revuelta y Ponsoda, 1999). Mediante la generación automática de ítems lo que se construye es un conjunto de reglas explícitas, susceptibles de programarse en un ordenador, que determinan cómo deben construirse los ítems. De este modo se obtienen todos los ítems posibles para un test determinado (Hornke y Habon, 1986). Además, los ítems deben generarse con unas propiedades psicométricas predichas de antemano. En lugar de estimar la dificultad y otras propiedades mediante su aplicación a una muestra, se intenta elaborar un modelo acerca del modo en que las

88

TESTS ADAPTATIVOS INFORMATIZADOS

personas resuelven una determinada tarea. Este modelo permitiría predecir las propiedades de los ítems generados. La generación de ítems puede aplicarse con independencia de que el banco obtenido se utilice posteriormente para un TAI o para otros tipos de tests. Sin embargo, en el contexto de los TAIs, resulta especialmente ventajosa por dos razones principales: a) Permite mejorar la adaptación del TAI a cada sujeto. Con la generación no existe un banco prefijado. Simplemente se intenta construir para cada evaluando aquel ítem que resulta máximamente informativo para su nivel de rasgo entre todos los posibles ítems que resultan admisibles para el test. b) Constituye una solución al problema del control de la tasa de exposición, dado que se contará con un banco de ítems del tamaño más grande posible, lo que aumenta las posibilidades de construcción de tests diferentes. Los dos grandes retos de la generación de ítems son elaborar un programa para crear los ítems y obtener un método de estimación de su dificultad. La elaboración de ítems resulta más o menos complicada dependiendo del formato de los mismos. En tests con un bajo contenido verbal puede resultar sencillo elaborar un algoritmo que genere los ítems. Sin embargo, si el contenido verbal es elevado la tarea se complica enormemente y no parece que puedan obtenerse resultados a corto plazo. Bejar (1990) presenta un ejemplo en un test de capacidad espacial, Bejar y Yocom (1991) en un test de figuras enmascaradas y Embretson (1994) en un test de figuras tridimensionales. El problema de estimar la dificultad depende de la calidad del modelo psicológico disponible acerca de la tarea. Un modelo psicométrico utilizado con frecuencia para relacionar la dificultad con el contenido es el denominado LLTM (Fischer, 1973; Fischer y Pendl, 1980). Una descripción detallada puede encontrarse en Santisteban y Alvarado (2001, apartado 4.4.3). Supongamos que para resolver un ítem el sujeto tiene que realizar p operaciones. Las variables Ci1, Ci2, ..., Cip se utilizan para describir la frecuencia con que es necesario aplicar cada operación en el ítem i. Entonces el

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

89

parámetro de dificultad bi del ítem se descompone de forma lineal en la dificultad de las operaciones implicadas en su resolución: p

bi = β 0 + ∑ β k Cik k =1

Siendo β 1, ..., β p los parámetros de dificultad de cada operación y β 0 una constante. A partir de esta dificultad predicha se obtiene la probabilidad de acierto según el modelo de Rasch. Es importante advertir que este modelo únicamente incorpora p+1 parámetros de dificultad, independientemente de cuantos ítems se elaboren. De esta forma es posible predecir la dificultad de los nuevos ítems conocida la dificultad de las operaciones necesarias para su resolución. También se han propuesto extensiones del LLTM para el caso de que se utilice una respuesta politómica (Fischer y Parzer, 1991) o ítems con diferentes discriminación (Embretson, 1999). Revuelta y Ponsoda (1998b) muestran un ejemplo de aplicación en un test de análisis lógico y cómo la generación de ítems permitiría maximizar la información obtenida acerca de los examinados. En concreto, su punto de partida es una versión de lápiz y papel del test DA5 (SHL, 1996) e intentar desarrollar una versión adaptativa del mismo test basada en la generación de ítems. El test de lápiz y papel consta de 50 ítems que miden análisis lógico con un aspecto similar al de la figura 10. Figura 10. Item similar a los del test DA5

Para resolver el ítem es necesario realizar mentalmente dos transformaciones distintas sobre las figuras que aparecen en la

90

TESTS ADAPTATIVOS INFORMATIZADOS

columna izquierda y escoger una respuesta entre las cinco alternativas presentadas, marcadas con las letras A hasta E. Las transformaciones a realizar se indican mediante las instrucciones codificadas que aparecen dentro de un círculo en la parte izquierda del ítem. En el estudio realizado por Revuelta y Ponsoda (1998b): a) Los ítems pueden incluir 10 instrucciones u operaciones diferentes con diferentes sentidos: por ejemplo rotar la figura adyacente de distintas maneras, intercambiar una figura con la que aparece en la fila superior, omitir una figura o ignorar alguna otra instrucción. Utilizando el modelo LLTM es posible predecir el 47% de la varianza en dificultad de los ítems a partir de la frecuencia de aparición de las instrucciones en el ítem. Además se encontró que la dificultad de cada instrucción es tanto más elevada cuanto mayor sea la carga en memoria de trabajo que produzca en el sujeto, midiéndose esta carga por el número de figuras que es necesario manipular mentalmente de forma simultánea. b) A continuación se desarrolló un método para generar todos los posibles ítems para este test, estableciendo las combinaciones válidas de instrucciones. De esta manera es posible obtener un banco compuesto por 4242 ítems. c) Finalmente, se comparó la función de información de un TAI aplicado a partir del banco generado con la del test original. El resultado indica que el TAI basado en el banco generado funciona razonablemente bien, pero no para los niveles bajos. Esto se debe a que el modelo LLTM resultó especialmente impreciso para predecir la dificultad de los ítems más fáciles. En la mayoría de los casos no se dispone de un modelo suficientemente exacto de la dificultad del ítem. Aún así es posible aplicar la generación automática utilizando la metodología de ítems isomorfos. Supongamos que se dispone de un banco elaborado y calibrado por el método tradicional. Cada ítem de este banco puede

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

91

tomarse como modelo para elaborar isomorfos, que son ítems superficialmente diferentes al original pero con una lógica similar de resolución. Por esta razón cabe esperar que los parámetros de los isomorfos sean similares, aunque no necesariamente iguales, a los del modelo. Por ejemplo, se dispone del siguiente ítem cuya dificultad es b = 1.3: Indique la letra que continúe la serie: ABCGHID_

Pueden generarse varios isomorfos cuya regla de resolución sea la misma (MNOSTUP_ , GHIMNOJ_, etc.). Las dificultades de los isomorfos deben ser parecidas dado que se resuelven del mismo modo. Sea bi el parámetro de dificultad estimado del ítem (modelo) i. Los parámetros de los isomorfos obtenidos de un modelo siguen una distribución f (b) con media bi y varianza σi2. Por tanto, cuanto menor sea la varianza σi2 más parecida será la dificultad de los isomorfos a la del modelo, es decir, el proceso de creación de isomorfos será mas preciso. Cuando se genera un isomorfo se desconoce su verdadera dificultad, únicamente se sabe que la distribución de esa dificultad es f (b). Por esto se utiliza la función de distribución conjunta de la respuesta del sujeto, indicada por u, y la dificultad del isomorfo:

f (u, b | θ )= p(u | θ , b) f (b) siendo p (u | θ , b) la función de probabilidad de la respuesta observada correspondiente al modelo de un parámetro. Por tanto, la distribución marginal de u, conocida también como función esperada de respuesta es (Mislevy, Sheehan y Wingersky, 1993):

f (u | θ )= ∫ p (u | θ , b) f (b)db

92

TESTS ADAPTATIVOS INFORMATIZADOS

La función f (u|θ) se utiliza como modelo psicométrico para puntuar a los sujetos en lugar de utilizar p (u | θ , b) , como es tradicional. La ventaja de f (u|θ) sobre p (u | θ , b) es que tiene en cuenta la imprecisión con que se conocen los parámetros de los ítems, mientras que al utilizar p (u | θ , b) para puntuar a los sujetos se está asumiendo que el nivel de dificultad es conocido con absoluta certeza. Es importante estudiar qué efecto tiene la imprecisión con que se conocen los parámetros de los isomorfos, la varianza σi2, en la precisión con que se estima θ (Meisner, Luecht y Reckase, 1993). A mayor varianza, mayor diferencia entre los parámetros del modelo y los del isomorfo. Esta imprecisión debe aumentar la varianza error del estimador de θ. En ocasiones se utiliza el modelo logístico de tres parámetros, por lo que la función esperada de respuesta es:

f (u |θ )= ∫∫∫ p(u |θ , a, b, c) f (a, b, c) da db dc La función f (a, b, c) que indica la imprecisión es una normal multivariante. Cuanto mayor sea la magnitud de las varianzas y covarianzas de esta distribución, menor será la precisión. Al igual que p(u | θ , a, b, c) , la función f (u|θ) puede representarse para distintos valores de θ. Cuanto mayor sea la imprecisión de los isomorfos, se encuentra que la función f(u|θ) es más plana en comparación con p (u | θ , a, b, c) . Esto significa que cuanto mayor sea la incertidumbre en los parámetros del ítem, menos información proporciona acerca de θ. Por ejemplo, la figura 11 muestra el valor de p(u | θ , a, b, c) para un ítem con parámetros (a=1.4, b=0.4 y c=0.1), junto con la función esperada de respuesta para un determinado nivel de imprecisión.

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

93

Figura 11. Funciones p (u | θ , a, b, c) y f(u|θ) P (u θ, a, b, c)

f (u θ)

Revuelta (2000) estudió el efecto de la imprecisión con que se generan los isomorfos en la fiabilidad de las puntuaciones de los sujetos en un TAI. Para ello, se toma como punto de partida un banco calibrado según el modelo de tres parámetros y se analiza la precisión del TAI si la precisión de los isomorfos tomara diferentes valores arbitrarios. Las dos variables independientes son la magnitud de las varianzas y covarianzas de la distribución f (a, b, c) y el porcentaje de isomorfos que se utilizan en el test. También se incluyó un grupo control en el que no se incluyen isomorfos. En cada condición se aplicó un TAI a varios miles de sujetos simulados y se cuantificó la imprecisión con que se estima la θ del sujeto. Los resultados principales del estudio fueron: a) No se produjo sesgo en la estimación del rasgo en ninguna de las condiciones puestas a prueba. b) El aumento en el porcentaje de isomorfos en el test y la mayor imprecisión en sus parámetros producen un aumento en el error de estimación del rasgo. Además, se encontró un

TESTS ADAPTATIVOS INFORMATIZADOS

94

efecto de interacción. A mayor porcentaje de isomorfos más acusada es la pérdida de información acerca de θ debida al aumento de la imprecisión en los parámetros de los isomorfos. c) En condiciones realistas, la información acerca de θ proporcionada por un TAI basado en isomorfos está aproximadamente entre un 50% y un 80% de la que se obtendría en un TAI sin isomorfos.

6.7.- Nuevos modelos La mayoría de los TAIs han sido elaborados para medir rasgos intelectuales o conocimientos, y su fundamentación psicométrica es la de los modelos dicotómicos unidimensionales de la TRI. Sin embargo, se están ensayando TAIs sustentados en modelos multidimensionales para evaluar el rendimiento que depende del nivel en múltiples rasgos. Algunos trabajos (v.g. Abad., Ponsoda y Hontangas, 1998) ponen en duda la robustez de los modelos unidimensionales en el tratamiento de las respuestas a ítems cuya resolución requiere un cierto nivel en varios rasgos. La opción actual es un claro intento por aplicar modelos de TRI multidimensionales tanto en la selección de ítems como en las estimaciones de rasgo. Además, el tipo de constructos psicológicos a evaluar mediante TAIs se ha incrementado mediante el estudio de la eficiencia de pruebas adaptativas para ítems de respuesta graduada, basadas en los modelos politómicos de la TRI, la mayoría pensados para la medición de actitudes y rasgos de personalidad. 6.7.1.

Modelos multidimensionales

• TAIs multi-unidimensionales: Mini-TAIs Respecto a cómo afrontar desde una perspectiva adaptativa el tema de la multidimensionalidad, se ha propuesto (Schnipke y Green, 1995) la construcción de los denominados como mini-TAIs, que consisten en dividir un banco de ítems en tantos bancos

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

95

unidimensionales como puedan establecerse, de modo que cada TAI selecciona ítems en uno de ellos. Para llegar a la puntuación final de un evaluando se agregan las diferentes estimaciones realizadas (por ejemplo, obteniendo las medias de las estimaciones realizadas en los mini-TAIs). El diseño de mini-TAIs no parece ser la mejor estrategia para afrontar el tema de la multidimensionalidad ya que, entre otras cosas, el trabajo con bancos pequeños incrementa los problemas relacionados con la sobre-exposición de los ítems. • Testlets: Un testlet es un conjunto de ítems sobre un estímulo común. En un test de compresión lectora, por ejemplo, el estímulo podría ser un párrafo de varias líneas de texto y los ítems varias preguntas de opción múltiple sobre el párrafo. Este tipo de tests surgieron (Wainer y Kiely, 1987) como respuesta a una crítica común a los ítems de opción múltiple: su falta de contexto. Con los ítems de un testlet no es fácil cumplir el principio de independencia local. Las respuestas a dos ítems suelen mantener una correlación positiva, ya que la probabilidad de acertar (fallar) ambos ítems a la vez es mayor (menor) que la esperada si hubiese independencia local. Entre las razones que se dan para explicar esta correlación positiva están las siguientes: incorrecta comprensión del estímulo, descuido en su lectura, o una frustración general con el estímulo en cuestión. Tres han sido los principales tratamientos psicométricos dados a los testlests (Wainer, Bradlow y Du, 2000): a) Tratar los ítems como si fuesen ítems ordinarios tomados de un banco, sin considerar que algunos se basan en el mismo estímulo. En este caso, no se tiene en cuenta el incumplimiento de la independencia local y las consecuencias son dos: a) una sobrestimación de la precisión en la estimación de los niveles de rasgo, y b) un mayor sesgo en la estimación de los parámetos de dificultad y discriminación. La dependencia y estos efectos son tanto más importantes cuanto mayor es el número de ítems de cada testlet. Parece

96

TESTS ADAPTATIVOS INFORMATIZADOS

que cuando el número es 4-6 por testlet, estos efectos no son importantes (Wainer et al., 2000, p. 247). b) Una segunda posibilidad es aplicar modelos politómicos de la TRI. En este caso, un testlet se considera un ítem en el que las posibles respuestas son el total de posibles aciertos. Un testlet con cuatro ítems podrá considerarse un ítem politómico con respuestas: 0, 1, 2, 3 y 4. Un inconveniente de este modo de proceder es que se pierde la información sobre las respuestas a los ítems particulares. Otra alternativa sería considerar como cantidad de respuestas el número total de posibles resultados (2k, en el caso de “k” ítems). La dificultad ahora es la gran cantidad de respuestas disponibles cuando k pasa de 3. c) La tercera alternativa consiste en plantear un nuevo modelo TRI que añade un parámetro adicional para ítems anidados en el mismo testlest. La probabilidad de acierto en un ítem viene dada por la siguiente expresión:

Pi (θ ) = c i +

1− ci 1 + exp( −Da i ( θ − θ t ( i ) − bi ))

donde los parámetros θ, ai, bi y ci tienen el mismo significado que en el modelo de 3 parámetros. La única diferencia con este modelo es el termino añadido θt(i) . Este término se refiere a un rasgo secundario de los sujetos, distinto de θ, que les facilita o dificulta el rendimiento en el testlet t. Esa habilidad lleva el subíndice t porque afecta al rendimiento del sujeto en todos los ítems del testlet t. Cada sujeto tiene tantos parámetros θt como testlets haya en la prueba, puesto que el rasgo secundario no tiene por qué ser el mismo de un testlet a otro. El modelo considera fija (e igual a 0) la media de las θt(i) referidas a un mismo testlet. La varianza de θt es proporcional a la importancia del rasgo secundario. En la fígura 12 se representa la probabilidad de acierto a un ítem con ci = 0, ai = 1 y bi=0 como una función (multidimensional) de θ y θt(i).

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

97

Para θ fijamos la desviación típica a 1; para θt(i) fijamos la desviación típica a 1 (figura 12.a), 0.50 (figura 12.b) y 0.01 (figura 12.c). Una forma de representar el efecto de la desviación típica en la probabilidad de acierto es representar sólo los valores plausibles para θ y θt(i) según esa variabilidad. En las figuras se observa cómo a medida que disminuimos la varianza de θt(i) la probabilidad depende más exclusivamente de θ. Obsérvese que, siendo la misma función, sólo hemos variado los valores de θt(i) representados. Figura 12. Probabilidad de respuesta desde un modelo Testlet. a) Alta dependencia local

b) Baja dependencia local

c) Ausencia de dependencia local.

Como veremos inmediatamente, este modelo es equivalente a otros multidimensionales que en vez de manipular la varianza de la dimensión secundaria incluyen un parámetro de discriminación para esa dimensión adicional. Wainer y Wang (2000) aplican este modelo a los testlets del TOEFL (Comprensión Lectora y Comprensión Oral) y muestran el sesgo de estimación en los parámetros al usar los programas convencionales (v.gr., BILOG). Al final de ese trabajo se plantean algunas de las preguntas que la investigación sobre testlets debe resolver. Por un lado, debe investigarse cuáles son las causas concretas que hacen que en unos testlets aparezca mayor dependencia local que en otros. Por otro lado, debe explicarse cómo el sesgo de

TESTS ADAPTATIVOS INFORMATIZADOS

98

estimación en a puede ir en cualquier sentido (infra o sobreestimación). Finalmente, aunque en ambos trabajos se destaca como ventaja la posibilidad de construir TAIs sin establecer a priori la constitución interna del testlet, la estabilidad y ajuste de los parámetros en esa situación están por comprobar. Glas, Wainer y Bradlow (2000) obtienen los estimadores de máxima verosimilitud marginal del modelo anterior. En un TAI con testlets, cabrían dos opciones: a) la selección de los ítems sin tener en cuenta su pertenencia a testlets (es decir, no considerando el posible incumplimiento de la independencia local), o b) considerando su pertenencia al testlet. En este caso, el TAI elegiría el testlet más informativo y a continuación el ítem más informativo, dentro del testlet elegido, para el último nivel de rasgo estimado. Glas et al. (2000) comprobaron que las estimaciones del nivel de rasgo son más precisas si se tiene en cuenta el testlet al que pertenece cada ítem. • TAIS multidimensionales: Los modelos multidimensionales de la TRI sirven para estimar el rendimiento cuando depende del nivel en varios rasgos diferentes, que pueden o no estar relacionados entre sí. Existen dos tipos de modelos: los no compensatorios y los compensatorios. Los modelos no compensatorios, como el MLTM (Multicomponent Latent Trait Model) se han utilizado generalmente en el análisis de los procesos que intervienen en la resolución de los ítems. En estos modelos la probabilidad de acierto requiere la resolución completa de un conjunto de procesos; por completa se indica que el ítem se fallará en el momento en el que un proceso no se ejecute correctamente; el modelo se expresa como un producto de probabilidades:

e(θm −bim ) Pi (θ ) = ∏ Pim (θ m ) = ∏ (θm −bim ) m=1 m=1 1 + e p

p

donde θ es un vector de p componentes de procesamiento que intervienen en la resolución del ítem i; bim es el parámetro de

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

99

dificultad asociado a la resolución del proceso m; Pim(θm) es la probabilidad de ejecutar el proceso m correctamente. En la figura 13 se representa la probabilidad de respuesta como función de 2 procesos (bim = 0 para todo m). Sólo aquellas personas que obtienen un nivel de ejecución alto en ambos procesos obtienen una probabilidad de respuesta próxima a 1.

Figura 13. Probabilidad de Respuesta Modelo No Compensatorio

Sin embargo, los modelos que por ahora centran el interés investigador son los modelos compensatorios, más cercanos al terreno más familiar del Análisis Factorial (McDonald, 2000). En estos modelos la probabilidad de respuesta es función de una combinación lineal de dimensiones. Así, por ejemplo, el modelo logístico multidimensional de 3 parámetros se formula como:

1 − ci

Pi (θ ) = ci +

p

1+ e

∑ − Da im θ m + bi m =1

donde θ es un vector de p rasgos que intervienen en la resolución del ítem i; bi es el parámetro de dificultad; ci el parámetro de pseudoazar;

100

TESTS ADAPTATIVOS INFORMATIZADOS

y aim es el parámetro de discriminación asociado a la dimensión m. Si ci=0, se obtiene el modelo logístico multidimensional de 2 parámetros. Si p = 1, la expresión es la del modelo unidimensional de 3 parámetros. El modelo asume que cada ítem tiene parámetros únicos de dificultad y pseudoazar, mientras que tiene diferentes parámetros de discriminación aim para cada uno de los rasgos subyacentes (indica la importancia del rasgo m en el ítem i y se relaciona estrechamente con la saturación factorial del ítem i en el factor m).

Figura 14. Probabilidad de Respuesta Modelo Compensatorio

En la figura 14 se representa la probabilidad de respuesta como función de 2 dimensiones (ai1 = ai2 = 1; bi = 0; ci = 0). Como se puede ver, ambas dimensiones, al poseer igual discriminación, tienen idéntico efecto en la probabilidad de respuesta. Por otro lado, sujetos con valores muy bajos en una dimensión no tienen un rendimiento mínimo si los valores son altos en la otra dimensión. En ese sentido, el modelo se denomina compensatorio. Una descripción más detallada de los modelos multidimensionales puede encontrarse en Santisteban y Alvarado (2001, apartado 4.4.3).

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

101

Segall (1996) y van der Linden (1999) han desarrollado procedimientos de estimación máximo-verosímiles y bayesianos de los niveles de un evaluando en los p rasgos, así como los algoritmos de selección sucesiva de los ítems. El algoritmo de selección multidimensional proporciona ventajas sobre el unidimensional sólo cuando las dimensiones están relacionadas (estructura oblicua) y/o los ítems poseen un patrón de saturaciones complejas (y no una estructura simple). Conocida la matriz de varianza-covarianza de los “p” rasgos, Var(θ), que informa de la precisión con que cada uno es estimado, el siguiente paso es establecer el criterio numérico para ordenar los ítems en términos de información; esto se hace considerando los objetivos del evaluador; podemos tomar como medida del sujeto, z, p

una combinación lineal de habilidades ( z = ∑ λ m θ m ) en la que el m =1

tamaño de cada peso λm represente el interés en reducir el error de medida de la habilidad m. El siguiente ítem a administrar será el que produzca un menor valor de Var(z).

Var ( z ) =

p

p

p

∑ λ2mVar (θ m ) + ∑∑ λmλnCov(θ m ,θ n ) m =1

m =1 n =1

Si todas las dimensiones son importantes, entonces λm = 1 para todo m. Si sólo la dimensión m es importante, entonces λm = 1 y el resto de las λ = 0; en este último caso, Var (θ m ) es el valor utilizado para la selección. Además de las ventajas asociadas a los modelos multidimensionales (permiten evaluar el rendimiento en tareas complejas, incluir contenidos diferentes y estimar simultáneamente el nivel en los distintos rasgos), los TAIs multidimensionales parecen ser más eficientes que los unidimensionales (reducen hasta en un tercio la longitud del test) y proporcionan estimaciones con mejores propiedades (mayores correlaciones con los parámetros y menor sesgo). Respecto a sus inconvenientes, Hontangas et al. (2000) señalan la necesidad de muestras grandes para la estimación de

102

TESTS ADAPTATIVOS INFORMATIZADOS

parámetros y todas las especificaciones que requieren: número y relación entre las dimensiones, relaciones intra e inter-ítems, etc. En un trabajo reciente, Segall (2001) muestra cómo utilizar los modelos multidimensionales para medir una única dimensión. Según el autor, una de las dimensiones evaluadas y útiles en la medida de la inteligencia es la habilidad cognitiva general. Sin embargo, los procedimientos tradicionales, incluidos los de TRI unidimensional, no se han traducido en mejoras en la evaluación del factor general. Esto se debe a que estos procedimientos son óptimos para aplicarse a tests unidimensionales recogiendo su varianza específica pero no su varianza común. Segall (2001) utiliza el Análisis Factorial Jerárquico para obtener los parámetros de los ítems del ASVAB en dimensiones ortogonalizadas; cada uno de los 420 ítems del ASVAB tiene saturaciones en 3 dimensiones: una dimensión general (Inteligencia General o θg), una dimensión específica independiente de la general (por ejemplo Verbal) y una dimensión aún más específica y también independiente de las anteriores (por ejemplo Conocimiento de Palabras). El algoritmo de selección bayesiano utilizado minimiza la varianza posterior de la dimensión general. En este trabajo se comparan varias condiciones: a) Test fijo y puntuación directa: la suma de las puntuaciones en un test fijo de 105 ítems. b) TAI unidimensional: con un banco de 420 ítems, se aplica un TAI de longitud fija (60 ítems). Se obtiene una estimación única de θ. c) TAI multi-unidimensional: se aplican 4 TAIs de longitud fija (15 ítems) a cada sujeto, uno para cada área de contenido. θ es la suma de los niveles de rasgo estimados en cada TAI. d) Test fijo y estimación multidimensional: tras aplicar un test fijo de 105 ítems se utiliza un algoritmo multidimensional para la estimación de θ. e) TAI multidimensional: selección y puntuación multidimensional en un TAI de longitud fija (60 ítems). En el estudio de simulación se muestra que mediante la aplicación del modelo multidimensional, y gracias al algoritmo de

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

103

selección, se puede conseguir una medida “casi perfecta” de la habilidad general. Mediante el algoritmo de puntuación multidimensional se obtienen también algunas mejoras. El peor rendimiento se obtiene en el test fijo, a pesar de que la longitud del test es casi el doble que en la condición TAI. Otras aplicaciones del modelo para la estimación simultánea de varías dimensiones pueden obtenerse en el trabajo de Segall (1996) aunque las conclusiones (ventajosas para los modelos multidimensionales) son muy similares a las aquí descritas. 6.7.2.

Modelos politómicos

Se ha probado también la viabilidad de los denominados como TAIs politómicos, sustentados en modelos TRI politómicos. En estos modelos la probabilidad de seleccionar una determinada categoría de respuesta es función del nivel de rasgo del sujeto y de los parámetros del ítem. La ventaja de estos formatos es que proporcionan más información que los dicotómicos para estimar el nivel de rasgo. Así, por ejemplo, el modelo de respuesta graduada de Samejima, aplicable a los formatos de respuesta de categorías ordenadas típicos de las escalas de actitudes o los tests de personalidad, se formula de la siguiente forma: Da (θ − b )

e j jk P (θ ) = Da (θ − b ) 1 + e j jk * jk

Esta expresión, que corresponde al modelo logístico 2P (véase 2.1), pone en relación la probabilidad de que un sujeto (con un nivel de rasgo θ) seleccione una categoría de respuesta k o superior en el ítem j, siendo a el parámetro de discriminación del ítem (único para dicho elemento) y b el parámetro de localización (también denominado como parámetro de dificultad) de la categoría k (habrá k1 parámetros de localización). El parámetro de discriminación estará relacionado con la pendiente en θ=b, en la expresión anterior. Los parámetros de localización determinarán la separación entre las

TESTS ADAPTATIVOS INFORMATIZADOS

104

curvas; un valor de b concreto indica el valor del nivel de rasgo para el que es 0.5 la probabilidad de elegir la alternativa k o alguna superior. Por ejemplo, para un ítem con 4 categorías de respuesta y parámetros (a= 1, b2= -1, b3= -0.5, b4= 1.5) tendríamos las siguientes tres funciones de probabilidad acumuladas que se muestran en la figura 15 (por supuesto, la función acumulada para la primera categoría no se representa porque sería igual a 1 para cualquier nivel de rasgo). Figura 15. Funciones de probabilidad del ítem 1,0

,8

P*

,6

,4

,2

0,0 -3,50

-2,50 -3,00

-1,50 -2,00

-,50 -1,00

,50 ,00

1,50 1,00

2,50 2,00

3,50 3,00

niveles de rasgo

Será suficiente con restar las probabilidades de dos categorías adyacentes para obtener la probabilidad de que un sujeto seleccione una categoría concreta:

Pjk (θ ) = Pjk* (θ ) − Pj*( k +1) (θ ) Lo que daría lugar en nuestro ejemplo a las 4 funciones de respuesta (tantas como categorías) de la figura 16.

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

105

Figura 16. Funciones de respuesta del ítem 1,0

,8

P

,6

,4

,2

0,0 -3,50

-2,50 -3,00

-1,50 -2,00

-,50 -1,00

,50 ,00

1,50 1,00

2,50 2,00

3,50 3,00

niveles de rasgo

En la Figura 15 puede comprobarse, por ejemplo, que una persona con nivel de rasgo igual a –0.5 tiene una probabilidad de 0.5 de seleccionar una de las dos categorías de respuesta superiores (3 ó 4), pues el parámetro b de la curva intermedia es precisamente –0.5. En la Figura 16 podemos comprobar que la función de respuesta de la primera categoría es monótona decreciente, que la correspondiente a la última categoría es monótona creciente (mayor probabilidad cuanto mayor es el nivel de rasgo) y que las de las categorías centrales son unimodales (lo que significa que serán los sujetos con un cierto nivel central de rasgo los que más probabilidad tienen de seleccionarlas). Se han presentado otros muchos modelos de TRI politómicos, que pueden consultarse en Santisteban y Alvarado (2001, apartado 4.4.1). Los hay que son modificaciones del modelo de Samejima, otros que se derivan del modelo politómico de Rasch y hay modelos específicos para los ítems con repuesta nominal. En su revisión sobre la investigación desarrollada con TAIs politómicos, Dodd, de Ayala y Koch (1995) señalan que pueden manifestar niveles aceptables de precisión aunque el banco en que se

106

TESTS ADAPTATIVOS INFORMATIZADOS

sustentan contenga un número reducido de ítems; en varios estudios de simulación se concluye que los niveles medios de error de medida son aceptables para diferentes niveles de rasgo con bancos de unos 30 ítems. Esto es así cuando se emplea como criterio de selección el de máxima información del ítem y cuando se establecen otros alternativos (por ejemplo, el criterio de máxima información de la categoría, el criterio de máxima cercanía entre el parámetro de localización y el nivel de rasgo estimado, o el criterio de máxima información para un determinado rango de valores de rasgo). Respecto a los procedimientos de estimación empleados, una de las dificultades del método de máxima verosimilitud es que no se pueden realizar estimaciones finitas mientras un sujeto elige una de las categorías extremas de respuesta (la primera o la última), lo cuál se ha intentado resolver mediante procedimientos stepsize como los descritos para los modelos dicotómicos y mediante la aplicación de procedimientos de estimación bayesianos. Aunque todavía no existen TAIs politómicos operativos, se ha ensayado su funcionamiento con diversos cuestionarios de personalidad, escalas de actitudes hacia el consumo de alcohol y de los consumidores hacia determinados servicios. Aguado (2000) diseñó un banco de 28 ítems para medir el ajuste emocional, a partir de diferentes concepciones teóricas del constructo y de diversos autoinformes ya validados. El formato de respuesta incluía 6 categorías ordenadas, desde “totalmente adecuado” hasta “totalmente inadecuado” para describir el modo de sentir o comportarse habitualmente. Para estudiar las propiedades psicométricas del banco realizó las siguientes comprobaciones: a) un análisis clásico de los ítems (media, varianza, índice de discriminación y consistencia interna cuando se elimina el ítem) y de la consistencia interna del banco (α=0.92), b) un estudio de validez convergente (correlaciones en torno a 0.8 con la escala N del cuestionario EPQ y con la escala de ajuste emocional del BFQ), c) un estudio de validez factorial del que se obtuvieron 5 factores correlacionados, d) mediante el programa PARSCALE se estimaron los parámetros de rasgo y de los ítems según el modelo de respuesta graduada de Samejima: se obtuvieron las funciones de información y

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

107

de error típico de medida para los niveles de rasgo entre –4 y +4 y la distribución de los parámetros de discriminación y de localización, y e) para comprobar el grado de invarianza conseguido se correlacionaron los niveles de rasgo estimados en dos mitades del banco (r=0.87) y las correlaciones entre los parámetros estimados en dos muestras distintas (correlación alrededor de 0.96 para ambos parámetros). En un estudio de simulación se estudiaron las propiedades de un TAI politómico, basado en el modelo de Samejima, con las siguientes características: a) procedimiento de arranque: selección de un nivel θ aleatorio entre –1 y +1, b) procedimiento de estimación de máxima verosimilitud para estimar los niveles de rasgo, c) selección sucesiva de ítems según el criterio de máxima información, y d) establecimiento de diversos criterios de parada, unos de longitud fija (determinado número de ítems) y otros de longitud variable (alcanzar determinado error típico de medida). Se simularon las respuestas de 1100 sujetos (100 para cada uno de los 11 niveles de rasgo prefijados). Como variables dependientes fundamentales se establecieron el nivel medio de sesgo (diferencias entre el nivel de rasgo estimado y el parámetro), error típico de medida (en las condiciones de parada de longitud fija) y número de ítems administrados (en las condiciones de longitud variable). El trabajo concluye que, excepto para los niveles extremos de ajuste emocional, con una media de 10 ó 15 ítems el TAI consigue estimaciones razonablemente precisas, incluso más precisas que las proporcionadas por otros cuestionarios de mayor longitud.

6.8.- Condiciones de aplicación En un proceso real de evaluación psicológica o educativa, donde las consecuencias del rendimiento en los tests son importantes para las personas, la consecución de la mejor calidad psicométrica posible de las estimaciones no debería entrar en colisión con el mantenimiento de ciertas condiciones mínimas de confortabilidad, de manera que la realización del test sea lo menos aversiva posible para los evaluandos. En principio, cuando la aplicación de un TAI tiene

TESTS ADAPTATIVOS INFORMATIZADOS

108

importantes consecuencias para quien lo responde, la situación de evaluación tiene componentes estresantes adicionales a los que se plantean en la aplicación de los tests convencionales de rendimiento, en primer lugar porque se trata de una prueba informatizada (los evaluandos pueden tener más o menos experiencia con los ordenadores, así como diferente predisposición hacia su uso), en segundo lugar porque el propio algoritmo de selección lleva a que se acierte aproximadamente un 50% de los ítems presentados (lo que puede romper con la concepción más tradicional de que cuantos más ítems se aciertan mayor nivel se manifiesta en el test), y en tercer lugar porque los TAIs operativos tienen en algunos aspectos menos flexibilidad que los tests convencionales (lo más usual es que no permitan omitir, diferir o cambiar respuestas). En este sentido, se ha desarrollado toda una línea de investigación aplicada que pretende incrementar la sensación subjetiva de éxito o el grado de control que el evaluando tiene en la sesión de evaluación. En definitiva, se intenta diseñar pruebas adaptativas que, manteniendo en lo posible sus beneficios de tipo psicométrico, no tengan desventajas motivacionales adicionales a las que tienen los tests convencionales. Se han ensayado TAIs fáciles que permiten tasas de aciertos superiores a las que se obtienen en los algoritmos adaptativos más comunes, se han probado TAIs que permiten la revisión (y el cambio) de las respuestas como cualquier otro test convencional y algunas variantes interesantes (como los tests autoadaptados informatizados) que permiten al evaluando cierto grado de control sobre el nivel de dificultad de la prueba. • TAIs fáciles Independientemente del nivel de rasgo de las personas, en un TAI suelen acertarse aproximadamente la mitad de los ítems que se presentan. Además, el procedimiento de selección de los ítems impide que, como es usual en otros tests convencionales de rendimiento óptimo, éstos se presenten secuencialmente de más fáciles a más difíciles. Algunos autores (v.gr., Andrich, 1995) advierten que estas características de los TAIs pueden tener algún efecto negativo en el estado motivacional con que los evaluandos afrontan la prueba.

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

109

Lunz y Bergstrom (1994) propusieron variantes fáciles de los TAIs que no seleccionaban el ítem más informativo, lo cuál según el modelo 1P coincidiría con el ítem cuya probabilidad de acierto para el último nivel de rasgo estimado fuera más próxima a 0.5, sino que consistían en elegir en cada momento el ítem cuya probabilidad de acierto fuera algo superior (0.6 ó 0.7). Como es lógico, un TAI fácil necesitará aplicar un mayor número de ítems para alcanzar la misma precisión que un TAI convencional fundamentado en el principio de máxima información. Estas mismas autoras (Bergstrom y Lunz, 1999) informan que, en contextos operativos de certificación para licenciados en enfermería y medicina, ajustan la dificultad del TAI a una probabilidad de 0.6. Prefieren compensar la ligera pérdida que se produce en precisión con una mayor aceptación del procedimiento por parte de los candidatos. •

Revisión de respuestas en TAIs

La oportunidad de revisar y cambiar las respuestas iniciales que un evaluando da a los ítems de un test es algo usual en las pruebas convencionales. Los evaluandos perciben que la posibilidad de revisar respuestas contribuye a que la prueba sea más justa y a reducir el nivel de ansiedad ante la situación de evaluación, lo que puede hacer que ciertas personas rindan mejor ante una situación que puede resultar estresante. En el caso de los TAIs, algunas razones pueden hacer desaconsejable permitir la revisión y cambio de respuestas: en primer lugar, puede incrementar el tiempo invertido en la sesión de evaluación; en segundo lugar, puede afectar a la precisión de las estimaciones, dado que algunos ítems ya no serían los más informativos para el nivel de rasgo estimado después de la revisión; finalmente, es posible que algunos evaluandos (si conocieran el funcionamiento de un TAI y el procedimiento empleado para estimar su nivel) utilicen en la primera aplicación del TAI estrategias ilegítimas de respuesta (por ejemplo, fallar deliberadamente algunos ítems, para que los siguientes que se le presenten sean muy fáciles) y así intentar incrementar su nivel estimado en la prueba (después de acertarlos en la fase de revisión). Respecto a este último

110

TESTS ADAPTATIVOS INFORMATIZADOS

inconveniente, Stocking (1997) obtuvo en un estudio de simulación menor sesgo y mayor precisión cuando la revisión se realizaba por bloques de ítems que cuando se planteaba al final de la primera aplicación del TAI. En algunas pruebas de certificación operativas se ha comprobado que cerca del 70% de los candidatos cambian alguna de las respuestas dadas en la primera aplicación del TAI (Bergstrom y Lunz, 1999). Con objeto de evitar estrategias de ganancia ilegítima asociadas a la revisión, en estos TAIs se controla de forma continuada el porcentaje de ítems que va acertando un candidato. Si el porcentaje de la primera aplicación es sensiblemente menor al que se espera (el test está ajustado para que se produzca un 60% de aciertos) lo que se hace es cambiar el algoritmo de selección para presentar los más informativos para el punto de corte (y no para el nivel de rasgo actual estimado). En lo que se refiere a las tasas de cambio de respuestas en los TAIs, y sus efectos en cuanto a nivel de rasgo estimado y precisión, en los estudios empíricos realizados se puede concluir que: a) aproximadamente el 60% de los evaluandos cambian al menos una respuesta, b) entre las respuestas cambiadas, alrededor del 50% son de error a acierto, c) de los sujetos que modifican respuestas, entre un 42 y un 52% mejoran su nivel en el test, mientras que lo reducen no más del 15%, d) la pérdida en precisión asociada a la revisión es escasa (el cociente entre las varianzas de los errores antes y después de la precisión es superior a 0.97), d) las ganancias medias después de la revisión oscilan entre 0.2 y 0.7, e) los sujetos de alto nivel de rasgo se aprovechan más de la revisión, f) el tiempo de la sesión se incrementa entre un 37 y un 61% cuando se incluye la posibilidad de revisar respuestas. En un trabajo sobre el tema (Olea et al., 2000) se compararon empíricamente los efectos que tiene la revisión de respuestas en un TAI y en un test fijo informatizado (TFI) de la misma longitud, evaluando el nivel de ansiedad-estado de los sujetos antes y después de la aplicación completa de los tests. Algunos de los principales resultados obtenidos fueron los siguientes: • El grupo de sujetos a los que se permitió la revisión obtuvo un descenso significativo de la ansiedad después de responder

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

111

a los tests, mientras que el grupo al que no se permitió revisar incrementó significativamente su nivel de ansiedad estado. • En la condición TAI, más del 80% de los evaluandos decidió modificar alguna de sus respuestas iniciales; entre ellos, un 67% mejoró su nivel después de la revisión y un 25% lo empeoró. El 43% de las respuestas cambiadas fueron de error a acierto, mientras que sólo un 15% fueron de acierto a error. • La correlación entre los niveles de rasgo estimados antes y después de la revisión fue de 0.95 (en el TAI) y 0.94 (en el TFI). • En ambos tests, después de la revisión se incrementó significativamente el nivel de rasgo medio estimado, el número de aciertos y el tiempo empleado en la sesión de evaluación. Descendió el nivel de ansiedad estado y no aparecieron diferencias significativas en precisión. En un segundo trabajo (Revuelta, Ximénez y Olea, en prensa) se proponen nuevos procedimientos de revisión de respuestas y se analizan sus consecuencias. •

Tests autoadaptados informatizados (TADIs).

Rocklin y O´Donnell (1987) propusieron un procedimiento alternativo para intentar controlar la ansiedad de evaluación que pueden experimentar los sujetos cuando responden a los TAIs. La idea consistió en permitir a los evaluandos ajustar de forma dinámica el nivel de dificultad de los ítems que debían responder, hasta situarse en el nivel que les permitiera un rendimiento óptimo. Para ello, propusieron dividir el banco de ítems en varias categorías de dificultad (normalmente entre 5 y 8) y permitir al evaluando, antes de responder a cada ítem, situarse en la categoría que considere más adecuada para su nivel; un test autoadaptado informatizado (TADI) selecciona en cada momento el ítem más informativo de la categoría elegida por el evaluando y proporciona feedback sobre el resultado obtenido (acierto o fallo). En lo últimos años se han realizado algunas revisiones (Wise, 1999; Wise, Ponsoda y Olea, 2002) sobre la investigación que se ha

112

TESTS ADAPTATIVOS INFORMATIZADOS

desarrollado sobre tests autoadaptados (normalmente estudios empíricos donde se aplican a grupos distintos un TADI y un TAI), de la que pueden extraerse las siguientes conclusiones: • Aunque en algunos trabajos se obtienen mayores niveles de rasgo estimado en la condición TADI, en la mayoría no se obtienen diferencias significativas respecto a la condición TAI. Se obtienen mayores diferencias en submuestras de sujetos que manifiestan mayor nivel de ansiedad-rasgo. • No existen resultados consistentes respecto al pretendido descenso de ansiedad postest, aunque parece que las estimaciones de rasgo en los TADIs correlacionan menos (y de forma menos negativa) con los niveles de ansiedad de los evaluandos. • Prácticamente en todos los estudios empíricos se obtiene mayor nivel de imprecisión (mayor error típico de medida) en la condición TADI que cuando se aplica un TAI. • El tiempo invertido en la sesión de evaluación se incrementa entre un 20 y un 30%. S.L. Wise, uno de los autores que más investigación han realizado sobre el tema, considera que estos dos últimos inconvenientes hacen a los TADIs una alternativa de evaluación poco atractiva, a menos que se demuestre en un futuro próximo que sus estimaciones resultan más válidas que las de los TAIs. Los previsibles beneficios de los TADIs, fundamentalmente respecto al incremento en nivel de rasgo estimado y al descenso en ansidad estado, se han intentado explicar de forma diferente. Así, Rocklin (1994) plantea la “hipótesis de auto-regulación”, según la cuál el evaluando que responde a un TADI ajusta su nivel de ansiedad al nivel que le resulta más adecuado para conseguir un rendimiento óptimo; Vispoel y Coffman (1994) plantean la “hipótesis de distracción”: los evaluandos prestan más atención a la tarea en un TADI que en un TAI; Wise (1994) propuso la “hipótesis de control percibido”, que mantiene que los efectos beneficiosos se deben a que el evaluando tiene mayor grado de control sobre una situación que le puede resultar estresante.

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

113

Olea, Ponsoda y Wise (1995) encontraron que en un TADI se obtuvieron mayores tasas de acierto y menor nivel de ansiedad postest que en un TAI, lo que en principio puede hacer pensar que es la sensación subjetiva de éxito (y no tanto el tipo de test) la responsable del descenso en ansiedad. Para intentar clarificar estos efectos, se planificó un segundo estudio (Ponsoda, Olea, Rodríguez y Revuelta, 1999) manipulando la dificultad en ambos tipos de tests. Concretamente, y a partir de un banco de ítems de vocabulario inglés calibrado según el modelo 3P, se establecieron 4 tipos de tests diferentes: • TAI-Fácil: mediante una ligera modificación en el algoritmo de selección de máxima información, se elegía el ítem más informativo para la estimación actual de rasgo menos 0.5. • TAI-Difícil: seleccionaba en cada momento el ítem más informativo para el nivel de rasgo estimado más 0.5. • TADI-Fácil: mediante instrucciones verbales, se instaba a los sujetos a que eligieran categorías (y por tanto los ítems) de dificultad que les resultaran accesibles para su nivel. El banco de ítems se dividió en 5 categorías ordenadas de dificultad. • TADI-Difícil: se instruía a seleccionar categorías de dificultad auténticamente desafiantes, diciéndoles que los aciertos en los ítems difíciles tenían más peso en la calificación final que los obtenidos en ítems fáciles. Los sujetos se asignaron de forma aleatoria a una de las 4 condiciones. Cada uno de los tests finalizaba cuando se presentaban 20 ítems. Antes y después del test cada sujeto debió responder a dos versiones equivalentes de 10 ítems de la escala de ansiedad estado de Spielberger, Gorsuch y Lushene (1970). En la tabla 2 se muestran las medias en nº de ítems acertados y en las diferencias en ansiedad estado (entre el pretest y el postest) en cada una de las cuatro condiciones.

TESTS ADAPTATIVOS INFORMATIZADOS

114

Tipo de test TAI-Fácil TAI-Difícil TADI-Fácil TADI-Difícil

Tabla 2. Media de ítems acertados Ítems acertados Ansiedad Pre-Postest 15.15 1.07 8.62 -0.84 15.73 1.50 13.04 0.18

Puede observarse cierta relación entre los niveles de ansiedad estado y la dificultad de cada una de las condiciones o tipos de tests: en el TAI-Difícil se produce un incremento de la ansiedad, mientras que cuando se obtienen tasas elevadas de acierto se experimenta cierto descenso en la ansiedad-estado. No hubo diferencias significativas entre los diferentes tipos de tests en el nivel medio de rasgo estimado. La precisión fue mayor en las condiciones TAI. Se obtuvieron diferencias significativas en ansiedad (diferencias prepostest) entre los dos tipos de TAIs.

6.9.- Otros objetivos de investigación Fundamentalmente en contextos de evaluación educativa y exámenes de certificación resulta frecuente la elaboración de tests de maestría, para clasificar con precisión a los sujetos en uno de dos grupos (aprobados-suspensos, admitidos-no admitidos, novatosexpertos, etc.). Determinadas estrategias adaptativas pueden resultar más eficientes que los tests convencionales, en el sentido de optimizar la consistencia de las clasificaciones mediante la presentación de un número reducido de ítems. La estrategia más tradicional es la establecida en los tests de maestría adaptativos, que son TAIs convencionales cuyo criterio de parada tiene que ver con que el intervalo de confianza establecido a partir del nivel estimado de è incluya o no el punto de corte fijado por los expertos en el contenido de la prueba. Obviamente, el intervalo será más estrecho a medida que aumenta la presentación de ítems y se requerirá la aplicación de un número más elevado de ítems para los evaluandos cuyo nivel de rasgo se encuentre próximo al punto de corte. Razonando como es usual en Estadística Inferencial (Pardo y

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

115

San Martín, pp. 161 y ss), el intervalo de confianza de è será ( θˆ + zα / 2 S e , θˆ + z1−α / 2 S e ), donde Se es el error típico de medida y zá es el valor de la distribución normal, N(0, 1), tal que P(Z < zá) = á. Una segunda estrategia, que da lugar a los denominados tests de maestría secuenciales, consiste en aplicar un procedimiento de parada fundamentado en el cociente de verosimilitudes (Spray y Reckase, 1996). Proporciona una mayor precisión en las clasificaciones que la obtenida con los tests de maestría adaptativos: a) Se plantea en primer lugar una región de indiferencia en torno al punto de corte ( θ 0 ± δ ). b) Se formulan las siguientes hipótesis estadísticas:

H 0 :θ ≥ θ e ≡ θ 0 + δ

H1 :θ ≤ θ d ≡ θ 0 − δ

c) Se fijan las probabilidades de error α (rechazar la hipótesis nula cuando es verdadera) y β (mantener la hipótesis nula cuando es verdadera la alternativa). d) Usando el test de razón de verosimilitud de Wald se obtiene la razón entre las verosimilitudes, LR, definido como : LR = L(θ e ) / L(θ d ) . e) Si LR ≤ β /(1 − α ) se mantiene H 0 , si LR ≥ (1 − β ) / α se rechaza, y si se encuentra entre los dos valores anteriores continúa la presentación de ítems. Se han ensayado además tests de maestría secuenciales con dos puntos de corte (Eggen, 1999) y otros donde se aplican los desarrollos de la teoría bayesiana secuencial de la decisión (v.gr. Vos, 2000), que permiten la selección de ítems considerando criterios adicionales a los psicométricos (v.gr. costes económicos o errores en la clasificación) y utilizar modelos de medida alternativos a la TRI. Vos y Glas (2000) proponen un procedimiento para aplicar tests de maestría adaptativos a testlets.

116

TESTS ADAPTATIVOS INFORMATIZADOS

También en contextos de evaluación educativa resulta algo prioritario obtener información diagnóstica sobre los déficits de conocimiento o procesamiento de los alumnos, para tenerla en cuenta en lo que idealmente sería un proceso de enseñanza adaptado a las necesidades individuales. En este sentido, Hontangas et al. (2000) reflejan las limitaciones que tienen los TAIs convencionales para cubrir los requerimientos de una buena evaluación educativa y describen algunos nuevos enfoques adaptativos (unos fundamentados en la TRI y otros propuestos en el marco de los Sistemas Tutores Inteligentes) que pretenden acercar la evaluación y el adiestramiento. Entre estos nuevos enfoques, destacamos algunos procedimientos de TRI para clasificar a los alumnos en determinados estados de conocimiento según sus déficits de procesamiento (Tatsuoka y Tatsuoka, 1997), otros que se fundamentan en las relaciones de dependencia entre los ítems para conseguir objetivos análogos (por ejemplo, los que se fundamentan en la Teoría del Espacio de Conocimiento -Dowling, Hockemeyer y Ludwing, 1996-) y, finalmente, los que pretenden aplicar los desarrollos sobre Redes Bayesianas para evaluar destrezas complejas (v.gr., Almond y Mislevy, 1999). También se ha probado la eficacia de TAIs fundamentados en bancos de ítems con formato de respuesta construída (v. gr., Bennett, Steffen, Singley, Morley y Jacquemin, 1997). Describiremos brevemente, como ilustración de este último grupo de aportaciones, la estrategia de evaluación diagnóstica adaptativa propuesta por Tatsuoka y Tatsuoka (1997). Esta estrategia se apoya en la metodología del espacio-regla (Tatsuoka, 1983, 1985; Tatsuoka y Tatsuoka, 1987), que tiene por objeto determinar los estados de conocimiento o los errores cognitivos en que incurren los alumnos en algún dominio de contenidos. Hay bastantes estudios que utilizan esta metodología para analizar temas como la resolución de problemas sobre suma de números con signo (Tatsuoka, 1985), ecuaciones lineales (Birenbaum, Kelly y Tatsuoka, 1993), multiplicación y división con exponentes (Birenbaum y Tatsuoka, 1993), fracciones (Tatsuoka y Tatsuoka, 1997), compresión lectora (Buck, Tatsuoka y Kostin, 1997) y también dominios más complejos,

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

117

como la arquitectura (Katz, Martínez, Sheehan y Tatsuoka, 1998). La mayoría de estos estudios emplean esta metodología con tests fijos convencionales, habiendo sido utilizada de manera adaptativa únicamente en el trabajo de Tatsuoka y Tatsuoka (1997). En líneas generales, el método del espacio-regla consiste en lo siguiente: a) Identificar las destrezas y conocimientos elementales, denominadas atributos Ak, que intervienen en la ejecución de las tareas que constituyen el dominio objeto de evaluación. Los atributos se obtienen mediante un análisis de los requisitos cognitivos de una muestra representativa de estas tareas. Por ejemplo, si el objeto de evaluación es la suma de fracciones, cada atributo puede ser un elemento o una etapa del proceso para realizar la operación: A1 = separar la parte entera de la parte fraccionaria A2 = obtener un denominador común A3 = sumar los numeradores etc.

b) Elaborar un matriz de incidencia, Q, con la que describir los ítems del banco (i=1,...,n) a partir de los atributos (k=1,...,K) necesarios para resolverlos correctamente. Si la destreza k es requerida por el ítem i, el elemento qik de la matriz Q será 1, y si la destreza no es requerida, qik valdrá 0, Por ejemplo, en bancos de tres ítems explicados por dos atributos, la matriz de incidencia podría ser: Banco 1 Atributos

A1 A2

I1 1 0

I2 0 1

Banco 2 I3 1 0

I1 1 0

I2 1 1

I3 1 0

c) Identificar los estados de conocimiento (o uso de reglas erróneas, conceptos mal comprendidos, etc.), ECh, que se pretende diagnosticar. Los ECh se definen como una combinación de atributos básicos que se poseen y carecen, o

TESTS ADAPTATIVOS INFORMATIZADOS

118

que son dominados y no dominados. En el caso de intervenir K destrezas puede haber hasta 2K estados de conocimiento, es decir, los resultantes de formar todas las combinaciones posibles de atributos presentes, Ak=1, o ausentes, Ak=0, simultáneamente. En el ejemplo, tenemos cuatro estados: no poseer ninguna destreza (EC1), poseer sólo una (EC2 y EC3) y poseer las dos (EC4). A cada ECh le corresponde un patrón ideal de respuestas, uh, que indica los ítems que deberían ser acertados, uhi=1, y fallados, uhi=0. Patrones ideales de respuesta

Estados de Conocimiento

EC1 EC2 EC3 EC4

Atributos A1 A2 0 0 1 0 0 1 1 1

I1 0 1 0 1

Banco 1 I2 I3 0 0 0 1 1 0 1 1

I1 0 1 0 1

Banco 2 I2 I3 0 0 0 1 0 0 1 1

En la práctica, el número de estados de conocimiento suele ser menor que 2K, ya que algunos de ellos no son identificables a partir el banco de ítems disponible. Por ejemplo, en el banco 2, según lo visto en “b)”, para acertar los ítems 1 y 3 se ha de tener la destreza A1 y para acertar el ítem 2 ambas destrezas. Por lo tanto, en el estado EC1 (ninguna destreza) habrá que esperar que se fallen los tres ítems. En el estado EC4 (ambas destrezas), habrá que esperar tres aciertos. En el estado EC2 (sólo destreza A1), habrá que esperar acierto en los ítems 1 y 3 y fallo en el 2. En el estado EC3 (sólo destreza A2), habrá que esperar fallo en los tres ítems. En consecuencia, a partir del banco 2, no son identificables los estados EC1 y EC3, pues ambos producen el mismo patrón ideal. Un análisis lógico de la matriz Q permitirá detectar las combinaciones de atributos que son incompatibles en el banco de ítems. Por ejemplo, el programa BUGLIB (Varadi y Tatsuoka,1989) permite identificar todos los estados de conocimiento admisibles en un matriz de incidencia utilizando reglas de álgebra booleana.

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

119

También hay que tener en cuenta que en el conjunto de patrones de respuesta posibles, uj, hay muchos que no corresponden directamente a ningún estado de conocimiento. En el ejemplo (banco 1) habría cuatro: 110, 100, 110 y 011. Estos patrones no ideales, ue, se consideran desviaciones de los patrones ideales, uh, de los estados de conocimiento, ECh. Las desviaciones pueden deberse a que los estados de conocimientos o la aplicación de reglas que implican están sujetas a errores aleatorios. Es decir, personas con el mismo nivel de rasgo o el mismo estado de conocimiento (v.gr., en el caso de 8 ítems ordenados por dificultad creciente, uh=11110000), pueden mostrar empíricamente diferentes patrones por la influencia de factores como la adivinación (v.gr., ue=11110001) o el descuido (v.gr., ue=01110000); mientras que sujetos con distinto nivel pueden obtener el mismo patrón de respuesta uh por motivos similares. En síntesis, el problema es cómo asignar los patrones ue a un ECh en base a su semejanza con los patrones uh. La solución es proponer un criterio común para compararlos (apartado d) y utilizar técnicas de reconocimiento y clasificación de patrones estadísticos para tomar las decisiones (apartado e). d) Definir el espacio de clasificación, denominado espacioregla, en el que situar los patrones de respuesta, uj, y establecer su correspondencia con los estados de conocimiento, ECh. Se trata de un espacio cartesiano de dos dimensiones: 1) el nivel, θ, y 2) el grado de adecuación de los patrones de respuesta, ζ, al comportamiento esperado por algún modelo de la TRI. La primera indica el nivel global, θj, más compatible con el patrón de respuestas, uj, mostrado por el sujeto. El nivel de rasgo es estimado por cualquiera de los métodos descritos en el apartado 2.3, a partir de uj y los parámetros de sus ítems. La segunda corresponde al índice ECI4 de Tatsouka (1985) para analizar patrones de respuesta aberrantes o atípicos:

TESTS ADAPTATIVOS INFORMATIZADOS

120

f (u j )

ζj =

Var[ f (u j )]

siendo, n

f (u j ) = ∑ [ pi (θ j ) − u i ][ pi (θ j ) − T (θ j )] i =1

n

var[ f (u j )] = ∑ pi (θ j )[1 − pi (θ j )][ p i (θ j ) − T (θ j )] 2 i =1

pi(θj), la probabilidad de acertar el ítem i con habilidad estimada θj T(θj), la media de las pi(θj) de los n ítems aplicados Todos los patrones de respuesta, uj, son situados en este espacio como puntos xj=(θj, ζ j). En el caso de los estados de conocimiento, ECh, dado que su aplicación está sujeta a la aparición de errores aleatorios, hay cierta variabilidad en torno a los puntos xh que idealmente les corresponden y, por ello, se representan como elipsoides en lugar de puntos (ver la figura 17). Según Tatsuoka y Tatsuoka (1987), cada ECh tiene un elipsoide definido por una distribución normal bivariada, con centroide en xh=(θh , ζh) y matriz de covarianzas Σh, que por tratarse de dimensiones independientes es:

 I (θ h ) −1 = ∑h  0 

0  1

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

121

Figura 17. Representación del espacio-regla (+, patrones uj; elipses, ECh).

e) Clasificar los patrones de respuesta, uj, en uno de los estados de conocimiento, ECh. Se utilizan técnicas similares a las empleados para el reconocimiento y clasificación de patrones estadísticos. El procedimiento consiste en calcular la distancia del punto xj=(θj, ζj) del patrón de respuesta uj a los centroides de los estados de conocimiento xh=(θh, ζh). La métrica utilizada es la distancia de Mahalanobis, D 2jh , cuya expresión es:

D 2jh = (x j − x h )

'

∑ (x -1 h

j

− xh )

A partir de las distancias, se seleccionan los dos estados de conocimientos más próximos ECr y ECs, es decir, aquéllos con los valores D2 más pequeños, y se aplican reglas bayesianas para tomar la decisión de cuál de ellos es más

122

TESTS ADAPTATIVOS INFORMATIZADOS

probable que haya generado el patrón uj. A partir de las probabilidades de error de clasificación obtenidas, εr y εs, se asigna al sujeto el estado de conocimiento cuya probabilidad sea más baja. Las fórmulas para efectuar estos cálculos pueden encontrarse en Tatsuoka y Tatsuoka (1987). Una vez descrita la metodología del espacio-regla, el proceso de evaluación adaptativa consistirá en seleccionar los ítems más apropiados para encontrar el estado de conocimiento del sujeto de la manera más eficiente posible. En cuanto a las partes del algoritmo adaptativo, se procedería del siguiente modo: a) El ítem inicial será seleccionado a partir de cualquiera de los criterios generales de arranque ya comentados (en el apartado 4.1). b) Después de la administración de un ítem, se estima el nivel de rasgo del sujeto y se calcula el índice de ajuste del patrón de respuestas resultante, con lo que se obtiene un punto en el espacio-regla. c) El ítem siguiente es seleccionado utilizando la forma de operar de las técnicas de aceleración usadas en los métodos de optimización. El próximo ítem será el que maximice la distancia al punto estimado previamente. Es decir, para cada ítem del banco no presentado, se calculan los puntos que le corresponderían en caso ser acertado y fallado. Se calculan las distancias entre estos puntos y el anterior, y se selecciona el ítem cuya distancia sea mayor. d) El test termina cuando el punto estimado se estabiliza en alguna zona del espacio-regla, o sea, cuando la distancia entre el punto obtenido en el ítem n y el n+1 sea inferior a un criterio de convergencia. También se puede combinar con otros criterios adicionales, como haber aplicado un número mínimo de ítems, etc. Una vez terminada la aplicación del TAI se clasifica al sujeto en el estado de conocimiento que le corresponda, tal como hemos descrito en el apartado e sobre el método del espacio-regla. El

CAPÍTULO 6. INVESTIGACIÓN ACTUAL EN TAIS

123

resultado es una estimación global de la habilidad y un diagnóstico cognitivo a partir del patrón de atributos del estado de conocimiento asignado. Adicionalmente, la información obtenida sirve para diseñar programas de enseñanza específicos adaptados a las necesidades de cada alumno, los cuales consisten en disponer las actividades de entrenamiento en una secuencia apropiada según indican las distancias existentes entre estados de conocimiento. Es decir, una vez el alumno ha sido clasificado en un estado de conocimiento y se han detectado las destrezas que le faltan o la naturaleza de los errores que comete, se le ofrece, primero, instrucción específica en las destrezas que corresponden al estado más próximo (menor distancia de Mahalanobis), después en el siguiente mas cercano a éste, y así sucesivamente hasta alcanzar la competencia plena. De este modo, la evaluación y la enseñanza pueden quedar integradas en un mismo sistema.

Referencias bibliográficas

Abad, F., Olea, J. y Ponsoda, V. (2001). Analysis of the optimum number alternatives from the Item Response Theory. Psicothema 13, 1, 152-158. Abad, F., Olea, J., Real, E. y Ponsoda, V. (2002). Estimación de habilidad y precisión en tests adaptativos informatizados y tests óptimos. Un caso práctico. Revista Electrónica de Metodología Aplicada, 7, 1, 1-20. Abad, F.J., Ponsoda, V. y Hontangas, P. (1998): El efecto de la multidimensionalidad en las estimaciones de un modelo unidimensional de la TRI. Psicológica, 19, 41-51. Abernathy, L.J. (1986). Computerized placement tests: A revolution in testing instruments. New York: College Board. Aguado, D. (2000). Garantías científicas de un banco de ítems para la evaluación del ajuste emocional. Características psicométricas de su administración en formato de test adaptativo informatizado. Tesis doctoral. Facultad de Psicología de la Universidad Autónoma de Madrid. Allan, D. (1992). Oxford Placement Test 1. Oxford: Oxford University Press Almond, R.G. y Mislevy, R.J. (1999). Graphical models and computerized adaptive testing. Applied Psychological Measurement, 23, 223-237. Andrich, D. (1995). Review of the book Computerized Adaptive Testing: A Primer. Psychometrika, 4, 615-648. Assessment Systems Corporation (1994). MicroCAT Testing System. St. Paul. MN: Author. Baker, F.B. (1992). Item Response Theory. Parameter estimation techniques. New York: Marcel Dekker.

126

TESTS ADAPTATIVOS INFORMATIZADOS

Barbero, M.I. M. (1999). Gestión informatizada de bancos de ítems. En J.Olea, V. Ponsoda y G. Prieto (Eds). Tests informatizados. Fundamentos y aplicaciones.(pp. 63-83). Madrid: Pirámide. Bejar, I. I. (1990). A generative analysis of a three dimensional spatial task. Applied Psychological Measurement, 14 (3) 237245. Bejar, I. I. (1993). A generative approach to psychological and educational measurement. En N. Frederiksen, R. J. Mislevy e I. I. Bejar (Eds.). Test theory for a new generation of tests. (pp. 323-358). Hillsdale, NJ: LEA. Bejar, I. I. y Yocom, P. (1991). A generative approach to the modeling of isomorphic hidden figure items. Applied Psychological Measurement, 15 (2) 129-137. Bennet, R.E., Steffen, M. Singley, M.K., Morley, M. y Jacquemin, D. (1997). Evaluating an automatically scorable open-ended response type for measuring mathematical reasoning in computerized adaptive testing. Journal of Educational Measurement, 34, 162176. Bergstrom, B. y Lunz, M. (1999). CAT for certification and licensure. En F. Drasgow y J. B. Olson-Buchanan (Eds.). Innovations in computerized assessment.(pp. 67-92).Mahwah, NJ: LEA. Binet, A. y Simon, Th.A. (1905). Méthodes nouvelles pour le diagnostic du niveau intellectual des anormaux. L´Anneé Psychologie, 11, 191-336. Birenbaum, M. y Tatsuoka, K.K. (1993). Applying an IRT-based cognitive diagnostic model to diagnose students’knowledge states in multiplication and division with exponents. Applied Measurement in Education, 6, 255-268. Birenbaum, M., Kelly, A., y Tatsuoka, K.K. (1993). Diagnosing knowledge states in algebra using the rule space model. Journal for Research in Mathematics Education, 24, 442-459. Bock, R.D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37, 29-51. Bradlow, E.T., Wainer, H. y Wang, X. (1999). A bayesian random effects model for testlets. Psychometrika, 64, 153-168.

REFERENCIAS BIBLIOGRÁFICAS

127

Buck, G., Tatsuoka, K.K., y Kostin, I. (1997). The subskills of reading: rule-space analysis of a multiple-choice test of second language reading comprehension. Language Learning, 47, 423466. Chen, S.-Y., Ankenmann, R.D. y Chang, H.H. (2000). A comparison of item selection rules at the early stages of computerized adaptive testing. Applied Psychological Measurement, 24, 241255. Cheng, P. E. y Liou, M. (2000). Estimation of trait level in computerized adaptive testing. Applied Psychological Measurement, 24, 257-265 Computer Adaptive Technologies (1994). CAT software System. Chicago, IL: Author. Cuesta, M. (1996). Unidimensionalidad. En J. Muñiz (Coord.) Psicometría.(pp. 239-292). Madrid: Universitas. Cusick, G.M. (1989). Computer-assisted vocational assessment. Vocational Evaluation and Work Adjustment Bulletin, 22, 1, 1923. Dodd, B.G. (1990). The effect of item selection procedures and stepsize on computerized adaptive attitude measurement using the rating scale model. Applied Psychological Measurement, 14, 355-366. Dodd, B.G., de Ayala, R.J. y Koch, W.R. (1995). Computerized adaptive testing with polytomous items. Applied Psychological Measurement, 19, 5-22. Dowling, C.E., Hockemeyer, C. y Ludwig, A.H. (1996). Adaptive assessment and training using the neighbourhood of knowledge states. En C. Frasson, G. Gauthier, y A. Lesgold (Eds.). Intelligent Tutoring Systems. Heidelberg: Springer-Verlag. Drasgow, F. y Olson-Buchanan, J.B. (1999). Innovations in computerized assessment. Mahwah, NJ: Erlbaum. Eggen, T.J.H.M. (1999). Item selection in adaptive testing with the sequential probability ratio test. Applied Psychological Measurement, 23, 249-261

128

TESTS ADAPTATIVOS INFORMATIZADOS

Embretson, S. E. (1994). Application of cognitive design systems to test development. En C. R. Reynolds (Ed.). Advances in cognitive assessment. An interidisciplinary perspective. (pp. 107135). New York: Plenum Press. Embretson, S. E. (1999). Generating items during testing. Psychometric issues and models. Psychometrika, 64 (4) 407-433. Fischer, G. H. (1973). The linear logistic test model as an instrument in educational research. Acta Psychologica, 37, 359-374. Fischer, G. H. y Parzer, P. (1991). An extension of the rating scale model with an application to the measurement of change. Psychometrika, 56 (4) 637-651. Fischer, G. H. y Pendl, P. (1980). Individualized testing on the basis of the dichotomous Rash model. En L. J. T. van der Kamp, W. F. Langerak y D. N. M. de Gruijter (Eds.) Psychometrics for educational debates. New York: John Wiley & Sons. Carcía, C. (2002). Proyecto docente de Psicometría. Madrid: Universidad Autónoma. Glas, C.A.W., Wainer, H. y Bradlow, E.T. (2000). MML and EAP estimation in testlet-based adaptive testing. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp 271-287).Dordrecht: Kluwer Academic Publishers. Hambleton, R. y Swaminathan, H. (1985). Item response theory. Principles and applications. Boston: Kluver Nijhoff. Hambleton, R., Zaal, J.N., Pieters, J.P.M. (1991). Computerized adaptive testing: Theory, applications, and standards. En R.K. Hambleton y J.N. Zaal (Eds.) Advances in Educational and psychological testing. (pp. 341-366). Boston: Kluwer. Herrando, S. (1989). Tests adaptativos computerizados: una sencilla solución al problema de la estimación con puntuaciones perfecta y cero. II Conferencia Española de Biometría. Biometric Society. Segovia. Hetter, R.D., Segall, D.O. y Bloxon, B.M. (1994). A comparison of item calibration media in computerized adaptive testing. Applied Psychological Measurement, 18(3), 197-204. Hontangas, P. (1999). Software para la construcción y administración de tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto

REFERENCIAS BIBLIOGRÁFICAS

129

(Eds.). Tests informatizados: Fundamentos y aplicaciones.(pp. 251-286).Madrid: Pirámide. Hontangas, P., Ponsoda, V., Olea, J. y Abad, F. (2000). Los tests adaptativos informatizados en la frontera del siglo XXI: Una revisión. Metodología de las Ciencias del Comportamiento, 2 (2), 183-216. Hontangas, P., Ponsoda, V., Olea, J. y Wise, S.L. (2000). The choice of item difficulty in self-adapted testing. European Journal of Psychological Assessment 16, 1, 3-12. Hornke, L.F. (2000). Item response times in computerized adaptive testing. Psicológica, 21 (1-2), 175-189. Hornke, L. F. y Habon, M. W. (1986). Rule based item bank construction and evaluation within the linear logistic framework. Applied Psychological Measurement, 10 (4) 369-380. Irvine, S. H., Dann, P. L. y Anderson, J. D. (1990). Towards a theory of algorithm determined cognitive test construction. British Journal of Psychology, 81, 173-195. Irvine, S. H. y Kyllonen, P. (Eds.) (2002). Item generation for test development. Mahwah, NJ: Erlbaum Publishers. Katz, I.R., Martínez, M.E., Sheehan, K, M., y Tatsuoka, K.K. (1998). Extending the rule space methodology to a semantically-rich domain: Diagnostic assessment in Architecture. Journal of Educational and Behavioral Statistics, 24, 254-278. Kim, J.K. y Nicewander W.A. (1993). Ability estimation for conventional tests. Psychometrika, 58, 4, 587-599. Kingsbury, G.G. (1990). Adapting adaptive testing: Using the MicroCAT Testing System in a local School District. Educational Measurement: Issues and Practice, 9, 2, 3-6. Kingsbury, G.G. (1996). Item review and adaptive testing. Paper presented an the annual meeting of the NCME, New York. Kingsbury, G.G. y Houser, R. (1993). Assessing the utility of item response models in computerized adaptive testing. Educational Measurement: Issues and Practice, 12 (1), 21-27. Kingsbury, G.G. y Houser, R. (1999). Developing computerized adaptive tests for school children. En F. Drasgow y J. B. OlsonBuchanan (Eds.), Innovations in computerized assessment. (pp. 93-116).Mahwah, NJ: LEA.

130

TESTS ADAPTATIVOS INFORMATIZADOS

Kingsbury, G.G. y Zara, A.R. (1989). Procedures for selecting items for computerized adaptive tests. Applied Measurement in Education, 2, 359-375. López Pina, J.A. (1995). Teoría de respuesta a los ítems: Fundamentos. Murcia: DM-PPU. Lord, F.M. (1970). Some test theory for tailored testing. En W. H. Holtzman (Ed.) Computer assisted instruction, testing and guidance. (pp. 139-183). New York: Harper and Row. Lord, F.M. (1971a). The theoretical study of the measurement effectiveness of flexilevel tests. Educational and Psychological Measurement, 31, 805-813. Lord, F.M. (1971b). The self-scoring flexilevel test. Journal of Educational Measurement, 8, 147-151. Lord, F.M. (1971c). Tailored testing, an application of stochastic approximation. Journal of de American Statistical Association, 66, 707-711. Lord, F.M. (1977). A broad-range test of verbal ability. Applied Psychological Measurement, 1, 95-100. Lord, F.M. (1980). Applications of Item Response Theory to practical testing problems. Hillsdale, NJ: LEA. Lord, F.M. (1983). Unbiased estimators of ability parameters, of their variance, and of their parallel-forms reliability. Psychometrika, 48, 233-245. Lord, F.M. (1986). Maximum likelihood and Bayesian parameter estimation in item response theory. Journal of Educational Measurement, 23, 157-162. Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Luecht, R.M. y Nungester, R.J. (2000). Computerized-adaptive sequential testing. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp 117128).Dordrecht: Kluwer Academic Publishers. Lumsden, J. (1976). Test Theory. Annual Review of Psychology, 27, 251-280. Lunz, M.A. y Bergstrom, B.A. (1994). An empirical study of computerized adaptive test administration conditions. Journal of Educational Measurement, 31, 251-263.

REFERENCIAS BIBLIOGRÁFICAS

131

Martínez Arias, R. (1995). Psicometría: Teoría de los tests psicológicos y educativos. Madrid: Síntesis. McBride, J.R. (1988). A computerized adaptive version of the Psychological Corporation´s Differential Aptitude Battery. Paper presented at the annual meeting of APA, Atlanta, GA. McBride, J.R. y Martin, J.T. (1983). Reliability and validity of adaptive ability tests in a military setting. En D. J. Weiss (Ed.). New Horizons in testing: Latent trait test theory and computerized adaptive testing (pp 223-236). New York: Academic Press. McDonald, R.P. (1999). Test Theory: A unified treatment. New Jersey: LEA. McDonald, R.P. (2000). A basis for Multidimensional Item Response Theory. Applied Psychological Measurement, 24, 99-114. Meisner, R., Luecht, R. y Reckase, M. (1993). The comparability of the statistical characteristics of test items generated by computer algorithms. American College Testing Research Report Series, 93-3. Mills, C.N., Potenza, M.T., Fremer, J.J. y Ward, W.C. (Eds.) (2002). Computer-based testing: Building the foundation for future assessment. Mahwah, NJ: LEA. Mills, C.N. y Steffen, M. (2000). The GRE computer adaptive test: Operational issues. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp 75-100). Dordrecht: Kluwer Academic Publishers. Mislevy R.J. y Bock R.D. (1990). Bilog 3. Scientific Software, Inc. Mooresville, Indiana. Mislevy, R. J., Sheehan, K. M. y Wingersky, M. (1993). How to equate tests with little or no data. Journal of Educational Measurement, 30 (1) 55-78. Mislevy, R.J. y Almond, R.G. (1996). Graphical models and computerized adaptive testing. CSE Technical Report 434. University of California. Muñiz, J. (Coord.) (1996). Psicometría. Madrid: Universitas. Muñiz, J. (1997). Introducción a la teoría de respuesta a los ítems. Madrid: Pirámide.

132

TESTS ADAPTATIVOS INFORMATIZADOS

Muñiz, J. y Hambleton, R. (1999). Evaluación psicométrica de los tests informatizados. En J. Olea, V. Ponsoda, y G. Prieto (Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp. 2352).Madrid: Pirámide. Muraki, E. y Bock, R.D. (1996). Parscale. IRT based test scoring and item analysis for graded-open exercises and performance tests. Chicago, Il.: Scientific Software International. Navas, M.J. (1996) . Equiparación de puntuaciones. En J. Muñiz (Coord.). Psicometría. (pp. 293-369).Madrid: Universitas. Olea, J. y Hontangas, P. (1999). Tests informatizados de primera generación. En J. Olea, V. Ponsoda, y G. Prieto (Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp. 111125).Madrid: Pirámide. Olea, J. y Ponsoda, V. (1996). Tests adaptativos informatizados. En J. Muñiz (Coord..) Psicometría. (pp. 730-783).Madrid: Universitas. Olea, J., Ponsoda, V. y Prieto, G. (1999) (Eds.). Tests informatizados: Fundamentos y aplicaciones. Madrid: Pirámide. Olea, J., Ponsoda, V., Revuelta, J. y Belchí, J. (1996). Propiedades psicométricas de un test adaptativo informatizado de vocabulario inglés. Estudios de Psicología, 55, 61-73. Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P., y Abad, F.J. (2001). Requerimientos, aplicaciones e investigación en tests adaptativos informatizados. Apuntes de Psicología, 19, 1, 11-28. Olea, J., Ponsoda, V., Revuelta, J., Hontangas, P. y Suero, M. (1999). Investigación en tests adaptativos informatizados. En J. Olea, V. Ponsoda y G. Prieto (Eds). Tests informatizados. Fundamentos y Aplicaciones. (pp. 163-185).Madrid: Pirámide. Olea, J., Ponsoda, V. y Wise, S. (1995). Tests adaptativos y autoadaptados informatizados: Efectos en la ansiedad y en la precisión de las estimaciones. Ponencia presentada en el IV Simposium de Metodología de las Ciencias del Comportamiento. Murcia. Olea, J., Revuelta, J., Ximénez, C. y Abad, F.J. (2000). Psychometric and psychological effects of review on computerized fixed and adaptive tests. Psicológica, 21, 157-173.

REFERENCIAS BIBLIOGRÁFICAS

133

Owen, R.J. (1975). A bayesian sequential procedure for quantal response in the context of adaptive mental testing. Journal of the American Statistical Association, 70, 351-356. Pardo, A. y San Martín, (1998). Análisis de datos II. Madrid: Pirámide. Parshall, C.G., Davey, T. y Pashley, P.J. (2000). Innovative item types for computerized testing. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing: Theory and practice (pp. 129-148). Dordrecht: Kluwer Academic Publishers. Parshall, C.G., Spray, J.A., Kalohn, J.C. y Davey, T. (2001). Practical considerations in computer-based testing. New York: Springer. Ponsoda, V. (2000). Overview of computerized adaptive testing special section. Psicológica, 21(1 y 2), 115-120 Ponsoda, V., Olea, J. y Revuelta, J. (1994). ADTEST: A computer adaptive test based on the maximum information principle. Educational and Psychological Measurement, 54 (3), 680-686. Ponsoda, V., Olea, J., Rodriguez, M.S. y Revuelta, J. (1999). The effects of test difficulty manipulation in computerized adaptive testing and self-adapted testing. Applied Measurement in Education, 12, 167-184. Ponsoda, V., Wise, S.L., Olea, J. y Revuelta, J. (1997). An Investigation of Self-Adapted Testing in a Spanish High School Population. Educational and Psychological Measurement 57(2), 210-221. Prieto, G. y Delgado, A. (1996). Construcción de ítems. En J. Muñiz (Coord.). Psicometría. (pp. 105-138). Madrid: Universitas. Reckase, M.D. (1979). Unifactor latent trait models applied to multifactor tests: Results and implications. Journal of Educational Statistics, 4, 207-230. Reese, L.M., Schnipke, D.L. y Luebke, S.W. (1997). Incorporating content constrains into a multi-stage adaptive testlet design. Paper presented at the annual meeting of the AERA, Chicago. Renom, J. (1993). Tests adaptativos computerizados: Fundamentos y aplicaciones. Barcelona: PPU. Renom, J. y Doval, E. (1999). Tests adaptativos informatizados: Estructura y desarrollo. En J. Olea, V. Ponsoda y G. Prieto

134

TESTS ADAPTATIVOS INFORMATIZADOS

(Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp. 127-162).Madrid: Pirámide. Revuelta, J. (2000). Estimación de habilidad mediante ítems isomorfos. Efectos en la fiabilidad de las puntuaciones. Psicothema, 12, 2, 303-307. Revuelta, J. y Ponsoda, V. (1997). Una solución a la estimación inicial en los tests adaptativos informatizados. Revista Electrónica de Metodología Aplicada 2, 2, 1-6. Revuelta, J. y Ponsoda, V. (1998a). A comparison of item exposure control methods in computerized adaptive testing. Journal of Educational Measurement 35, 4, 311-327. Revuelta, J. y Ponsoda, V. (1998b). Un test adaptativo informatizado de análisis lógico basado en la generación automática de ítems. Psicothema, 10, 3, 753-760. Revuelta, J. y Ponsoda, V. (1999). Generación automática de ítems. En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests informatizados. Fundamentos y aplicaciones. (pp. 227-250).Madrid: Pirámide. Revuelta, J. y Ponsoda, V. (2001). Fundamentos de Estadística. Madrid: UNED. Revuelta, J., Ximénez, C. y Olea, J. (en prensa). Psychometric and psychological effects of item selection and review on computerized testing. Educational and Psychological Measurement. Rocklin, T.R. (1994). Self-adapted testing. Applied Psychological Measurement 7, 3-14. Rocklin, T.R. y O’Donnell, A.M. (1987). Self-Adapted testing: A performance improving variant of computerized adaptive testing. Journal of Educational Psychology, 79, 315-319. Sands, W.A., Waters, B.K. y McBride, J.R. (Eds.) (1997). Computerized adaptive testing. From inquiry to operation. Washington: American Psychological Association. Santisteban, C. (1990). Psicometría: Teoría y práctica en la construcción de tests. Madrid: Norma. Santisteban, C. y Alvarado, J. (2001). Modelos psicométricos. Madrid: UNED

REFERENCIAS BIBLIOGRÁFICAS

135

Schnipke, D.L. y Green, B.F. (1995). A comparison of item selection routines in linear and adaptive tests. Journal of Educational Measurement, 3, 227-242. Schoonman, W. (1989). An applied study on computerized adaptive testing. Amsterdam: Swets & Zeitlinger. Segall, D.O. (1996). Multidimensional Adaptive Testing. Psychometrika, 61, 331-354. Segall, D.O. (2001). General Ability Measurement: An application of multidimensional Item Response Theory. Psychometrika, 66 (1), 79-97. Segall, D.O. y Moreno H.E. (1999). Development of the computerized adaptive testing version of the Armed Services Vocational Aptitude Battery. En F. Drasgow, y J.B. OlsonBuchanan (Eds.). Innovations in computerized assessment. (pp. 35-66). Mahwah, NJ: LEA SHL (1996). DA5: Diagramas codificados. SHL, Madrid: Psicologos Organizacionales. Spilberger, C.D., Gorsuch, R.L. y Luschene, R.E. (1970). Manual for the state-trait anxiety inventory. Palo Alto, CA: Consulting Psychologist’s Press. Spray, J.A. y Reckase, M.D. (1996). Comparison of SPRT and sequential Bayes procedures for classifying examinees into two categories using a computerized test. Journal of Educational and Behavioral Statistics, 21, 405-414. Stocking, M.L. (1997). Revising item responses in computerized adaptive tests: A comparison of three models. Applied Psychological Measurement, 21, 129-142. Stocking, M. L. y Lewis, Ch. (2000). Methods of controlling the exposure of items in CAT. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp. 163-182). Dordrecht: Kluwer Academic Publishers. Stocking, M.L. y Swanson, L. (1993). A method for severely constrained item selection in adaptive testing. Applied Psychological Measurement, 17, 277-292. Stocking, M.L. y Swanson, L. (1998). Optimal design of item banks for computerized adaptive tests. Applied Psychological Measurement, 22, 271-279.

136

TESTS ADAPTATIVOS INFORMATIZADOS

Sympson J.B. y Hetter R.D. (1985) Controlling item exposure rates in computerized adaptive testing. 27th Annual Meeting of the Military Testing Association. San Diego. CA. Tatsuoka, K.K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory. Journal of Educational Measurement, 20, 345-354. Tatsuoka, K.K. (1985). A probabilistic model for diagnosing misconceptions by the pattern classification approach. Journal of Educational Statistics, 10, 55-73. Tatsuoka, K.K., y Tatsuoka, M.M. (1987). Bug distribution an statistical pattern classification. Psychometrika, 52-193-206. Tatsuoka, K.K. y Tatsuoka, M.M. (1997). Computerized cognitive diagnostic adaptive testing: effect on remedial instruction as empirical validation. Journal of Educational Measurement, 34, 3-20. Thissen, D. (1991) MULTILOG user’s guide. Chicago. Ill.: Scientific Software International. Thompson, T.D. y Davey, T. (1999). CAT procedures for passagebased tests. Paper presented at the annual meeting of the NCME, Montreal, Canada. Urry, V.W. (1977). Tailored testing: A successful application of item response theory. Journal of Educational Measurement, 14, 181196. van der Linden, W.J. (1998). Bayesian item-selection criteria for adaptive testing. Psychometrika, 62, 201-216. van der Linden, W.J. (1998). Optimal assembly of psychological and educational tests. Applied Psychological Measurement 22, 195211. van der Linden, W.J. (1999). Multidimensional adaptive testing with a minimum error-variance criterion. Journal of Educational and Behavioral Statistics, 24, 398-412. van der Linden, W.J. (2000). Constrained adaptive testing with shadow tests. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp. 2752).Dordrecht: Kluwer Academic Publishers.

REFERENCIAS BIBLIOGRÁFICAS

137

van der Linden, W.J. y Glas, C.A.W. (Eds.) (2000). Computerized adaptive testing. Theory and practice.Dordrecht: Kluwer Academic Publishers. van der Linden, W.J. y Pashley, P.J. (2000). Item selection and ability estimation in adaptive testing. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp 1-25).Dordrecht: Kluwer Academic Publishers. van der Linden, W.J. y Reese, L.M. (1998). A model for optimal constrained adaptive testing. Applied Psychological Measurement, 22, 195-211. Varadi, F. y Tatsuoka, K.K. (1989). BUGLIB. Programa de ordenador no publicado. Veerkamp, W.J.J. y Berger, M.P.F. (1997). Some new item selection criteria for adaptive testing. Journal of Educational and Behavioral Statistics, 22, 203-226 Vispoel, W.P. y Coffman, D.D. (1994). Computer-adaptive and selfadaptive music listening tests: Psychometric features and motivational benefits. Applied Measurement in Education, 7, 2552. Vos, H.J. (2000). A Bayesian procedure in the context of sequential mastery testing. Psicológica, 21 (1 y 2), 191-211. Vos, H.J. y Glas, C.A.W. (2000). Testlet-based adaptive mastery testing. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp. 289310).Dordrecht: Kluwer Academic Publishers. Wainer, H. (2000a). Computerized adaptive testing: A primer. 2ª edición. Hillsdale, New Jersey: LEA. (1ª edición: 1990). Wainer, H. (2000b). CATs: Whither and whence. Psicologica, 21, 121133. Wainer, H., Bradlow, E.T. y Du, Z. (2000). Testlet response theory: An analog for the 3PL model useful in testlet-based adaptive testing. En W.J. van der Linden y C.A.W. Glas (Eds.). Computerized adaptive testing. Theory and practice. (pp. 245-270).Dordrecht: Kluwer Academic Publishers. Wainer, H. y Eignor, D. (2000). Caveats, pitfalls, and unexpected consequences of implementing large-scale computerized testing.

138

TESTS ADAPTATIVOS INFORMATIZADOS

En H. Wainer (Ed.). Computerized adaptive testing: A primer.(pp. 271-300). 2ª edición. Hillsdale, New Jersey: LEA. Wainer, H. y Kiely, G. (1987). Item clusters in computerized adaptive testing: A case for testlets, Journal of Educational Measurement 24, 185-202. Wainer, H. y Wang, X. (2000). Using a new statistical model for testlets to score TOEFL. Journal of Educational Measurement, 37, 3, 203-220. Wainer, H., Lewis, C., Kaplan, B. y Braswell, J.(1991). Building Algebra Testlets: a comparison of hierarchical and linear structures. Journal of Educational Measurement,28, 311-323. Wang, T. y Vispoel, W.P. (1998). Properties of ability estimation methods in computerized adaptive testing. Journal of Educational Measurement, 35, 109-135. Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory. Psychometrika, 54, 3, 427-450. Way, W.D. (1998). Protecting the integrity of computerized testing item pools. Educational Measurement: Issues and Practice, 17, 17-26. Weiss, D.J. (1974). Strategies of adaptive ability measurement. Research Report 74-5. Dep. of Psychology, U. of Minnesota. Weiss, D.J. (1983). New horizons in testting: Latent trait test theory and computerized adaptive testing. New York: Academic Press. Wise, S.L. (1994) . Understanding self-adapted testing: The perceived control hypothesis. Applied Measurement in Education, 7, 15-24. Wise, S.L. (1999). Tests autoadaptados informatizados: Fundamentos, resultados de investigación e implicaciones para la práctica. En J. Olea, V. Ponsoda y G. Prieto (Eds.). Tests informatizados: Fundamentos y aplicaciones. (pp. 189-206). Madrid: Pirámide. Wise, S.L. y Kingsbury, G. (2000). Practical issues in developing and maintaining a computerized adaptive testing program. Psicológica, 21, 135-155. Wise, S.L., Ponsoda, V. y Olea, J. (2002). Self-adapted testing: An overview. Int. J. Cont. Engineering Eduction and Lifelong Learning, 12 (1-4), 107-122.

REFERENCIAS BIBLIOGRÁFICAS

139

Yi, Q. (2002). Incorporating the Sympson-Hetter exposure control method into the a-stratified method with content blocking. Paper presented at the annual meeting of AERA, New Orleans, LA. Zickar, M.J., Overton, R.C., Taylor, R.y Harms, H.J. (1999). The development of a computerized selection system for computer programmers in a financial services company. En F. Drasgow y J.B. Olson-Buchanan (Eds.). Innovations in computerized assessment. (pp. 7-34).Mahwah, NJ: LEA

View publication stats