,:l¿Cu..."> ,:l¿Cu..."/> ,:l¿Cu..."/>

Hogan Capitulo 6

~'il~-" P ru e ba S~~lt .,'SfB" ,]rot'?:";I:~ás a OraCIOf)'" Una In ro':" U.CC'IO"n.'{,;".".ra'Clca 1 :,~,¡>,:l ¿Cu

Views 104 Downloads 0 File size 3MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

~'il~-"

P ru e ba S~~lt .,'SfB" ,]rot'?:";I:~ás

a OraCIOf)'"

Una In ro':" U.CC'IO"n.'{,;".".ra'Clca 1

:,~,¡>,:l

¿Cuántas puntuaciones

!d¡r.. '}

informará?

¿Se aplicarán en forma individualo a grupos?&li

.::.

\;~~:Ii;~ .';

¿Alrededor de cuántos minutos se llevaráterminarla? ',",,'~' ¿Con qué tipo de reactivos contará (p. ej., de opción pie. de construcción de respuesta)? _~ ...• " :"

múlét \'

:\;~ :VAS ',f •..,.,

.....

;l.".

,\Ns, '. ";";'.

:'1/'.;;' :

1"r¥;j '

ORIGEN DE LAS PRUEBAS NUEVAS:

¡

Elaboración

-

. ~;: )i,

eocesode :tenerse a

l elaborasimple y Antes de pasar a la etapa siguiente en el proceso leetos; no elaboración de la prueba, es importante detenerse :es señala considerar esta interrogante: ¿qué motiva la elabora~':;-:': ' llTollode ción de pruebas nuevas? No hay una lista simple' Y ~ ¡ las pruedefinitiva de motivaciones sobre dichos proyectos; OÓ.: :spuestaa obstante, un análisis de las pruebas existentes señala .'. teligencia tres fuentes pl'incipales de trabajo de desarrollo de;; . :elligence. pruebas. La primera señala que muchas de las prue.'" t), se creó ; de parís bas de uso más generalizado se origina en respuesta a : cierta necesidad práctica. La prueba de inteligencia."~ nina eduBinet, precursora de la Stanford-Binet Intelligence':, . : concibió Scale (Escala de Inteligencia Stanford-Binet), se creó.:' Binet que para identificar a los niños de las escuelas de París',: unque 1>5 que podían necesitar lo que ahora se denomina edu-,~ . :aducción le Intellicación especial; la Stanforcl-Binet misma se concibió.: con la idea de proporcionar una escala tipo Binet que. f lnteligenpudiera utilizarse con los estadounidenses, aunque las. r Wechsler, eba de inrevisiones llegaron más allá de la simple traduccióo del francés al inglés. La Wechsler-Bellevue Intelli',,' lineL Las gence Scale (Escala Weehsler-Bellevue de Inteligeo' . .-cantidad. ndiaL Lo cia), que dio origen a la colección de escalas Wechsler,': eollode la se forjó con la intención de ofrecer una prueba de ioteligencia más adecuada que la Stanford-Binet. Las •t pruebas OlIS Iban en funCIón de la enorme pnlIdad;:. de reclutas durante la Primera Guerra Mundial. Lo ¡ que también fue la motivación para el desarrollo de la

,f¡~

de:r

a" :

i ,, :

.8

j

~

están bajo una revisión más o me-

nos continua. La Escala Wechsler de Inteligencia para el Nivel Escolar (WISC) era una extensión descendente de la escala Wechsler para adultos que conservó muchas características de su instrumento madre pero que, resulta obvio que necesitaba nuevos reactivos

y normas. Posteriormente,

la Escala Wechsler de In-

(WPPSI) fue una extensión descendente de la WISC.

~ hecho de que las teorías

a menudo

generan nuevas

las cuales suelen utilizarse primero tan solo _:s1 pruebas, para fines de investigación, pero después se emplean

~ en contextos aplicados. 1)

~ Finalmente, una gran cantidad de trabajo de ela~ boración de pruebas se dedica a revisar o adaptar

¡

!,

Estadounidenses)

versidades selectas para pasar por alto a algunos estudiantes brillantes de bachIlleratos medIOcres en el inQtesoa esas universidades, debido a que no habían esfadoexpuestos a un plan de estudios complejo que los preparara para la universidad. Por supuesto, la enorme cantidad de trabajo dirigido al desarrollo de las pruebas de aprovechamiento para su uso en las escuelas y la industria también tiene una orientación altamente práctica. Se trata sólo de algunos ejemplos del hecho de que muchas pruebas se originan en respuesta a una necesidad muy práctica. En estos casos, la elegancia teórica y la bibliografía sobre la investigación existente no son intereses primarios, en realidad,investigaciones posteriores con estas pruebas han demostrado a menudo que tenían problemas teóricos considerables. Algunas pruebas se forjan a partir de un fundamento teórico, como el Test de Apercepción Temática (TAT), que se ideó con la finalidad de ofrecer un indicador de la personalidad en función de la teoría a este respecto propuesta por Murray. Así sucedió también con el Edwards Personal Preference Schedule (EPPS; Programa Edwards de Preferencias Personales), que genera 15 puntuaciones correspondientes a "necesidades" en el sistema de Murray. Las Matrices progresivas (RAVEN) se crearon como un instrumento directo para medir el factor "g" (inteligencia general) de la teoría de Spearman sobre la inteligencia. La Primary Mental Abilities Test (Prueba de Capacidades Mentales Primarias) de Thurstone, prototipo ele muchas evaluaciones de inteligencia multifactoriales posteriores, se diseñó con la intención de sustentar la teoría de Thurstone sobre las inteligencias múltiples. Una vez más, se trata sólo de ejemplos que ilustran el

~ En casi todos los casos, la reciente edición es una prue~ ba por completo nueva, que atraviesa por todos los " q procesos de elaboración de pruebas resumidos en este

I

Test (ACT; Prueba de Ingreso a las Universidades

teligencia

I

'1

• ]59

respuesta al interés de una reducida cantidad de uni-

¡ las pruebas existentes. Por ejemplo, cada una de las ~ pnnclpales baterías de aprovechamiento (véase el ca~ pítulo 11) presenta una nueva edición cada 5 a 10 años.

£

de pruebas y análisis de reactivos

capítulo. Pruebas como la SAT y la American College

para los Niveles

Hay también esfuerzos

Preescolar

y Primario

que se ubican en la cate-

goría de las revisiones de pruebas existentes y que conservan

lo más posible la estructura

fundamental

del instrumento, pero que lo modifican para pobiaciones especiales. Como muchas pruebas que en su origen se crearon en inglés y ahora es!án disponibles en español u otros idiomas: tal modificación suele

entrañar mucho más que una simple traducción de los reactivos

e instrucciones

adaptaciones padecen

de la prueba. También hay

de los instrumentos

diversas discapacidades,

para personas que auditivas, visuales

o motrices. Por tanto, la elaboración o adaptación de las nuevas versiones de las ediciones existentes de las

pruebas constituyen una tercera fuente importante de esfuerzos

en la creación de las pruebas.

PREPARACiÓN DE LOS REACTIVOS

La preparación de los reactivos incluye tanto la redacción de éstos como su revisión. Esta redacción no

debe realizarse hasta que se haya definido la finalidad de la prueba y explorado de manera minuciosa las consideraciones de diseño preliminares; suponiendo que estas dos primeras etapas se hubiesen realizado de modo satisfactorio, empieza la preparación de los reactivos. Quizá sea útil empezar esta sección con la pregunta: ¿exactamente qué es un reactivo de una prue-

ba? El reactivo de una pmeba posee cuatro paltes (figura 6-2): el estímulo al que responde el examinado, el formato (o método) de respuesta, las condiciones que rigen cómo se da la respuesta al estímulo y, los procedimientos para calificar la respuesta, denominados en ocasiones "rúbricas de respuesta". A continuación se da una breve descripción de cada uno de estos componentes.

El estímulo, reactivo,

denominado a menudo la base del

puede ser una pregunta,

COlTIO

las que se

ilustran en el cuadro 6-2. La primera corresponde

a

una prueba de inteligencia. la segunda a una de aprovechamiento. la tercera a un estudio de actitudes y la cuarta a un inventario de personalidad. El estímulo



• .,

~.

;j¡lli ..~..

160.

Pruebas psicológicas. Una introducción práctica

(Capítlllo

:JL óti:

':~l~

':%:' 'pítulo 6) :

':~>

1F

ESTíMULO

FORMATO DE RESPUESTA

CONDICIONES OUE RIGEN { LA RESPUESTA

.,i:'

--

Reactivo de opción múltiple

¿cuál de éstos es un método para determinar A. test-re test

":;f1~~ !~~~¡

.~~~v

Figura 6-2. Anatomía de un reactivo de prueba.

TIPOS DE REACTIVOS DE LAS PRUEBA~f también puede ser una iUlagen, acompañada por una pregunta oral, por ejemplo, la prueba Rorschach presenta una imagen junto con una pregunta sobre lo que el examinado ve. El estímulo también puede ser un aparato como el dinamómetro manual, pero el "reactivo" está incompleto si carece de una instrucción, como sería "Tómelo con su mano derecha y apriételo lo más fuerte que pueda". El formato de respuesta incluye factores, respecto de si éste es un reactivo de opción múltiple o de construcción de respuesta. Por ejemplo, cualquiera de los estímulos que aparecen en el cuadro 6-2 podría tener una serie de elecciones o exigir la construcción de una respuesta. En la siguiente sección, se verán. más a fondo diversos formatos de respuesta. Tal vez no tan evidente COlno los dos primeros componentes de un reactivo, el tercero es crucial para entender la naturaleza de un reactivo. Entre las condiciones que rigen la respuesta se hallan variables como el límite de tiempo para responder o si quien aplica la prueba puede sondear las respuestas ambiguas y cómo se registra exactamente la respuesta, por ejemplo, en una hoja de respuestas o en el cuadernillo de la prueba. Por último, el procedimiento para calificar es una parte fundamental del reactivo. En el caso de una prueba de opción múltiple de capacidad o aprovechamiento, cada reactivo podría calificarse como correcto o incorrecto. Otra posibilidad es que se dé. un crédito parcial por elegir ciertas opciones. En algunas secciones de la Escala Wechsler de Inteligencia para Adultos-lII (WAIS-III), los reactivos de construcción de respuesta merecen dos puntos si se ofreció' una muy buena respuesta, una respuesta aceptable pero Cuadro 6-2. Ejemplos de las partes de estímulos en los reactivos de una prueba ¿Qué significa "pródigo"? _

La variedad de los reactivos de las pruebas es enoh'f'. me. Los reactivos con frecuencia se clasifican en te.'T:j.l., minos del formato de respuesta a los reactivos, ef< segundo componente del reactivo de la prueba que sé"f consideró con antelación. En un nivel muy generat,~yt los reactivos se clasifi:~n como de sele~ción de puesta o de construcClon de respuesta. - A continua~'~:t ción se presentan los ejemplos más comunes de estos'"'r dos tIpOS, con un COITlentario sucinto sobre sus apli.li caciones usuales, fortalezas y deb.hdades.

re~J!,'

es el formato Likert;' el cuadro 6-5 ilustra este tipo de reactivos donde se emplea la escala de cinco puntos que va de "Completamente de acuerdo" a "Com-

',.

":ll

pletamente en desacuerdo"

'!~X

';f~1

tre dos polos, después,

lf

::~J

. Xl

uesta y de términoS

1 Psycho'

¿Le gusta reunirse con personas nuevas?

para desIgnar los fonnatos

Complete este enunciado: Hoy me siento especialmente

construcción de respuesta. AqUÍ se adoptó los términos'i~ empleados en los Stell1dnrdsfor Educntiol10/ (md Psychological Tests (AERA/APA/NCME, 1999). ~~¡

d~id

,;i

-!

En una

~

las marcas se convierten

en

forma numérica. Este procedimiento. denominado en ocasiones escala de calificación gráfica (Guilford. 1954) o escala visual análoga (Barker, Pistrang, Elliott, 1994), se presenta en la figura 6-3. El entrevistado puede marcar en cualquier parte de la línea, después, lasrespuestas se convierten en fOlma numérica (1-10 en este ejemplo) aplicando la escala que se muestra. Unaaplicación interesante de este fafilata de respues~

i

2 Como se.señaló en el texto, hay diver~?s témlinos nlternos';+:i

en cada respuesta.

prueba podrían usarse 3, 9 o cualquier cantidad finita depuntos. En una variante, las respuestas pueden Inarcarse en cualquier parte a lo largo de un continuo en-

caminado una razoEn los reactivos de selección de respuesta, al examinado': lalesdebe se le presentan al menos dos, pero no más de una razo-'~-rc )0 de resnable y pequeña cantidad de opciones, de las cuales debe':':~ respuesta, elegir una respuesta. Los reactivos de selección de res~_:'ir ;a. puesta también se denominan reactivos de respuesta'~::w. el esque~ múltiple, opción múltiple o de elección forzada. .'t~;t 's el más , • . -;"Ll'-j': En las pruebas de uso mas generalIzado, el esque;Áf:t apacidad ma de selección de respuesta es a todas luces el más':;l :iliza una popular. En la mayor p311ede las pruebas de capacidad.'i¡ iones por y aprovechamiento aplicadas a grupos, se utiliza una]!. i familiaestructura de opción múltiple con 4 o S opciones por::;¡,ecial del cada reactivo; con seg'uridad todo lector estará familia~)~e , dos opro 6-3 se rizado con este tipo de preguntas. Un caso especial del.Jf reactivo de opción múltiple pero con tan solo dos op-:.~1 Verdadeciones, es el de Verdadero o Falso. En el cuadro 6-3 se J. ilustran los reactivos de opción múltiple y de Verdad~-,~,:t~. son más apacidaro o Falso de una prueba de aprovechamiento. :'.. Los fon.natos de selección de respuesta son más_t:~ l ampliafamiliares en e~ám~ito de la evaluaci?~l de capaci~a~_~f' intereses des y desempeno, SIn embargo, tambIen son ampha-,.~~~ mente utilizados en pruebas de personalidad, interesesH 's aItemos

de seleccwl1 de respuesta y

La estanina es un método para determinar

puesta que se emplea en muchas pruebas de actitudes

¡.

; ta es el diferencial

¡

semántico,

en el cual se califica a

•, , un objeto (p. ej., idea, persona u organización) en una ,•, serie de escalas catalogadas con adjetivos contrarios

polares como "duro-blando", "hostil-amigable", "cálido-frío" y "competente-incompetente"4 En la figul ra 6-4, se exhibe este método. • ~ o

"l,

! o

I ~

¡

S

!

, !

3

Técnicamente. el formato Likert alude al método de elaboración de la escala completa. Sin embargo. es común referirse al formato de respuesta mismo como formato Likert. Para un análisis adicional sobre este tema, véase el capítulo 14.

~ 4 En ocasiones se alude al diferencial semántico como si se

i

•,

D. relacionado con el criterio

Reactivo de Verdadero o Falso F

(SIl; Inventario de Intereses Strong) emplea "Agrado", "7" Y "Desagrado" para la mayoría de sus reactivos; el MMPI-2 emplea un formato de verdaderofalso. El cuadro 6-4 ilustra los reactivos de opción múltiple y de verdadero-falso para inventarios de intereses y personalidad. Otro caso especial de formato de selección de res-

,tivos, el baques,", > general,: n de res. ~ontinu~~ ) de estos sus apli-

de una prueba?

C. validez

y actitudes; por ejemplo, el Strong Interest Inventory

.".":.1_ minada finalidad, el grado en que un producto escnto'"t ~ logra esa finalidad es su rasgo primario. La tarea~o;/f;~ dría consistir en escr,ibir una carta en la ql1e se soliCIt.~:,I'f ~ cierto modelo de videojuego: una carta redactada para, i!-, ¡ este fin quizá lleve faltas ele ortografía y enunciadosa !

se:'. sé':

'I~

es~i;,J

r f.".

"cH

d';J . f~

se::

oigequesé' importari~ nes qUeSe realizarlas ) por cada.. inglés, por. funciónde iónyc)ei evalúepo(

j

~

'~,t! fJ

5

La calificación del ra~g.oprimario se c:~óen sus orí~enes_IH como prueba de habilIdad de redaccwn en la NatI~:mal::;~,~ Assessment of Educational Progress, que se describe e~TI~ la p. 465; el método luego se amplió a algunos progra¡nas f;¡ de eVall111Ción Dsicornétricn E""T;lt~lE'sv ()tl":'1'" nnlicaciones: t

punto.El caso más sencillo del sistema de puntos es unaprueba de memoria pura, por ejemplo, "Enuncia los10mandamientos" y se concede un punto por cada mandamiento. Desde luego, incluso en el sistema de puntos,salvo en el caso de los ejemplos más triviales, es necesario el juicio del calificador. ¿ "Ir a la iglesia losdomingos" califica acaso como respuesta correcta del tercer mandamiento? ¿Los mandamientos deben darseen el orden tradicional?

calidadde n, la califi:pendencia en este es. 1, tal inde;eñalan las je diversol. sistema de .ciertogrn-

de calificación

automatizada

para

ma de calificación automatizada para evaluar la respuestas de un grupo de arquitectos a un problema arquitectónico con formato de construcción de respuesta (Williamson, Béjar, Hone, 1999). Uno de los primeros trabajos que siguieron estos lineamientos fueron las calificaciones generadas por computadora

de Ellis Page para evaluar la calidad de la redacción manifestada en los ensayos. Wresch (1993) ofrece un recuento histórico de estos esfuerzos, para una reseña semipoplllar de la obra actual de Page con el Proyect

ESSGYGrade (PEO), véase Page y Pe tersen (1995). El

deproductos. de hecho, los ensayos son solo un tipo

interés fundamental en todos estos proyectos es determinar si el sistema automatizado se aproxima al juicio humano especializado. En el futuro próximo, tal vez surjan desarrollos importantes en los sistemas de calificación automatizada.

de producto. Los métodos se aplican a las evaluaciones de desempeño de obras artísticas, proyectos de

En el campo de las pmebas de personalidad, las técnicas proyectivas ofrecen ejemplos clásicos de

ciencias. la habilidad para hablar en público y muchosotros productos. Para calificar un portafolio debe

reactivos de construcción

tomarseuna decisión no sólo sobre el método de calificación, sino también sobre la característica del por-

más sistemática. aquí sólo se ilustran algunas de las técnicas que se erllplean para calificarlas. Los métodos comunes para calificar el Rorschach se basan en la especificación de categorías. contar la cantidad de respuestas que entran en esas categorías y luego formar razones entre estos recuentos. En el cuadro "6-7, aparece una categoría que se utiliza de ma-

Los diversos métodos que hay para calificar los ensayos también se aplican a diversas

evaluaciones

13, se expondrán

de respuesta. En el capítulo

las técnicas proyectivas en forma

.bilidad d, tafolioquc habrá de calificarse. Quizá se caliliquen nario.5 Se todaslas entradas en el portafolio, sólo las mejores o una deter- ~ lacantidad de progreso que se muestra de las primeI rasa las últimas. leto escrito a tarea poSe ha insistido ya varias veces en que calificar : se solicita ll I~sreactivos de construcción de respuesta exige juinera común: la ubicación de la tarjeta utilizada como lctada para Cto,esto consume tiempo, es costoso y está lleno de' punto de referencia para la respuesta. El calificador :nunciados 1 posibles problemas de contiabilidad del calificador. (muy a menudo el clínico que aplicó la prueba) clasicharse con Losinvestigadores estudian en la actualidad la aplifica cada respuesta a cada tarjeta según estas categonpero, una caciónde sistemas de cómputo especializados -derías. El esquema conceptual aquí consiste en: a) la 10 se espe-. a que debe. Cuadro 6-7. Ejemplos de categorías para calificar las respuestas de "ubicación" a una tarjeta del Rorschach

1

I ¡

t

l

¡

incompletos, pero si el pedido logra de.spacharse con....••.. ¡t base en la carta, ésta es entonces exitosa; empero, una carta elegantemente redactada, en la que no se espe-. ; cifica el modelo deseado ni la dirección a la que debe,: j enviarse el artículo resulta fallida.

dortan solo determina la presencia o ausencia de cada

;tóricost-l~'

sistemas

una evaluación del desempeño de habilidades para el manejo de pacientes de un grupo de médicos (Clauser, Swanson, C1yman, 1999), y en otro se aplicó un siste-

Un último método para calificar los ensayos es el sistema de puntos, Aquí hay ciertos puntos que debenincluirse en una respuesta "perfecta". El califica-

.~~

• 165

nominados sistemas de calilicación automatizadapara calificar la construcción de respuestas. Ahora bien no debe confundirse la calificación automatlzada c~n la simple calificación mecánica de respuestas a reactivos de opción múltiple en forma de "burbuja" . La calificación automatizada, según el desarrollo que ha tenido el término en la bibliografía, supone el desarrollo de programas de cómputo complejos que simulan el proceso de aplicación del juicio humano, a los reactivos de respuesta libre. Así. en un proyecto se aplicaron

--------------

-

Enunciados incompletos Completa cada enunciado, Mi juego favorito es .., Las familias "Son.; El problema más grande es...

l

de pruebas y análisis de reactivos

orígenes la National

5US

describe en

s programas plic