Analisis de Los Items

cuadernos de ~ t a d í s t i c a A N ~ I S J SDE LOS- ANÁLISIS DE LOS ÍTEMs JOS~ IMUÑIZ,ÁNGELM.FIDALGO, EDUARDO G A

Views 141 Downloads 7 File size 12MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

cuadernos de ~ t a d í s t i c a

A N ~ I S J SDE LOS-

ANÁLISIS DE LOS ÍTEMs

JOS~ IMUÑIZ,ÁNGELM.FIDALGO, EDUARDO G A R C ~ ~ X J E T O RAFAELM A R T ~ E Z ,RAFAEL MORENO

editorial

LA MüR4LLA, S.A.

COADLWDS DE E

T T A D ~ ~ ~ ~

fimcik Juan Etxekrria Murffondo

FranciscoJ. Tejedor Tejedor

6 2005 by Edit. LA MIIRALLA, S A Constancia, 39.BílU2 Madrid

ISBN: $4-7138750-9 Depósiai Legal: M-10.5.50-2005 Rinted in Spain - Impreso por Lavel. S.A,, Indusma C.rdi.ca (Marlrid)

2.

r n m c c x 1 6DE ~ LOS ~TEMS .................................... 2.1. 2.2.

Objetivos y formatos de los itenis ....................... DirectGces para la construcci6n de ítems ..............

2.2.1. 2.2.2.

...................................

Ua-dbQse h e c ~ n c ~ s s o b w h ~ s a ' óhms m í~mSidornhiu

m p . ~ t d i n........................................... 2.2.5. Diw&ctt~ :ios~~f~ec@ sobre cm hs ~ ~ m de wt . ~.~ w~s t a m 10-f i f t I:+TY&~o~ ~ ................................ 2.2.4 . Recapilul~6n........................... . . ...... 2.3. Traducción de los íterns de unos idiomas a otros ......

2 .4.

2.3.1. k l ? f c e s *a: la fraducrihn idti kis tats ........... Propiedades psicométncas globales ......', .............

2.4.1. Eaabilidad .......................................... 2.4.2 Vulidm ..............................................

.

3. A~ÁwsrsDE LOS ÍTEMS 3.1.

............................................ Enfoqwe cKsicti ........................................... 3.1.1. Da@-ultud ck Itis d t m s .............................. 3.1.2. lk+minm+cin de h ~ t m ......................... s 3.1.3. A P ~ de W los distríat.Lora...........................

3.1.4. Índice &fiabilidad de los i t m ~ ..................... 3.1.5. i7idice & d&x& h á t m ........................ 3.1.6. D i m s n s i d U l a d ................................... Y .1.7. ejmplo numét-iiri ................................... 3.9. Enfoque de la Teoria de Re.?puesm a ?osÍterns . . . . . . . . 32.1. M o d ~ l rlt. ~ s ikm'u d x ~ t m d n n l m i i m m(Tm) ... Supiiestos ........................................... M d e l o s ............................................ Parámetros

.........................................

de una orquesta püra qut. Csta ciiene hitn, el perreccionaniien to de Iris íterns d e una priicba tiene la ímalidad de rnaximizar su liabilidad y u i i validez. Nn tiene ningún scritirlo rl análisis de los ítcrris por rl Inern ariálisis si ello rio sc liga a las propiedades generales del test, lo ciial srielc enco~iilrarsecon cierta. frcruench en los recer~riossupiiesianierite pricticos p a n analizar íterns. En el segundo apartado se aborda el ariálirjis dc. los Items propiarneriw dicho, wpaqando Ia ttcrioloq'a de aiiálisis desde el pimto de vista dc los dos p n d c s erifoqiies psicométricos: la teonñ Clásica dc las Tests y la Teoria dc Kcspilesta a los Íterns (m). Sepiriricrite la rniiyorÍa dc Iris lectores estarir1 rnás Famiiiarizadcis con los conceptos clásicos aquí expurutii~,pero es de suma impo~~~ric-ia qifyayan complerneritando estos an61isis can los derimdos de la-+Tenría d e Respircsta a lns 1tems (11121). A m h s enToqnes no seNfonen de ninguna manera, por el contrario, res~~ltan corxiplerrie itarios y predominará uno ri otm dependiendo de fo qiic acorls jc cada situación. Por utilizar una analogía, ocurrc aquí igual qu con dos rnedios de transporte romo cl coche y el avión; nirigrlno &nejo= que el otro, sencillamente cada uno es cl indicado en frinciiin&bdí+---"' lmcia a recorrer, arneri de otras circcunstiuicias, En el tterccr apartado se tratan do$ cuestionm esenciales relacim nadas con la ritilizaciriir de lus trsts: la evaluaciUn de la calidad psicumétrica de lns tests y el uso adcnlado de esta. Un análisir adeciiado de los íterns es esrncial para estimar la calidad de una priitha, piies los Ittirris sori al fin y al cabo los Iadrillns con los que esci construido rl instrumento, prro iina evaluacihn de la calidad global del test no se agijm ahí. Se presenta un modelo qtie constitiiyti uiia herrmiierita eficaz para aydas a csia evaluación dvtallada de la calidad de los distintos componenres de la priieba. Tamhikn nos ocupamos en este apartado dcl i ~ s oadecuado de los tesis, alga mriy poco h a b i h d de mcontrar cn un manual de ñridisis de los íterns. la w ó n de incluirlo aquí es bien srn~l;lfa; qiie un test ciirnpla con la finalidad para la que h~sido construido no solanicriirt tiene que feinertrunos iterns bien armados,ademüs hay qiie i~sarloscon propidad. De pnco d e disponer de riri biisri instrumento C ~ L S ~ P plinto de vista psicombtrico si lilcgo se utiliza a la Iiircna de Dios. Eri csc apartado se da11 directrices precisas p;~mla utili~aciónadmiarh de Ios test$.Finalmente fc aportan lau refvrtncia. hibliogrdficas dadas en el texto. Esperamos qite los lectores cnriientreii en el li bi-ci iiria giiía que les a ~ ~ i i d a ecnnstriiir, analimr, evaluar y iitilizar 10s tests.

i

En el diccioxiario de 1aAcademia kspaiiola de la Lengua,e1 termino itexn designa en su acepción psicoliigica cada una cle las unidadcs que componen una prueba, un test, u n cuestionario. Refiere pues cada uno de los elementos i~tilizadosen esos instrilmtntos para obtener la respuesta de los sr+jctos que sc dcsea estudiar. La consrrucción de itcrns para pruebas psicológicas y ediicativas es un aspccto ciertamente relegado cn la litcratrxra. Pocos son los textos r n e t o d u l w ~ y - $ eevaluación que dedican algiin capítulo al tema c irisuficienres invcstigacioncs empíricas sobre - los efectos de una construcción d ectuosa (Haladyna y Downing. 1989; Haladyna, Downing y RodTi&ez, 2002), En tal. si tuacihn ha itifluido sin duda la suposici0n dc q c dicha tarea cs algo intuitivo, prodircro de una dispoeiciht~nat raI de aIgunas personas o de la inspiración cxisienie en rnornent . determinados. Pensando así, poco habría que haccr. aparte de c pfrar en ser irno dc los elegidas que poseyeran tal habilidad. Freive a esa poaLura se viene abriendo camino la consicicrad6n de q& Ea construcción piiede y debe responder a determinados c i t e n objetivos que, uria vez conddns, han de ser u~ilizadospara rtidi arpa de modo reglado y sistemático, prodiiciendo ítems adccua, s. En la rnedida que se 1~ gre esc tipo de construcci6nsistemá6&, se estará consiguiendo iina conveniente &ciencia. En lugar dc constrhiiir de manera inmitiva una cantidad amplia de ítenis que después han de ser depurados en fiiricicin de su cornporramiei~to,resrilta m-& económico elaborar í ~ e m sque g m t i c e n ciertos niveles de las propiedades métricas de interes, sustituyendo la tarta de depuración por otra fundamenmlmtnte de cornprcibaci0n empírica de Ia constr.uccihn pretendida.

"%,

"., J

Para iixia cciristsucciíiri sistern9tica cciniknc cmpe7ar teniendo Iwestrite dos cuestiones: el objetivo de los ítems a construir y el formato qiit puede dArselrs, o Ici qiic cs lo mismo, qué evaluar y cómo hiiccrlo. En cuailto al objetivo suelen coriciderm dos grandes g r u p (Cracker y Ngiiiü, 1986; Cronbacb, 1985; Nimnally y krstein, 19%). Uno es estudiar el riivel Optimo ~1 mtiximrj del sujeto en dctcrminadas cornpeitricias o rendimientos, ya sea de ripo memorktico o de razonamiento, y otro las actitiides, pcrscrnalidatl, preferenciaso me ciorics ti#i(:r~scde cada persona. En el primer grupo existen ctiterim para señalar a las respuestas corrio correctas o incorrccm, y no así en las se~uridai. En cuanto al formato o caracteristicas de presentación cahe ';eñalar también dos grandes grupos. Alg~nosfomiatos proponen al sujeto la e b d h de un pwrlurtu, Afii b c i i m por ejemplo criando al evaliiar el aprendizaje de un lenguaje infirmitico x pide escribir corr él un prograna rfectiw pr.a iin clclenninamhJ"~~1ar1do para evaliiar aptitudes artkticas se solicita dibwjür u modelar" minada f i g i i r ~o cuarido para conocer los modos íle el mundo dc 105 s.jetos de un grupo terapéuticose situacicin sirnidadora de alpina real. Chiando el es verbal, y d sujeto debe expresar por exrito 11 minado coritenido. cl formato riel íiem recibe ~ i z abim-lar, s distinguiéndose usualmerice cnm #in la longitud de lo soliciiarlo. L a q mp~les~ de~diferentes q longitudes: hiirnano", "Describabrevernentc la función domflica" y "Kxpuriga 2as mrdcterísticas sociales y. pdíticñ~ más relmxntes de la ~evoliici6ri Francesa, asi como m% principales causas y consecrienci;is,justificando cada una de ellas".Otni h a t o es el dc los irerns qiie presentan un rntimulo en el que se han suprimido algunas de sus elementos, picliendo al sujeto c m p k t a h . Muchas veces el estímiilo planteado es verbal, pidiendo a1 sujeto que añada uno o más elementos de una oracion, como por ejemplo, "El cítbito, el . Y el de las exmemidades siqm-iores humanac", piidienson dose utilim txrnbien o- formas de expresión como dibujos ii operaciones aritmCticaq a completar. U n último fonnato de este grupo es el que pide sus[i&uildetermillados clcrnenros, bien porque ccan in-

corhrhccLos o bien porque sierido correctos se pidan otros semejantes. Soti ejemplos los textos que contienen errores ortopzificos pidiendu al mjeto quc los identitique y corrija, y aquellos otros coi-1-ccnnienie escriim en los quc e t sujetci debe Astiniir p;rlal~-~q o expresiones por otrac siriríriinias, dibujos e11los quc sc Iia de identilicar y si~qritiiirdetcminadas curriponentes, o series de números, acontecimientos hist6riros, escerias de iln suceso u otros elerxicn los qiie se presentan desordenados y que han de ser adccmciarntnte nrganizados. LJri scgiindo p p o dc formatos pirlen al sijeto srikcirrnfi~algiria reb$~w~Ira de las que se le orreceii. Estos ítems constan usualnlen tc de iin enunciado, sea pregiintcz o pmpicion, que se conresta (E completa con mrias cipriones entre las que el s r i j t t i . ~debe elegir un deierminado nnniero de ellas, frccuenteniente solo una que considere b correcta riia~iclose evalúa ejecución rrihimn o la más acordc cori s k i opiniori o comportamiento cutindo se emlúa ejecirci0ri iipica. El forrriato tos denorninrido V m d a h F r J ~ osi son esií las opciones drecidas. Una mrsiúri. del an tctior ~ t el s Formato VwdatImrFaL~o múb fifilP que pide al sitjcto valorar con tales elternñti~asmriou enunciatenido (ver iabla 1). Aveces, cobre todo las mcricioriah opciorics por otrri conjunto de ixitcnción similar lo expresado ,ex1 el cniinciado. El llanrado tipo L i h h ofre&u y graduación tic a c i i d o , con frrciicnciñ de 1 a 5 , alirique tambih iiti1ii:dn o t m r a n g o s . Otras vrces las o p

4

nativa seria el denominado de izdje:livn.~bipolaiw~que señalan los dos exucmos de alCpnacategoría o propiedad como por ejemplo rhfipido-lento e impulsivo-refIcxivo para qiic el sujeto se posicione. Otros liirniatcrs presencarr dos conjiintos de opciones que han de uti1i;r;mc clc determinados modos: el de r n p z j ' Q m &plantea ~~ la tarea de a s c ~ ciarlos clmentus dc uno y oim conjunto, y el dc f:kr;cidn~ L c m #&o pmpurie clegir la opción correcm dc iina serie referida a im conjunro previo de ripcioneu. Por filtimo, los ítems de estos formatos de elecci6ri de la respuesta pueden ser rel'eridos a un mismo coritcxto o referente, dando lugar a ítems c@mdimm dpl un mtmto, muy útil para evaluar procesos curriplejos nicdianre grupos rIe iterns.

ANAWSIS DE LOS ~TEMS

12 TAMA 1.

Formafo.~ G%

m

h

s o & .~dkfl~dn &?E tu mpm.rta.

v e n L v 0

Realice la siguienie qxmcihn Su rmltado cs 40:

[(30+48+22) x 2 J / [ (223- 23) /4]

1. VeFdadero

2. Falso

Scñalc si cs Vcscidcro (V) o Falso (F)q w cada una de las siguientes es c a i a c t e r k b usual de las p l a n a rnonocoriledhneas: I. Son anginspem

2.

Tienen tallo ramificado

5. Tienen flc>m

V V

F F F

V

Tipo Liktrri Indiqiic sil opinión respecto a la apcstura dc los comercios &os domingos del año

lm

1. Totalmrntr rn dt=sarurrrlo 2. Ba5tantP en desacudo 3. Indiferente 4. Bastante de acuerdo 5. 'liital~nentede acuerdo

Al aiirncntar las cxpcctativ;~; de inflxiiin, la demanda de a

l. aurrieritar

2. disr~iinuir

, ' -- ../-'

E k c r i h rnúhiflk

Como consccucncia dcl alcohul cn la condiiccirjn, cl tiempo de reacciiin para fretiar la distancia recorrida en ese denipo son l . mayor y mcnor rrspcrtitamcnrc 2. menor y mayor respectivamente 3. mayor en ambos casos EqbaqmimCo Conectc los siguicntcs países con sus capitales:

l. - Niger 2. wigeria 3. h m b i a

a. Aliuja Li. Luliah c. Niarney

1 4 ' k d n múlliplP comp-jo

;Ciiálcs de las sigiieriies Uudridcx son capitalrs de provincias mpaiiolas?: a. las Palmas de I;rari Canaria b. P a h a de M d l m c. Santa Criiz de la Palina 1. a y b 2. Liyc

3. a , b v c Conjunto de itm~r'.rq?edicrikir de UTZcuntexto

Tieriro qiir ha e n l d o el otoiici. la rcrnperdtura ha desceildido

y se respim humedad. Las Prboles entraran en re-

y rnostr(i1'5n

numerow tonaIiclades".

Las sipiientm preguntas sohm s i n ~ é se s r&eren al trxtri indicado.

k i_@é partc del sujeto es "Temperaturaae11la oraUón en quc aparece? 1. Nficleo

.:

2. Mvlodicador direcro

3. hfudificador:@if&~n

\

B. En el p r e d i d o ve al del que forma parte,"numerouas Lonalidades" es: l . Objrto d recto 2. Ohjrto in ircctn 3. NiTcler> C. " N u i n c m ~es " rnr>cIifj dor: 1. ~ ~ r r n i I i o / 2. ,~ilh.hri&anre 3, D&O d ' F

Sicndo lo anterior un amplio lisiado de las posibilidades de farniatns, conviene conocer las características de cada uno para bxducirlas en ventajas e incotivenientes. No hay un formato sirptrior al resto en tkrninos iirziversales, sino unos mas adeciladns que oi.ros para dcterniinados objetivosy con textos. 1 , ítems ~ que piden al sujeto e l a b o r a la rcspuesta-abiertos- tienen la ventaja de exigir uri esfuerzo de construccian relativamente leve y cu~icenitradoen d enunciado qixe se utilim para provncar la respuesta del sujeto. Por el contrario, la waluaciiin de Ia respuesta obteriida puede resultar curnplicada por dns razones al menos. Lo

hecho o escrito por los sitjetns no es siempre expresado con claridad y por tanto no rc~siiltafacil de inicrprcta uriivocatncrite; adernhs, puede ser muy variable de rinos sujetos a orsris. En consecilencia, las intcrpret;iciones e\nluadum sor1 a veces dXciIes de aplicar y srisceptibles adema%dc quedar distorsionadas por cfectos no ricseables. Si distiiitas personas evalítan iiri;.i rriisrna pnieba, pucde darse Fdta de aciicrdo rritrtr e h . Si iina misma persona. evalúa un cierto niimcm de pruebas, piicdtr aparecer el llaniado efc:cto deriva, COTF sistcnte en el cambio inadvertido de los criterios de evaliración a medida que se van aplicando a s i i s c s i m pruebas;de esa maricra las mluadris al comicnxo del proceso pueden serlo coiii criterios cliferentrs a las evaluadas al final. Oin) problma es el efecto halo, o cambio iarnbiéri inadwrtido en las criterios rle evaliiacifiri influidci por características de prilehas cmluadas con aiiteriaridad; así por eieniplri, evaluar siicesivamente una serie dc ~>r.uebas de c'diidad muy escasa pude resaltar ex1 exceso la de otra posterior tan sólo algo rncj~r,al ipaI que en se~iiido coritrmio tendería a corisidcrarse peor de lo que corrcsponderiauna prueba evaliiada tras una o varias de alta calidad. Para combatir estos problemas se han dcsarrotlado progmtnas infrirniAticos de correccihn aixtorriática de respuestas coristruidas por el sujeto, una vía prometedora pero que aun prcscrlta serias Iirriití~ciories respecto mhre iodo s sti generalización a difeiwntes temas (Be ,jar y Berinet, 199!k Qai~wr,2060,~licrrriisy Burstein, 2003). En los forrriatos de seleccihn cli?qqpiicatati +errados la wa luacihn de las ohtcriidas es mucho r n á < ~ ~ i ~ yi lfiable, la pues cmisistc simplemente en identificar cada c>l,~:i6rli'ekfUOtMd';i7?~secuencia, son forn~atoa rriiiy recomendables para evaluar\ poblaciones arriptias de sujetos. A rnayor tarnaijo de la poblacibn, ~riásfavomhle: resi~ltala razón entre el cnsir, de ticrripo y esfilcrzo d ~ d i c a d oa Ia elahoi-ación de los iterns y los beneficios que apnriari a la evaluaci6n. Los formatos C C T ~ * ~ permiten ~OY tamhiCri iritroducic ima tnayor cantidad de íterns cn las pruebas, y por tanto rnayores porciones del contenido a wnl~~ar. Por el conirario, y es su principal incorivexiiexite,estos item~reqiiicren iiri esfuerzo mayor en su coristnicción, que por. cllo se ve amenazada por riilrrivrosas posibilidades de error.Además del enrmciado, prcpyrita o insirilcciiin, es . .. preciso elaborar las diversas opciones con contenidos adeciiadou cuando el formalo cs diferente a los y? conslruidas de Vt.rdac1er.oI;;llso, Acutrdn-Desacuerdo o tipo Likert. Pard que fuiiciisnen ade~t~adrinirxite, las opciones han de rtsilltiir?odas plausibles slri que k

-

, ! '

I

I

ninguna c1c: clIas dcamque dcl resto, algo que de rio l o g m pilede inducir cn e1 sujeto respriestas diferentes a LIS quc habría dado de no darse esas circunstaricias indcseadas. Otro inconvr~iivnte de csie formatu, aun cuando los ítcms estiri bien constriiidos, es quc la seleccion de la rcspuesta pilede deberse al a/iir r, a k t o r e s dif'ercntcs intsodiicidos por d s u j r t n ; algo ryiw en todo caco se puede compensar al piintuar las respiiestas okienidas. Ariemás dc las veritajaq . v. dificultades derivadas de la$cm-dc.terísricas de cada formato. txistcii otm quc: se asociari fmcueritcmente a irno u 0tr.r) cipo a pesar dc no ser algo necesario. De ücucrrlo a ima idea baqimte cxi.endida, suelc aceptarse como cierto que eri evaliiación de ejecucion máxitna los itcrns de elahnraciOri de la 1-cspuesta ;ton los m%adeciiados, iricluw Ios iiriicos .wllega a decir, para ei~aliiasrazvnarnieritoa y pasos dados cn esos procesos; ext cambio, los de ~FecciOnde respuesta servirían fiindarricnial o casi exclrisivamente para evaluar ~ricmoriay resultados de procesos de pensamiexito pero nri d rnodts en comn estu5 srin alcanzados.Apear de la repeticion de tales ideas, la realidad muestfil qiie estas aswiaciories entre ciwiacterísticm a evr~liiar y el formato elepdo. aunque abiindantes en la práctica, no scin necesarias ni inevitables eri la mayoria de los casos; por tarito cuando ocurren, se deben a un uso inadecriadn del correspondiente fnri=lto. l'ara hacernos entender FAci1rncnte, pensemos por ejeniplo eri la maluaciiin de un Coricepto scncillo ccirncr el &ea d e uri rect;ingulo. Curiforme a lci que venimos expciniendo, puede inieresar averiguar no sólo si Iris sujetos dan el r.cisult;ido correcm sino tambieri si conocen los elementos qiic han de anejar para su dlculo - h e y altiira dikrerici5ndolos de onos coni el perímetro o b cliapnñl-, así conio Fa operacion aritrriétlca -111i I~iplicacirili-que ha de hacerse con ellos, Por tanto, ci intv resa evbluai. estos tres aspccios piiedc hacerse no solo con items aljiestod sino tambikri cori los de forrnatoc cerrados;solo es preciso tetier b$n especificados los objetivos de iritcms y construir íterris que se yjiiden a ellos. la práctica de la mIuacióri aporta riilmerosas mri .strascle que cstas po'iibilidacits son rralcs, al igual que lo es el dc los forrnacos abiertos para evalimr exclusivamente memoria / y no razoriiitnientn.'Ckmriris otra muestra dc asociaciones no riccesarias. Es frecuenie euribién scñalar que los form~tosde selección de la. rcspuesta irnpidcti que cF sujeto clahore dictia sespucsla, con.+ triii6ridolo a recoriocer la adecuada como Chica tarea a realiztir, Ello no es cierto, sin cmbargci,y supone confiiridir la selección dc la r e s

"?i r: ,'

1li

&isrs

DE LOS ~ E M S

puesta coz1 la selección de una opción. Al scleccionw una de elIas efectivamerite se reconoce una respuesta con~ola adcciiada, pero ello yuede ser cl resultado de un proceso de elaboracihri racional como ha de ocurrir para contestar currecummte al ítem incliiiclo en la tabla 1 como ejeniplo del Sormato cerrado dc VerdadereFal-

so que ahora repetimos.

Una vez concluido qiic en terminos gexierales Los dilertrites hrmatos pueden ser usados para utios:mismos abjetivns dc evalnaciori, quedan dos cuestiones por resaltar:Una, que la tlccción dci formato a usar en cada caso ha tener en ciienL7 las ventajas e inconwnientes propios de cada uno y no las que i~silalmentese les adjiadica sin ser necesarias. Das, que una vez elegido e1 formato ha de poncrse todo el esfuerzo en construir los iteins potenciando las ventajas y reduciendo [osinconvenientes de d, citando limib~rsus Iicisibilidades por iximducir errores innecmwiou. Para tales fines,la constriicción de 10s ite~ris,cualqtriera que sea cl brmato cle,gido. debe ser sistemática y ruon-da, ajustada a 10s criterios que defixien un buen ítcini eri el formato elegido, recogidos en rlirectríces piku como las que se expunen a con tiririación.

Respondiendo a h necesidad de construir itttms segfixl un rnodo sistem5lico y o p n irado, paliando las dificiiltades de cada formato y witando errores que pilrden cornetcrse en ellos, han ido apareciendo en Ia literatiirauna setic de cunjuntm o taxonornias de guías para realizar esa .tarea (CrockeryAlgi;iria, 1986; Fink, 1995; Gronlund, 1988; 1-Ialñdyna,2004; Haladya, Downirig y Kodríguex, 2002; lrvne y KyIloricri, 2002; Marrelli, 1995; Moreno, Martínez y Muíiiz, 2004; Muñiz y Garcia-Mendoza,2002; Osterlind, 1998;Padilla, Clondez y Pkrez, 1998;Prieto y Delgado, 1996; Renoni, Solanas, Dofi~lyN'xnez, 2002). L;i mayoria dc esos conjuntos de guías están referidos fundamental o excluutvamentc a un determinado tipo de formato, consi-

C O P I ~ U C U ~DE N LOS ÍEMS

17

derado además en su u.w con uiterios bicn de ejccucifin máxima. bien de t+xuciOri tipicii. Su aprovechamienio como herramientaútil y dicienle .w ve difidtado iamhién por el número usualmenie elevado de normas, y más aun si contienen ~peticiories;y [email protected] como las qiie han rnosmdo en clctalle Moreno .e! d (2004) en las S6 guía contenidas en la taxonomía de Haladpa ab a¿ (2002). Ante ese panorama,resulta de iritcr6s oírecer una versión dc directrices o guías aplíiahles a los diferentes tipos de items-an abiertos o cerrados, de ejecucion máxima o típica- y que con un nUrnero reducido recvfan todo el caritenido relevanle de loa conjiintcrs más amplios. Ello es pmible mediante ima reorganizaci6n que evite redundancia de esos cor~juricosde partida, suprima lo superfluo y muestre lo relevante como especificaciones y casos particulares de irn principio más generd. ipard nosotros eSlrt no 1)zicde scr Otro q i ~ c el ajuste de los iterns y pruebas a los objetivos de la evaluacibn que se pretende wali~ar,cs decir su validex.Esta es la idea central que desde ahora se enuncia y en la que se insistirh eexi adelante: la constriicci6n de los íterris y pruebas que coiiiorman, y por iarito tarnbién las directrices sobre esa tarea, dtbcrliri estar derivadas y al servicio del oeje tivri qire se prctcnda conseguir.Segdti el tipo de &sic, se enfa~izm-5 el ajuste o talidez en algún aspecto deterxxiinado, algo recogido en la literarura con deriominaciones como yalidcx dc contenido, de co~istructo,dc csitcrio, aparente, consecuencial, convergeritr: y divergen~r:enrre otras, rtcogidar en sii rnayoria en los recientes estándares (AERA, N A y NCME, 1999), qiie Muiiix (2004) revisa con dctalle. Se han establecido tres grupos de directrices:a) de base, previas a la coristruccifiri propiamente dicha, b) sobre la construcciiin de ítems y pruebas, reieridas ü aspectos comixrieis a los distintos forrnatos, y c) específicaspara l a opciones en los ittins cerrados de se leccihn de b sespucsta, clernento difere~iciadorde este tipo de l'ormalos.

2.2.1. Direct~cesdt base 1. Para facilitar el pretendido ajuste de los iterns y prilebap, el primer paso, previo a la.~oristrucciOrimiurna, ha de consistir en defiriir del rriodo 1112sespecífico posible cl objetivo de la waluaci6ri y el dominio n contenido que interesa en ella. En primer I i i p r debe

especificame si se descan evaluar apf itrrdes , rt'n ciirnienios, personaliddd o rnialquier citro aspecto; tanibién s i con ello se pretende describir iiln toriszructo, identificar a los sujetos respecto a ini rasgo o una aptitud, o ubicarlos en esos ttrrninos dcniro de un grupo d i f e rhcnciándoluscntre sí (Crcicker v AJgina, 1986; Prieto y Delgado, 1996). En segundo lugar es preciso detallar lo r n h posible el dominio clegido, señalando sus diversos corriponentes y variedadcs. E1 resultado dc bc ser una fnb!ri de esprc~fi~dknat, que se ciiri c r e h de maneras divcraaq según el 5nibito de evaluacibri, Eri el tducativu deberia rccciger las c.-rirnhinacioiicsposibles C r i l . r t 10s contenidos trmiticos y los procesos u operaciones dcl si-jeto a evaluar,y;r sean merrinria, rwonamieiito ii crlrcis implicaclos eri cada contenido. Kn la evaliiacion cle Ia personalidad o de los rasgos se h:~hlaríadel mapa dcl constructo en cuestitióri y/o cle la scrie de ir1dicador.t~ empíricos de tal constructo. Dcbn o tenerse en menta csias especilicaciorics, aumeritará la pruliabilidacl de qiit Ins itenis se centren rn crintenidos fáciles de preguntar pero no relevariies para los objetivos planteados, Además de p a n la constriisciOn d e todo tipo de ítern, estas t;zblas de especificacirin soxi útiles tambi>iPncoino critvrios can los qiie evaliiai- las reupricctns elaboradas por los sujetos en los hrxxiatos abiertos. Para facilitar la elabriraci6n o rri~jorñde una tabla de especificaciOn se han señalado divemos prr~cedimieritos:la revisibn de la bibliogri~fiasobre el tcma de intcrits, tarea facilitada por las hm de datos y accesos electrcinicoc dispniblcs; Ia encuesta a expertos para que aporten infurxriarihn y opinihil al respcc-in:y si es el caso la ol+ wrvación de sicixaciones rclwantes para el tema en csiildin. Dichos procedi~riicntos suponcn difereritcs niodalicIades de recogidas dc datos, cie carácter exxploracoric~ciianrñci no hay suíiciente csnocimicntu para identificar. aspect0.i componentes del dominio cn ir~estion. 2. Es cnnveniexitc especificar tariibiéxi cl contexto en el qiie se van a utilizar 10h iierns, lo qrie incliiyc: tanto la poklaciOn a la que ir511diri~driii,como las sircunst;iririasambicntalcs en las que sc aplicarán.~ e s ~ e cat la a pablacirjn deben Edet~tificarsrlas característici~~ q ~ i ipdríari c afectar a la evaluación a1 limitar o disrnmionar Iri con]prcnsi6n dcl iltm y quc por tanto hay que tener en cuerita al constrilirlo. Las siguientes suelen s(:r significativas en ese srn ticlo: edad o genemción a la qiat pertericcen los sisjetas, nivel c~ilruraly de instriiccihn máxima alcan rada, lengiia rnaterria o la utilizada eri cl do-

COXSKKL~CC:I¿)NUE LOS ~ T E M S

19

minio y coniex i o cval uado, discapacidades o limitaciones lTsica~0 psíquicas existen tes. y ánibi tos ci ,griipos geográficosy cultr~ralescon rasgos espceiales o minoritarios a los qilc puedan pertenecer. Respecto a las circunstancia^ ambiexitrzles ha de corisidcsarue si se tie ric o riu posibilidad de decidir sobre cl Iiigiar y condiciones físicas en el que se reali~arála aaluacibn, si será iridiviclual o colectivd, si en ambos casos se rnanrienen condiriories semejantes para todos los sujetos y de qué medios materiales y ticrripo se dispondrá para reali/ar.la, L>erio tcrier en cuenta estas tspecificaduries, aumentaría la probabilidad de q i i e los ítcms coriten%ganun I t n p ~ a j ccontcxiido , o formato no apropiados. S. Una vez elegida el objetivo gcricsnl, y teniendo especificados dc modo adecuado el do~riiriioy conttxlo de iriterf3. estos deberin ser utilizados ronio cti ierios para decidir el dominio y contexto qiie 1 x 1 a ser incliiidos t i 1 la priitba a construir y en cada lino dc sus itexns. El dominio y contexto de irilcrés deberán tornarse en s i l iomlidad si su tamafici 10 pcrhriiiteo si no existc otra posibili&ad real. .tíocurre respectivamente cuanrio se desea evaluar iin dominio muy iyspccifico, por cicrnplo Iñtesnlidad rri uria tarea concreta con las inaiios, o cuando las ~aracte~stfrias de la poblaciriri a csiudiar obliga a realizar la er~dluaciónen un roritexto d~terininada;es el caso d ~j)rhcteridcr : estudiar ciertas habilidades cri ni fiíis perliieños, pues c o r n ~ - i o riiii . ~claro ~ ~ límite tanto en la comprensibilidaddel material a iisx cuino en la durxión del U c m p en el que puede ser e s rrrdiados. En caso dife1-cnie,cuando el tamaño ciel dorninio p corltexto sean suficientemente grarides como para ser estudiados en su iotaliclad, ricbcrj clegir'sc uria rnutstm representatia rPc ambos si las circunstancias lo permiten. Pard ellv deben utilizarse los p m c dimientos de muestren al IFSR (Manzario, 1998),bien sean de tipo aleatorio o tomando decisiones con la i r i t c ~ i c i hde representatividad como al pondcmr-cl rií~merude ítems a incluir eri cl examen de una asignatura s e e n la relevancia dc cada parte del temario y iabla dc csyccificaciríri coxrcspundientes. Anihus procdirriieritos pueden ser aplicados a la tabla de eqiccificacióii, ya sea a parUr de su5 diferc~itesconipricritcs iridividuales, conio por qje-rnplocada nu ciUn y coxnp~t~ncia contcnidas eri un temal-in docente, o a par~ircic agriipaciones de ellos, como bloques o unidades temitica~del mismo temario mencionado. Posibilidades sem-ji;mtespueden darve respecto d CiJrltexto,COIIIO C I ~ A T I ~ C interesa ) y es posible rnixest.rtarna los

20

XVÁL~SISDE LOS ~I'WES

sujetos por sil edad o p r niveles dc ins~rliccíbndcanudo, las horas en quc se aplicarian lau pruebas si dicha variable se considera reltvante, e1 soporte en papel r i ordenador a uti b a r en ixna prueba escrita, o la configr~raciriii visual con la que presentar la prueba. Si los muestreos se rcaliran inadeniadarricnte, ello debe tenerse en cuerita al interpretar los resultados obtenidos con la prueba asi construida, pues la representatividad que se les dcbc conceder va a qiledar limitada a las cnndiciones ritilixadas y algunas pocas siniilarts. Ello es un inconveniente y lirnimción para objetivos m á s ambiciosos, pero cn rndo caso es la hase para empezar a adqiiirir representai.ividad respecto a referentes cada vez más amplins que el inicial, a mives de sucesivos estudios con diierrntes dorriinios, crintextos y formatos igualrrienkc limitados cada iirio aisladanielite. De esa manera, varios estudios con sujetos de direremes edades, indicadores divenas de un mismo dominio general y utili~andodistintos forrnatos permitirán delimitar cada vez rriejor el alcancc del refercnte respecto iil quc se puede defendcr la representanividad de los datas obtenidos. Este es además el dnico amino posible cuando no caben estudios m S amplios con costrxws muestreos. El dominio Y contexto que se haya decidido incliiir eri la priicba -lo que podriarrios considerar la mucstra del contenido a estudiar- debe constitiiir un factor importante para decidir sobre e! formato de los íterns que m5 sc aji~sreal dominio y contexto planteados. T'arnhién serán Útiles en esta decisiiin Ea consideraci6n de Lis ven tajas e inconvenientes cle los diferentes forrnatos expuestos al c0rnieni.o de este capitulo. El formato elegido piitde aconsejar adernis Uertas modificaciones en la muestra del contenido elegida (ver fifipra1) . Aqi por ejeniplo, para m-di tia^ bs crimpezericias adquiridas en una materia cabe elegir el formato de preguntas abierm,lo que puede limitar el número dc contenidos a evaluar,algo que podría ser corrcddo en parte usando preguntas de respzicsta !)reve. Tras esas decisiones, rnutuarneiite condicionadaq, deherían tenerse en ciitnta las dkctricm existeiites sobrr conswucáún sistern;ítica de it tms, como las presentadas a partir del siguiente apartado, realim d o con ellas dicho proceso. En todo caw la dinalización de estc no debe ser defiriitiva, pues sicnipre ha de esmr abierta la posibilidad de modificacinnes. En resuintn, el ajaste o representatividad -la vdlidez- respecto al dominio y contexto de interGs dcbe ser el criterio udli~adoen la construcciiiri dc la5 íítems. Decisiones sobre aspectos como conte-

de referencia

nidos a incluir en cada ítem, tipo de lenguaje amar, extensifin de cada í t e m y de la prueba,número de opciones de respuesta si es el caso y contexto en el que se van a apiicar,deben ser tornadas en funciiin de srr representatividad o ajuste con e1 dominio y contexto e+ pecificado. Esa es b &ima que debe tenerse siempre presente. Por eso sOlo con las directrices presentadas hasta aquí ya podría a h r darse el proceso de constmcción. Sin embargo y para facilimlo en mayor medida, se señalan a continuación una serie adicional de directrices, que aplican las planteadas h t a aquí a los aspectos epeciticos más relevantes para la constwcci6n.

Decididos el dominio a evaluar, su contextoy el farmato dtgiclo, la siguiente tarea ha de ser la construccibn de cada uno de los írerns requeridos. Las siguientes directrices indican aspectos rela~ntesa tener en cuenta.

4. Dacio que el critcrio priciriiarin es la representatividad de la prueba r.cspecto al. referente ccinsider~do,cada item debe cnlaborarhsiendo indicador dt.1 rnismo. Cada item debc rccoges a l ~ i r i oiini, dad signifiativ~dcl domiriio en esnidio y su contexto, para que así la respuesfit obtenida pueda ser rclemnte. I.o qire es una unidad significativa vendri &do en cada caso por el dominio y contexto de ii~teres,tlo existiendo reyla universal a1 margen dc tal referrntt.. A veccs será un aqpccto m i e s p e d c o y simple, cano el canurimiento dc la fecha clr: un hecho históricci, y otras uno más corriplqjo compiiesw de varios nias elementales, como prever posil.ilcs efectos q i ~ c determinados factores a n ~ b i e n ~ ~pucdcrt lcs cjercer sobre cl desrirr-0110 dc iin determinado proceso psicnlcigico. De no ctirnplir coii esta clirecériz, CI ítem planlearia irit conteriido inadecuado o irreletante para el dominio y C O R ~ ~ X ~de O Sstifcrenda. Ociirnría así cuandn e11 itctns de sexos r ~ ~ c u l i n y kmco

nino? l.

»

2.

2' 8

s. 8

II

9

Por la claridad pretendida, niando se titilizan códigos verbales sor1 preferibles en general las cxptcsiorics afirtnaiivas o clararnexite interrogativas r n h j l i e las negativas. Éstas son ente~ididascon mayor dificiiltado irnprecisidn, bicri porqiie especifican un contenido por defecm indicando tan solo lo que iio ha de curisiderarse,corno hace la opcihn "Ringun,ade /muntcI-i~-es " cuando es la cometa, bien porque contengan dos o niás negaciones.Esto puede ocurrir en pre@ m a s abiertas como la siguiente, "Sifuma wictima dr un atrrrca, indique que n,n e.qlnra'a dispuesto n no @m de ham", qne resultü coritiidc-

nbletntnte enrevesada. Es una difictiltad que puede darse larnbi6r-i en preguntas cerradas cuyas opcioncs incluyan algún seiitide ricgativn coma D P S ~Fdto, R No u otros. Por último, iéngase en cuenta que la claridad del significado rlc uri itcm depende tambikn de Ia csptcificaciiin de circunsmnci;is qiirt enmarquen el contenido elegida; por ejemplo un íwm de conocimiento general qiie preguntara por el significado del término lingüístico UF3~i" no dtberia omitir la ccpccificaci0n de si pregunta cn referencia al idionia vasco, donde es conjuncióri ilativa, o al idioma griego doride es la denoniiriaci0n dc ima letra. De í p a l modo, iin itcm que pregiiritara por el número de noches quc se ha dormido menos de 5 horas, debería especificar el periodo de tienipo sohre el que sc pregunta, como por ejemplo Ea última serriaria. Evítense pucs ítetns confusos o ambiguos ya que priederi dcjar al sujeto sin saber qué se Ic esrá planaando, y a la pcrsona que evalka sir1 poder confiar cn que la interpretacihnde los resultados pueda hacerse d e

de el rlominio y conimio de referencias. Asimismo, evítense items excesivamente profusos o escuetos respecto a dichos dominio y contexto. Tengase eri ciiexita en este scntfdocl error consistente en intentar ocilltar de al@n modo un contenido que parezca haberse expresado de mudo tixcesiw~mentc: claro. Siicerlciria así cuando q u e rierido preguntar simple y llanamente el nombre de las cuatro estacion es clirnáticas de algunas zonas terrestres - no si e] sujeto sabe interpretar determinadas defirricior~esde diclio conceptw, se c o n s trurera uii ítem coxxlo el sigiiientc qixe 1.esu1taindebidainentc coniplicado para lo qiie se pretende averiguar "Indique el nombre & cada uno dt! los cuatro PtrrBodos timafraks asrhadm a In mlncirin & In 7 T n - r ~ ~ sn t m o al ostro rtcy y gui. m algunas zonas entm los polos y d ecuador producm una sucesión variada d~ Pm'odos mawur111.~ por Ius f ~ ú m m , o scliwaáticos". Bxi casos como csle debe saznnarse a la inversa. Si el contenido es relevante para la representatividad respecto al dominio y contexto de relerencia, introdtizcave el ítem sin m& coniplicación, y en caso contrario retírcsc. De todos modos, conviene recordar que los criterios de claridad y sencillez no pueden defiriirsc dr: manera universal, sino siempre en relaciiin con el dominio y contextos de referencia. Lo confuso o inadecuado de un iterxi. para lin dctcrnrninadoámbito puede dejar de serlo para otro distivito. Uri lenguaje liumérico-formal puede ser r.clcvante para evaluar conocimientos en dicho dominio,pero no para darle claridad a la narracihn dc un hecho íle la vida cotidiana planteada a una poblacihn qtxt no tiene por qué conocer dichas expresiones. Cuando se construye uri ítcni de ejecrrciGn típica acerca de i i x i tcrna íntinio del siljelo, que puede resulrar comprometido de responder, una de las posibilidades para fiavorecer s i l respuesta es introducir uria introduccidxl c6mplict o comprensiva, que por ello puede alargas el tcxto de modo no ilecesariamente inadecuado como hace el siguiente ejemplo. La frecuencia con la que las pcrconñs adlilta'i miinticncn relaciones sexualea entre sí es muy variada, dcpcndicndo r l r riiirncrrisoi fiictorcs pcrsonales y ambientales y cambiando ademiii srpiilti las +ricas. En ese acnhido ;podría indicar cl niimcrci dr rvlacirines de diclio tipo que ha mtenido usted en las Ultimas dos sciwanm? En sentido sirnilar, d liso de negaciones en 20s ízerns puede ser recomeridable al evaluar competencias en ámbitos donde sean reIcvan tes, corno en Ihgica formal o en el temenojurídico m el que

frascs como "Noe . mmi ~ arao.~cierto F.. ." han de ser correcmmente inicrpre tadas por los profesioriales. Cáigase en la cuenta que con frecuencia se sobreinticnde que el referente de los ikms es el lenguaje ordinario, cuando ello no es siempre así y por tanto no es el tinico que debe dictar las reglas de la correccion y claridad en la exprcsiiin. En todo caso, si por cualquier m 6 n se decide introdt~circn el ítem algún aspecto no usiial para el domino y contexto de referencia de&A avisarse con claridad al srrjeto de tal circunstancia. Así lo hacc cl siguiente ltem que pide serialar la frase que no es corr.ecm. Tiidicar qué hasc lira TNC0RRT:E:TAMENTE rl verbo "to da" 1. 1dislikc doing hoiisework 2. 1m ;tltv;t).s doing this rnistakt J. 1m1ilot going to do any work

6. Uria ver ccinai.ruidos cada uno de 10s ítems de una prueba, ha de cuidarse que el coqjiiri to rr*siiltmte,tarnbien como tal, hcilite el pretendido ajuste cori el dominio y el contexto de referencia. 110s son los aspectos o factores que lian tenerse en Cuenta especialmente, el núnierii dc íteims a inchiir y sii odenacion o distribución en la prueba. El riiirnero de item debería ser aquel que permitiera confiar w-onablemente eri la rcpreswitñtivid-ad de los resuitados de la prueba. Awces, sin cmhargo, ello w ve dificiilrado por oms iact~rt~ FA i .10 que sucede can formatos que piden consmir respuestas Iawq, que difidhneritc piieclen ILUW en el número que la representatiridad requeriría. Sea por esta u otra razón, cuando el níim c-m de items sea insuticientc para lograr iina niciestra representativa del contenido dc referencia, habrá de tenerse e n cuenta que los resulmdos obtenidos tienen eucr. Iirnitacidn cama yn. se expuso en la directriz 3. Respecto a Pa urganizacihn de los {tenis, en prticbas de ejecución miximi purdcri Iiresentarsc agriipados por tipos de contenido n por e1 contrario priede preferirse mezclarlos; corrio piicden argumentarse ambas dcsisiones, habrá qric dcsidir en cada ocasión en furición del objetivo de la waluaciiin. En ejecricibn típica sirclc: scr recomendable ubicar los it enis m5s corripronictidos tras otros que favorezcan la habituacióri y la corifianza del siijetio. En todos los crtsos,loc diferentes ítcrns deberían ser lo más aithnomos posibles entre si, salvo q i i e se prefiera utilizar varios similares pam ponderar cn mayor medida determinados coritrtnidoa o para probar la concor-

dancia cn las ntspucslas a iin mismo aspecto. Si esta es la decisióri, no dehera repetirse cl miamo ítem sino usar -distanciados entre síalgunos semejantes en contenido y cstrilctiira ainiqtic difererites en apariencia. los dcnorninados ítems isainarKos (Dejar, 1993; Remieltay Ponwda, 1999) tan iitiles tarrhieri rri la constriiccibri de b;incos de ítems de los que cxtixcr muestras nn repetidas para diferentes pruehac (Barbero, 1999) . Los dos siguientessenán qjemplos de ítems isomot-íos sobre un mismo coritexiido: %fih lr6 U l l ~ r sanama n~ &atas mmr ha dicho usted a@ q u e sabia ya# no /ITD cierlo? y $Eis ks .rip mana cuántas IIPCS ha dicho vlslad algo que sabia p e erafalso?" 2.2.3. 1)irectrice.v as/~c&J':cns s o h las ofmimm d~ wrpu~sta lon los ílmcerrados

Este tercer grupo guía respecto a las opciones, componente espccifico y diferenciador de los ítenis cerrados. Los itcrris dc rste tipo pretenden conocer la respuesia que el sujeto elige por entender qiie es la correcm si se trata del tipu de $jcciición miixirna, o la que es mis acorde con su opinión o personalidad si se trata del tipo de qjccliciiin típica. Por tanto, en todos lus cascis, cl objetivo de la coxutr~iccihnha de ser faulitar la selección de la respuesta s t g ~ nel oh- , jttivci planteado, sin iriducción de otra dilerente. Para ello son relevantes las sigiiientes directrices.

7. Cada opribn ha de ser un complemerito ci una respuesta lo más breve posible para el entiriciado, el cual debe exporicr lo central del itexri. No hacerlo así supondría incluir cxi cada opci6n una cantidad dr informacibn excesiva y a veccs repetida que $ificultaría la compretisihn de lo que se pregunta. Por esto, en los das ítems siguientes, referidar;ani 110s a iina investiprióri co~iwida por el sujeto, el contenidn del segundo quedci cxpucsto de modo m% claro y sencillo que en el prirricro.

En la invcstipicibri ik referencia 1. se controlan b v~rial>le A y la variable D 2. se controla la ~anablrA ~ r noola wrialiile B 4. se contrtilari la variable A y Pa vmiablr R Fiero r i o la C

Eñi

la investigación de refcrencla ,-quévariables se coiltrolan? 1. A y B .4pei.o "O B 5. A y B pero no C:

2.

8. las distintas opciones dr cada í t ~ deben ~ n ser homqrtnitas cn conlenido y apariencia, Ninguna opciiin debe dcsiacar del resto en casacteristicas qiic induzcan al sujeto a emitir o evitar una r e puesta distinta a la que se desea obtener -la que considere correcta o la más acorde can lri propia opini6ri o crimprtamiento+ tarnp cn en características q i ~ cle planteen dudas no relevantes que It. distraigd~idc: la tarea que debería scr ~i?ntrsileri el iwm. Eri términos de contcriido seria un ermr usaralgiina opcián claramente excli~ycntepor &!Serencidda o incohcrenw, conio introducir la opciiin "JapGn" jimto a ams con pafscis dc África en una prr:gu11ia sobre este contincntc. Otro e i m r scría dar información indebida sobrt. la rcspiiesia correcta, como hace el siguiente íteni rri la ptirnera opción, puesto quc ti11 lup~res el úriico doride puede estar una ciudad mañtima como la indicada en el enunciado.

itm i

n

w

:

;En cuál de los sjguientes lugares esrEi simada la ciudad marn'áma de Veracruz? 1. G l f c i rir MCxicci

P. Cordillrr~dr Iris Aririrs 3, 1)esier.io[de Baja hlifrirriia

En seni ido simibar, los itcnis de ~jecziicióntípica deben evitar o p ciones cargadas dc valores que induzcan a su elección por 5er la respuesta socialnistii ri aceptable o a su evitación por la ra&n coritraria. Por ejcmpln, usar en un cuestionario opciones con t6rmirios conio "racista'*O HxeriOfohn,que expm.Fan ian explícitamente valores socialrncriic dc~iastados,hari dificil que lo5 sijctris las dijan para calificarse a sí rnismos aiinqiie mantetigan actiiucles cercanas a tales vdlores. Deberian evitarse también los t6rrnirios nioditicadores, normalmente adverbios o fmqc advcr-kiales,que anulan o svljal tan determinada?;opciones. Tkrniinos o expresiones coxxio "n r~m", "pude quen, L L u ~ ~ ~ m U m "generalmente" te' suelen scr- perribicios por los sujetos como asociados a conteriidos ciertos, mientras que otros como usik$mn, ''nunca''," E O ~ O S ' O' "~ún t s a m te" .jt.acodan

a cantenidos falsos. En todo cam, esto tieilc sentido respecto a dominios y conkxtos de lenguaje y contenidos cotidianos, pudierido ocirrrix que en otros más especificas sea relevante asir estos m e diílcadnres. Aci pilrrde suceder en items sobre medidas médicas de urgencia donde e1 sujeto debe sabes que nunca o siempre ha de hacer algo en detenni~iaclascircunstancias, ya que en caso contrano el riesgo de fallecimie~itodel enfermo seria mi- elevado. En tirminos de apariencia, son diversos los factores qiie pueden producir efectos indeseados si las opciones no se maniierien h e mogéneas. Uno es el uso de terminas que por haber sido usado cori proftisiún en un marco de referencia, como por ejemplo ex1 el manual de una ~igriazura,pueden ser reconocidos de modo meramente inemorístico sin comprensión de su significado. Otro es la longitud diferente de una opcion, especialmente si conlleva una c m tidad diferentc dc iriforhrriaci6n,corno hace d siguiente itern.

2Qiib concepto es ceiiiral en la Ii~ictilo~cd planteada por R. F.Skinner? l. instinto o pulsion insliritiva 2. rcflejo o respuesla autcirii&ticii 5. refomdor, en~entIf(locrlrriu cstlinulo qut. aiirncnta la probabilidad rle la resptir-sta a la que sipie

Otros aspectos son los de tipo gramatical, como le oci~~'r'c al siguiente item en el que la opcibri correcta, la primera, aparece indicada indrbiktrnente por sel. la única que concuerda con el ferricriino plural de la clave dcl cxiux~ciado:

im iTladmm&: El síndrome dc Warerhouse-Frideric11e11está Iigddo a la imuficirntia v i v e de que glííndulas:

1. las suprarrenaIes 2. la pituitaria

S. d páncrew Dadas las abundantes nianem en quc pucde romperse [a h u mogeneidaci, coriviene tener presente que en g=ncralp u d e lograrse por dos tias distintas: coristruyendo opciones que sean todas semejantes-en contenido o apariencia- o todas clarmiente diferentesen-

tre s í corno lnaccn re~cptctivarnentelos dos ítems siguientes. En ellos riinguna opciijn da pista indebida al siijeto que desconozca la respuesta correcta. L a r ~ d i í i f i nalfa consiste en haces cle partículas compuesta3 dc: i. un pimión y dos electro~ies 2. rios proio~itsy dos 1ieiiirtint.s 3. t,res rieuli*oriesy uri elertrtín El ~érminoR K I I C C I ~ N(no i~iduccinn)hace referencia a un tipo dc 1. ;ir~imien~"~ri6ri retGricia 'L. convocatoria de reiinirine S. iritervenci61i nikdica

9. En los ítcms de ejecución h i r n a , la homogeneidad dc las opciurics implica plai~sibilidadde todas ellas pan1 el si?jcioque no conoce la respuesta correcta, así como la posibilidad de identificar é s ~coi1 i suficiexitc claridad desechando el: resto por parte del que

la coxioi.ca. Para Pxilit;irlo, cvitense criterins definitarios de la correcta que iio icarz cxplicitos para el sujeto. A veces estos se iritrcidiiccn al construir d ítem con el siipiwstn de que el contenido ha de ser averipado y no identificaclo directamente; sin embargo si dicha. operacion no forma parte de la corresporidicnte tabla de especificación, no dek r í a utilizarse. Asirnisrno, y para una rnaynr claridad, es recomendable en tkrrriinos generales que la opci6n correcta sea La iinica con tal cat-;icter.Si se upta cri cambio por- plantear como correcta la que es más; exitrc w ~ ~ i que a s lo son parcialmente, hay que aseoraciosen nn idioma y una cilltiira distintos a aquellos en los que se estáii utilixi~iridri. &ta aridencia es cada vei. mayor debido a la irirrrnacionalisaciOii creciti~ir:y a la hcilidad actual para la circulacion dc la infomiaci6n. Este hecho plantea CIprobIcma de traducir y arlaptar Iris, iierns y los ~ S Ide S unas culturas e idiomas a otros. Si este proccsu no se lleva a ribo con las debidas garantías, la prueba puede quedar iiivaliclada dcsdc cl priricipio, pues n o tcsulh adccuado aplicar sin más los tests a una ciilinra distinta a aquella en la qile f i ~ r o geriern-clos ~i (Brdcken y Daraona, 11391; Brislin, 198ti; Lonner, 1990). Existen distintas razones pos las cuales se traducen y adaptan los tests de unas cirltums a o t r ~ sque , pladrlan siritenizarse, srtgíin Ham1,lcton (199ti), e n riiaii-o priiicipalcs. Una primera no despreciable es que suele resiiltar más barato y r;il>ido gcncrar uria. venión de u n test para otrv idionia qiie hacerlo de niievo; por qjcniplo, la c s c d a de ;~risic.dad-rar;go dc Spielberger ha sido adapiada para ser iiiilizada eri más de cincuellta paisss. Uria segunda raz6n es qiir en el segundo idiorrla no sirrripre existe la experitricia t6criica para constritir. iin riiievo test cnnvenitnt erncritr. vididado, lo cri;d suele ociirrir en países del tercer rrliirido, Iiaciendo que los profesinnales e irive+gadnrc=~dc esos países sc siexitari mis seguros y arropados aiapta~ldotitia priwl-ia que ya gcwa cie prestigio. Una tercera razón itnporianre es el creciente iiiteres en llcvw a cabo cstiidios jntcrculturales, lo cual exige tests comunes adaptados a los distintos idiom a . Firialmcritc, iina ctiarta ra/i'iri para Ilewr ii cabo la akiptíiti6ii

seria la mcjora dc la impasrialidad, permitiendo a 1% pcrsrlnas lealbar las prilchas en sri idioma preferida. Como señala el propio Hamhleton (1996), si bien las fiizonrs par ;ifaadaptaciiiri parecen claras, no lo sori hrito los rrtAII'RC:I(~NDEL TEST D. l . IA)S~o~~s~~.u~i~)~.es/ediiores de tesh deberím rtszgurx- que e1 prtv ceso de aa$apracióritienc cn cuenta las difere~iciasli tigüísticas y culrurales eriwe l a poblacioncs a las que se dirigen laq vessiciries adapmdas del iesi. de los tests drtierian prri~iorciciri;irdii13.2. L o s coristriicicirrs/e~Ii~ot'es tos quc gi~iriticerique el Irr~giiiijriitiliz;ido cn Lis instrucciones, cn los propios itcnis 7 r r i rl rn;inu;d dcl tcst. son apropiados para todas las pohliicicirirs c,iilfrlr;ilrsr iidium5ticas a las q ~ i va c diriRdo el tcst. D.3. Los coiistsuctorcs/cditor~sric tcsts dcbcriaii aportar cvidrncia d c quc las iicnic;t< de evaliiat.iiiri elegidas, los formatos dc los itrrns, las regias dc los trsts, y los p~.o~edi~riirrit(fi son fiimiliiirc-sa t o d ~ Ixs s poblacioncs a las quc mri dirigidos. n.4. 1.0s c~orisiruciores/editorcsde tests deberían facilitar evidencia cle qirr el c:cirisenido de los ítems y los maieriales de los estíniulos son fiirriiliares para iodns las poljlacíones a las que rnli dirigidos.

42

ANÁI.~SIC DE LOS ~ I E M S

D.5. Los constructrires/editr)i-esde tesw debcrian aportar im;ljrrstififiici6n racional sisieniállca, ianio 1ingKsiica como psicolcígira, p a ~ tmcjon t . 13 precisióri del proceso de acllaptacióii, xíconio reuriir rhtos acerca de la equivalencia cle rodas las vcrsioncs cn los disli~itosidiomas. L1.G. 1.0s cunstriictcircs/rditorrs dc t r s t i rirbrnari ;iscgnrar que el diseaprm ña dc rcco@d;t dc datos pcrmitc cl listi de t6cnic;tr cstaclís~icas piaclas para establecer la cqiiivalcncia cntre los íteins correspciridientes a las diierentec versiones idiomiiticas del test. D .7. Los ccirisiruciores/editores dc tcsts dcbcriaii aplicar iécnicas estadísticas apropiadas para 1) csmblcccr la cqiiivalencia enire las diferen~esversiories de un ttsr, y 2) idcntificdr coniponenies probleniáticas o aspectos del tcsr qiic piiedan ser iriadcciiados para alguna d e . 1 poblacioncs ~ a las qiic v;i dcstiri;ido rI tcst. D.X. Los constriictc>rcs/cditores [le tcsts deljrr.íñri proporcionar iniorinación sobrc ka cvaliiacicin de 1;i v;iIidei. eri t o d a l a poblaciones objetivo a las quc va dirigido cl tcsr ;id;tptado. D.9. Los coiistructorcs/cditms dr tests rirtirrfiiri aportar datos esiadísticos sobrc b tquirdcnci;i dc los trsts p;im todiis las poblaciones ;i I;ts qiic ~ t dirigidcis. n 1).10. N o clelirri isiilirarsr pr.egutilas 110equivaleriies eri ttirl;ts las vcrsiorirs dirigidas a rIifer.eriies poblaciones cuando se prepara im;i cscala r.rirriiiri, o r:iiarirlri se crirnpaI.aIi eslas poblaciones. Sir] rrrilixirgo, pucdcn scr útilcs Ii;ir;i refor-/:al. la validez de coriieriidri rir la piinru;~: cicii~csdc cada pcihlauiciri por- scyiarath.

kr.tc.jic~c>n A. 1 .

t .os ccinstrirctores v los :i~ilicador.esde los iesis dekittndn tratar dc prrrvcr los t.ipti rir prtililerrias que ~ a h eesperar, y tornar las mcdid;fi riportiiri;ts pira rvii~r~los rriediariie la pr.epar.aciiiri dc materiales c instrucciones ;idcciiados.

A.P.

Qiicncs aplic:ii-i los tcsh drticr-kiriser. serisibles ;i cirrto núrncro dc bctorcs rclacionüdos con los rn;itrtri;iIrs iitilirados para los estímulos, los proccdimicntos dc aplic;iciiiri, y 1x5frirrn;is dc rcspiicst;i, qiic piicdcn rcdilcii- la \i;ilidr/ rlr 1x5 iirfe~.enciacextrd~~kti dc I;is puntiiacicin cs. Aqiirllcis aspecios del eiiiorno quc influycn cn la aplicacióri del i e s ~ dcbrríari rriariirrirrse lo niác parecidos posible para todas las p* blacioncs a l;ts que v;i dirigido el iesi. L;is instrucciones para la apliración del test eti el idionia filcritr y cn cl objctivo dchcn miriirrii/íir la irifluericia de fuerites de vdriariiiri no drscad;is.

A.3.

A.4.

1

I

El manual del tcst dcbcrí,~csperifirar tiin,suponiendo ahora que el íteni sea dic* ~ríinico,se obtendría:

Ambas correlaciones gua-r~hncierta relación. Así, si r, es: positiva, r,,+ tarribien ~ e x 5positiva Y Irf)> rb-#I.Y e n general,

1 1

cionde f j , q, e y tienen la significaciiiri que ya se ha dicho con aiit cririridad.

Cuando ambas variables son, 0 eqesián dicorcimimda~,o una cs dicotbrnica y Ea otra dicoiomizada, el coeficiente de correlación indicado es la correlación 1tezrac6rica.No obstatite, lo complejo de su cálculo hace que la mayo& dc los aumre~~comienden~ r n p l i u d a por la corlrlicióxk $ ( IaVeadt y Grégoire, 199'7).

Chmo ya se bahía iridicado, si iio se ha eliminado el íiem para el c;ilculo de la ~orrclaciónde la puntuaciGrr en el test, con la puntuacidn t n d írem, debe aplicase la siguiente fbrrnula de correcciírn para la obttncióri del índice de discriminación:

ANÁL~sII;DE LOS

~EMC

Siendo: r;,:

. si :

la cor.relaci6n del ítern con el t la desviaciíin típica del test La deniacibn típica riel ítexn

~

~

t

Variabilidad y d i s c r i m i ~

La única posibilidad qiic existe para que rrn trst piieda discriininar entre aquelbas personas qiic lo responden es qiie btas dcri respuestas distintas i i r i a s de otras. De no ser así, si todos los que contestan a un tese dieran las ~riisrnasrespuestas, cl test carecería de capacidad para discriminar. U ria medida de la capacidad discrirninamria de un test es su varianza. Si e s t a es ccm significaríaque todos los sujetos obtienen la ~rlismapiiritiiacióri y por lo tanto el test no puede distinguir entre unas personas y otras; no puede e s tablecer ningrin tipo de orden ni de escaianiicrita, que en definitiva, es tina dc las finalidades principales de ciialquier instrurnc:nto de medida. Piies bien, la mrkabilidad del test, s i l desviación típica, esta eutrecliainente reIacionarla con el índice de discrimiriaci6ii de los itenu:

S,: S, :

5,:

Demiación n'pica del trsi Desviación u'pici del Reni j Índice de di'icrimiriiición de1 ítenr 1

El lector int~resadopuede encontrar una demostraci611de la ipaldad ariiericir t r i Miiiii7 r2003). También la dificultad de los ítems guarda unñ estrecha relación con la ~wiafiilidüddel test. A..í en iienis dicot0rnicos, y;ise había dicho que:

es decir; que cotno es sabido, la varianza de iitia variatile dicotómica es igiial a la prnporciiin d e aciertos (el índice de dificriltad del ítem} multiplicado por la proporciíin dc fallos. Pur lo tanto, en el caso de tests rnmpiiestos por ítenis dicotomicos:

Así pues, si se desea qut. uri test discriniine adeciiadamente, habrA que tcric.r cri crreriia rarito el índice de dificultad como cl indice de discriminación de sus ítexxls.

3.1.3. Análisis & los distrn~tore,$

Se denominan distractores a las distintas alternativas falsas o prr sibilidades de respuesta incorrectfi que tiene ii11 ítern. Todas ellas dcbcríari resultar igixalniente atractivas para las persona5 evaliwdas que desconocieren la respuestíi correcta. Para comprobarlo, una priwba dc in,.d+anrlmcia puede apidar a tomar decisiorics sobre la equiprobabilidad d e las alternativas iricorrectas propuestas para cualquier ítem. Supbngííse que 230 pcrsonas responden al ítem 12 de un test de 4 dternativas, 29 eligen la alternativa corrcctii. De las 201 personas restantes, si las tres alternativas restantes fueran igual de atractivas, 67 deberían haber rlc-gido cada uria de las: tres alterriativas iricorrecias. R e w l ~ aevidente, que iiicluso por mero azar el reparto raramente va a ser ;isi d c cxacto. Si~póngasc.que la siguiente tabla muestra c8mo respondieron esos 201 sujetns qiie crintestaron erriineamente. Supóngase que la(;altcrnativn?;estaban marcadas coino A, B, C, y D y que la respuesta col-recia era !a D. Así pues vease la distribución de las respueshs incorrertas:

(Puede pensarse que kas respiiectas incorrectas eran toda?; ellas igual de atractivas? Si eso rs así, los 201 sujetns que fallar-on el itcm deberían estar distrihilidos de forma aleatoria entre las tres casi-

llas. Esto puede someterse a verificaci6n estadística mediante una prueba de f .

Siendo: FT: Las fiecucnciüs teiirimq L a q frecuenci;~: observadas

FO:

y los grados de libertad son ( k - 1) sietido tivas incorrectas.

K el nlimcro de alterna-

Es decir, que quienes desconocen la respuesta exacta es eguiprobable la elección rle cualquiera de las respuestas ixicurrectas. h

H,:F T #

M)

En el caw de los darus de la tabIa anterior, si los 201 rallos se repartieran al azar e n trc l au tres posibles respuestas incorrectas habría 67 elecciones para cada irna de las t r e s alternativas, por consiguiente:

El valor en tablas de x', con 2 grados de libertad, para el nivel de confianza del 95% es cEc 5,991. Puesto que el d n r obtcnido con los datos empíricos (1,164) es nlcnor que el valor hallado eri tablas, se puede considerar que cualquiera dr las alternatiws incorrectas cs igiialmente atractiva para quierics las eligcn.

Además de los indica de discriminaciiin y de diLicuEiad, cl íridice de fiabilidad de cada itern, ad-ís de contribuir a la Iiabilidad del lesl completu, es una ayuda para nptirnizar el tesi como instru-

72

ANiÚISTC

DE LOS ~

M

metito de medidla. Tambien ayuda a dcdr los iterns que conmibuyan a mejorar al m i o cl tcst como indrumtillo de cvaIimciÓn picolhgica Este indice se utiliza para estimar la fiabilidad con la que cada ítem mide la caracteristica o Ea variable que mide cl tcst total. Es decir, da información sobre la ~ontribuciOnque el item hace para mcdir lo que el test total mida (Suárex Falcbn, 2001). El indice de fiabihdad (JF) del ilem es fiincihn del índice de discrirninació~iy la desljación típica del item, es decir:

Siendo: Idadesviación típica de las pirnliracíones en el item i IDi : El iildicc dc discriminación del item É. Es decir, lacorrelacitin itcm-testcorregida,eliminada h influencia del ítemen lapiiniiiacidn toial del test.

S,:

Si bien la relacidn del íridicc de fiabilidad con la fiabilidad del test total parece I0gica g evidente, es sabido que e2 c d c i e n t e

a es ima estimacibn por defecto dcl coeficiente de fiahilidad dcl tstimado mediante ciialqiner otro método, de tal manera que px,.2 a y recu6rdesc qiie cómo ya se había dicho:

y puesto que

3.1.5. Índicti d~ vnlidtn. dr: los z'tema Ciiando el test se va a u~lili7arpara predecir o hacer pronósticos en una mri;ible externa (a la que se Ic siiclc denominar criterio), se siielc utilizar como indicador el coeficiente de correlacibn entre

S

73

AN~I.ISIS DE LOS íTE\fi

el test y dicho criterio. Es lo qiie se denomina coeficiente de validez del test. Pues bien, cuando el test.se quiere ~ i t izar f con este prop6sito es preciso vcr hasta qué punto d a uno de 10s items del test puede contribuir para reali~arcon éxito la predicción en ese criterio. Esta inlorrriacirin la proporciona el éndice de vahdex d d zZ~mSe entiende por índice de validciz del itcm al coeficiente de correlación entre las puntuacione en el ítem y 1x3 puntiiaciones obtenidas en el criterio, es dccir, la correlación ítem-criterio. Rn este =$o, como la puntuación en el item rio tnodifica exi forma alguna la puntua ci0ri cn el criterio, la correlacibn íte~n-criteriono es necesario correghh. Fornialniente podria expresarse:

Siendo:

r,+

Ea correlacih~ientm las piintiiaciones tuaciones en el criterio externo.

en el item y

hs piin-

No ohmntc, algunas autores, eiitre eIlos Lavcaui~y Grégoire (1997). proponen como índice de validez del ítern, la correlaci6n item-test, ponderada por id desvixión tipica del ítem.

Todos los tests se constnryen con la finalidad de medir alguna variable de interés, bien sea de carácter cognoscitivo, rasgos de la pcrsonaliclad, actitudes, etc. Entre los aspectos que d e k n tenerse en cuenta en la deFmici8ri de ~iialqiiiervdriabie que se desee rriedir esta su dimensiunalidad, el ninmcro de dimensiones o de factores que pueden explicar la cond~ictaque desea medirse can el test. Uno de los rnbtodos más utiIizados p m el estudio de la dimensionalidad cs el análisis factorial, si bien Hattie (1984, 1985) prcipone ochenta y siete metodos diferentes. Existen xiurncrosos textos que estudian la técnica del análisis facrorial y sus caracterísricas. Aquí sirriplemente se trata de recordar que el analisis factoriaI es una técnica correlacional que basa la extraccibri de los factores en las correlaciones entre los iternv cuya dimcnsi onalidad se desea explorar. Se trata de reducir UXFgran niirnern de variables, en nuestro caso itcrns, a un peqiieiio número de Factores intentando no perder de-

masiada ir-iformación.Se trata de evitar que la wrianza explicada por esos pocos facloreis sc alcje mucho de la qiic explican el total de las variables (Yeia, 1997). En realidad, cn la inmensa mayoría de los casos, cada iesi se definc como una variable unidimensional, o lo que vieiic a ser Io mismo, como iin i~istriirnex~to unifacturial. Si un test es rnmultifaciorial, en realidad se tratarfa nnl& quc dc iixr solo test de una batería de test4 q i i e midi& diversos aspectos de la conriiicta, tantos aqpectos diferentes como dimensiones tuviera el test. La existencia de una0 niás dirrierisioncs está estrechamente relacioriada con las caracteristicas de los itcrns, sobre todo con el índice de discrimiriación. Puesto que este índice se define como la correlaci6n de cada u n o de.los íierns con la puiitiiaci9n toml en el tesl, ciranto rnás elevado sea su valor, más probahle será que iiti solo factor expIique una grharicantidad [le m r b n z a y se pueda aceptar la unidirnensiondidad del i t i strixrn cnto de medida. La cornprobacióii de la unidimensionaliclad, como seriala Ihiiiíl(199Sa), es wia ciiesti8n de grado, ya qiie no cribe esperar (con datos ervipiricos) la uriidiniensionalidad perfecta, es decir, qile irn único factor explique el 100% de la t.arianza. Por lo mnto, cuanta más mri;inza explique el primer factur, m i s cercano estará el iesl a la iinidimensionalidad. En el sigiieritc a p d o , a partir d e una matriz de datos simulados con 20 sujelos y 10 itcms se ver2 uri ejemplo del cstudio de la diniensioiialidad del test así como dc otros indices expilestos en este capiriilci.

So11numerosos los programas de ordenador que realizan análisis de 10s íkms de los tests (Brooks yJohanson,20031, pero el d q iitilizado dentro de la 'TCloria Clásica y al que mayor nt'xnicro de personas, tanto irivrsti~ddorescomo psicólogos aplicados, pueden tener acceso es al SPSS.Esle es el motivo por el que a contiriiiación se exporrdriri irx~ouqjemplos de los resultadm q i i t pueden olriterierse, en lo relativo al sálciilo de Iris indiccs cxpu~%tos en este: capitulo, mediante esta aplicacicin informática. la siguicrite tabla muestra los resultadm obilcnidos (se trata de datos simulados) tms la aplicaci6iili rte uri test de 10 items dicutómicos a 20 persona?.

El índice de dificultac1 puede obterierse a través drl S P S caIculando los estadísticos descrip~hos.Sirva como ejemplo los resultados sbmidm para los items 1 y 10 que se muestran a continuaciiin.

Porceriiaje

i

d

Porcentaje acurnulac2n

Ft.ecuentia

Porcentaje

'I5lidch3 O

6

:!Ci,Fi

S0,Ci

30,O

1

m4

70,o

70,o

1011,o

Total

PO

100,O

100,0

-4iuÁ[.l~t~DE LOS ~TEMS

rtem 10

Porsentajc

Validos O 1

Total

Frecuencia

Prixmtajc

vfilido

Pnrccntaje acumulado

17

83,O

85,O

85,O 2 00,O

3

T5,O

15,O

N

100,O

11)0,0

Suponicndo qiie el mior 1 significa acertar el izem y el vñlor O fallarlo, los i n d i c c ~de dificulmd de ambos itenis serían de 0,7 y 0,15 respectivamente. En la utilidad dcl rnis~noprograma de 'escalas" v dentro de ella, an9lisis de la fiabilidad, adern5.q ddcl coeficiente de fiabilidad del tcst se obtiene el índice de discriminación de 10s items, tal y como muestra la siguiente rabla:

La tabla rnuestra el fndice de discriminacicin o de homogeneidad para cada uno de 20s 10 ítems del [.est.Todos ellos son elemdos a cxcepcihn de1 correspondiente al item 10. Su valor, excesivamente bajo, aconseja eliminar el ítemy quc claramentc: parece estar midiendo algo diierente a lo que midan el resto de los itcms que configuran el test. El índice: dc fiabilidad de cada uno dc los ítemq p d r h ser fácilmente calculadn a partir de la tabla anterior y Ia siguiente, que da el valor de la desviación típica de c;Lda uno de los 1O items:

.~NÁL!SICDE

LOS ~TF.Ms -

Ucsviacihn tipica itcm I iieiii

2

,470 ,170

itrrri S itein 4 item 5 ii~m 6

,414

itvrn 7 heni H

,470 ,444

ítrrn !)

,444

ítein 10

,.M6

,470

,489

,470

Así, el índice de fiabilidad de1 item 5 , por ejemplo, seria igual a 0,687 x 0,489 = 0,336, es decir, el resultadti de multiplicar el índice de discriminaci6ri por la des~rlacibntípica del ítem. Respecto a la dirnenuiorialidrid. la alta corselacióri rn t1.e 10s items, parece indicar la existencia de un único fictor. Si se repite el anilisis eliminando el item 1O, como parrice aconsejable,sc: obtendRñn Ios sigi~ientesresirltados: (:oi'reiaci(in clcmcnto-total corregida

ítem 1 íterri 2

,885

iterri J

,937

ítcm 4 ítein 5 íiem fi

,689

item 7 item 8 ítem 9

,813 ,724 ,766

34%

,755 ,tiH3

la anterior tabla muestra lm índices de discrirninacihnuna vez diminado el i(em 10. No obstante para estudiar la dimensionalidad convieric llevas a cabo un aniilisis fdctofial, Ilando por supues1o que súlo conviene dcjar en el test Iris nutvt ítems anteRorts, se ohtivnen los siguientes resultados:

A N ~ S I DK. S LOS

ITEMS

Vartitnza totd explicada

U TÚnico ~ factor, explica una p creto nias dcl 70%.

nantidad de iavarianla, en com

Gráfico de sedimeniaaon 1

-

6 -

-j f

5

-

4 -

3 -

1

-

o

-

2

-C-

1

1

1

1

1

1

1

1

1

1

2

3

4

5

6

7

R

9

Nihem de componente

Otro de los criterios para establecer el ndmem de dimensiones es el gfico de sedirncnt aciiin que se muestra en la p%na anterior. En fiinei6n de este gráfico puederi establecerse tanta%dimensiones, sigiiitndo el criterio dc caída propuesto por Cattell (1966) corno saltos bruscos de la grfica hasta rnosm Fa tendencia al paralelismo con cl eje de abscisas. Parece pues sensato, también en fimción de este criterio, el mantener la idea de una única dirnerisión. Los pesos de 1x5 variables c ~ este i primer factor sesian los siguientes: Fttr~or

1 item S ítem 1 it~m 2

,957

Írem 7 ítrrn '3 ítcrn 5

,888 ,810 ,792

itcm 8 item 4 ílem 6

,785 ,744

,915 ,888

,739

El elevddo valor de Ios pesal~rcdirnda tarnbien en la idea de la uriidirnetisionrrlidad.

1 ;a Ciencia oscila cr~trelo simple y la cornplqjo. Riisca, de forma ideal, explicar el mayor , a d a de complejidad cle ta manera m&simple posible. Ese ha sido el objetivo de las tearhs fisicas, reducir todo el universo a una eciiacSr1. Desgraciadamente, las propiedades emergentes de muchos sistemas, que no pueden cxplicame a partir de SII.Ppartes, curlvitrten al reduccionisrno en el viejo El dorado dc la ciencia. E1 estiidio de los sucesivos niveles dt cornpIejidad que presenta el rniindo ha propiciado el nacimiento d e teorias como la d e sistemas, la de la información o h dd caoc. LAanueva ciencia,

cotno el tiniverso, avanmhacia lo complejo. Las teorías sobre la rnedicibn dc variables psicoló,gic;~ssigue11 la misma tendencia. La Teoría C:lásica dc los Tests (KI'), a partir de una scricilla ecuación y unos cuantos supuestos, promete estimar el error conictido al medirvatizihlcs taxi etéreas conio el autoconcepto. Uri modelo sirnplc solo puede apresar iilgci complejo, perditnclo iniormaciiiri, Eso es lo q i ~ Icc pasa a la TW. La Teoría de Respuesla a los ítems (TRt ) r s un rnodelo bxtante mas sofisticado qiic ka TC1' quc permite, graciüs a su mayor complejidad, obteiicr iuia informarión rriils precisa de las variables rntclitlas y de las propiedades psicoméidcñc de los instriimcritris de evaluacihn. Esperamos qile cstr capítulo, dedicado a presentar sotncraxnente r1ILW y VAS lmndades de la TRI cn esto de1 anAlisiu y constrircciiin de tests, conven~aal lector de las ve11taja5 dc la complcjiciad. Un aiiáiisis exterisu de la TU1 puede encontrarse en los sig-nientcs textos: Bakcr- (2001), Hambleion y Swarrii~iatl-ian( l983), I hmbleion, Swaminathan y Kogers (1991). Lotrl (1')#O), Lcpez-Pina (1'3951,Mi~Íiix (1 #?a), y Van der Liridcrr y lhmbleton (1997).A nivcl irttroductorio v6a.w Nava h r a (2001). El autor, no mbiendo si el texto seri largo e7-rvirtudes, lia querido que al menos w a pródigo eri ~:jcrriplos. Todos cllos, amén de diversa iniormaciriii psiicoméírica, se encircnmn a librc: disposición c t i Ia siguiente diwcciori weh:

Los misnios hechos piieden explicarhscde muy diferente Sorina. Krr ciencia se denorriinan teorías a 1a.q explicaciones plausibles, y si fuera posible compraba'kles, de al@n aspecto de la realirlad. Por ejemplo, Ea tcori;~de los epiciclos dc l'ti,lorneo y la teoría de k p l e r ticrien como objetivo coxxlUn explicar el movirrlicnto de los planetas. Asi, mrnbihi la Teoría Claqisa dc: los T e s y~la Teorkit de Respnesta a los íttrns tienen corrro objetivo estimar el error que ronic.terrios al rrledir cierti~swriablcsde riaturüleza psicol0gica. EUo lo consigiien rnediantc la furrnulaciiin de iin rnridclo rnatemátiso que, como todo mdeIo, se asi~rltaen una serie de hipó~esisqiie deben asurnine de parida; los supuestos del xriudelo. Antes de ~-irascguir,quizá sonvi-

niese aclarar qii6 es un modelo. En la fornia tnk general posible, poderrius caracterizar a iin niodelo como la representacibri de uri sistcrna real (Fishrriari, 1973).Eil íiltima iusraxicia. cl modelo de 1ü 'I'G'S, y los de a R I , son liinciorics ma~ernáiicasque pretenden cxplicar, pirdecir, las respiicstas de las personas a iiri test. La '1'C:'r explica la puntuaciíin observtt&a cn un lesa (el sistema real) corno la suma de la piintuaciiin verdadera más el error de medida. A partir de dicho modelo (X = V + E), y unos supricstos rriiiy sencillos, la TGT pcr-tnitt estimar los Lisrminos dc la eciiacihn desconocidos, esto es, el error corrictido al medir y cl verdadero ~ i i v ede l habilidad del examirmdo. El objetivo principal de los rrwdclos de T W , coino exi Iri T(T, seguiní ssicndo estimar c l vtrdadem nivel d e Ral~iliriaddel examinado. Existen, sin erribar-gn,tres diferencias cscriciales entre ambos inodelos. Prirriet'a, la ainir3ad cle análisis en e1 modelo ~ l h i c oes el test (X es la piintuaci61i obsermda m iol test), eri tanto la unidad de aririlisis cn Ia TM es el ;km.Seg~iidü,1ü TRI incorpora términus al ~riodrloque describeti las car;~cteriuticasde:Ios 1~erns.Es decir, qiic las respuestas de los examiriadns a los ítems tan a estar cxl>licadas, rio sdo por su nivel de habilidad, sino tambitn por 1x5 característica psicomitsicas de los itexxis. (~oinoveremos, estas dos difcrrnciaq proporcionarán ventajas a la '1'RI 'iolirc la TCT en el análisis de los itcms y en la canstrricciOn de tests. Finalmente, los supuestos sobre los que descansari ambos modelos son radicalrnerite diferentes.

Lus modelos de TRI asumen que los datim scibre 10s que se aplicarán TOS rnodelu~,csto es, las mspilesta.5 a 10s tests, cumplen ciertos ~trpiicstcis.Los rnás irnportantcs: imidlmensiona1id;~de inciependrnsia locid. El primer supiiesto exige que la respuesta del examinado al itexri csre determinada por rina hita va~iahle,denominada gtrifiricamcnte raga latente. llicho de otra forma, exige qrre los ítems del test rnidan una sola a p t i t ~ ~udrasso. Quc por ejenlplo, iiri itctn de irn test espacial niida solo habilidad espacial y no ninguna oux cosa. El siipiicsto de uxiidirnensionalidac1es cxigiblt, claro esta, a Iris modelos dc: '1'M unidimetisionales qiic cs de los que trataremos, p r quc también existcn modelos de '1'Ki inultidimensionales (el lector i n ieresado piicdc principiar en esa kmhita con el texto de Maydeii, 199F). Por s i l parte, cl supuesto dc independencia local: cspeci1i-

ca que la probabilidad de responder correctamerite a un item es independiente de Ea probabilidad dc responder correctamente mi-

quier otro. Antes de aplicar los modelos de T R T debemos comprobar qiie rliiestros datos cumplen estos supuestos, si no la información que obtengamos puede estar seriamente distorsionada. En B practica sdla se somete a comprobación la iinidimensionalidad ya que ésta implica necesariamenw independencia lncal ,y la cornprobació~ide este último supuesto es m u y laboriosa (Lord, 1980). Para un análisis de [a dimensionalidad empleando el andisis factorid &ase en esta misma colcccidn el libro de CarcíaJirnéncz, Gil Flores y R e drigwi: Gómez (2000) y, con caracter más geneml, Hattie (1985) r; Criesta { 1996). A este respectu, lo dicho en la TCT puede aplicarse aquí perfectamente.

'

MODELOS

La unidad de análisis de~itnide la TKi es, como su nombre indica, el ítem, y la principal herramienta para su estudio es la Curva Carñcte~sticadel ítem (CCI) 2. L'd CCI es una füncién rnatcniiitica qae relaciona la probabilidad de responder correctamente al itcrn con el nivcl de habilidad que tiene en la variable medida por el item quien responde a 61. La expresión maternhica rnás empleada para definir la CCI ha sido la hncibn logistira" cuya f6rniula general v i c ne dada por

donde, P: x:

es ii~ia constante, la base de 10s 10gitritmos neperianos: 2,718 es cualqtiieñ vdlor o fúncion

Si el íupiiritn rlc iitiidirric~isrunalexige que la m p u e rlcl cxamimdn al 11tin cs16 dcknnin;ida&lo pcir m iiivrl cn el rasgo laiciiic, c.r midente que diclra irspiieyta no pndrd chtar iiiflw~ckada.por cbmo hava r o n t ~ ~ ~los l d anicriurra o i t v m (independencia luciil) u cualryiitem 0I M h v~rkable. P~r.1que no hqa conhqFón, la C.{:[ ea, ~iiwl~iaincritc, lu que hemm tnladu llamando m* dclo dc 1'R.t. EsCcir,la U J esel rnndeln rlr la TKl, 3 F,ii S,~iilislrkdvdn (1990) pueden consulranr nicidelos dc rKI b a t l n ~ en n t m iiyw de Fiinrinnca.

FILURA 1. Función bghtica.

La rcprtsentacibn gráfica de dicha función para infinitos MIOTCF~ de x entre -Y y +S,como puede ve= en la Figiira 1, es una mrvd en loma de una suave S. Las CCT adoptarán, por tanto, esta f m a . eCGmo llcgar a los diversos moddos de TiU a partir de la ccuacion l ? Frirnero, es 106~0 pensar que la probabilidad dc responder correctamente el item está deterrriinada por el niveel de habilidad que quicn responde posea en Ia variable medida por el itcrn, el den* minado rasgo;como decimos, cs 16gicapensar que las personas con mayor nivel de habilidad tendrán una pmbabdidad rriayor'de acertar el item. Por eso, todos los modelos de TRI iricli~yen~iecesariamente un parirnetro" que representa el nivel de habilidad, denotado habitualmente por una 7Rta (8). Segundo, si todos los items de un test tuvieran kas mismas propiedades, no neccsitara'ammm i s que este parámcim en el modelo. Todos tendrían, ademác, la mi+ ma C C I ~Sin . ernibap, los items suelen diierir, entre otras cosas, en Trrdos lus modelw sr fnrmulriii cn Ltriniilor poblarinnalcs, pm esu hi v2.1~iabiesq u apa~ xrwn en ellosx denominair pariniiilr im, De hecho. la a i r n represcrkrada en la Figira 1,a'- la (:Clq ~ i cuc dcrlwria de irn m+

'

dificultad, discrirxiiriacifiny. pro1)abilidad de ser acertados al azar. Prir tanto, necesitaremas en nuestro modelo algunos paránietrou que den cuenta de 1x5 mrneristicas de los ítems. Dichos pmirnetrcis sc rán 10s msponc;ikles de Ias dilerencias enirc las diversas CEI. El modclu de TRI más simple incorpora para dar ciiemta de la respuesta de los sujetos al item sólo un pzsárnciro, cl de diíiciiliad (denotado por una A), por cso se denomina Modelo IAngísticode tin parhem. También se le ranocc como modelo de ñasch. El modelo de dos p a r h m o s , o de Birnbaiim, incorpora el parámctro d e discñminaciiin (denotado por una a ) al m d d o anterior,y el dc tres par-Ametros, un tercer parámetro, el de aciertos al mas (denotado por una c). 'l'odos ellos exigen que el item esté- puuntuado dc for~xladicotiimica (acierta o fallo) y que sea unidimensional.La formillaciiin mate~nitirade Im tres modelos sr presenta a continuaciún: 1WtIdd110iru~fij.ticode

Pl ( O ) : 6, : a,: ci : P

:

L>:

tres parbnsi0Im.i (M1.3f~):

Profiabilidad dc acertar el item i para un mlnr H. índice de dificuItiid dcl item e'. Índice de di~criminariiindel íierri i. índice de pseudoazar dcl itein i . Ba~cdc los lqpitmos ntpcrianos. í:otlstante. Ciia~idotorna ci ~ d o de r 1.7, la f~incihnlogistica sc aproxima a la normal acumrrlada.

Cuando no hay aciertos al azar el parhetm c torria el valor cero y el anterior modelo se convicr.tc cri el M&60 hgistico de dos @rLrnalv)~ (MT.Zf4):

Por iilti~no,el modelo más sencillo. En el caso de q i cl~pardmetro a fiiesc igual para todos los ítems, es decir, todos tutieran la misma discrirnir~aci8ri,obteridriaxrios el MOMOk y k t i c o dp un par& ni& (ML1p.k

Veanios con más detalle el significado de los parámetros que conforman los diferentes modelos.

Como en la TCT, el verdadero nivel que el sujeto posee en la característica qrxe mide e1 test n o es obscrvablc directamcnte, dcbiendn estimarse a partir de sus respuestas en el test. En la TCT nos referíamos a dicho valor con el nombre de puntuación verdadera, en la TRT el parárnetro B representa, m& o menos, el mismo concepto. Por tanto, desde un punto de vista sustaritivo, 19dcriota al constructo qiie mide el test, algo no directamente observable, por eso se le deriomiria tambikn rasgo latente; y puede srr tanto un constructo de personalidad, como una aptitud D los cnnociinientos dc fisica ciiántica. Que 10s psicólogos ixiteritcnios ~riedircstas cosas, neurciticisino, I-iabilidad espacial, elc.. ., y no, por ejernplo, pesos o alturas, deterrriiria las propiedades métricas de la escala 8. Frindarneritalniente, qiie siilo podamos determinar Las posicioxlcs relativa$de los individuos en el rasgo latente, siis distancias, y en ningiín caso coxriparar directamente los valores en dicho rasgo. Si a uxi saco de patatas de 3 kilos le añadimos un kilo más, tenernos 4 kilos de patatas. Aderxiás, podenios coniprvbar físicamente, y de muy diversz formas, qile 4 kilos de patatas pesan el dohle q i l c 2 kilos. Eri cambio, si medimos el C1 de dos personas, la suma de SUS C:I no es equivalente al esfuerzo (inteligencia) que para resolver el test realiza una tercera persona cnn un CI igual a la siima del CI de los dos prirnerns. Igualmente, tina puntuaciiin de C1 de 120 nn indica el doble de inteligencia qric una de ti0 (Para iina disciisiiin de estos thpicos, véase Meliá (1'390), Mitchell (1990) y Van der Linden (1994)j. Por decirlo exi la termixiologka al uso, las propiedades rn6tricas de B se corresponden con las de rrri escala de intervalo. Por ello, la escala B, con itn rango teiirico enlrc -m y +m, tiene iin origen arbitrario pudiendo establecerse cualquier tipo de métrica. No obstante, lo habitual es elegir la escala estandarizada COI> media O

y desviación típica de 1 (véase el eje de abcisas de la Figura 2, al res pcc to). Esta escala es la que emplean por defecin los programaq de ordenador erxipleados para ajustar modelos de TM.Naturalmente, podemos cambiar la puntiiacionm B originales a cualquier otra escala (B*) con la media (0) y la desvlaciiin típica (a)que deseemos, realizando la siguiente ir-aristonnaciUin lineal: 8* = Ba + p. Dehemos tener presente que en tal raw, para qiie h probabilidad de acertar el item sea la misma en ambas escalas I'(0) = P(t"), debcreririos transformar los parámetros de los items a la nueva escala aplicando: b N = l i a + py n e = a / n .

El par5rnetro b representa la dificultad del itern, y es el análogo en la TRI al índice de dificiiltad en la TCT. Esta mcdido en la misma escala qre el parámetro B y s i i valores, aproximadarnmte,el del punto en la escala 8 al que corresponde ima probabilidad de acertar @al a (1 + E ) / 2. Niittsc que en el caso de qiie el parámetro r: valga cero, por ejemplo, en los modelos lop'sticos de uno y dos p-

Fr(;rrrt~ 2. Ctsrucss carur.iedticu:rasde dos i t m cm d g m ~ e s i n d i m dt difimllnd (MJ,Ip j.

rárnetrns, dicha probabilidad loma el valor de 0.5. Cuanto mayor sea el valor de A, más dificil será el írern, ya que mayor sera el nivel de habilidad necesario para tener tina prohbilidad de acertarlo de 0.5 (con e = O ) . En la Figura 2 se ilustran estos conceptos.

El pürAmetro a represerita la discriminaciiin dd item, y es el anñ. logo cn la Tlü al iridice de discriminación en la Tm.Indica en qué rnedida el item diferencia entre examiriados con un nivel alto y bajo de habilidad. Ciianto mayor sea el valor de a, mayor será d poder discrimiriativo del ittm. Su valor es propnrciorial a Ia pendiente de la CCI en el punto en que # = b, es decir, en el plinto de la escala B que torria cl valor del parámetro h. Expiicado así, el parámetro n es aIgn bastante abstracto y difícil de entender. Pcinga~nrisun q&ico. En la F i y r a 3 esún reprrsrntados dos itcrns de similar dkciiltad pero diferente discriniiriaci6n. El ítem B es el más discriminativo, ya que de acuerdo con la definicihn del parámetro a, es aquel cuya curva prestinca una rriayor pendiente en el plinto en que B = 6.

FIGIJRA 9. C:?~TIIIIS crnmtd~ti~ar dt dd~dím~ mn. similar diJml2rul

y difmnke ri~(fimimacwn(ML2pl.

Si Eas curvas fuesez-~ sendos tobogarics lirio se deslizaría mucho más dcprisa por el item B que por e1 A. A siinplc vista podemos determinar qué itern cs rnis o rrlenos discriminativo, pcro ?posqué el ítem B es más dissriminativo que el A? Imaginemos que dos pcrsonas contestan ambos íterris y que iiiza es más capaz ( B = 1) que la otfa (8= -1). La probabilidad que tiene la persona niás capaz de acertar el item B es de aproximadamente 0.8, c.11 tanto la menos capaz ciene una proi'o),aI>ilidad de alrededor de 0.20. La diferencia entre ambaf pptmonas a la hora de acertar el ítem es de 0,tiO. Para el ítem A dicliaa probabilidades de acierto son dc aproximadamerite 0.70 y 0.25, para cl ~n& y cl rnerlos capaz respectivameti te, 1,a diferencia a 1ü hora de acertar el ítern entre ambas personas es de sólo 0.45. Es decir; que cl item B disc~imina,diferencia mucho xnyjor que el A, entre las pemonas más y menos capaces. Sabernos que el item 3 es más disuirninativo que el A, pero i_criánlode cliscrixxlinativo es? h s s o modo, podemos establecer como guía inttrpreiaiiva la sigt~icntccorrespondencia en tm capacidad discrixxlinativa y rango de valores de ra: ninguna (O),muy baja (de0.01 a 0.34),baja {de 0.55 a 0.64),rnoderada (de 0.65 a. 1-34), alta (cEc E .S5 a 1.69) y rnuyhlta ( > 1.70).Por lo tarito, el item B tiene una capacidad discrirnirialiva niodcrada. (aR= 0.783) y e1 A b;?ja (cl = 0.531).

El parámcmo c representa la probabilidad cle acertarhel item que tienen Fas personas con un nivel de hahilidad b;ijísimo. Técnicatncnte, c cs el valor de la asíntota inferior de la CCI, es drcir, la probabilidad de acemr el írern cuando B = -m. En esas circilnstanciiis se supone que la persona contesta poco menosque al azar y, por ello, se le derioniina p-nrámetro de pseudo-ñzar. En la TCT su equivalente aproxitnado es la probabilidad de acertar el item al azar. 5.2.2.

Curva C a . r a c t ~ ~ t i e&l a

TM~

LOSn i o d e l ~ sdc TRI vistos, las C:C:I, pcrrniten estimar de forma independiente el nivel de habilidad de las person-ds evaluadas (parhetro O ) y las propiedades psicométricas de Ios iterns (path~evos b, n y c). Corrio puedc siiporicrse, ~ i cara c al análisis y cons-

~ ~ h t . DE 1 ~LOS 1 ~~ E M S

89

trucciiin de tests, 10s aspectos más i~iteresanicisde la TRi son los relativos a los parámemvs dc los ítems. No obstante, iina compresi6ri cabal dr: la TIU qiiedaria rnanm si no ~at~lscrnos, siquiera breverrience, de las puntuaciones que rcsulian de aplicar cstos modelos. Medir bien no lo es todo. Desde el punto de vista psicornétrico los niodelos dc 'rRI ofwceri veritajas indiidahles sohrc la 'TCT; dcsde el punto de vista dc la cornprrnsión intuitiva de los resiiimdos, no tmto. ¿Cximu explicas a un sufrido pacirc que asiste a la irnpamble progresi0wi de 511 hijo por los billares del barrio, q w la puntuación zetíi de 1 de su vástago cs im buen dato? ¿Oqire se piicden obtener piintuaciones iieratiim? En gvneral, estarnos acnsrumhrados a escalas de puntuaciones con i I n rango entre O y el niírncrbnde ítems del test3, n,y nn a escala4 que va11 dc -3 a +S (rri realidad, peor, de -m a +m)&. Mortllnadam~nte,la cuma caracteristica d d rcsr, (CCT) permite aansfnrmar laq punmaciories 0 a una nueva escala, la de las p~intuacinliesverdaderas, que se encuentra ex1 la escala intiiitiva de O a n. A continuaci0xi sc presenta la fcirninla que describe la relación entre las p u ~tiiaciones i 0 y las piirituacionks verdader.as ( P V ):

donde, P :

es la puntiwi6n verdadera qixe rorrespuride a examinadcis con un nivel cn el rnsga latente de hr,

n: r s el nurnerci de itcms que componen cl test, p Y,(@,); es e1 valcir rorrcsporidiente a cad;i CC;i para 8 = 0,.

Calciilando la eci~icihn5 sobre un número elevado e i p a l mente espaciado de valorea (le O (por ejemplo, Oj = -S, -2.9940, -2,9880, ..., 2.9940, 3 ) , obtentimos la CCT que relaciona luu valores en 8 con las PV. En la Figtira 4 poderrios ver las ciir.vxs cariicteristicas de dos tests clt.srinadus a rnedir el mismo msgo latente, qiie "a ~ ~ t r x ñ e rnn i l eí nada utii'lii'~iidenw, si Icni.rno5 en cite~ihquc en Irn rriilcr cle año? (ir cvolizción de! gtnrrn Horno, r i i i Sr Iian pudidn calar inan.i&s dc -JOantílnpeu,~ i uc i Iian eturiir.ulri decinralcq r n Ins ~ i r i i r h n de s uvnx SIno r r le &i!i bit71 lag.Imrrsnneu,IIU sc pirmp: crii r n conturiihn ron el ~t-rade la e 5 1 ~ ~ r i r

90

AN~ISIS

9

E

DE LOS

ÍTEMS

-

5-

I -

-9

-9

-1

O

1

2

S

Puribirinones zela

FIGUM4. CCT comsparJimteii a dos km$& de difmtrnle difiukni2, s i m h nl Iest A E! m m f ~ 2 . nos van a permitir precisar la relacihn cxiutente: entre l a 4 W y las 8. Añadir qiie los items que componen el test A, por término medio, son mucho más fáciles que Pos del test B. A p a de~dichas m podemos observar c6mo personas con el mismo nivel de habilidad (0= 1 ) obtienen diferentes puntuaciones verdadem en cada uno de los tests. L6gicamenie, cri el test más Fácil obtendrin una FV rn6s

alta que en el niás dificil. Es decir, que las PsT están determinadx por el instrumento de medida En. correspondencia que hemos establecido entre la5 W y las puntuaciones 8 permite explicitiir una de las ven&tjasde la TKi frentc a h TCT. Mcdiante la TCT sOlo podemos estimar la P\I del sujeto, que como hemos comprohado, esZán determinadas por el instrumento utili--do para medir. En tanto en la TRi se intenta estimar algo nlPs general, ta puntuacih 8, de la que un test particupar sdo seria iin indicador. E% decir, que siempre que se satisfagan los supuestm de la TRI, con independencia del test que empleemos, obtendremos las mismas cstimaúones del nivel de habilidad. Una maravilla.

L a TRI, al incorporar a sus modelos phmetros qiie describen las características del ítem, ofrece el marcci idoneo para el anslisis de los items. Esta radical diferencia con respecto al modelo de la TCX tiene consccutncias tan sorprendenies como que, dado determinado nivel dc habilidad. podamos conocer qué iterns soii los me-

jores para evaluarlo. Vamos a elIo. Corno hnrnmos dcsdt la más tierna infancia conocemos la frpciiencia y absoluta iihicuidad c.le los errores: de todo, en todo y por todos. El proceso de ~xicdirno es ningunaexct.pci6riy tiene su propio error, el error de medida, que como sabemos, cuantifica la distancia qiie c x i s t ~entre Iri que hayr y lo qiie el ixhstriimento de medi& nos dice que hay. intimaniente rc tacionadn con el conccptci rIe error de medida está el concepto de informciOn. De hecho, es justamente lo contrario. y de esa vamos a hablar Matemáticamente, el termino informaciOn tiene varias acepciones. Una de las teorías más impormntcs del s. XX, la ~ c o r i ad e la TnforrnaciOn (Shannon, 1948; Shannoi~y Wcaver, 1949), la define en t6rrnitaos de la probabilidad de eleccihn de un mensajc dcntro de un conjunto de mensajes. N o es ésta Za quc nos interesa, aunque casi todo lo que hacerniis dependa de clla. sino una acepciiiri más antipa, debida a Sir R. Fisher, que dcifine Pa informacirin romo el recíproco de la precisión con la que se pilcde estimar un parhetro, 1,legados a este punto podernos realizar varias asweraciones ya conocidas. Que el parárnetro a csiirnar en la TC:T es la pnntrraci6n verdiicicra y en la TRJ cl equivalente a estimar es la piintuaciiin B. Que la difcrcncia entre el parametro de interes y su estimacian se conoce con el nombre de rrror de tricdida (E = 61 - 8 ) . Y que un buen indicadnr de la precisihn de dichas estiinaciones es, precisamente, la variariza de los errores de medida (qii,,). Asi piies, en nuestro caso, de acuerdo coxi la definicihi de Fisher, la inFormaci61i que posee determiriado item a la hora de estimar un valor concreto de 8 cs igual a:

Quizá f u e niás rnrrectri decir l i i cple w.mpmv qiir hiiv.

Hablar de información o del error tipico dc medida

es habkar de ln mismo desde lados dilerentes. Uno sc puede dtrfinir por el o m ,así :

Una de las principales diferencias entre la TCI' y la TKi es que en la primera hay un único error típico de medida par test, que es cl misino con independencia de la Yv quc pretendamos estimar. ESLOimplica, ni m& ni menos, que los tests midcxi con la misma precisión todos los niveles de habilidad. Criestii creerlo. Desde la TTu se asume que iterns y test difieren en la precisihn con la qiic miden 10s diferentes niveles de habilidad. & decir, que un ítern o iIn test presentará diferentes errores típicos, c ixiversarnexite, información, .según d valor B a estimar? En este contexto, las funciones de .IDforrnaci6n rio son inás que unas ciirvas que ponen en relación los i~ivelesde 6 con la precisiiin (informacirín) c o n la que el i t t ~ no el test los cstima.

~ iNCIÓN i DE INFORMACIÓN DEI. ~ T E M

Dc 10 expuesto aattiriormenie se deriva que, dado dewrrniilado nivel de 8, la iriformacibri del ítern i-esirno cuantifica la precisi6n cnn la qiie dicho ítern contrihuye :iestimar ese valor concreto de 8. 1. Por d mismo motivo, para evaluar valores del ñ;isgo latentc < 1, deberíamns elegir el test A.

-9

-2

-1

0

I

Y

Niveldc t~~Eii(M

FI(:I!IU 8,

FI de dos tusts para p&ir

la mb~mn.r~ohhk.

3

Para no caer en errores de billtn a la hora de comparar las FI de dos tests conviene tener presente que sus funciories de información dcperiden dc la escala en que se encuentran expresados los valores de 8. Por consiguiente, si deseásemos cornparar directamente las FJ de tests qiie empleen mCrricas diferentes de 0,deberiamos transformar las estimaciones a una métrica cornun, lo que se conoce como equiparación (vease aI respecto el cap. 10 dc Hambleton y Swamiriathari, 1985, y Navas Ara, 1996). Existe, no obstante, uria rnaricra de cvitarsc csos engorros. Afortunadaniexite, el cociente entre las F1 de dos tests si es invariante respecto de la escala e n qire se encuentra 8. A esta funcióri, para deter-rninadonivel de 8, se le derioniina f:Jici+nciia relalivn ( E K ) , y es igual a:

li7(flx) : la inhrmaciiin del test

X para el valor 8 .

iT(Bsj: la irifurrriacicíridrl test Y para el v.or B.

Cuando se cdcula la eficicxicia relativa para todos los posibles valores de 0 obteriemos iina crirva que se denomina junción de eficiencia. Valores por- encima de 1 indican en qué niveles de 0 el test X aporta más información que el test Y; valores por debajo de I iridicari cn qii6 nivclcs de 8 es el test Y el más i~ifcirniati~ro. En la Figura 9 podemos ver la función de eficiexicia correspondierit e a tos dos rests presentados en la Figura 8.

Hasta la ktha tenemos tinas mnmvillosas ecuaciones llerias de letra$,llamadas C:I:I o modelos de i'ili, que perrnitcri estímar, tanto el n i ~ ede l habilidad de Ios exminadus ex! la variable evaluada, romo las propicdadcs psiconiitriras {le 10s items. Desgraciadamente, todos los parámetros del modelo son valores desconocidos que, por tarito, deberemos estimar a partir d e las reymestas al test de una muestra de persoria. Aunque existcn varios prorediniicmtos de estimación, los m i s comilries son las procedimieiitos de Máxima Verosimilitild (Baker, 1'392;Martínez h a s , 1995).1)ichos procedimientos, por de-

cirln de tina forma m iny sencilla, rligei como estimaciones dc los parámetros aquellos valores que hacen rn-As probable, más vermítniIcs, las rvsprteutas que ubservamos en nuestr-a nluestra. No se pseacupe d lector en ciimo llegar a convertir Lis letras (padmerros) cn níimcros (estirnaciorles), y;i que los recursns de chlculo que exige este proceso obligan a redizar e1 milagro ~xredianteprogramas de order d o r espedicos. A continuaciún veremos ~61rio ajustar 10s modelos dc IXI expuestos ~nediarlteel programa RII .C)G-MG3 para Window (Scien tific Software Intcr-national,2002). Supóngase que deseamos esrahlcccr las propiedades psicométricas cle un examen destinarlo a waltrar los coriocirniexitos de estadística. S~lphngase,además, que diictio examen,compuesto pnr 40 prqqintas (ítems)de ekccihn múltiple, fue awpondiido por una milesira de 1.000 alumnos. En la Tabla 1 se recoge el principio y el firial del fichero cnn las respuesta... Cmmo podenios ubsemar, cada fila c* rresponde a un sujeto, apareciendo en las ~ r c primeras s culu~rina la identificaci6n del cxarriiriadcs (1,2, S, ., 1.000) y, a conrinuaciiiri, sus res pues=$ puntiiadm dicotómic~lmentc(1 acierto. O fallo) a cada

..

de los 40 íternu. Pam poder ut.ilimrlo con el DII.C)G, el fichero con los datos dcbc esur en formato AsCII o de texto. Lino

TMIA 1. t$m~plode an,@hm con las T Y A ~ U P J ~ & L Wl.000 exnm~nados a un t e ~ rtk $0x'li!m. La base de datos puedr! n h & u w ~ m !a pcigina TU& s ~ ñ a i ( ~ ctdl~i b~ice0 t drl c~páttulri.

Las instrucciones pan ajustar a nuestros datos un modelo de 3p P. Aunque la versión utiliza&a de1 BTL.OG opera en un entorno Windows y, por tanta,el usuario simplemente debe sclecrionarlasopciones que se Ir: prcscntari en siicesivi venlanas, por cuestiones de espacio presentaremos cOmo se realiza el análisis a W.V& dc los commdos de si~itaxis: se prescn trin en la Tabla

Ajuste d e un modelo

de TRI de 3p # X M B A L DFNarne = 'C:\ejemplol.datl, NPArrn = 3 , SAVe ; >SAVE CALib = 'ejompiol.CALr, PARm = 'ejernplol.PAR', S C O r a = 'ejernplol.SC0': >LENGTH NiTerns = ( 4 0 ) ; >INPUT NTOtal = 4 0 , NALt m 7 , NIDchar = 4: >ITEMS ; >TEST1 TNAme = 'Ejemploll, I N U m b e r = (1(1)40); (4A1,

40A1)

rCALIB A C C e l

= 1.0000; >SCORE FWThod = 1;

C:omeniarcrnos brevemente el si-gnificadn de dichos coxriandos. Eii primer lugar sc cspccifica la ntta del fichero dande Le~icrrios Ias rcspueshs al test (LiFName = 'c:\ejemplol.clat' ) y qtie deseanlos ajustar uti modelo dr: 3p ( h T A m = 3). En cl comando SAVE espr:cificamos el nombre de los ficheros de resuliadns que deseamos pardar: el de la cali br;iciOn (CALib = 'qjcniplol.CAL' ), el dr los parhetros de los itefns ( PARm = 'ejemplo1 .PAR') y el de las puntuaciones (SCOre = "ejemplol.S(':l)'). A continuación sc señala que liay 10 itcrris en niiestm fichero (LEN(;TH NITems = 40). En cl c u inando INPUT se seíiala el nírrriero de ittrns qiir vamos t i analizar (NT(.)tal = 40), el número de alternativ;ls de respiresL1 que ticncri los iterns (IVALL= 7 ) y qiic d cndigo con la idrntificaci6ri del sujeto ocupa 4 colriniiias en el fichero dc datos (NIUctlat' = 4 ) . Rri c.1 comando TEST1 scrialarrios cl rkornbre qiic deseamos dar al i t s i qiu. se analizará (1'Nhrne = 'Ejtnipioi"),el númcro dc los items que lo componen: del 1 al 40, es decir; todos (INilmhcr = ( 1 (1)40)) , y iin ciidigo quc- sefíala como estan dispuestos los írerns cn cl fichero de datos: en las 4 prinitiras columnas estA la idenacaüón del siyeio y a coritiriuación Ias respirestas del mismo a los 40 ítems (MI, ItOAl ) . Seguidamente se xfiala que dcscairios que calibre e1 rnridclo ( W I B ) , que rralice todos Iciq grifictis posihles (los dc las CC;is y las fiiricioricq clc infonriaci6n qire hcrxlos visto). y que eszirnc las puntiiasionts B (SCXEREI) utilitandn un prriccdirxiierito de ni¿xirrra verosiniilitud.

P a n no cxtraviarnris, cririvieiie recrirdar que nuestro obj~livt, principal es realizar un análisis de los ítenis que forman d examen de estadistica y, en este caso ssilbsidiariameni c, cstirnar las puntiiacienes B de los exaninados.EI BItOl: rios proporcionari dicha irirosmaci6n est r-iic~iirarla sil mes fases: estadísticos clisicos, ralibmción ): estimacih del rrzugo latenle.

Corno pucdc obscrmrsc cri la parte de los rcsrilcadosque se muestran m&, abajo, en Ea ptiniera fasc s r calculan los esladíshcos dcl í t w i de la TCT:el índice de dificultad (P(':T), la correlación ítem-test de

Ycarstin y la correlacirii~bisenal puntual, junto con cl rtítnicro de cxamiriadns que respvnde cada itrm ve1 ndrnern de 10s que lo aciertari {RIE:HT). La itiforrnación obteriida eri est;i fase prelirriiriw nos pueden ayudar a dctcrminar qué modelo ajuslar a nuestros datos. Si en la calicla ohsen-amos correhciones ítexn-test hastarite hornogenex podremos qjiistar iin modelo de lp, en caso coritrarin, debemos seleccio~iarcl modelo de 2p. Si además los iterns del test rieran de rniYtiplccc alttrnatitxs, o hubiese indicios de quc exislen aciertos al azar, dtberíanius ixlclin;~rriocpor un modelo de 3p. Eri cl caso que nos ocupa,la hcitrogeiieidad de l a q correlaciones 110sindican lo iriadccilado que seria iijilsrar un modclo de 1p.

o)

ITEM STATISTICS POR SUBTEST TEST0001 ITEM*TEST CORRELATION ITEM NAME

flTRIED #RIGHT PCT ZOGIT/l.7 PEARSON BISERIAL

Kri la segunda h e , llamada de cdlib~lcir5~x, el BlLOG qjusia sl rriodclo de TRi seleccionado a cada zirio dc Icis iterns de la cscala a m i a s t.valindaq y proporciona los resultados de &cha calibración. Fri primer 1 z 1 p pvdrrricis observar el valor final del logaritmo neperimo de lafiinci0it de verosinii li tiid (-2 LOG LlKELiHOOD}. Dicha caritidad será emplmda, conio vererriw ni& adelante, por i~rio dc los métodos para delectar el fiiricionamicnto diferencial de los ii~rris.Eir se~iiridoIiigar, se presentan los parimetros estimados d e cada íteni (h = SI,C)PE, Ii = THRESHOLD, c = ASYMPTOTE), sil correspondiente error tipico señalado con uri asterisco, y la satusacihn tattor-ia1 del 2trm cn iin modelo iinifactorial (LOWING ). Este W-

limo dato cs igual a a , / d m , indimdn en qué mcdida el íttrn sallira eri el farlnr. Por úIlimo, se proporciona un resi X* de h n dad de ajuste p a n cada uno de Im iterns (CiHISQS. Si el valor entre

par(.nicsis fiieri menor qrw el nivel de significación elegido, significaría que el ítrm no se ?justa al rn~lcFoelegido. Como podernos iibscrvar, los itcnis qiie aparecen en la parte de resn~ltadosaq~xi'reprndilcida rniiestran un adcciiado ajuste al modelo de Sp al nivel de slgniiicacióii de 0.05, ya que 0.656, 0.923 y O.609 > 0,OS.

CYCLE

12;

LARGESTCHANGE=

0.00325

SWTEST TEST0001; ITEM PhRhMETERS AFTER CYCLE

ITEM

IHTERCEPT

SMIPE

S.E.

S.3.

THRESHOLD LOADING S.E. S.E.

12 ASYMPTIITE

CHISQ

$,E.

(PROB) DF

ia estimacion de lm @metros del modelo que definen las propiedades psicomén-icas de los ítems es el corxx0ri dc ciiaIqllicrhariálisis de items dentro de la TRI. Conocjdos estm valores, porlernos establecer de inrma precisa la informaci61ique aporta ci1d.a itern y, en Iunción de la misma, seleccionar los ítcins dc aclicrdo cori los objetivos del test. i lablarcrrios de ello c ~ ~ a n rtlmi o cmos .sol>rccómo construir tesL a medida.

En la terccra fase se estima la puntuacihn O (iWlLITY) corres pondieritc a cada exami tiado y sti error típico (S.E.}.Eshas estimaciones se eriaientran por defecto cn la cscíila de las estirnaciuries de los parámetros de los Xterns obtenidos en la fase anterior. No o h s taritr, y1 programa ofrece la opcihrz de cambiar la escala de dichas

104

A N ~ T . ~ SDE ~ ; TLOS S ~'TBMS

estimaciones. También podeincis ohsemr alpinos cst;idísticos calculados sobre Ia distribución de las puntuaciones estimadas: s i l r r i e dia (MEAN) , s i i rics\iaci6n típica (S.D.) sil variaxiza (VARIANCE). GROUP CUBJECT IDENTIFICATION WEIGBT TEST TRIED RIGHT

PERCENT

ABILITY

TESTO001

40

16

40.00

TESTO001

40

15

37.50

I 1 I 1

1 1000 1.00 TESTOOOl

40

15

37.50

I 1

1

1

1.00

1

2

1.00

S.E.

1 -0.8182

0.3823 ]

-0.7860

0.3790

1

-1.0622

0.4107

I 1

1

.. .- - - - - - - -

HEhNS, STAEJDARD DEWIATIONS, AND VARIANCES OF SCOFE ESTIMATES

TEST:

TEST0001

MEAN:

O ,0231

S.D.

1.0886 1.1850

t

VARIANCE :

EMPIRICAL RELIABILITY:

0.8899

Firi;ilmr~itc, o19scrbvarriosc n la salida una estimacjiin de lii tiízbilidad del test (0.89).Dicha íiabilidad se defiric, al modo clasico. corno la r~irhncri trbcla varianm de las priniiiacionesverdaderas (aquí, 93s pilnli~acioiles0 ) y la variaiiza de las puntw;ttiunes observadas, qiie es igual a Za siirna tic la vttria~i-/a vcrciach-amas la iatiarim error. h r ello, cuanto rna5 prOximo a I sea dicho d o s , menor error de mcdida tcridr5 cl iesi.

Ademis de los ficheros dc resiilhdos descritcis, C! Rii-OC: p r e porciona abundanie informaciijn grata que permite un análisisvisiial clc las camterísticas de los ítems y del test. Entre otras, la CCI y las funciones de inhrmauiixi de cada lino dc los itcms y del test. Gamo ejemplo, eri Ia figum 10 se muestra la CC1 y la FI que cw rresporidc al primer írem.

;\NÁI JSIS DF. t .OS ~ E M S

105

3.2.5. Construcción d p tests a medida

En el apartado anterior, el resultado de ajustar e1 MLSp sobre las respuesti dad% íll ccxrimcri dc estadística nos permiti6, aderri5s de estimar el coriociniierito de estadística qtic ticric cada Lino de los exaniiriados, estimar los parámetsos de los ítems que fnrnian el test. Dicho técnicamente, disponer cit. uri cox!jrinto de 40 ítems c-n1'1 1 >mclos" . h partir de ahí, construir tests con ol>jijetivosmktricos específicos es tan fácil coxxlo sclcccioriar aqirellos ítems qiie proporciciricri rriáxiniri inforrnaci0n para Ios iii-rreles de habilidad qiie deseemos medir. Vamos a emplear riuestro escaso hanco de ítems para coristruir dos tests con obj'jctivosi n i i y difcrcntes. El oljetivo del prirncro svrá deterniiriar qrxi. esiildiantes deherian sc,guix. uxi ciirso de formaciiin en esiadistica antes de empezar un curso sobre 'r'Ki. El objetivo del segundo test cs deterniiriar qii& estudiarites recibi-t-nri utia beca dc especializaciiin en psicometría. Crin firies pedaghgicos, winos a imponer el reqiiisito de qiic ambos tests este11 for~nadospor

sólo 10 itcms.

'

Al conjiintu de ítc~riscaliliia~losciila inisnia tiicti.ica. cs dccir, ciiyos paráinrtrris han sido estirriadus eri I;i iriis~~i;i cscal,~, sc Ir driiinrnina banco TIP ítems. I'oI.tai~tn,dispon~niosde un bancu dc 40 íiclns.

Existen multitud de procedimientos para determinar dentro de la TRI si un ítem presenta DIF, aquí presentaremos sólo dos de ellos: el contraste de las diferencias en Ir y la coniparacirin de modelos. Pur último, se expondrá irn procedimiento que permite analizar el DIF sin necesidad de ajustar ningún modelo de TRI: el procedimiento Man tel-Haeris~el.Para una revisión detallada de este tópico recomendamos Ia lectiira e11 rdsteltano de los textos de Fidalgo (1 996), Fidalgo y Ferreres (2002)y Fidalp y Muñiz (2001). y en ingles el dc Camilli y Shepard (1994).

CONTRASTE 1)E IAS DIFERENCXAS EN b

Veremos siiciritamente este rnétndo por ser mtiy fácil de aplicar al estar implemeritado en el BiLOG. La detección del DIF desde la TRI es conceptualmente muy simple: calcular las curvas característicasdel item en cidauno de los grupos sometida! a acomparacióx~y determinar si coinciden (ausencia de DIF) o no coinciden (DLF). Como sahcrnas, la CC,l a función de los parámetrog que definen al item, por 10 tantn, cn ;imencia de DlE los par5xrietrus del ízem en a m h piipos rio deberian diferir entre si rn5s allá de lo esperable por las fluctuaciones aleatarias del mueutreo. h i , una estrategia para detectar el DIF ser5 conipmr los parnrnetros del itern entre los grilp?. En el r;iso más seticillo, el modelo lop'stico de un parámetro, un item funcionarádif'erericialrncntc si existen diferencias en el parámetro b entre los gr~lpos.Formalmente,

IiI, = bb = b,. - & = O H , = A b = b,-- &,#O Donde

(ausencia de DF)

(DEF)

b, denota. el ~alordel parámetro b en cl grupo foca1 y 6, eri el grupo de referencia.

EE error tipico de la diierencia entre los parámctros 6 viene dado por: (171

Siendo,

siF y ,:S

la varianix dcl paicirnetro h en e1 grupo foca1 y el de

referencia,respectivanierite.

Para someter a prueba la hipótesis nula de ausencia de DIF, dividiremos la diferencia entre las estimaciones de b en ambos grupos por el error típico de dicha diferencia. Es decir, que utiliraremos como estadístico de contraste:

que sigue una distribución normal bajo la 4,de ausencia de UlF, de tal forma que si 2 el ítem presenta DIF al nivel de sigriificación a. Lns comandos necesarios para realizar este anslisis con el RILOG

IDI IZ~, , ~ ,

se presentan a continuación Análisis d e l DIF. MLlp

m B A L DPName = 'C:\diflp.datr, WPArm =

1,

SAVe ;

'dif l p . CAL',

>SAVE CALib =

PAFtm = 'diflp.PARr, DIF

=

'diflp.DIFr; = (40):

>LENGTH HIT-

>INPUT N T O t a l = 40,

NIDchar = 3 , NGRoup

=

2,

DIF;

>ITEMS ; >TEST1 TNAme

=

'TEST0001',

INUmbes = ( 1 ( 1 ) 4 0 ) ; >GROUP1 GNAme = 'GF', LENgth = 40,

INUmbers = (1(1)40): zGROUP2 GNAme = 'GR', LENgth = 40, INUmbeKS = (1(1)40); (3A1, 11, 4 0 A 1 ) >CALIB REFerenee = 2 PLOT-1;

Comentaremos los comandos quc hemos añadido para realizar e1 ariílisis de DIF. Coxrio se ve, en este caso ajustamos uxi modelo de

lp (NPrtrrn 1).Entre Iris ficheros de resul~adosque querenios p a r darse encuentra^^ los de los anilisis dc. D E (DTF= 'diflp.DIFY). A continiiacih se s e i d a qilc cn nuestra base de datos tenemos l a respuestas a 41) itms, lrabiendn dedicado S coIumnas a laidentificaci6ri clcl examinado, qiie pertenecerá a alg;ixtiocic los 2 g n r p que hay (NGRoiip = 2}, Y muv importante, qiie deseanios qzie nos realice un análisis dcl DIF (DIF). Unos rcndones más adelante indicamos el nombre qiie qirerernos asignar al grupo 1 (GNAme = 'GF') y que analizaremos los 41)itcrris que 'hdy en la base dc datos. Lo niisrno para el grupo 2. También se especifica cómo está dispiresta la i r i furmación en el fichcra de datos: (3A1,1i, MAl ) Esto es, qiie en las S primcms culumnas esta la identificación del sujcto, en la ciiarta columna el cócligo del grupo al qiic pcrteriece (2: grupo de referencia, 1: grupo focal) y, por UltLmn, las respuestas del mismo a 10s 40 ílems. Pan terminar se scñala que el codign que identifica al grupo de rderencia cs iixi 2 (REFerencci= 2). Eri la Tabla 4 se ofrece cl comienm y d final del ficticro con los datos.

.

En los resultados de la fase de calibraci6n encon t rarernos las diferencias en el parárnetro b entre los grupos (GROUP 1-21, así como el error típico de dicha diferencia señ-aladopor un asterisco. Una vez krlc~nosestos datos, s6lo nos resta aplicar la ecuación 18 para comprnl->arsi el ítern presenta DIF. Aieridiendo a la porcion dc resultados que se muestran a continuücirin, podemos concluir qtie sólr~el item 40 presenta DEF al riivcl de confianaa del

ANÁLTS~SDE LOS ~TEMs

119

95% ((10.424/0.092 1 = 4.60 2 1-1 -961). Las CCI presentadas en la Figira 12 san bien elocuentes. Gomn podernos obsemr las personas que pertenecen al GR.a igual capacidad que las que pertenecen a1 G:,.(mismaprintuación O ) , tienen siemprc una probabilidad mayor de acertar et itern. MODEL POR GROUP DIFFEREEfTfAL ITKH FUNCTIOHiiVG: GROUP THRESHOLD DIFFEREHCES ITEM

GROUe

1-2 ------------------------+--------ITEMOOOl 1 0.011

1 XTEM0013

FI~;LTR..

1 1

0.077*

1 1

ITeM

GROUP 1-2

1 1

GROUP

fTEM

1-2

+

1 1

-0.022 0.081*1

1

1 1

I ~ M Q Q 1 5

ITEMO027

0.061 0.075*

1 -0.156 1 0.106'

1 1

ITEn0028

1 1

ITEM0040

1 1

1 1

-0.141 0.081f

0 -424

0.092*

12. CCI del fm40 m el p@ & r ~ f m c i a(GR}y fowl (CF).

COMPMUCIÓNDE MODELOS

Una alitrnaiiva niás complicada, pero mucho más flexible que lavista anteriormente, es la cornparaciii~idel ajiiste de rxiodelos. En esm estrategia se compara u11 modelo eii que los parametros del ítem son iguales para los dos grupos (ausencia de l->IF}frt,nte a otro en el que alguno o algunos dc los parámetros del itein difiere enhe grupos (DIF) . Si el segundo modelo ajusta sigriificiititxee mejor a los datos que el primero, concliiirenlos qiic hay nlF. Describiremos el procedirnicnto eri detalle utilizando la termiriología erripleada por Thissen, Steinberg y Wnirier (1993). Tenemos dos modelos a comparar, el niodelo compacto o modelo sin DIF (m* delo C) y cl rnndelo aumentado o modelo cori DlF (modelo A ) , que incluye todos los parárnetros del rnodela compacto y alguna mis. Deherexxiss detcrniinar si los parárnetros adicionales del modelo A vori significativamente diferentes de O, es decir, si su inclusion mejora significativamente el ajiiste del modclo a los datos. En terminos de hipótesis nula y alternauva:

II, -- hsdatossr:ajustan al mrwipln C (ausenciade 1)IF) H, = Los datos se ajustan al mudelo A (t)lF)

El estadístico utilizado para comparar los modelos es la razrin de verosimiliii~d(LK),dada por:

siendo, la(*) la wrrisimilinrd dc los datos dad* I;is

estirriacioiics máxi-

mo vcrosímilrs dr los pargrneti-os del modrlo.

El estadístico dc con trasle LK sigue una distribución 31' con p d o s dc liheriad igual a Ia dil'erenciü eri el ticmero de parinlewos entre el rnodelu aurxieritado y cl compacto. Así, si LR L rechazarernos la hipiittcis nula y, por tanto, el rnridelo compacto: existe DEF. Las logaritrxios ncpcrianos de las iiziiciunes de verosimilitud [-2 1x1 IA(*)] qiit necesitamos para calcular el estadístico de conte nos los proparcinnarA el BILOG al aji~qtar los moddos sometidos a comprobaciói~(vkarise al respecto las restilrados correspondientes a la f a e de cali bracibn del primer ejemplo). Lo unicu que rios resta es saber como hacerlo.

ANAIJSTS DE LOS ~ F . Y s

121

Para aclarar estos conceptos vamos a poncr nin ejeniplu. Supongamos qiie las resp11cst;ls:d e 900 personas a un test de 5 items ajusmbien a un modelo de 2p. Tenernos serias c o s ~ c h ade s que el ítem quinlo ectá sesgado conma las m times. C,nuideremos, en prinier 111grir, los parámctrus de loc, ítcms que definen los modelos compacto y aurncrit;zdoneces:sar.irispara evaluar el D E en el itcm quinto:

( U , ,h,,

g ,4, 4 3 .

b3,

a43

b,, a,, b,}

MODEE.O A (DXF):

Lns par.;inietros que definen d modelo compacto srin los paráy b de cada item que son comunes para ambas griipm. Eri cl modelo aiimcntado, si11cmbargo, hemos incliiido en el itern quinto pafinietros diferenta para cl p p o de referericia y para el gnipo fócal. Por ianto, el modelo compacto respecto de1 aurnentiido impone lac sivientes doc restricciones:

metros n

ITna vez driinidos Iris niodelos a comparhar,vamos a vcr los pasos a seguir para intentar faLqar la hipotcsis de ausencia de DIF. Ee-

tos son:

1.

2.

Estimar urilizando la totalidad de la [nuestra los parametros del rxrodelo compacto y su firnción de verosirni'liti~(1[L(C)] . Uliilirarernos para el aiiiste del modelo las respuesta!! de los 900 examiniidos a cada urio de Icis 5 item que componen cl test. Estimar Icis parnietros qrie defiricn el modelo aumentado y su fiiricihn de vcmsimilitiid [ L(A)] . L o a datos que utilizarenios para ajustar este modelo sori;

- Pxd los Íterns cn los qiie r i o se evalua t.1 DIF (itenis 1 , 2, 3 y 4), la respuesia a los niisnios de todos los examinados.

-

-

h a d ítem bajo tatiidio crearcrnos. dos nuevos items, uno con las respuestas en ese ítem de los examinados que pertenezcan al grupo de referencia (S,), que en este caso se& los 500 hombres, y ntm con las respuestas. a ese item de los cxarninados que pertenezcan al grupo fOcaI 3, esto es, las 400 mujeres. Así tendremos que ajmtñr . CI nidelo a un test compuesto por los siguientes iterns 11, 2,3,4,5IIy 5,). Una vez obtcnidaq las funciones de verosimilitud de ambos modelas se calcula el estadístico de contraste de Ea ecuaciiin 19.

LOAcoman dos de sintaxis necesnrios para evaluar el quinto item siguiendo esta estrategia se prcscntan a continuación. Análisis del D I F mediante la comparacion de m o d e l o s ~ Z P

En el comando GI-ORAL se señala qile ajiis~rernosun modelo de 2p a dos tests diferentes (NTEst = 2), que estarán forrriadri~por

los ittrns qiic componen el modeh c0rnpact.og aumentado. Con la línea LENIiTH h T e m = (5,fi) irl~lica~nos que el primer tcst está compiicslo por 3 items (flems 1, 2, S, 4 y 5 ) y el .segundo por 6 (itcrns 1 , 2 , 3 , 4 , 6y 7).Nótese qiic el item 6 se corresponde con el que h e mos denominado 5 , y el 7 con el denominado S,-. En el corriando INPLT seiialanios que en nucstro fichero de datos tericmns las respuestas: a 7 ítems (íterns 1, 2, 3,4,5, 5, y ri,), que la identj4icaciGn del sigeto ocupa Y columnas, que en la priniera linea dd fichero de datos aparecer2 cl chdigo que sena1a las respuestas correcta5 a cada iiem (un 1) (KFYame = 'C:\I:M'Lp.dal'), y que en b sep;imdalínea del íicliero aparecer&sal código empleado para señalar que YIO hay respuesta (un 9) (NE'Name = 'C::\E:MPp.dat').A contin tiaciiili se indican los íwms que componen el modelo compacto (INUmber = (1 (1) 5 )3 y cl ntodelo aumentado (Immt>er = (1 (114, 6, '7)). Finalmente, se señala (3A1, 1 X, 7Al) qiic en las 3 primeras coliixririas del fichero con los datos está la idcnlificaciórr del sujeto, en la cuarta colmriiria el cdciigo del grupo al que pertenece (2:griipci referencia, t : grupo foca]) y, por úitirno, las rcspiiestas del mismo iilus 5 items originales más los 9 qric hemos construido. Por consiguiente, el fichero con los datos adoptar&la siguiente forma:

las resultados rnás interesantes dc ajustar ambos tests e n la fase de alibraci6n se presentan a ~nntinuación:

ITEM

TmTERCEPT S.E,

SEOPE S.E.

TRRESROLD S. E.

LOADIHG ASYMPTOTE S.E.

S.E.

.----.

* STANDARD

ERROR

A tenor de lo dicho y de los resultados (3717,18 - :3656,40 = 60.78> 5,991, rechazamos la hipotcsis nula de ausencia de DIF al nivel de signilicacihri del 0.05 ( u , o n ~ : = 3,99). El ítem 3 prcseritíl un funcionaniiento dilerencial no iolifornie entre los grupos.Esto significa qiie el itcrn beneficia a un grupo eri irnos niveles de ff y en otros le perjudica ( v h e h Ficgur;t 13). Cuando cl item beneficia s i s tmoáticameilte a un griipo a lo largo de todo el t.a~igode O, se habla de DIF iiriiforxne (La Fipm 12 ejemplifiw. este tipo de DIF).

Los procedimientos Mstov basca ahora exigc~iajustar modelos de TRi, el que sigue no exigc ninpí~imodelo de nicdida esperífico. Fs decir, q u c puede aplicarse perfectamente dentro de uxi análiiis de 10s írems desde la TC:T.El procedimientoMan tcl-kk~enszel(MH) por $u S C R C ~ ~ Zbajo , costo conipiliacional y l>iiencisresultados, es lirio de los métodos ni& utililizados para detectar cl DE. Lo pritrirro qrie liemrns de hacer para aplicar el procedinaentri MH es dispoilcr la irifomaci6n con las respriesix de los cxariinados en c1 test en m tablas de contingericia de P x 2, siendo m el rii~merode iiitcrhvalos en los que a t divide la puntuacióri total en el test (1 . .k.. .m).Asi, para cada nivel de puntuacion k, iendretrios una taliia de contin-

.

ar = 0.71

hr- 1.05

a f 1.35 ~

M-1.25

1.0 Od -

aP

z

0.6 -

0.4-

IIY

-

o-. -5

*

*,

__---1

-2

n

1

2

3

Habilidad

F~WEA13. CCi del item 5 m el p p u de qfmmüa (GR) y fwal (GF) .

gencia de 2 x 2 con la. pertenencia al grupo (~f:ncia/fociil) en una de 3% entradas y la respuesta al ítem (acierio/error) en la otra, como se puede observar en la Tabla 5 . Los valores de las celdas A,, Bk, Cky Y&denotan el niirnero de examinados en cada c a t e ~ r i a . h u valores maqinales XRky N,,representan el niímero de examinados e n el grilpo de refercriciay local, respectivamcntc; y NI, y N, representan el número de examinados que han contestado corrertü e iricorrectamente el itern, resperiivamerite. Firialmente, N, es el n drric~~o total cic examinados en el nivel de piintuaci6n k ,

Arierra (1)

Error (O)

fifmaa

Ak

F d

c,

4 4

N,,

NOk

Griipri

Total

:VFR

126

ANÁZ.ISIS DE LOS ~TEMS

liigica qiic: subvacc al prcicdirrfientn MH es la siguiente: si el presenta ~ kla ,razbri enirc cl número de personas quc acicr-tancl iterxi y las qiie lo f'nllaxi debe ser la misma en Iris dos griipos comparados a lo largn de iodos Iris niveles de pzinniaciíin. Formalrricnte ítem

nti

HU: ( A k/ R k ) = a (C;, /DA)siendo a = 1 para todo k (Aiis~nciade DlF) H , : ( A , / A h ) = a (l:,/ I I , )

siendo

tr $

1 eri iilgún k (DTF)

1 IoElñnd y Thnyer (1988) proponen utilizar el catadistico Maritel-Haenszel para someter a prueba la hipótesis nula de ausencia de DiF. Este esradistico viene dado por:

donde E(Ah) Y Vx(A,)

es d valor q x ~ i d d rdc i IJ, es su a - a r i m ,

que son iguales a:

x,,, n ~ y

El estadístico sigiic iina dlstribucibn X' con un grado de Iibertad. Si 2 el item estiidiado txhi be DIF con iin nivel de confia~izade 1- n. Podemns obtener además una medida dc la rriaqiitud del DIF presente e n el ícem a partir del estimador de a pr-oporcioriadopor, Maritel y Ebenszel (1959), dcnoniinadu razón de razones común (&.*#ir :

x:,

W ~ L S LDE S LOS ~TEMS

Como decimos, 6," es uri estimador de la magnitud del TlJF cri tina rnéttica que n r í a entre O e 03. Un valor de 1 representa la hipíiresis nula de no DIF. Si es mayor que lirio, el it'tern estudiado favorece al grupo d e referencka; por el contrario, si ces nitnor que lino favor-eceal grupo focal. Holland y Thayer (1988) transforman á,,,, a la escala delta de diferencias en la dificultad del item vía:

M H D-DIF = -2.35 In (a,,), donde ln (CT,+,,,)

cs d logaritmu neperiana

de

En esta nuwa escala la. ausencia de UIF vienc indicada por valores prtiximos a O, los valores ricgativos indican que el ítem fav* rece a1 grupo de referexicia y valores positivos qirc favorecc al grupo foca]. Una amplia descripcihn de este proccdirnierito puede encontrarla el Iector en la entrada que la Enqckjjtdia r$S~nliqlic in &Janvioural Scim.ce!dcdi ca a los rnetodos Mantel-Haenszel (Fidalgo, en pmiisa). Como se echa cle ver ateridieririo a las eciiar-iories20 y 21, iw ~iiiculosriccc.sariris para o b t e ~ ~10s e r estadísticos MI1 son muisencillos. No obstante, quien desee ahorrárselos, priede cibtericr una C(Ipia del pmgmma MHnlF ( Fidalgo, 1994) en la dirección web qiie se indicó al inicio del capftzdn. A continuacion se muestra parte de la salida de restiliados que oi'rece el programa M H D F aplicado a los datos einpltados con el coritractc de las diferencia?en b. Para evitar que Ia puntuaciOn tum1 de 10s examinados en e1 test esté colitarni~iadapos los ílenis que fiiíiciorian difercncialmenie, cl programa aplica los eutadíuticus MH en dos etapas. En la segunda etapa ( " l l I F rlelretion ir^ I ~ f)u?-ijd R test") el pro,gsama caIcula Ia puntuación total en el test cmpleündu sólo los itcrns que n o hayan sido dctcctadw con IIIF eri la prirricra, Por razones obvias, dichos resultados serán los qtic debamos cmplear.

Elccrihn m ú l ~ p l e

( (

)

( (

) )

Adjetivos liipolarts Otms (11ldiqueE

)

Adrninistraci6n oral Papel y lipiz Manipiilalivii

( ( ( ( (

Tipo Likrrt

................................

I L ~ ~

) ). Tnforinarhado ) Otro (lndiqric ciibl:

)

..... ) ...................... . .

11.16. CuaIíficaciiiri reqiirfida pam el iiso drl tcst de acuerdo con la documentaci6n aportada: ( (

)

Ningrxna

)

Entrenarriicritci y ArrrdimciiOn e ~ í ñ i c a *

(

) )

Ki"e1~~ Nivcl O

)

Nivd C

(

( (

Otra

(lndique cuál:

. .........) ................... .

* Iridique el nombre dc la institi~ci6nque ilcra a calx~la acrcditacih: 1.17. De~ripcihridr la?poblaciones a las q i el~tcsr ea apiicablc (cspecifique el rango de cdad, nivel educativo, ctc., y si t.9 trrstcs aplicable en ciertas poblacioiies especficas: minorias ktriiras,dimpaciladrm, R I I ~ dínicos, M

etc.):

l . 18. TrirIiqiw si cxístcn dffcrentes Iorrnaq riel tcstp SUS caractcristica? (form;is paralelas, vemirinm akr~rviadiis,versiones informatizadas o impresas, etc) .Erz el r m dcr quc cxistan VPIS~OT~CSinformatirs). Nn-1 B (resu colcctivnq Fift aptitudrs c i~itcligencia)y Njvcl C (tests de aplic~ciilinii~clis~idiial de in~t:Iigrrciii,prsonalidad y ntrm insiruiiicnm compltjw). j

"

1.19. Procedimiento de correcciciti: {

)

{ (

)

(

)

(

)

Manual mediante plaritilla Leciora Óptica Automütizada por ordenador ETcrniacio exclusivamente poi la empresa siiministradoia Mediante expertos

(

)

Otro

)

(Indique cuál: ..................................

)

1.20. mintiiaciones: (Describa el prricedirnien~opara oblener las puntrraciories directas). 1.21. Transformación dr las puntuaciones: ( ( (

) j

Caraclerística ~ i aplicable o para este iiistrumetilo N~irmalizada No iiormalimda

1.22. escala^ utilizadas: ( ( (

}

Iknt.ilcs

Puti~uacioriestípicas Cocieritcs dc desviacirin

(

) )

Encaupos

(

}

Decatipos

)

T Otra

(

)

(Iridiquc c k l : .................................. )

1-23. Posibilidad de ohleiier infrirnies automati7;idri.s: ( (

)

No Si*

* Breve descripción: 1.24. El cditor ofrece iin servicio para la corrcccion y/o e1ahr;iciiin dr inlormcs:

1.25. Ti~rripoesúmado para la aplicaciríri del test (irisrrucciones,ejemplos y rcspiicstxs a Iris íten~s). En aplicació~iiiidividud: ...................................

Eii aplicación colectiva: .....................................

1-26. nocumenlatriíin apomda piir el cditor: ( ( ( (

Maniial )

) )

I,ibroi o artículos compleiiit.ri~rios LSisketcs/C:n Otra (Indique cuál: ....................... ..

)

127. k i o dc un Juego complcto de la pr.iicba (dwumcntaciiiri, test, plantillas de corrccciiin;en el ~ a de w tcsts infnrrnatizadmno sc inclitye d costo del hudwnre):

1.28. Preciri y númcro de ejemplares dcl paqueLe dc cuaderriillvs (tcsts de papel y Iápiz): 1.29- Pretin y niimcro de eje~npIarrsdcl paquele rle hoja% de respucsta (les& dc papel y lspiz) :

1.30. Prrcio de la ct>rrer:ciUnv/o claboracihn dc inforriies por parte del cditor: 1-31. Ri bliografia hkim xcrcíí del Lest aliortñda en la dmumeritu:iiin:

Z Valoracih de las m 2,l.

c

l

t

s del test

Calidad [le los materiales del teai. (objrtus, m a t d d impreso ri .S?$m) :

*

(

)

***

( (

)

(

)

Rucna

(

}

Kxcrlrntc

**** *m***

lnüdecizarla Adeciiacla pero cun algiinas carencias ~irlwuah

(Imprasidii y prrsenmci6n rle g a n calidad, sofiirai~IIIII): awctivri y tñcicntr, eh:).

2.2.

Calidad de la dncurrittritaciiin apodada:

* *f* **** *%a**

( ( ( ( (

Inadecuada Adwuada prm ron algzrnai carrncias Adecuada 1 Buena ) Excelente (Dmrripción muy c1ar.a y cümplcta dc kas caractcrística4 Lílcnicas, fundrirricntíida cn ) )

aliunthnks &tos y rciFiwirias).

{

* **

***

**** **"*

2.4.

( (

*M*

****

Inadecuada

Adecuada pero can algiinas carencias

(

)

( [

)

( (

) )

(

)

(

)

{

*m** (

hdírcuadii Rirrna Excelerite

)

(Dcscripciiin muy clara y documentada del tonstructo q u e se pretende riietiir' y rlcl p l ~ ccdimieriici dc mcdici6n) les1 ha

sido iraducido y adapmdo par:i s i l

Característica iio aplicable para cstc instrumento N o se aporta infomaciiin en la docu~tienlación 1n;idectiada Adecuada pero ron algrnai carencias

Adecuada Buena Excelrnie

(Descripciónprecisa del proceriin~irniii tle mducción, dc la adaptación de los í t e m s a h 1x11tiira espíirir>k+ dr los cs~udiosde cquiValencia con la aexsi~nori~nal, uliliración f 1 la ~ n t i m a L i v a dr la Inicrnacional Test Cornrnission, eñr.).

Calitldd tie las hsmcciones:

*

** *** ****

***** 2.6

No se aporta irifurrnaciiin eri la dociime1itaci6ti

Ad;ipt"ciiiri rlel tesi (si el aplicacihn en Espaiia):

* **

2.5.

) )

(

( (

) }

( (

)

lt~d~uaria Adcciia& Wrn con alguna%carencias Adecuada Rwna Excelente (m y p r c c k . Muy adecuadas pma las pobiacionrs a las que va dirigido PI~ 9 .

Facilihd para comprender la i;irea:

*

**

*** ***e

*****

(

)

( ( ( (

)

inadecuada Adc~niadapero con algunas mwncia-4.

)

Suficimte

) )

Buena Excclcntr

FILM S ~ ~ ~de P FImOpobIacioncs S a Ias que m

dirigido d test puedrn ~ornprrriderfácilmcii rc la tarca a realizar).

2.7.

Facilidad para registrar laq respuestas :

*

( )

***

( (

( (

)

**

**** e*+**

2.8.

Inatlec11ñC1~ Gdec~~ada períl ron algunas carencia?

1 Adecuada )

Biiena Excelente

(El procedimiento par-emitir o registrar Ias respucnian es rri uy simple por lo que sc rvimti los errores cii la atir~tación).

Calidad de Im Ctems (aspectos fonmles):

* **

( (

**r

(

)

(

)

(

)

**Sr=

*****

3

Xnadr~uda

Adecuada pero con a l p n d a carencias Adecuada Buena Excelente (Lamlacri6ri y rl diseno son rnuy apmpizdos).

2.9. Análisis de Iw ítems

* **

***

**" *+***

(

)

( ( (

) )

(

1

( (

) )

Caracterlstia no aplicahlc para este insmrnenio Na se aporta inforrnacidn en la ducirrnenmci4n

lnadtcnsdos Adwuadris pero con a1p;unau c-arenciñs Adecuados Buenos Excelentes

(Inrormnciiin detallada sobm dlwncis estudios arrwd dr la$ caracted*tir;as psícomd ~ t n c a de s los itcmi: difiriiltitd omriabilidad, discriminaciini, r ~ l i d e z ,disirxtmres, eic.1.

2.1 0.1 .l. Calidad de la teprrrrmtación del contenido o dominio:

*

*

(

1 lnadecuarla

(

)

Adeciiada pero con a@nas carcncim

" m ~ C L W w c5e11~idIm km m*r rtftriclns al criieiiu y partinilarmente cn lw tr~u de rendirnienlo aradtmico. Eirlita SU jULcin irwihrr h calidad dc la i r p t e m k O n dei rritrtrnido n duminio. Si en la doriimcniari8n t i p u r d aparecen la%rwlii;i~lnticsde los -fi05, 1bt11rlx t.11 runridrmitin.

*** **** ***x*

(

)

Adwruarla

)

Buena Excelente

(

1

(Enla documciiracihn >n ~ T P W I I ta 11na prtcisa definitiim del contenido. Los ítcriis miicvmin adccuadamcntc irirla.ycholo~ernl tesfing.Arnerican Psydrologid Assoclation, Washington,DI:. A Y ~ ~ TA.~(1 L987) ~ I ,: What &st ~dqm.S~LOUIIIknotll ahout the intofmt scmes, Keyriote ;tddrerr a t Joint Committee o n Trsiing Fractices S c s n d Test Priblis11er.a(:otilCience, Rockcillc, Marpland. (Citado de Fremer, 1996). RARER, F. R. (111!49) : Itm re.rponic / h u q : parameter estimation technqms. Marre11 Uekker, New York. BMW, F. R. (200f): Tht! hct,~rccfitem response t h e q (.rccolzd rdétim). College Park, MD: ERII: Ciearingltoirse on Gssessment and Evaliratiün, Univcrsity oC .M;iryland. BARBERO, M. l. (1996):Bancos de ítems. Eli -J. Mrrfii'rz (Coord.), fiir'orn8hh~& (piigs, 134170). Universátíts, Madrid. BARBERO. M.1. (1999):Gestión informatizada de baricou d r íterns, En J. OI,EA, Lr- P o ~ c o ryi G. ~ PRIETO (~4s, . )1bf~ Infmnlizadn~:J~n,dnmnlo,~ g np!iir:cs. cimw. 63-84). Pirhide, Madrid. BAR~M 1)., (1996):Tcst qualilícacírins and test. use in the UK: The cumpepetencc a p p d . E w o p m n J m w d ofPylrnloffcfi1A s , s r s , ~ ~ ~12, i ~ r pigs. ~l, 62-71. BEWCER,M.,MANE, C.,VE-Y, 11. v B~XUIN, A. A. (2003): Uning Cias si cal Test Theory in combinalion with I t m RLrponsc Thcory. ApplUdPsq~ c/~nlnpca:al Me-27 (5),páp. 31$934. B ~ M 1., ( 1993): A generaiiw apprmch ta psychological and cducational rrleasurwneni. E n N. FREDLR~KSF.N, R.J. MISLEWe 1. BI~IAK (eds.). Test Ehmry Irir a m r germtim of ~ F L T( p i e . 323-337). I ~ m e n c eErlhiaum, Hillsdalc, NJ. 11t.r.

(e.

BEJAR, 1.1. y BENNET, R. E. (1999): La puntuación de las respuestas como un parámetro del diseño de exámenes: implicaciones en la validez. En J. OLEA,V. PONSODA y G. PRIETO(eds.), Tests informatizados:f u n d a m t o s y aplicaciones.(págs. 5359). Pirámide, Madrid BRACKEN, B. A. y BARAONA, A. (1991): State of the art procedures for translating, validating and using psychoeducational tests in crosscultural assessment. School Psychology Znlunational, 12, págs. 119-132. BRENNAN, R. L. (1983): Ehts o f g e n e r a l ~ l i t ythewy. Arnerican College Testing Program, Iowa City, IA. BRISLIN, R. W. (1986):The wording and translation of research instruments. En W. J. LONNER y J. W. BERRY (eds.) , Fkld methods in cross-cultural psyche logy (págs. 137-164).Sage Publications, Newbury Park, CA. BROOKS, J. P. y JOHANSON, J. A. (2003): TAP: Test Analysis Program. Applied Psychological Measurement, 27 (4), págs. 303304. BRUNO, J. E. DIRKZWAGER, A. (1995): Determining the optimal number of alternatives to a multiplechoice test item: An information theoretic perspective. Educational and Psychological M e a s u r m t , 55 (6), págs. 959-966. CAMILLI, G. y SHEPARD, L. A. (1994): Methods for identzfjing biased test items. Sage, London. CANAD.AS,1. y SÁNCHEZ, A. (1998): Categorías de respuesta en escalas tipo Likert. Psicothema, 10 (3), págs. 623-631. CARMINES, E. G. y ZELLER, R. A. (1979): Reliability and validity assessmt. Sage, Londres. CA~LL R., B. (1966): The scree-test for the number of factors. Multivariate Behavioural Research, 1, págs. 245-276. CLAUSER, B. E. (2000): Recurrent issues and recent advances in scoring performance assessment. Applied Psychological Measurement, 24, págs. 310-324. CROCKER, L. y ALCINA, G. (1986): Zntroduction to classical and modenz test thewy. Holt, Rinehart and Winston, New York. CRONBACH, L. J. (1951): Coefficient alpha and the interna1 structure of tests. Psychmtrika, 16, págs. 297-334. CRONBACH, L. J. (1975): Five decades of public controversy over mental testing. American Psychologist, 30, págs. 1-14. CRONBACH, L. J. (1985): Fundamentos de la explar&ón psicológica. Biblioteca Nueva, Madrid. CRONBACH, L. J., GLESSER, G. C., NANDA, H. y RAJARATNAM, N. (1972): The dependability of behavioral measurement: T h e q of generalizability for scores and projiles. Wiley, Nueva York. CUESTA, M. (1996): Multidimensionalidad. En J. M U ~ I(Coord.), Z Psicometría (págs. 239-292). Universitas, Madrid.

DE^, A. R y P R I ~ O G., (1998): Further evidence farwring h~ee-optinn itcrns in multipkhoice tests. Ewybeanf ~ a ~ o f f ' ~ h ~ t ( 4 1 ~ m 14 (S), @p.1'37-201. Doc:~u,E,MOF.RKMIKE, G.,DEI'~RTT., E.y SEGEKS, M. (2001): The assessment of qtmn ~i tative problem-solving skíIls w ith "rioneni'the ahove"ikms. EuroPpnn,/oma¿of Psgchology ofEducation, 16 (2) , páp. 16%157. DUL~YCHA, A. L.y CARPF.NTF.R, ,J. B. ( 1973): Effects of item furmat urr itern discriminatihn and dimcul ty. Jnmnnl rif Applir,d Pychulugy 5#, págs. 116121. EBEL,R. L. (1968): Measuring c d ~ ~ ~ t i o laa ca lh m ~ m tPrcntice-Hall, . Endewvod Cliffri, N. J. ELLIS,U.U.y Mw1, A. D. (2002): Ttern analysis: Thcory and practice iuirig classical and niodcsn test theory. Eri S. G . ROT,F.I.KERC, (d.}, Handbook o# wstiawh natlhodr in indushial alad opgankntionizl p.~y~hlanLofl.Blackwell Puhlirhers, Mdden, M. Etosun, P. (2003):Sobre la validez de los tests. Psicothma, 15,pigs.315-321. EW.RS,A. (li)!)6):Replations concerning i e s qi~aliticaiioris ~ aiid test use in The Netherlands. Eu@crarñ Jmmal ofYsychologicnl Assessmt, 1 5 2 , págs. 153-158, FERNIWDEZ~~WA, A. (1995): T,ris muchos mstms de la m c i a . Ediciones NobeI, Ovicdo. FlnAl.rxi,A. M. (1994): MHDIF:Acomputes prrigram for detecting uniform and nonuniíorm differential itcm fui~ctioningwith thc Mantel-Harnszel proccdurc. A#lii!tl P\ycizolri~iculM ~ m ~ m ~18, n pig. t , 300. FrriAlrxi, A. (191)ti):hincionamiento diferencial de los items. En J. MuNiz (Coord.) , Psimlmrt (págs.57 t-455), Uniwrsitas, Madrid. Frn~rrcn,A. M. (2002,septicmbre): gQ& pasa cuando sc hacen p ~ l a c o sm$ortamientos ldmb impmwttnbb ? S~wrealismoy C m w n .Coniiiniraciíin prcscnt;ic1a al I C:nngreso Nacional sol~-eC:nrriipción eti la Universidad Pública Espaiinla, Madrid. h n ~ ~ ~AxM. i , (2003, wptierrzbre): ArtstÓteh, Po@& y Ea DK07jGn &Z Copiacimiento. Comuciicacifin pmniarla en e1 YiIll Congreso de Metd01ogía de la3 Ciencias del Ihrnprtamiento y de la Salud. Valencia. Intcrnct: hup://m.psico. w niovi.~/FaccPsicologia/w3d~/instruU~1~ion/ aristort.les.~Jdf. hnmx,, A. M. (cn prcrri~ii):Mantel-Haerisil methods. En B. E m m y D. 1~ O ~ E L(Edu.), L K ~ c ~of Stdi.rIk i a in h h E M d .WJohn Wiley

8c Svnu, I ~ ~ n r l o n . F ~ A I ~A. A M. ) , y FERRERFS, D. (POO2):Supuestos y consideraciones en los estudios empíricos sobre funcionamiento diferencial de los items. Psic o t h m , 2, págs. 491496.

F~AIGO k, M. y MIJRTX,J. (2002):Lineas de investigación a c m d e ~sobre el funcivnamientri diferericial dc los ítems. Mt¿odrilogú~de Zrai Cien& del C ~ ~ a m i e n t4,o págs. , 5566. Fln~lXm,A M.y PINCEL,1. (2004): Ia escala Cisnems como hesrarnieritx CIC valoracicin del rnobbing. Ysicolhmu~,1 6,págs. 6Im4. mnr.m, W, C.(1956):Aratfonale tcir eviiluation ofitem rlixrimination ~iati+ tics. Kdzar:atiunalar&Pqchdogitnl M e m r e m m t , IfiZpágs. 159180. RNK,A. (1995): Harit Lo &siga JWTS. Sagsc, Thouqand Oaks, [;A. F I S I ~ A G, N , S. (1973) : Cm@$ and w6hodq in rhcreti? m~?rll r l w slm&im. John Wiley & Soris, NiicvaYork. (Traduccióir eupitñola:Conceptusy mftodos cn la siiriularir'iri di#ital de a-entos discr'efos, Limma, Mexico, 1978).

FRFMER, J. (1996): Prnmo~irighigh standards for tesi use: dcvelopmetizs in ilie United Statcs. EuropealaJournnl .JP~ycho&ca& As~essnient,12, 2, pigs. 1 60-168. C : A R C ~ A ~ U E T O , E. ( 1993): l n l d ? i t r tirmi a ha Psisometk Siglo XYII.Madrid. Gmcí,ri--Ct'~~~[), E.,M~rhn7,J. y ~ L W OL., M. (2002):Influencia del nGmcro dc alternatiw eii laq propiedades psfcurn6tricasde los tcsts. ~ M d o d q ' a a? I ~ II:iwicitl~&k Cmportamfmh, .Su@, páp. 201-205. I;ARC~AJT~~~KE~L, E., GILFLCIRES, +J. y R O ~ R ~ G LGDMCX, U G, (2000): Ami&to y Man'ü Castro Moirsa: ~'ñod~losgmá?rpiros Rneahs, SO. J. Miiñi~,A. M.Fidalgo, E. Garría4 :i~cto,R. Martinez y R. Moreno: Ata616 S~F

ims.