Medicion Psicologica

Tomás Caycho Rodríguez Sergio Domínguez Lara MEDICIÓN PSICOLÓGICA TOMAS CAYCHO RODRIGUEZ SERGIO DOMINGUEZ LARA Tomás

Views 79 Downloads 0 File size 1010KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

MEDICION PSICOLOGICA

16 2 615KB Read more

mapa conceptual medicion psicologica

26 1 357KB Read more

Medicion y Evaluacion Psicologica Docx

6 0 537KB Read more

Examen Final Medicion y Evaluacion Psicologica

Centro Universitario de Taxco INCORPORADO A LA UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO CLAVE 8991-25 Licenciatura en Psi

27 0 501KB Read more

medicion

715 2 183KB Read more

DEVOLUCION PSICOLOGICA

30 0 131KB Read more

PERICIA PSICOLOGICA

29 0 389KB Read more

Guerra Psicologica

61 96 1MB Read more

Orientacion Psicologica

16 2 2MB Read more

Entrevista Psicologica

8 0 158KB Read more

Author / Uploaded
grecia

Citation preview

Tomás Caycho Rodríguez Sergio Domínguez Lara

MEDICIÓN PSICOLÓGICA

TOMAS CAYCHO RODRIGUEZ SERGIO DOMINGUEZ LARA

Tomás Caycho Rodríguez Sergio Domínguez Lara

UNIDAD I MEDICIÓN PSICOLÓGICA

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN I CONCEPTO DE MEDICIÓN Y SISTEMA NUMÉRICO

1. MEDICIÓN 1.1 Concepto La medición es un concepto básico y fundamental en todas las ciencias, siendo más difícil de establecer en las ciencias sociales y del comportamiento que en las ciencias físicas. La definición más difundida y popular acerca el concepto de medición, dice que ésta, en un sentido amplio, es la asignación de numerales a características de los objetos, personas o eventos de acuerdo a un conjunto de reglas establecidas (Stevens, 1951, 1970). Por otro lado, Nunnally (1987) hace referencia a la medición como la asignación de números para representar las propiedades de los sistemas materiales en virtud de leyes que rigen estas propiedades. Así por ejemplo, no medimos un árbol en sí, más bien medimos su altura, su peso, el diámetro de su tronco, etc. (Cortada de Kohan, 1994), es decir, medimos propiedades de los objetos que se prestan a la observación empírica o, mejor aún, indicadores de las propiedades de los objetos. En resumen podemos decir que medir es brindar la magnitud de cierta propiedad de uno o más objetos con ayuda del sistema numérico (Magnusson, 1972). Como se observa hay muchos términos importantes implicados en la definición de medición, los cuales trataremos de dilucidar con más profundidad. El concepto propiedad o atributo que caracteriza a personas y objetos, es de importancia en el proceso de medición. En primer lugar, cada objeto tiene variadas y diferentes propiedades; los objetos físicos poseen propiedades como longitud, peso y volumen; los seres humanos, además de esas propiedades, poseen, por ejemplo, pensamiento, alegría, memoria, angustia, motivación. Así, para que la medición pueda llevarse a cabo, es necesaria una clara concepción de la propiedad, así como de una clasificación rigurosa y específica de ella. Algunas propiedades son sencillas de medir, pues sus indicadores no ofrecen dificultad para ser identificados y en donde las reglas para

Tomás Caycho Rodríguez Sergio Domínguez Lara asignar números puede ser fácilmente formulados. Por ejemplo, la longitud de un cuerpo es un atributo que puede medirse siguiendo reglas sencillas. Caso contrario ocurre en la medición de atributos psicológicos que requiere un mayor grado de dificultad. En este caso, lo que se va a medir está en íntima relación con la concepción que se tenga del atributo. Si el atributo es definido de diferentes maneras (como es el caso de algunas variables comportamentales que son definidas, por más de una teoría, de manera distinta) es una consecuencia lógica que las medidas que se obtengan expresarían esas diferencias. Por otro lado, el término numeral hace referencia a símbolos, tales como 1, 2, 3… I, II, III… o A, B, C; que comprenden al número, expresando la cantidad en relación a una unidad (Alarcón, 2008). Por otro lado, las reglas, empleadas para la asignación de los numerales, hacen referencia a los procedimientos o lineamientos que se deben seguir para representar numéricamente las características del objeto que se está midiendo (Cohen & Swerdilk, 2000). 1.2 Sistema numérico empleado en la medición psicológica El sistema numérico que se emplea en la medición es el concerniente a los números reales, los cuales evidencian las siguientes características: a. Origen: La serie de números (1, 2, 3,…n) tiene un origen único llamado cero (0). La diferencia entre cualquier par de números, en donde el 0 es uno de los miembros es igual al número del otro miembro. Así por ejemplo: 8-0 = 8. b. Orden: Los números están ordenados de mayor a menor (después del 1 viene el 2, etc., o 1 < 2 < 3, etc.). c. Distancia: La diferencia entre dos números también se encuentran ordenadas, es decir, la diferencia entre dos pares de números puede ser “mayor que” (5 es mayor que 2), “igual que” (2 es igual que 2), o “menor que” (3 es menor que 6). Por ejemplo: 6-3 > 5-3 8-6 < 8-5 6-3 = 7-4 Aún así, los fenómenos pueden no satisfacer todas las propiedades de los números pero aún así permitir realizar ciertas operaciones con

Tomás Caycho Rodríguez Sergio Domínguez Lara los mismos. Es decir, existe en la medición ciertos grados de perfección de acuerdo con la exactitud con que las variables a medir cumplen con las propiedades lógicas de los números (Cortada de Kohan, 1994). De acuerdo con Cortada de Kohan (1994), son nueve postulados básicos, agrupados en tres categorías (identidad o equivalencia, orden jerárquico y aditividad) empleados en la medición: a. Postulados básicos de identidad o equivalencia: 1. a = b o bien a ≠ b. Los números son iguales o diferentes. 2. Si a = b entonces b = a. Es decir, la relación de igualdad es simétrica. 3. Si a = b y b = c, entonces a = c. Es decir, dos cosas iguales a una tercera son iguales entre sí. A este postulado se le denomina transitividad. b. Postulados relativos al orden jerárquico. 4. Si a > b luego b < a. L relación “mayor que” es asimétrica. 5. Si a > b y b > c entonces a > c, estamos hablando de una propiedad transitiva. c. Postulados relativos a la aditividad. 6. Si a = p y b > o, entonces a + b > p, lo cual indica la posibilidad de sumar. 7. Si a + b = b + a, evidencia que el orden de los sumandos no afecta el resultado. 8. Si a = p y b = q, entonces a + b = p + q. Es decir, los objetos idénticos pueden ser sustituidos. 9. (a + b) + c = a + (b + c). Es decir, el orden de las asociaciones no produce diferencias en el resultado. Las características y postulados del sistema numérico pueden evidenciarse mejor con la noción de isomorfismo. Podemos establecer una relación isomorfa cuando se establece una correspondencia unívoca entre los elementos de dos conjuntos. Así, el conjunto A, B, C y D, es isomorfo al conjunto 1, 2, 3 y 4 cuando ambos tienen la misma cantidad de elementos. Asimismo, cada uno de los elementos de un conjunto puede ser sustituido por los elementos del segundo conjunto.

Tomás Caycho Rodríguez Sergio Domínguez Lara Algunos autores plantean el problema del isomorfismo en los términos siguientes: ¿Tiene los procedimientos de medición que se usan, correspondencia racional o empírica con la realidad? (Kerlinger, 1965). Kerlinger agrega, que la única dificultad del isomorfismo es que pocas veces descubrimos el grado de correspondencia de nuestras mediciones con la realidad. Lo anterior es importante, si tenemos en cuentan que bajo el término inteligencia se midan sólo algunos de sus factores o la totalidad de ellos. Es posible también plantear la existencia de isomorfismo a) entre un atributo y los indicadores que lo representan; b) entre un sistema ordenado de ítems (test) y la conducta que se pretende medir y; c) entre la estructura de la medición y la estructura numérica, de modo que los números sean susceptibles de análisis por medio de operaciones (Alarcón, 2008). Finalmente, Cortada de Kohan (2000) muestra ciencia responde a la siguiente categorización:

que la medición en

a. La medición fundamental o medición de magnitudes. Aquí, los números se asignan de acuerdo a las leyes naturales que representan la propiedad misma. Así tenemos que, la longitud y el volumen poseen un significado constitutivo y no suponen la medida de ninguna otra variable. b. La medición derivada. Esta categorización muestra que la característica de una escala tiene sentido a través de leyes que permiten relacionar una propiedad con otras. Ejemplo de esto, es la densidad de una sustancia que es producto de la relación de la masa y el volumen. c. La medición por fiat. Esta referida a la definición arbitraria que depende de relaciones supuestas entre las observaciones y el concepto. Los índices, como el nivel socioeconómico y el cociente intelectual, empelados en ciencias sociales y psicología respectivamente, son adecuados ejemplos de este tipo de categorización. Con todo lo revisado acerca de la medición en las ciencias en general, podemos decir que la medición de atributos psicológicos requiere mayor grado de dificultad, ya sea porque a menudo una misma propiedad no es definida por los mismos indicadores, o porque se pone énfasis en algunas características a comparación de otras.

Tomás Caycho Rodríguez Sergio Domínguez Lara En psicología, medir es brindar magnitud a cierta propiedad o atributo, por ejemplo, la inteligencia o el razonamiento verbal, de una o más personas, con ayuda del sistema numérico. Así, en psicología, se busca medir atributos que no son físicos ni directamente observables. De la medición en psicología nos ocuparemos en la siguiente lección.

Fig. 1. Ejemplo de medición de atributos psicológicos del ser humano

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN II MEDICIÓN PSICOLÓGICA

"Cuando puedas medir aquello de lo que hablas, entonces puedes pensar que sabes algo acerca de ello” (Thomson, 1891)

2. Medición psicológica 2.1 Psicometría La psicometría, en sentido amplio, se define como un conjunto de métodos, técnicas y teorías implicadas en la medición de las variables psicológicas. Como su nombre indica, trataría de todo aquello relacionado con la medición de lo psicológico (Muñiz 1996). Entonces, se puede decir que la psicometría es la disciplina que se encarga de la medición de los constructos y comportamientos observables de naturaleza psicológica. Dicha forma de generar conocimiento presenta dos funciones, teórica y práctica. En lo que respecta a la función teórica, se encarga de realizar el estudio de la medida y sus posibilidades en el campo psicológico, justificándola y legitimándola por medio de procedimientos aceptados por la comunidad psicológica en general. Por otro lado, la función práctica está referida a la aplicación de esos conocimientos al estudio de aspectos psicológicos concretos, tanto en la cuantificación como en la instrumentación. En resumen, en psicología, se trata de medir aspectos que no son físicos ni directamente observables, en donde medir es brindar la magnitud de ciertas propiedades o atributos, como la inteligencia o la extraversión de una o más personas, con apoyo del sistema numérico. Así, la medición en psicología, establece una serie de condiciones o parámetros que permitirá representar los constructos o características psicológicas por medio de indicadores objetivos y a éstos por la asignación de números. Ahora bien, como vimos en la lección 1, no todas las propiedades que medimos son perfectamente isomórficas con los números, lo que puede derivar en una mayor o

Tomás Caycho Rodríguez Sergio Domínguez Lara menor perfección. Esto, junto con la posibilidad de que los números pueden llevar diversa información, hace conveniente distinguir entre los diferentes niveles de medición, los cuales se diferencian por la cantidad de información que llevan los números que representan las características personales a evaluar (Magnusson, 1972). 2.2. Niveles o escalas de medición Retomando lo referido en la primera lección, se entiende a la medición como la atribución de números a las características de los objetos para representar cantidades de dicho atributo. En ese sentido, la asignación de números debe estar basada en un objetivo, el cual guíe dicho accionar y garantice un uso adecuado del sistema numérico. Para dicho fin existen cuatro niveles o escalas de medición: nominal, ordinal, de intervalo y de razón. 2.2.1. Escala Nominal En este tipo de variables los números sólo se usan para representar una relación de identidad, pertenencia o de diferencia. Los números utilizados sólo informan de la igualdad o desigualdad de los individuos en un atributo, pero no de posibles ordenaciones. Por ejemplo, si para codificar el sexo en una población al momento de analizar los datos se asigna a los varones el valor de 1, y a las mujeres el valor de 2, esto no implica que las mujeres tengan un valor que duplica al de los varones. Es decir, los números no representan las cantidades, si no son una forma de identificar las variables funcionando a modo de etiquetas, y a su vez facilitan el análisis estadístico al manejarse por códigos numéricos. 2.2.2. Escala Ordinal Los números representan relaciones de orden. Esto quiere decir que los números asignados reflejan distintos grados de la posesión de determinado atributo o característica, lo cual se corresponde en cierta medida con la magnitud del número. En este sentido, se les puede asignar números a los atributos para delimitar cual es mayor. Si se debe que asignar números a los niveles de depresión que se hallan en una población, se les puede atribuir de a un nivel alto el número 3; a un nivel promedio, el número 2; y a un nivel bajo, el número 1. Con esa asignación de números se sabe cuál es mayor, pero no en qué medida. Es decir, al igual que en la escala nominal, no se

Tomás Caycho Rodríguez Sergio Domínguez Lara pueden realizar operaciones aritméticas con los números que representan los atributos puesto que son solo indicadores de orden, mas no de magnitud. 2.2.3. Escala de Intervalo Esta escala es diferente de las otras dos tratadas con antelación, puesto que permite determinar cuán lejos están dos personas o dos cosas respecto a un atributo, debido a que permite saber la magnitud de la diferencia. No tiene un punto “cero” fijo que admita la ausencia de dicha variable medida, ya que es un es un punto arbitrario en el continuo, es decir, no indica la ausencia de una característica, sino un punto conveniente del cual se marcan intervalos de igual magnitud. Una forma de manifestación de esta escala en la medición psicológica se encuentra en las puntuaciones directas de un evaluado en los test psicológicos, como los test que evalúan el cociente intelectual (Ver tabla 1) Tabla 1 Descripción de las puntuaciones y categorías del cociente intelectual (elaboración propia)

CI= EM/EC x 100

CATEGORÍA

130 - más

Muy superior

120 - 129

Superior

110 - 119

Normal brillante

90 - 109

Promedio

80 - 89

Normal lento

70 - 79

Fronterizo

69 - menos

Deficiente mental

2.2.4. Escala de Razón Presenta las mismas características que la escala de intervalo, pero además posee un punto “cero” fijo, es decir, un cero absoluto que indica la ausencia de la característica en dicha

Tomás Caycho Rodríguez Sergio Domínguez Lara persona u objeto. Son muy escasas las variables psicológicas que admiten este tipo de escala, ya que la mayoría que se sustentan bajo este punto son variables del campo de las ciencias naturales, como las medidas de longitud, de peso, de tiempo, etc. Teniendo en cuenta todo lo anterior señalado, podemos decir que el propósito de la medición en psicología es brindar una base objetiva, exacta y comunicable que permita describir, diferenciar y clasificar diversas características y conductas de las personas. Los instrumentos que se utilizan en psicología para la medición de los atributos psicológicos son los test psicológicos. Así, la medición con test psicológicos tiene como objetivo determinar la posición de un individuo en relación con otros individuos. Este propósito se basa en el principio de las diferencias interindividuales, que reconoce no solamente diferencias físicas, sino también psicológicas entre las personas. De los test, su clasificación y funciones, consistes en medir diferencias entre los individuos o entre las reacciones del mismo individuo en distintas ocasiones (Anastasi, 1978), nos ocuparemos en la lección 3.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN III DEFINICIÓN, OBJETIVO, CLASIFICACIÓN Y CARACTERÍSTICAS DE LOS TESTS. APLICACIÓN DE LAS PRUEBAS EN LA MEDICIÓN DE LA INTELIGENCIA Y PERSONALIDAD

1. Test Psicológico En la actualidad, cuando hablamos de evaluación casi siempre nos referimos a la aplicación de test que brinden datos cuantitativos y que se complementan con información derivada de la observación sistemática de la conducta o entrevistas, ya sea individual o grupal, a niños, padres, profesores, etc. El empleo de test hace que el proceso de evaluación sea más objetivo. 1.1 Concepto El primero en emplear la palabra test fue el psicólogo estadounidense James McKeen Cattell, en un artículo publicado en 1890. El término inglés Test puede traducirse como “prueba”, “probar”, “comprobar”. La bibliografía especializada en medición psicológica señala diversas definiciones, entre las que podemos señalar: a. Una prueba o test psicológico constituye una medida objetiva y tipificada de una muestra de conducta (Anastasi, 1978). b. Un test psicológico es una situación estándar elaborada con el fin de evaluar una muestra específica del comportamiento del individuo (Kline, 1986). c. Es un procedimiento de medición diseñado para medir una variable (Cohen & Swerdlik, 2000). d. Es un instrumento psicológico de medición, caracterizado por un procedimiento sistemático y tipificado en el cual una persona examinada se enfrenta con un conjunto de estímulos a los cuales debe responder (Cortada de Kohan, 2000). A partir del análisis de estas definiciones podemos considerar que un test es un procedimiento sistemático y estandarizado, estructurado por un conjunto de reactivos, seleccionados y organizados,

Tomás Caycho Rodríguez Sergio Domínguez Lara destinados a medir alguna característica, cuantitativa o cualitativa, del comportamiento de una persona. Veamos cada uno de los términos involucrados en el concepto de test. Primero, cuando hablamos de un procedimiento sistemático y estandarizado, hacemos referencia a la uniformidad en el procedimiento de aplicación y calificación del test. Así, las condiciones de aplicación y calificación han de ser iguales para todos. El conjunto de reactivos hace referencia a una muestra del universo de conductas que expresan la variable a medir. Por ejemplo, en un test de rendimiento lógico matemático para el 5to grado de primaria, los problemas lógicos matemáticos que se pueden presentar al niño son muchos, de los cuales en el test solamente aparecerán un porcentaje (40 o 50 por ejemplo) que servirán de estímulos antes los cuales el alumno deberá responder (Cortada de Kohan, 2000). El test es más que cada uno de sus elementos (reactivos o ítems). Así, la evaluación de una variable, se da sobre el conjunto de ítems que integran el test. Las respuestas a los estímulos permitirán asignarles valores numéricos para que se puedan establecer inferencias numéricas acerca del grado en que el examinado posee tal o cual habilidad (en nuestro ejemplo, habilidad lógico-matemático) que el test mide (Cortada de Kohan, 2000). 1.2 Objetivo del test psicológico Aquí se trata de responde a la pregunta ¿qué es lo que mide el test psicológico? Así, el objetivo básico de un test consiste en medir diferencias entre las personas o en la misma persona en diversas situaciones, y que son utilizados para fines diversos. La formulación de este objetivo también se relaciona con la declaración explícita de los límites que el test se autoimpone. Por ejemplo, la finalidad del TSA Test de desarrollo de la morfosintaxis en el niño (Aguado, 2005), es evaluar los elementos sintácticos que determinan funciones semánticas secundarias nominales (singular-plural, masculino-femenino, etc.) y verbales (morfemas de modo y tiempo), así como algunos elementos de superficie que unen proposiciones. También evalúa ciertos elementos sintácticos que determinan funciones semánticas primarias (pasividad, negación, etc.), pero sólo roza lo que ha dado en llamarse la gramática de casos (roles de agente, paciente, poseedor, etc.). Estos están presentes en los ítems, claro está, ya que las frases propuestas significan algo. Pero lo que se pretende explorar es la

Tomás Caycho Rodríguez Sergio Domínguez Lara estructura formal de las fases en las dos vertientes de comprensión y expresión. 1.3 Clasificación de los test psicológicos Existen diversos tipos de test que miden una amplia gama de características psicológicas. Podemos observar una variedad de clasificaciones de los test sin que exista un esquema clasificatorio finito de categorías que permita integrar los diferentes tipos, teorías y objetivos de los test. Algunas clasificaciones emplean criterios metodológicos para clasificar los diferentes tipos de test, mientras que otros se basan en la finalidad, los rasgos que mide o en el contenido. En función del contenido que miden, Cronbach (1972) propone la siguiente clasificación de los test: a. Test de Rendimiento Máximo. Aquí tenemos a los test de inteligencia, que intentan establecer la ejecución máxima del sujeto. Este tipo de test hace referencia a los denominados test psicométricos (siguiendo un criterio de clasificación metodológico). Dentro de esta clasificación, se englobarían tres grandes tipos: • Test de inteligencia general. Se basan en una concepción unitaria de la inteligencia. Estos test pueden contener elementos de tipo simbólico o verbal (como analogías, series de números, vocabulario, frases incompletas, etc.), de tipo gráfico (laberintos, comparación de rostros, trazado de líneas, etc.) o también de tipo manipulativo (rompecabezas, repetición de ritmos, manipulación, cubos, etc.). Estos test buscan estimar las funciones mentales, con predominio de elementos referidos a los procesos cognitivos superiores. Por lo general, su aplicación es individual, y sus normas de valoración toman como referencia la edad cronológica, de la que se extrae una puntuación global de inteligencia (cociente intelectual, CI). Los más famosos test de inteligencia son las escalas de Wechsler para preescolar y primaria (WPPSI), niños (WISC) y adultos (WAIS). Otros test de uso más reciente son el TONI-2 de Browh, Sherbeou y Johsen y el (Tabla 1).

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 2 Descripción de test utilizados para la obtención del CI (Adaptado de Muñoz y García, 2006 p. 91) WISC-R D. Wechsler (2001).

K-BIT A. S. Kaufman y N. L. Kaufman (1999).

TONI-2 L. Browh, R. L. Sherbenou y S. K. Johsen (1995).

Descripción

Medida de la inteligencia general.

Medida de la inteligencia verbal, matrices y general.

Medida de la inteligencia general (matrices).

Aplicación

Individual.

Individual.

Individual y en grupos reducidos.

Tiempo aproximado

Variable entre 60 y 90 minutos.

20 minutos.

20 minutos.

Autores

• Test de aptitud general o aptitudes específicas. Estos test pretenden predecir el éxito académico o profesional, siendo empleados en su mayoría en selección de personal y orientación vocacional. Ejemplos de estos test son el PMA o Test de Aptitudes Mentales Primarias de Thurstone y el DAT o Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman. Los test de aptitudes permiten medir características específicas de la inteligencia, ya sea tomando la forma de a) test o baterías de aptitudes generales (por ejemplo, el PMA), que suelen basarse en teorías de la inteligencia fundamentadas en el análisis factorial, o b) test de aptitudes específicas, que exploran aptitudes mecánicas, burocráticas, artísticas, creativas, etc. • Test de rendimiento académico o escolar. Estos test permiten conocer los logros académicos del alumno, y controlar los efectos de determinados tratamientos o programas escolares. Entre estos test tenemos los Test de Aprendizaje Escolar para tres niveles académicos (TEA-A, TEA-2 y TEA-3), el BADIG, BETA y el test EVALÚA (véase tabla 2). Los test de rendimiento máximo pueden clasificarse en test de nivel, velocidad o mixtos. Los primeros buscan establecer el nivel máximo de dificultad al que puede llegar la persona. Los test de velocidad, permiten una evaluación de la rapidez para ejecutar tareas determinadas; mientras que los mixtos, que son los más utilizados, buscan

Tomás Caycho Rodríguez Sergio Domínguez Lara medir los dos aspectos anteriores, estableciendo un máximo de tiempo para la solución de los ítems o preguntas. El diseño de una prueba de rendimiento puede responder a tres propósitos principales: Primero, para diagnosticar las fortalezas y debilidades referidas a ciertas capacidades. Segundo, para evaluar, en tanto la calificación obtenida evidencia el grado de aprendizaje y asimilación de los conocimientos a lo largo de una asignatura. Tercero, como prerrequisito para saber si un determinado sujeto se encuentra apto para ascender a un nivel de mayor complejidad en el conocimiento. Tabla 3 Evaluación de la competencia escolar mediante test (Adaptado de Muñoz y García, 2006 pp. 92-93) Test

Test BADYG (Batería de aptitudes diferenciales y generales)

Test Beta

EVALÚA

Autor(es) BADYG-1

Yuste (1999)

BADYG-2

Yuste (1999)

BADYG-3

Yuste (1999)

Martín Ortega (1996)

García González (1996)

Alumnos 1er y 2do grado de primaria 3er y 4to grado de primaria 5to y 6to grado de primaria

y

y

Para cada grado desde 1ro hasta 6to de primaria

Evaluación final de cada uno de los grados de primaria.

Observaciones Miden, además de los conocimientos académicos, un factor “g” de inteligencia, distinguiendo la madurez intelectual verbal y no verbal. Factor verbaleducativo (verbal, numérico, abstracto y memoria). Factor técnicomecánico (espacial, mecánico y atenciónpercepción). Aportan información del potencial de aprendizaje, competencia curricular y conducta adaptativa.

Tomás Caycho Rodríguez Sergio Domínguez Lara b. Test de Ejecución Típica. Aquí, el objetivo es conocer el comportamiento habitual de una persona, basado en el supuesto de la estabilidad de la conducta a través del tiempo y las situaciones. Así, se solicita al sujeto que emita respuestas de acuerdo con su comportamiento habitual. Podemos distinguir, los siguientes tipos: • Inventarios autodescriptivos. Dentro de este tipo podemos encontrar: a) cuestionarios que intentan detectar sujetos para la intervención; b) cuestionarios construidos de acuerdo a criterios exteriores, generalmente psiquiátricos, como es el caso del MMPI (Inventario Multifactorial de la Personalidad de Minnessota); c) cuestionarios referidos a los rasgos, fundamentados en el análisis factorial; d) cuestionarios de intereses, empleados con frecuencia en orientación vocacional, y e) cuestionarios de actitudes, que tratan de medir la tendencia a reaccionar ante determinados estímulos. • Test proyectivos. Este tipo de test pretende evaluar la personalidad buscando establecer un diagnóstico mediante un análisis cualitativo de las respuestas. Son elementos comunes de estos test, las escenas, dibujos, manchas de tinta, colores, palabras, etc. Siguiendo a Fernández Ballesteros (1980), dentro de éstos test podemos encontrar: Test estructurales. Aquí, la persona debe interpretar estímulos visuales poco estructurados (ejemplo, el Test de Psicodiagnóstico de Rorschach, Test “Z” de Zulliger). Test temáticos. La persona debe inventar una historia (ejemplo, el TAT o Test de Apercepción Temática para adultos, CAT o Test de Apercepción Temática para niños). Test expresivos. La persona realiza generalmente un dibujo (ejemplo, el Test de la Figura Humana de K. Machover, Test del Árbol de Kohs). Test constructivos. La persona debe construir algo (ejemplo, el Test del Pueblo). Test asociativos. El objetivo es asociar palabras. Cortada de Kohan (2000), presenta una clasificación basada en las funciones psicológicas que se miden. Este tipo de clasificación nos permitirá estudiar los test en un orden, que es similar al orden de su aparición histórica. a. Test de inteligencia general.

Tomás Caycho Rodríguez Sergio Domínguez Lara b. c. d. e. f. g.

Test de aptitudes específicas. Test de rendimiento escolar. Inventarios de intereses. Test de personalidad. Técnicas proyectivas. Escalas de actitudes sociales.

Desde un plano netamente psicométrico podemos encontrar diversas clasificaciones, dentro de las cuales Aliaga (2007, p. 89) nos presenta la siguiente: Tabla 4. Clasificación de los Test Psicométricos (Adaptado de Aliaga, 2007, p. 89) CRITERIO 1. Por su forma de dar instrucciones.

CLASIFICACIÓN • Orales. • Escritos (aunque en algunos casos hay que ejemplificar lo que se quiere que el sujeto realice en la tarea, como en el caso de personas con problemas auditivos.

2. Por su administración

• Individual. • Colectiva. • Autoadministrada.

3. Por la forma o tipo de respuesta que exigen

• Objetivas. • Subjetivas.

4. Por el material de la prueba

• Lápiz y papel • Verbal completamente • De ejecución (material, manual, visomotor) • De aparatos especiales • Combinación de los tres primeros (Ej.: WAIS)

5. Por su forma de calificación

• Manual • Electrónica

6. Por sus edades límites de aplicación

• Pruebas • Pruebas • Pruebas • Pruebas • Pruebas

7. Por su libertad de ejecución

• Pruebas de poder (power test) • Pruebas de rapidez (speedy test)

para para para para para

infantes (baby test) preescolares escolares adolescentes adultos

Tomás Caycho Rodríguez Sergio Domínguez Lara 1.4

Aplicación de las pruebas en la medición de la inteligencia y la personalidad

a. Empleo de los test en la medición de la inteligencia. La primera prueba de inteligencia publicada y que proporcionaba, de forma organizada, instrucciones de aplicación y calificación fue la escala Binet-Simon, elaborada en Francia por Alfred Binet y Théodore Simon en 1905. Luego de numerosas adaptaciones y traducciones, fue el trabajo de Lewis Madison Terman, de la Universidad de Stanford, el que culminó con la versión más empleada e investigada alrededor del mundo: Escala de Inteligencia Stanford-Binet. Pasaremos revista brevemente la escala en su versión actual. El objetivo de la escala Stanford-Binet es obtener una medida de la capacidad intelectual general, que incluye el razonamiento general y el juicio social. Se puede emplear desde los 2 hasta los 23 años aproximadamente, que contiene 15 subpruebas organizadas de tal manera que expresan cuatro áreas de capacidad cognoscitiva: Razonamiento verbal, razonamiento cuantitativo, razonamiento visual y abstracto, y memoria a corto plazo (ver tabla 4). El modelo teórico que da fundamento a la escala es la teoría de los factores de Spearman (1932). Desde Charles Spearman publicara su libro The Abilities of man (Spearman, 1932), se abrió un nuevo camino para la evaluación objetiva de la inteligencia. A partir del estudio de las correlaciones entre una serie de test, Spearman dedujo que estas intercorrelaciones podía atribuirse a un solo factor común, al que denominó factor general o g. De acuerdo a su teoría de los dos factores, las puntuaciones derivadas de un test pueden ser explicadas por dos factores: un factor general y un factor específico. Así, pueden existir muchos factores específicos pero un solo factor general. Cuando los test se encuentran muy correlacionados entre sí, se encuentran muy saturados con el factor g, mientras que cuando las correlaciones son bajas, esto se explicaría en gran parte por los factores específicos (Cortada de Kohan, 2000). La capacidad mental, evaluada mediante esta escala, puede abarcar: 1) capacidades de procesamiento de información, 2) habilidades de planeación y organización, 3) habilidades de razonamiento y adaptación, 4) habilidades escolares o académicas, 5) capacidades espaciales y de solución de problemas, y 6) memoria a corto plazo. La escala ha demostrado ser importante en

Tomás Caycho Rodríguez Sergio Domínguez Lara la predicción del éxito académico a través de la estimación del razonamiento y el juicio social. Tabla 5. Descripción de las subpruebas de la Escala de Inteligencia StanfordBinet (Adaptado de Cohen & Swerdilk, 2000, p. 306) SUBPRUEBA Razonamiento Verbal Vocabulario

DESCRIPCIÓN

Consiste en 14 reactivos de vocabulario pictóricos (en los que la tarea del sujeto es identificar el objeto representado) y 32 reactivos que son palabras que el sujeto define, palabras que pueden presentarse en forma visual al igual que oral.

Comprensión

Los reactivos varían en dificultad desde identificar partes del cuerpo hasta hacer preguntas respecto a juicio social, razonamiento y evaluación (ejemplo, ¿Por qué deben estar calladas las personas en un hospital?). Una vez más, los reactivos pueden ser leídos al examinado y presentárseles en forma visual.

Absurdos

La tarea del examinado en estos reactivos es identificar lo que está mal o es ridículo respecto a una ilustración. Este tipo de reactivo explora las habilidades de análisis visual del sujeto.

Relaciones Verbales

Cada uno de estos reactivos presenta al examinado cuatro palabras, y la tarea de éste es declarar lo que es parecido respecto a las primeras tres cosas pero diferente respecto a la cuarta. Un ejemplo: periódico, revista, libro, pero no televisión. Una respuesta aquí indicaría que los periódicos, revistas y libros se leen pero la televisión no.

Razonamiento abstracto-visual Análisis de patrones

Exactamente cuáles reactivos se aplicarán en esta subprueba variarán con el nivel de entrada del examinado; las tareas cronometradas varían desde colocar formas cortadas en un tablero hasta reproducir diseños complejos con bloques.

Copiar

La tarea del examinado aquí es copiar un diseño. En el primer nivel, el diseño está hecho con bloques. En forma subsecuente, los diseños son copiados en forma directa en una hoja de registro.

Matrices

Aquí la tarea del examinado es solucionar matrices de dificultad creciente por medio de símbolos geométricos, letras y objetos comunes como estímulos. Los reactivos en esta prueba no verbal se presentan en un formato de opción múltiple y son considerados útiles en especial para medir la capacidad general de personas que no hablan inglés.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 5 (continuación). Descripción de las subpruebas de la Escala de Inteligencia StanfordBinet (Adaptado de Cohen & Swerdilk, 2000, p. 307) SUBPRUEBA Doblado y cortado de papel

DESCRIPCIÓN Estos reactivos de opción múltiple presentan al examinado la tarea de identificar cómo se vería un pedazo de papel doblado y cortado cuando se desdobla.

Razonamiento cuantitativo Subprueba cuantitativa

Los reactivos en esta subprueba varían de un simple conteo al conocimiento de varios conceptos y operaciones aritméticas.

Series numéricas

La tarea del examinado es completar una oración numérica con el siguiente número lógico en la secuencia.

Construcción de ecuaciones

La tarea del examinado aquí es reacomodar una ecuación aritmética revuelta de modo que tenga sentido. Como un ejemplo, reordene los números y/o signos en la siguiente ecuación para hacer una oración de números reales: 5+12=7. Una reordenación aceptable seria: 5+7=12.

Memoria a corto plazo Memoria de cuentas

Los examinados estudian una ilustración de una secuencia de cuentas por cinco segundos y luego deben replicar la secuencia usando cuentas reales. Las cuentas vienen en tres colores diferentes y cuatros formas distintas.

Memoria de oraciones

El examinador presenta en forma oral una oración y la tarea del examinado es repetirla. La longitud de la oración puede variar de 2 a 22 palabras dependiendo del nivel del examinado.

Memoria de dígitos

El examinador presenta en forma oral secuencias de dígitos, hacia delante y hacia tras, y es la tarea del examinado repetir los dígitos presentados en el mismo orden.

Memoria de objetos

Se presentan objetos familiares en intervalos de un segundo y la tarea del examinado es recordar la presentación en el orden correcto.

En la actualidad una de las pruebas mejor y más empleadas para la medición de la inteligencia, son las tres escalas de Weschler, aplicadas de manera individual con el objetivo de evaluar la capacidad intelectual de personas desde el preescolar hasta la adultez. La escala Wechsler de inteligencia preescolar y de primaria revisada (WPPSI-R) es empleada para

Tomás Caycho Rodríguez Sergio Domínguez Lara edades comprendidas entre los tres y siete años con tres meses. La escala Wechsler de inteligencia para niños-Cuarta Edición (WISC-IV) evalúa la capacidad intelectual entre los 6 y 16 años. Finalmente, la Escala Wechsler de inteligencia para adultos-Tercera Edición (WAIS-III) evalúa la capacidad intelectual entre los 16 y 89 años. Las pruebas de las tres escalas están estructuradas de manera similar, y organizadas en una escala verbal y otra ejecutiva (Tabla 5). Para cada una de estas pruebas se cuenta con instrucciones claras para su aplicación. Empleando, los cuadros de los manuales de las tres escalas, las puntuaciones directas en cada subprueba pueden convertirse en puntajes de escala, teniendo todas ellas una media de 10 y una desviación estándar de 3. Con las puntuaciones de escala se puede derivar un CI, tanto verbal, ejecutivo, como de la escala total. En cualquiera de las pruebas, un CI total entre 85 y 115 se considerará promedio, ya que este índice presenta una media de 100 y una desviación estándar d 15 (Cohen & Swerdilk, 2000). Otro de los test más conocidos para la medición de la inteligencia es el de Matrices Progresivas de Raven, publicado por primera vez en 1938. En su primera forma se trata de una serie de figuras en las cuales se establece algún tipo de relación que el examinado debe percibir para señalar en los pequeños trozos alternativos mostrados cuál es el correcto para completar la figura (Cortada de Kohan, 2000). El test puede ser de aplicación individual o grupal. La figura 2 muestra un ejemplo de ítems del mencionado test.

Fig. 2. Ejemplo de ítems del Test de Matrices Progresivas de Raven

Para saber más… http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=147118212004 En este link se podrá visualizar un trabajo de investigación que tiene como objetivo realizar un análisis de las propiedades psicométricas del test de Matrices Progresivas Avanzadas de Raven en una muestra de 2081 estudiantes universitarios de Lima. El promedio de edad de los evaluados fue de 21,3 años, en donde el 50,9% es de sexo femenino y el 49,1% de sexo masculino. Los resultados indican que los ítems del test no evidencian una adecuada calibración de acuerdo con el Modelo de Tres Parámetros. El análisis comparativo indica diferencias estadísticas significativas por sexo pero no de acuerdo al tipo de universidad.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 6 Descripción de las subpruebas de las escalas Wechsler (Adaptado de Cohen & Swerdilk, 2000, p. 314) SUBPRUEBA Información

DESCRIPCIÓN Las preguntas exploran conocimiento general y en parte evalúan aprendizaje y memoria. Los intereses, educación, antecedentes culturales y habilidades de lectura son algunos factores que influyen en la puntuación de la subprueba información.

Comprensión

Estas preguntas exploran la comprensión social, la capacidad para organizar y aplicar el conocimiento y lo que se denomina en forma coloquial como sentido común.

Semejanzas

Se presentan pares de palabras al examinado y la tarea consiste en determinar en qué se parecen. La capacidad para analizar relaciones y llevar a cabo un pensamiento abstracto lógico son dos de las funciones intelectuales exploradas.

Aritmética

Se presentan problemas aritméticos, presentados y resueltos por completo en forma verbal para quienes responden la prueba que son mayores (en los niveles inferiores esta prueba puede implicar un simple conteo). El aprendizaje de la aritmética, la concentración y memoria auditiva a corto plazo son algunas de las funciones intelectuales exploradas en esta subprueba.

Vocabulario

Se pide que definan palabras. Esta subprueba es vista como la mejor medida de inteligencia general, aunque la educación y la oportunidad cultural influyen también en gran medida en las puntuaciones de las pruebas de vocabulario.

Retención de dígitos/oraciones

Retención de dígitos (subprueba del WISC-III) implica repetir de forma verbal una secuencia de números. El equivalente de esta subprueba en el WPPSI-R es oraciones, en donde el examinado repetirá una oración en forma literal. Ambas subpruebas miden atención, concentración y memoria auditiva a corto plazo, aunque oraciones parece depender más de habilidades verbales.

Secuencia de letras y números

La tarea es repetir una lista de números en orden ascendente y las letras en orden alfabético. Esta prueba explora la memoria de trabajo.

Figuras incompletas

La tarea del examinado consiste en identificar qué parte importante de un dibujo falta. Esta prueba se basa en capacidades de percepción visual, alerta, memoria, concentración, atención a los detalles y capacidad para diferenciar los detalles esenciales de los que no lo son. Debido a que quienes responden pueden señalar la parte faltante, esta prueba proporciona una buena estimación no verbal de la inteligencia. Sin embargo, el desempeño exitoso en una prueba como ésta tiende a estar muy influido por factores culturales.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 6 (continuación) Descripción de las subpruebas de las escalas Wechsler (Adaptado de Cohen & Swerdilk, 2000, p. 315) SUBPRUEBA Ordenación de dibujos

DESCRIPCIÓN Esta prueba requiere que quien responda la prueba reordene un conjunto revuelto de tarjetas con dibujos en ellas para formar una historia que tenga sentido. Se considera que esta subprueba explora la capacidad para comprender o evaluar una situación entera. Además se explora la atención, concentración y capacidad para ver relaciones temporales y de causa y efecto.

Diseño de cubos

Esta prueba se basa en habilidades perceptivas motoras, velocidad psicomotora y la capacidad para analizar y sintetizar. Los factores que pueden influir en el desempeño en esta prueba incluyen la visión de color del examinado, su tolerancia a la frustración y la flexibilidad rigidez en la solución de problemas.

Composición de objetos

La tarea es armar, lo más rápido posible, un dibujo cortado de un objeto familiar. Algunas de las capacidades necesarias aquí incluyen reconocimiento de patrones, habilidades de armado y velocidad psicomotora.

Claves

En la subprueba de claves en el WISC-IV y en la subprueba de clavijas de animales en el WPPSI-R, la tarea es seguir una clave. Los códigos en el WISC-IV son copiados de una clave impresa, mientras que en el WPPSI-R, la tarea es colocar clavijas de diferentes colores en un espacio apropiado basado en un código de colores. Esta subprueba explora la capacidad de aprendizaje, la capacidad de recuerdo rutinario, la velocidad psicomotora, la concentración y atención.

Laberintos

Es una prueba complementaria (no necesaria para el cálculo del CI) en el WISC-IV. En el WPPSI-R esta subprueba está compuesta de laberintos por escrito. Las habilidades perceptivos motoras, la velocidad psicomotora y las capacidades de planeación visual son exploradas por esta subprueba.

Diseño geométrico

Esta prueba consiste de diseños geométricos que se requiere que el niño copie con un lápiz. En general, esta subprueba proporciona un índice de las habilidades perceptivas motoras.

Búsqueda de símbolos

La tarea es explorar en forma visual dos grupos de símbolos, un grupo de búsqueda y un grupo objetivo, y determinar si el símbolo que es el blanco aparece en el grupo de búsqueda. Se supone que la prueba explora la velocidad de procesamiento cognoscitivo.

Matrices

Una tarea no verbal tipo analogías diseñada para explorar las capacidades de organización de la percepción y el razonamiento.

Tomás Caycho Rodríguez Sergio Domínguez Lara b. Empleo de los test en la medición de la personalidad. Entender el concepto de personalidad con cierto grado de generalidad es una empresa difícil. En, hasta ahora, la más completa revisión de las teorías de la personalidad se concluye que “el modo en que un individuo dado definirá la personalidad, dependerá completamente de sus preferencias teóricas particulares” (Hall & Lindzey, 1967, pág. 9). Así, el término personalidad puede hace referencia a la “organización dinámica única de las características psicológicas estables que posee una persona y que se manifiestan en su interacción con el ambiente” (Cortada de Kohan, 2000, pág. 181). Esta definición toma en cuenta una serie de características, las cuales es pertinente abordar: 1) Al decir que la personalidad es una característica que posee una persona, se infiere que no existen dos personas idénticas, más bien, cada uno de nosotros poseemos un conjunto de características personales. 2) Con el término estable, hacemos referencia a que las características personales mantienen cierta consistencia en el tiempo y por la cual se reconoce a la persona. 3) La organización dinámica implica la existencia de una relación específica entre cada una de las características de una persona. 4) La personalidad es un constructo psicológico, el cual inferimos a través de ciertos comportamientos observables. Estas características de la personalidad son muy importantes para entender la complejidad de la evaluación objetiva de la personalidad. Los inventarios de personalidad son test psicológicos que suponen que el sujeto se halla en una excelente condición para autoreportar su propia conducta o rasgo de personalidad (Aliaga & Ponce, 2009). Así, podemos definir un inventario de personalidad como una prueba estructurada y objetiva de la personalidad que evalúa una serie de fenómenos o conductas de diversa especificidad, ante las cuales el examinado deberá responder si las encuentra o no en sí mismo (Kaplan & Sacuzzo, 2006; Morris & Maisto, 2005). En la actualidad existen más de 1000 cuestionarios o inventarios de personalidad que permiten evaluar diversos rasgos de acuerdo a diferentes ambientes de desarrollo (como la escuela, la familia, la comunidad) y diferentes clasificaciones psiquiátricas

Tomás Caycho Rodríguez Sergio Domínguez Lara (introversión, extraversión, (Cortada de Kohan, 2000).

desorden

psicosomático,

etc.)

Entre los test más empleados en la actualidad mencionaremos dos ejemplos. El primero es el Inventario de Personalidad de Eysenck-Forma B, destinado a la evaluación objetiva de las dimensiones de personalidad: introversión-extraversión y estabilidad-neuroticismo. El inventario está conformado por 57 reactivos, en donde 24 están referidos a la dimensión introversión-extraversión, 24 a la dimensión estabilidadneuroticismo. Nueve de los ítems evalúan la veracidad o no de las respuestas del examinado. No hay un tiempo de aplicación determinado, pero en promedio el proceso de administración dura 15 minutos, siendo su aplicación tanto individual como colectiva. Otro instrumento de evaluación importante es el Inventario Clínico Multiaxial de Millon-II, destinado a evaluar, mediante 175 elementos, patrones clínicos de personalidad patología grave de personalidad, síndromes clínicos de gravedad moderada y síndromes clínicos de gravedad severa; así mismo 4 escalas brindan índices de validez. El inventario puede ser aplicado, de forma individual o colectiva, a personas a partir de los 18 años con un adecuado nivel de comprensión lectora, durando su aplicación aproximadamente unos 25 minutos. No es nuestro propósito en esta lección extendernos en la descripción de los diversos inventarios y escalas de evaluación de la inteligencia y la personalidad, ni en todo lo que es necesario para un adecuado procedimiento que nos lleve a una medición psicológica lo más exitosa posible. De las cuestiones generales dentro de este proceso nos ocuparemos en la lección 4.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 7 Interpretación de las escalas del Inventario Clínico Multiaxial de Millon-II que evalúan patrones clínicos de personalidad (Elaboración propia) ESCALA Escala 1: Esquizoide

DESCRIPCIÓN Personas introvertidas, solitarias, emocionalmente frías y con poca capacidad para establecer vínculos significativos con otras personas.

Escala 2: Fóbica

Evidencian un fuerte deseo de afecto y aceptación, pero muy sensibles al rechazo por lo que sienten temor para establecer relaciones a no ser que estén completamente seguros de ser aceptados incondicionalmente.

Escala 3: Dependiente

Carecen de confianza en sí mismos e iniciativa. Se Caracterizan por ceder las responsabilidad de su vida a personas externas.

Escala 4: Histriónica

Se caracterizan por ser llamativamente egocéntricas. Buscan el aprecio y estima de los demás mediante conductas que llamen la atención. Son manipuladores, incluyendo amenazas suicidas o manejo de las susceptibilidades emocionales de otras personas.

Escala 5: Narcisista

Presentan un exagerado sentimiento de darse importancia, estando absorbidos por fantasías de éxito personal sin límites. Buscan de manera constante y de manera exhibicionista atención constante.

Escala 6A: Antisocial

Se caracterizan por su impulsividad, irresponsabilidad, conductas antimorales e incapaces de algo más que la gratificación inmediata. Estas características posibilitan que exterioricen conflictos y violen las reglas que rigen el orden social.

Escala 6B: Agresivosádica

Considerado una variación del comportamiento pasivoagresivo. Tanto la hipocondría como el volverse contra sí mismo, son mecanismos de defensa habituales a los comportamientos agresivos –sádicos contra uno mismo.

Escala 7: Compulsiva

Se caracterizan por ser concienzudos y tener altos niveles de aspiración, mas tienden a ser perfeccionistas.

Escala 8A: Pasivoagresivo

Se caracterizan por su dependencia persistente y desesperanza, ineficacia y malhumor. Pueden llegar a ser provocativos ante la autoridad.

Escala 8B: Autodestructiva

Varían su humor entre estados de optimismo y estados pesimistas acompañados con ideas de daño, que pueden tener una duración de semanas o más. Estos cambios de humor son predecibles y sin ninguna causa aparente o como respuesta a eventos o situaciones insignificantes.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN IV PASOS Y PROCEDIMIENTOS PARA LA MEDICIÓN PSICOLÓGICA

"El desarrollo de nuestra ciencia seguirá seguramente el modelo de toda ciencia, haciéndose cada vez más matemática a medida que las ideas se formulen de manera más rigurosa" (Thurstone, 1937)

Como ya se ha mencionado, el proceso de medición en psicología implica la atribución de números a fenómenos psicológicos, suponiendo que la magnitud de dicha cantidad se corresponde con la presencia del constructo en la persona. Con ello se hace referencia al isomorfismo, concepto ya trabajado en la primera lección de esta unidad. En ese sentido, el evaluar un constructo en psicología conlleva inevitablemente a la construcción de instrumentos que hagan “visible” dicha variable. Es decir, una vez definido operacionalmente el constructo, se usan mecanismos para sistematizar dicha operacionalización por medio de instrumentos que cumplan con características definidas para poder hacer mensurables los fenómenos que se intentan medir. Las características esperables, confiabilidad y validez, serán discutidas a profundidad en lecciones posteriores, mas en este capítulo se trabajará sobre aquellos procesos que guían la construcción de los llamados tests psicológicos. Proceso de construcción de instrumentos de evaluación: el modelo psicométrico De acuerdo con Abad, Garrido, Olea & Ponsoda (2006), la construcción de tests psicológicos implican una serie de etapas: definición del constructo, construcción del test provisional, aplicación a una muestra, análisis de ítems, estudio de la confiabilidad del test, estudio de la validez del test y la baremación. Las cuatro primeras estrategias están orientadas, fundamentalmente, a seleccionar aquellos reactivos que conformarán el instrumento. En esta fase inicial se deben considerar todas aquellas limitaciones a las que se enfrenta el investigador que desea construir el instrumento, dentro de las cuales la

Tomás Caycho Rodríguez Sergio Domínguez Lara que cobra mayor relevancia es la referida a la definición conceptual y operacional del constructo, teniendo en consideración el poco consenso que existe entre los psicólogos respecto a las variables de naturaleza psicológica. Tanto el estudio de la confiabilidad como de validez están guiados por estrategias afines al constructo, tanto en lo que respecta a la estabilidad y/o consistencia de las puntuaciones en determinada prueba (confiabilidad) como a el grado en que la evidencia encontrada en los instrumentos apoya las conclusiones que de ellos hagamos (validez). Estas etapas, que serán detalladas en cada una de las lecciones siguientes, están bajo el sustento de un modelo. El modelo psicométrico se basa en dos postulados fundamentales (Aliaga, 2005): a) Todos los reactivos o ítems o elementos del test miden exactamente el mismo rasgo o dimensión. b) La medida de la posición que tiene cada individuo en el rasgo o dimensión puede hacerse sin ningún error. El primero de los postulados está referido a la Unidimensionalidad que deben poseer los instrumentos, mediante el cual cada uno de los reactivos apunta a medir un rasgo unitario. El segundo postulado alude al concepto de Confiabilidad, que será profundizado en capítulos posteriores. Entonces, se puede observar que el proceso de construcción de instrumentos de evaluación psicológica es un proceso estructurado que se rige bajo pautas que garantizarán, si se llevan a cabo de manera adecuada, una medición adecuada del constructo que se pretende medir.

Para saber más… http://aprendeenlinea.udea.edu.co/lms/investigacion/file.php/39/ARCHIVOS_ 2010/PDF/IntPsicometria_aristidesvara_1_.pdf Este libro electrónico permite una aproximación inicial y didáctica al proceso de construcción de test psicológicos. Además de contar con una variedad de ejemplos prácticos que ayudarán a comprender a cabalidad el proceso psicométrico.

Tomás Caycho Rodríguez Sergio Domínguez Lara

UNIDAD II TEORÍAS Y MODELOS EN LA MEDICIÓN PSICOLÓGICA

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN I HISTORIA Y DESARROLLO DE LOS TEST Y TEORÍA CLÁSICA DE LOS TEST

1. Historia y desarrollo de los test Si bien desde la antigüedad, como lo señalan escritos grecolatinos, se habían propuesto bases fisiológicas para el estudio de la personalidad y el temperamento, no es sino hasta la época del Renacimiento que se dio inicio a la medición de las ciencias conductuales como la reconocemos actualmente (Cohen & Swerlik, 2001). En 1859, con el libro Del origen de las especies por medio de la selección natural de Charles Darwin, cobró renovado interés el estudio de las diferencias individuales. Uno de los científicos de la época interesados fue justamente el primo de Darwin, Francis Galton (Fig. 1), quien con sus esfuerzos por explorar y cuantificar las diferencias individuales contribuyó de manera importante al campo de la medición, desarrollando numerosas herramientas de evaluación psicológica como cuestionarios, escalas de estimación e inventarios personales. Con sus trabajos, Galton, sentó importantes bases para el uso de un concepto estadístico de sumo valor en el trabajo de experimentación: el coeficiente de correlación., que fue desarrollado con más profundidad por Karl Pearson (1857-1936) (Fig. 1).

Fig. 1. Francis Galton (izquierda) y Karl Pearson (derecha) En el laboratorio de Wilhelm Wundt (1832-1920) en la Universidad de Leipzig en Alemania, el interés no se ceñía a conocer las diferencias entre los individuos, más bien el interés estaba referido al cómo los

Tomás Caycho Rodríguez Sergio Domínguez Lara individuos eran semejantes. Con este objetivo, se realizaron numerosas condiciones estandarizadas para asegurar que las diferencias en las puntuaciones son el resultado de diferencias verdaderas entre los individuos (Cohen & Swerlik, 2001). Un discípulo de Wundt, James McKeen Cattell, contrario a la orientación investigativa del laboratorio alemán, realizó un trabajo referido a las diferencias individuales, específicamente, las diferencias individuales en el tiempo de reacción. Luego de un contacto con Francis Galton, Cattell, trabajando ya en la Universidad de Pennsylvania en 1888, fue el primero en utilizar el término prueba mental. Numerosos discípulos de Wundt, como Charles Spearman, Víctor Henrí y Emil Kraepelin, por citar algunos, han dado importantes contribuciones al campo de la medición en psicología (ver tabla 8). Tabla 8. Discípulos de Wundt con importantes medición psicológica (Elaboración propia)

contribuciones

a

la

AUTOR

CONTRIBUCIÓN

Charles Spearman

Se le atribuye la creación del concepto de la confiabilidad de una prueba.

Víctor Henrí

Junto a Alfred Binet, sugeriría la manera en que las pruebas mentales podrían medir procesos mentales superiores.

Emil Kraepelin

Considerado uno de los primeros en experimentar con la técnica de la asociación de palabras como prueba de evaluación formal.

Entrado el siglo XX, gran parte de las pruebas de naturaleza psicológica estaban relacionadas con la medición de capacidades sensoriales, tiempo de reacción y temas similares (Cohen & Swerlik, 2001). En Francia, Alfred Binet (1857-1911) (Fig. 2) amplió el espectro de pruebas la incluir la medición de las capacidades intelectuales, dando a conocer, junto con Théodore Simon, una escala de medición de la inteligencia con el objetivo de identificar niños con deficiencia mental en París (ver lección III de la primera unidad). En la misma línea de Binet, en Estados Unidos, David Wechsler, (Fig. 2) psicólogo del hospital Bellevue, New York, diseñó una prueba para medir la inteligencia de los adultos. La prueba, que originalmente se llamó Escala de Inteligencia WechslerBellevue fue, luego de ser revisada, denominada Escala Wechsler de Inteligencia para Adultos.

Tomás Caycho Rodríguez Sergio Domínguez Lara

Fig. 2. Alfred Binet (izquierda) y David Wechsler (derecha)

El estudio de la personalidad también influyó de manera sustantiva en el desarrollo de las pruebas psicológicas. Un precursor de este tipo de pruebas fue Kraepelin, quien en Alemania empleó los test de asociación libre en pacientes normales. Los trabajos de Catell en la creación de cuestionarios tipificados y escalas de estimación merecen también mencionarse. Otro Hito importante en este campo es la elaboración del Inventario Psiconeurótico de Woodworth (Woodworth Psychoneurotic Inventory), diseñado por el psicólogo Robert Woodworth, a quien el Comité sobre salud emocional del gobierno, le asignó la tarea de elaborar una medida de adaptación y estabilidad emocional que pudiera administrarse con rapidez y eficiencia a grupos de reclutas (Cohen & Swerlik, 2001).Cabe mencionar que en el contexto de la segunda guerra mundial, muchos psicólogos fueron reclutados con el objetivo de elaborar pruebas psicológicas, administrarlas e interpretar sus datos. El Inventario Psiconeurótico de Woodworth fue la primera prueba de personalidad de corte individual empleada de forma extensa y cuyo método replicado en las pruebas de personalidad sucesivas. Este test tenía como objetivo la identificación de pacientes neuróticos graves que no eran óptimos para el servicio militar. Este inventario ha servido como modelo para la elaboración de diversos inventarios de adaptación emocional. Las pruebas proyectivas son también de suma importancia en la evaluación de la personalidad. Una de las pruebas proyectivas, más conocidas y empleadas es la Prueba de Manchas de Tinta de Rorschach, diseñada por el psiquiatra suizo Hermann Rorschach (Fig. 3). El empleo de dibujos como estímulos proyectivos fue popularizado, a finales del 1930, por Henry Murray y Christiana Morgan de la Clínica Psicológica de Harvard (Cohen & Swerlik, 2001).

Tomás Caycho Rodríguez Sergio Domínguez Lara

Fig.3. Hermann Rorschach (izquierda) y ejemplo de manchas de tintas (derecha) Desde 1947, el Educational Testing Service (Estados Unidos), se ha encargado de la elaboración de una variedad de test por encargo de universidades, organismos gubernamentales y diversas instituciones. En la actualidad, existen numerosas pruebas psicológicas, aplicables en diferentes áreas de la psicología, a personas de diferentes intervalos de edad, de diferente condición social, económica y cultural; y aplicadas no sólo por psicólogos profesionales sino también por educadores, trabajadores sociales, médicos, enfermeras y otros. No es nuestra intención hacer una descripción extensa de la historia de los test psicológicos, ni de la evolución de las teorías en las que se sustentan (para una mejor revisión ver tabla 9). En las lecciones posteriores se ahondará en la teoría clásica de los test y la teoría de respuesta al ítem. Además remitimos también al lector interesado a las siguientes fuentes bibliográficas.

Para saber más… Meliá, J. (1990) La Construcción de la Psicometría como Ciencia Teórica y Aplicada. Valencia: Cristobal Serrano. www.uv.es/psicometria Universitat de Valencia. [ISBN: 84-404-7866-6; DL: V-2533-1990. Extraída de http://www.uv.es/~meliajl/Research/LibroCP/CPindex.htm El libro electrónico revisa conceptos fundamentales de psicometría, su estructura, niveles y relaciones con otras ciencias. Además brinda una aproximación histórica a la Psicometría.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 9. Principales hitos de la historia psicométrica hasta el año 2000 (Adaptado de Muñiz, 2003, pp. 26-27) Año 115 a.c.

Acontecimiento En China se utilizan test para acceder a puestos en el gobierno.

1599

Los jesuitas publican unas normas precisas sobre la forma de llevar a cabo exámenes escritos.

1883

Galton publica el libro Inquires into human faculty and its development.

1884

Galton abre el Laboratorio Antropométrico de Londres.

1891

J. McK. Cattell funda el Laboratorio de Psicología de la Universidad de Columbia en Estados Unidos.

1894

Kraepelin propone el uso de test en psicopatología.

1896

Ebbinghaus propone el test de completar frases.

1904 1905

Spearman publica su teoría de dos factores de la inteligencia y las fórmulas de atenuación. Binet y Simon publican la primera escala de inteligencia.

1907

Krueger y Spearman acuñan el término Coeficiente de Fiabilidad.

1908

Se introduce el concepto de Edad Mental en la segunda edición de la escala de Binet.

1910

Fórmula de Spearman-Brown que relaciona la fiabilidad y la longitud de los test.

1912

Stern propone el concepto de Coeficiente Intelectual.

1916

Terman publica la revisión de Stanford de la escala de Binet-Simon.

1918

Se crean los test Army Test.

1921

Se publica el test de Rorschach.

1931

Thurstone publicaa su libro The reliability and validity of test.

1935

Se funda la Sociedad Psicométrica. Buros publica su primera revisión de los test (Mental Measurements Year-Book).

1936

Guilford publica el libro Psychometric Methods.

1937

Kuder y Richardson publican en Psychometrika sus fórmulas KR20 y KR 21.

1938

Test Gestáltico de Bender Test de las Matrices Progresivas de Raven Aptitudes Mentales Primarias de Thurstone

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 9. Principales hitos de la historia psicométrica hasta el año 2000 (Adaptado de Muñiz, 2003, pp. 26-27) (continuación) Año 1939

Acontecimiento Wechsler propone su escala para la medida de la inteligencia.

1940

Aparece el cuestionario de Personality Inventory (MMPI).

1946

Stevens propone sus cuatro escalas de medida: Nominal, ordinal, intervalo y de razón.

1948

Se funda en Estados Unidos el Educational Testing Service (ETS).

1950

Gulliksen publica el libro Theory of Mental Test.

1951

Coeficiente Alfa de Cronbach. Primera edición del libro Educational Measurement por Lindquist.

1954

Primera edición de los estándares técnicos sobre los test (Technical Recommendations for Psychological test and Diagnostic Techniques).

1955

Validez de constructo de Cronbach y Meehl.

1956

Primera edición de Psicometría y Estadística de Mariano Yela. Se funda en España la compañía editora de test TEA. Mariano Yela publica el libro La Técnica de Análisis Factorial

1958

Torgenson publica el libro Theory and Methods of Scaling.

1959

Validez convergente discriminante de Capbell y Fiske.

1960

Rasch propone el modelo logístico de un parámetro.

1963

Concepto de test referidos al criterio, propuesto por Robert Glaser.

1966

Segunda edición de los estándares técnicos sobre los test.

1968

Lord y Novick publican el libro Statistical Theories of Mental Test Scores.

1971

Segunda edición de Educational Measurement por Thorndike.

1974

Tercera edición de los estándares técnicos sobre los test.

1979

Programa de ordenador BICAL para estimar los parámetros en el modelo de Rasch.

1980

Lord publica el libro Applications of Item Response Theory to practical testing problems.

1982

Programa de ordenador LOGIST para estimar los parámetros de los modelos de teoría de respuesta a los ítems.

personalidad

Minnesota

Multiphasic

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 9. Principales hitos de la historia psicométrica hasta el año 2000 (Adaptado de Muñiz, 2003, pp. 26-27) (continuación) Año 1984

Acontecimiento Programa de ordenador BILOG para estimar los parámetros de los modelos de teoría de respuesta a los ítems.

1985

Cuarta edición de los estándares técnicos sobre los test. Libro de Hambleton y Swaminathan: Item Response Theory.

1989

Tercera edición de Educational Measurement por Lim.

1997

Séptima edición del libro de Anastasi: Psychological Testing Manual de TRI editado por Van de Linden y Hambleton.

1999

Quinta dición de los estándares técnicos sobre los test.

2000

Directrices sobre el uso de los test de la Comisión Internacional de Test (ITC).

En el Perú, la historia de los test se ha caracterizado más que por la producción original, por la adaptación de las pruebas importadas del exterior, especialmente España y Estados Unidos. Alarcón (2000) señala que la psicometría, que tiene como tema la adaptación de test extranjeros, la verificación de sus índices de validez y confiabilidad y el desarrollo de normas y baremos, es la línea de investigación más antigua de la psicología. Delgado, Escurra y Torres (2006) identifican tres periodos en el desarrollo de la psicometría. En el primer periodo, caracterizado por esfuerzos individuales y esporádicos iniciales de estandarización de pruebas, sobresalen los trabajos del norteamericano Mac Knight, en Puno, quien en 1912 aplicando la prueba de Binet-Simon, los trabajos psicopedagógicos de Felipe Chueca, los estudios sobre capacidad intelectual infantil de Hermilio Valdizan y los esfuerzos de Nemesio Rodríguez y Federico Coz con el Test Colectivo de Terman, la Escala de Inteligencia General de Illinois y el Test de Habilidad Mental de Otis. El segundo periodo (1941-1970 aproximadamente) se caracteriza por una mayor sistematización de la investigación psicométrica. Un hito importante es la creación del Instituto Psicopedagógico Nacional, dirigido por el psicólogo alemán Walter Blumenfeld (Fig. 4). El instituto publicaba el Boletín del Instituto Psicopedagógico Nacional, en donde se difundían trabajos con pruebas de inteligencia, personalidad e intereses vocacionales, así como test de vocabulario, ortografía, aritmética y lectura.

Tomás Caycho Rodríguez Sergio Domínguez Lara

Fig. 4. Dr. Walter Blumenfeld

El mismo Blumenfeld, junto a Violeta Tapia, inician a principios de 1960 la Serie de Estudios Pedagógicos, muy leído en la época por los psicopedagogos que dirigían los Departamentos Psicopedagógicos de las Grandes Unidades Escolares y Colegios Nacionales. Importantes profesionales como Reynaldo Alarcón, Violeta Tapia y Raúl Gonzales (Fig. 5), han dado importantes contribuciones a la investigación psicométrica.

Fig. 4. Dr. Reynaldo Alarcón (izquierda) y Dra. Violeta Tapia (derecha) El tercer periodo, se inicia desde 1970 hasta la actualidad, caracterizándose por la profesionalización de la psicología. Gran parte del trabajo psicométrico se debe a las investigaciones como requisito para optar el título profesional. Otro hito importante ocurre a fines del 2009, cuando un grupo de psicólogos de la Universidad Nacional Mayor de San Marcos organiza la I Jornada de Investigación Psicométrica,

Tomás Caycho Rodríguez Sergio Domínguez Lara convirtiéndose en el primer evento a nivel nacional de corte estrictamente psicométrico. A la fecha la Jornada viene desarrollándose de manera ininterrumpida por tres años seguido. 2. Teoría Clásica de los Test (TCT) Fundada bajo los principios de Spearman, la teoría clásica de los test puede definirse como el conjunto de principios teóricos y métodos cuantitativos en los que se basa la construcción de test psicológicos (Alarcón, 1998). El objetivo central del modelo clásico es la estimación de los errores no directamente observables, cometidos al momento de emplear los test para la medición de variables psicológicas (Muñiz, 2003). El modelo dicta que la puntuación empírica (X), obtenida por un sujeto al contestar el test es igual a la sumatoria de la puntuación verdadera (V), definida como la calificación obtenida por una persona al contestar el test, y el error (E) cometido en la medición. En términos matemáticos, el modelo expresa que el puntaje empírico (X) es una función lineal (aditiva) de la puntuación verdadera (V) y el error de medida (E). X= V+E En medición psicológica no se puede obtener la puntuación verdadera de un sujeto en un test, sino la puntuación empírica. La puntuación verdadera se estimará de acuerdo a tres supuestos derivado del modelo lineal clásico (Muñiz, 2003). Supuesto 1: El puntaje verdadero es la esperanza matemática del puntaje empírico. En términos matemáticos, la puntuación verdadera (V) puede definirse como la media aritmética de los puntajes empíricos que se obtendrían de aplicar un mismo test infinitas veces, al mismo sujeto, bajo las mismas condiciones y asumiendo que no se contaminarán por efecto de las prácticas sucesivas ni por variaciones del individuo (Alarcón, 1998). Este primer supuesto, permite realizar estimaciones probabilísticas acerca del valor de las puntuaciones verdaderas (V) a partir de las puntuaciones empíricas (X). Es decir, la puntuación empírica es una muestra de conducta que, a partir de determinados requisitos de medida y de acuerdo a ciertos supuestos, permitirá realizar inferencias probabilísticas (Muñiz, 2003). Supuesto 2:

Tomás Caycho Rodríguez Sergio Domínguez Lara No existe correlación entre las puntuaciones verdaderas (V) y los errores de medida (E). Es decir, el tamaño de los errores no se encuentran asociados sistemáticamente al tamaño de las puntuaciones verdaderas (Muñiz, 2003). Supuesto 3: Los errores de medición (E) de un test no se encuentran correlacionados con sus errores de medición en otro test distinto. Es decir, siguiendo a Muñiz (2003, p. 29), en el supuesto de una adecuada aplicación de los test, “los errores serán aleatorios en cada ocasión, no existiendo razón a priori para que covaríen sistemáticamente unos con otros”. Tabla 10 Resumen del modelo y los supuestos de la Teoría Clásica de los Test (Muñiz, 2003, p.28) Modelo:

X= V+E

Supuestos:

1. V = E(X) 2. p (v, e) = 0 3. p (ej, ek) = 0

Podemos concluir esta lección recordando que la Teoría Clásica de los Test dio vida al movimiento de los test y a la medición psicológica (Alarcón, 1998). En la lección siguiente se tratará acerca del moderno enfoque de la Teoría de Respuesta al Item (TRI), que aparece buscando superar las limitaciones conceptuales y aplicadas de la Teoría Clásica de los Test. Ambos enfoques no son opuestos, más bien, son complementarios.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN II Teoría de Respuesta al Ítem: Conceptos básicos

1. Limitaciones de la Teoría Clásica de los Test Como ya se trató en la lección anterior, si bien la Teoría Clásica de los Test fue una respuesta inicial a los problemas de la medición psicológica, dejó en el camino algunas limitaciones que representan un escollo para quienes trabajan los aspectos referidos a la medición psicológica bajo el enfoque clásico (Muñiz, 1998). Una de dichas limitaciones se refiere a la variabilidad de mediciones respecto a un constructo. Es decir, el mismo constructo obedece a distintas mediciones. Esto ocurre cuando a un constructo corresponden diferentes definiciones conceptuales (p.e. Inteligencia), cada una de las cuales se corresponde a una definición operacional, la que se hace presente por medio del instrumento de medición. Por ejemplo, la inteligencia puede ser evaluada mediante el Test de Matrices Progresivas de Raven o la Escala de Inteligencia para Adultos de Wechsler. Las dos evalúan la inteligencia, pero evidentemente el Cociente Intelectual (CI) de una no significa lo mismo al CI del otro instrumento. Otra limitación está referida a la dependencia de los ítems a la muestra de aplicación, en la medida que la propiedad del instrumento depende de los “objetos” medidos. Esto se observa cuando los ítems están en función de la competencia de quienes los resuelven, ya que un ítem, en el caso de test de aptitudes, es presentado a un grupo muy capaz, este resultará sencillo. En cambio, ese mismo ítem al presentárselo a sujeto de menor nivel, resultaría complicado. Esto afectaría la confiabilidad del test en cuestión, ya que dicha característica psicométrica de la prueba estaría afectada por la variabilidad de la muestra. La solución parcial a dichas limitaciones, que no tenían un punto de avance en el enfoque clásico, se halla en la Teoría de Respuesta al Ítem, la cual utiliza a los ítems como unidades centrales de análisis. Ello constituye un excelente aporte en la medida que complementa al enfoque clásico. Es conveniente señalar que dicho marco no escapa a los problemas fundamentales de la medición psicológica, que al margen del enfoque que se use al momento de construir instrumentos, están presentes porque el

Tomás Caycho Rodríguez Sergio Domínguez Lara inconveniente se halla en el intento por cuantificar los fenómenos psicológicos. 2. Teoría de Respuesta al Ítem (TRI): Aspectos fundamentales Parte del supuesto de que las puntuaciones obtenidas en un ítem, y por ende en un test, por un sujeto dependen directamente del grado o nivel en que el sujeto posee la habilidad o rasgo medido. Dicha teoría cuenta con tres postulados: Postulado 1: El resultado de un examinado en un ítem puede ser explicado por un conjunto de factores llamados rasgos o aptitudes. Postulado 2: La relación entre la respuesta a un ítem y el rasgo latente se describe como una función monotónica creciente que es a CCI. Postulado 3: En la TRI los parámetros de aptitud y de los ítems son invariantes. 3. Teoría de Respuesta al Ítem: Conceptos Básicos Si bien es cierto los planteamientos de la teoría clásica de los test estable aspectos más lineales en cuanto a la estimación de las puntuaciones de los sujetos (recordar: puntuación empírica es igual a la puntuación verdadera más un error aleatorio), los de la TRI no son tan sencillos en la medida que trabaja en base a una función o relación matemática que conecta la competencia de los sujetos, con la probabilidad que respondan correctamente a los ítems (Muñiz, 1998). 4. Curva Característica del Ítem Es la función matemática que une los niveles de competencia de los sujetos con las probabilidades de que acierte un ítem. Cada ítem tiene una curva característica independiente de los demás. La mayoría tiene un parecido con el gráfico que se presenta a continuación, esto es, una forma de “S”.

Tomás Caycho Rodríguez Sergio Domínguez Lara

Fig. Ejemplo de curva característica del ítem

4.1 Partes de la Curva Característica del Ítem Le eje de las abscisas hace referencia a los valores de la variable medida (θ); el eje de las ordenadas representa la probabilidad de acertar el ítem (P (θ)). Entonces, la información que nos da la curva se refiere a “la probabilidad de que las personas con un valor de aptitud “θ” determinado superen el ítem”.

Fig. Parámetros de la CCI a: Índice de discriminación del ítem: Representa la magnitud del cambio en la probabilidad de acertar el ítem conforme varía el nivel de habilidad.

Tomás Caycho Rodríguez Sergio Domínguez Lara b: Índice de dificultad del ítem: Representa la posición de la CCI en relación al nivel de habilidad necesario para obtener una probabilidad de acierto. c: Índice de pseudo-azar del ítem: Representa la probabilidad de acertar de los sujetos que desconocen la respuesta correcta. 5. La unidimensionalidad del rasgo latente Teóricamente, la unidimensionalidad está establecida en tanto que la probabilidad que las personas superen un ítem está determinado por el factor que se estudia. No obstante, como se apuntaba al inicio, los problemas intrínsecos de la medición en psicología no permitan que se de la unidimensionalidad en su totalidad (Muñiz, 1998). 6. La independencia local Está referida al supuesto de que la respuesta a un reactivo no debe influir en la respuesta de los otros. Si hubiera influencia, sería un argumento en contra de la unidimensionalidad, ya que la variación de la probabilidad de acertar un ítem estaría siendo afectada por factores ajenos a la habilidad de la persona (θ).

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN III DEFINICIÓN TEÓRICA Y OPERACIONAL DEL CONSTRUCTO A MEDIR UTILIZANDO LAS TABLAS DE ESPECIFICACIONES.

En medición psicológica, lo primero para la construcción de un test psicológico consiste en definir conceptual y operacionalmente el constructo o rasgo que pretendemos medir. Antes de entrar en detalles acerca de la definición conceptual y operacional pasemos, de manera breve, revista al concepto de constructo. 1. Constructo El término constructo hace referencia a conceptos que han sido postulados con un propósito científico. Muchas veces son llamados constructos hipotéticos con el propósito de indicar que no son considerados como objetos y eventos reales. Gran parte de las teorías acerca de la conducta incluyen constructos tales como inteligencia, motivación, aprendizaje, etc. Al intentar construir un test psicológico, una de las primeras dificultades que se presentan es definir de manera correcta los constructos con las que deseamos trabajar. Esto implica indicar, de manera clara, lo que queremos medir. En psicología, la dificultad aumenta debido a la complejidad inherente de los procesos, en los que intervienen múltiples variables y el esfuerzo para salvar la distancia entre lo que pretendemos medir y lo que realmente medimos. Existen dos formas de definir los constructos con las que trabajamos. El primero sería utilizando palabras que expliquen en qué consiste el fenómeno a estudiar, es decir, utilizando otros constructos en la definición. El segundo asignaría significados al constructo, especificando las actividades u operaciones que han de realizarse para medirla. El primer tipo de definición se denomina conceptual o constitutiva y el segundo operativa u operacional. 2. Definición Conceptual. Una definición conceptual o constitutiva pretende mostrar la esencia del constructo a evaluar, intentando presentarlo en base a sus características fundamentales. En la medida que una variable haya sido definida conceptualmente, la generalización se vuelve más fácil y las conclusiones

Tomás Caycho Rodríguez Sergio Domínguez Lara pueden transferirse a otros planteamientos científicos. Sin embargo, existe una limitación: La validez de esas mismas conclusiones. En efecto, ¿es realmente cierto que mi test está midiendo los mismos constructos tal como han sido definidos? 3. Definición Operacional. Las definiciones operacionales pueden ser de dos clases: medidas y experimentales. Las primeras describen cómo la variable va a ser medida. Por ejemplo, la madurez lectora puede ser definida operacionalmente como las puntuaciones obtenidas en un test de madurez lectora de primer grado. Por otro lado, una definición operacional experimental explica en forma clara los detalles u operaciones de las manipulaciones que efectúa el investigador con una variable. Por ejemplo, la inteligencia puede ser definida como la respuesta original y efectiva que manifiesta una persona al resolver un problema o un reactivo nuevo que se le presenta. La tabla 11 muestra dos operacionales.

ejemplos

de

definiciones

conceptuales

y

Tabla 11 Ejemplo de definición conceptual y operacional (Elaboración propia) Constructo

Rendimiento Académico

Personalidad

Definición Conceptual Es el resultado del proceso de interacción enseñanzaaprendizaje, que puede ser medido y clasificado de acuerdo a niveles de eficiencia y calidad que indican el logro de los objetivos propuestos.

Definición Operacional Promedio aritmético de las notas en escala vigesimal (0-20) alcanzado por los estudiantes en las asignaturas que permite clasificarlos en cuatro niveles de rendimiento: alto (15-20); medio (1314.99); bajo (11-12.99), deficiente (10.99 –menos).

Organización única de rasgos "que nos dice lo que una persona hará en una situación determinada" (Catell, 1975).

Es medida por el grado de acuerdo de los sujetos con los reactivos de calificación tricotómica 2, 1 y 0 de las quince escalas de los rasgos estilísticos-temperamentales del Cuestionario de Personalidad 16PF de Catell, Eber y Tatsuoka.

Tomás Caycho Rodríguez Sergio Domínguez Lara

3. Tabla de Especificaciones La tabla de especificaciones considera los tópicos que cubrirán el test y las habilidades que se medirán en el mismo, junto con la importancia relativa que se atribuye a cada categoría de contenido y habilidad. La tabla de especificaciones especifica con claridad las relaciones entre los objetivos (habilidades) y el contenido temático. La tabla de especificaciones sirve para dos fines: a) en la etapa de elaboración de reactivos, indica la cantidad y el tipo de ítems a elaborar y, b) cuando se tiene la versión final del test, se puede comparar la distribución real de los ítems con lo establecido en el plan de construcción. Esta comparación nos ayudará a determinar si los reactivos fueron un muestreo adecuado del universo temático.

Tabla 6 Tabla de especificaciones para un test de Algebra OBJETIVOS CONOCE la terminología

COMPRENDE principios y generalizaciones

APLICA principios y generalizaciones

ANALIZA principios y gráficos

SELECCIONA técnicas y métodos adecuados

TOTAL

Conjuntos

2

6

2

-

-

10

Variables

2

6

2

-

-

10

Propiedades numéricas

4

2

2

2

5

15

Operaciones aritméticas

4

2

2

2

5

15

Razón y porcentaje

-

-

5

5

-

10

Empleos de números en la medición

4

2

6

8

-

20

Números reales TOTAL

4

2

6

8

-

20

20

20

25

25

10

100

CONTENIDOS

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN IV TÉCNICAS DE ELABORACIÓN DE PRUEBAS PSICOLÓGICAS

1. Aspectos conceptuales previos En todo proceso de construcción de tests psicológicos, la selección de un marco teórico, que fundamente su elaboración, cobra un rol fundamental en dicha tarea. En esta decisión, y en relación al ámbito que se va a evaluar, se seleccionarán los procedimientos en base a los objetivos de la prueba que se quiere construir. Existen diversos enfoques metodológicos que subyacen el proceso de construcción de un test, los cuales están enfocados en el sujeto, el ítem y en la respuesta. El enfoque centrado en el sujeto, considera que la variación sistemática de las puntuaciones se debe a las diferencias individuales entre los sujetos que son evaluados. El objetivo de dicho método es escalonar (clasificar) a los sujetos en función de sus puntuaciones totales. La característica fundamental de estos procedimientos es seleccionar los ítems que resalten las diferencias individuales de acuerdo al dominio evaluado. Este procedimiento es de uso común en nuestro medio, ya que puede emplearse en diversas situaciones, ya sean estas de diagnóstico, clasificación o selección. Por otro lado, el enfoque centrado en el ítem, considera que la variación sistemática de las respuestas de los sujetos se atribuyen a la diferencia entre los estímulos, es decir, a la forma como se presentan estos. El objetivo, a diferencia del enfoque anterior, es el de escalonar (clasificar) a los estímulos en función de las respuestas de los sujetos. La aplicación de este enfoque se observa en las Escalas de Actitudes de Intervalos aparentemente iguales de Thurstone. Por último, para el enfoque centrado en la respuesta, la variación sistemática de las respuestas de los sujetos se atribuye tanto a las variaciones de los estímulos como de los sujetos. Su aplicación más frecuente se observa en la Técnica de Guttman para el análisis de las escalas de actitudes

Tomás Caycho Rodríguez Sergio Domínguez Lara 2. Aspectos preliminares en la construcción de test: Modelo psicométrico SUPUESTO 1 Todos los reactivos, ítems o elementos del test miden exactamente el mismo rasgo o dimensión, lo cual está referido a la unidimensionalidad que deben poseer los instrumentos, mediante el cual cada uno de los reactivos apunta a medir un rasgo unitario. SUPUESTO 2 La medida de la posición que tiene cada individuo en el rasgo o dimensión puede hacerse sin ningún error. Aquí se hace referencia al concepto de confiabilidad, que será tratado en capítulos posteriores. 3. Esquema genérico del proceso de construcción de un test Todo procedimiento de elaboración de test psicológicos conlleva un procedimiento estándar para llegar a resultados adecuados, lo cual va a estar determinado por el tipo de test que se va a elaborar. Así, se procede de diferente manera cuando se desea elaborar un test de aptitudes, que cuando se construye un inventario de personalidad. 3.1. Especificación de la finalidad del test El propósito del test debe estar sustentado en un marco teórico. La teoría que subyace al test debe reflejarse en el contenido de los reactivos. Para ello, como acción inicial, debe explicarse la naturaleza del constructo, y así establecer el marco teórico que sustentará el contenido de todos y cada uno de los reactivos. Considerando que las teorías son representaciones de la realidad, o por lo menos buscan representarla, el basarse en un marco teórico servirá para dar sustento empírico a las afirmaciones, es decir, encontrar correlatos en la vida real. Otro aspecto importante en esta etapa es la finalidad de la prueba, enfocada más en explicar las características de los sujetos a los cuales va destinado el test, permitiendo regular el formato de redacción de los reactivos, así como aquellos aspectos que se van a explorar. Asimismo, también es importante con el fin de determinar el uso que se les dará a las puntuaciones.

Tomás Caycho Rodríguez Sergio Domínguez Lara Las características de los sujetos a examinarse, como ya se ha mencionado, es un tema importante a considerar desde un inicio, pues las variables de diversa índole a considerar, tales como edad, nivel intelectual, grado educativo, estrato socioeconómico, etc.; marcarán la pauta en diversos aspectos relacionados con la construcción del test. 3.2. Traducción del propósito en términos operacionales El objetivo de esta etapa es hacer visible el constructo a través de sus indicadores observables, es decir, pasar de una definición conceptual a una operacional. La recomendación que se hace en esta etapa es definir adecuadamente el constructo a fin de no dejar de lado aspectos relevantes al momento de elaborar los indicadores, es decir, considerar que los ítems constituyan una muestra representativa del universo de conductas que se quiere evaluar (Validez de contenido). El formato en el cual se va a aplicar el Test es decidido en esta etapa. Se selecciona el tipo de test (tradicional / electrónico), tipo de ítem (respuesta abierta / selección múltiple), si hay límite de tiempo o no, la modalidad de aplicación (individual / colectivo), etc. 3.3. Determinación de las características psicométricas que se desea alcance el test Tal como se verá en capítulos posteriores, contar con una adecuada confiabilidad, y con las evidencias de validez suficientes, harán de dicho test psicológico una herramienta útil en nuestro quehacer psicológico. 3.4. Elaboración del pretest En la etapa de elaboración de los reactivos, estos deben representar el constructo que se está intentando evaluar, para lo cual es indispensable una adecuada definición conceptual del mismo (recordando que los reactivos o indicadores observables forman parte de la definición operacional). La elaboración adecuada de los materiales que contienen los reactivos es fundamental en procesos de evaluación que implica

Tomás Caycho Rodríguez Sergio Domínguez Lara algo adicional al formato habitual (protocolo y hoja de respuesta). Los materiales están referidos a elementos que, al ser manipulados, brindan muestras de conducta a ser consideradas como parte de la evaluación. Son de uso común en pruebas que evalúan desarrollo infantil (p.e. TEPSI) o en algunos casos que evalúan inteligencia (p.e. WAIS, Stanford-Binet). Luego de la elaboración de los reactivos (tengan o no materiales adicionales), la redacción de instrucciones preliminares es importante, en tanto serán las directrices que da el investigador en relación a las posibles respuestas del evaluado. Ante ello, cualquier ambigüedad en la forma como se redacta alguna instrucción puede llevar a respuestas que atentarán contra la validez del test. La redacción del procedimiento preliminar de calificación está referido tanto a la calificación de los ítems (que dependerá si es “directo” o “invertido”), así como a un formato de corrección, ya sea manual o informatizado.

Tomás Caycho Rodríguez Sergio Domínguez Lara

UNIDAD III Principio del Análisis de Ítems y Validez de los test Psicológicos

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN I ANÁLISIS DE ÍTEMS, ÍNDICE DE DIFICULTAD, ÍNDICE DISCRIMINATIVO

Cuando el puntaje de un sujeto en un test es el número de respuestas correctas, se presentan diversas relaciones entre los estadísticos del puntaje total y de la puntuación de cada uno de los ítems que lo conforman (Cortada de Kohan, 2000). Así, la finalidad del análisis de ítems es estudiar el comportamiento estadístico de cada uno de los ítems, así como del conjunto de ellos. El análisis de ítems comprende el estudio de dos aspectos fundamentales de los ítems: la dificultad y el poder de discriminación. De ambos nos ocuparemos en esta lección. 1. Índice de dificultad. El índice de dificultad permite indicar la proporción de personas que responden correctamente o aciertan el ítem. Esquemáticamente, podemos presentarlo de la siguiente manera: ID = A N Donde A, es el número de sujetos que respondieron satisfactoriamente el ítem, mientras que N es el número de participantes evaluados que han intentado resolver el ítem. En los test de personalidad no tiene sentido alguno hallar el índice de dificultad de los ítems, pues en estos instrumentos de medida no hay ítems difíciles ni fáciles. Este índice es común emplearlo en pruebas de ejecución máxima. Es necesario puntualizar que el índice de dificultad de los ítems va a depender directamente de la muestra de sujetos con la que se está trabajando, lo que indica que este índice no es una propiedad intrínseca del ítem sino que va a depender del tipo de sujetos a los que se apliquen los ítems (Muñiz, 2003). Así, si los sujetos presentan altas competencias, los ítems les resultará fáciles, con lo cual el número de aciertos será mayor; por el contrario, si los sujetos no son competentes, el mismo ítem resultará difícil.

Tomás Caycho Rodríguez Sergio Domínguez Lara Como dijimos líneas arriba, este índice es común utilizarlos en pruebas de ejecución máxima. En éstas, la modalidad de presentación de los ítems es de elección múltiple, lo que incrementa la posibilidad de acertar en la respuesta correcta por azar. Para tratar de mitigar el papel del azar o adivinación al responder un ítem se hace necesario calcular el índice de dificultad corrigiendo su valor mediante la siguiente fórmula:

P=

R– W O–1 N

Donde: P: índice de dificultad corregida. R: Número de participantes que contestaron correctamente el ítem. W: Número de participantes que contestaron incorrectamente el ítem. O: Número de alternativas que tiene el ítem. N: Número total de participantes evaluados. Una vez calculado el índice de dificultad corregido es posible jerarquizar los ítems desde los más fáciles hasta los más difíciles, como se observa en la tabla 7. Tabla 7 Grado de dificultad a priori (Adaptado de Delgado, Escurra y Torres, 2006, p. 64) Grado de dificultad a priori (pretest) (antes de realizar el análisis de los ítems) (MF) Muy Fáciles (F) Fáciles (M) Medios (D) Difíciles (MD) Muy Difíciles

Nº aproximado 10% 20% 40% 20% 10%

Límites aproximados de los índices de dificultad. De De De De De

0.75 0.55 0.45 0.25 0.05

a a a a a

0.99 0.74 0.54 0.44 0.24

Un análisis de la tabla 7 permite visualizar diversos aspectos importantes para interpretar el índice de dificultad (ID): a) primero, se observa que el menor valor que puede tener el ID es 0 (en donde ningún sujeto contesta correctamente el ítem) y el máximo valor es 1 (en donde todos los sujetos que intentan responder el ítem logran acertar); b) segundo, mientras más se acerca el ID a 0, el ítem resulta muy difícil; si se aproxima a 1, resulta más fácil; mientras que si se acerca a 0,5, es de dificultad media. A nivel práctico, la tabla 7 nos permite estructurar adecuadamente nuestro instrumento de medida. Así en las pruebas de rendimiento

Tomás Caycho Rodríguez Sergio Domínguez Lara máximo, los ítems más fáciles se sitúan al inicio, los de dificultad media en la parte central, y los ítems más difíciles al final. Lo ideal es que la mayor parte de los ítems sean de mediana dificultad. 2. Índice de Discriminación El índice de discriminación brinda información acerca de hasta donde un ítem logra discriminar adecuadamente entre los sujetos evaluados (Cortada de Kohan, 2000). Un ítem tendrá poder de discriminación si logra distinguir a los sujetos que obtiene altos y bajos puntajes, es decir, si discrimina entre aquellos que tienen altas o bajas habilidades, aptitudes o conocimientos (Delgado, Escurra & Torres, 2006; Muñiz, 2003). Para el cálculo del índice de discriminación, suele emplearse la diferencia entre el porcentaje de aciertos entre el grupo bajo y el porcentaje de aciertos entre el grupo alto (Cortada de Kohan, 2000). Es decir, se identifica, de manera separada, el grupo superior e inferior, luego se obtiene para cada ítem (de cada grupo) el porcentaje de sujetos que han respondido correctamente, ambos se retan, obteniéndose como resultado final el poder de discriminación de cada ítem (Cortada de Kohan, 1999, 2000). La fórmula es la siguiente: Discr. = GS – GI GS: Porcentaje del grupo superior que contestó de manera correcta el ítem. GS: Porcentaje del grupo inferior que contestó de manera correcta el ítem. De acuerdo a los resultados obtenidos podemos establecer una jerarquía de la discriminación de los ítems, tal como se observa en la tabla 8. Tabla 8 Clasificación de la discriminación de los ítems (Adaptado de Delgado, Escurra y Torres, 2006, p. 65) Clasificación Muy buena discriminación Discriminación aceptable Discriminación intermedia Discriminación inaceptable

Discriminación De 0.40 a 0.99 De 0.30 a 0. 39 De 0.20 a 0.29 De 0.05 a 0.19

Tomás Caycho Rodríguez Sergio Domínguez Lara Para que un ítem sea aceptado para ser parte del instrumento de medida final, su poder de discriminación debe ser igual o mayor a 0.30.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN II VALIDEZ DEFINICIÓN Y MÉTODO DE CONTENIDO POR JUICIO DE EXPERTOS

Cotidianamente, escuchamos y utilizamos el término validez o válido, para hacer referencia a una teoría válida, a un argumento válido, etc. Esto hace referencia a lo válido como algo que es sólido, significativo o que se encuentra fundamentado en principios o evidencia (Cohen & Swerlik, 2001). De manera similar, en medición psicológica empelamos el término validez cuando nos queremos referir a la significación de la puntuación de una prueba. 1. Definición La validez puede ser definida, en términos generales, como el grado en que el test mide lo que debe medir (Anastasi & Urbina, 1998), lo cual responde a la pregunta ¿qué mide el test? Pero ¿Hasta dónde podemos estar seguros de que estamos midiendo la conducta que pretendemos medir? Cuando medimos, por ejemplo el peso de un libro, lo llevamos a la balanza, la cual nos arroja un peso de 3 kg, en este caso no tenemos mayor duda de que el libro pesa 3 kg. Pero cuando intentamos medir alguna propiedad psicológica (como la felicidad) no tenemos la plena seguridad al respecto, a pesar de que estemos empleando, como instrumento de medida, un test de autoestima. El problema radica aquí en la congruencia entre el instrumento de medición y el constructo a medir (Alarcón, 1998, 2006). Siguiendo con nuestro ejemplo, el test de felicidad será válido cuando mida la conducta feliz y no otra. Muñiz (2003), señala que la validez hace referencia al conjunto de pruebas que han de emplearse para garantizar la pertinencia de las inferencias llevadas a cabo a partir del test. Así, más que validar el test, lo que se valida son las inferencias. Cortada de Kohan (2000), señala que, en lugar de hablar de validez de manera singular, se debería hablar de valideces, lo que nos lleva a preguntarnos si un instrumento es válido para qué. Así, podemos hablar de diferentes tipos de validez. La Asociación Psicológica Americana (APA) ha establecido una clasificación tripartita de las diversas maneras de estudiar la validez (Anastasi & Urbina, 1998). Es así, que podemos hablar de validez de contenido, validez relacionada con el criterio (en donde se

Tomás Caycho Rodríguez Sergio Domínguez Lara encuentran la validez concurrente y predictiva) y validez de construcción. De éstos, en esta lección nos ocuparemos de la validez de contenido. 2. Validez de contenido Este tipo de validez puede ser definido como la adecuación del muestreo de un determinado universo de contenido (Cortada de Kohan, 2000). Es decir, constituye el grado en el cual los ítems o reactivos de una prueba, constituyen una muestra representativa de todo el universo de contenido que se estudian (Delgado, Escurra & Torres, 2006). Por ejemplo, la validez de contenido de una prueba de rendimiento escolar se determinará analizando la correspondencia de sus ítems con los temas que la asignatura cubre (Alarcón, 1998). Este procedimiento para estimar la validez puede ser empleado en pruebas de rendimiento, así como en pruebas de adaptación y actitudes (Brown, 1993). Para los dos últimos tipos de pruebas, este procedimiento presenta ciertas limitaciones que son señaladas por Anastasi (1974), quien menciona que “el contenido de los test de aptitud y de personalidad apenas sirve más que para revelar el hipótesis que llevó al elaborador del test a escoger un determinado contenido para medir un rasgo específico. Hay que confirmar empíricamente estas hipótesis para establecer la validez del test” (p. 107) Dos son los procedimientos que reportamos a continuación para el cálculo de este tipo de validez. 2.1 Análisis lógico de los ítems y de la estructura de la prueba Este procedimiento consiste en un análisis lógico y racional de los ítems, con el fin de tener fundamentos para incluirlos en la prueba final. Aquí es común emplear cuadros y tablas que ayuden a representar de manera clara el universo de contenido que se analizan (Delgado, Escurra & Torres, 2006). 2.2. Análisis por criterio de jueces. Aquí se requiere del apoyo de un conjunto de personas expertas con amplios conocimientos en la temática evaluada, quienes analizarán el grado de concordancia de los ítems con los planteamientos del constructor (Delgado, Escurra & Torres, 2006), aprobando o desaprobando la inclusión de un ítem en la prueba, tratando de evitar el caer en arbitrariedades (Cortada de Kohan, 2000). Esta ha sido la estrategia más utilizada para evaluar la validez de contenido (Aiken, 1980).

Tomás Caycho Rodríguez Sergio Domínguez Lara El problema de este procedimiento para la estimación de la validez radica en la dificultad para cuantificar sus resultados (Aiken, 1980). Un primer intento para superar esta limitación es calcular el acuerdo entre los jueces al evaluar un ítem, lo que indicaría la confiabilidad de los juicios y por ende la confiabilidad del mismo. Este índice, ha sido definido como la proporción que existe entre los juicios que coinciden con la definición propuesta por el autor (acuerdo A) y el total de juicios emitidos (acuerdos A y desacuerdos D) (Escurra, 1989), siendo la fórmula la siguiente: IA = A/(A+D) Guilford (1954) señala que los ítems válidos serán aquellos cuyos valores sean iguales o mayores a 0.80. Si bien este procedimiento es importante, tiene diversas limitaciones, como el desconocimiento de la significación estadística lo que indicaría que sería arbitrario trabajar bajo esta forma de validez (Escurra, 1989). Un procedimiento para cuantificar la validez de contenido por criterio de jueces que busca solucionar la limitación anterior es el coeficiente V de Aiken. El coeficiente V de Aiken (Aiken, 1980, 1985), se calcula como la razón de un dato obtenido sobre la suma máxima de la diferencia de los valores posibles. Se calcula sobre la base de las valoraciones de un conjunto de jueces en relación a un ítem o como las valoraciones de un juez respecto a un grupo de ítem (Escurra, 1989). Estas valoraciones puede ser dicotómicas (0 o 1) o politómicas (de 0 a 5). Se pueden obtener valores entre 0 y 1, en donde más cercano a 1 sea el coeficiente, el ítem tendrá mayor validez de contenido. La fórmula es la siguiente: V=

S (n (c-1))

Donde: S = La sumatoria de si n = Número de jueces. c = Número de valores de la escala de valoración.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN III VALIDEZ DE LOS TEST PSICOLÓGICOS: MÉTODO CONCURRENTE Y PREDICTIVA

De acuerdo a lo anteriormente expuesto, con relación a las evidencias de validez, otras de las estrategias más utilizadas son la validez concurrente, divergente y predictiva. Se obtienen evidencias de validez convergente cuando se correlacionan los hallazgos del test con los resultados de una prueba que también evalúa dicho constructo. Ante tal análisis se espera que haya una correlación directa y significativa. En este sentido, el estadístico de contraste es la r de Pearson. Por otro lado, se obtienen evidencias de validez divergente cuando se correlacionan los hallazgos del test con los resultados de una prueba que no evalúa dicho constructor, y ante tal análisis se espera que haya una correlación inversa y significativa, o que no haya correlación. Al igual que en el caso anterior, el estadístico de contraste es la r de Pearson. En este sentido, a modo de ejemplo, se cita la investigación de Ocampo (2007), quien realizó un estudio correlacional del Inventario de Depresión Estado/Rasgo en adolescentes y universitarios de la ciudad de Medellín (Colombia), usando como medida comparativa el Inventario de Depresión de Beck-revisado, el Cuestionario Básico de Depresión, el Inventario de Ansiedad Estado-Rasgo y el Inventario de Expresión de la Ira Estado-Rasgo. Se hallaron niveles de confiabilidad elevados, así como evidencia de validez factorial, convergente y discriminante.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 7. Correlaciones de las puntuaciones totales ST-DEP (escalas y subescalas), con totales de las escalas y subescalas BDI, CBD, STAI Y Staxi con una muestra de universitarios N=278

Tomado de: Ocampo (2007) Es así que se observan correlaciones directas y significativas entre variables que apuntan a afectividad negativa (por ejemplo, entre Distimia y Expresión de la ira), lo cual es un indicador de validez convergente. Por otro lado, la evidencia de validez divergente queda sentada por las correlaciones inversas entre aquellas variables que expresan afectividad negativa y aquellos que no (por ejemplo, Distimia y Control interno de la ira). Por último, se obtienen evidencias de validez predictiva cuando se comparan los hallazgos del test en una persona con su desempeño posterior en el dominio evaluado. Esta estrategia de validez se usa en mayor grado en procesos de admisión, así como en procesos de Selección de Personal. Entonces, tal como mencionan Prieto & Delgado (2010), se concluye que las relaciones de las puntuaciones del test con otras variables externas a la prueba constituyen una importante fuente de obtención de evidencias de validez.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN IV MÉTODO DE CONSTRUCTO: MODELO DEL ANÁLISIS FACTORIAL

Un instrumento de medición psicológica puede ser considerado una medida o índice de un concepto, teoría o constructo psicológico (Muñiz, 2003). Todo test basa su construcción en una teoría que el autor desarrollo o asume (Alarcón, 1998). Así un test de dogmatismo constituiría un indicador del constructo psicológico dogmatismo. En relación a esto, “la validez de constructo hace referencia a la recolección de evidencia empírica garantice la existencia de un constructo psicológico en condiciones exigibles a cualquier otro modelo o teoría psicológica” (Muñiz, 2003, p. 154) Cortada de Kohan (2000) señala que la validez de constructo hace referencia a cuáles son las cualidades psicológicas que un test mide, es decir, este tipo de validez trata de dar respuesta a la pregunta ¿qué constructo psicológico mide la prueba? Delgado, Escurra y Torres (2006), señalan que para estimar la validez de constructo es necesario tener en cuenta los siguientes aspectos: a. Definir de manera clara el constructo que se quiere medir. b. Evaluar lo adecuado de la interpretación teórica. c. Señalar el procedimiento experimental, así como el razonamiento empleado para realizar las inferencias en base a diversos procedimientos seleccionados para el estudio del constructo a evaluar. Dos son los procedimientos que, desde la psicología, nos permiten obtener datos acerca de la validez de constructo: el análisis factorial y la matriz multirasgo-multimétodo, los cuales se denominan respectivamente, validez factorial y validez convergente discriminante. 1. Validez Factorial El análisis factorial hace referencia a un conjunto de procedimientos matemáticos de análisis multivariado, diseñados para identificar factores en las pueden diferir las personas (Cohen & Swerlik, 2001). Para la estimación de la validez factorial se requiere de la aplicación de un conjunto de pruebas que tienen como objetivo conocer los factores que subyacen a las intercorrelaciones entre las pruebas estudiadas (Delgado, Escurra & Torres, 2006).

Tomás Caycho Rodríguez Sergio Domínguez Lara En medición psicológica, es común, indagar acerca de la validez factorial de los ítems que conforman un test. Si un test mide un rasgo unitario, es de esperar que, luego de aplicar el análisis factorial, sus ítems se agrupen en torno a un único factor, siendo el grado en que esto ocurre, un indicador de la validez del test en función de sus ítems (Muñiz, 2003). Es oportuno recalcar que no siempre ocurre lo dicho anteriormente, pues si se intenta medir rasgos psicológicos complejos, es de esperar que los ítems evidencian también tal complejidad, lo que ocasionaría que no siempre se articularían en torno a un sólo factor. Podemos mencionar dos tipos de análisis factorial: exploratorio y confirmatorio. El primero, hace referencia a “la estimación o extracción de factores, la decisión de cuántos factores conservar y la rotación de éstos a una orientación interpretable” (Floyd y Widaman, 1995, p. 287). En base a datos aún no publicados de un estudio psicométrico de la Escala de Timidez Revisada de Check y Buss (ETR) (Caycho, 2012) se tratará de ejemplificar el proceso del análisis factorial exploratorio. Con la finalidad de analizar la viabilidad del empleo del análisis factorial para la determinación de la validez de constructo de la ETR se emplearon las medidas de Kaiser-Meyer-Olkin (K-M-O) y el Test de Esfericidad de Barlett reportadas en la tabla 9. La medida de adecuación K-M-O obtiene una puntuación de 0.884, calificado como meritorio, mientras que el test de Esfericidad de Barlett presentan un valor de 647.106 significativo al .00. Estos resultados permiten continuar con el análisis factorial. Tabla 9 Medida de Kaiser-Meyer-Olkin de adecuación y Test de Esfericidad de Barlett K–M-O .884

Test de Barlett 647.106

Significación .000

Como dijimos anteriormente, el proceso de factorización evidencia la estructura factorial que subyace a un instrumento de medida. Para nuestro ejemplo, se ha empleado un análisis de factores de componentes principales con rotación ortogonal mediante el método varimax para la estimación de los factores de la Escala de Timidez Revisada en la muestra total. El análisis de componentes principales identificó dos componentes con valores eigen que varían de 1.08 a 4.33; el primer componente explica el 24.9% de la varianza, mientras que el segundo componente explica el 24.2%, valores superiores a 20%

Tomás Caycho Rodríguez Sergio Domínguez Lara exigido como mínimo para garantizar factores suficientemente explicativos, en tanto que los dos componentes sumados explican el 49.15 % de la varianza total. El procedimiento de rotación ortogonal mediante el método varimax de la matriz de componentes, ha agrupado consistentemente los 11 elementos en dos factores independientes. El factor 1 agrupa siete ítems, mientras que el factor 2 reúne cuatro ítems (Fig.). Figura Posiciones relativas en un espacio bidimensional de los ítems: siete sobre componente 1 y cuatro sobre componente 2

Luego de la rotación, para la inclusión de un reactivo en un factor se deben tener en cuenta dos criterios: 1. Las saturaciones (loading) deben ser iguales o superiores a 0.45. 2. Si el elemento carga en dos o más factores se le incluirá en el factor con la saturación más elevada. La Tabla 10 presenta las saturaciones factoriales correspondientes a los ítems de cada factor. Los dos factores están definidos por reactivos con cargas no inferiores a 0.50 (Nunally, 1987), a excepción del ítem 11, evaluadas en las categorías de Bueno o Excelente con propósitos de interpretación factorial (Comrey, 1985). Se puede observar que el peso factorial de cada variable (ítems) se encuentra concentrada con mayor fuerza en un solo factor, mientras, en los demás su peso es comparativamente reducido. Este resultado evidencia la existencia de coherencia factorial entre las variables (ítems) integrantes de cada uno de los factores.

Tomás Caycho Rodríguez Sergio Domínguez Lara Los resultados permiten concluir que la Escala de Timidez Revisada ETR posee una adecuada validez factorial, lo que garantiza cierta coherencia entre las mediciones referidas al constructo que se mide (Muñiz, 2003). El análisis factorial realizado ha logrado identificar dos factores subyacentes tras el constructo timidez, lo que puede interpretarse en el sentido que la timidez, de acuerdo a la definición operacional y la escala utilizada para medirla, es un comportamiento complejo, en donde los ítems no se articulan en torno a un único factor o componente, sino, está integrada por dos dimensiones que se distinguen claramente. A continuación se describen los factores identificados. Factor 1: Conformado por los ítems 2, 3, 4, 5, 6, 9 y 11. Los ítems de este componente, indican profunda incomodidad en reuniones sociales, dificultad de decisión acerca de temas adecuados de conversación y para solicitar información. Las respuestas de aceptación, a lo que afirman las proposiciones, indican propensión a comportamientos identificados como tímidos, que reflejan una adecuado sostenimiento de relaciones interpersonales. En este sentido, la timidez significa un déficit y/o inadecuación de las relaciones interpersonales. El factor 1 tiene siete ítems, el Revisada, explicando el 24.9% factoriales elevadas y con una .781). Esta sub-escala la hemos interpersonales.

mayor número de la Escala de Timidez de la varianza total siendo sus cargas alta confiabilidad (Alfa de Cronbach = denominado Inadecuación de relaciones

Factor 2: Los cuatro ítems que componen este factor (ítems 1, 7, 8 y 10) expresan, tensión, nerviosismo y evitación para el contacto con otras personas. Expresiones como “Me resulta difícil actuar con naturalidad cuando me encuentro con gente nueva”, “Me siento tenso cuando estoy con gente que no conozco bien” o “Me siento nervioso cuando tengo que hablar con alguien importante”, indican estados subjetivos negativos que evitan contacto social de los individuos. La sub-escala que evalúa este factor posee una alta confiabilidad (Alfa de Cronbach = .736), explicando el 24.2% de la varianza total. Podemos denominar esta sub-escala como Evitación de contacto social.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 10 Matriz de Factores Extraídos por Rotación Varimax y Cargas Factoriales de los ítems Ítem Suelo encontrarme incómodo en fiestas u otras reuniones sociales 2 Me siento un poco raro socialmente 9 Me siento tímido cuando estoy en reuniones sociales 5 Cuando estoy con un grupo de personas me cuesta decidir sobre los temas adecuados de que hablar 6 Necesito mucho tiempo para vencer mi timidez en situaciones nuevas 3 Encuentro difícil solicitar información a otras personas 11 Soy más tímido con las personas del sexo opuesto 1 Me siento tenso cuando estoy con gente que no conozco bien 7 Me resulta difícil actuar con naturalidad cuando me encuentro con gente nueva 8 Me siento nervioso cuando tengo que hablar con alguien importante 10 Me resulta difícil hablar con desconocidos Valores eigen Porcentaje de varianza explicada Coeficiente Alfa de Cronbach 4

F1 .700

F2

.688 .623 .603 .550 .535 .455 .709 .760 .693

4.325 24.9% .781

.673 1.082 24.2% .736

El análisis confirmatorio, “plantea la hipótesis de una estructura factorial en forma explícita y se prueba su ajuste con la estructura de la covarianza observada de las variables medidas” (Floyd y Widaman, 1995, p. 287). La Tabla 11 presenta los resultados arrojados en un estudio propio (Caycho, 2011) de la validez de constructo de una prueba de estrategias de aprendizaje, realizado mediante el Análisis Factorial Confirmatorio a través del programa Amos 5.0. Los resultados evidencian que el modelo de 1 factor presenta en el test de Bondad de Ajuste Chi-cuadrado mínimo un valor de 1.15, el cual con 1 grado de libertad alcanza una probabilidad de 0.24. Esto indica que el modelo es adecuado. Así mismo, la revisión de los resultados de la Raíz Cuadrada del Promedio de los Residuales que evalúa la aproximación de la matriz de covarianzas teórica con la matriz observada alcanzó un valor pequeño (RMR=0.05) y los análisis complementarios de la bondad de ajuste a través del índice de ajuste (GFI=0.97) y el índice de ajuste ponderado (AGFI=0.96) alcanzaron valores óptimos, estos hallazgos permitieron corroborar lo pertinente de aceptar el modelo de un factor. Estos hallazgos permiten concluir que la escala de estrategias de aprendizaje presenta validez de constructo.

Tomás Caycho Rodríguez Sergio Domínguez Lara Tabla 11 Análisis de la Validez de Constructo de la Escala ACRA a través del Análisis Factorial Confirmatorio Datos

Modelo de 1 Factor

Modelo Independiente

Parámetros

9

4

1.15

27.84

1

6

P

0.24

0.000

Chi-cuadrado

1.15

4.65

RMR

0.05

0.13

GFI

0.97

0.89

AGFI

0.96

0.59

Chi-cuadrado mínimo G.L.

mínimo/G.L.

N=60

Tomás Caycho Rodríguez Sergio Domínguez Lara

UNIDAD IV PRINCIPIO DE LA CONFIABILIDAD Y TABLAS NORMATIVAS DE LOS TEST PSICOLÓGICOS

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN I CONFIABILIDAD: DEFINICIÓN, MÉTODOS, APLICACIONES Y FACTORES QUE LO AFECTAN.

1. Aspectos conceptuales previos Como ya se ha revisado anteriormente, en el marco de la teoría clásica de los tests, el puntaje observado de la escala es igual puntaje verdadero más el error de medición, siguiendo la siguiente ecuación. X= V + e Al igual que la mayoría de conceptos que se guían bajo las premisas de la teoría clásica de los tests, el concepto de confiabilidad lleva implícita la presencia de error en el proceso de medición, es decir, todo puntaje empírico está afectado por un error de medición. Entonces, según la ecuación inicial, la varianza total de los puntajes (S²X) está compuesta por la varianza de los puntajes verdaderos (S²V) más la varianza de los puntajes de error (S²e). La ecuación resultante es la siguiente: S²X= S²V + S²e Bajo el supuesto que no existe correlación entre la puntuación verdadera de los sujetos en un test y sus respectivos errores de medida, entonces la confiabilidad queda definida por la siguiente expresión:

rtt

S²V =

S²X rtt

=

1 -

S²e S²v

A partir de un análisis de la expresión anterior, cuando la proporción de varianza de error sea baja, la confiabilidad será alta. Por ejemplo, un coeficiente de confiabilidad de 0.95 se puede interpretar como “el 95%

Tomás Caycho Rodríguez Sergio Domínguez Lara de la varianza de los puntajes del test corresponde a la varianza verdadera y el 5% a la varianza del error”. 2. Definiciones Diversos autores han brindado su punto de vista acerca del concepto de confiabilidad. Entre ellos, Cohen & Swerdlick (2001) señalan que la confiabilidad es la proporción de la varianza total atribuida a la varianza verdadera, y en consecuencia, entre mayor sea la proporción de la varianza total atribuida a la varianza verdadera, la prueba será más confiable. Hogan (2004) menciona que la confiabilidad se relaciona con la consistencia de las puntuaciones en la medición al margen de lo que mida el instrumento. Esta idea deja por sentado el hecho que un instrumento puede ser válido pero no confiable. Por su parte, Muñiz (1994) refiere que la confiabilidad se refiere a la estabilidad de las mediciones cuando no existan razones teóricas o empíricas para suponer que la variable a medir haya sido modificada diferencialmente para los sujetos. Se puede concluir parcialmente que la confiabilidad suele estar definida en términos de constancia temporal y en su estructura interna, es decir, si se encuentra que los reactivos que conforman la prueba son consistentes entre sí. Las estrategias de evaluación de validez serán discutidas en lecciones posteriores. 3. Factores que afectan la confiabilidad La confiabilidad es afectada por factores de diversa índole, los cuales pueden ser controlados en la medida que el investigador tenga conciencia de ellos y pueda identificarlos. 3.1 Características naturales del test a. Homogeneidad contra heterogeneidad de los reactivos Esta consideración señala que si la prueba es homogénea en sus reactivos, sería necesario esperar un alto grado de consistencia interna y por lo tanto, confiabilidad (Cohen & Swerdlik, 2001).

Tomás Caycho Rodríguez Sergio Domínguez Lara b. Características dinámicas variable a medir

versus

las

estáticas

de

la

Se tiene en cuenta las implicancias de las características dinámicas que pueden influir en la confiabilidad de un test, ya que estas se dan en función de las experiencias situacionales y cognoscitivas que afrontan los sujetos. c. Según el tipo de prueba: Pruebas de velocidad frente a pruebas de poder La estimación de la confiabilidad en las pruebas de velocidad va hacia la demostración de la consistencia de velocidad de respuesta y en tal sentido la confiabilidad en este tipo de pruebas, no debe calcularse a partir de una sola aplicación con un límite de tiempo único, sino tiene que hacerse en dos periodos. Al calcular la confiabilidad mediante métodos de una sola aplicación, como los de la consistencia interna, se obtendría un coeficiente de confiabilidad alto, pero falso. En contraste a lo mencionado existen las pruebas de poder, que son aquellas que presentan un límite de tiempo bastante largo, en donde, a diferencia de la prueba de velocidad, se es capaz de obtener un puntuación perfecta. 3.2. Variabilidad de las muestras El coeficiente de confiabilidad puede aumentar, al incrementarse la variabilidad de la muestra (muestra más heterogénea). Por lo tanto, mientras mayor sea la varianza de las puntuaciones de un test o prueba psicológica y/o educativa, mayor será el coeficiente de confiabilidad encontrado. 3.3. Longitud del test Cuando se incluyen más ítems o reactivos en una prueba, más aspectos de la variable o rasgo a medir se podrán evaluar, evidenciando así, un incremento en la posibilidad de poseer un mayor coeficiente de confiabilidad. La longitud de una prueba es importante, debido a que la cantidad de reactivos de una prueba, nos puede ayudar a predecir cuán confiable puede ser un test, y mientras más larga sea la prueba, más confiable podrá ser.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN II CONFIABILIDAD POR EL MÉTODO TEST RETEST Y DE LA MITADES

Como vimos en la lección anterior, el concepto de confiabilidad asume que los puntajes empíricos se encuentran afectados por las fuentes de error. Así, en la construcción de un instrumento de medida se busca minimizar los errores atribuibles a la prueba. Para la estimación de la confiabilidad se han ideado numerosas fórmulas, los que en su mayoría se expresan como coeficientes de correlación. Esto a ha dado lugar a la distinción de cuatro tipos de coeficientes de confiabilidad: estabilidad(o test retest), método por mitades, equivalencia (o de formas paralelas) y de consistencia. En esta lección nos ocuparemos de los dos primeros métodos de estimación de la confiabilidad. 1. Método de estabilidad o test retest Se puede definir como la consistencia de los puntajes a través del tiempo, en donde se asume que lo estudiado es estable en el tiempo. El procedimiento básico de este método es aplicar en dos situaciones diferentes y con un intervalo predeterminado de tiempo (T), la misma prueba a una muestra determinada (muestra A). Finalmente, para el cálculo del coeficiente se emplea principalmente el coeficiente r de Pearson (Fig. ).

T MUESTRA A

MUESTRA A

TEST X

Ptj A1

TEST X

r de Pearson

Ptj A2

Fig. Esquema del método de estabilidad o test retest (elaboración propia) Nota: Ptj A1= Ptj A2

Tomás Caycho Rodríguez Sergio Domínguez Lara La doble aplicación de un mismo instrumento tiene como ventaja el tiempo y la economía sobre el empleo de, por ejemplo dos formas equivalentes (lección III), dada la dificultad de construirlas (Cortada de Kohan, 2000). Una limitación del empleo de este método es determinar el tiempo que debe transcurrir entre ambas aplicaciones. Lo recomendable es que la segunda aplicación no debe seguir inmediatamente a la primera, ya que el rendimiento en la segunda aplicación puede verse afectado por el factor memoria. Por otro lado, si el intervalo de tiempo es demasiado amplio, los resultados pueden verse afectados por la intervención de factores de maduración del medio ambiente. En conclusión no existe una norma que defina el tiempo que debe pasar entre la primera y segunda aplicación. 2. Método de división por mitades o "split half method" Teóricamente, este método es similar al método de estimación por formas equivalentes, con la diferencia de que aquí solamente se trabajo con un solo instrumento, en donde los ítems son divididos en dos partes (pares-impares; primeros-últimos, o cualquier otra forma de dividir la prueba en dos partes). Una vez dividida la prueba, las dos series de puntajes resultantes se correlacionan con el coeficiente "r" de Pearson. Pero por haberse dividido el test en dos partes, el coeficiente de correlación resultante debe ser "corregido" para arrojar el coeficiente de correlación "r“ para todo el test. Esta corrección se efectúa con la fórmula de profecía de SpearmanBrown: rxx=

2r0e 1 + r0e

Donde: rxx: Coeficiente de Spearman-Brown. roe: Coeficiente de Pearson de las dos mitades equivalentes.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN III CONFIABILIDAD POR EL MÉTODO DE LAS PRUEBAS EQUIVALENTES Y POR CONSISTENCIA INTERNA

1. Método de pruebas equivalentes El método consiste en aplicar dos formas equivalentes o paralelas del test al mismo grupo de individuos, en donde las dos series de puntajes resultantes se correlacionan con el coeficiente producto de los momentos de Pearson (r). 2. Estimación de la Confiabilidad por consistencia interna Los coeficientes de consistencia internada están en relación a la homogeneidad de la prueba en la medida de que cada uno de los elementos mide la misma característica. Se usa para tal efecto diversas medidas como son el Alpha de Cronbach y el coeficiente KR-20. 2.1. Alpha de Cronbach Se trata de un índice de consistencia interna que toma valores entre 0 y 1. El coeficiente Alpha de Cronbach se basa en las magnitudes de las covariaciones entre los ítems en relación con la varianza total del test, en vez de considerar las correlaciones entre medidas paralelas.

2  Si  K ∑  1− 2  α = K −1  ST   Donde K está referido al número de ítems; S²i, a la Sumatoria de Varianzas de los Ítems; S²T, a la Varianza de la suma de los Ítems, y el α al Coeficiente de Alfa de Cronbach 2.2. Ecuación Kuder-Richardson 20 Se trata de un caso particular del coeficiente Alfa de Cronbach cuando los ítems que componen la escala son dicotomicos. Es decir, cada ítem sólo admite dos opciones de respuesta, que son

Tomás Caycho Rodríguez Sergio Domínguez Lara exhaustivas y mutuamente excluyentes. Viene expresada por la siguiente expresión matemática.

Donde st² representa a la varianza de cada elemento, expresada como el producto de las probabilidades de obtener una respuesta correcta (p) e incorrecta (q); y siendo k el número de ítems de la escala. 3. Interpretación De acuerdo con Oviedo & Campo-Arias (2005), el alfa de Cronbach mínimo aceptable es de 0.70, considerando además que un indicador entre 0.80 y 0.90 es óptimo. Cuando sobrepasa esta valla, de 0.90, se dice que hay redundancia en los ítems.

Tomás Caycho Rodríguez Sergio Domínguez Lara

LECCIÓN IV TRANSFORMACIÓN DE PUNTAJES DIRECTOS A PUNTUACIONES ESTÁNDAR Z, T Y TRANSFORMACIONES PERCENTILES

1. Elaboración de normas Si bien es cierto el test es un elemento auxiliar en el quehacer psicológico, el hecho de contar con indicadores de confiabilidad y validez adecuados, le da consistencia a los hallazgos que se realicen. Pero queda pendiente el problema de la interpretación de las puntuaciones ¿Se interpreta las puntuaciones directas de la prueba? Esa pregunta será respondida en breve. 1.1. Proceso de elaboración de normas de un test Para comprender este procedimiento en su real dimensión, es necesario tratar algunos aspectos conceptuales previos. a. Población de referencia Está referida a personas que comparten características comunes (edad, sexo, grado de instrucción, etc.), las que estarán bajo criterios de inclusión y exclusión. Ejemplo: “la población de referencia está compuesta por las estudiantes del I al VIII ciclo de la carrera de Psicología de la UIGV”. Atendiendo a criterios de exclusión, no formarán parte de la muestra estudiantes varones, ni de IX ciclo de dicha carrera. b. Grupo normativo (Muestra) Se refiere a un grupo seleccionado de la población, el cual debe tener tres características: 1) Debe ser definido, es decir, estar en función de la población y cumplir las características de esta. 2) Debe ser representativo, lo cual indica que aquellos hallazgos en la muestra, podrán ser generalizados a la población de origen. Y por último, 3) debe ser de tamaño suficiente, para evitar errores asociados al muestreo. c. Norma La norma es de suma importancia, ya que da información acerca del desempeño de una población de referencia en un

Tomás Caycho Rodríguez Sergio Domínguez Lara test. El sustento de esta postura está en los cálculos estadísticos acerca de las diferentes puntuaciones estándar que existen. d. Baremo o Tabla de Normas La tabla de normas o baremo, es una tabla que sistematiza la conversión de puntajes directos en puntajes derivados. Cabe resaltar que las normas más recomendadas son aquellas que se asemejan a una escala de intervalos. e. Puntajes derivados o unidades de calificación Son aquellos puntajes que se obtienen a partir de los puntajes directos por medio de métodos estadísticos. Dicha conversión tiene dos objetivos, convertir los datos en un solo tipo de escala, y también posibilitar una mejor interpretación de los datos. Entonces, a partir de dichos objetivos, Tres son los tipos de puntajes derivados más conocidos: Los puntajes percentiles, los puntajes estándar o típicos y los puntajes estándar o típicos normalizados •

Percentiles (Pc) Son puntajes derivados, los cuales conforman una escala ordinal que se expresa en función del porcentaje de personas del grupo normativo que quedan por debajo de una puntuación directa determinada. Indica la posición del individuo en un grupo normativo. Es decir, indican a qué porcentaje del grupo normativo superan. Por ejemplo, alguien con percentil 85, superará al 85% de su población de referencia en la variable estudiada, y es superado por un 15% en la misma variable.

•

Puntaje estándar o típicos Toman como unidad fracciones de la desviación estándar de la distribución de puntajes del grupo normativo. Dichas puntuaciones expresan la distancia del individuo a la media aritmética en función de la desviación estándar.

Tomás Caycho Rodríguez Sergio Domínguez Lara Los puntajes típicos más usados son el Cociente intelectual (usado en la mayoría de pruebas de inteligencia), Puntaje T, Eneatipo (Estanino) y Decatipo (Sten) A continuación se presenta una tabla que sistematiza las medias aritméticas y desviaciones estándar de cada uno de los puntajes típicos mencionados.

Con relación al cálculo, se ha propuesto una expresión matemática que se muestra a continuación:

Donde: X= puntaje directo X1= media del grupo S= DE del grupo S2= DE del puntaje estándar elegido X2= media del puntaje estándar elegido •

Puntaje estándar o típicos normalizados Se obtienen a través de la conversión de los puntajes directos en puntuaciones Z, respetando la forma inicial de distribución de las puntuaciones.

1.2. Distribución normal y correspondencia con puntuaciones estándar Para dar una mejor lectura a las equivalencias, se usará la propuesta de Seashore (1955) acerca de ello.

Tomás Caycho Rodríguez Sergio Domínguez Lara

Fig. xx. Curva normal, percentiles y puntuaciones estándar. Tomado de Seashore (1955)

2. Aspectos Técnicos complementarios 2.1. Normas específicas o de centro Dichas normas hacen referencia a aquellas elaboradas a partir de grupo más específicos, en vez de amplios, es decir, con un rango menor de acción, pero que permiten comparar a la persona con sus futuros competidores (procesos de selección) o compañeros (evaluación de aptitudes en determinado nivel educativo), lo cual dará más certeza al evaluador al momento de brindar alguna conclusión respecto al examinado en relación a su grupo inmediato de referencia. 2.2. Obsolescencia de las normas

Tomás Caycho Rodríguez Sergio Domínguez Lara Esta situación, que es un problema real en nuestro medio, implica la renovación de baremos cada cierto tiempo, ya que se experimentan cambios en la población a consecuencia de los contextos sociales. El tiempo para renovar las normas se estima en 10 años.