Ato 1995

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA UNIDAD I. EL MÉTODO CIENTÍFICO Lectura 2 Ato, G. M. (1995) C

Views 146 Downloads 3 File size 489KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

UNIDAD I. EL MÉTODO CIENTÍFICO

Lectura 2 Ato, G. M. (1995) Conceptos Básicos. En: M. T., Anguera, J., Arnau, G. M., Ato, A. R., Martínez, Ll. J., Pascual, y S. G Vallejo. Métodos de Investigación en Psicología. España: Síntesis Psicología. Cap. 2. pp 45-72

1

CONCEPTOS BÁSICOS ...................................................... 2 Introducción ................................................................2 La inferencia causal como objeto .................................2 Dos teorías de la causación........................................................................ 2 Dos tradiciones de la investigación experimental ...................................... 3 Condiciones para el establecimiento de hipótesis causales........................ 4 La validez de la inferencia causal............................................................... 4 El papel de la aleatorización ........................................5 Las variables en el esquema de Kish .......................................................... 5 La variable de asignación........................................................................... 6 Ventajas y desventajas de la aleatorización ............................................... 7 El problema del confundido..........................................8 ¿Qué es el confundido?............................................................................... 8 El efecto del confundido............................................................................ 10 Sensibilidad y validez de la investigación ..................11 La tipología de la validez de Campbell y colaboradores 1) La tipología de 1963 .......................................................................................................... 12 La tipología de 1963 .........................................................................................12 La tipología de 1979 .........................................................................................13 Tipologías de la validez alternativas.................................................................13

Hacia un esquema práctico de la validez ................................................. 15 Validez Interna .................................................................................................16 Validez De Constructo......................................................................................16 Validez Externa ................................................................................................17

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

CONCEPTOS BÁSICOS Introducción

La metodología cuasi-experimental incorpora un conjunto de técnicas de diseño y análisis estadístico para afrontar situaciones donde no es posible o no es ético aplicar la metodología experimental, o donde los estrictos requisitos del método experimental no se satisfacen. Interesa por tanto a un amplio rango de disciplinas de carácter aplicado, cuyo contexto de investigación cae lejos del laboratorio y del ambiente controlado donde la experimentación suele aplicarse. Disciplinas tales como la psicología, la educación, las ciencias políticas y económicas, la epidemiología y algunas disciplinas jurídicas, entre otras, son potenciales consumidoras de métodos cuasi-experimentales. Sin embargo, el caldo de cultivo donde se ha prosperado hacia la situación de que goza hoy la metodología cuasi-experimental ha sido la evaluación de programas de intervención social. Fueron Campbell y Stanley quienes introdujeron el término cuasiexperimento en un prestigioso trabajo de 1963 y, más tarde, ampliaron en un difundido texto publicado 1979 por Cook y Campbell. El objeto que inicialmente persiguieron fue proponer diseños de investigación (junto con sus técnicas de análisis estadístico asociadas), potencialmente utilizables en contextos aplicados, donde la experimentación clásica no era aplicable, y que permitieran establecer inferencias causales válidas. Conviene no obstante precisar que los términos cuasiexperimento y cuasiexperimentación no son universalmente aceptados. Esta terminología es común dentro del vasto cuerpo de disciplinas que constituyen las ciencias sociales y se asocia con la escuela de Campbell y colaboradores. En ciencias de la salud, particularmente en epidemiología, suele emplearse en su lugar estudio comparativo (Anderson et al., 1980) como una derivación de lo experimental, mientras que en otros contextos se emplean denominaciones más generales tales como estudio observacional (por ejemplo, Cochran, 1983) o investigación controlada (Kish, 1975, 1987). Nos adherimos aquí, en lo que a terminología se refiere, a la escuela de Campbell y colaboradores. Hay tres aspectos esenciales que, desde nuestro punto de vista,

2

permiten caracterizar apropiadamente la naturaleza de la metodología cuasi-experimental. Son: a) La inferencia causal como objeto. b) El papel de la aleatorización. c) El problema del confundido. Consideramos a continuación detenidamente estos tres aspectos. La inferencia causal como objeto

Dos teorías de la causación Desde la perspectiva de la denominada teoría de la manipulabilidad, también conocida como teoría de la actividad (Mackie, 1974; Cook, Campbell y Peracchio, 1990; Cook y Shadish, 1994), la causación implica manipular deliberadamente algún agente que se encuentra bajo control y observar inmediatamente después si se produce un cambio en el fenómeno como consecuencia de tal manipulación. El vehículo metodológico más apropiado es el experimento, cuyo objeto es describir (y probar, en última instancia) si el cambio es función de la manipulación, pero no explicar cómo o porqué ocurrió. En contraposición a esta concepción simplista, muchos filósofos de la ciencia aspiran hoy, por el contrario, a identificar relaciones causa-efecto que son invariablemente ciertas porque todas las contingencias de las que depende una relación se conocen perfectamente; una perspectiva denominada teoría esencialista (Mackie, 1974; Cook, Campbell y Peracchio, 1990; Cook y Shadish, 1994). La prioridad de esta teoría se centra más en la explicación causal que en la descripción o la prueba del agente causal, en determinar por qué se produjo una conexión causal (y por ende, su perfecta predicción) más que en inferir que causa y efecto se relacionan. La simplicidad de la teoría de la actividad, que supone un mundo real caracterizado por la existencia de efectos principales que los experimentos tratan de identificar, contrasta con el inalcanzable conocimiento determinista de la teoría esencialista. Por esta razón, actualmente se conciben las relaciones causales en un contexto definido por complejos constructos teóricos de tratamiento, de respuesta, de población, de contexto y de período histórico. Los investigadores suelen medir indicadores específicos de tales constructos teóricos y utilizan después un experimento para probar si un resultado particular depende de la interacción estadística del tratamiento con los indicadores

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

utilizados. Los denominados estudios metaanalíticos se encargan después de sintetizar los resultados principales, identificando la mayoría de las contingencias causales predicadas por la teoría esencialista y permitiendo la generalización de las relaciones causa-efecto. Un tratamiento profundo de los estudios metaanalíticos se aborda en una compilación de Cook y otros (1992) y en una obra enciclópedica recientemente editada por Cooper y Hedges (1994). Dos tradiciones de la investigación experimental Por otra parte, no existe una concepción monolítica de la investigación experimen tal. Dos diferentes tradiciones de investigación experimental conviven actualmente en la práctica científica moderna, a saber: a) Por un lado, existe un tipo clásico de experimentación, más característico de las ciencias físicas y naturales y basado en la variabilidad intraindividual, donde algún tipo de intervención discreta se aplica en el contexto del laboratorio sobre muestras idealmente "puras" de materiales, con la finalidad de establecer predicciones numéricas precisas. El marco del laboratorio permite a los investigadores un control óptimo de las condiciones físicas y el aislamiento de materiales y variables dentro de cámaras protectoras, tubos de ensayo esterilizados, etc. Este tipo de tradición experimental, que Cook y Campbell (1986, p. 141) denominan tradición del control y aislamiento experimental, es el que se impuso en ciencias naturales durante los siglos XVII y XVIII. b)Por otro lado, existe otro tipo más reciente de experimentación, más característico de las ciencias sociales y basado en la variabilidad interindividual, consistente en sustituir el control y aislamiento experimental por el control estadístico obtenido fundamentalmente mediante procedimientos de asignación aleatoria de múltiples muestras a las condiciones experimentales. Este enfoque fue, en gran medida, elaborado en el contexto de la investigación agrícola por Fisher y colaboradores (Fisher, 1935) e importado después a la psicología y disciplinas afines, aunque existen interesantes antecedentes de esta tradición (por ejemplo, McCall, 1923). Cook y Campbell (1986, p. 142) lo denominan tradición del control estadístico. Curiosamente, ambas concepciones de la experimentación se practican actualmente en las ciencias del comportamiento (Ato, 1991). La primera concepción fue adoptada por G. T. Fechner y W. Wundt,

3

aplicada entre otros por E. L. Thorndike, H. Ebbinghaus e I. P. Pavlov durante el primer cuarto del siglo en psicología experimental y, tras complejas transformaciones, se practica hoy entre los seguidores de la corriente skinneriana del “Análisis Experimental de la Conducta" (Johnston y Pennypacker, 1980). El objetivo esencial de esta concepción es estudiar la conducta individual de uno (o de unos pocos) organismos, usualmente bajo un rígido control experimental basado en las técnicas de eliminación y constancia de variables extrañas, con el objetivo de encontrar relaciones funcionales estables entre la conducta y las variables que la determinan. El enfoque metodológico científico-natural tuvo su punto álgido a finales del siglo XIX y principios del XX; reducido inicialmente a los confines del laboratorio y a la investigación básica, pasó después a fundirse con la investigación desarrollada en contextos aplicados durante la década de los 60 y con la ulteriormente refinado, durante las décadas siguientes, originando un peculiar tipo de metodología experimental llamada metodología de caso único. Los aspectos cruciales de este modo de proceder se abordan en otro lugar en este mismo texto (véase Capítulo 6). La segunda tradición experimental, de antecedentes menos remotos y vinculada con la investigación en ciencias sociales y el estudio de las diferencias individuales, se convirtió hacia mediados de siglo en la forma más común de investigación comportamental al mismo tiempo que el enfoque científico-natural caía en descrédito. En psicología y disciplinas afines el control experimental óptimo de las infinitas variables extrañas practicado por el enfoque experimental tomado de las ciencias físicas resultaba en ocasiones imposible de obtener y, cuando se lograba, la conducta resultante aparecía trivial e irrelevante, en particular cuando el estudio de la conducta se realizaba en marcos naturales, lejos del laboratorio. Como consecuencia del desarrollo del razonamiento estadístico moderno, de la mano de sir R. Fisher, J. Neyman, E. S. Pearson y A. Wald, la tradición del control estadístico desarrolló el experimento aleatorio, basado en la comparación de grupos compuestos de unidades de respuesta asignadas al azar y tratados diferentemente. Esta idea se convirtió en el enfoque normativo de la investigación experimental para las ciencias sociales. (Véase Capítulos 3 y 5.) La metodología cuasi-experimental se desarrolló precisamente en el seno de esta tradición. Partiendo del experimento aleatorio como el marco ideal para el establecimiento de relaciones causa-efecto, propusieron alternativas al experimento aleatorio conservando todas las

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

propiedades de aquél, excepto la que justifica tal metodología: la asignación aleatoria de sujetos a tratamientos. Condiciones para el establecimiento de hipótesis causales Puesto que persigue el mismo ideal, la metodología cuasiexperimental no renuncia por tanto al objetivo final del experimento, el establecimiento de relaciones causa-efecto. Sin embargo, si tal objetivo es fácil de cumplir en el caso experimental, en el cuasi-experimental es, en ocasiones, muy difícil de alcanzar. En el marco de la teoría de la manipulabilidad, deben cumplirse varias condiciones para concluir que dos variables se relacionan causalmente y que la dirección de la causación procede desde X (supuesta causa o tratamiento) a Y (supuesto efecto o resultado). Kenny (1979, págs. 2-4) cita las siguientes: 1) En primer lugar, la causa X debe preceder en el tiempo al efecto Y. Esta condición se cumple siempre que los investigadores sepan cuándo se administró el tratamiento y registren los resultados inmediatamente después de su administración. Sin embargo, cuando se trata con sistemas dinámicos, en ocasiones puede aparecer cierto grado de ambigüedad en la dirección de la influencia causal, no sabiendo si es X lo que produce Y o es Y lo que produce X. 2) En segundo lugar, causa y efecto tienen que covariar. La existencia de covariación se decide en cualquier caso utilizando alguna prueba estadística a un nivel de probabilidad arbitrariamente seleccionado. La cuestión fundamental aquí se centra en determinar si los resultados debidos al tratamiento (llamados efectos de tratamiento) son de suficiente magnitud para ser detectados por la prueba estadística aplicada. Dos tipos de errores que pueden afectar a la conclusión estadística pueden cometerse en esta situación: a) Concluir que existen efectos de tratamiento cuando de hecho no existen (error tipo I). Este es el error que el investigador decide cometer al fijar α, la probabilidad de un error tipo I. b) Concluir que no existen efectos de tratamiento cuando de hecho existen (error tipo 11). 3) En tercer lugar, no debe haber explicaciones alternativas del efecto diferentes de la causa aducida. Esta es precisamente la condición más difícil de cumplir en la metodología experimental. Hay dos cuestiones asociadas con el término "explicación alternativa", a

4

saber: a) Cuestionar si efectivamente X como variable manipulada está causalmente relacionada con Y como variable medida. Esta es una cuestión de validez interna (Campbell y Stanley, 1966). Es posible encontrar terceras variables (también llamadas variables extrañas perturbadoras o, para completar el binomio X-Y, variables Z) que pueden explicar el cambio producido en Y. La existencia de terceras variables es común en metodología cuasi-experimental. b) Cuestionar si las operaciones utilizadas en la investigación (comúnmente llamadas indicadores en la literatura psicosociológica) son representativas de los constructos teóricos que se supone representan. Esta es una cuestión de validez externa (Campbell y Stanley, 1966). Muchas de las controversias actuales de las Ciencias Sociales se centran precisamente en esta cuestión. Este problema afecta por igual a experimentos y cuasiexperimentos. La validez de la inferencia causal La historia de la metodología cuasi-experimental es inseparable del desarrollo de una teoría de la validez de la inferencia causal. Gran parte de esta historia se debe al trabajo de Campbell y colaboradores (Campbell, 1957; Campbell y Stanley, 1966; Cook y Campbell, 1979; Campbell, 1986; Cook, Campbell y Peracchio, 1990), aunque es también importante la aportación de Cronbach (1982) y otros (véase Mark, 1986). El análisis se originó como consecuencia de la baja calidad de la inferencia causal y la escasa generalizabilidad de los hallazgos encontrados en la investigación social aplicada. La teoría de la validez de la inferencia causal no es sino un conjunto de conceptos ideados con la intención de promover inferencias causales más consistentes. La conceptualización original (Campbell y Stanley, 1966) distinguía entre la validez para el establecimiento de relaciones causa-efecto en un contexto particular (validez interna) y la validez para la generalización de tales relaciones a otros contextos (validez externa). Más adelante, se incorporaron dos nuevos tipos de validez (Cook y Campbell, 1976, 1979), uno de los cuales trataba cuestiones relativas al empleo de pruebas estadísticas para llegar a una conclusión particular (validez de la conclusión estadística) y el otro consideraba aspectos relativos a la generalización desde los indicadores causa y efecto específicamente

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

empleados en la investigación a sus correspondientes constructos de referencia (validez de constructo). Por su parte, Cronbach (1982) elaboró el modelo T-R-U-C-O, que tratamos más adelante, como la estructuración de un conjunto de aspectos involucrados en una investigación: Tratamiento, Respuesta, Unidades, Contexto y Ocasión, aunque éste último no fue inicialmente propuesto por este autor. En cualquier caso, este esquema puede ser también potencialmente utilizado para valorar la calidad de la inferencia causal obtenida en una investigación. Gran parte de los debates actuales se centran en las virtudes de uno u otro tipo de conceptualización (Campbell, 1986; Mark, 1986; Cook y Shadish, 1994). Pero una teoría de la validez, con los matices que se quieran introducir, puede en la práctica aplicarse con provecho para juzgarla calidad de la investigación en muchas disciplinas aplicadas (Wortman, 1983, 1994; Ato, 1991; Ato y Rabadán, 1991). El papel de la aleatorización

Las variables en el esquema de Kish En el esquema propuesto por Kish (1975; 1987) se distingue entre dos grandes tipos de variables, a saber: 1) Las variables que son el fundamento de la relación causa-efecto objeto de investigación son las Variables Explicativas (clase I). Las que actúan como supuestas causas son las variables independientes o variables de tratamiento (predictores) y las que se toman como efectos son las variables dependientes o variables de respuesta (criterios). 2) Todas las variables ajenas a las que conforman la relación causal son Variables Extrañas. Puede distinguirse a su vez dos grupos de variables extrañas: a) Las Variables Controladas (clase II) constituyen un grupo selecto de variables extrañas que pueden ser adecuadamente controladas por medio del diseño de investigación. El control puede ejercerse mediante técnicas de selección (control experimental), mediante técnicas de estimación (control estadístico) o por ambas. En cualquier caso, tales procedimientos se utilizan con el objeto de reducir los errores aleatorios de las variables de la clase lE o los efectos de sesgo de las variables de la clase IV.

5

b) Las Variables No Controladas constituyen el resto de variables extrañas. A su vez pueden distinguirse dos grandes tipos: i) Las Variables Aleatorizadas (clase III) son variables extrañas no controladas que se tratan como errores aleatorios. La aleatorización puede ser considerada desde otra perspectiva como una forma de control experimental, pero diferente del utilizado para variables de la clase II. ii) Las Variables Perturbadoras (clase IV) son variables extrañas no controladas que pueden relacionarse con las variables explicativas produciendo en ocasiones una situación denominada confundido. En general, un diseño de investigación es tanto más eficiente cuantas más variables de la clase IV sea capaz el investigador de trasladar a la clase II. La función de las pruebas estadísticas consiste en distinguir el efecto sistemático de las variables de la clase I de los efectos aleatorios de las variables de la clase III dentro de niveles de probabilidad especificados. El objeto de la aleatorización en una investigación experimental es el traslado de todas las variables de la clase IV ala clase III. En un experimento ideal, no existen variables de la clase IV; algunas variables perturbadoras han sido trasladadas a la clase II (mediante control experimental o estadístico) y la gran mayoría son variables de la clase III. Pero lo deseable es que se inviertan los términos, puesto que al colocar variables perturbadoras en la clase II se evitan los efectos perjudiciales que tendrían de encontrarse entre las variables de la clase III. Además, la separación de variables de la clase I de la clase III mediante aleatorización de todas las variables extrañas de la clase III supone la independencia entre ambos grupos de variables y las pruebas estadísticas contrastan los efectos de las variables aleatorizadas contra las variables explicativas. Pero en una investigación cuasi-experimental, la incorporación de una (o más) variable/s perturbadora/s como variables de la clase II es un objeto en sí mismo, debido a que no existe aleatorización y por tanto no es posible trasladar ninguna variable extraña de la clase IV a la clase III. En tal caso, las variables perturbadoras pueden presentarse con facilidad en situación de confundido. Las pruebas estadísticas contrastan en este caso los efectos de las variables explicativas de la clase I contra las variables aleatorizadas de la clase III (si existen) confundidas con los

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

efectos desconocidos de las variables de la clase IV. Más adelante volveremos sobre ello. La variable de asignación El diseño experimental típico posee dos características distintivas esenciales: a) El control/manipulación activa de (al menos) una variable independiente. b) El uso de una regla de asignación aleatoria para asignar sujetos a los niveles de la variable independiente. Mientras que, tal y como lo entendemos aquí, el diseño observacional y el diseño de encuesta no cumple ninguna de estas dos características, el diseño cuasi-experimental cumple con la primera, pero no con la segunda. Por el contrario, el diseño experimental con las dos. A este aspecto, Judd y Kenny (1981, cap. 2) han distinguido entre tres procedimientos para asignar sujetos a tratamientos. La variable (real o ficticia) que produce el reparto de los sujetos entre los tratamientos es la variable de asignación y su regla de correspondencia es la regla de asignación. Partiendo del caso más simple, donde sólo hay dos grupos, un grupo experimental (GE) que recibe un tratamiento y un grupo de control (GC) que no lo recibe, la asignación puede ser: 1) Aleatoria. Una vez seleccionada una muestra de cierta población, todos los sujetos de la muestra son asignados al azar a uno de los dos grupos (GE y GC). En esta situación puede afirmarse sobre bases probabilísticas que los grupos son iguales antes de iniciar la administración del tratamiento en un abundante conjunto de variables (denominadas variables aleatorizadas en el esquema de Kish). 2) No aleatoria pero conocida. Los sujetos se asignan a uno de los dos grupos (GE o GC) en función de la puntuación obtenida en un pretest de la misma medida utilizada para evaluar el impacto del tratamiento. 3) No aleatoria ni conocida. No se conoce exactamente sobre qué variable/s se constituyen los grupos GE y GC. Explicaremos estos conceptos en el marco de un ejemplo. Supongamos que un investigador se interesa por evaluar el impacto de un programa de educación compensatoria sobre el desarrollo cognitivo de los niños medido con una conocida prueba. Para ello, decide trabajar con un grupo de niños desventajados que recibirá el programa (GE) y

6

otro grupo de niños, también desventajados, que no recibirá el programa (GC). Un problema inicial concierne al modo como los niños se asignan a una de las dos condiciones. El objetivo esencial reside en asegurar que los niños obtengan puntuaciones similares en desarrollo cognitivo antes de comenzar la administración del programa. La única forma de garantizar este objetivo es acometer el proceso de asignación de niños a una u otra condición sobre la base de alguna variable no relacionada con la medida obtenida en el test. La razón de ser del diseño experimental es precisamente que la variable de asignación no correlaciona, dentro de límites probabilísticos, con ninguna otra variable, es decir, es una variable cuyos valores se han generado aleatoriamente. En el contexto del ejemplo, para conseguir este objetivo, se precisa decidir que cada niño reciba el programa o no lo reciba sobre bases estrictamente aleatorias. La regla de asignación de sujetos a uno de los dos grupos se dice entonces conocida y aleatoria y su propósito es la equivalencia inicial entre GE y GC. Nótese que, si GE y GC son inicialmente equivalentes, en ausencia de efectos debidos al programa, es esperable que alcancen al final del mismo puntuaciones iguales o muy similares. Resulta útil imaginar la variable de asignación como una variable con dos valores (1 para el GE y 0 para el GC) que se generan de forma estrictamente aleatoria. Así, por ejemplo, la tabla siguiente presenta las puntuaciones en desarrollo cognitivo (DC) de 100 sujetos que se asignan a grupos siguiendo una regla aleatoria donde es notorio que la asignación a grupos es independiente de la puntuación obtenida por el sujeto en desarrollo cognitivo (DC). Sujeto 1 2 3 4 5 … 96 97 98 99 100

DC 41 62 39 43 46 … 49 60 54 45 57

Grupo GC GE GE GC GE … GC GE GC GC GC

V. Asignación 0 1 1 0 1 … 0 1 0 0 0

En general, en contextos sociales y educativos, la aplicación de una regla de asignación aleatoria tropezará con el rechazo de los padres y profesores. Una solución quizás más aceptable, aunque algo desviada

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

del propósito de la investigación, consistiría en administrar en el contexto de una consulta psicológica escolar el test de desarrollo cognitivo administrar el programa al subconjunto de niños que obtuvieran puntuaciones por debajo de una puntuación de corte predeterminada y no administrarlo al subconjunto que obtuvieran puntuaciones por encima de tal puntuación de corte. Al término del periodo de tratamiento, los individuos participantes volverían a ser evaluados con el mismo instrumento a fin de determinar el impacto del programa. En este caso, la regla de asignación no es aleatoria, aunque sí es conocida puesto que la administración del tratamiento depende del resultado inicial obtenido en el test de desarrollo cognitivo. La variable de asignación en este caso hace los grupos deliberadamente no equivalentes, pero las diferencias son susceptibles de ajuste estadístico en el postest. Así, suponiendo una puntuación de corte de 46 puntos, la asignación a grupos de la tabla anterior consistiría en asignar a sujetos al GE si obtienen puntuaciones iguales o superiores a 46 y al GC si obtienen puntuaciones inferiores, y entonces la situación queda como sigue: V. Sujeto DC Grupo Asignación 1 41 GC 0 2 62 GE 1 3 39 GC 0 4 43 GC 0 5 46 GE 1 … … … … 96 49 GE 1 97 60 GE 1 98 54 GE 1 99 45 GC 0 100 57 GE 1 En muchas ocasiones se presentan situaciones en las que la regla de asignación no es aleatoria ni se basa en una variable conocida. En nuestro caso, por ejemplo, si se deseara aplicar el programa de educación compensatoria en el marco de un aula especial ya constituida (GE) y comparar con otra aula especial también existente (GC). El problema que se plantea entonces es saber sobre qué influencia/s se ha podido generar la variable de asignación. Es extremadamente difícil igualar GE y GC sobre la base de la variable de asignación, porque es desconocida. En tales casos es conveniente intentar igualar sobre la

7

variable de asignación de forma indirecta, utilizando medidas pretest para ajustar las diferencias en el postest. Ventajas y desventajas de la aleatorización La principal virtud de la aleatorización es que, con alta probabilidad, los dos grupos 4o-básico serán inicialmente similares en la variable dependiente. La única diferencia sistemática existente entre ambos es que uno (el GE) recibe el tratamiento, intervención o programa de interés mientras que el otro (el GC) no recibe el tratamiento. Por tanto, en ausencia de efectos de tratamiento, la distribución de la variable de pendiente será similar en ambos grupos. Anderson et al (1980, págs. 32-35) han destacado las siguientes propiedades de la aleatorización: 1) La aleatorización generalmente implica una distribución similar de las características de sujeto en cada grupo y por tanto facilita la inferencia causal. Si el número de sujetos es grande, es improbable que los grupos difieran con respecto a alguna característica que pueda afectar al resultado bajo estudio. 2) La aleatorización elimina los sesgos de selección. Si una muestra seleccionada de una población se asigna a grupos mediante una regla de asignación aleatoria, no existe ninguna posibilidad de que los sesgos o preferencias iniciales de los investigadores sobre la naturaleza de los sujetos a quienes se administrará el tratamiento, intervención o programa puedan influir en los resultados. Aunque la aleatorización tiende a equilibrar los dos grupos con respecto a potenciales variables perturbadoras, no excluye absolutamente la posibilidad de que ambos grupos no queden equibrados en una o más características individuales. Esta posibilidad es tanto menor cuando mayor es el tamaño de los grupos. 3) La aleatorización proporciona una base para la inferencia estadística. El proceso de aleatorización permite asignar probabilidades a diferencias observadas en la variable dependiente bajo la hipótesis (nula) de que el tratamiento, intervención o programa no ejerce efecto alguno y practicar en consecuencia las correspondientes pruebas de significación. Con todo, existen varias razones que aconsejan el empleo de técnicas de control diferentes ala aleatorización en ciertos casos.

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

8

Anderson et al. (1980, págs. 36-7) destacan las siguientes: a) Los estudios no aleatorizados son a veces el único medio ético de realizar investigación. En efecto, cuando la naturaleza del tratamiento es potencialmente dañina, no resulta ético utilizar una regla de asignación aleatoria. Por ejemplo, en investigación biomédica, para evaluar el efecto de una nueva droga. En otras ocasiones, los supuestos efectos benéficos de un programa (por ejemplo, programas de educación compensatoria) hacen aconsejable que se administre a todos los posibles sujetos receptores. b) Los estudios no aleatorizados son usualmente más baratos. Los estudios no aleatorizados requieren una planificación y control mucho menos extensivo que los estudios aleatorizados y por ello son particularmente atractivos en las primeras etapas de un problema de investigación. c) Los estudios no aleatorizados se aproximan en mayor medida a situaciones cotidianas. En la medida en que la aleatorización difere de los mecanismos de selección natural, las condiciones de un estudio aleatorizado pueden ser completamente diferentes de aquéllas en las que el tratamiento debe ser ordinariamente aplicado. El problema del confundido

¿Qué es el confundido? Poco tiempo antes de aprobar la legislación vigente acerca de la obligatoriedad en el uso del cinturón de seguridad, un investigador X intentaba determinar si la tasa de mortalidad (TM) de los conductores involucrados en accidentes de automóvil es función de la utilización del cinturón de seguridad. Para ello eligió una "zona de alto riesgo", un punto negro que exhibía una limitación de velocidad de 60 Km/h, y registró los 100 primeros accidentes que tuvieron lugar en dicha zona, observando el estado físico del conductor para determinar si se había producido la muerte (instantánea o demorada) o si por el contrario el conductor resultó vivo del accidente. Los resultados se muestran en el Cuadro 2.1. CUADRO 2.1. Estado del conductor y uso de cinturón.

Uso del cinturón

Estado del conductor

Tasa de mortalidad

Muerto

Vivo

Total

Sí No

6 9

54 31

60 40

6/60 = 0.100 9/40 = 0.225

Total

15

85

100

15/10 = 0.150

La tasa de mortalidad TM para quienes conducían con cinturón fue: TM(Sí) = 6/60 = 0.100, mientras que para quienes lo hacían sin cinturón fue: TM(No) = 9/40 = 0.225. En consecuencia, estos resultados indicaban que es 2.25 veces más probable un accidente de consecuencias fatales cuando se conduce sin cinturón de seguridad que cuando se conduce con él. Esta interpretación presenta serias deficiencias. Desde un punto de vista lógico, la variable “uso del cinturón" no puede entenderse como una auténtica variable causal, es decir resulta absurdo pensar que la causa de la muerte sea precisamente llevar o no cinturón de seguridad, aunque ciertamente parece, a la vista de los datos empíricos, que puede coadyuvar al resultado final. Afortunadamente, el investigador también registró la velocidad (estimada) del vehículo en el momento del accidente, y particularmente si era o no superior a 100 Km/h., una velocidad con la que cualquier vehículo resultaba ya difícil de controlar en el punto negro objeto de evaluación. Un análisis secundario de los datos del Cuadro 2.1, incorporando la variable "Velocidad del vehículo", se exhibe en el Cuadro 2.2. Estos resultados conducen a una interpretación muy diferente. La TM para quienes circulaban a menos de 100 Km/h en el momento del accidente fue muy baja para quienes llevaban cinturón: TM(Sí I < 100) = 2/55 = 0.036, y para quienes no lo llevaban: TM(No I < 100) = 1/30 = 0.033. Aunque existe una notable similaridad entre ambas tasas de mortalidad, en realidad resultan prácticamente insignificantes. Por el contrario, para quienes circulaban a más de 100 Km/h, la TM fue muy alta tanto para quienes llevaban cinturón: TM(Sí I > 100) = 4/5 = 0.800,

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

como para quienes no lo llevaban: TM(No I > 100) = 8/10= 0.800, una tasa más de 20 veces superior a la anterior. CUADRO 2.2. Cuadro 2.1 en función de la velocidad del vehículo. Velocidad Uso del Estado del conductor del vehículo cinturón Muerto Vivo Total 100 Km/h

Tasa de mortalidad

Sí No

2 1

53 29

55 30

2/55 = 0.036 1/30 = 0.033

Total

3

82

85

3/85 = 0.035

Si No

4 8

1 2

5 10

4/5 = 0.800 8/10 = 0.800

Total

12

3

15

12/15 = 0.800

Como probablemente habrá ya sospechado, estos datos son hipotéticos. Se inspiran en un ejemplo similar desarrollado por Anderson y otros (1980, p. 2-3). Su objetivo no es en absoluto impugnar la indiscutible utilidad del cinturón de seguridad, sino ilustrar de una forma intuitiva y didáctica el importante problema interpretativo que supone la exclusión de una variable importante. La variable "Velocidad del vehículo" es, en este contexto, una tercera variable o variable de confundido porque enmascara o confunde el efecto que la variable que actúa como independiente ("Uso del cinturón") posee sobre la dependiente ("Estado físico final del conductor"). Nótese que, para cada uno de los niveles de la variable "Velocidad del vehículo", el uso o no del cinturón de seguridad no tiene ningún efecto sobre las tasas de mortalidad y por tanto puede afirmarse que el "Uso del cinturón" es una variable irrelevante. Su relación con el "Estado físico del conductor" después del accidente se denomina espuria porque se difumina como tal relación (o sea, pasa a ser cero) después de tomar en cuenta los niveles de la variable "Velocidad del vehículo". Esta relación espuria puede comprobarse empíricamente con el estadístico de Mantel-Haenszel (1959; véase Fleiss, 1981), que prueba la relación funcional entre dos variables categóricas binarias (en el ejemplo, el "Uso del cinturón" y el "Estado del conductor") controlando

9

una tercera (la "Velocidad del vehículo"): (X2MH = 0.003; P = 0.958, lo que conduce a admitir la hipótesis nula de no relación entre ambas variables, y por tanto, la supuesta relación encontrada en el Cuadro 2.1 entre el uso del cinturón y el estado del conductor se disipa tras controlar la velocidad del vehículo en el momento del accidente (Cuadro 2.2). La razón que justifica la relación espuria encontrada entre el uso del cinturón y el estado final del conductor accidentado se debe seguramente a que la probabilidad de utilizar el cinturón de seguridad es mayor entre conductores precavidos, que suelen respetar las señales de tráfico y conducir con prudencia, que entre conductores arriesgados, que pasan por alto las señales de tráfico y conducen con grave riesgo de sus vidas. Las probabilidades respectivas son, para quienes conducían a menos de 100 Km/h, 55/85 = 0.647 y para quien conducían a más de 100 Km/h., 5/15=.333, aproximadamente la mitad. Compárense, para matizar en mayor medida estos conceptos, los datos del Cuadro 2.2 con los del Cuadro 2.3. Observe ahora que, dependiendo de los niveles de la variable “Velocidad del vehículo", las tasas de mortalidad obtenidas usando o no el cinturón de seguridad son netamente diferentes. Circulando a menosde 100 Km/h, no hay diferencias entre las tasas de mortalidad: TM (Si |< 100) = 4/44 = 0.091 y TM (No | < 100) = 3/33 = 0.091, mientras que circulando a más de 100 Km/h, difieren por un factor de 6.85: TM(Sí |> 100) = 2/16 = .125 y TM(No/ > 100) = 6/7 = 0.857. CUADRO 2.3. Cuadro 2.2 reformulado con nuevos datos empíricos.

Sí No

4 3

40 30

44 33

Tasa de mortalidad 4/44 = 0.091 3/33 = 0.091

Total

7

70

77

7/77 = 0.091

Si No

2 6

14 1

16 7

2/16=0.125 6/7 = 0.857

Total

8

15

23

8/23 = 0.348

Velocidad Uso del Estado del conductor del vehículo cinturón Muerto Vivo Total 100 Km/h

Esta situación sugiere, contrariamente al caso anterior, que el uso del cinturón no es una variable irrelevante, y por tanto no es espuria, puesto

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

que la relación se mantiene después de tomar en cuenta la variable de confundido. Aplicando la prueba de Mantel- Haenszel (χ2MH = 4.650; P = 0.031, rechazamos la hipótesis nula de no relación funcional entre el uso del cinturón y el estado físico del conductor controlando la velocidad del vehículo. Nótese además las escasas diferencias encontradas en las probabilidades respectivas de utilizar el cinturón de seguridad entre conductores que conducían a menos de 100 Km/h. (una probabilidad de 44/77 = 0.571) y los que lo hacían a más de 100 Km/h. (una probabilidad de 16/23 = 0.696). Pero lo más importante en este caso es comprobar que las tasas de mortalidad de los que llevan o no cinturón es la misma para los que conducían a menos de 100 Km/h. (TM de 0.091 en ambos casos) y netamente diferentes para los que conducían a más de 100 Km/h, una situación que induce a sospechar la existencia de interacción entre del "Uso del cinturón" y la "Velocidad del vehículo". En esta situación, se dice que la velocidad del vehículo es una variable moderadora de la relación funcional existente entre el uso del cinturón y el estado físico del conductor tras el accidente. En resumen, la distorsión que una tercera variable produce sobre la relación funcional existente entre dos variables explicativas es subsidiaria del cumplimiento de dos condiciones básicas: 1) La tercera variable muestra una alta relación con la variable de respuesta. Esta condición se cumple en ambos casos. En el Cuadro 2.2, tomando los totales de fila correspondientes (3, 82, 12 y 3) se rechaza la hipótesis nula de independencia (X21 = 58.478; P = 0.000) y en el Cuadro 2.3, con los totales de fila respectivos (7, 70, 8 y 15) también se rechaza (X21¡ = 9.168; P = 0.002). 2) La tercera variable se relaciona funcionalmente con la variable independiente. Esta condición se cumple en el Cuadro 2.2, ya que tomando los totales de fila correspondientes (55, 30, 5, 10) y aplicando una prueba al uso obtenemos una asociación estadísticamente significativa (X21 = 5.229; P = 0.022) entre la velocidad del vehículo y el uso del cinturón. Pero no se cumple en el Cuadro 2.3, ya que aplicando una prueba de asociación sobre los totales de fila correspondientes (44, 33, 16 y 7) obtenemos que ambas variables son independientes (X21 = 1.139; P = 0.286).

10

tercera variable, y la relación es espuria, lo cual demuestra que la variable independiente es una variable irrelevante y que no existe un vínculo causal con la variable dependiente. En esta situación se dice que la tercera variable es una auténtica variable de confundido. b) En el Cuadro 2.3, la relación entre variable independiente y variable dependiente se mantiene cuando se toma en cuenta la tercera variable, pero la relación es diferente en función del nivel de aquélla. En este caso se dice que la tercera variable es una variable moderadora. El efecto del confundido Veamos otro ejemplo. Un investigador X desea saber si un programa de adiestramiento cognitivo produce diferencias en riqueza de "Vocabulario" en niños de primer ciclo de primaria. Para ello utiliza dos grupos de niños, uno de los cuales (GE) fue tratado con el programa mientras que el otro (GC) no siguió ningún programa específico de enriquecimiento. La asignación a los grupos fue establecida por la administración del colegio donde tuvo lugar la experiencia, y utilizó como GE alumnos voluntarios de primer ciclo y como GC sujetos tomados de las mismas aulas. Resultó que las distribuciones de "Edad" de ambos grupos eran netamente diferentes y presentaban un promedio mayor en el GE que en el GC. En concreto, los promedios de edad (enmeses) fueron, para el grupo experimental, XGE = 80.410 y para el grupo de control, XGC = 69.820. Los resultados finales del programa se exhiben en la Figura 2.1. Las pendientes de regresión para los grupos experimental (GE) y control (GC) fueron, respectivamente: YGE = bo E + b,XcE = -24.770 + 1.994XGE YGC = b0GC + b1XGC = -90.057 + 2.042XGC

a) En el Cuadro 2.2, la relación entre variable independiente y variable dependiente se difumina cuando se toma en cuenta una Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

11

entonces δ = YGE -YGC = 135.568 - 52.515 = 83.053 y la estimación del efecto de tratamiento (83.053) no coincide con el efecto de tratamiento real encontrado (65.287). La diferencia es, precisamente, una medida del sesgo de estimación, YGE- YGC = (BoGE + B1XGE) – (B0GC + B1XGC) = (BoGE + B1XGC) + b1 (XGE - XGC) = Efecto de tratamiento + Efecto de sesgo La Figura 2.2 resume gráficamente este resultado.

EDAD (en meses)

Figura 2.1. Pendientes de regresión para GE y GC. La pendiente b1, que suponemos estadísticamente diferente de cero, es prácticamente similar en las dos ecuaciones, como se observa en la figura, pero las intercepciones b0GE y b0GC son diferentes (nótese que X se representa desde el valor 50). En este caso, la variable "Edad" cumple las condiciones que señalamos anteriormente para identificar una variable de confundido. En primer lugar, la riqueza de vocabulario mejora con el aumento en edad (primera condición, que se comprueba si β > 0 y en segundo lugar, los grupos GE y GC tienen distribuciones de edad con medias diferentes (segunda condición, como puede observarse en la Figura 2.1). Si asumimos además que edad y programa de adiestramiento son los únicos factores que afectan al enriquecimiento de vocabulario, o lo que es lo mismo, que ambas variables se miden sin error, es posible determinar el efecto de tratamiento real mediante la distancia vertical entre las intercepciones, o sea, δ = b0GE - b0GC = -24.77 - (-90.057) = 65.287. Cuando la variable dependiente es numérica, en el caso de dos grupos el efecto del tratamiento puede estimarse fácilmente calculando la diferencia en los promedios de los grupos: d = YGE - YGC y en consonancia con las ecuaciones anteriores: YGE = b0GE + b1 XGE = -24.770 + 1.994 XGE = -24.770 + (1.994) (80.410) = 135.568 YGC = b0GC + b1XGC = -90.057 + 2.042 XGC = -90.057 + (2.042) (69.820) = 52.515

Figura 2.2. Descomposición del efecto de tratamiento en presencia de sesgo. Nótese que el sesgo de estimación sería cero si las distribuciones de edad de ambos grupos fueran exactamente iguales, pues en tal caso los promedios de edad para GE y GC coincidirían en una misma vertical y d seria igual a S. Sólo en este caso es posible obtener una estimación válida del efecto de tratamiento. Esta situación se representa en la Figura 23. En la medida en que ambas distribuciones de edad discrepen, tanto mayor será el sesgo de estimación correspondiente. Sensibilidad y validez de la investigación

Toda investigación comienza con una hipótesis causal, que plantea una relación causal entre un Tratamiento (supuesta causa) y una

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

Respuesta (supuesto efecto) para alguna población o Universo en algún Contexto físico y en una Ocasión temporal localizada. Los elementos de este argumento se resumen en el acrónimo T-R-U-C-O. Dos ejemplos:

EDAD (en meses)

Figura 2.3. Descomposición del efecto de tratamiento en ausencia de sesgo. a) El programa "J" de enriquecimiento cognitivo mejora las habilidades lingüísticas de niños de baja extracción social. b) La campaña publicitaria "K" sobre el peligro del tabaco es efectiva para reducir el hábito en personas de alto nivel educativo que viven en grandes ciudades. Cuando se diseña una investigación, los constructos tratamiento o causa (el programa "J" y la campaña publicitaria "K" en el ejemplo) y respuesta o efecto (habilidades lingüísticas y reducción del hábito) tienen que ser traducidos en operaciones susceptibles de manipulación y/o medida. Este proceso se denomina operacionalización. Una vez finalizade la investigación debe calcularse un efecto de tratamiento, definido como la influencia del tratamiento sobre el resultado, y a continuación plantearse dos cuestiones esenciales: a) En primer lugar, si el efecto de tratamiento puede ser detectable mediante una prueba estadística al uso. b) En segundo lugar, si el efecto de tratamiento es representativo y estable (no han intervenido en el mismo causas

12

ajenas al tratamiento) y generalizable (puede extrapolarse a otras situaciones diferentes). Ambas cuestiones se enraizan en el concepto general de validez. El primer aspecto corresponde a lo que, siguiendo a Lipsey (1990) y Saxe y Fine (1981), denominaremos aquí sensibilidad de la investigación, definida como la probabilidad de que un efecto, si está realmente presente, pueda ser detectado. Esta es una cuestión objetiva abordable estadísticamente. El segundo aspecto corresponde a lo que usualmente se conoce por validez de la investigación, y se refiere a la verosimilitud de que lo que se detecta sea, de hecho, el efecto (teórico) por el que el investigador se ha interesado. Esta es una cuestión eminentemente subjetiva que no es empíricamente abordable. La distinción se fundamenta además en los conceptos de sesgo y error. Cuando se estima un efecto de tratamiento, la subestimación o sobreestimación de la magnitud del efecto es un sesgo e indica que se ha producido algún tipo de confundido. Sin embargo, puede suceder que el efecto de tratamiento se haya estimado sin sesgo pero que ocurra algún error al concluirse que el tratamiento es significativo, cuando de hecho no lo es (error tipo I) o al concluir que el tratamiento no es significativo cuando en realidad sí lo es (error tipo II). Esta situación se produce porque tal conclusión se adopta en base al resultado de una prueba estadística, que en términos muy generales puede definirse como una razón entre un efecto de tratamiento (componente sistemático), en el numerador, contra otras fuentes de variación no sistemáticas, ajenas al tratamiento (componente aleatorio), en el denominador. Un equilibrio inadecuado entre ambos componentes puede producir conclusiones inapropiadas. La tipología de la validez de Campbell y colaboradores 1) La tipología de 1963 La tipología de 1963

Como se apuntó más arriba, fue en un trabajo de Campbell y Stanley (1966), posteriormente publicado de forma monográfica (1966), donde por primera vez se plantea una tipología de la validez de la investigación, que distinguía entre: a) La validez interna, que se refiere al grado de confianza con que puede inferirse si una relación causa-efecto entre dos (o más) variables es o no interpretable en el sentido apuntado por el

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

investigador. b) La validez externa que concierne al grado de confianza o credibilidad con que puede concluirse si una relación causa-efecto encontrada entre dos (o más) variables es o no representativa, o sea, puede ser generalizada a otros contextos diferentes a aquél utilizado por el investigador.

13

conclusión estadística. b) Suponiendo que tal relación exista, ¿es la variable de tratamiento la que causa el resultado o efecto o por el contrario éste se habría obtenido en ausencia de aquélla?: Validez interna. c) Suponiendo que la relación es presumiblemente causal y se ha obtenido con indicadores de constructos causa y efecto arbitrariamente elegidos, ¿cuáles son los constructos causa y efecto particulares involucrados en la relación estudiada? ¿Qué relación mantienen con los indicadores utilizados? ¿Hasta qué punto puede generalizarse de indicador a su constructo?: Validez de constructo. d) Y similarmente, dada una relación supuestamente causal obtenida con indicadores de los constructos de población de individuos (indicador: muestra de sujetos), contexto de investigación (indicador: lugar físico donde se realiza la investigación) y momento temporal, ¿hasta qué punto puede generalizarse desde los indicadores a sus constructos respectivos?: Validez externa.

Para cada tipo de validez, Campbell y Stanley presentaron y discutieron una lista de posibles amenazas contra la validez; es decir, de hipótesis rivales verosímiles, que potencialmente podrían explicar los resultados. Como expresaron sus autores: "ambos criterios son sin duda importantes, aunque con frecuencia se contrapongan, en el sentido de que ciertos aspectos que favorecen a alguno de ellos perjudica (de alguna forma) al otro. Si bien la validez interna es el sine qua non y a la cuestión de la validez externa, como a la de la inferencia inductiva, nunca se puede responder plenamente, es obvio que nuestro ideal lo constituye la selección de diseños ricos en una y otra validez" (Campbell y Stanley, 1966/1973, págs. 16-17). La validez interna incluía un total de 8 amenazas; la validez externa, sólo 4.

La lista original de amenazas contra los cuatro tipos de validez se presenta en el Cuadro 2.4.

La tipología de 1979

Tipologías de la validez alternativas

La aparición de ciertas ambigüedades interpretativas llevaron a sus autores a ensayar más tarde una nueva conceptualización, desarrollada a partir de la anterior, que se publicó primero en un manual sobre psicología industrial (Dunnette, 1976) y luego en una monografía sobre cuasi-experimentación (Cook y Campbell, 1979). La nueva conceptualización de la validez amplió la dicotomía interna/externa incorporando dos nuevos tipos de validez (validez de la conclusión estadística y validez de constructo), amplió la lista de amenazas hasta un total de 33 y proporcionó una definición algo más explícita de validez: "Utilizamos los conceptos de validez e invalidez para hacer referencia a la mejor aproximación disponible a la verdad o falsedad de las proposiciones" (Cook y Campbell, 1979, pág. 37). La justificación y jerarquización de esta tipología, según afirman sus autores, se fundamenta en la correspondencia con la práctica cotidiana del investigador, quien se plantea los pasos siguientes durante el proceso de investigación: a) ¿Existe una relación funcional establecida entre la variable de tratamiento y la variable de respuesta?: Validez de la

Pese a que la conceptualización de Campbell y colaboradores ha pasado a pertenecer al acerbo metodológico de las ciencias sociales, abundan otras tipologías alternativas. Por ejemplo, Cronbach (1982), Krathwohl (1985) y Trochim (1986). Un exhaustivo análisis de Mark (1986) destaca que todas ellas tienen en común la descripción de las relaciones causa-efecto cuyos cinco elementos esenciales pueden resumirse con un argumento que refleja el acrónimo T-R-U-C-O: El tratamiento (T) produce un respuesta (R) con las unidades (U) dentro del contexto (C) y en la ocasión (O).

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

CUADRO 2.4. Amenazas contra la validez: Cook y Campbell (1979).

Validez de la conclusión estadística

Baja potencia estadística. Violación de los supuestos de las pruebas estadísticas. Violación del error tipo I. Fiabilidad de la medición de la respuesta. Fiabilidad de la administración de los tratamientos. Irrelevancias aleatorias del contexto de investigación. Heterogeneidad aleatoria de las unidades de respuesta.

Validez interna

Historia. Maduración. Administración de pruebas. Instrumentación. Regresión estadística. Selección. Mortalidad selectiva. Interacciones con selección. Ambigüedad en la dirección de la relación causa-efecto. Difusión e imitación de tratamientos. Igualación compensatoria de tratamientos. Rivalidad compensatoria de los sujetos. Desmoralización de los sujetos.

Validez de constructo

Explicación preoperacional inadecuada. Sesgos derivados del uso de una operación única. Sesgos derivados del uso de un solo método. Adivinación de hipótesis. Recelo de evaluación. Expectativas del experimentador. Confusión de constructos y niveles de constructo. Interacción de tratamientos intrasujeto. Interacción de administración de pruebas y tratamiento. Generalidad restringida entre constructos.

14

Cronbach (1982), quien distingue tres niveles de generalización para cada uno de los elementos involucrados en la relación, a saber: — Un primer nivel de indicador, etiquetado con letras minúsculas, que representa la particular operacionalización de tratamiento (t), respuesta (r), unidad (u), contexto (c) y ocasión (o). Este último es un elemento no contemplado por Cronbach pero que incluimos aquí con propósitos pedagógicos comparativos. — Un segundo nivel de constructo real, etiquetado con letras mayúsculas, que representa los constructos causa (T), efecto (R), población (U), contexto (C) y ocasión (0) involucrados en la investigación. — Un tercer nivel de constructo extrapolado, etiquetado con letras mayúsculas con asterisco, que representa un nivel superior de generalización a los constructos causa (*T), efecto (*R), población (*U), contexto (*C) y ocasión (*O). La Figura 2.4 (modificada de Cook, Campbell y Peracchio, 1990, pág. 496) representa las ideas fundamentales del esquema de Cronbach. Las líneas continuas representan aquí la generalización de indicador a constructo real; las discontinuas, la generalización de indicador a constructo extrapolado.

Figura 2.4. Notación del concepto de validez según Cronbach (1982).

Validez externa

Interacción selección-tratamiento (validez de población). Interacción contexto-tratamiento (validez ecológica). Interacción historia-tratamiento (validez histórica).

Quizá la más interesante de todas ellas sea la formulada por

En el argumento TRUCO, la correspondencia entre los elementos básicos del proceso de investigación y la tipología de Campbell y colaboradores es clara: los elementos (T) y (R) conciernen respectivamente a la validez de constructo de causas y efectos, los elementos (U), (C) y (O) corresponden a los aspectos fundamentales de la validez externa (validez de población, validez ecológica y validez

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

histórica, respectivamente) mientras que la validez interna está representada en la flecha unidireccional existente entre (t) y (r). Nótese la importancia crucial que se atribuye aquí al nivel de generalización, y por ende el papel que ocupa la teoría en la generalización de resultados. Para cada elemento, con excepción de la flecha, existe un nivel de generalización que parte de un elemento concreto hasta alcanzar un nivel de generalización óptimo. Así, el elemento (u) se refiere a una muestra particular de unidades de respuesta empleada en una investigación, pongamos por caso, niños desfavorecidos de barrios pobres de colegios de Madrid capital. La generalización a una población superior concierne a la validez de población y supone la existencia de un nivel de generalización cuya delimitación y alcance corresponde definir al investigador, que puede quedarse a un nivel ligeramente superior, por ejemplo colegios de barrios pobres de la comunidad autónoma de Madrid, o un nivel muy superior, por ejemplo colegios de barrios pobres de colegios españoles. Lo mismo cabe aplicar al resto de los elementos presentes en el argumento. Una situación peculiar se presenta en la conexión entre tratamiento y resultado, conexión "única" en lo que concierne al resultado pero "exclusiva" en lo relativo al tratamiento (puesto que es posible considerar tratamientos alternativos que hayan producido el mismo resultado). Por lo tanto, el problema que se plantea aquí es el nivel de exclusividad del tratamiento (t) para producir el resultado (r). Este es esencialmente el concepto de validez interna. Y finalmente, no aparece en el argumento ningún elemento que se corresponda con la validez de la conclusión estadística. Efectivamente, este tipo de validez plantea esencialmente una cuestión objetiva (¿cuál es el efecto del tratamiento observado?), y por ello se considera hoy más bien como una cuestión de sensibilidad y no de validez, como apuntamos anteriormente. Hacia un esquema práctico de la validez El esquema de la validez de Campbell y colaboradores se ha mostrado eficaz (Ato y Rabadán, 1991) para evaluar investigaciones originales con la finalidad de obtener una valoración subjetiva tanto del nivel de exclusividad en la explicación del efecto (validez interna) como del nivel de generalidad de los elementos de la investigación (validez externa y validez de constructo). Adicionalmente, también se puede

15

emplear para valorar la consistencia de la relación funcional (sensibilidad). Subsisten sin embargo algunas ambigüedades en la lista de amenazas propuesta por Cook y Campbell en 1979, y que en parte han sido subsanadas en una presentación más reciente (Cook, Campbell y Peracchio, 1990). Dada una investigación determinada, la evaluación de cada uno de los elementos de la lista de amenazas contra la validez no tiene otro objeto que contribuir a que el investigador (o posteriormente, el evaluador o consumidor de la investigación) descarte todas las fuentes verosímiles de sesgo que pueden arruinar su investigación, y en el caso de no asegurar tal descarte, utilizar los procedimientos necesarios para que no sean verosímiles las fuentes de sesgo sospechosas. Sin embargo, para que el esquema resulte atractivo, se precisa una definición sencilla y comprensible de las 33 amenazas que se contienen en el Cuadro 2.4, utilizando una clasificación más pragmática de las mismas, e incorporando la conceptualización de Cronbach (1982). La que proponemos aquí se fundamenta en definiciones más recientes de las amenazas (Cook, Campbell y Peracchio, 1990; Ato y Navalón, 1993) y su inserción en una estructura arbórea que facilita en mayor medida su lectura y recuerdo. Presentamos para cada una de las fuentes una breve explicación de su significado. Un análisis más detenido de cada una de las amenarac puede consultarse originalmente en Cook y Campbell (1976; 1979) y, más recientemente, en Cook, Campbell y Peracchio (1990). En castellano, puede también consultarse Ato y Rabadán (1991) y Ato (1991, cap. 6). El resumen de todas las fuentes se encuentra en el Cuadro 2.5. CUADRO 2.5. Amenazas contra la validez: reconceptualización. "Validez interna

Asociados al tiempo

1. Historia 2. Maduración

Sesgos en comparaciones Asociados a 3. Administración de pruebas la medición 4. Instrumentación intrasujeto Asociados a 5. Mortalidad diferencial la selección 6. Regresión estadística

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

Sesgos en comparaciones intersujetos

7. Selección 8. Interacciones con selección 9. Ambigüedad de la dirección causaefecto

Sesgos de operacionalización de los constructos T y R

10. Explicación preoperacional inadecuada 11. Empleo de una operacionalización única 12. Empleo de un método único de operacionalización

Validez de Constructo Sesgos de reactividad de las unidades de respuesta

Validez externa

Sesgos de generalización de los constructos U, C y 0

Validez externa

Sesgos de generalización menores

13. Efectos reactivos situacionales 14. Adivinación de hipótesis 15. Artefactos de sujeto 16. Artefactos de experimentador 17. Interacción selección-tratamiento 18. Interacción contexto-tratamiento 19. Interacción historia-tratamiento

20. Interacción admistración pruebastratamiento 21. Interacción instrumentacióntratamiento 22. Interacción tratamientos intrasujeto

Validez Interna

— Sesgos producidos con comparaciones intrasujeto (pre-post): Representan un conjunto de sesgos que aparecen en situaciones en que se comparan al menos dos medidas de los mismos sujetos en un plazo de tiempo durante el cual tiene lugar la administración del tratamiento (comparaciones intrasujeto). Hemos dividido tales sesgos en tres grandes clases, según se relacionen con el paso del tiempo, el proceso de medición o el proceso de selecciónasignación. a) Asociados al tiempo 1. Historia: eventos específicos que ocurren al mismo tiempo que el tratamiento. 2. Maduración: procesos internos que operan a corto

16

(hambre, fatiga) o a largo plazo (envejecimiento). b) Asociados a la medición 3. Administración de pruebas: efectos de administrar una prueba sobre las puntuaciones obtenidas en una administración posterior. 4. Instrumentación: cambios en la calibración de un instrumento de medida (humano o mecánico). c) Asociados a la selección 5. Mortalidad diferencial: reducción del tamaño y/o naturaleza original de los grupos durante el proceso de medición. 6. Regresión estadística: tendencia hacia la centralidad producida en grupos con unidades directa o indirectamente seleccionadas sobre la base de sus puntuaciones extremas. —Sesgos producidos con comparaciones de grupo (intersujetos) Representan un conjunto de sesgos apropiados a situaciones donde se comparan al menos dos grupos de individuos (comparaciones intersujetos) una vez que el tratamiento ha sido administrado. 7. Selección: efectos producidos por la no equivalencia inicial de los grupos (tratamiento y control) objeto de comparación. 8. Interacciones con selección: interacción de la selección con otras fuentes de sesgo anteriormente mencionadas produciendo efectos espurios. Las más comunes son la selección-maduración, que ocurre cuando grupos no equivalentes maduran a diferente ritmo, y la selección-historia, que se presenta cuando grupos inicialmente no equivalentes experimentan historias locales diferentes. 9. Ambigüedad de la dirección causa-efecto: efecto producido cuando la precedencia temporal de la causa no es clara. Suele aparecer en diseños no experimentales (diseño correlacional por ejemplo). Validez De Constructo

— Sesgos de operacionalización de constructos (T) y (R) Representan sesgos que reflejan una inadecuada operacionalización de los indicadores, o bien porque los indicadores definidos no captan todas las dimensiones que teóricamente incorpora un constructo (subrepresentación) o bien porque los indicadores incluyen aspectos que no

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO

MÓDULO 2201- LA INVESTIGACIÓN CIENTÍFICA EN LA PSICOLOGÍA

son relevantes para el constructo (irrelevancias sobreañadidas al constructo). En última instancia, se trata también de un problema de generalización de los indicadores de tratamiento y respuesta (t,r) a los constructos correspondientes (T, R). 10. Explicación preoperacional inadecuada: análisis teórico minucioso de la naturaleza y los componentes del constructo para derivar operaciones y métodos de operacionalización que conducirán a su definición. 11. Empleo de una operacionalización única: sesgo que ocurre cuando se define una única operacionalización de un constructo, ya que la utilización de una sola operación no suele captar el constructo en su globalidad y obtiene indicadores con irrelevancias. 12. Empleo de un método único de operacionalización: sesgo que ocurre cuando se emplea un solo método de operacionalización, ya que la utilización de un método de operacionalización único produce indicadores que subrepresentan los constructos y contienen irrelevancias. —Sesgos de reactividad de las unidades de respuesta Son un conjunto de sesgos que aparecen cuando los sujetos (o las unidades de respuesta de la investigación) se comportan de forma reactiva, presentando conductas artificiales que se desvían de su comportamiento natural. La consecuencia fundamental que producen es una desnaturalización de los indicadores de tratamiento y respuesta, que se desvían de sus constructos de referencia correspondientes y por ello son también en última instancia un problema de generalización. 13. Efectos reactivos situacionales: incorporan amenazas que generan cambios en el comportamiento de los sujetos y se producen en situaciones sociales comparativas. Son la difusión o imitación de tratamientos, la igualación compensatoria de tratamientos, la rivalidad compensatoria y la desmoralización de los sujetos que reciben los tratamientos menos deseables. 14. Adivinación de hipótesis: los sujetos se esfuerzan siempre por saber cómo el/los investigador/es desea/n que se comporten, o sea, por conocer la hipótesis que el investigador desea comprobar. En ocasiones en que la hipótesis es sencilla de deducir, pueden generarse comportamientos reactivos. El ejemplo más conocido es el efecto Hawthorne (Roethlisberger y Dickson, 1939).

17

15. Artefactos de sujeto: los sujetos desempeñan durante la investigación papeles específicos que desvirtúan considerablemente su conducta espontánea y natural (Weber y Cook,1972). 16. Artefactos de experimentador: los investigadores se esfuerzan por conseguir que el sujeto obtenga las puntuaciones que confirmen su/s hipótesis (Rosenthal y Rosnow, 1969). Validez Externa

—Sesgos de generalización de los constructos (U), (C) y (0). Son un conjunto de sesgos relativos a los constructos de Unidades de respuesta, Contexto y Ocasión temporal y que dificultan una generalización apropiada de los mismos. Puesto que tal generalización presupone que diferentes niveles del contracto presenten la misma pauta para cada uno de los diferentes niveles del tratamiento, el concepto de generalización se convierte en una cuestión de interacción constructo-tratamiento. 17. Interacción selección-tratamiento: se conoce también por validez de Población. Se refiere ala generalización de (u) a (U). 18. Interacción contexto-tratamiento: corresponde a la denominada validez ecológica. Se refiere a la generalización de (c) a (C). 19. Interacción historia-tratamiento: también conocido como validez histórica. Se refiere a la generalización de (o) a (0). Otros sesgos menores de generalización Incorporan sesgos de generalización relativos a otros constructos menores, diferentes de los clásicos constructos de historia, contexto y unidad de respuesta. 20. Interacción administración de pruebas-tratamiento: generalización del resultado a otras condiciones de administración de prueba diferentes a la utilizada. 21. Interacción instrumentación-tratamiento: generalización del resultado a otras condiciones de instrumentación diferentes a la utilizada. 22. Interacción de tratamientos intrasujeto: generalización del resultado de la situación en que los sujetos reciben más de un tratamiento a la situación (hipotética) en que sólo reciban uno.

Para profundizar en este tipo de contenidos consulte la obra: Anguera, M., Arnau, J., Ato, G., Martínez, A., Pascual, Ll. y Vallejo. S.(1995) Métodos de Investigación en Psicología. España: Síntesis Psicología.

UNIDAD I EL MÉTODO CIENTÍFICO