La Percepcion Del Habla

Tema 2. LA PERCEPCIÓN DEL HABLA. 1. Introducción. El uso del lenguaje se apoya en la habilidad de los hablantes para tra

Views 66 Downloads 4 File size 110KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Tema 2. LA PERCEPCIÓN DEL HABLA. 1. Introducción. El uso del lenguaje se apoya en la habilidad de los hablantes para traducir sus representaciones a un código fonético, acústicamente perceptible, o en el caso de la escritura a signos gráficos. Al receptor, por su parte, le corresponde reconocer en los sonidos, en los grafemas, elementos identificables cuya combinación remite a significados (Clark y Clark, 1977; Foss y Blank, 1980; MacKay et al., 1987; Miller, 1987). Consecuentemente, la identificación de las unidades físicas (acústicas o gráficas, en el caso del lenguaje escrito) desempeña un papel relevante tanto en la comprensión como en la adquisición del lenguaje (Jusczyk et al., 1992). La actividad perceptiva presenta características específicas cuando se trata de lenguaje hablado o escrito. Estas diferencias derivan de que el sistema de análisis ha de adaptarse a las propiedades del estímulo de entrada. Dicho de otro modo, los recursos de necesarios para el análisis de estímulos acústicos son necesariamente distintos de los utilizados para el análisis de estímulos visuales. A continuación, señalaremos las principales diferencias (Para un resumen de las diferencias véase la Tabla 2.1.). a) El habla es un estímulo continuo que sólo presenta pequeñas pausas entre unidades sintácticas, mientras que la escritura presenta elementos discretos, cuyas unidades son separadas por espacios en blanco o los signos de puntuación. b) En la escritura puede aparecer una correspondencia entre categorías sonoras y signos gráficos, en la percepción del habla es el propio individuo quien tiene que detectar la categoría a la que pertenece el estímulo. c) Por último el habla se desvanece rápidamente. La lectura, en cambio permite detenerse o volver atrás (Massaro, 1987). Habla Canal auditivo: tiempo Fonemas Continuidad Dependencia de la prosodia Desvanecimiento Rápido: alta demanda de la memoria Formato negociado Determinado por el contexto

Lectura Canal visual: espacio Grafemas Elementos discretos Dependencia signos de puntuación. Estabilidad: Baja demanda de memoria Formato fijado por el hablante Descontextualizado

Tabla 2.1. Diferencias Lenguaje escrito y oral.

En esta parte del temario nos vamos a referir a los mecanismos de la percepción del habla porque reúne los rasgos esenciales del proceso perceptivo y porque forman un sistema integrado con el de producción del habla (Studdert-Kennedy, 1987; Porter, 1987). Más adelante introduciremos las propiedades específicas de la percepción del lenguaje escrito. 2. La percepción del habla. Sorprende que, pese a su complejidad, la percepción del habla se realice sin esfuerzo y el individuo, en circunstancias normales, tenga la impresión subjetiva de estar atendiendo al significado, pero no a los sonidos. Sólo cuando la calidad sonora es deficiente o está distorsionada, como sucede cuando se escucha a personas con acento o no se puede acceder

fácilmente al significado como sucede cuando nos comunicamos con personas que hablan en otro idioma (Perlman y Meara, 1989), se presta atención explícita a las pautas sonoras del habla. Un fenómeno característico es que los hablantes percibimos el habla un conjunto de elementos discretos, sonidos constantes y discriminables, cuando en realidad la emisión hablada es un estímulo continuo que ha de ser segmentado por el oyente. Los oyentes identificamos palabras, elementos concretos, cuando la emisión consiste en una cadena de sonidos encadenados. Es decir, el oyente tiene la impresión subjetiva de escuchar algo como: /oy/ /ace/ /un/ /buen/ /día/, cuando la emisión del hablante está más próxima a: /oyaceun/ /buen/ /día/ En el habla los fonemas se encadenan formando grupos sonoros que no siempre se corresponden con palabras. Es el propio oyente quien ha de segmentar esta cadena para identificar unidades léxicas y, así, poder acceder al significado de la emisión. Para hacerse una idea más clara de este fenómeno basta con escuchar a una persona que habla en un idioma que no dominamos perfectamente. La primera impresión que provoca es que habla muy deprisa. Inmediatamente, nos damos cuenta de que se emiten grupos de sonidos, pero no siempre somos capaces de identificar las palabras expresadas porque se hayan contaminadas con otros sonidos procedentes de las palabras anteriores o posteriores. ¿Qué es lo que produce este fenómeno? Hemos señalado anteriormente que el habla se emite de forma continua. Al hablar, los fonemas que forman una palabra no se emiten de modo aislado, sino que en cada gesto articulatorio se producen todos los sonidos que admite el golpe de voz. Esto es lo que hace que cuando hablamos no digamos #la# #ma# #de# #ra#, sino que las sílabas se unen dando lugar a un conjunto sonoro continuo como /lamadera/. Aún existe otra propiedad relevante del habla que repercute de modo decisivo en el modo en que se lleva a cabo el procesamiento perceptivo. Dado que los fonemas se articulan de forma continua, el individuo ha de realizar algunos ajustes de acoplamiento con el fin de que la transición entre los sucesivos gestos articulatorios sea fácil y rápida. Volviendo al ejemplo anterior, cuando el emisor pronuncia la sílaba #la#, sus órganos articulatorios deben adoptar una posición tal, que permitan encadenar fácilmente el gesto articulatorio de la siguiente sílaba, en el ejemplo #ma#. A esta modificación adaptativa del gesto articulatorio se le llama coarticulación (Porter, 1987). La coarticulación implica que los gestos no se articulan independientemente, sino que cada gesto está condicionado por las características del gesto que le precede y el que le sigue. El lector puede comprobar La repercusión más interesante de la coarticulación es que las variaciones de la posición de los órganos articulatorios, a su vez, provocan modificaciones sonoras importantes. El lector puede comprobar como el fonema [s] suena distinto cuando se pronuncia dentro de la secuencia sopa, que si la palabra a emitir es siglo. Esta propiedad se conoce con el nombre de ausencia de invarianza, ya que la característica que define a los fonemas es precisamente su falta de constancia, es decir su variabilidad. Por tanto, una de las tareas del sistema perceptivo consiste, tal como señala Gibson (1986), en reconocer los rasgos de los estímulos que se mantienen constantes o invariantes. De tal modo que los hablantes reconocemos como un mismo fonema a un conjunto variable de configuraciones sonoras con diferentes propiedades acústicas.

El reto que la coarticulación plantea al sistema perceptivo se resuelve organizando la información en categorías. Puesto que el fonema no dispone de una correspondencia única con el sonido, el sistema incorpora un repertorio de sonidos que se interpretan como un mismo fonema. Tal vez al lector le resulte más sencillo comprender este patrón si toma como ejemplo algo que ocurre con el lenguaje escrito. Todas las grafías que se presentan en el siguiente párrafo se reconocen como representaciones del grafema /a/ A – a – a – a – a –a – A Se podrían agregar multitud de ejemplares más si incluyéramos representaciones escritas manualmente. A pesar de las diferencias, todas estas grafías mantienen algunos rasgos constantes que permiten identificarlas como representantes de la letra a. Igual ocurre con los sonidos de habla. Los fonemas presentan variaciones acústicas, alófonos, originadas por el contexto articulatorio en el que se emiten. Por tanto, el sistema perceptivo no puede utilizar como criterio para identificar cada fonema un conjunto fijo de rasgos, sino un patrón de rasgos que admite cierto margen de variabilidad. Este procedimiento de categorización es el mismo que nos permite identificar a un Pastor Alemán y a un chihuahua como ejemplares de la misma categoría animal. Continuidad → Segmentación

↓ Coarticulación → Categorización Figura 2.1. Características del habla y recursos del sistema perceptivo

De lo señalado hasta ahora se desprende que la percepción se logra mediante un conjunto de claves que se analizan en paralelo y que corresponden con diferentes segmentos del gesto articulatorio (Clark y Clark, 1978). En resumen, la primera etapa de la comprensión está dedicada al análisis e identificación de las unidades acústicas que componen una emisión de habla. El análisis procede mediante la segmentación de la señal y la identificación de las unidades que lo componen como elementos pertenecientes a alguna de las categorías sonoras, es decir los fonemas, utilizadas en la lengua del hablante. No hace falta profundizar mucho para descubrir que un recurso clave para los hablantes es el disponer de una representación del sistema fonológico de la lengua. Esto pone de manifiesto, como veremos más adelante, la relevancia de las primeras etapas del aprendizaje del lenguaje, durante las que los bebés adquieren el repertorio sonoro propio de su lengua materna y adquieren los patrones motores que permiten producirlos (Jusczyk et al., 1992). Abundan las cuestiones respecto a la naturaleza de la percepción del habla, muchas de las cuales sólo han recibido una respuesta parcial. ¿Hasta qué punto la percepción del habla es una capacidad específica de la especie y, por tanto, reposa en la dotación innata de los seres humanos? ¿Cómo y cuándo se adquieren características específicas asociadas a la lengua del hablante? En este capítulo nos ocuparemos de los interrogantes que plantean los fenómenos de la percepción del habla y de las formas en que se han abordado empírica y teóricamente. 3. El estímulo sonoro. La percepción del habla consiste en reconocer en la emisión de otro hablante unidades o segmentos que constituyen estímulos discretos. Las disciplinas que se encargan del estudio de los sonidos de habla son dos: la fonología y la fonética. La fonología estudia el funcionamiento del sistema de sonidos de una lengua. Es la encargada de especificar el

conjunto de reglas que indican cómo se combinan los sonidos, cómo se modifican, qué diferencias se producen en función del contexto en el que aparece un determinado fonema y si estas modificaciones dan lugar a cambios significativos. Los fonemas son representaciones abstractas de sonidos, son categorías, y se representan entre corchetes []. La fonética, por su parte, se interesa por los sonidos y sus pautas de emisión, por lo que no necesariamente es específica de una lengua concreta. Es decir, estudia las características acústicas y los movimientos de los órganos articulatorios que originan cada sonido. Las clasificaciones clásicas de los sonidos consonánticos se organizan de acuerdo a tres criterios: a) el punto articulatorio: según el lugar en el que reposa la lengua y la posición de los labios durante la emisión del sonido. Los sonidos son: bilabiales, labiodentales, linguodentales, linguointerdentales, linguoalveolares, linguopalatales o linguovelares. b) el modo de articulación: la forma en que se expele el aire: oclusiva, fricativa, africada, nasal, lateral, vibrante simple y vibrante múltiple. Y c) el tiempo de inicio de la emisión de la voz: El tiempo que transcurre desde el inicio de la periodicidad de la voz hasta la liberación de la consonante (Miller, 1987). Este parámetro permite discriminar entre consonantes, estableciendo la distinción entre consonantes sordas y sonoras. En la emisión de las consonantes sordas [p] el movimiento labial coincide con el inicio de la vibración de las cuerdas vocales, mientras que la vibración se inicia antes de la apertura de los labios en las consonantes sonoras [b], como se indica en la figura 2.2.

[pa] │---- voz [ba] │-------------------- voz 0 -0,05 -0,1 Apertura de los labios │emisión de voz Figura 2.2. Tiempo de emisión de la voz. Adaptado de Clark y Clark (1977).

Debido a que este criterio es difícil de observar para su estudio se trabaja con representaciones gráficas que registran las frecuencias de la voz al emitir diferentes sonidos. Estas representaciones se llaman espectrogramas. Cada voz tiene una frecuencia básica (Fo) que viene dada por la vibración media de las cuerdas vocales. La vibraciones de la voz producen armónicos o diferentes bandas de frecuencia, medidas en hercios (Hz), a partir de la Fo, que se modifican según pasan por la cavidad oral. Esto es lo que produce el sonido característico de cada voz (Foss y Hakes, 1978). El TEV es un continuo de sonoridad. Por ello los límites entre categoría fonéticas no son precisos ni discretos, sino que los límites entre categorías fonéticas son borrosos. Prueba de esta borrosidad son los hallazgos de Lisker y Abramson (1970; Miller, 1987). Estos autores sintetizaron 31 sílabas artificiales a partir de los fonemas bilabiales [p] y [b] más la vocal [a], variando el TEV. Cuando a los sujetos se les pidió que identificaran las sílabas encontraron una frontera consonántica en un TEV de 0,03 sg. Si el TEV era menor la sílaba era identificada como /pa/, si lo sobrepasaba era identificado como /ba/. Es decir, los hablantes logran identificar cortes categoriales transformando así un continuo acústico en rasgos claramente diferenciados: consonantes sonoras vs consonantes sordas. También Liberman y cols., (1957) utilizaron sílabas que variaban en el punto de inicio y transición del segundo formante (F2), estableciendo una secuencia que va de las pautas espectrográficas de /ba/ a las de /ga/. Como tarea propusieron a los sujetos clasificar las sílabas como /ba/, /da/ o /ga/. Los

sujetos denominaron /ba/ a las sílabas situadas en el extremo del continuo, /ga/ a las situadas en el otro extremo y /da/ a las sílabas situadas en la zona intermedia. Sólo había unos puntos de transición donde las respuestas no siempre coincidían. De nuevo estos resultados demuestran que los sujetos identifican fronteras que delimitan el reconocimiento de los sonidos como si se tratase de elementos discretos, pertenecientes a diferentes categorías. El estudio de los espectrogramas ha mostrado varios fenómenos interesantes. En primer lugar, no parece existir un espectrograma típico de cada fonema. Al contrario, los espectrogramas varían de acuerdo a la combinación resultante en cada sílaba o gesto articulatorio. Lo que sugiere que la identificación de los fonemas consonánticos depende de las claves acústicas que acompañan a la vocal que le sigue. Es decir el espectrograma pone de manifiesto la ausencia de invarianza y que el fonema es una categoría integrada por un rango de sonidos. En segundo lugar, mediante cortes en una grabación, es posible aislar la parte correspondiente a la vocal de una sílaba, obteniendo un sonido vocálico limpio. Sin embargo, si aislamos la consonante el resultado es notablemente diferente. El sonido que nos queda es una especie de chasquido (Foss y Hakes, 1978). Además, se ha observado que los hablantes pueden estimar con asombrosa precisión la vocal que ha sido eliminada en una cinta trucada. De lo que se concluye que la percepción del habla no es una traducción directa de los segmentos que componen la emisión, sino que la información proviene de las claves acústicas que transmiten en paralelo los diferentes constituyentes de la sílaba. Existen, no obstante, algunas claves que se mantienen constantes, independientemente de su contexto de emisión. Estas claves se corresponden con algunas características derivadas del punto de articulación o con el tono característico de fricación que se produce en consonantes como /s/, /z/ o /ch/. Finalmente, se ha comprobado que se puede inducir a los sujetos a percibir fonemas sordos introduciendo breves pausas entre los fonemas que componen una palabra. Por ejemplo, si entre la [s] y la [l] como en slit se introduce una pausa, los sujetos perciben split. Igualmente, se consigue que los sujetos perciban [p] donde había sido emitida una [b]. De nuevo se comprueba que la percepción de un fonema depende del conjunto de las claves del contexto articulatorio y que el canal auditivo tiene una alta discriminación sobre las propiedades de los aspectos acústicos que actúan en paralelo. Tomados conjuntamente los datos acerca de la estructura del estímulo acústico del habla se entiende que una de las incógnitas es cómo explicar que se perciba como un conjunto de elementos discretos y segmentables, pese a que las claves acústicas se transmiten en paralelo. Otro problema, asociado con el anterior, es cómo se identifican los segmentos si no existen claves estables que definan a cada uno de ellos (Porter, 1987). 4. Etapas de la percepción del habla. Una de las características más destacables de la percepción del habla es su naturaleza categorial. A pesar de que el habla es un estímulo continuo y de que los segmentos no presentan propiedades específicas y aisladas, para los hablantes es fácil identificar los fonemas que se escuchan y hacer finas discriminaciones entre ellos. En vista de lo que se puede asumir que la percepción del habla reposa tanto en mecanismos auditivos, como en habilidades perceptivas especializadas en el habla.

Se han señalado cuatro etapas en la percepción del habla. La primera etapa se corresponde con la recepción y análisis periférico de la emisión sonora. En la segunda, se realiza el análisis de las propiedades acústicas del sonido. La tercera está dedicada al análisis fonético, es decir se analizan las propiedades sonoras y se identifican lo segmentos fonéticos. En la cuarta etapa, análisis fonológico, se adaptan los segmentos percibidos a las propiedades y restricciones impuestas por la lengua del oyente (Clark y Clark, 1977; Klatt, 1989). Una representación de las etapas puede verse en la Figura 2.3. 4.1. Análisis periférico: la estructura sonora es transformada en rasgos acústicos. La entrada acústica estimula los órganos periféricos. El resultado del análisis es una representación del espectro de los patrones de descarga y la sincronía temporal que presentan. El sistema auditivo realiza un filtrado de las señales acústicas que contribuyen a identificar los patrones básicos de la señal de habla.

↓onda de habla ANALISIS AUDITIVO PERIFERICO

↓representación espectral ↓ DETECTORES DE LAS PROPIEDADES ACUSTICAS

↓detectores de rasgos ↓ y patrones temporales DETECTORES DE RASGOS FONETICOS

↓ detectores de invarianzas ↓ ANALISIS SEGMENTAL

↓ matriz ordenada de segmentos ↓ BUSQUEDA LEXICA Figura 2.3. Diagrama de las etapas de análisis perceptivo. Adaptado de Klatt (1989).

4.2. Análisis acústico: Se permite el análisis de la estructura fonética. En este estadio se analizan las claves acústicas del habla. Una de estas claves es la banda de frecuencias de la señal auditiva. Lo característico del habla, como hemos apuntado anteriormente, es que cada fonema presenta unas claves acústicas definidas por el contexto en el que se emite. Otra clave es el tiempo de emisión de la voz (TEV), que suele oscilar entre los 0 y 0,1 segundos. Una vez analizadas, las claves acústicas son retenidas durante escasos segundos en la memoria auditiva (Ruiz-Vargas, 1991). 4.3. Análisis Fonético: la señal se prepara para identificar fonemas. En este estadio se analizan los patrones acústicos que forman los segmentos del habla y se identifican de acuerdo a patrones fonéticos. Se analizan las constancias perceptivas que permiten identificar los segmentos como elementos de categorías fonológicas discretas. Algunos autores sitúan en esta etapa unos detectores de rasgos especializados en la identificación de las características de sonoridad, duración, punto de articulación, etc. Los fonemas identificados se almacenan en la memoria fonológica. Se distingue de la memoria

auditiva en que retiene el fonema categorizado, no sus rasgos formantes, por tanto no se distinguen entre alófonos (variantes sonoras de un mismo fonema). Se ha demostrado que en la memoria fonética, los fonemas categorizados contienen conjuntos de rasgos que se van desvaneciendo independientemente unos de otros. Así, cuando los sujetos tienen que recordar una lista de sílabas cometen errores entre fonemas que difieren sólo en un rasgo por ejemplo, [pa] por [ba] o [ba] por [va] (Wikelgren, 1966). 4.4. Análisis Fonológico: Ajuste normativo a los patrones de la lengua. En el último estadio, los segmentos son traducidos a formas abstractas de representación de sonidos. Se efectúa, además, un acoplamiento a las reglas fonológicas de la lengua en uso, de modo que los hablantes identifican cadenas de fonemas legales en la lengua que hablan. Este proceso es el responsable de un fenómeno tan curioso como el que palabras expresadas en una lengua extranjera pueden ser identificadas, e interpretadas, como emisiones de la propia lengua. Las personas oyen combinaciones de fonemas que son admisibles en el sistema fonológico de su lengua, aunque el estímulo real sea diferente. Tras el análisis fonológico se obtiene una estructura jerarquizada de los constituyentes fonológicos de la sílaba. Cada sílaba está compuesta por varios elementos que se organizan jerárquicamente. a) El inicio (i) generalmente está integrado por una consonante (/ba/) o un grupo consonántico (/cra/), pero también puede quedar como núcleo vacío (/is/). b) La rima (r) forma el resto de la sílaba. A su vez, está subdividida en dos partes, -b.1. el núcleo (n) constituido siempre por la vocal de la sílaba y -b.2. la coda (c), que puede estar ocupada por una consonante /las/ o grupo consonántico /cons/, aunque puede ser un núcleo vacío (Levelt, 1989). Veáse como ejemplo la figura 2.4. Sílabas

s / \ i r | /\ i n c | | | | | | VA -

s /\ i r | /\ i n c | | | | | | - O -

s / \ i r | /\ i n c | | | | | | TR A S

s / \ i r | / \ i n c | | | | | | TO -

Figura 2.4. Estructuras silábicas de las palabras vaho (#va#o#) y trasto (#tras#to#).

Hemos visto que en las etapas de análisis del habla el estímulo acústico se analiza con el fin de detectar los rasgos que lo forman. Tras este análisis, puede comenzarse a categorizar los segmentos de habla que, en la última etapa, serán traducidos a representaciones abstractas, que a su vez, pueden ser asimiladas dentro de los límites impuestos por las reglas fonológicas de la lengua del hablante. Para explicar cómo es transformado el input en combinaciones legales se ha propuesto una teoría llamada de Análisis por Síntesis. La teoría supone que los oyentes poseen la representación de una gama de sonidos. Al recibir la entrada acústica tratan de emparejarla con los sonidos que poseen, identificándola con el más semejante. Así, los sonidos se reconocen por asimilación o síntesis con las estructuras de fonemas conocidas por el oyente. La ventaja de esta teoría es que puede explicar por que los hablantes perciben categorialmente a pesar de las variaciones de tono, calidades de voz, gesto articulatorio, etc., con que se

presentan los fonemas. Por otra parte, explica como, las alteraciones de la entrada acústica debidas a la pronunciación del hablante o la baja calidad del sonido son corregidas mediante ajuste por el oyente y no afectan a la categorización de los fonemas. Además, esta hipótesis es compatible con la incorporación de información más compleja correspondiente a las propiedades del contexto en el que aparecen los fonemas (Kruelet et al., 1983). La comprensión es un proceso integrador: los oyentes no interpretan los sonidos, ni las palabras de forma aislada, sino de acuerdo al contenido de la oración a la que pertenecen. Hasta aquí hemos visto las propiedades del proceso de percepción del habla. Ahora vamos a tratar algunas de las teorías acerca del proceso. 5. TEORÍAS DE LA PERCEPCIÓN DEL HABLA. 5.1. Teoría Motora de la percepción del habla. Esta teoría asume que la percepción del habla es una forma especializada que presenta características diferenciales con otras modalidades de análisis de entradas acústicas (Liberman, 1982; Mattingly y Liberman, 1985; Porter, 1987). Dicho de otro modo, el circuito neuronal especializado en el procesamiento del habla sería distinto del dedicado a otro tipo de señales acústicas. Lo que tiene de especial la percepción del habla es que supone la coordinación de los procesadores de la señal auditiva con la representación de los esquemas motores para la producción de sonidos de habla. En este sentido, producción y comprensión se interpretan como un sistema integrado por dos subsistemas, cuya coordinación contribuye tanto a la identificación de los sonidos del habla, como al ajuste del programa motor de la emisión del habla. Así, la teoría asume que la representación de cada fonema no sólo contiene información acústica, sino que recoge información acerca de los movimientos que los órganos articulatorios realizan con el fin de emitir dicho fonema. En otras palabras, la estructura acústica de los fonemas se corresponde con los movimientos articulatorios que la originan (Studdert-Kennedy, 1987) y, en ese sentido, el oyente posee una especie de representación de los gestos articulatorios que realizan otros hablantes. En definitiva lo que la teoría motora propone es la existencia de un código común para el sistema perceptivo y articulatorio (Prinz, 1987; Klatt, 1989). Consecuentemente, la teoría motora apoya la hipótesis de que la percepción del habla obedece a mecanismos de análisis (de la señal acústica) y mecanismos de síntesis (con la representación sonora y motora). De la emisión se extraen los segmentos que componen el conjunto de sonidos y estos se comparan y acoplan a los patrones motores o articulatorios que originan el sonido. Las pruebas que sirven de apoyo para esta hipótesis son de tres tipos: a) La primera de ellas proviene de la naturaleza categorial de la percepción del habla. Los fonemas son identificados como elementos de la misma categoría fonética, a pesar de que acústicamente presentan patrones muy distintos. Algunos autores han interpretado este fenómeno afirmando que, pese a las diferencias sonoras, los fonemas siguen una misma secuencia articulatoria, lo que permite a los sujetos reconocerlos como elementos que pertenecen a la misma categoría. b) Otros autores se han basado en las expectativas de los sujetos sobre la correspondencia entre los movimientos de los labios y el sonido emitido (McGurk y McDonald, 1976; Massaro y Cohen, 1983). Cuando los oyentes observan a un hablante esperan que el movimiento de los órganos articulatorios se adecue al sonido que éste emite. Esto mismo es lo

que lleva a que al escuchar a un ventrílocuo que hace hablar a un muñeco, se produzca un desplazamiento de la atención hacia el falso emisor. Por su parte, MacGurk y McDonald (1976) comprobaron que cuando se presenta información visual-auditiva incongruente, los sujetos tienden a dar una interpretación que sintetiza y da coherencia a los datos divergentes. Estos autores pidieron a sus sujetos que miraran una película de una persona que emitía la sílaba /ga/, pero el sonido que se escuchaba era la sílaba /ba/. Sin embargo, lo que los sujetos del experimento afirmaban haber escuchado era la sílaba /da/. Parecía que daban una solución que disolvía el conflicto perceptivo. Este acoplamiento entre la información visual y auditiva recibe el nombre de aprehensión visual. Igualmente, los bebés pasan más tiempo atendiendo a un modelo que emite un sonido congruente con los movimientos articulatorios que cuando ambas percepciones son conflictivas (Miller, 1990). Todos estos datos demuestran que la información visual es una fuente poderosa de información incluso cuando la estimulación acústica no es ambigua, por lo que la integración entre ambas modalidades puede considerarse un proceso fundamental en la percepción del habla (Massaro y Cohen, 1983). Las críticas que ha recibido la teoría se apoyan en que se esperaría que la percepción del habla debería verse disminuida en pacientes con lesiones que les impiden producir los movimientos articulatorios, lo que no se comprueba en la mayor parte de los casos (Clark y Clark, 1977). El que se reconozcan los patrones de articulación no significa que en la representación se especifiquen todos los movimientos articulatorios concretos, sino que se refiere a una serie de operaciones articulatorias funcionalmente equivalentes (Studdert-Kennedy, 1987). 5.2. Teoría auditiva de la percepción del habla. Esta teoría sostiene que la percepción del habla es semejante a la percepción de cualquier estímulo auditivo, por lo que no requiere de ningún sistema especializado. Como consecuencia este enfoque rechaza el carácter específico de la percepción del habla. Tampoco asume que sea una capacidad específica de la especie humana, aunque se apoye en rasgos de carácter innato (Lieberman y Blumstein, 1988; Miller, 1991), sino que la discriminación de los sonidos de habla deriva de las propiedades auditivas características de los mamíferos. Por consiguiente, los autores suponen que la señal acústica posee rasgos invariantes que son detectados por el sistema auditivo mediante los patrones espectrales y estimulatorios que afectan a los órganos receptores. Los datos favorables a esta teoría provienen de la semejanza en la respuesta discriminativa a diferentes tipos de estímulos y en diferentes especies. Es de sobra conocido que algunas aves, como los loros, son capaces de producir, y, por tanto discriminar, sonidos semejantes a los producidos por los humanos. Si pueden segmentar y discriminar las entradas acústicas se espera que utilicen parámetros semejantes o, cuando menos equivalentes, a los de la especie humana. Por otra parte, algunos trabajos experimentales llevados a cabo por el grupo de Kulh (Kulh y Miller, 1978) ha mostrado como las chinchillas son capaces de percibir categorialmente fonemas oclusivos. Lo más interesante es que las fronteras categoriales eran muy semejantes a las de los humanos (Miller, 1990). Estos resultados llevan a pensar que la discriminación se

debe a las características del sistema auditivo común a los mamíferos, más que a propiedades específicas de los humanos. Otros autores han destacado que el procesamiento perceptivo del habla es muy semejante al de estímulos musicales. Las notas son también categorías, que, como los fonemas, presentan fronteras borrosas. Además, existen variaciones provocadas por las propiedades acústicas del instrumento a las que los oyentes deben ignorar para reconocer una pauta sonora. La conclusión que permite extraer el estudio comparado de la percepción musical y del habla es que en ambos casos la alta discriminabilidad puede depender tanto de las cualidades del sistema auditivo como del entrenamiento. Lo que se despende de estos y otros estudios es que, al menos en lo que se refiere a la percepción categorial, ni parece ser una propiedad exclusiva de los seres humanos, pues otros animales pueden discriminar fonemas (Taylor y Taylor, 1990), ni del habla, puesto que la música plantea demandas muy semejantes. No obstante, este modelo deja varios puntos oscuros debido a que resta importancia a los segmentos del habla (Foss y Gernsbacher, 1983): las segmentaciones rítmicas, el manejo de rimas, etc. comunes a sujetos letrados y analfabetos y que constituyen una prueba de la realidad psicológica de los fonemas. Por otra parte, supone un análisis global de la entrada acústica, sin aclarar cómo se pasa de una estimulación continua a una representación discreta. Un interrogante que es transversal a la mayor parte de los estudios sobre el sistema de procesamiento del lenguaje es dónde reside el motor principal de la aparición y desarrollo de la aparición de las habilidades lingüísticas ¿en las condiciones biológicas de la especie o en la oportunidad para el entrenamiento que ofrece el contexto social en el que somos educados? Los bebés son sujetos idóneos para profundizar en estas cuestiones debido a su escasa experiencia lingüística por lo que sus habilidades pueden ser atribuidas a los recursos disponibles desde el nacimiento. 6. La percepción del habla en bebés. En muchos libros de texto se puede observar como se aluden a criterios de tipo semánticoconceptual para establecer los requisitos previos a la aparición del lenguaje (Clark, 1983; Nelson, 1985; Bates y MacWhinney, 1987). Sin embargo, parece evidente que para que el niño reproduzca los sonidos del habla emitidos por otros hablantes y reconozca las palabras que producen, es preciso que haya sido capaz de representarse las estructuras sonoras de su lengua (Jusczyk, 1986; Aslin, 1987; Jusczyk et al., 1992). Parte de los estudios realizados con bebés se han dirigido a constatar sus habilidades discriminativas. Uno de los procedimientos diseñados para este fin se basa en la medición del ritmo de succión. Se sabe que los bebés aumentan el ritmo de succión ante estímulos nuevos o interesantes. Por ello Eimas y cols. (1971) idearon un chupete, cuya tetina tiene un sensor que, conctado a un ordenador, permite registrar el ritmo de succión. Si al bebé se le presenta un estímulo comenzará a succionar hasta que, como consecuencia de la habituación, el ritmo decaiga. Si, a continuación se le presenta otro estímulo y lo reconoce como distinto, el ritmo de succión aumentará, si, por el contrario, lo percibe como idéntico al anterior no se registrarán cambios de ritmo. Este procedimiento, no obstante, tiene la desventaja de que sólo puede ser utilizado con bebés muy pequeños por lo que se han diseñado otras técnicas como la orientación visual hacia el punto de procedencia del estímulo o el giro condicionado de la cabeza.

Para no extendernos sólo citaremos los principales hallazgos obtenidos mediante estas técnicas: a) Los bebés poseen una percepción categorial: - Discriminan entre fonemas. - Fijan las fronteras categoriales en los mismos límites que los adultos. - Como los adultos, no manifiestan discriminación entre estímulos que se sitúan dentro de dos límites. b) Aprenden a ignorar elementos no significativos - Discriminan entre voces, pero ignoran estas propiedades en tareas de discriminación fonemas (Jusczyk et al. 1992). - Entre 4 y 6 meses empiezan a dar muestras de adaptación a la lengua materna, ignorando rasgos no significativo (Werker y Tees, 1984; Best, McRoberts y Sithole, 1988). c) Reconocen su lengua materna - Discriminan entre su lengua materna y otra lengua, pero no discriminan entre dos lenguas no familiares (Mehler et al., 1988). d) Su discriminación se apoya en los rasgos prosódicos. - Prefieren muestras de habla en lenguaje dirigido a niños (Fernald, 1989). - Discriminan mejor en muestras e hablas con lenguaje dirigido a niños (Karzon, 1985). Los hablantes tienen que resolver dos problemas que derivan de las características del habla. Es preciso segmentar una señal continua e identificar los fonemas (Miller y Jusczyk, 1989). Desde esta perspectiva, una parte considerable de los requisitos necesarios para adquirir el lenguaje depende de los mecanismos perceptivos. Antes de que el lenguaje se convierta en un instrumento simbólico y las emisiones sean interpretadas semánticamente, los bebés han de desarrollar las habilidades perceptivas que les permitan identificar los elementos que componen el habla para así reconocer las secuencias emitidas por los adultos y poder reproducirlas (Jusczyk et al., 1992). Un buen número de las investigaciones que hemos citado ponen de manifiesto que poco tiempo después del nacimiento, los bebés disponen de un sistema perceptivo sofisticado y altamente sensible a los estímulos del habla. Discriminan sonidos consonánticos, distinguen las vocales que los acompañan y su percepción es, como la de los adultos, categorial. La temprana aparición de estas habilidades y la rapidez con que los bebés asimilan las propiedades específicas de su lengua materna llevan a la conclusión de que estas habilidades dependen de las condiciones que forman parte de su herencia biológica. Resulta difícil explicar la rapidez del aprendizaje y la aparición temprana si no se acepta la existencia de mecanismos innatos sensibles a las propiedades acústicas del habla y de cuya maduración depende el desarrollo de las habilidades perceptivas (Jusczyk y Bertoncini, 1988; Miller y Jusczyk, 1989). No obstante, las habilidades perceptivas son complementadas por la tendencia de los adultos a exagerar las pautas prosódicas para dirigirse a los niños. Como cabría esperar, dado que esta forma de comunicación aparece en todas las culturas (Fernald, 1989), los rasgos que caracterizan al lenguaje dirigido a los niños (LDN) tienen consecuencias adaptativas nada desdeñables. En primer lugar, da forma a la intención comunicativa y en segundo lugar, sirve al oyente como indicador de los aspectos a los que debe prestar atención si quiere interpretar el contenido de la emisión.

7. La percepción del habla continua. La dificultad de estudiar el proceso de percepción estriba en que supone el análisis en términos de unidades discretas de un estímulo continuo. De hecho, la producción del habla se caracteriza por el acoplamiento, o coarticulación, de los gestos articulatorios lo que produce una transición fluida de un gesto a otro. Además, los oyentes no sólo perciben la continuidad del lenguaje, sino que resulta indispensable para comprender la emisión. Es difícil comprender, incluso percibir, palabras aisladas, sin embargo, dentro de un contexto los defectos de calidad de la señal acústica pueden ser subsanados fácilmente sobre la marcha sin que se altere la inteligibilidad del discurso. Miller, Heise y Lichten (1951, en Clark y Clark, 1977) presentaron a los sujetos segmentos de una conversación. Cuando se presentaban palabras aisladas los sujetos sólo eran capaces de reconocer el 40% de las palabras, mientras que cuando aparecían integradas en oraciones, el reconocimiento alcanzaba el 70%. Dentro del contexto las palabras son más predecibles y los defectos de la señal son corregidos por medio de la información que aportan los otros elementos del enunciado. Un dato que confirma la influencia de factores adyacentes es el que dentro del contexto las palabras se reconozcan incluso antes de que haya habido tiempo de terminar de analizarlas auditivamente (Marslen-Wilson, 1987). El input sensorial es insuficiente para reconocer los segmentos del habla, se precisa información del contexto al que pertenece. Otros autores han aportado datos acerca de las correcciones que realizan los oyentes durante el discurso. Los oyentes corrigen, sin advertirlo, errores fonéticos que han sido cometidos por el hablante o creados artificialmente para la tarea experimental (Elman y McClelland, 1988). En una tarea de seguimiento, Marslen-Wilson (1975; y Welsh, 1978) encontró que los sujetos corregían sobre la marcha palabras que en su presentación original contenían un error. Es más, los sujetos corregían no sólo aspectos fonológicos sino léxicos, p.e. sustituían palabras, o hacían correcciones sintácticas. Que la integración es un fenómeno natural en la percepción y comprensión del habla queda demostrado por estudios de atención selectiva que utilizan el paradigma de escucha dicótica. Cuando la información bi-aural que reciben los sujetos está relacionada, en la tarea de recuerdo posterior sus respuestas muestran que el sujeto ha integrado la información pertinente recibida por el oído no atendido. Así mismo, los sujetos utilizan información del oído no atendido para desambiguar los enunciados presentados por el canal atendido (Eysenck y Keane, 1990). Evidencias como la proporcionada por el estudio que acabamos de describir sugieren que la comprensión del lenguaje lleva asociados dos tipos contrapuestos de procesos: procesos de segmentación y análisis de elementos, que tienen por objetivo detectar los constituyentes de la emisión hablada (o escrita), y procesos de síntesis que retoman y reanalizan la emisión para extraer el contenido del mensaje. Mientras que el primero de los procesos depende de las características del input, el proceso de síntesis integra información sensorial con información procedente del contexto o del conocimiento del sujeto (Marslem-Wilson, 1989). Es decir, es un proceso interactivo, que integra componentes que actúan de arriba-abajo.

8. Especificidad de dominio.

Volviendo a cuestiones de tipo general, aludíamos antes que una cuestión que subyace a los trabajos sobre percepción del habla es hasta qué punto son habilidades para las que la especie humana ha desarrollado unos procesos específicos, y en ese sentido modulares. Los resultados obtenidos hasta ahora señalan, por una parte, que en la percepción del habla intervienen mecanismos específicos que permiten realizar discriminaciones muy finas utilizando parámetros para categorizar segmentos de habla, como el TEV. Sin embargo, también se han encontrado datos que indican que el mismo procedimiento sirve para analizar y categorizar otros sonidos no pertenecientes al habla. Una cuestión sobre la que deberá interrogarse el lector concierne a la especificidad de los mecanismos implicados en la adquisición y uso del lenguaje. Si se acepta que forman un conjunto de procesos específicamente diseñados para el lenguaje y diferenciados de otros mecanismos de finalidad general, habrá de asumir que forman parte de las características distintivas de la especie humana y, por tanto, asentados sobre constituyentes de base innata. Si, por el contrario se concede mayor valor a la influencia de la práctica sobre la especialización en el dominio de las funciones lingüísticas a partir de procesos de finalidad general, se situará en una posición no innatista.