Estadistica para la Investigacion Social

Estadística para la investigación social . 2ª Edición Luis Camarero (coordinador) Alejandro Almazán José M. Arribas Bea

Views 64 Downloads 1 File size 48MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

  • Author / Uploaded
  • Oda
Citation preview

Estadística para la investigación

social . 2ª Edición Luis Camarero (coordinador) Alejandro Almazán José M. Arribas Beatriz Mañas Antonio Félix Vallejos

Estadística para la investigación social 2.ª edición Luis Camarero Alejandro Almazán José M. Arribas Beatriz Mañas Antonio Félix Vallejos ISBN: 978-84-928I-207-3 IBERGARCETA PUBLICACIONES, S.L., Madrid 2013 Edición: 2.' Reimpresión : I .' N.• de páginas: 339 Formato: 17 X 24 cm Materia CDU: Ciencia estadística. Teoría de la estadística. 311

Reservados los derechos para todos los países de lengua española. De confonnidad con lo dispuesto en el anículo _-o y siguientes del código penal vigente, podrán ser casti gados con penas de multa y privación de li ben ad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artística o científica fij ada en cualquier tipo de soporte si n la preceptiva autori z.a ión. ~ing una pane de esta publicación, incluido el diseño de la cubierta, puede ser reproducida, al macenada o trasmitida de ninguna forma. ni por ningún medio, sea éste electrónico, químico, mecánico, electro- óptico, grabación, fotocopia o cualquier otro, sin la pre\·ia autorización escrita por pane de la editorial. Diríjase a CEDRO (Centro Español de Derechos Reprográficos), www.cedro.org, si necesita fotocopiar o escanear algún fragmento de esta obra.

COPYRIGHT © 2011 IBERGARCETA PUBLICACIONES, S.L. info @ibergarceta.es

Estadística para la investigación social Luis Camarero Alejandro Almazán José M. Arribas Beatriz Mañas Antonio Félix Vallejos

2.' edición, 1.'reimpresión 0 1: 231 /2013 ISBN: 978-84- 15452-76-8 Deposito Legal: M-25768-2013 Imagen de cubierta: © Claudio Baldini - fotolia.com Impresión : PRINT HOUSE, S.A.

IMPRESO EN ESPAÑA - PRINTED IN SPAJN

Nota sobre enlaces a páginas web ajenas: Este libro puede incluir referencias a sitios web gestionados por terceros y ajenos a IBERGARCETA PUBLICACIONES , S. L., que se incluyen sólo con finalidad infonnativa. IBERGARCETA PUBLICACIONES, S.L., no asume ningún tipo de responsabilidad por los daños y perjuicios derivados del uso de los datos personales que pucd3 hacer un tercero encargado del mantenimiento de las páginas web ajenas a IBERGARCETA PUBLICACIONES, S.L. , y del funcionamiento, accesibi lidad y mantenimiento de los sitios web no gestionados por IBERGARCETA PUBLICACIONES , S.L directamente. Las referen cias se proporcionan en el estado en que se encuentran en el momento de publi cación si n garantías, expre-

sas o implícitas, sobre la infonnaci ón que se proporcione en ellas.

Contenido

Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix

Capítulo l. Introducción a la historia de la Estadística 1. La Estadística y el Estado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

2. La influencia de la Ilustración .................. . ..... . ....... ~ . . . . . . . . .

2

3. El azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

4. El cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

S. Teoría de errores y estadística social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

6. La Estadística matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

7. Sociología estadística y modelización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

8. Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

Capítulo 11. Fuentes de datos estad ísticos l. Tipos y fuentes de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Fuentes de datos de censos y registros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Datos producidos mediante muestras representativas . . . . . . . . . . . . . . . . . . . . .

12 16 17

4. Los Institutos de Estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . S. Fuentes de datos accesibles en la web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18 23

Capítulo 111. Recogida y tratamiento de datos 1. De las características a las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

2. Niveles de 2.1. Nivel 2.2. Nivel 2.3. Nivel

medición de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30 33 34 35

3. De la observación al registro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

4. Distribuciones de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

vi

Estadística para la investigación social: Fundamentos para el análisis

5. Criterios de agrupación de los datos y tipos de frecuencias . . . . . . . . . . . . . . .

44

6. Elaboración y lectura de tablas de frecuencias con dos variables . . . . . . . . .

52

7. El problema de Jos límites reales en Ja creación de categorías para variables de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

8. Formas de una distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56

Capítulo IV. Estadísticos de resumen

1. Estadísticos de resumen: Ja media l. l. La media como medida de concentración de Jos datos . . . . . . . . . . . . . . 1.2. Medias con tablas de datos agregados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60 60 64

1.3. Uso de valores medios para comparar grupos . . . . . . . . . . . . . . . . . . . . . . . 1.4. Medias ponderadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66 69

2. Medidas de dispersión de los datos en variables de intervalo . . . . . . . . . . . . . 2.1. Desviación media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Varianza y desviación típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72 72 74

2.3. Varianza y desviación en tablas con datos agregados . . . . . . . . . . . . . . . . 2.4. La relación entre media y desviación típica . . . . . . . . . . . . . . . . . . . . . . . . .

76 77

3. Otros estadísticos para conocer la estructura de los datos . . . . . . . . . . . . . . . . 3. l. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Uso de Jos cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. La relación entre Ja media, mediana y moda y los tipos de distribución

80 85 88

90 APÉNDICE ....... .. ............................... ....... ............ .

93

Capítulo V. Representaciones gráficas

l . Utilidad de las representaciones gráficas

98

2. Tipos de gráficos según el problema a investigar . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Descripción y comparación de categorías . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Análisis y comparación de distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 . Análisis de series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Distribución conjunta de dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

101 102 107 122 124

3. Elementos básicos para la construcción de gráficos . . . . . . . . . . . . . . . . . . . . . . 3.1. Aspectos formales de presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Escalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Precauciones en Ja construcción e interpretación de gráficos . . . . . . . .

129 129 130 133

Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

138

Contenido

Capítulo VI. Teoría y cálculo de probabilidades l. Introducción. Definición de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . l. l. Experimentos y sucesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Probabilidad a priori y frecuencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . .

vii

140 140 142

2. Cuestiones básicas del cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Espacio de sucesos y espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Cálculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . .. .. . . . . . .. . . . . 2.3.1. Regla de la adición : unión de sucesos (simultáneos) . . . . . . . . . . 2.3.2. Regla de la multiplicación: sucesos condicionados o intersección de sucesos (secuenciales) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. La regla de Laplace redefinida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

145 146 150 153 154 155 157 159

3. Propiedades básicas de la probabilidad ....... ... .... . .. . ............. . . .

160

ANEXO l. Teoría de conjuntos ................... . .. . . ..... .. . ... .. . .... . .

162

ANEXO II. Técnicas de conteo (ordenaciones y agrupaciones)

168

Capítulo VII. Distribuciones de probabilidad 1. Función de probabilidad y variable aleatoria .... . ... . .................. . .

176

2. Valor esperado en las muestras de una población ....................... .

179

3. Distribuciones de probabilidad en la investigación social ............... .

182

4. Distribución uniforme ..... .. .. . ....... . .. . ..... . ................... .. . .

183

5. Distribución binomial .. . . . ............................................ . 5. l. Valor esperado en muestras para una variable nominal .. .... ....... .

188 193

6. Distribución normal ................................................... . 6.1. Distribución normal estandarizada . .... . ... . .... ... ...... ....... .. . 6.2. Cálculo de probabilidades en distribuciones normales .............. . 6.3. Aproximación de la binomial a la normal ......................... . 7. Distribución t de Student ........ ... .................................. . .

196 199 199 210

8. Resumen de las distribuciones vistas ................................... .

217

Capítulo VIII. Las muestras estadísticas : teoría y diseño 1. Las muestras en investigación social .. . ................................ . 2. ¿Qué es una muestra? ... .. ..................... . ................... . .. . 2.1. Universo y muestra ............................................... . 2.2. Error y sesgo ........ .. ........... . .... ..... .. .... ..... . . .. ....... . 2.3. Nivel de confianza .... ......... ... ............. . ...... ... ... . . . .. . 3. Muestreo aleatorio .............. . ............... ... ........ . .... . ..... . 3.1. Parámetro y estadístico ........................................... . 3.2. La distribución muestral ........ . ..... .. . ... .... .. ..... . . . ... .... . .

213

220 220 221 222 223 224 226 227

vii i

Estadística para la investigación social: Fundamentos para el análisis

3.3. Nivel de confianza, error y tamaño muestra! . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Teoría muestra! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Cálculo del tamaño muestra! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Poblaciones finitas e infinitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7. Muestras grandes y pequeñas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. El conocimiento de la varianza poblacional . . . . . . . . . . . . . . . . . . . . . . . . . 4. Diseño de muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Marco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Procedimientos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 . Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Diseño estratificado uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. La cuestión de la ponderación en diseños no proporcionales al tamaño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3. Diseño estratificado proporcional al tamaño y diseño de Neyman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Diseños de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 . El muestreo por cuotas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ANEXO l. La estimación de las varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Capítulo IX. Inferencia estadística : estimación de medias y proporciones l. ¿En qué consiste la estimación? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . l. l. El comportamiento de los estimadores muestrales . . . . . . . . . . . . . . . . . . . 1.2. Intervalos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Intervalos en el caso de muestras pequeñas . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Estimación de medias con muestras pequeñas . . . . . . . . . . . . . . . . 1.3.2. Estimación de proporciones con muestras pequeñas . . . . . . . . . .

2. Diferencias de estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 . Diferencia de medias en el caso de muestras independientes . . . . . . . . 2.2. Diferencias de estadísticos en muestras relacionadas . . . . . . . . . . . . . . . . 3. Estudio con datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ANEXO l. Cálculo de los intervalos de confianza de las muestras de tamaño 5 de la Población Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliografía comentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

233 233 236 241 242 243 244 245 245 245 250 252 255 257 259 264 266

270 271 276 278 278 279 280 282 285 288 293 299

Soluciones a los ejercicios propuestos

301

Glosario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

319

Presentación

La importancia que tiene la estadística para la investigación social y política es tan grande como el terror que suele despertar su aprendizaje. Este texto es consciente de ello. Los autores dedicados desde hace tiempo a la investigación social y a la docencia estadística han escrito un texto en el que continuamente concilian el rigor de los contenidos con la exposición intuitiva. El lector encontrará que primero nos preguntamos para qué hacemos esto, y sólo tras responder a esta pregunta se puede mostar el amplio abanico de herramientas que la estadística ofrece al analista, al investigador, al profesional de la sociología o de la ciencia política. Pero el texto se ha construido con más equilibrios. No se ha perdido en ningún momento de vista que las herramientas estadísticas no son simplemente «abrelatas» de información, sino que están en evolución constante en la medida en que la información sobre el mundo social y político crece continuamente. Las herramientas estadísticas no se exponen en abstracto sino, que en su exposición, se ligan directamente al funcionamiento cibernético de las técnicas analíticas. Así el lector encontrará desde casos sencillos resueltos de forma simple hasta el tratamiento mediante paquetes estadísticos de voluminosas fuentes de datos. También, la experiencia nos ha permitido desarrollar un texto que potencie las capacidades del lector. Se ha organizado de menos a más con un argumento que permita que el texto pueda servir a quien desea emprender el estudio de forma autónoma. No es un manual simple, de apoyo al profesor, sino sobre todo un libro para el alumno, para que desde su propio ritmo, motivando su curiosidad de forma lógica, pueda desarrollar sus capacidades de autoaprendizaje. Los autores nos hemos propuesto un último reto añadido a los anteriores: inyectar la ilusión para que el día en que el lector cierre definitivamente este libro haya alcanzado el grado de madurez y de ambición, necesarios para navegar en el creciente océano de las técnicas estadísticas y para abordar con total seguridad textos más avanzados. Por ello, por ser un libro tan ambicioso en su planteamiento, resulta limitado en sus contenidos. Únicamente se centra en las bases que permiten hacerse un hueco en el entramado teórico y práctico de la estadística. En su argumento, comenzamos por hacer un breve recorrido por el pensamiento que desde la filosofía, desde las matemáticas y desde la intervención social ha venido construyendo el moderno edificio estadístico (Capítulo 1). Todo tiene su historia, y en este sentido, las formas de análisis estadístico de la realidad social no son inmutables sino que responden a nuestras propias formas de entender la sociedad. Sólo desde la comprensión de la estadística como artefacto social, antes que como artefacto matemático, es posible interrogarse por el porqué, y descubrir sus diferentes usos.

X

Estadística para la investigación social: Fundamentos para e l a á

Sin datos no hay análisis, por ello, a continuación comenzamo- exponiendo las distintas formas de producir datos (Capítulo II). Es la primera etapa en e te peregrinaje por los usos estadísticos. Datos producidos con fines sociales, pero desde interese -ociales y políticos y que por ello, nos conducen a análisis determinados. Los datos ólo podrán er utilizados una vez que sean dotados de sentido. Esta es la primera operación del e radí rico, y tal vez la única: convertir los datos en información. Las operaciones sencilla de organización, ordenación y estandarización (Capítulo III) serán seguidas por otras de re umen con el fin último de la comparación (Capítulo IV) y presentación (Capítulo V). Pero la ambición del analista es mayor: los datos que se producen son ólo partes de la realidad. Nunca podremos obtener todos los datos sobre ninguna realidad. Por ello, deberemos pensar en maneras de trabajar con fragmentos de la realidad. La probabilidad es la bisagra que nos permite pasar de la parte al conocimiento del todo (Capítulo VI). El mundo visto desde la probabilidad, aunque pueda parecer mágico, resulta muy instructivo. La gestión de la incertidumbre nos permite ordenar y conocer la realidad (Capítulo VII). Y con las herramientas y métodos de la probabilidad podemos llegar a comprender despacio la herramienta multiusos que es la encuesta (Capítulo VIII). Saber mirar la parte para comprender el todo es el arte del estadístico. Finalmente, qué hacer cuando hemos producido datos mediante encuestas y cómo llegar a expresarnos con dichos datos, será el final del viaje (Capítulo IX). A partir de ahí, el lector, y ese es nuestro deseo, podrá orientarse con la brújula que suponen estos conocimientos en el ignoto territorio del análisis social. Estamos convencidos de que lo hará con la firmeza suficiente para no dejarse llevar por las sirenas del análisis numérico vacío ni caer en manos de los monstruos del empirismo abstracto de los que nos previniera Wright Milis en La Imaginación Sociológica. Esperamos que el lector sepa disculpar las imperfecciones de este libro, ya que, como toda guía de viaje, puede que a veces el camino sugerido no sea el que el viajero hubiera trazado por sí mismo.

Capítulo!

Introducción a la historia de la Estadística

Con este primer capítulo pretendemos dar una breve panorámica de las distintas fases por la que ha ido pasando la disciplina estadística. Desde los primeros recuentos organizados por las estructuras de poder y el Estado, hasta la Estadística matemática actual , esta disciplina ha ido evolucionando en función de las necesidades sociales.

1. La Estadística y el Estado 2. La influencia de la Ilustración 3. El azar 4. El cálculo de probabilidades 5. Teoría de errores y estadística social 6. La Estadística matemática 7. Sociología estadística y modelización 8. Bibliografía comentada

2

Estadística para la investigación social

1. La Estadística y el Estado El término «estadística» designaba en el siglo XVIII a la disciplina encargada de la organización y sistematización de los conocimientos relativos al Estado. Aunque el interés por conocer la población y la riqueza aparece asociado al reclutamiento y la fiscalidad desde la antigüedad, es con la aparición del Estado moderno cuando se convierte en una práctica sistemática y centralizada. En España, bajo el reinado de Felipe II comienzan a realizarse censos que, además de la población y la riqueza del reino, incluyen aspectos geográficos, jurídicos y religiosos, pero a medida que evolucionan las estructuras administrativas del Estado, este modo de producción estadístico irá cambiando. A partir del siglo XVII, la nueva forma de hacer estadística está asociada con el modelo alemán (Staatwissenschaft) que desarrolla la escuela de G. Achenwall en la Universidad de Gottingen. La Estadística se desarrolla, por tanto, en condiciones y países diversos, dando lugar a modelos como el inglés, que se desarrolla a partir de la aritmética política, el alemán, y el modelo administrativo francés. El modelo alemán se interesó por las costumbres, la población, el clima, la riqueza, y cualquier aspecto relevante para la comunidad; en él prevalece la descripción literaria sobre la numérica. El modelo inglés procedía de áreas más heterogéneas, y sobre todo de los estudios sobre mortalidad. En él participaron médicos, empresarios y parlamentarios que elaboraban registros escritos. Su objeto son los cálculos destinados a obtener informaciones que puedan inferirse al conjunto de la población, y su desarrollo representó el nacimiento de la demografía moderna. El modelo francés, aunque también utilizaba el cálculo numérico, estuvo más cerca del enfoque alemán. En general, el desarrollo de las matemáticas, la astronomía y el cálcu lo de probabilidades determinó la existencia de las primeras prácticas estadísticas.

2. La influencia de la Ilustración Racionalismo y empirismo, las corrientes filosóficas que se desarrollan en pugna con el determinismo, serán el caldo de cultivo de los avances estadísticos que se producen durante los siglos XVII y xvm . Frente a Dios , las nuevas corrientes de la Ilustración colocan a la naturaleza y al hombre como centro del universo. Frente al providencialismo y la fe religiosa, surge la creencia en la razón y el progreso, y en lugar de la tradición y la superstición, aparece la ciencia que gobierna el mundo. Durante este período, las matemáticas y la filosofía alcanzaron una gran relevancia intelectual y en ese contexto se produjeron las primeras formulaciones del azar: si la humanidad había descubierto las leyes de la gravitación universal que rigen el movimiento de los planetas, también podía descubrir las leyes que rigen el movimiento de lo incierto. A partir de ese momento, el conocimiento procede de la experiencia y de la observación , y el valor de las teorías filosóficas estará más ligado a la observación de la naturaleza, y menos a las fuentes autorizadas, procedan éstas de Aristóteles o de la Biblia. Sin renunciar completamente a la religión, los pensadores del XVIII rechazaron la teología cristiana y denunciaron la opresión a la razón que había ejercido la Iglesia. En este contexto se produjo la

Capítulo l. Introducción a la historia de la Estadística

3

famosa apuesta de Pascal, el llamado pari. Blaise Pascal (1623-1662), matemático, jansenista y filósofo, recurrió al cálculo de probabilidades para demostrar que se obtiene mayor ganancia apostando por la existencia de Dios. Mediante el cálculo matemático enfrentó la observancia religiosa que conduce a la felicidad eterna (incierta) contra el disfrute de la vida presente (más seguro). Al comparar la proporción entre la incertidumbre de ganar y la certidumbre de lo que se apuesta, Pascal inauguró el cálculo de probabilidades que se convertirá en la base de la estadística inferencia!.

3. El azar La palabra «azar» es de origen árabe y es muy probable que fueran jesuitas españoles quienes lo exportaran a Francia después de haber conocido los razonamientos de «lo probable» que aparecen en textos musulmanes. La comparación que reduce a la nada el valor finito de los bienes de la vida presente, frente a la felicidad eterna de la vida futura, ya estaba en los argumentos apologéticos musulmanes de Algazel en el siglo XI, e incluso bajo la forma de metáforas mercantiles: por ejemplo, si los mercaderes preferían ganar 10 en el futuro a 1 en el presente. O expresado en otros términos: perder 1, para ganar 10. La continua sucesión de cambios en la economía y la moral religiosa entre finales del siglo XVIII y comienzos del siglo XIX favorecieron el desarrollo de la teoría de la probabilidad. El cálculo de probabilidades es, en su origen, un procedimjento destinado a dotar de racionalidad a las decisiones que han de tomarse en situaciones de incertidumbre, y alguno de los primeros planteamientos sobre la probabilidad se desarrollaron también en situaciones tan frívolas como las apuestas y el juego. En 1654 los razonamientos en busca de la proporción entre lo cierto y lo incierto ocupaban la correspondencia de Pascal y Fermat para resolver un problema planteado por el Caballero de Meré: se trataba de establecer un reparto justo en un juego de azar cuando se había interrumpido la partida. Aunque el hecho de que un filósofo y un matemático se ocuparan de un asunto tan mundano no era nuevo (Tartaglia y Cardano ya habían intentado calcular en el siglo XVI la ventaja o la desventaja en diversos juegos de azar), la solución al problema constituyó un paso fundamental en la construcción de la teoría y el cálculo de probabilidades. El problema de las partes, resuelto por Pascal y Fermat, partía de un juego que constaba de una serie de partidas que se interrumpen antes del final y que requiere, por tanto, del reparto equitativo de lo apostado y no j ugado. En la sol ución del problema, Pascal creyó haber encontrado un método universal para proceder en las situaciones de incertidumbre. La solución consistió en igualar matemáticamente la magnitud de lo que se arriesga y de lo que se espera ganar, o en el lenguaje de Pascal, asegurar la equivalencia entre lo que se arriesga y lo que se tiene derecho a esperar, algo que estaba presente en la lógica jurídica de los contratos que aseguran equidad a los contratantes. La originalidad, en todo caso, consistió en añadir el lenguaje matemático y convertirlo en cálculo, pues la palabra «probabilidad» se había utilizado ya en la Lógica de Port-Royal (1662), en cuyos últimos capítulos se aborda el asunto de la inferencia y la toma de decisiones («Algunas reglas para conducir la razón en el crédito de los asuntos que dependen de la fe humana», o, «Del juicio que se debe hacer sobre accidentes futuros »). A partir de entonces se comenzó a razonar sobre la proba-

4

Estadística para la investigación social

bilidad de sucesos, utilizando su frecuencia de aparición. Se indicaba así el razonamiento implícito en el cálculo de la esperanza matemática y se consideraba geométricamente la proporción entre el bien y el mal que reportaría la ocurrencia de un evento, así como la probabilidad de que sucediese o no. Se trataba, por tanto, de una serie de reflexiones para «hacernos más razonables en nuestras esperanzas y nuestros temores».

4. El cálculo de probabilidades Fueron muchos los matemáticos que a finales del siglo XVII aplicaron el cálculo de probabilidades en el área jurídica y en los juegos de azar, sin embargo, en campos menos científicos como el derecho mercantil se realizaban desde antiguo contratos aleatorios que incluían elementos de riesgo (seguros, sobre todo marítimos y de rentas) y especificaban las condiciones de equidad y las reglas de intercambio de las mercancías . Reglas de compensación de riesgos que eran en su mayor parte cualitativas, puesto que en ningún caso se registraba la información de la frecuencia de los sucesos, ni se confeccionaban estadísticas de ningún tipo. Los seguros marítimos estuvieron regulados desde los tiempos medievales por códices legales, manuales y archivos notariales, y puertos de ciudades como Barcelona o Valencia regularon los distintos aspectos del negocio mercantil. Los Consulados del Mar tipificaban las cantidades a asegurar dependiendo de la carga, la estación del año, la ruta elegida, etc., y en cuanto a las rentas, no se consideraba ninguna variable ni escalamiento de precios en función de las características del asegurado. El «Tratado de Rentas Anuales» de Johan de Witt (1671) fue uno de los primeros intentos de aplicación de las matemáticas a contratos aleatorios. Su originalidad se basaba en estimar la probabilidad de muerte en función de la edad, estableciendo proporciones, aunque en la práctica de los seguros se siguió utilizando el cobro de un recargo fijo por capital asegurado. Hay que esperar hasta 1762 para que las empresas de seguro utilicen datos estadísticos y modelos probabilísticas en el cálculo de las primas. La primera empresa que utilizó estos nuevos métodos fue la compañía inglesa Equitable Society far the Assurance of Lives, aunque fue desautorizada al principio por el Royal Council porque consideraba sus métodos de asignación del riesgo como pura especulación . El concepto de probabilidad apareció de dos formas diferentes: la probabilidad objetiva, que consideraba la incertidumbre como algo que forma parte de la naturaleza de las cosas, y la probabilidad subjetiva, que se expresaba en grados de creencia ante los fenómenos que son inciertos debido al desconocimiento de sus leyes. Jakob Bernoulli (1654-1705) en su célebre obra Ars Conjectandi (1713), estableció una nueva concepción de Ja probabilidad que unía las visiones objetiva y subjetiva en un mismo razonamiento. El teorema de Bernoulli, denominado «ley de los grandes números», reunió las probabilidades como frecuencias observadas con las probabilidades teóricas a priori, en base a la lógica del suceso que se repite en idénticas condiciones un gran número de veces. Así, afirma que la frecuencia de aparición de un suceso tiene una probabilidad dada y tiende hacia ella cuando el número de pruebas aumenta. La repetición de las pruebas constituye el soporte empírico de la teoría. Si bien en el Ars conjectandi (Arte de Conjeturar), Bernoulli utilizaba el concepto de probabilidad como grado de certeza moral, en el mismo sentido que Leibniz, añadió un punto de vista frecuentista, implícito en los juegos de azar. El enunciado de Bernoulli, será completado por

Capítulo l. Introducción a la historia de la Estadística

S

Abraham de Moivre (1667-1754) al calcular la probabilidad de que la frecuencia de aparición de un fenómeno se halle en un intervalo tan pequeño como se quiera. En 1730, De Moivre dio a conocer lo que hoy conocemos como aproximación normal de una distribución binomial. En 1763, la Academia Real de Londres publicó la obra póstuma de Thomas Bayes (1702-1761) Essay Towars Solving a Problem in the Doctrine of Chances , en Ja que asociaba la información parcial sobre la ocurrencia de eventos a una hipótesis de probabilidad a priori, llegando a una probabilidad a posteriori, más segura. Con ello pretendió mejorar la racionalidad de una decisión a partir de conocimientos incompletos. Se trataba de una probabilidad a la inversa (probabilidad de las causas) apropiada a Jos casos en que las probabilidades reflejan el estado de nuestros conocimientos (lo que ya se sabe). Si Bernoulli había proporcionado la probabilidad de que al extraer bolas de una urna nos aproximemos a la proporción conocida de bolas blancas y negras, Bayes facilitó la probabilidad de que la proporción desconocida de la urna se aproximara a un resultado empírico de extracciones. La principal aplicación que tuvo el teorema de Bayes a finales del siglo xvrn y principios del XIX fue la estimación de la probabilidad de los juicios, es decir, la fiabilidad de las decisiones de jueces y jurados. Como la probabilidad de que cada juez se equivocara en su veredicto era desconocida a priori, se recurrió a las frecuencias empíricas observadas para estimar Ja probabilidad. La aplicación del Teorema de Bayes, a pesar de que sigue provocando disputas, ha servido de inspiración a los trabajos de muchos probabilistas posteriores. Pierre Simon de Laplace (1749-1827), filósofo , astrónomo y matemático francés , recopiló las diferentes teorías sobre Ja probabilidad en su trabajo Théorie Analitique des Probabilités publicado en 1812. Con Laplace la teoría del azar se convirtió en un modelo teórico que incluía Jos principales temas tratados con anterioridad. Una de las principales aportaciones de Laplace consistió en el ajuste de funciones teóricas para las leyes del error en las mediciones astronómicas. Desde entonces, las teorías sobre la probabilidad aparecen estrechamente vinculadas a Ja astronomía, la geodesia y la demografía. La síntesis del trabajo de Laplace, y del también astrónomo y matemático Karl F. Gauss (1777-1855) resultará de gran utilidad un siglo después para la estadística matemática, pero en su época, el objetivo era establecer la ley de probabilidad de una estimación estadística utilizando Ja distribución de los errores de las mediciones astronómicas. En ese contexto, Laplace enuncia y demuestra el Teorema del Límite Central que dice lo siguiente: aunque los valores observados no siguen la ley normal (también llamada campana de Gauss), las medias de esas mediciones sí lo hacen al aumentar indefinidamente el número de observaciones. Laplace también realizó aproximaciones a las distribuciones de probabilidad e introdujo Ja idea de estimación por intervalos. Es importante señalar que el interés inicial de Laplace por las probabilidades fue puramente matemático, y que su relación con el marqués de Condorcet (17 43-1794) determinó su interés por la aplicación de la probabilidad a la población, la credibilidad de testigos y Ja fiabi lidad de los tribunales de justicia. A instancias de Laplace, el gobierno de Napoleón diseñó un censo de la población de Francia basado en cálculos probabilísticos. El procedimiento consistió en elaborar una muestra representativa para determinar la relación entre la población y los nacimientos anuales, y así poder calcular el número real de habitantes. En Ja referencia que hace Laplace en su Essai philosophique sur les probabilités, termina con estas palabras: «lo que eleva su pobla-

6

Estadística para la investigación social

ción a 42 .529 .267 de habitantes, pudiéndose apostar 1.161 contra uno, a que el error de ese resultado no excede de medio millón». Como vemos, las referencias a los juegos de azar seguirán presentes durante mucho tiempo.

5. Teoría de errores y estadística social Laplace había utilizado la distribución normal para analizar los errores de las observaciones astronómicas en 1781, y alrededor de 1820 ya había logrado una importante síntesis entre la probabilidad y el uso de sistemas de ecuaciones lineales, pero la distribución normal de Laplace-Gauss no hizo su entrada triunfal en las ciencias sociales hasta 1830 de Ja mano de Adolphe Lambert Quetelet (1796-1874). Nacido en Gante y de formación astrónomo y matemático, Quetelet fundó en 1833 el Real Observatorio de Bruselas, una institución que será determinante en la creación de la oficina estadística del nuevo Estado belga. Estudiando las tablas estadísticas, Quetelet observó que muchos resultados de los censos de población, así como las medidas antropométricas de los soldados, mostraban distribuciones de frecuencias con características similares a la curva de Laplace-Gauss. Las frecuencias de las medidas biométricas mostraban Ja misma estructura que las tablas de errores, algo que Quetelet conocía muy bien por sus trabajos astronómicos. Aquello le sugirió una interpretación sorprendente: se podía aplicar la curva de la distribución normal de errores a la biometría, la ciencia que entonces se ocupaba de las medidas de las características físicas de los hombres. Según Quetelet, la aparición de la curva en forma de campana en esas mediciones, significaba que la naturaleza había pretendido hacer un tipo ideal al que llamó «hombre medio », y las medidas extremas, no eran sino errores de la madre naturaleza. A partir de entonces, el hombre medio se convirtió en un ideal asociado a una determinada visión de la naturaleza y de Ja nación. Quetelet creyó haber encontrado una ley (la ley de los errores de la astronomía) que gobernaba la variabilidad humana, y la popularidad de sus trabajos hizo del hombre medio una pasión estadística, un tipo ideal que portaba los rasgos físicos, morales e intelectuales de la sociedad, de la nación. Quetelet con su descubrimiento pretendió ser el Newton de esa «otra mecánica celeste» que permitiría encontrar las leyes del equilibrio social. El hombre medio dejaba de ser una simple abstracción matemática, para convertirse en un ideal moral. A Jo largo de su vida, Quetelet fue un exitoso propagador de la aplicabilidad del razonamiento probabilístico a la cuestión social. Después de cuatro publicaciones de divulgación sobre astronomía, física y cálculo, su obra se orientó hacia la estadística social, entonces llamada estadística moral. Entre sus publicaciones hay que destacar «El Crecimiento del hombre» (1881), donde utiliza un gran número de medidas de las tallas de la población, y «Tendencias Criminales en diferentes edades» (1833). Pero fue su obra «Sobre el hombre y el desarrollo de sus facultades o Ensayo de Física Social» (1835), la que le catapultó a la fama. En estos escritos Quetelet mostraba como las medias de las características físicas, las tasas del crimen, o del matrimonio, presentan una relación estable en el tiempo y entre países, respecto a la edad y otras variables demográficas. A estas relaciones estables les llamó «leyes del mundo social».

Capítulo l. Introducción a la historia de la Estadística

7

Pero más que sus obras y su atrevida transposición de la curva de errores de Gauss (no es lo mismo hacer numerosas mediciones de un objeto, que hacer una medida de muchos objetos) , la importancia de Quetelet estriba en su papel de divulgador e impulsor del uso del cálculo de probabilidades. Quetelet jugó un gran papel en el desarrollo del movimiento estadístico internacional: ya en Inglaterra contribuyó a la fundación de la sección estadística de la Asociación británica para el avance de la ciencia (1833) así como de la Sociedad estadística de Londres (1834), y desde Bruselas organizó los primeros Congresos internacionales de estadística, uno sobre meteorología y otro celebrado en 1854 donde se acordaron las pautas de la nueva estadística administrativa internacional. El siglo XIX fue un período de gran interés por la estadística, y los Estados y Academias científicas, así como diferentes instituciones privadas, comenzaron a generar una cantidad de datos estadísticos sin precedentes. La proliferación de trabajos sobre la población y la pobreza, junto al estímulo teórico del positivismo, contribuyeron a dar una nueva visión de la sociedad industrial y favorecieron la creación de la disciplina estadística. Los desarrollos teóricos más importantes en materia de muestras, por ejemplo, aparecieron ligados a la resolución de los problemas sociales y entrañan una nueva concepción del hombre y la sociedad. En España, los estadísticos más destacados del siglo XIX fueron Ramón de la Sagra (1798-1871) y Pascual Madoz, (1806-1870). Este último envió a Bruselas un grupo de jóvenes geógrafos para trabajar junto a Quetelet y modernizar las estadísticas del reino. Como resultado, en 1856, se crea la Comisión de Estadística General del Reino, primer organismo centralizado, encargado de toda la producción estadística. Su primera realización fue el censo de 1857, elaborado con los criterios establecidos por el congreso internacional de Bruselas, y en el censo siguiente, el de 1860, los criterios internacionales para la confección de los censos se extendieron a los territorios de ultramar .

6. La Estadística matemática Por el lado anglosajón, Francis Galton (1822-1911) y Karl Pearson (1857-1936) hacen aportaciones desde la eugenesia y la biometría, mientras que Francis Ysidro Edgeworth (18451926) y Udny Yule (1871-1951) lo hacen por el lado de la economía y la ciencia social. En Ja Inglaterra de esta época, la preocupación por la pobreza y sus causas, presidió los trabajos de eugenistas, economistas y sociólogos. Galton, impresionado por la teoría de su pariente Charles Darwin (1809-1882), trasladó los principios de la evolución a la especie humana, en forma de teoría eugenésica, asociando los valores cívicos y morales a los genéticos. A partir de la clasificación de clases sociales realizada por Charles Booth (1840-1916) para la aplicación de la Ley de Pobres, y de la ley binomial utilizada por Quetelet, Galton pretendió demostrar que era posible mejorar la especie humana mediante la intervención en la herencia genética. No centró su atención en el hombre medio como Quetelet, sino en sus diferencias respecto a Ja medias, o Jo que es igual, en la variabilidad humana. Entre sus contribuciones está la utilización de la regresión lineal para medir la influencia de la herencia genética. Galton trabajó durante esos años con árboles genealógicos y con datos biométricos de padres e hijos que mostraban las transformaciones morfológicas. La complejidad de los

8

Estadística para la investigación social

problemas matemáticos que se plantearon con estas investigaciones, hizo que Galton utilizase a matemáticos como Karl Pearson y Francis Y sidro Edgeworth. Éste último, más interesado en el problema teórico que en la eugenesia misma, acabó formalizando el análisis de la varianza y el coeficiente de correlación, aunque más tarde fuera atribuido a Karl Pearson. Karl Pearson (1857-1936), investigador muy próximo al movimiento eugenista, trabajó activamente en la creación de una red de instituciones científicas dedicadas a la estadística aplicada en los campos de la eugenesia y la genética, así como en la creación de la revista Biométrica. George Udny Yule (1871-1951), ingeniero y físico, además de alumno y colaborador de Pearson, será el autor del primer manual de estadística matemática moderno (An lntroduction to the Theory of Statistics,1911), un referente obligado de toda la estadística posterior. La preocupación por la pobreza y sus causas orientó el trabajo del matemático Arthur L. Bowley (1869-1957) hacia el estudio de las condiciones de vida de las clases trabajadoras inglesas, haciendo contribuciones importantes al desarrollo del muestreo y al uso de los intervalos de confianza. El método estadístico representativo comenzó a aplicarse durante este período a los estudios de vivienda, trabajo, desempleo y salud. El primer tercio del siglo XX verá también el nacimiento de la sociedad de masas. La incorporación de la cadena de montaje a los procesos productivos realizada por Ford, permitirá inundar los mercados mundiales de productos fabricados en serie. Pero la venta de esas mercancías, tal y como pondrá de manifiesto la depresión del año 1929 necesitaba de la estructuración del consumo, algo que comienza a ser una realidad durante los años veinte con la ayuda de la publicidad comercial y los estudios de mercado que utilizan la encuesta estadística basada en el muestreo representativo. Los años 1920 y 1930, fueron un período de grandes convulsiones sociales: la revolución rusa había conmocionado el mundo y el movimiento obrero comenzaba a estar más y mejor organizado. Los gobiernos comenzaron a sensibilizarse con la cuestión social y favorecen los estudios estadísticos. En su reunión de 1925, el Instituto Internacional de Estadística decidió legitimar en Roma el método representativo, y la sustitución de los recuentos censales por muestras cuya validez se sustentaba en la aplicación del cálculo de probabilidades. La encuesta estadística representativa se convirtió desde entonces en un instrumento fundamental para los estudios sociales, los estudios de mercado, y los estudios políticos de predicción del voto, consolidando una nueva técnica estadística que partía del muestreo y el cálculo de probabilidades.

7. Sociología estadística y modelización En el contexto centroeuropeo de los años 1920 surge la figura de Paul Lazarsfeld (19011976), un astrofísico vienés que comienza a trabajar como sociólogo realizando estudios sociales y comerciales para la socialdemocracia austriaca. En 1933 viajó a los EE.UU con una beca de la fundación Rockefeller, donde aprendió el uso de las técnicas estadísticas aplicadas a la investigación comercial y a los estudios de audiencias e intención de voto que se desarrollaban en EEUU. Allí conoció el mundo de las empresas de investigación de mercados norteamericanas, experiencia que le permite crear su propia empresa de investigación: el «Bureau of applied social research». Después de la II Guerra Mundial terminará convirtién-

Capítulo l. Introducción a la historia de la Estadística

9

2781

557

Cas.tla y le«i

8urQOS

59

100001 a 40C000 habl:artes

0 a MC~ espanold

Muy-

Peo