Esta Di Stica

Descripción completa

Views 139 Downloads 6 File size 8MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ESTADÍSTICA MÓDULO ÚNICO CARRERA: CONTADOR PÚBLICO ADMINISTRACIÓN DE EMPRESAS CURSO: 3º AÑO PROFESOR: Lic. ROBERTO CADAR SALTA - 2007

1

2

Educación A DISTANCIA

AUTORIDADES DE LA UNIVERSIDAD CANCILLER Su Excelencia Reverendísima Mons. MARIO ANTONIO CARGNELLO Arzobispo de Salta

RECTOR Dr. ALFREDO GUSTAVO PUIG

VICE-RECTOR ACADÉMICO Dr. GERARDO VIDES ALMONACID

VICE-RECTOR ADMINISTRATIVO Ing. MANUEL CORNEJO TORINO

SECRETARIA GENERAL Prof. CONSTANZA DIEDRICH

DELEGADO RECTORAL del S.E.A.D. Dr. OMAR CARRANZA

3

4

Indice general CURRICULUM VITAE .................................... 9

7. Organización de los Datos ........................ 43

I. Fundamentación ........................................ 13

7.1. Corrección ............................................. 43

II. Objetivos .................................................. 13

7.2. Clasificación........................................... 43

III. Programa de la asignatura ....................... 13

7.3. Tabulación ............................................. 44

IV. Bibliografía ............................................... 16

8. Presentación de los datos estadísticos ..... 46

V. Evaluación y Condición para regularizar la materia ................................................. 17

8.1. Introducción ........................................... 46 8.2. Cuadros estadísticos ............................. 46

VI. Guía de Estudios ..................................... 21

8.3. Gráficos Estadísticos ............................. 52

UNIDAD I

UNIDAD III

SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA ......................................... 21

DISTRIBUCIÓN DE FRECUENCIAS .......... 65 1. Introducción .............................................. 65

1. La Estadística como disciplina científica ... 21

2. Series estadísticas ................................... 65

2. Aplicaciones de la estadística ................... 22

3. Distribución de frecuencias ....................... 66

2.1. Aplicación en distintas disciplinas .......... 22

4. Distribución de frecuencias para variables continuas .................................. 66

2.2. Aplicación en la Economía y los Negocios .................................................. 22

4.1. Organización de los datos ...................... 67

3. La Falsedad estadística ............................ 23

4.2. Construcción de las tablas de frecuencias .............................................. 68

UNIDAD II

4.3. Tabulación de los datos ......................... 70

LA INVESTIGACIÓN ESTADÍSTICA ........... 25

4.4 Marca de clase (xi) ................................. 71

1. Etapas de un trabajo estadístico ............... 25

4.5. Distribución de frecuencias relativas simples (fr) ............................................... 71

2. Variables ................................................... 26

4.6. Gráficos de distribución de frecuencias simples ................................. 73

3. Datos estadísticos .................................... 28 4. Población y Muestra ................................. 30

4.7. Algunas situaciones particulares con las tablas de frecuencias .......................... 75

4.1. Población ............................................... 30 4.2. Población finita y población infinita ......... 31

4.8. Distribuciones de frecuencias acumuladas .............................................. 78

4.3. Muestra .................................................. 32

5. Distribución de frecuencias para variables discretas ................................... 81

4.4. Parámetro y Estadígrafo ........................ 33 5. Objetivos del Análisis Estadístico ............. 36

6. Distribución de frecuencias para variables cualitativas ................................ 83

5.1. Estadística Descriptiva .......................... 36 5.2. Estadística Inferencial ............................ 37 6. Relevamiento de datos estadísticos .......... 40

UNIDAD IV

6.1. Concepto ............................................... 40 6.2. Clases de fuentes .................................. 40

RESUMEN DE INFORMACIÓN A TRAVÉS DE MEDIDAS DESCRIPTIVAS ............... 93

6.3. Experimentos y Encuestas. Métodos de recolección de datos ................................ 41

1. Concepto .................................................. 93 2. Medidas de posición ................................. 93

6.4. El proceso de obtener datos .................. 42

5

2.1. Media aritmética ..................................... 94

3.2.- Frecuencia relativa de ocurrencia ....... 169

2.2. Mediana ............................................... 100

3.3.- Probabilidad subjetiva ......................... 170

2.3 Moda ..................................................... 101

4.- Axiomas de Probabilidad ....................... 173

2.4. Media aritmética, mediana y moda para datos agrupados ............................ 105

5.- Reglas de Probabilidad .......................... 174 5.1.- Eventos mutuamente excluyentes y no excluyentes. Reglas de la adición ..... 174

Media aritmética combinada ........................ 106 2.5. Otras medidas de posición ................... 118

5.2.- Eventos independientes y dependientes. Reglas de la multiplicación .......................................... 179

Uso de la G para obtener tasas promedio de crecimiento ........................................ 120

Probabilidades conjuntas utilizando tablas de contingencias .......................... 181

3. Medidas de Dispersión ........................... 131 3.1 Rango ................................................... 132

6.- Reglas de conteo ................................... 188

Características del Rango .......................... 132

6.1.- Regla de la multiplicación .................... 188

3.2 Desviación Absoluta Promedio ............. 132

6.2.- Permutaciones .................................... 189

Características de la DM ............................ 133

6.3.- Variaciones ......................................... 190

3.3 Varianza ............................................... 134

6.4.- Combinaciones ................................... 191

3.4 Desviación típica o estándar ................. 135

6.5.- Aplicación de permutaciones y combinaciones para determinar probabilidades ... 192

Principales característica de la desviación típica .................................... 136

7.- Teorema de Bayes ................................ 195

3.5. Varianza y desvío típico de una muestra .................................................. 137 3.6. Coeficiente de Variación ...................... 141

UNIDAD VI

3.7 Varianza y desvío típico para datos agrupados .............................................. 145

DISTRIBUCIÓN DE PROBABILIDADES ... 209

3.8 Otras medidas de dispersión ................ 148

1.1.- Concepto de Función .......................... 209

4. Formas de la distribución ........................ 149

1.2.- Variable aleatoria ................................ 209

4.1 Simetría y Asimetría .............................. 149

1.3.- Función probabilística ......................... 210

4.2 Distribuciones asimétricas .................... 151

1.4.- Distribución probabilística ................... 211

4.3. Coeficiente de Asimetría de Pearson ... 153

2.- Valor esperado ...................................... 213

4.4. Curtosis ............................................... 154

3.- Media y varianza de la población ........... 214

EL GRÁFICO DE CAJA ............................ 156

3.1.- Media de la población .......................... 214

1.- Distribución probabilística ...................... 209

3.2.- Varianza de la población ..................... 215

UNIDAD V TEORIA DE LAS PROBABILIDADES ........ 163

4.- Distribuciones de probabilidades discretas ................................................ 218

1.- Introducción ........................................... 163

4.1- Distribución binominal .......................... 218

2.- Conceptos básicos ................................ 163

Uso de las tablas ........................................ 221

2.1.- Evento aleatorio - Espacio muestral Experimento ........................................... 164

4.2.- Distribución de Poisson ...................... 225 Aproximación de la distribución de Poisson a la distribución binomial ........... 226

2.2.- Eventos aleatorios simples y compuestos ........................................... 164

4.3.- Distribución hipergeométrica ............... 229

3.- Los tres enfoques de la Probabilidad ..... 168

5.- Distribución de probabilidades continuas................................................ 232

3.1.- Probabilidad clásica ............................ 168

6

5.1. Distribución Normal .............................. 232

UNIDAD IX

5.2. Distribución exponencial ...................... 246

TEST DE HIPOTESIS ................................ 301 1. Generalidades......................................... 301

APÉNDICES

2. Procedimiento de las pruebas de hipótesis ................................................. 301

Apéndice 1 .................................................. 257

3. Hipótesis exactas e inexactas ................ 305

Distribución Probabilisticas Binomiales ....... 257 Apéndice 2 .................................................. 260

4. Pruebas de hipótesis con muestras grandes .................................................. 305

Probabilidades acumuladas para distribuciones binomiales ....................... 260

4.1 Prueba de una media poblacional .......... 305 4.2 Prueba de la proporción de la población 307

Apéndice 3 .................................................. 263

4.3 Prueba para la diferencia de medias ..... 308

Probabilidades Poisson .............................. 263

5. Error de tipo II. Curva Característica Operativa y Curva de Potencia de Contraste ............................................... 309

Apéndice 4 .................................................. 267 Apéndice 5 .................................................. 268 Valores de e-l .............................................. 268

6. Inferencia para muestras pequeñas. La Distribución “t” de Student ................. 317

Diagrama de Contenido - Unidad VII ........... 269

6.1 Introducción ......................................... 317 6.2 Características 3.................................. 317

UNIDAD VII

6.3 Uso de la tabla ...................................... 318

DISTRIBUCION EN EL MUESTREO ........ 271

6.4 Inferencia estadística utilizando la distribución t ........................................... 319

1. Introducción ............................................ 271 2. Importancia de la muestra ....................... 271

6.5 Grados de libertad 4 ............................. 326

3. Error muestral ......................................... 272 4. Distribución en el muestreo ..................... 272

UNIDAD X

5. Error estándar ......................................... 273

LA DISTRIBUCIÓN JI CUADRADA (c2) ... 333

6. Distribución muestral de medias ............. 273

1. Características de la distribución ............ 333

7. Distribución muestral de proporciones .... 275

2. Uso de las tablas de c2 .......................... 334

8. Teorema del límite central ...................... 277

3. Aplicaciones de c2 .................................. 334 3.1 Prueba para la bondad de ajuste ........... 336

UNIDAD VIII

3.2 Test de Independencia .......................... 346

TEORÍA CLÁSICA DE LA ESTIMACIÓN ... 285

3.3 Prueba de Homogeneidad ..................... 348

1. Introducción ............................................ 285

3.4 Prueba de una varianza de la población 353

2. Estimador y Estimación .......................... 285 3. Tipos de Estimaciones ............................ 285

APÉNDICES

4. Propiedades de un buen estimador ......... 286

Apéndice 6 .................................................. 361

5. Estimaciones puntuales .......................... 287

Tabla de números aleatarios ....................... 361

6. Estimación por intervalo ......................... 289

Apéndice 7 .................................................. 362

6.1 Introducción .......................................... 289

Valores porcentuales de la distribución t ..... 362

6.2 Nivel e Intervalo de Confianza .............. 290

Apéndice 8 .................................................. 363

6.3 Cálculo de Estimaciones por intervalos para muestras grandes .......... 291

Valores porcentuales de la distribución X2 .. 363

7

8

CURRICULUM VITAE

1. DATOS PERSONALES APELLIDO Y NOMBRES: CADAR, Roberto Oscar DOCUMENTO: D.N.I. Nº 12.790.108

2. TÍTULOS a)Nivel Medio * Perito Mercantil otorgado por el Colegio Salesiano “Angel Zerda” en 1974. b) Nivel Superior * Licenciado en Administración de Empresas otorgado por la Universidad Católica de Salta en 1983. (Matrícula Profesional 059 - Consejo Profesional de Ciencias Económicas). * Profesor en Ciencias Económicas otorgado por la Universidad Nacional de Salta en 1988.

3. CARGOS DESEMPEÑADOS EN LA DOCENCIA * Director de Estudios (Titular) del Instituto Superior del Profesorado “José Manuel Estrada” desde 01-04-86 hasta la fecha. * Rector (Suplente) del Instituto “José Manuel Estrada” - Niveles Medio y Terciario, desde el 17-02-92 hasta el 24-09-93. * Jefe de la carrera de Administración de Empresas (interino) dependiente de la Facultad de Economía y Administración de la Universidad Católica de Salta desde el 07-03-89 hasta el 01-05 de 1989. * Supervisor Técnico de la Dirección General de Educación Superior dependiente del Ministerio de Educación de la Provincia de Salta desde el 27-09-93 hasta el 10-12-95. * Secretario Académico de la Escuela de Negocios de la U.C.S desde el 2-7-95 hasta el 10-03-97.

9

4. OTROS CARGOS DESEMPEÑADOS * Secretario Técnico de la Dirección de Estadísticas y Censos de la Universidad Católica de Salta desde el 03-05-88 hasta el 06-03-89 y del 02-07-89. * Secretario Regional de la Sociedad Argentina de Estadística desde 1992 hasta la fecha.

5. ANTECEDENTES DOCENTES a)Nivel Medio - Instituto “José Manuel Estrada” Profesor Titular en las siguientes asignaturas: * * * *

Estadística Metodológica de 5º año desde el 08-05-80 a la fecha. Organización de Empresas de 5º año desde el 09-03-81 al 13-03-83. Economía Política de 4º año desde el 17-03-81 al 10-03-85. Contabilidad de 1º año desde el 12-03-84 hasta agosto de 1986. Profesor suplente en las siguientes asignaturas:

* Análisis de Balance de 5º año desde el 14-03-83 al 16-05-83 y desde el 22-06-84 al 05-08-84. * Organización de Oficinas de 3º año desde el 01-08-83 al 29-11-83. * Contabilidad de 3º año desde el 22-06-84 al 05-08-84. - Instituto Privado “Carlos Guido Spano” * Profesor titular de la asignatura Organización del Comercio y la Empresa desde el 19-08-80 hasta el 28-02-85. - Colegio Salesiano “Angel Zerda” Profesor titular en las siguientes asignaturas: * Sistematización Administrativa y Contable de 3º, 4º y 5º año desde marzo de 1982 hasta el 11-12-95. 10

* Organización del Comercio y de la Empresa desde marzo de 1984 hasta diciembre de 1997. * Contabilidad y Sistematización Administrativa - Contable de 3er. año desde el 01-02-98 a la fecha. - Bachillerato Integral “Raúl Scalabrini Ortiz” * Profesor suplente de la asignatura Probabilidad y Estadística desde el 08-10-90 hasta el 30-12-90. - Colegio de la “Divina Misericordia” * Profesor de Contabilidad de 3º año desde marzo a julio de 1991. b) Nivel Superior No Universitario Profesor titular en el Instituto Superior del Profesorado “José Manuel Estrada” en las siguientes asignaturas: * Estadística de 3º año del Profesorado en Ciencias Jurídicas y Contables desde el 01-04-86. * Metodología y Práctica de la Enseñanza de 4º año de la carrera del Profesorado en Ciencias Jurídicas y Contables del Instituto del Profesorado “José M. Estrada” desde el 01-04-88 a la fecha. c)Nivel Superior Universitario Profesor adjunto a cargo en la Universidad Católica de Salta en las siguientes cátedras: * Estadística en la carrera de Servicio Social desde 17-03-86 hasta la fecha. * Estadística en la carrera de Administración de Empresas y la carrera de Economía desde el 18-08-86 hasta la fecha. * Estadística en la carrera de Geografía desde el 23-03-87 hasta diciembre de 1991. * Estadística en la carrera de Ingeniería Industrial desde el 26-03-90 al 31-12-90. * Estadística en la carrera de Comunicaciones Sociales desde marzo de 1991 hasta la fecha.

11

* Estadística Aplicada en la carrera de Turismo desde agosto de 1992 hasta la fecha. * Administración del Personal desde el 15-08-88 al 31-12-88 y desde el 14-08-89 al 31-12-89. * Métodos y Modelos Decisionales en la carrera de Administración de Empresas desde marzo de 1.994 hasta la fecha.

12

Carrera: Contador Público - Administración de Empresas Curso: 3º Año Materia: Estadística Profesor: Lic. Roberto Cadar Año Académico: 2007

I. Fundamentación La información es un recurso fundamental para la toma de decisiones en todo tipo de organización. Los directivos enfrentan el desafío de resolver distintos problemas en condiciones de incertidumbre. Gracias al desarrollo de los métodos cuantitativos, muchos de estos problemas han encontrado soluciones. La Estadística ha demostrado ser una herramienta útil en todas las disciplinas en los procesos de decisión, en trabajos de investigación y en evaluación de proyectos.

II. Objetivos √

Conocer el significado y alcance de la Estadística como disciplina científica. √ Aplicar los métodos y técnicas estadísticas a los problemas relacionados con la Economía y los Negocios. √ Valorar la Estadística como herramienta fundamental en los procesos de investigación y toma de decisiones.

III. Programa de la asignatura Unidad I: SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA 1. Estadística. Diferentes significados. La Estadística como disciplina científica. 2. Aplicaciones de la Estadística en distintas disciplinas. Importancia en la Economía y Negocios. 3. La falsedad estadística. Unidad II: LA ESTADÍSTICA COMO DISCIPLINA CIENTÍFICA. 1. Etapas de un trabajo estadístico 13

2. Variables. Concepto. Clasificación. Datos estadísticos. 3. Población. Concepto. Población finita y población infinita. Unidades elementales de observación. Parámetro. 4. Muestra. Conceptos. Razones para el muestreo. Muestras probabilísticas y no probabilísticas. Estadígrafo. 5. Objetivos del análisis estadístico. Estadística Descriptiva. Inferencia Estadística. 6. Relevamiento de datos. Fuentes internas y externas. Fuentes primarias y secundarias. Métodos de obtención de datos. 7. Organización de los datos recopilados. 8. Presentación de la información. Cuadros y gráficos. Elementos estructurales. Distintos tipos. Construcción. Lectura e interpretación. Instrumentos de análisis. Unidad III: DISTRIBUCIÓN DE FRECUENCIAS 1. Serie simple de datos. Arreglo de datos. Diagramas de tallos y hojas. 2. Series de frecuencias para variables continuas y discretas. Distribución de frecuencias para variables cualitativas. Construcción de las tablas. Consideraciones básicas. Distribución de frecuencias relativas. Gráficos: histogramas, polígonos de frecuencias y gráfico d e bastones. 3. Distribución de frecuencias acumuladas. Construcción. Gráficos: ojivas y gráficos escalonados. Unidad IV: RESUMEN DE INFORMACIÓN A TRAVÉS DE MEDIDAS DESCRIPTIVAS 1. Medidas de posición. Concepto. Limitaciones. Media aritmética. Mediana. Moda. Media geométrica. Media armónica. Cuartiles. Deciles. Percentiles. Conceptos. Cálculos. Características. Propiedades. Oportunidad de utilización de cada una. Diagrama de caja. 2. Medidas de variabilidad. Concepto. Importancia. Clasificación. Rango. Desvío absoluto promedio. Varianza. Desviación típica. Conceptos. Cálculos. Características. Propiedades. Dispersión relativa. Coeficiente de variación. 3. Formas de la distribución. Simetría y Asimetría. Curtosis. Unidad V: TEORÍA DE LAS PROBABILIDADES 1. Introducción. Conceptos básicos. 14

2. Eventos aleatorio. Espacio muestral. Experimento. Eventos simples y compuestos. 3. Los tres enfoques de la probabilidad. Probabilidad clásica. Frecuencia relativa de ocurrencia. Probabilidad subjetiva. 4. Axiomas de probabilidad. 5. Eventos excluyentes y no excluyentes. Regla de la adición. 6. Eventos independientes y dependiente. Regla de la multiplicación. 7. Probabilidades conjuntas. 8. Reglas de conteo. Permutaciones. Variaciones. Combinaciones. 9. Teorema de Bayes. Unidad VI: DISTRIBUCIÓN DE PROBABILIDADES 1. Función probabilística. Distribución probabilística. 2. Valor esperado. Media y varianza de la población. 3. Distribuciones de probabilidades discretas. Distribución binomial. Distribución de Poisson. 4. Distribuciones de porbabilidades continuas. Distribución normal. Distribución exponencial. Unidad VII: DISTRIBUCIONES EN EL MUESTREO 1. Importancia de la muestra. 2. Error muestral 3. Distribución en el muestreo. Error estándar. Distribución muestral de medias y de proporciones. 4. Teorema del límite central. Unidad VIII: TEORÍA CLÁSICA DE LA ESTIMACIÓN. 1. Estimador y estimación. Tipos de estimación. 2. Propiedades de un buen estimador. 3. Estimaciones puntuales. 4. Estimaciones por intervalos. Estimaciones de la media poblacional y de la proporción. Estimación de las diferencias de medias. Unidad IX: TEST DE HIPÓTESIS 1. Concepto de hipótesis estadística. Procedimientos de las pruebas de hipótesis. Hipótesis exactas e inexactas.

15

2. Pruebas de hipótesis para muestras grandes. Prueba de la media poblacional. Prueba de la proporción de la población. Prueba de la diferencia de medias. Error de tipo II. Curva de característica operativa. Potencia de contraste. 3. Inferencia estadística para muestras pequeñas. La distribución “t” de Student. Pruebas de hipótesis. Estimaciones. Unidad X: LA DISTRIBUCIÓN JI CUADRADA 1. Características de la distribución ji cuadrado. 2. Aplicaciones. Prueba de bondad de ajuste. Prueba de independencia. Prueba de homogeneidad. Prueba de la varianza.

IV. Bibliografía BÁSICA CHAO, Lincoln, “Introducción a la Estadística” C.E.S.C.S.A. CHOU, Ya Lun, “Análisis Estadístico”Ed. Mc. Graw. Hill. KAZMIER, Leonard y DIAZ MATA, Alfredo, “Estadística Aplicada” a la Administración y Economía. Serie Schaum. Ed. Mc.Graw - Hill • LEVIN, Richard, “Estadística para Administradores” Ed. Prenice may. • SHAO, Stephen, “Estadística para Economía y Administración”. Ed. Herrero Hnos. • • •

COMPLEMENTARIA • • • • • • •

BERENSON, Mark y LEVINE, David, “Estadística para Administración y Economía” Ed. Interamericana. CHRISTENSEN, Howard, “Estadística Paso a Paso”. Ed. Trillas. MENDENHALL, W. Y RENMUTH, J. “Estadística para Administración y Economía” Grupo Ed. Iberoamericana. MILLS, Richard “Estadística para Economía y Administración”, Ed. Mc. Graw-Hill. NETER, J. y WASSERMAN, W. y OTT. Lyman, “Fundamentos de Estadística” CECSA. SCHEARFFER, R. Y MENDENHALL, W. y OTT. Lyman. “Elementos de Muestreos. Grupo Ed. Iberoamericana. YAMANE, Taro. “Estadística” Ed. Harla.

16

D’OTTONE, Horacio “Estadística”. Ed. Copecultura (Sgo. De Chile) RANKE, J. y REITSCH. A., “Pronóstico de los negocios”. Ed. PreniceHall • PUBLICACIONES DEL INDEC (Instituto Nacional de Estadísticas y Censos). • •

V. Evaluación y Condición para regularizar la materia EVALUACIÓN a) De seguimiento. A través del desarrollo de actividades de los módulos y la participación en los foros y clases satelitales. b) De resultados. Mediante dos exámenes parciales con posibilidad de un solo recuperatorio. - Primer parcial. Unidades I y II - Segundo parcial. Unidad III c) Condiciones de regularidad. Aprobación de los dos exámenes parciales con una calificación mínima de 4 (cuatro).

17

18

19

BLOQUE Nº 1

LA INVESTIGACIÓN ESTADISTICA

UNIDAD II

SIGNIFICADO Y ALCANCE DE LA ESTADISTICA

UNIDAD I

Etapas de un trabajo estadística

Concepto de Estadística

Gráficos

Presentación de la información Población y Muestra

Cuadros

Organización de los datos

Datos estadísticos

Estadística Descriptiva e Inferencial

Relevamiento de datos

La falsedad estadística

Variables

Aplicaciones

DIAGRAMA DE CONTENIDO - BLOQUE Nº 1

20

VI. Guía de Estudios UNIDAD I SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA 1. La Estadística como disciplina científica En el lenguaje cotidiano se utiliza la palabra "estadística" como un conjunto de cifras referido a alguna actividad, por ejemplo: número de accidentes de tránsito durante un año, cifras de producción de cereales; índices mensuales de precios al consumidor, etc. Sin embargo, por "estadística" debe entenderse algo más elaborado y más susceptible de tratamiento científico. En la actualidad, todas las disciplinas utilizan la información estadística con el objeto de planificar cursos de acción, y aún cuando se trabaja en condiciones de incertidumbre, deben tomarse las decisiones correspondientes. La Estadística, precisamente, proporciona un conjunto de métodos para la preparación de decisiones acertadas frente a la incertidumbre. Trata de la resolución de problemas, y en consecuencia, se encuentra dentro de los límites del método científico. Queda claro, entonces, que hoy en día los métodos estadísticos no se aplican únicamente para reunir cifras históricas, sino que deben permitir el tratamiento de la información numérica con fines de obtener conclusiones útiles y elaborar pronósticos. Por ejemplo, en el nuevo escenario económico, un gerente utiliza los datos de ventas no sólo para conocer los resultados económicos, sino con el propósito de hacer estimaciones y analizar tendencias. De todo lo expuesto, se puede resumir el concepto de Estadística como sigue: “Es la disciplina que comprende un conjunto de teorías, métodos y técnicas para obtener, describir e interpretar datos e informaciones con el objeto de tomar decisiones y predecir fenómenos que pueden expresarse en forma cuantitativa”.

21

2. Aplicaciones de la estadística 2.1. Aplicación en distintas disciplinas Existen dos tipos extremos respecto a la Estadística: una aceptación indiscriminada, donde se pretende tomar decisiones basándose solamente en métodos estadísticos; o bien, una desconfianza sistemática en ella, lo que lleva a ignorar muchos hechos de la realidad. Es por ello que debe adoptarse una actitud intermedia, es decir utilizar los métodos y técnicas estadísticas como herramientas para el logro de objetivos buscados. Ningún procedimiento estadístico, en sí mismo, puede conducir directamente a resultados buscados. La utilización adecuada depende de la habilidad y exigencias de quienes los emplee(1) . Como en todas las disciplinas se realizan trabajos de investigación, los métodos estadísticos son instrumentos fundamentales de aplicación. Se pueden citar los siguientes ejemplos: - En Agricultura, un área relacionada con las Ciencias Biológicas, se utilizan para determinar los efectos de fertilizantes en la producción de cereales. - En Medicina, se emplean para determinar los posibles efectos de un nuevo tratamiento para una determinada enfermedad. - En Ingeniería Industrial, es fundamental el conocimiento sobre las técnicas estadísticas de control de calidad. De la misma manera se puede afirmar que la Estadística es de gran utilidad en Psicología, Educación, Sociología, Antropología, Geografía, Turismo, Química, etc.

2.2. Aplicación en la Economía y los Negocios La creciente complejidad de la Economía provoca cada vez mayor incertidumbre para las operaciones de cualquier empresa, pero como ya se dijo, los administradores deben igualmente resolver problemas y tomar decisiones. Particularmente, en el campo de la Administración, la Estadística ha demostrado ser una importante herramienta en áreas tales como 1. D'Ottone, Horacio. Op. cit. en la bibliografía.

22

investigación de mercados, evaluación de proyectos, pronósticos de ventas, etc. En la actualidad, se trata de incluir todos los métodos relacionados con las decisiones estadísticas en una teoría que las abarque por completo denominada "teoría de las decisiones". Se debe puntualizar la importancia de los métodos estadísticos para cualquier gobierno. Por ejemplo, la obtención de diferentes indicadores como ser el PBI, índices de precios, tasas de interés, y otros, sirven no sólo para describir el estado actual de la economía, sino que proporcionan ideas de la tendencias, lo que permite evaluar las medidas de un plan económico. Estos indicadores también son utilizados por los distintos sectores económicos que llevarán a decisiones respecto a las operaciones y políticas de cada uno.

3. La Falsedad estadística La mala utilización de los métodos estadísticos llevan a resultados erróneos que destruyen el valor de cualquier investigación. Obtención de datos insuficientes, construcciones inadecuadas de gráficos, datos muestrales no representativos, son algunas de las situaciones que llevan a interpretaciones engañosas y conclusiones equivocadas. Por lo expresado, se requiere de cuidado y prudencia en el manejo de datos estadísticos. Los errores cometidos son involuntarios en muchos casos, pero también puede mentirse con estadísticas debido a intereses creados. El primer ministro británico del siglo XIX, Benjamín Disraeli expresó burlonamente que "existen tres tipos de falsedades: las mentiras, las mentiras detestables y las estadísticas". A medida que se avance en el desarrollo de los temas se irán haciendo referencias al mal uso de la estadística en distintos métodos, técnicas y procedimientos.

23

Actividad Nº 1 1. a. Busque en el diccionario las distintas acepciones del vocablo "estadística". b. De acuerdo a los conceptos desarrollados en el punto 1 de este módulo y a las acepciones expuestas en (a), construya su propia definición de estadística y explíquela. 2. Realice un listado de por los menos 5 actividades o ámbitos empresariales donde la estadística resulte esencial. 3. Ilustre con un ejemplo la aplicación de la estadística en cada una de las siguientes disciplinas. a) Geografía b) Turismo c) Educación d) Psicología 4) En los procesos decisorios se utilizan también los modelos proporcionados por la Investigación operativa y la Econometría. Investigue cuál es la finalidad de cada una y establezca la relación con la Estadística. 5) Consulte la bibliografía y elabore un resumen sobre la historia de la Estadística.

24

UNIDAD II LA INVESTIGACIÓN ESTADÍSTICA 1. Etapas de un trabajo estadístico Toda investigación estadística es un procedimiento sistemático que tiene las siguientes etapas: 1.Formulación del problema: Debe determinarse en forma precisa el objeto de la investigación, es decir "el qué" y "el para qué" se investiga. Deben indicarse los sujetos del estudio (unidades de observación) y las características de interés (variables). 2.Diseño del experimento: Se denomina "experimento" a la observación planeada de un fenómeno de cualquier índole con la finalidad de describir su comportamiento y/o tomar una decisión. Formulado el problema, el investigador debe decidir si estudia toda la población (universo) o sólo una parte de ella (muestra). En el Primer caso deberá realizar un censo (enumeración completa de la población). Si elige una muestra, deberá diseñar el procedimiento adecuado para obtener una muestra representativa de la población. 3.Relevamiento de datos: Se procede a recopilar los datos de las distintas fuentes disponibles utilizando los distintos métodos de recolección. 4.Organización y presentación de datos: Los datos organizados y presentados en cuadros (tablas) y/o gráficos se convierten en información útil para facilitar la lectura y el análisis de la misma. 5.Análisis: Según sea el objetivo de la investigación, el análisis puede ser descriptivo o inferencial. (Ver tema 5). 6.Interpretación: Los resultados obtenidos, que están expresados en lenguaje estadístico, deben ser "traducidos" al lenguaje de la disciplina científica en la cual se investiga. La interpretación permite la elaboración de conclusiones y la toma de decisiones.

25

2. Variables Cualquier objeto o evento cuyas características son observables constituye un "fenómeno". En un sentido más amplio se puede decir que un "fenómeno" indica qué aspectos de la realidad está bajo observación o estudio. Sea la siguiente información sobre el personal de una universidad. ANTIGÜEDAD (en años)

CARGO Y SEXO Docentes Administrativos V

M

V

M

0-5 5 - 10 10 y más

3 18 45

5 16 60

2 19 22

4 11 24

TOTAL

66

81

43

39

En la información del cuadro hay 3 características observables: antigüedad, cargo y sexo. Cada una de ellas constituye una variable. Una variable es una propiedad o característica de un objeto de estudio que puede asumir distintos valores. También puede definirse como una característica observable de un objeto de estudio que se puede describir según un esquema de clasificación y medición bien definida. VARIABLE

VALORES O CATEGORIA DE VARIABLES

Antigüedad Cargo Sexo

0-5 5 - 10 10 y más Docente - Administrativo Varón - Mujer

Las variables se clasifican: en a) cualitativas y b) cuantitativas. a) Las variables cualitativas, llamadas también "atributos", expresa propiedades de los fenómenos que se pueden describir cualitativamente

26

y, desde luego, no están representadas numéricamente. Ej.: Cargo y Sexo. Otros ejemplos: nacionalidad, nivel instrucción, estado civil, etc. b) Las variables cuantitativas son las expresiones numéricas de algunas propiedades de los fenómenos. En la información sobre el personal, la antigüedad es una variable continua. Otros ejemplos: edad, peso, estatura, etc. Las variables cuantitativas pueden ser: "discretas" o "continuas". - Las variables discretas son aquellas que pueden tomar sólo ciertos valores es el intervalo considerado y no admiten valores intermedios. Generalmente son valores enteros. Ej.: el número de hijos. Una familia puede tener 0,1, 2... hijos, pero no algún valor intermedio. - Las variables continuas son las que pueden tomar cualquier valor en el intervalo considerado. Ej.: el peso. Una persona que pesa 65 kgs., redondeando a enteras se puede tener la certeza que su peso es un valor entre 64,5 y 65,5 kgs. Puede pesar 65 a 65,385 kgs., o cualquier valor entre 64,5 y 65,5 kgs. Hay muchas variables continuas cuyos valores parecen ser discretos. Por ejemplo, la edad de una persona. Si alguien dice que cumplió 25 años, en realidad tiene 25 años más una fracción de año. Ahora bien, el empleo de fracciones o decimales no significa que necesariamente las variables sean continuas. En algunas competencias deportivas participantes pueden recibir calificaciones como 7; 7,5; 8; 8,5. Estos valores son discretos ya que no se puede calificar entre 7 y 7,5. En resumen: - Las observaciones para una variable discreta se obtienen por el proceso de "conteo": número de acciones vendidas en la Bolsa, unidades de un producto en un inventario, etc. - Las observaciones para una variable continua se obtienen por el proceso de "medición": peso, estatura, temperatura, etc.

27

3. Datos estadísticos Un dato es el valor de la variable. Si una persona es "varón", "docente" y tiene una antigüedad de "6 años" en la universidad, cada uno de estos valores individuales constituye un dato para cada variable de interés. De hecho, los datos se presentan con algún tipo de "medición", es decir que los registros de observaciones deben expresarse en números (o símbolos) de manera que puedan aplicarse los métodos estadísticos. Las características cuantitativas pueden transformarse en datos numéricos, simplemente por medición directa en unidades tales como metro, kilogramos, pesos, dólares, etc. Si las características son cualitativas, las observaciones pueden clasificarse como poseedoras o no de una cualidad o propiedad determinada. Un artículo puede considerarse como "defectuoso" o "bueno". Pero los atributos pueden expresarse numéricamente a los efectos de un tratamiento estadístico, por ejemplo, asignar el valor 0 a los artículos defectuosos y el valor 1 a los artículos buenos. En muchos casos, los datos cuantitativos también pueden ser tratados cualitativamente según la naturaleza del problema bajo estudio. La calificación de exámenes es cuantitativa, pero puede ser tratada como atributo, categorizando la calificación o resultado como "aprobado" o "desaprobado". Lo más importante para destacar es que no toda información numérica es considerada como dato estadístico. La información apropiada para un análisis estadístico debe ser un conjunto de números que muestren "relaciones significativas", es decir deben ser cifras que puedan ser comparadas, analizadas e interpretadas. Un número aislado que no muestre relación significativa no es un dato estadístico (2).

(2) Shao, Stephen, op. cit. en la bibliografía

28

Actividad Nº 2 1. Indique si el siguiente enunciado es correcto o incorrecto y fundamentar la respuesta: "Las variables discretas son las que asumen valores enteros" 2. Clasifique las siguientes variables: a) Indices de desocupación de las provincias argentinas. b) Número de asignaturas aprobadas por alumnos de una carrera universitaria. c) Causa de los accidentes de trabajo. d) Densidad de población de los departamentos de la provincia de Salta. e) País de destino de las exportaciones argentinas. f) Número de ambientes de las viviendas de un barrio. 3. ¿Por qué no cualquier número es un dato estadístico? 4. En diarios o revistas, identifique secciones que incluyan datos estadísticos

29

4. Población y Muestra 4.1. Población En la investigación estadística es fundamental definir el marco de referencia de estudio, esto lleva a definir la Población o Universo. Población es la totalidad de posibles mediciones y observaciones bajo consideración en una situación dada de un problema. Cada situación en particular implica definir una población diferente. Si el problema consiste en analizar las evaluaciones del desempeño de todos los empleados de una empresa comercial, entonces la población está constituida por las evaluaciones de todos los empleados de esa empresa. Si el problema consiste solamente en el análisis del desempeño de los vendedores de la empresa, entonces la población está formada por las evaluaciones de todos los vendedores de la organización. Es fundamental que la población quede claramente especificada a fin de identificar los integrantes de la misma. Cada elemento de la población se denomina "unidad elemental de observación". Sobre cada una de ellas se efectuarán las mediciones de las características o propiedades que pueden ser cuantitativas o cualitativas. Ejemplo: Durante una auditoría en una librería se revisan las cuentas corrientes de los clientes a efectos de determinar el saldo promedio. - La población consiste en todas las cuentas corrientes de los clientes del negocio. - La variable bajo estudio es el saldo. Es cuantitativa. - La unidad de observación es cada cuenta individual. Es fundamental definir cuidadosamente la unidad elemental y su característica observada. En un estudio sobre viviendas puede interesar el número de habitaciones de cada una. Pero, qué es una habitación? ¿Un dormitorio, un cuarto de baño, una cocina? ¿Se incluirán todas las dependencia de la vivienda o sólo algunas? Otro ejemplo puede ser un análisis sobre la rentabilidad de las pequeñas empresas. En este caso habrá que precisar qué es una pequeña empresa y qué características se tendrán en cuenta para considerarla como tal. 30

Puede ocurrir que distintos investigadores se opongan en las definiciones sobre una misma cuestión básica. Por ejemplo, si se toma en consideración al “turista” como unidad de observación para un análisis cualquiera, puede ocurrir que para un economista, un turista sea la persona que se desplaza de su residencia habitual, ya que tal desplazamiento lo obliga a realizar gastos de hotelería, transporte, comida, etc. cualquiera sea la “motivación” del viaje; sin embargo un sociólogo puede considerar que un “viajante de comercio” o “un director de una S.A." que asiste a una reunión de trabajo, no es un turista, puesto que la motivación de su viaje es consecuencia de la actividad laboral. En resumen, la definición de la población y las características de sus unidades elementales dependen de la naturaleza del problema que se estudia, lo que importa es que esa definición sea lo más precisa posible.

4.2. Población finita y población infinita Se denomina población “finita” a la que incluye un número limitado de observaciones. Por ejemplo, el conjunto de salarios de los operarios en una compañía. Algunas poblaciones finitas incluyen solamente unos cuantos datos, mientras que otras, consisten en miles o millones de datos. Siempre que sea posible alcanzar el número total de observaciones, se considera como finita la población. Población “infinita” es aquella que incluye una gran cantidad de medidas u observaciones que no pueden alcanzarse por conteo. Una población de este tipo podría ser todas las baterías posibles que fabricaría un industrial si continuara trabajando indefinidamente, bajo determinadas condiciones de operación. Otra población infinita sería todos los resultados posibles al lanzar un dado en forma continua e indefinida. En las poblaciones infinitas, no puede obtenerse información completa, por lo que para poder estudiarla se deberá trabajar con una muestra.

31

4.3. Muestra Si las poblaciones que se investigan son infinitas, se dijo que el único procedimiento posible es el de muestreo; como no puede contarse con todos los elementos de la población, se toma de la misma una parte. En el caso de poblaciones finitas, el muestreo sigue siendo el único procedimiento práctico, sobre todo si éstas son muy grandes y su enumeración completa es prácticamente imposible. Por ejemplo, si se desea investigar las preferencias de las amas de casa de la ciudad de Salta sobre una marca de jabón, no será posible entrar en contacto con todas ellas, más bien se encuestará a una parte de ella, o sea, se obtendrá una muestra. Una muestra es un conjunto de observaciones tomadas a partir de una población dada. Es un subconjunto de la población o universo. Fundamentalmente, una muestra se elige por las siguientes razones: a) MENOR COSTO. Cuando los datos se obtienen mediante una muestra, los gastos son menores que si se trabaja con un censo completo. b) MAYOR RAPIDEZ. Los datos se pueden recopilar y procesar más rápidamente. Esto es importante si la información se requiere con urgencia. c) MAYOR ALCANCE. Como se trabaja con una parte de la población, es posible obtener información más completa y precisa que si se trabaja con un censo. d) En otros casos, el examen de los elementos requiere de la destrucción de los mismos, como por ejemplo cuando se desea determinar la calidad de los fósforos; aquí, el control se debe hacer con una muestra porque si se trabajara con el censo esto implicaría la destrucción de toda la producción y no quedarían productos después del examen. De hecho, toda muestra debe ser representativa del universo que se estudia, para permitirle al investigador extraer conclusiones en cuanto a las relaciones entre sus variables y establecer generalizaciones, es decir inferencias válidas a la población.

32

Existen varios tipos de diseños de muestras, pero todos ellos producen dos categorías de muestras. Las probabilísticas y las no probabilísticas. En las muestras probabilísticas todos los elementos de la población tienen una probabilidad conocida de ser incluidos en la muestra. Las muestras no probabilísticas son muestras de "juicio" donde el investigador elige los elementos que, en su opinión, son representativas de la población.

4.4. Parámetro y Estadígrafo Las características medibles de una población se denominan parámetros. Por ejemplo, se desea realizar un análisis sobre los resultados de una prueba de ingreso a todos los aspirantes a las carreras universitarias de Ciencias Económicas en la provincia de Salta. Suponiendo que se trabaje con la población, se puede obtener un promedio de todas las calificaciones de los aspirantes en la prueba. Ese promedio describe una característica del universo, por lo tanto constituye un parámetro. Si se decide trabajar con una muestra, se selecciona un grupo de aspirantes, se registran sus calificaciones en la prueba y se obtiene un promedio. En este caso, ese promedio está calculado sobre una muestra y se denomina estadígrafo o estadístico. Los estadígrafos son las características medibles de una muestra.

33

Actividad Nº 3 1) Se ha hecho un estudio para determinar la preferencia de una marca especial de detergente por parte de las amas de casa de la ciudad de Salta. Entre las 200 amas de casas entrevistadas, 120 respondieron que preferían esa marca. a) ¿Cuál es la población? b) ¿Cuál es la unidad de observación? c) ¿Qué constituye la muestra? 2) Se lanza una moneda 100 veces y se obtienen 60 caras. a) ¿Qué constituye la muestra? b) ¿Qué constituye la población? 3) Durante una semana, en un cine asistieron 1000 espectadores. Explique las circunstancias bajo las cuales estos 1000 espectadores pueden considerarse. a) como muestra, b) como una población. 4) La Municipalidad de Salta está efectuando una encuesta domiciliaria de opinión sobre el servicio de recolección de residuos. Con ese objetivo se ha ideado un esquema para realizar un muestreo aleatorio de las casas en distintos puntos de la ciudad y planea efectuar encuestas durante los días hábiles de 9 a 14 horas. ¿Producirá este esquema una muestra aleatoria? 5) En cada uno de los siguientes casos, identifique: 1) 2) 3) 4) 5)

el objetivo del trabajo, la variable de interés, la población, la muestra, la unidad de observación.

34

a) Varias veces durante el día un ingeniero de control de calidad, en una fábrica textil, selecciona diferentes muestras de metros cuadrados de tela, las examina y registra el número de imperfecciones que encuentra. b) El Ministerio de Trabajo investiga la seguridad de las empresas industriales de la provincia de Salta. A tal efecto registra los índices de accidentes de trabajo a 50 establecimientos elegidos al azar. c) A partir del registro de volantes en un distrito electoral, se toma una muestra de 60 electores y encuentra que 30 están afiliados a algún partido político.

35

5. Objetivos del Análisis Estadístico Los datos estadísticos se pueden recopilar para fines prácticos (descriptivos) y de conocimiento científico (inductivos). Según el objetivo, la Estadística puede dividirse en Estadística Descriptiva y Estadística Inferencial.

5.1. Estadística Descriptiva La estadística Descriptiva se refiere a aquella parte del estudio que incluye la obtención, organización, presentación y descripción de información numérica. El análisis se limita a los datos obtenidos en un caso particular y no implica ningún tipo de inferencia o generalización. Por ejemplo, un gerente de ventas desea conocer las aptitudes de cinco vendedores. Obtiene las ventas realizadas por los mismos durante una semana y las presenta en el siguiente cuadro: Vendedor

A

B

C

D

E

Monto (en miles de $)

18

25

20

15

22

Una medida estadística para describir esta información puede ser la venta media o media aritmética.

18 +

25 +

20 +

Media =

15 +

22 = $ 20

5 En este caso, se utilizan métodos descriptivos, ya que el promedio resume y describe la información obtenida y no hay ninguna generalización hacia las aptitudes de los otros vendedores de la compañía.

36

Los datos pueden presentarse en diversos gráficos, como por ejemplo, un gráfico de barras. $ 30 25 20 15 10 5 A

B

C

D

E

Vendedor

5.2. Estadística Inferencial Si el interés del gerente de ventas es conocer las aptitudes de todos los vendedores de la compañía, deberá recurrir a otros métodos estadísticos. Si carece de tiempo y de recursos para trabajar con todos los datos, utilizará una muestra como base para realizar una inferencia o estimación acerca de la venta media de todos los vendedores. Para ello, deberá aplicar los métodos de la Estadística Inferencial o Inferencia Estadística. La Inferencia Estadística es un método mediante el cual se obtienen generalizaciones o se toman decisiones acerca de una población basadas en información de una muestra. Se debe observar que la inferencia estadística se relaciona con la estadística descriptiva, ya que la información parcial de la muestra es obtenida por métodos descriptivos. La venta media de $ 20 que es el estadígrafo, podría utilizarse para estimar la venta media de todos los vendedores de la empresa, es decir obtener una estimación del parámetro. Como la Estadística Inferencial trabaja sobre una muestra, también se denomina Estadística Muestral.

37

En el ámbito de la administración de empresas, los métodos de inferencias son fundamentales para la toma de decisiones. Se tomarán a modo de ejemplos dos casos típicos. - Un comerciante mayorista recibe un embarque de artículos comprados. Para determinar la calidad de los mismos, inspecciona 50 unidades y encuentra que 5 son defectuosas. Rechaza el embarque y lo devuelve al proveedor?. - Se emplean dos programas de capacitación para operarios de una empresa industrial. Se aplican a dos grupos semejantes y al finalizar el período de capacitación, se toma una prueba a ambos grupos. En base a la calificación promedio de cada grupo, ¿podrá evaluarse la efectividad de los dos programas de capacitación? Visto los conceptos de ambas ramas de la Estadística, se puede dar una definición más específica de esta disciplina: La Estadística se refiere a un conjunto de métodos para manejar la obtención, presentación y análisis de observaciones numéricas. Sus fines son describir al conjunto de datos obtenidos (muestra) y tomar decisiones o realizar generalizaciones acerca de las características de todas las posibles observaciones bajo consideración. (población)

38

Actividad Nº 4 1) Cinco baterías marca "Alfa" y cinco baterías marca "Beta" se prueban para determinar su duración. Las duraciones para Alfa son: 27, 38, 37, 35 y 33 meses; para la marca Beta, las duraciones son : 25, 35, 28, 32 y 30 meses. A partir de las siguientes conclusiones, identifique las que provienen de métodos descriptivos y las que provienen de métodos inferenciales: a) La duración promedio de las 5 baterías Alfa es de 34 meses y la duración promedio de las 5 baterías marca Beta es de 30 meses. b) La duración promedio de Alfa es mayor que la de Beta. c) Probablemente, la duración promedio de todas las baterías Alfa sea mayor que la duración promedio de todas las baterías Beta. d) Si el precio de Alfa es igual al precio de Beta, es preferible comprar Alfa. 2) Un candidato a ocupar un cargo público asegura que ganará la elección. Un sondeo de opinión indica que sobre 200 electores 40 votarán por él, 100 favorecerán a su oponente y 15 están indecisos. a) ¿Cuál es el parámetro poblacional de interés? b) ¿Cuál de los estadígrafos debe utilizar para estimar el parámetro? 3) Proporcione un ejemplo de utilización de Estadística Descriptiva e Inferencia Estadística aplicada a la Economía y los Negocios.

39

6. Relevamiento de datos estadísticos 6.1. Concepto El relevamiento consiste en la recopilación de datos de diversas fuentes.

6.2. Clases de fuentes a.Fuentes internas y fuentes externas - Las fuentes internas son las que se encuentran dentro de la organización. Los datos obtenidos de estas fuentes, denominados internos, son los relacionados directamente con las actividades de la empresa. Estos datos están registrados en comprobantes (facturas, recibos, etc.), fichas, registros contables, informes, o bien, en forma codificada en discos, disquetes o memoria de una computadora. Por ejemplo: la información que proporciona el departamento de ventas sobre el monto de ventas de una compañía en un período determinado o los datos sobre la asistencia de los empleados obtenidos de la Oficina de Personal. - Las organizaciones necesitan también datos ajenos al funcionamiento y, por lo tanto, deben recurrir a fuentes externas. Los datos externos pueden obtenerse de distintas revistas o publicaciones; por ejemplo: una empresa agrícola requiere información sobre exportaciones de granos puede recurrir a publicaciones de la Sociedad Rural Argentina. En otras ocasiones, deben prepararse encuestas para recopilar datos no disponibles en fuentes internas u otras por ejemplo, opiniones de los consumidores de un nuevo producto. b. Fuentes primarias y fuentes secundarias - Las fuentes primarias son fuentes originarias de datos. Se denominan primarias porque los datos son obtenidos de una publicación editada por el recopilador original. Como los datos se recopilan por primera vez, se pueden utilizar experimentos estadísticos y encuestas como métodos de recolección. En el ejemplo sobre las opiniones de los consumidores de un nuevo producto, la encuesta diseñada por la empresa constituye una fuente primaria.

40

- Las fuentes secundarias son aquellas que proporcionan toda la información existente sobre el tema bajo estudio. Se denominan secundarias porque los datos son obtenidos de una reimpresión, que es publicada por una persona u organización distinta al recopilador original. La utilización de fuentes primarias o secundarias depende de la necesidad y disponibilidad de datos, como así también del costo y la confiabilidad. Las fuentes primarias son más costosas, pero pueden ser más confiables. Si se utiliza una encuesta, ésta debe ser cuidadosamente planteada ya que hay que establecer objetivos, diseñar la muestra, preparar a los encuestadores, realizar pruebas pilotos; todo esto lleva tiempo y dinero. Las fuentes secundarias tienen costos de búsqueda más bajos, pero se debe evaluar la confiabilidad de las mismas, ya que los datos pueden estar desactualizados, parcialmente publicados o pueden contener errores de impresión. Con respecto a publicaciones y revistas, existen una gran variedad de las mismas confeccionadas por organismos gubernamentales (Ejemplo: publicaciones del INDEC, del Banco Central, etc.). También se encuentran las estadísticas elaboradas por Naciones Unidas (a través de sus organismos: FAO, OMS, UNESCO, UNICEF), Organización de los Estados Americanos y otros organismos internacionales. Se pueden consultar revistas especializadas de cámaras sectoriales, fundaciones, institutos de investigaciones y otras entidades que compilan y publican datos sobre las actividades que les conciernen.

6.3. Experimentos y Encuestas. Métodos de recolección de datos Un experimento estadístico es un proceso de recolección de datos donde se ejerce un control sobre algunos o todos los factores que pueden influir sobre la variable bajo estudio. Por ejemplo, la administración de una compañía industrial desea conocer si el nuevo plan de capacitación preparado por el departamento de personal conduce a un aumento en la productividad. Un experimento para averiguar este problema podría consistir en seleccionar a un grupo de operarios y hacerlo participar en el nuevo plan de capacitación, dejando al otro grupo trabajando en las mismas condiciones. Luego, se compararán las productividades de dos grupos y se evaluará si el plan es o no efectivo. 41

Una encuesta estadística es el proceso de recopilación de datos relacionados con las características de elementos, sin un control especial que influya sobre la variable de interés. Considerando el estudio de la productividad (variable bajo estudio) de los operarios, se pueden obtener datos sobre la productividad durante los últimos meses y además se puede obtener información sobre el nivel de instrucción, éste es un datos de encuesta. Se puede analizar la relación entre el nivel de instrucción y la productividad, pero debe observarse que no se ejerce ningún control sobre el factor "instrucción".

6.4. El proceso de obtener datos En las encuestas o experimentos se pueden utilizar distintos métodos. Algunos de ellos son: a) Observación directa: Es muy apropiado y eficiente para recopilar ciertos tipos de datos. Un ejemplo clásico es el estudio sobre el tráfico de vehículos con el objeto de organizar el tráfico de una ciudad. Los observadores se ubican en un determinado punto de la ciudad para contar y registrar el número de vehículos que pasan por el lugar. La cantidad y el tipo de datos que pueden ser recopilados por este método son limitados. Una limitación puede ser los prejuicios del observador, quien registra algunos hechos, pasando por alto otros que pueden ser importantes. Los observadores deben ser entrenados de manera tal que puedan registrar con precisión los datos relevantes de los fenómenos que se investigan. Por otro lado, la observación debe ser de suficiente duración para que pueda obtenerse la cantidad necesaria de datos. b) Respuestas individuales: Los datos mediante respuestas individuales pueden obtenerse por entrevistas personales, entrevistas telefónicas o cuestionarios escritos. El cuestionario está especialmente indicado cuando los datos buscados requieren respuestas muy concretas, o bien cuando las muestras son muy grandes. Los datos para el Censo Nacional de Población y Vivienda, por ejemplo, se relevan mediante un cuestionario. En otras ocasiones, los cuestionarios se envían por correo, como sería el caso de una revista que desea conocer opinio-

42

nes de sus suscriptores acerca de la misma, de esta manera puede recabar los datos en distintos lugares de un área geográfica determinada. Si los datos requieren respuestas más matizadas, y mayor número de respuestas por parte de las personas seleccionadas en la muestra, la entrevista personal sería el método adecuado. La decisión de utilizar experimentos o encuestas y alguno de los métodos mencionados depende de la naturaleza del problema, del costo y el tiempo disponible. Cualquier encuesta o experimento debe planearse y conducirse con cuidado a efectos de conseguir datos relevantes, es decir precisos y útiles. Existe la posibilidad de emplear un método en particular o bien una combinación de dos o más, lo importante es disponer de datos precisos y útiles.

7. Organización de los Datos 7.1. Corrección Antes de la presentación, será necesario efectuar una corrección de los datos relevados para evaluar la confiabilidad de los mismos. En las entrevistas y cuestionarios, son muy comunes errores cometidos por los entrevistadores o por los respondientes. Puede haber omisiones, respuestas inconsistentes, respuestas incompletas. Si se han utilizado fuentes secundarias, es necesario verificar que los datos sean completos y/o actualizados. Si no se revisan los datos, se corre el riesgo de continuar con una investigación que no llevará a los resultados deseados y se habrá perdido tiempo y dinero.

7.2. Clasificación La clasificación implica el establecimiento de grupos o clases para los resultados de una variable. El criterio de clasificación depende de los objetivos y el método de estudio. La clasificación es importante para el análisis de relaciones entre variables.

43

El monto de ventas, por ejemplo, puede clasificarse por año o por sucursal de una compañía. Los empleados de una empresa pueden clasificarse por categorías o por nivel de instrucción. Cuando los datos se tabulan conjuntamente en dos o más sistemas de clasificación se denominan datos en clasificación cruzada. Por ejemplo, el monto de ventas de las compañías puede clasificarse por año y sucursal. Los empleados pueden clasificarse por categoría, sexo y nivel de instrucción.

7.3. Tabulación La tabulación implica la determinación del número de casos o el valor de los elementos que se incluyen en cada clase o categoría determinada. En otras palabras, la tabulación es el proceso que permite un arreglo de los datos en forma resumida de acuerdo a las clasificaciones. El siguiente, es un ejemplo de tabulación manual con una tabla de conteo por medio de marcas. Edad de los empleados 20 - 25 25 - 30 30 - 35 35 y más

Conteo

/// //// /// //// //

Número de empleados 3 8 5 2 18

Los sistemas de computación permiten tabulaciones más extensas en un menor tiempo.

44

Actividad Nº 5 1) Nombre publicaciones que proporcionan información estadística. 2) Consulte la bibliografía y confeccione un resumen sobre aspectos básicos para la confección de cuestionarios. 3) Identifique, al menos, una falla principal en cada una de las siguientes preguntas diseñadas para obtener información y redacte nuevamente la pregunta para eliminar la falla. a) "¿Cuántas veces visitó el Shopping en los últimos 6 meses?" b) "¿Le viene a la cabeza el nombre de "Pepsi" o de otras marca cuando escucha la palabra "gaseosa"?" c) "Indique qué marca de yerba prefiere Ud. y dé 3 razones para su preferencia". 4) Una compañía elaboró recientemente una nueva bebida sin alcohol, distribuyéndola embotellada a los supermercados y en latas a negocios minoristas. Actualmetne está examinando los datos de ventas para observar qué tipo de envase es preferido por los clientes. a) ¿Por qué estos datos de ventas son encuesta? b) ¿Cómo podría Ud. establecer un experimento para estudiar la preferencia con resepcto al envase? Explique. 5) En cada una de las siguientes situaciones, indique si sería preferible un censo o una muestra para obtener la información deseada; explique además si serían preferibles cuestionarios o entrevistas. a) Un noticiero de TV desea conocer la opinión de los ciudadanos sobre la reforma de la Constitución. b) El Consejo Profesional de Ciencias Económoicas desea actualizar los datos de sus matriculados. c) Una compañía con 500 empleados desea determinar las actitudes de los empleados hacia las políticas de la empresa.

45

8. Presentación de los datos estadísticos 8.1. Introducción La presentación de los datos es la disposición de los mismos de manera tal que se conviertan en información significativa que permitan su análisis e interpretación. Las dos técnicas básicas de presentación son los cuadros o tablas y los gráficos.

8.2. Cuadros estadísticos 8.2.1. Concepto La técnica de los cuadros consiste en arreglos de los datos, divididos por uno o más sistemas de clasificación, en columnas e hileras. Cuando el cuadro tiene una sola clasificación se denomina de clasificación simple, cuando se confecciona con dos o más clasificaciones se llama cuadro de clasificación cruzada o de doble entrada. La construcción de una tabla depende de la utilización y del tipo de análisis que se realice. Para que una tabla sea efectiva debe ser clara y precisa para posibilitar su lectura. Se deben evitar tablas complicadas y largas. Cuando se desean hacer comparaciones, las tablas deben ser diseñadas para facilitar las mismas. En los cuadros de doble entrada debe tenerse especial cuidado en el orden y disposición de las clasificaciones. Demasiadas divisiones y subdivisiones pueden tornar confusa la información, siendo preferibles varios cuadros simples en lugar de uno con clasificación cruzada.

8.2.2. Elementos estructurales Una tabla completa debe contener los siguientes elementos estructurales o partes:

46

PRODUCCION ARGENTINA DE PAPEL POR PRINCIPALES TIPOS (En miles de toneladas)

(a) Título (b) Nota de encabezado (c) Encabezado

P E R I O D O S TIPOS

(d) Columna Matriz

1991

1992

1993 (1)

Diario Impresión Industrial Doméstico

221 179 510 38

208 170 508 36

198 176 504 50

TOTALES

948

922

922

(1) Datos estimados

(e) Cuerpo

(f) Notas al pie

Fuente: Unión Industrial Argentina (UIA)

(g) Fuente

a) Título: El título describe el contenido de la tabla. Debe ser completo y preciso. b) Nota del encabezado: Es una aclaración o amplitud del título ya sea para detallar algún elemento importante o para expresar la unidad de medida de los datos. Se coloca debajo del título y entre paréntesis. c) Encabezado: Contiene los títulos de las clasificaciones ubicadas en las columnas. d) Columna Matriz: Contiene los títulos de las clasificaciones ubicadas en las filas. e) Cuerpo: Es el contenido de los datos estadísticos arreglados de acuerdo a las descripciones de los encabezados. Cada dato se consigna en una celda que es la intersección entre una fila y una columna. f) Notas al pie: Se utiliza para explicar o aclarar algunos elementos del cuadro. Ayudan al análisis e interpretación. g) Fuente: Indica la procedencia de los datos. Permite conocer quién recopiló la información y evaluar la confiabilidad de la fuente. Además, saber donde recurrir si se necesita información adicional sobre el tema.

8.2.3. Consideraciones adicionales sobre los cuadros 1) Es importante que en cada celda se registre algo. Si el dato es cero, este cero debe ser anotado en la celda. Si la información no está disponible, debe indicarse con ND o bien con una aclaración al pie. Si 47

la celda se deja en blanco, no se sabe si el dato es cero, no está disponible o hubo alguna omisión. 2) Cuando en un informe o texto se presentan varias tablas, se hace necesario numerar las mismas por orden de aparición a fin de facilitar la referencia de las mismas. El número se coloca antes del título. 3) Cuando se quieren analizar relaciones estadísticas entre variabledependiente e independiente, es conveniente ubicar la primera en la columna matriz. La variable de interés fundamental en una investigación es una variable dependiente. Otras variables, las cuales se cree que afectan las mediciones de las variables dependientes, son las variables independientes. Se puede decir que la variable dependiente está determinada o influenciada por la variable independiente. Por ejemplo: se desea analizar el desempeño de un grupo de empleados; en este caso el desempeño es la variable de interés. Además se quiere conocer qué factores pueden influir sobre el desempeño, pudiéndose considerar la instrucción y el sexo que serían en este caso las variables independientes. 4) Presentación en porcentajes: Cuando se presentan datos en porcentajes, se pueden utilizar distintas bases que dependerán del análisis y/o comparación que se desee realizar sobre los datos. Ejemplo: Número de empleados por sexo y categoría-Cifras absolutas Categoría

Varones

Mujeres

Total

Vendedores Administrativos

60 40

50 20

100 60

Maestranza

20

10

30

120

80

200

Mujeres

Total

Total Porcentajes conjuntos Categoría

Varones

Vendedores Administrativos

30 20

25 10

55 30

Maestranza

10

5

15

Total

60%

40%

100%

48

Porcentajes verticales Categoría

Varones

Mujeres

Total

Vendedores Administrativos Maestranza

50 33 17

62.5 25 12.5

55 30 15

Total

100%

100%

100%

Porcentajes horizontales Categoría

Varones

Mujeres

Total

Vendedores Administrativos Maestranza

55 67 67

45 33 33

100% 100% 100%

Total

60%

40%

100%

49

Actividad Nº 6 1) El Centro de Industriales Siderúrgicos presentó el siguiente informe sobre la producción siderúrgica comparando los meses de enero y febrero de 1997 y 1998. Los productos considerados son hierro primario y acero crudo. Los datos indican que la producción de hierro primario en enero de 1997 fue de 229.000 toneladas y en enero de 1998 a 256.000 toneladas; para el mes de febrero de cada año fue de 262.000 y 275.000 toneladas respectivamente. Para el acero crudo la producción total para los meses de enero y febrero de 1997 fue de 500.000 toneladas, correspondiendo el 45% al mes de enero y el 55% al mes de febrero; en el mes de enero de 1998 la producción aumentó un 15% respecto del mismo mes en 1997, mientras que en el mes de frebrero de 1998 disminuyó un 10% con respecto a febrero de 1997. La institución aclaró que los datos de 1998 son provisorios. Presente todos datos del informe en cuadro con todos los elementos estructurales asegurando una lectura comprensiva de las cifras. 2) La compañía Aguila estudió los factores que afectaban el ausentismo de los trabajadores de producción en una de sus plantas. Se obtuvieron los siguientes resultados clasificados; los datos se clasificaron por el sexo y record de asistencia. Records satisfactorios Hombres: 1920 Mujeres: 925

Records no satisfactorios Hombres: 989 Mujeres: 475

a) Convierta estos datos en porcentajes y preséntelos en una tabla en forma que pueda estudiarse la relación entre las variables. ¿Qué base utilizó para el cálculo de porcentajes? b) ¿Existe alguna indicación de relación estadística entre las variables de la tabla? Explique. c) Luego se agregó al análisis la variable "estado civil" y se obtienen los siguientes resultados.

50

-

Hombres casados 1730 satisfactorios y 630 insatisfactorios. Hombres en otro estado civil 190 satisfactorio y 350 insatisfactorio. Mujeres casadas 304 satisfactorios y 430 insatisfactorios. Mujeres en otro estado civil 621 satisfactorios y 45 insatisfactorio.

Convierta estos datos en porcentajes y preséntelos en una tabla para estudiar las relaciones causa-efecto entre las variables dependiente e independiente. ¿Existe una relación estadística entre las tres variables? Fundamente su respuesta.

51

8.3. Gráficos Estadísticos 8.3.1. Concepto En los gráficos, la información se presenta en magnitudes que puedan interpretarse visualmente. Deben dibujarse en forma sencilla y atractiva que permitan una rápida comprensión de su contenido. 3.2. Partes de un gráfico Ventas mensuales de la empresa xx (en miles de $)

Título Nota del encabezado

$ 60 50 Escala de y

Diagramas

40 30 20 10

Mes Enero

Febrero Escala de x

Fuente:

Dpto. de Vtas.

Fuentes

- Titulo: Describe le contenido del gráfico. - Diagrama: Son los distintos trazos con que se presentan los datos. Pueden ser líneas, barras, etc. - Escala: En el eje de ordenadas (y) generalmente se miden las magnitudes de los datos. El eje de las abscisas (x) es frecuentemente usada para colocar la clasificación. - Fuente: Indica la procedencia de los datos. Al igual que los cuadros, en los gráficos se consignan las notas del encabezado y notas al pie cuando fuese necesario.

52

8.3.3. Tipos de gráficos Existen muchos tipos de gráficos. Aquí se considerarán los gráficos más sencillos y de uso corriente.

I.

GRAFICOS

a)

Simples

b)

Múltiples

a) b) c) d)

Simples Múltiples Compuestas Bidireccionales

Lineales

II. De Barras

III. Circulares

Se desarrollarán algunas características de los gráficos en base a los datos hipotéticos presentados en los siguientes cuadros: Cuadro Nº 1 Ventas diarias de la Empresa "Llave" S.R.L. (en miles de $) Día Lunes Martes Miércoles Jueves Viernes Sábado

Crédito

Contado

Total

5 2 5 11 7 8

3 2 2 4 3 5

8 4 7 15 10 13

38

19

57

Cuadro Nº 2 Número de ingresantes a 3 carreras en la U.C.S. en los años 19971998. 53

CARRERA Abogacía Adm. de Empresas Ingeniería Civil

1997

1998

90 40 70

108 80 35

I. Gráficos Lineales Los gráficos lineales vienen representados en los ejes de coordenadas cartesianas mediante líneas rectas o quebradas. Son útiles para representar series cronológicas, es decir cuando la observación de un fenómeno se hace a través de tiempo (años, meses, días, etc.). Cuando hay un gran número de períodos y existen marcadas fluctuaciones en los datos, este tipo de gráfico es el adecuado. a)Gráfico lineal simple. Representa una sola serie de datos $ 16 14

Ventas totales diarias de la empresa Llave

12 10 8 6

El tiempo siempre se coloca en el eje de la x.

4 2

Día L

M

M

J

V

S

b)Gráfico lineal múltiple Se utiliza para representar dos o más serie de datos. Se deben diferenciar las líneas con distintos trazos o colores para individualizar cada serie.

54

GRAFICO Nº 2 $ 16 14 12

Ventas diarias al contado y a crédito de la empresa LLave

10 8 6 4 2 Día L

M

M

J

V

Si se pretende representar más de 3 series, el gráfico puede resultar confuso.

S

II.Gráfico de barras Los gráficos de barras son de fácil interpretación. Los datos se representan mediante barras o rectángulos cuya amplitud es constante y la longitud proporcional al número de observaciones. Las barras pueden disponerse en forma vertical u horizontal. Dentro de este tipo de gráfico, se encuentran las siguientes variantes: a) Gráfico de barras simples: Representa una sola serie de datos. Las ventas totales por día se grafican dibujando una barra para cada día de la semana con una altura igual al volumen de ventas. (Gráfico Nº 3). b) Gráfico de barras múltiples: Representan dos o más series de datos. Son adecuados para efectuar comparaciones. Las ventas al contado y a crédito de la semana se muestran en el gráfico Nº 4. c) Gráficos de barras compuestas: Este procedimiento de representar dos o más series en el mismo gráfico consiste en dibujar el diagrama de barras dibujadas con otras de distinto fondo que representarán la segunda (o tercera) serie. Cada barra tendrá una longitud igual a la suma de los datos de las dos series. En el gráfico Nº 5, cada barra representa el total de las ventas por día y está en dos: la parte rayada corresponde a las ventas a crédito y la parte de arriba (sin rayar) las ventas al contado.

55

GRAFICO Nº 3 (Barras Simples) $ 16 14 12 10 8 6 4 2 L

M

M

J

V

S

Día

GRAFICO Nº 4 (Barras Múltiples)

d) Gráfico de barras bidireccionales. Se utiliza para indicar cambios porcentuales, para ilustrar ganancias o pérdidas, producción y ventas sobre lo normal o bajo lo normal de un período a otro, saldos positivos y negativos, etc. Las barras bidireccionales pueden disponerse en forma vertical u horizontal.

56

Se representarán los cambios porcentuales en el número de ingresantes en 1998 con respecto a 1997. Carrera:

Abogacía

Variación porcentual

Adm. de Empresas

+20%

Ing. Civil

+100%

-50%

Gráfico Nº 6 - Ingresantes a las 3 Carreras de la U.C.S. en 1998 (cuadro 2) Carrera

Abogacía

Ing. Civil Adm. De Empresa Nº de Alumnos 25

75

50

100

GRAFICO Nº 7 -100 -80 -60 -40 -20 0

-20 -40

-60

-80 -100

Adm. De Empresas Abogacía

Ing. Civil

57

GRAFICO Nº 5 (Barras Compuestas)

Las barras, como se dijo anteriormente, se pueden disponer en forma horizontal. Esta disposición es utilizada habitualmente para graficar en series de datos que se presentan en un solo período de tiempo. Al igual que las verticales, pueden ser simples, múltiples y compuestas. Una técnica comúnmente usada es disponer los aumentos porcentuales en orden descendente y las disminuciones en orden ascendente.

III. Gráficos circulares Los gráficos circulares son adecuados para recalcar la magnitud relativa de los componentes del total. Consiste en dividir un circuito en sectores cuyas superficies sean proporcionales a las cantidades correspondientes a cada categoría. Dado que los sectores circulares dependen de su ángulo central, éstos se determinan estableciendo la proporcionalidad respecto a 360º, que es el ángulo de la circunferencia. El método corriente para dibujar este tipo de gráfico es reducir los datos a porcentajes del total. Utilizando los datos del cuadro Nº 2 respecto a los ingresantes en 1997, se construirá un gráfico de sectores.

58

Carrera Abogacía Adm. de Empresas Ing. Civil

Ingresante

%

90 40 70

45 20 35

200

100

100% le corresponde 360º Abogacía 100 45

360 x

45 x 360 X=

= 162º 100

Adm. de Empresas 100 20

360 x

20 x 360 x=

= 72º 100

Ing. Civil 100 35

360 x

35 x 360 x=

126º =

100

360º

Abogacía 45%

Ing. Civil Adm. De Emp. 35% 20%

Actualmente la construcción de gráficos se facilita utilizando programas de computación que poseen una gran variedad de los mismos. Lo importante es determinar el gráfico adecuado según el tipo de información.

59

Además de los gráficos desarrollados, los datos pueden presentarse en mapas estadísticos, pictogramas, gráficos de volúmenes, etc.

8.3.4. La falsedad estadística a través de gráficos Una de las formas de mentir con la estadística es dibujando gráficos engañosos. Considérese la siguiente información sobre las ventas de 3 vendedores de una compañía para ilustrar un ejemplo.

GRÁFICO (a)

GRAFICO (b)

El eje vertical debe comenzar en cero para que se tenga una adecuada representación de la situación. Los gráficos cuyas escalas de los ejes verticales comienzan en cero tienden a enfatizar la magnitud de las cifras consideradas, mientras que en los gráficos que omiten el cero tienden a enfatizar la variación en el número sin considerar la verdadera magnitud. Al observar el gráfico (a) puede concluirse erróneamente que el vendedor B tuvo ventas que apenas superaron la mitad de lo que vendió C. En cambio en el gráfico (b) muestra la información real ya que destaca que las tres cifras son relativamente grandes, lo cual resta el énfasis puesto a la variabilidad que muestra el gráfico. (a)

60

Actividad Nº 7 1) Identificar en diarios y/o revistas gráficos estadísticos distintos a los desarrollados en el módulo. 2) Cuadro de Ingresos y Egresos de Caja de un Negocio (en miles de $) Mes

Enero

Febrero

Marzo

Abril

Mayo

Junio

Ingresos

50

45

70

40

80

100

Egresos

20

30

120

60

100

130

a) Representar en un gráfico lineal los ingresos y egresos b) Representar gráficamente la comparación de ingresos y egresos en un diagrama de barras. c) Obtener los saldos para cada mes y representarlos gráficamente.

3)Relación egresados por cada 100 ingresantes en la Universidad Facultad Agronomía Arquitectura Ingeniería

Egresados 22 24 19

Facultad Cs. Exactas y Naturales Farmacia y Bioquímica Ciencias Económicas

Egresados 12 27 12

Representar la información en un gráfico adecuado. 4)Un informe sobre turismo consigna lo siguiente: - En enero y febrero de 1998 ingresaron a la provinica 15.450 y 12.750 turistas mostrando un aumento del 18% y 12 % con respecto a los mismos meses delaño anterior. - De los totales de la temporada 1998, el 48% fueron visitantes extranjeros, el 30% de la región próxima a Salta y el resto de otros puntos del país.

61

a) Obtener el número de turistas que ingresaron en enero y febrero de 1997. Construir un gráfico comparativo. b) Construir un gráfico para mostrar las cifras referentes a la procedencia de los turistas.

62

Actividad Obligatoria 1) Explique la importancia que tiene el análisis estadístico en la organización donde Ud. trabaja. 2) Describa una aplicación de la estadística en el área donde Ud. desempeña su trabajo. Especifique a) Objetivo de la investigación. b) La población bajo estudio y las variables de interés. c) Tipos de fuentes de datos disponibles y métodos de recolección a utilizar. 3) Con referencia al punto 2: a) Recopile los datos necesarios b) Organice y presente la información en cuadros y gráficos. c) Elabore un informe sobre los resultados y conclusiones de su investigación. d) Si fuera necesario, indique las dificultades que tuvo para realizar este trabajo de aplicación.

NOTA: En el caso de que Ud. no trabaje, concurra a cualquier empresa u organización y realice allí esta actividad de investigación integradora.

63

64

UNIDAD III DISTRIBUCIÓN DE FRECUENCIAS 1. Introducción Una de las etapas de la investigación estadística es el análisis de los datos que puede ser descriptivo o inferencial. Pero también en la investigación puede interesar el estudio de una, dos o tres, o más variables. Cuando se trabaja con una sola variable, el análisis es univariado (distribución de empleados por ingreso); si se trabaja con dos variables, el análisis es bivariado (distribución de empleados por ingreso y por antigüedad) y el análisis es multivariado cuando se trabaja con tres o más variables (distribución de empleados por ingreso, por antigüedad y nivel de instrucción). Este módulo trataría específicamente el análisis descriptivo para distribuciones univariadas.

2. Series estadísticas Una serie estadística es un conjunto de datos numéricos, ordenados y clasificados según un determinado criterio. Las series pueden clasificarse de la siguiente manera: Temporales o cronológicas Series estadísticas Espaciales Intemporales De Frecuencia

Cualitativas Cuantitativas

Discretas Continuas

Las series "temporales" son aquellas cuyos valores de la variable se observan en períodos de tiempos. Por ejemplo, las ventas mensuales de una compañía o la producción anual de cereales de un país. 65

En las series intemporales los valores se observan en un período fijo o en un momento determinado. Si los valores se estudian en función de un espacio geográfico; las series se denominan "espaciales"; por ejemplo población (número de habitantes) de las provincias argentinas en 1997. Las series intemporales de frecuencias son aquellas que se confeccionan cuando se estudia o analiza la repetición de los valores de una variable. Según sea el tipo de la variable, estas series pueden ser cualitativas o cuantitativas. Estas series son el objetivo de estudio de esta unidad.

3. Distribución de frecuencias Cuando el número de valores que toma la variable es grande, se hace necesario resumir la información para posibilitar la lectura y la interpretación. Una manera efectiva de reducir el tamaño de la serie y facilitar su tratamiento es mediante la confección de distribuciones de frecuencias. Una distribución de frecuencias es una tabla donde los datos se agrupan en clases o categorías con sus respectivas frecuencias. Con estas tablas se puede apreciar mejor la configuración de la información a la vez que se facilitan los cálculos y el análisis de los datos.

4. Distribución de frecuencias para variables continuas Supóngase que se analizan los índices mensuales de accidentes de las empresas industriales de una ciudad determinada. Para el estudio se seleccionan 25 establecimientos y se registra para cada una el número de accidentes por mil horas-hombre del último mes. Los datos son los siguientes. 2,7 3.8 3.1 5.3 3.4

1.8 4.8 3.3 3.3 2.1

1.0 2.5 3.6 3.0 5.6

2.2 1.4 3.0 5.8 3.9

4.1 4.5 2.5 4.4 3.4

Estos valores constituyen una "serie simple" de datos. Son datos brutos porque todavía no han sido procesados por métodos estadísticos. 66

4.1. Organización de los datos Una primera técnica sencilla de organización es la "ordenación" que consiste en una disposición de los valores en forma ascendente o descendente. 1.0 1.4 1.8 2.1 2.2

2.5 2.5 2.7 3.0 3.0

3.1 3.3 3.3 3.4 3.4

3.6 3.8 3.9 4.1 4.4

4.5 4.8 5.3 5.6 5.8

Una de las ventajas de este arreglo es la identificación rápida de valores máximos y mínimos. Sin embargo, la ordenación no resulta práctica para el análisis y pierde importancia cuando es grande el número de datos. Otra técnica de organizar los datos para la evaluación del investigador con el objeto de seleccionar extremos, valores típicos y concentración de valores, es el "arreglo de tallos y hojas". Se ordenan el (o los) primero(s) dígitos de cada valor, se forman los tallos, y con los dígitos siguientes se forman las hojas. Para los datos del ejemplo los dígitos iniciales 1 - 2 - 3 4 y 5 son los tallos y los dígitos sucesivos (decimales) son las hojas.

Indices de accidentes

Tallos 1 2 3 4 5

Hojas 8 7 8 8 3

0 1 1 1 6

4 5 4 5 8

2 3 4

5 3

6

0

0

9

4

Al igual que la ordenación, la representación de tallos y hojas tiene una utilidad limitada cuando es grande el número de datos.

67

4.2. Construcción de las tablas de frecuencias La ordenación y el diagrama de tallos y hojas son técnicas que ayudan a la organización pero no puede reconocerse la configuración de los índices de accidentes con sólo volcar los registros proporcionados por cada empresa. Para resumir estos datos en una tabla, primero se deben determinar los intervalos de clase. Un intervalo para el conjunto de índices puede ser:

2

-

3

⇒ intervalo de clase o clase

Definido el intervalo se determina su frecuencia, o sea la cantidad de observaciones incluida en esa clase. La frecuencia para este intervalo es 3, es decir que en 3 empresas ocurrieron entre 2 y 3 accidentes mensuales. La confección de las distribuciones depende de la naturaleza y del número de datos. Los intervalos deben seleccionarse adecuadamente para que la configuración de la distribución no resulte confusa. Al construir las tablas de frecuencias se pierde un poco de información, pero las mismas ofrecen ventajas al momento del análisis y la interpretación. Entre las pautas para la confección se deben considerar las siguientes: a) El número de clases no debe ser ni muy grande ni muy pequeño. Cuando hay muchos intervalos, la amplitud de los mismos es pequeña, por lo tanto cada uno tendría pocos datos o ninguno. Si hay pocas clases con intervalos amplios, puede resultar que queden cifras relativamente significativas concentradas en unas cuantas clases. b) Los intervalos deben tener la misma amplitud a efectos de poder hacer comparaciones. En algunas situaciones pueden presentarse intervalos de distinta amplitud, pero se dificulta la interpretación de la distribución. En otros casos se debe recurrir a intervalos abiertos. c) La confección de la distribución debe facilitar el trabajo de análisis, por lo tanto los intervalos de clase deben ser fáciles de manejar.

68

Se puede utilizar el siguiente procedimiento para determinar la amplitud de los intervalos. 1')Obtener el rango o recorrido (R). El rango es la diferencia entre el valor mayor y el valor menor de la distribución. R = Valor mayor - Valor menor Para la distribución de los índices de accidentes, el rango es: R

=

5.8

R

=

4.8

- 1.0

2')Seleccionar el número de clases (k). La "regla de Sturges" (1) es una pauta que sirve de orientación para determinar cuántos intervalos debe tener la distribución: Número de valores de la distribución 10 a 100 100 a 1.000 1.000 a 10.000

Número apropiado de intervalos 4a8 8 a 11 11 a 14

Para la distribución de la serie se eligen 5 clases. 3')Determinar la amplitud o ancho de la clase (A) dividiendo el rango sobre el número de intervalos. R

R = 4.8

k

k= 5

A=

4.8 A=

= 0.96 5

A=1 (1) La fórmula de Sturges establece que k = 1 + 3.3 log n (siendo n el número de observaciones)

69

Por conveniencia y facilidad de lectura, el ancho del intervalo se redondea a 1. 4')Establecer los límites de cada clase a fin de evitar superposiciones de clases para que ninguna observación caiga dentro de más de una categoría; de acuerdo a esto, el primer intervalo es "1,0 pero menos de 2,0". Las 5 clases de la distribución de los accidentes son: 1.0 2.0 3.0 4.0 5.0

< < < <
8) = e-8 = 0,00034 El valor esperado de una distribución exponencial es E(T) = 1/ λ y la varianza en V(T) = 1/ λ2.

247

ACTIVIDAD INTEGRADORA En promedio, 6 personas utilizan un cajero bancario automático cada hora. Determinar la probabilidad de que: a) Cuando menos pasen 10 minutos entre las llegadas de dos clientes. b) Después de que salga un cliente, no llegue otro cuando menos 20 minutos. c) De que llegue un segundo cliente antes de que pase un minuto después de que el primer cliente comienza su transacción bancaria?

248

Ejercicios de Repaso 1) Una empresa dedicada a la investigación de mercados efectúa una encuesta postal sabiendo que la probabilidad de contestar es de 0,20. Si se enviaron 20 cartas, hallar la probabilidad de: a) 8 respuestas, b) no más de 3 respuestas, c) por lo menos 16 sin respuestas. 2) La DGI ha clausurado en promedio 6,4 negocios por mes. Encontrar la probabilidad de que: a) Ningún negocio sea clausurado durante una semana. b) Entre 3 y 5 negocios sean clausurados durante un mes. 3) La compañía “Click” fábrica encendedores de cigarrillos. Un componente importante de este producto es una pequeña rueda de acero dentada que gira y crea la chispa para el encendido. Esta rueda de acero está fabricada con un acero comprado por la compañía "Click". La característica más importante del acero es su dureza. El departamento de ingeniería industrial ha especificado que los lingotes de acero deben tener una dureza de cuando menos 425 Unidades Brinell (UB). Es también conveniente que el material sea uniforme. Se ha decidido comprar todo este material a un solo proveedor, ya que ello implica ahorro en costos. La lista de posibles proveedores se redujo a dos firmas A y B. a) La dureza media de los lingotes producidos por A es de 510,2 UB, mientras que la dureza media de los lingotes de B es 492,8 Ub. ¿Es la calidad de B inferior a la de A? Explicar la respuesta, aclarando cuál es la interpretación del término “calidad”. b) La dureza de los lingotes producidos por cada proveedor está distribuida normalmente. La desviación típica de la dureza de los lingotes de A es 53,9 UB y la desviación típica de la dureza de los lingotes de B es 31,4 Ub. ¿Qué forma presenta mayor uniformidad? Explicar. c) ¿Cuál es la proporción de lingotes con 425 o más UB producidas por cada proveedor?

249

d) Sobre la base de la información anterior, ¿qué firma seleccionaría Ud? Fundamentar la respuesta. e) ¿Qué otros factores además de la calidad, consideraría al hacer la selección del proveedor? 4) La duración de las pilas fabricadas por la compañía “Luxor” está normalmente distribuida con = 795 minutos y =37 minutos. a) ¿Cuál es la probabilidad de que una pila dura entre 775 y 820 minutos? b) ¿Cuál es la probabilidad de que una pila dure más de 800 minutos? c) ¿Existe una probabilidad de 0,95 de que una pila dure menos de cuántos minutos? d) El 50% de las pilas duran entre —— y ——. Usar límites simétricos alrededor de la media. 5) La media de las puntuaciones de los exámenes de 80 postulantes es de 75 con un desvió típico de 8. La distribución es normal. El departamento de personal determinó que aquellos postulantes que hayan obtenido 60 puntos o más pasarán a una entrevista. ¿Cuántos de ellos serán entrevistados?

250

Respuestas a los ejercicios de la Unidad VI Punto 1

1) X: 1 2 3 4 P(X): 1/4 1/4 1/4 1/4 = 4/4 = 1 2) a) 0,25; b) Número de videos del mismo modelo. c) Eventos simples RRR - RRS - RSR - SRR - SSR - SRS - RSS - SSS Valor de X 1 0 0 0 0 0 0 1 d) X=

0

P(X)= 6/8

1 2/8

Punto 2 y 3

1) CV1= 38,2% - CV2= 33,51% - Conviene el 2. 2) E(X)= 240 2 = 4.150 = 64,4

Punto 4.1.

1) a) P(X=7) = 0,17708; b) P(X=0) = 0,00047; c) P(X 5) =0,40321 d) P(X 8) = 0,21311; e) P(X 3) = 0,00193; f) P(8 X 10) = 0,56962 2) = mp= 5,25

= 1,85

(Aprox. Posson a la Binamial)

Punto 4.2.

1) a) 0,0150;

b) 0,4101;

c) 0,078

2) 0,9834

251

Punto 5

1) a) 0,0228; e) 0,6687 f) 0,6587

b) 0,1587;

c) 0,0005;

2) P(X 5,5)= 0,0179 (Aprox. Normal a la Binomial) 3) P(X 5,5)= 0,9686 (Aprox. Normal a Posson)

252

d) 0,1574;

Ejercicios de Repaso 1) a) 0,02216; b) 0,41145; c) 0,62965 2) a) 0,2019 b) 0,3375 3) a) No, porque ambos cumplen las especificaciones. b) B c) A= 0,9429 B= 0,9846 d) B cumple con todas las condiciones e) precio, condiciones de pago, etc. 4) a) 0,4572; c) 855,9 minutos,

b) 0,4443; d) Entre 770 y 820 minutos.

5) 78 postulantes.

253

254

APÉNDICES

255

256

Apéndice 1 Distribución Probabilisticas Binomiales ⎛ n ⎞ x n −x Las anotaciones en la tabla son valores de ⎜⎜ ⎟⎟ p q ⎝x⎠

257

258

259

Apéndice 2 Probabilidades acumuladas para distribuciones binomiales CP (x ) =

x



k −0

⎛ n ⎞ k n−k ⎜ ⎟p q ⎜ ⎟ ⎝k⎠

260

261

262

Apéndice 3 Probabilidades Poisson

263

264

265

266

Apéndice 4

267

l

Apéndice 5 Valores de e-λ

268

269

Importancia de la muestra

Distribución en el muestreo

Errores muestrales y no muestrales

Diagrama de Contenido - Unidad VII

Teorema del límite central

Distribución muestral de proporciones

Distribución muestral de medias

Distribuciones Muestrales

270

UNIDAD VII DISTRIBUCION EN EL MUESTREO

(1)

1. Introducción Luego de haber estudiado la teoría de las probabilidades como base de la inferencia estadística, se desarrollará la distribución en el muestreo que es un tema fundamental para entender el proceso de inferencia estadística. Se analizarán los puntos básicos para el estudio de la “Estimación” y el “Test de Hipótesis”.

2. Importancia de la muestra En la unidad I (módulo 1) se expusieron algunas características importantes de una muestra. Se hizo referencia a la necesidad de que una muestra debe ser representativa para que pueda ser usada con fines de realizar inferencias acerca de la población. Los métodos para seleccionar muestras son muchos, dependiendo del objetivo del estudio, del tiempo, del dinero y de la naturaleza de los elementos individuales de la población. En este módulo no se desarrollará este tema, sino que el mismo será investigado por el alumno a través de la guía propuesta en las actividades de pág. 17. No obstante, se hará la diferencia entre “muestras probabilísticas” y “muestras no probabilísticas”. Una muestra “probabilística” es aquella en la que los sujetos de la muestra se eligen sobre la base de probabilidades conocidas. En cambio, una muestra “no probabilística” está basada en los puntos de vista subjetivos de una persona que utiliza su conocimiento y su opinión para identificar los elementos de la población que serán incluidos en una muestra, por ello se denomina también “muestreo de juicio”. Las muestras probabilísticas son preferidas porque la selección de los elementos es objetiva y el error muestral puede ser medido en términos 1 Shao, Stephen: "Estadística para Economía y Administración de Empresas", Herrero Hnos. 271

de probabilidad. Si bien una muestra de juicio es fácil de obtenerla y su costo es bajo, no permite medir el error muestral. Recuérdese que los valores que describen características de la muestra se denominan “estadígrafos” y los valores que describen características de una población se denominan “parámetros”. Los símbolos a utilizar son: Medida

Media Desviación típica Proporción Números de elementos

Muestra (Estadígrafo)

Población (Parámetro)

μ σ p N

x s p n

3. Error muestral La diferencia entre el resultado obtenido de una muestra y el resultado el cual deberíamos haber obtenido de la población se llama “error muestral”. El error muestral es medido por el error estándar del estadígrafo, en términos de probabilidad, bajo la curva normal (ver punto 5). Esta medida indica “la precisión” de la estimación de la población basada en una muestra. Mientras más pequeño sea el error muestral, mayor precisión hay en la estimación. Debe hacerse notar que hay errores que se cometen en las encuestas, en las tabulaciones de datos, en los cálculos, etc. que no son debidos a la muestra por eso se denominan errores “no muestrales”.

4. Distribución en el muestreo Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), pueden extraerse dos o más muestras de la misma población. De cada muestra, puede ser calculado un estadígrafo. Una distribución del estadígrafo obtenida de las muestras se denomina “distribución en el muestreo del estadígrafo”. Por ejemplo, de una población de tamaño

272

3, con los elementos A, B y C, es posible extraer 3 muestras de tamaño 2 (sin reposición). Si se calcula la media de cada muestra, habrá 3 medias muestrales. Estas 3 medidas forman una distribución que se denomina “distribución de medias muestrales” o “distribución muestral de medias”.

5. Error estándar La desviación estándar de una distribución muestral de un estadígrafo, se denomina “error estándar del estadígrafo”. Por ejemplo, la desviación típica de la distribución muestral de medias se denomina “error estándar de la media”. La “desviación estándar” se refiere a los valores originales, mientras que el “error estándar” se refiere a valores calculados. Los estadígrafos son valores calculados a partir de una muestra.

6. Distribución muestral de medias Tómese como ejemplo, esta población finital pequeña compuesta por los jornales de 4 trabajadores de una empresa industrial. Trabajador

A

B

C

D

Jornal ($)

2

5

6

3

La media es μ =

∑ x i = 16 4 = $4 N

( x − μ )2 ∑ = $ 1,58 La desviación típica es σ = N

A continuación se obtendrá todas las muestras posibles de tamaño 2 y se calculará la media para cada una (El muestreo es sin reposición). 4!

C = C = 2! 2! = 6 combinaciones posibles n r 4 2

273

Muestras

Jornales

Medias muestrales

A-B A-C A-D B-C B-D C-D

222556-

3,5 4,0 2,5 5,5 4,0 4,5

5 6 3 6 3 3

24,0 El total de las 6 medias muestrales es 24, por lo tanto, la media de las medias muestrales es: X = 24 6 = $4 Esta media es igual a la media de la población. Las medias muestrales pueden presentarse en la siguiente distribución: Medias Muestrales (X)

Número de medias muestrales (f)

2,5 3,5 4,0 4,5 5,5

1 1 2 1 1 6

La media de esta distribución puede calcularse:

X=

24 = $4 6

El desvío típico de la distribución muestral de medias (Simbolizado por σx) se puede obtener por la fórmula:

σx =

∑ x2 f

n

− x2 =

10 − 1 6

− 42

;

274

σ x = 0,83 = 0,91

El desvío típico obtenido es el “error estándar de la media”, que en la práctica se calcula por:

σx =

σ n

(1)

Si la población es finita, se agrega el factor de corrección, o sea:

σx =

En el ejemplo

σ n

N−n N −1

(2)

σ = 1,58 ; N = 4 ; n= 2

σx =

1,58 2

4−2 = 0,91 4 −1

En resumen:

La distribución de las medias obtenidas de todas la muestras posibles, se denomina distribución muestral de medias. La media de esta distribución es igual a la media poblacional y la desviación típica es igual al error estándar de la media. El error estándar disminuye a medida que aumenta el tamaño de la muestra.

7. Distribución muestral de proporciones La distribución en el muestreo de la proporción es un conjunto de proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población. Hay 4 empleados en una empresa, A, B, C y D. Los empleados A y B son profesionales universitarios; C y D son no profesionales. Supóngase los 4 empleados como una población. Desígnese con el valor 1 a un profesional y con 0 a un no profesional.

275

Empleado

X

A

1

B

1

C D

0 0 2

La proporción de los profesionales es

p=

2 = 0,50 Parámetro y el desvío típico: 4

σ = p.q =

0,50(0,50) = 0,50

Se obtendrán todas las muestras posibles (sin reposición) de tamaño 3 y se calculará la proporción de profesionales. Muestra ABC ABD ACD BCD

Proporción muestral 2/3 = 0,67 2/3 = 0,67 1/3 = 0,33 1/3 = 0,33 2,00

La media de las proporciones muestrales es:

p=

2,00 = 0,50 4

====

igual a la proporción de la población.

El error estándar de la proporción obtenida por la fórmula 22 (Módulo 3) es: σp = 0,17 El cálculo del error estándar de la proporción se simplifica por:

(3)

σp =

p.q n

σp =

o

p.q N − n − n N −1

(4)

para poblaciones finitas

σp =

276

0,50(0,50) 4 − 3 = 0,17 3 4 −1

8. Teorema del límite central Como resulta impracticable obtener todas las medias muestrales la distribución normal se utiliza para aproximar las probabilidades de las medias muestrales en un a distribución muestral. La normalidad de la distribución muestral de medias queda establecida en el “teorema del límite central” cuyo enunciado dice: - Si una población es bastante grande y está normalmente distribuida, la distribución de las medias muestrales también será normal. - Si una población no está normalmente distribuida, la distribución muestral de medias se aproximará a una distribución normal si el tamaño es suficientemente grande. La distribución normal de las medias muestrales tiene una media igual a E(X) y el error estándar σx. Si se desconocen los valores de μ y σx, pueden estimarse a partir de X y S. El erro estándar estimado a partir de S, se obtiene por: S=

S n

(5)

Ejemplo:

La media de las cuentas a cobrar de 1.500 clientes en una tienda es de $250 y una desviación típica de $45. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria de 100 cuentas con una media de $260 y más?

Z=

Z=

x −μ x −μ = σx σ n

(6)

260 − 250 10 = = 2,22 4,5 45 100 Area entre 0 y 2,22 = 0,486 0,50 - 0,4868 = 0,0132 P (X ³ $ 260) = 0,0132 250 260 277

Cuando N es grande y el tamaño de la muestra n, es pequeña, el factor de corrección

N−n N −1 se aproxima a 1, por lo tanto puede obviarse y utilizar sólo

σx =

σ n

o

σp =

p.q n

según corresponda para el cálculo del error estándar.

278

Actividad Nº 36 1) Contestar las siguientes preguntas: a) b) c) d) e) f)

¿Cuáles son las principales características de una muestra? ¿Qué diferencia hay entre un parámetro y un estadígrafo? ¿Qué diferencia hay entre error muestral y erro no muestral? ¿A qué se denomina distribución en el muestreo? ¿Qué mide el error estándar? ¿Cómo se obtiene este error? ¿Por qué es importante el teorema del límite central?

2) Las pólizas vendidas por 5 vendedores de seguros durante un período dado son: Vendedor Pólizas Vendidas

A 2

B 3

C 4

D 5

E 1

I) Considerar los 5 vendedores como una población. a) Obtener la media aritmética y la desviación típica. II) Elegir todas las muestras posibles de tamaño 2 (sin reposición). a) Obtener las medias de todas las muestras posibles. b) Construir un a distribución muestral de medias. c) Obtener la media de la distribución muestral y el error estándar de la media. 3) Con los datos de la población del ejercicio (2), elegir todas las muestras posibles de tamaño 3 (sin reposición) y realizar las mismas actividades consignadas en el punto II. 4) La duración promedio de 2.000 baterías producidas por una compañía es de 38 meses y una desviación típica es de 8 meses. ¿Cuál es la probabilidad de seleccionar una muestra al azar de 50 baterías con una duración de por lo menos 35 meses? 5) De 50.000 familias en una ciudad, el 30% no tiene televisión por cable. Determinar la probabilidad de seleccionar una muestra aleatoria de 500 familias con una proporción de 33% o más.

279

6) Consultar la bibliografía consignada en el programa y desarrollar la siguiente guía de estudio sobre el tema Métodos de Muestreo. a) Efectúe una lectura global sobre el tema de referencia. b) Lea atentamente el tema "Muestras Probabilísticas". b.1. Conteste: a qué se denomina "muestra probabilística". b.2. Cuáles son los 4 tipos de muestras probabilísticas? c) Lea el tema "Muestreo Simple al Azar". c.1. Explique el procedimiento de este tipo de muestreo. c.2. Supóngase que los 70 alumnos de una carrera reciben números de identificación del 01 al 70. Se desea entrevistar a 10 de ellos eligiéndolos aleatoriamente. Utilizando la tabla de números aleatorios, cuáles serán los seleccionados? (Ver Anexo I) c.3. ¿Cuáles son las principales ventajas y desventajas de este tipo de muestreo? d. Lea el tema sobre "Muestreo sistemático" d.1. Explique el procedimiento de este tipo de muestreo. d.2. ¿Cómo seleccionaría la muestra del punto c.2. por este método? d.3. ¿Cuáles son las ventajas y desventajas del muestreo sistemático? e. Lea el tema "Muestreo Estratificado". e.1. Explique en qué consiste este diseño de muestra. e.2. Supóngase que de un total de 1.000 empleados de una gran compañía, se desea obtener una muestra de 100 para una investigación. El número total de empleados se distribuye según su instrucción. Instrucción

Nº de Trabajadores

Primaria Secundaria Superior No Univ. Superior Univ.

50 500 150 300 1.000

a) ¿Cómo seleccionaría la muestra estratificada proporcional? b) ¿Cómo seleccionaría la muestra estratificada no proporcional? c) ¿Cuál de las dos es más apropiada?

280

e.3. Señale ventajas y desventajas de este diseño de muestra. f. Lea el tema "Muestreo por Conglomerados" f.1. ¿En qué consiste este tipo de muestreo? f.2. ¿Qué diferencias hay con el muestreo estratificado? f.3. Determine ventajas y desventajas. g. Lea el tema "Muestras no Probabilísticas". g.1. A qué se denomina "muestras no probabilísticas? g.2. Explique cuál es la diferencia con las muestras probabilísticas? g.3. Señale, en general, ventajas y desventajas.

281

Respuestas a los ejercicios de la Unidad VII 1) Consultar el marco teórico del módulo y de la bibliografía. 2)

I) μ = 3

σ = 1,41

II) a) 10 muestras b) Media Nº de muestras

1,5 2,0 2,5 3,0 3,5 4,0 4,5 1 1 2 2 2 1 1 = 10

c) Media: 3 pólizas Error estándar de la media = 0,87

3)a) 10 muestras b) Media Nº de muestras

2,0 2,33 2,67 3,0 3,33 3,67 4,0 1 1 2 2 2 1 1 = 10

c) Media: 3 pólizas Error estándar de la media = 0,58

4) P (X ³ 35 meses) = 0,9960

5) P (X ³ 0,33) = 0,0668

282

283

^ Por intervalo

^ Puntual

Tipos de estimación

Estimaciones para muestras grandes: - Estimación de la Media Poblacional - Estimación de la Proporción de la Población - Estimación de la Diferencia de dos medias

Nivel e Intervalo de Confianza

Estimador y Estimación

TEORÍA CLÁSICA DE LA ESTIMACIÓN

Diagrama de Contenido - Unidad VIII

Propiedades de un buen estimador

284

UNIDAD VIII TEORÍA CLÁSICA DE LA ESTIMACIÓN 1. Introducción Por lo general, los parámetros de la población son desconocidos y se hace necesario estimarlos a partir de valores muestrales (estadígrafos). El empresario recurre a las estimaciones por cuanto sus decisiones se basan en una información incompleta y con una gran incertidumbre. La estimación, una de las bases de la inferencia estadística, permitirá la generalización respecto de las características de la población a partir de la información de las muestras.

2. Estimador y Estimación - Un estimador es un estadígrafo con el cual se estima un parámetro poblacional. La media muestral (X), por ejemplo, puede ser un estimador para la media población (m). - Estimación es un valor específico observado de un estadígrafo. Supóngase que se toma una muestra de focos y se prueban para determinar la duración media que es X = 4.000 hs. Si nos servimos de este valor específico para estimar la duración media de todos los focos, el valor 4.000 hs. será una estimación.

3. Tipos de Estimaciones Una estimación de un parámetro puede ser expresada de dos maneras: “por punto” y “por intervalo”. - Una estimación puntual es un número único que se utiliza para estimar el parámetro. Si en el ejemplo anterior se afirma que la duración media de los focos es de 4.000 hs., se está haciendo una estimación puntual. Este tipo de estimación es insuficiente ya que hay un acierto o una equivocación. Si la estimación de 4.000 hs. es equivocada, no se conoce el grado de error y no hay seguridad de la confiabilidad de la estimación. 285

Si el margen es de solamente de 50 hs., 4.000 hs. puede ser una buena estimación, pero si el error es de 500 hs., se rechazará como estimación. Esta estimación debe incluir una estimación del error (2). - “La estimación por intervalos” es una gama o recorrida de valores dentro del cual se puede esperar que esté el parámetro. Si la estimación de la duración de los focos se expresa como entre 3.950 hs. y 4.050 hs., es una estimación por intervalo. Este tipo de estimación indica el error por el grado de su intervalo y por la probabilidad de que el verdadero parámetro se encuentre dentro de él.

4. Propiedades de un buen estimador La calidad de un estadígrafo como estimador se puede evaluar de acuerdo a los siguientes criterios: a) Insesgabilidad. Se dice que un estadígrafo es un estimador insesgado de la población si el valor esperado de su distribución muestral es igual al parámetro poblacional. X es un estimador insesgado de μ, ya que E(X) = μ p es un estimador insesgado de P, ya que E(p) = P b) Consistente . Debido al error de muestreo, un estimador, generalmente, no es idéntico al parámetro a estimar. Un estimador es consistente si al aumentar el tamaño de la muestra, se logra una seguridad casi absoluta de que el valor del estadígrafo se acerca mucho más al valor del parámetro de la población. c) Eficiencia. La eficiencia hace referencia al tamaño del error estándar del estadígrafo. Un estimador es más eficiente que otro si el primero tiene un error estándar menor. Un estimador con esta propiedad tiene mayor probabilidad de lograr una estimación más cercana al parámetro poblacional. d) Suficiencia. Un estimador es suficiente si utiliza la información de la muestra, de modo tal que ningún otro estimador proporcione más información de esta muestra referente al parámetro de la población. 2. Levin, Richard, "Estadística para Administración". Ed. Prentice-Hall. 286

5. Estimaciones puntuales La media muestral es el mejor estimador de μ. Cumple con todas las propiedades mencionadas en el punto anterior. Si la muestra es grande su distribución muestral puede aproximarse a una distribución normal. Al conocer la distribución muestral de X se puede realizar una estimación basada en la muestra. Recordar que la X se obtiene con la fórmula ya conocida:

x=

∑ xi n

En cuanto a la varianza, se utilizó la siguiente fórmula al estudiar las medidas de dispersión (unidad IV).

∑ (x − x ) s = n

2

2

Pero al utilizar S2 como estimador de σ2, la fórmula anterior se vuelve:

∑ (x − x ) s = n −1

2

2

(7)

Al usar n-1, se obtiene un estimador insesgado de s. Si se hubiera trabajado sólo con n, el valor tendría algún sesgo. Ejemplo: Una compañía desea conocer el número de pólizas vendidas durante por los vendedores. Obtiene los siguientes datos durante una semana con una muestra de 20 vendedores.

1 5

x=

2 6

111 = 5,6 20

2 6

3 7

3 8

3 8

S 2 = 8,26

287

4 9

4 5 5 10 10 10

S=

8,26 = 2,9

Actividad Nº 37 Ejercicios - Puntos 1 al 5

1) Contestar las siguientes preguntas: a) Diferenciar entre “estimador” y “estimación”. b) Explicar la ventaja que tiene una estimación por intervalo sobre el estimación puntual. 2) Indicar si los siguientes enunciados son correctos (C) o incorrectos (I). a) ____Se dice que un estimador es eficiente del parámetro poblacional, con un tamaño creciente de la muestra, se tiene casi la certidumbre de que el valor del estadístico se acerca más al parámetro poblacional. b) ____El intervalo es una gama de valores que se usan para estimar la forma de la distribución de una población. c) ____Cuando se elige un estimador del parámetro poblacional, la propiedad más importante para evaluar su calidad es la insesgabilidad. 3) El propietario de una sala de espectáculos está considerando la posibilidad de ampliar su capacidad y necesita conocer el número promedio de personas que asisten a los distintos espectáculos y la variación de dicho número. La asistencia a 9 espectáculos seleccionados, aleatoriamente (en miles) fue: 13,0

8,5

14

20,5 7,6 12,5 20,6 14,2 10,2

Obtener las estimaciones puntuales de la media y la varianza de la población.

288

6. Estimación por intervalo 6.1 Introducción Ya se definió en el punto 3 que la estimación por intervalo indica un grado de error. Si se estima la duración media de los focos fabricados por una compañía, se puede seleccionar una muestra de 300 unidades a través de un control de calidad cuya X = 4.000 hs. Se sabe que la desviación típica de la población es de 1.500 hs. Si se utiliza X para estimar μ , se hace necesario un dato sobre la incertidumbre que acompaña a esta estimación, o sea establecer un intervalo donde posiblemente se encuentre la media poblacional desconocida. Por lo expresado, se necesita obtener “el error estándar de la media”. Por el teorema del límite central, la distribución muestral de medias se aproxima a una distribución normal. Recuérdese que la dispersión de la distribución muestral se mide a través del error estándar. Como n = 300 es una muestra bastante grande, se puede aplicar el teorema de referencia. El error estándar de la media es:

σx =

σ 1500 = = 86,6 hs. n 300

Ese resultado es el error estándar que acompaña a la estimación. Es decir, la duración media verdadera de todos los focos puede estar en el intervalo entre 3.913,4 y 4.086,6. No obstante, falta determinar la probabilidad de que la verdadera duración de los focos se halle en el intervalo. Por regla de la normal (Unidad VII) hay una probabilidad de 0,683 de que la media de una muestra de tamaño 300 se encuentre dentro de un error estándar positivo y negativo de μ . En otras palabras el 68,3% de todas las medias muestrales se encuentra a un error estándar positivo o negativo de m . En el ejemplo de la duración de focos, hay una confianza del 68,3% de que la duración se encuentre en el intervalo 3.913,4 o 4.086,6 (4.000 ± 1 σ ). Análogamente: -

3.826,9 a 4.173,2 hs. con el 95,5% de confianza (4.000 ± 2 σ).

-

3.740,2 a 4.259,8 hs. con el 99,7% de confianza (4.000 ± 3 σ). 289

6.2 Nivel e Intervalo de Confianza - La probabilidad asociada a una estimación por intervalo se denomina nivel de confianza. Por ejemplo 80%; 90%; 95%; 99% y otros. El nivel de confianza se expresa como 1 - α . - El intervalo de confianza es la estimación, es decir el recorrido dentro del cual se espera que se encuentre el parámetro. Como estamos trabajando con una distribución normal estándar, la diferencia entre el valor de x y su media, expresada en términos de su desviación típica está dada por z. El valor de z es igual al número de desviaciones típicas. Por lo tanto, los intervalos de confianza se expresan como:

x + zsx

límite superior de intervalo de confianza

x - zsx

límite inferior de intervalo de confianza

Si se estima la duración media de los focos con 90%(*) el intervalo de confianza es: 4000 + 1,64 (86,6) = 3.858 a 4.142 (*) Para 1 - a = 90%, z = 1,64 (ver la tabla) Una proporción 1 - a del área bajo la curva normal estándar queda entre -z a /2 y z a /2. Si 1 - α = 90%

α = 0,10 y α / 2 = 0,05.

α/2 0,005

1−α 0,90

α/2 0,005

Ζα/2 σx Ζα/2 σx μ − Ζα/2 0 + Ζα/2

Interpretación

La estimación obtenida anteriormente no significa que haya una probabilidad de 0,90 de que la duración media de todos los focos se encuentre dentro del intervalo establecido, sino que debe interpretarse así: 290

“Si se seleccionan muchas muestras aleatorias de tamaño 300 y se calcula el intervalo de confianza de todas esas muestras, en el 90% de ellas, la media de la población se encuentra dentro de ese intervalo”.

Valores de z para los coeficientes de confianza más utilizados: 1-α z

50% 0,6745

68,27%

90%

95%

1,00

1,645

1,96

95,45% 2,00

99%

99,73%

2,58

3,00

6.3 Cálculo de Estimaciones por intervalos para muestras grandes 6.3.1 Estimación de una media poblacional

Si se conoce el desvío estándar de la población, el error estándar se calcula como:

σx =

σx n

por lo tanto el intervalo de confianza para estimar m se obtiene de la siguiente manera:

x − z α / 2 σx < μ < x + z α / 2 . σx

(8)

Si el desvío estándar de la población se desconoce, se utiliza el desvío estándar de la muestra, S para estimar σ. De acuerdo a lo estudiado en el punto 5 de la unidad, se estima por:

∑ (x − x ) S=

2

n

En este caso, el error estándar de la media se obtiene: Sx =

S n

(9)

siendo los límites de confianza x + Sx 291

Ejemplo: El Dpto. de Personal de una empresa está interesada en estimar el número promedio de días que los empleados faltaron por razones particulares. Un análisis de los legajos de 49 trabajadores elegidos al azar dio una media de 12 días. Si el desvío estándar poblacional es de 2,5 días, determinar el intervalo de confianza del 95% para el verdadero promedio.

x±z 12 ± 1,96 (2,5 / 49) 12 ± 1,96 (0,36) 11,3 ≤ μ ≤ 12,7

Determinación del tamaño de la muestra para la estimación

En la distribución normal μ ± z σx = μ ± E y E = z E = es el error muestral o sea la diferencia entre x y μ En el problema anterior E = 1,96 (0,36) = 0,7 E = z.

σ n

n=

y

⎛ z . σ2 ⎞ ⎟ n = ⎜⎜ ⎟ E ⎝ ⎠

z.σ E

(10)

donde: E: error muestral máxima que se acepta. z: se establece mediante el nivel de confianza. σ: desvío estándar de la población que si se desconoce se puede estimar por σ. Ejemplo: Supóngase que el Jefe de Personal desea estimar la media de inasistencia utilizado la misma desviación típica y con el mismo nivel de confianza pero acepta como error máximo 0,5. El tamaño de la muestra que deberá elegir es:

292

n=

(1,96)2 . (2,5)2 (0,5)2

= 96,04 = 96 trabajadores

6.3.2 Estimación de la proporción de la población

Para construir un intervalo de confianza para estimar la proporción poblacional se debe utilizar la distribución binomial. Como los cálculos de probabilidades binomiales son complejos, se puede aproximar por medio de una distribución normal que puede servir para aproximar la distribución muestral. Para aproximarse debe cumplir que:

n ≥ 30 y np ≥ 5, donde μ = np y σ = n.p.q La proporción de éxitos en la muestra se expresa por p. Como np es igual al número medio de éxitos, se divide np entre n para obtener sólo a proporción p. La media de la distribución muestral de proporciones es: μp = p Análogamente, se modifica la desviación típica dividiendo n.p.q entre n para convertir número de éxitos en proporción de éxitos. La desviación estándar de la proporción de éxitos se representa por:

σp =

p.q n

error estándar de la proporción

Si se desconoce la proporción de la población: Sp =

p.q n

(11)

Por lo tanto el intervalo de confianza para estimar la proporción de la población p es;

p − z α / 2 . σp ≤ p ≤ p + z α / 2 σp Si se desconoce la proporción de la población:

p ± z α / 2 Sp

293

(12)

Ejemplo: Otro problema del jefe del personal es estimar la verdadera proporción de legajos de los empleados que están incompletos. Elige una muestra de 50 legajos y encuentra 14 incompletos. Determinar el intervalo de confianza del 99% para p.

p=

14 = 0,28 50

p + z α / 2 . Sp 0,28 (0,72) 50 0,12 ≤ p ≤ 0,44

0,28 ± 2,58 .

Determinación del tamaño de la muestra para estimar la proporción de la población

E = z σp = z .

p.q n

p.q E = n z

o

donde: p . q E2 = 2 n z

n=

z2 .p . q E2

(13)

Ejemplo: Supóngase que para la estimación del ejercicio anterior, el jefe desea un error no mayor de 0,10. El tamaño de la muestra será: n=

(2,58)2 . (0,28) . (0,72) (0,10)

2

n = 134 legajos

294

= 134,2

6.3.3 Estimación de la diferencia entre dos medias Si dos medias muestrales x1 y x2 son independientes, el procedimiento para construir el intervalo de confianza para δ (delta), verdadera entre las dos medias poblaciones μ1 y μ2 es similar a los anteriores.

D − z α / 2 . σD ≤ δ ≤ D + z α / 2 . σ2

(13)

Siendo D = x1 - x2 σD = error estándar de la diferencia de medias

σD =

σ12 σ 22 + n1 n2

(15)

se puede estimar a partir de S2 cuando se desconoce la varianza de la población.

Ejemplo: se desde estimar la verdadera diferencia de medias en la duración de dos marcas de baterías. Se obtiene los siguientes datos. Marca A n1 = 100 x1 = 38 meses σ12 = 36 meses

Tamaño de la muestra Media muestral Varianza poblacional

Marca B n2 = 100 x2 = 35 meses σ12 = 25 meses

Obtener el intervalo de confianza del 95% para δ, verdadera diferencia de las dos medias: D + zα / 2



1,96

σ12 σ 22 + n1 n2

D = 38 − 35 = 3

36 25 + 100 100

3 ± 1,96 (0,78) 1,5 ≤ δ ≤ 4,5 meses

295

Actividad Nº 38 Ejercicios del punto 6 1. Una fábrica de golosinas desea estimar el peso medio de los paquetes de caramelos envasados automáticamente por una máquina. De la producción de un día se sacó una muestra de 120 paquetes y se obtuvo una media de 855 gramos y un desvío típico de 47 gramos. Estimar m con un nivel de confianza de 99%. 2. La oficina de Extensión Universitaria de una Universidad desea estimar la proporción de ingresantes que estudiarán carreras humanistas. Selecciona aleatoriamente una muestra 80 fichas de inscripción y encontró que 12 ingresantes estudiarán dichas carreras. Estimar p con un nivel de confianza de 95%. 3. Un examen estándar se aplica a un grupo de estudiantes de nivel superior universitario y a un grupo de estudiantes de nivel superior no universitario. Se obtienen los siguientes docentes:

Muestra Puntuación media Varianza

Sup. Univ. n1 = 72 x1 = 84 σ12 = 40

Sup. No Univ. n2 = 36 x2 = 80 σ12 = 64

Determinar el intervalo de confianza del 90% para la verdadera diferencia de medias entre las puntuaciones medias de ambos grupos de estudiantes. 4. Supóngase que es la estimación de ejercicio 1, se pretende que el error de la estimación no sea mayor a 3 gramos. ¿Cuál debe ser el tamaño de la muestra para dicha estimación? 5. Si en el ejercicio 2, se desea un error máximo de 2,5%, ¿cuál debe ser el tamaño de la muestra para la estimación? 6. Se realiza un estudio sobre el ingreso de los operarios de una gran compañía metalúrgica. Una muestra de 100 operarios dio como resultado ingreso medio de $520 y una desviación típica de $30. De

296

esos 100 trabajadores, se encontró que 20, tenían un ingreso menor a $350. a) Estimar con el 95% de confianza, la verdadera media de ingreso de todos los operarios. b) Estimar con el 95% de confianza, la verdadera proporción de operarios con ingresos menores de $350.

297

Respuestas a los ejercicios de la Unidad VIII Puntos 1 al 5 1) Consultar el marco teórico del módulo. 2)

a) I ;

3)

μ = 13,5

b) I ;

c) I

σ = 4,6

Punto 6 1)

843,9 ≤ μ ≤ 866,1

2)

0,07 ≤ p ≤ 0,23

3)

1,49 ≤ δ ≤ 6,51

4)

n = 16,34

5)

n = 784

6)

a. 514,12 ≤ μ ≤ 525,88 b. 0,12 ≤ p ≤ 0,28

298

299

Inferencia estadística

Características

Distribución t

MUESTRAS PEQUEÑAS

Estimaciones de la media poblacional y de la diferencia de medias

Pruebas para la media poblacional y para la diferencia de medias

PRUEBAS DE HIPÓTESIS

PROCEDIMIENTO DE LA PRUEBA DE HIPÓTESIS

TEST DE HIPOTESIS

Prueba de la diferencia de dos medias

Prueba de proporción de la población

Prueba de una media poblacional

MUESTRAS GRANDES

PRUEBAS DE HIPÓTESIS

Diagrama de Contenidos - Unidad IX

300

UNIDAD IX TEST DE HIPOTESIS 1. Generalidades Una hipótesis estadística es una declaración tentativa acerca del valor del parámetro de una población. Mediante las pruebas de hipótesis se pueden tomar decisiones sobre una media poblacional, sobre una proporción de la población o cualquier otro parámetro, basándose en la información proporcionada por una muestra. La afirmación es tentativa debido a que los verdaderos valores de los parámetros se desconocen.

2. Procedimiento de las pruebas de hipótesis Los pasos esenciales en este procedimiento son:

(1) Identificación de la distribución de la población Es necesario conocer la distribución teórica de la variable aleatoria que se estudia, ya que la decisión sobre la hipótesis se toma en base a las probabilidades de ocurrencias. Cualquier procedimiento estadístico que requiere identificar la distribución probabilística se denomina “enfoque paramétrico”, de lo contrario se denomina “enfoque no paramétrico”.

(2) Planteamiento de las hipótesis Se confrontan dos tipos de hipótesis: a) la “hipótesis nula” que se simboliza por H0 y b) la “hipótesis alternativa” simbolizada por H1. La hipótesis nula es una declaración tentativa de que el parámetro de la población es igual a un valor específico. El nombre de “nula” expresa la idea de que “no hay diferencia”. Por ejemplo; H0: μ = 10

301

La hipótesis alternativa es una afirmación tentativa de que el parámetro de la población tiene un valor diferente del especificado en la hipótesis nula: H1: μ = 10 El valor de H1 se obtiene a partir de una muestra que se utiliza para apoyar este hipótesis. Obsérvese que H1 se planteó “como distinto”, esto significa que si los datos muestrales muestran un valor muy bajo o un valor muy alto se rechaza H0. Como la hipótesis alternativa no indica la dirección de la diferencia, esta prueba se denomina de “dos colas o de dos extremos”. H1 puede especificar una sola dirección, es decir una alternativa unilateral. H1: μ > 10

o

H1: μ < 10

En estos casos, H0 se rechaza solo si el valor muestral indica un valor muy alto (H1 > 10) o solo si el valor de la muestra es muy bajo (H1 < 10). Como aquí se especifica la dirección, la prueba se denomina “un extremo” o “de una cola”.

(3) Especificación del nivel de significación La finalidad de un test de hipótesis no es poner en tela de juicio el valor de un estadígrafo, sino emitir un juicio sobre “la diferencia” que hay entre ese valor y el supuesto parámetro poblacional. El nivel de significación es el estándar estadístico que se determina para rechazar H0. Si se especifica, por ejemplo, un nivel del 5%, entonces se rechaza H0 sólo si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad del 0,05 o menos. Al usar un nivel de significación del 5%, existe una probabilidad del 0,05 de rechazar H0 si ésta es verdadera. Este error se denomina de “tipo I” que es siempre igual al nivel de significación.

El error de tipo I se simboliza por α (alfa) Se incurre en error de tipo II si se acepta H0 siendo falsa. Este error se simboliza por β (beta). 302

(4) Planteo de la regla de decisión Para tener un criterio de decisión se requiere establecer:

a) b)

el estadístico de prueba y la región crítica.

a) El estadístico de prueba es una variable aleatoria, cuyo valor se utiliza para decidir de rechazar o aceptar H0. Un estadígrafo muestral como la media aritmética, la puntuación z o cualquier otra variable pueden ser estadísticos de prueba. b) La región crítica es el conjunto de valores para el estadístico de prueba que llevará el rechazo de H0. Desde luego, la región de no rechazo es el conjunto de valores para el estadístico de prueba que llevará a aceptar H0. Ambas regiones están separadas por un valor crítico (C).

1-α α μ

región de aceptación

c

valor crítico

región de rechazo

Las reglas de decisión pueden ser:

α/2 -c

α/2 μ

c

α μ c

303

α c

μ

Rechazar H0 si el valor del estadísti co de prueba es ≥ que C o ≤ que C (Test de dos colas)

Rechazar H0 si el valor del estadístico de prueba es ≥ que C. (Test de una cola)

Rechazar H0 si el valor del estadís tico de prueba es ≤ que C (Test de una cola)

(5) Toma de decisiones La decisión de aceptar o rechazar H0 lleva a cuatro posibles resultados: - Si H 0 es verdadera y se rechaza, se comete error de tipo I. La probabilidad de cometer este error es α . - Si H0 es verdadera y se acepta la decisión es correcta y la probabilidad de tomar esta decisión es 1- α . - Si H0 es falsa y se acepta, se comete error de tipo II. La probabilidad de cometer este tipo de error se denomina β. - Si H0 es falsa y se rechaza la decisión es correcta. La probabilidad de tomar este decisión es 1- β.

En resumen:

Decisión

H0 Verdadera

H0 Falsa

Rechazar H0

Error de tipo I (α)

Decisión correcta (1- β)

Aceptar H0

Decisión correcta (1- α)

Error de tipo II (β)

Debe tenerse cuenta que los dos tipos de error están relacionados inversamente. En los gráficos se representan las áreas de α y β. Cuando α disminuye, la recta vertical se traslada hacia la derecha, aumenta el área de β. Cuando la recta vertical se traslada hacia la izquierda, α aumenta a medida que el área de β disminuye.

304

α μ0 β μ1 α está comprendida sólo cuando H0 es verdadera. β está comprendida sólo cuando H1 es verdadera.

3. Hipótesis exactas e inexactas Una hipótesis es exacta cuando se especifica un valor único para el parámetro poblacional: Ejemplo: H0 : μ = 100

H1: μ

= 90

Una hipótesis es inexacta cuando se especifica un conjunto de valores que puede tomar el parámetro: Ejemplo: H0: μ ≥ 100

H μ < 100

4. Pruebas de hipótesis con muestras grandes 4.1 Prueba de una media poblacional El gerente de una compañía de teléfonos asegura que el importe medio de las facturas por el servicio de uso familiares a lo sumo de $90. La distribución de los importes es normal con = $ 25. La oficina de facturación eligió al azar 100 facturas y encontró una media de $98. Con un nivel de significación del 5%, probar la aseveración del gerente.

305

1 La distribución en normal. 2 Las hipótesis quedan planteadas así: H0: μ ≤ 90 H1: μ > 90

3 α = 0,05. El valor crítico z es 1,645 que es el valor normal estándar. 4 Regla de decisión Se utilizará como estadístico de prueba, la puntuación z. Rechazar H0 si z ≥ 1,645

0 1,645 z=

x − μ0 σ/ n

z=

98 − 90 = 3,2 25 / 100

Como Z > 1,645 se rechaza H0 es decir la afirmación del gerente.

Se puede utilizar también como estadístico de prueba, la media crítica XCR . X CR = μ 0 ± z σ x

(16)

XCR 90 + 1,645 (2,5) = 94,11

90

306

94,11

Rechazar H0 si X es mayor que la media crítica. Como la media muestral 98 es mayor que X CR se rechaza H0 Desde luego, empleando cualquiera de los dos estadísticos de prueba lleva a la misma decisión.

4.2 Prueba de la proporción de la población Un gerente de comercialización sostiene que el 80% de los cliente de la empresa están conforme con un nuevo servicio que brinda la compañía. Una consultora entrevistó a 200 clientes y 148 de ellos están conformes con el servicio. Probar la hipótesis de que la proporción es menor con α = 0,01. 148 H0: p = 0,80

p=

= 0,74 200

H1: p 0,80 α = 0,01 - z crítico = - 2,33

z=

Rechazar H0 si z ≤ - 2,33

p −p p.q n -2,33

z=

0,74 − 0,80 = − 2,12 0,80(0,20) 200

Se acepta H0 ya que z > - 2,33.

307

0

4.3 Prueba para la diferencia de medias Esta prueba tiene como finalidad decidir si la diferencia entre dos medias obtenidas de muestras independientes es lo suficientemente grande que indiquen que las muestras se tomaron a partir de poblaciones distintas o si dicha diferencia es tan pequeña que se debe al azar. La H0 de interés no sólo se refiere a que las medias muestrales se obtuvieron de poblaciones con medias iguales, sino que las dos muestras se obtuvieron de la misma población. Esto significa que σ1 = σ2. Las hipótesis se plantean de la siguiente manera: H0: μ1 - μ2 = 0

ó

μ1 = μ2

H1: μ1 - μ2 ≠ 0

ó

μ1 ≠ μ2

El estadístico de prueba utilizando la puntuación z es:

( − ) − (μ1 − μ 2) z = x1 x 2 σD Como

μ1 - μ2 = 0 , entonces:

− z = x1 x 2 σD

(17)

D = x1 − x 2

Recordar que el error estándar de la diferencia de medias es:

σD = σ1 + σ2 n1 n2 2

2

Ejemplo: se desea probar si la duración promedio de las baterías marca A es igual a la duración promedio de las baterías marca B. Con este propósito se toman de 100 baterías de cada marca, cuyas medias son xA = 38 meses y xB= 35 meses. Las varianzas poblacionales son respectivamente σA2 = 36 meses y σB2 = 25 meses. Utilizar α = 0,05.

308

H0: μ1 = μ2 (no hay diferencias en las duraciones de ambas marcas). H1: μ1 ≠ μ2 (si existe diferencias entre las duraciones de A y B). La prueba es de dos colas. Con α =0,05, el valor crítico en 1,96.

Rechazar H0 si z ³ 1,96 ó z £ -1,96

-1,96

1,96

Aplicando el estadístico de prueba:

z=

38 − 35 3 3 = = 36 25 0,61 0,78 + 100 100

z = 3,85 Como z es > 3,84, se rechaza H0, las duraciones de A y B son distintas. El problema anterior se podría haber planteado como prueba de una cola si se deseaba probar que la duración de A es mayor que la de B. Entonces: H0 : μ1 = μ2

H1: μ1 > μ2

El valor crítico es 1,645. Como z > 1,645, se rechaza H0 y se concluye que la duración de las baterías A es mayor que B.

5. Error de tipo II. Curva Característica Operativa y Curva de Potencia de Contraste Ya se estableció que β es el error de tipo II, o sea la probabilidad de aceptar H0 cuando es falsa. En el problema del punto 4.1, la regla de decisión era:

309

Rechazar H0 si z ³ 1,645. Esta regla puede replantearse como: Aceptar H0 si z < 1,645. Para obtener β es necesario trabajar con la media crítica, o sea x CR = 94,11. Aceptar H0 si la media muestral es menor que 94,11. 1- α 0,95 90

94,11

0.06

1-α 0,94

94,11

98

β = P (x < 94,11 / μ = 98) z=

94,11− 98 = − 1,56 2,5

Area entre 0 y -1,56 = 0,4406 Area entre 0 y -∞ = 0,50 0,5 - 0,4406 = 0,0594 = 0,06 P (error de tipo II) =

0,06

por lo tanto 1 - β = 1 - 0,06 = 0,94 El valor 0,06 indica, entonces, la probabilidad de aceptar H0 cuando H1 es verdadera es decir μ = 98. El valor 0,94 significa la probabilidad de rechazar correctamente H0. El valor 1- β se denomina “potencia de contraste” o “potencia de prueba”. 310

Al mantener constantes el nivel de significación y el tamaño de muestra de la muestra, β disminuye a medida el valor de la media alternativa se aleja del valor de H0. Esta probabilidad aumenta al acercarse el valor alternativo al valor de H0. La probabilidad de aceptar H0 con diversos valores alternativos de la media verdadera se puede graficar mediante una curva denominada “de característica operativa” (CO). Para el ejemplo anterior, considérense los siguientes valores alternativos de 92; 95; 98 y 100.

92

z=

94,11− 92 = 0,84 2,5

94,11

Area entre 0 y 0,84 = 0,2995

β = P (x ≤ 94,11) = 0,50 + 0,2995 = 0,7995 = 0,80 1 - β = 1 - 0,80 = 0,20

94,11 z=

95

94,11− 95 = − 0,36 Area entre 0 y − 0,36 = 0,1406 2,5

β = P (x ≤ 94,11) = 0,50 - 0,1406 = 0,3594 = 0,36 1 - β = 1 - 0,36 = 0,64

311

94,11 z=

98

94,11− 98 = − 1,56 Area entre 0 y − 1,56 = 0,4406 2,5

β = P (x < 94,11) = 0,50 - 0,4406 = 0,0594 = 0,06 1 - β = 1 - 0,06 = 0,94

94,11 z=

100

94,11− 100 = − −2,36 Area entre 0 y − 2,36 = 0,4909 2,5

β = P (x < 94,11) = 0,5 - 0,4909 = 0,0091 = 0,01 1- β = 1- 0,01 = 0,99 Valor de μ 90 92 95 98 100

β= valor de CO 0,95 0,80 0,36 0,06 0,01

1- β = Potencia 0,05 0,20 0,64 0,94 0,99

β = Probabilidad de aceptación de H0 1 - β = Probabilidad de rechazo de H0. 312

La curva CO queda graficada de la siguiente forma: β 1.00

0.50

0 90

91

92

93

94

95

96

97

98

99

100 µ

Rechazar H0 cuando es falsa significa decidir correctamente un valor alto de 1- β de muestra que la prueba está funcionando bien (ya que se rechaza H0 cuando es falsa). Si 1 - β es bajo significa que la prueba no funciona bien, puesto que no está rechazando H0 cuando es falsa. El valor 1- β mide la eficacia de la prueba, es por ello que se denomina “potencia de contraste” o “poder de la prueba”. La curva de potencia de contraste muestra la probabilidad de rechazar H0 con distintos valores de la media verdadera. β 1-

90

92

95

313

98

100 µ

Valores críticos para los niveles de significación más utilizados

a z crítico (1 cola) z crítico (2 colas)

0,10

0,05

0,01

1,28 1,645

1,645 1,96

2,33 2,58

314

Actividad Nº 39 Ejercicios - Puntos 1 al 5 1) Contestar las siguientes preguntas: a) ¿Cuál es la finalidad de la prueba de hipótesis? b) ¿Qué diferencia hay entre un enfoque paramétrico y un enfoque no paramétrico? c) Explicar brevemente los pasos para el procedimiento de prueba de hipótesis. 2) Completar los siguientes conceptos: a) Cuando la prueba de hipótesis tiene una sola región de rechazo, se dice que la prueba es de...................................................... b) β expresa y el error de tipo ............................................. y significa ............................................................................................... c) En la prueba de diferencias entre dos medias, la hipótesis nula se plantea como H0: μ1 = μ2 , esto indica que μ1 - μ2 = ................ ............................................................................................... 3) El propietario de un cine sabe que una película de gran éxito se exhibirá un promedio de 84 días en cada ciudad, y la desviación estándar es de 10 días. El dueño quería comparar la popularidad de la película en su ciudad con la que alcanzó en otras ciudades del país. Seleccionó aleatoriamente 36 cines de la ciudad y descubrió que exhibieron la película un promedio de 81 días. a) probar las hipótesis para ver si el promedio de días de exhibición bajó, con un nivel de significación del 5%. Utilizar xCR y z. b) Obtener la probabilidad de cometer error de tipo II y la potencia de contraste. 4) Un fabricante de salsa de tomate está a punto de decidir si producir una marca nueva con más condimento. El departamento de

315

investigación aplicó una encuesta a 200 familias y averiguó que la salsa sería comparada por 120 de ellas. Un estudio hecho el año pasado reveló que el 55% de las familias comprarían la nueva marca. Con un nivel de significación del 1%, deberá la compañía concluir que hay un mayor interés en la nueva salsa condimentada? 5) Dos laboratorios de investigación han producido independientemente dos medicamentos que dan alivio a los que sufren artritis. El primer fármaco fue probado en un grupo de 90 enfermos, dando un promedio de 8,5 horas de alivio, con una desviación estándar de 1,8 horas. El segundo fue probado en 80 enfermos y produjo un promedio de 7,9 horas de alivio con una desviación estándar de 2,1 horas. Con un nivel de significación de 0,05, probar si hay diferencia en los dos medicamentos. 6) Dado los siguientes valores alternativos de m para el ejercicio 3: 84, 83, 81y 78. a) determinar los valores de β y 1 - β ; b) graficar las curvas de CO y de potencia de contraste.

316

6. Inferencia para muestras pequeñas. La Distribución “t” de Student 6.1 Introducción Hasta el momento se han manejado estimaciones de distribuciones normales donde la desviación típica de la población es conocida. No obstante, se presentan problemas de inferencia estadística para muestras pequeñas (n < 30) cuando σ es desconocida. Este caso fue resuelto a principios de siglo cuando W.S. Gosset, utilizando el seudónimo de “Student”, publicó una distribución teórica que lleva el nombre de Distribución t de Student.

6.2 Características

3

La distribución t se basa en la consideración de que la población a partir de la cual se obtiene la muestra es normal o aproximadamente normal. Se pueden mencionar las siguientes características:

Normal

t, n = 10 t, n = 2

- La distribución t es continua, acampanada y simétrica, pero a diferencia de la distribución normal tiene mayor variabilidad. La curva t está más extendida en la parte de las colas y es más achatada en el centro. - A medida que aumenta el tamaño de la muestra, la curva t se acerca a una curva normal. Cuando n tiende a infinito, la curva t se vuelve idéntica a la curva normal. En otras palabras, el estimador s se acerca a σ; si el n se acerca a N, s se acerca a σ y no existen diferencias entre t y z. 3. Caho, Lincoln: "Introducción a la Estadística". C.E.C.S.A. 317

- Mientras que z contiene sólo una variable aleatoria que es x, ya que n y σ son constantes, la razón t contiene dos variables aleatorias que son x y s, estas variables son independientes unas de las otras. En resumen, t tiene una media igual a 0 (cero) y una desviación típica generalmente mayor que 1. Esta desviación tiende a 1 cuando n tiende a infinito. Por lo tanto, mientras el valor z tiene solamente una distribución, el valor t tiene una familia de distribuciones, donde cada una tiene la misma media pero una desviación típica diferente que depende del valor n. El único parámetro de la distribución t es el número de grados de libertad (gl) que es igual a n-1. Entonces, la curva t está definida cuando está dado el tamaño de la muestra y en consecuencia el número de gl. (ver punto 6.7.).

6.3 Uso de la tabla Los valores críticos para probar hipótesis o efectuar estimaciones utilizando la distribución t se pueden obtener de la tabla del Anexo II. En los dos renglones superiores se consignan los valores de probabilidad que se utilizan con mayor frecuencia para realizar inferencias. En el renglón Q se encuentran las probabilidades iguales al área de la cola superior o de la cola inferior para los grados de libertad que deben utilizarse para las pruebas de una cola. En el renglón 2Q se encuentran las probabilidades iguales a la suma de ambas áreas (colas superior e inferior) que son utilizadas para pruebas de dos colas (y para las estimaciones de parámetros por intervalo). Los valores para los gl se listan en la primera columna. El valor resultante de la intersección del número de gl especificado y el valor de probabilidad establecido corresponde al valor crítico.

Ejemplo Nº 1: Obtener el valor crítico t para una prueba de una cola con n = 10 y α =0,05. El número de gl = n-1 o sea 9. Se utiliza el valor de Q = 0,05 (1 renglón) ya que es una prueba de un extremo tgl = tg = 1,833

Ejemplo Nº 2: Obtener el valor crítico t para una prueba de dos colas con n = 10 y α = 0,10 tgl = tg = 2,262. 318

Obsérvese que el valor de 0,10 en el renglón 2Q es equivalente al valor de 0,05 en el renglón Q.

Ejemplo Nº 3: Obtener los valores críticos t para cada uno de los siguientes casos. a) n = 15 α = 0,01 para prueba de una cola t14 = 2,624 b) n = 20 α = 0,05 para prueba de dos colas t19 = 2,093

6.4 Inferencia estadística utilizando la distribución t 6.4.1 Prueba para la media poblacional Si la muestra es pequeña, el valor de s puede desviarse mucho, si se utiliza la puntuación z hay una gran probabilidad de que se cometa un serio error. En este caso, corresponde usar el estadístico de prueba perteneciente a la distribución t.

t=

x −μ x −μ = Sx s/ n

(18)

El valor calculado se compara con el valor crítico t (tabla) y se toma la decisión.

Ejemplo Nº 1: Un fabricante de baterías para automóviles afirma que la duración promedio de las mismas es de 38 meses. Se toma una muestra de 16 baterías y se encuentra que la duración media es de 35 meses con un desvío típico de 6,2 meses. Probar la hipótesis con un nivel de significación del 5% de que la duración promedio de las baterías es menor que la establecida por el fabricante.

- Planteo de la hipótesis H0: μ = 38 meses H1: μ < 38 meses 319

Prueba de una cola. El valor crítico de t con α = 0,05 y con gl = 16-1 = 15 es igual a -1,753 (extremo izquierdo). -1,753 -t

- Regla de decisión Rechazar H0 si t ≤ α -1,753

- Estadístico de prueba

t=

35 − 38 = − 1,935 6,2 / 16

Como el valor -1,935 es menor al valor crítico, se rechaza H0 y se concluye que la duración de las baterías es menor.

Ejemplo Nº 2: Considerar el mismo ejercicio anterior, pero probar que la duración promedio es distinta a la especificada por el fabricante. - Planteo de hipótesis En este caso la prueba es de dos colas: H0: μ = 38 H1: μ ≠ 38 El valor crítico de t para 15 grados de libertad con α =0,50 es t15 = 2,131.

Regla de decisión Rechazar H0 si t ≥ 2,131 o t ≤ -2,131

-t -2,131

t 2,131

0 320

- Estadístico de prueba t = -1,935 En este caso, se acepta H0 ya que t es mayor que 2,131.

6.4.2 Estimación de la media poblacional El método de construir el intervalo de confianza para estimar μ es el mismo empleado para una distribución normal, excepto que se trabaja con valores de t en lugar de valores de z. El intervalo de confianza con 1 - α para estimar μ en base a la media de una muestra pequeña es:

x − t gl α / 2 s x ≤ μ ≤ x + t gl α / 2 s x

(19)

Ejemplo: El propietario de una librería desea estimar el importe medio de las cuentas por cobrar. Para tal fin selecciona una muestra de 12 fichas de clientes y se registran los siguientes saldos (en $). 180 90

240 170

150 350

320 270

215 100

80 240

Estimar m con un nivel de confianza del 99%. Se obtienen la media y el desvío típico.

x x= ∑ n

x = $ 200,42

( x − x )2 ∑ s= n −1

s = $ 88,17

t con 11 grados de libertad es t11,0,01 = 3,106

x ± tgl

a/2

. Sx

200,42 ± 3,106

121,27 ≤ μ ≤ 279,57

321

88,17 = $ 121,27 a $ 279,57 12

6.4.3 Prueba de la diferencia entre dos medias a)Muestras independientes Dos muestras son independientes cuando las observaciones de una no están relacionadas con las observaciones de las otras. Al probar la hipótesis debe suponerse que las varianzas de las dos poblaciones son idénticas o sea σ12 = σ22, es decir la varianza de la diferencia de medias es: σD2

⎛1 1⎞ σ12 + σ12 = + σ12 = ⎜⎜ + ⎟⎟ n1 n2 ⎝ n1 n2 ⎠

(20)

Para obtener la varianza de la diferencia de medias, es necesario estimar. Por lo tanto:

⎛1 1⎞ SD2 = S 2 ⎜⎜ + ⎟⎟ (21) ⎝ n1 n2 ⎠ El estimador S2 se obtiene de la siguiente manera:

S = 2

(n1 − 1)S2 + (n2 − 1) S22 n1 + n2 − 2

(22)

Por lo tanto, el error estándar de la diferencia de dos medias muestrales se obtiene sustituyendo la ecuación (21) por la siguiente:

SD =

(n1 − 1) S2 + (n2 − 1)S22 . ⎛⎜ 1 + n1 + n2 − 2

⎜n ⎝ 1

El estadístico de prueba utilizado es:

− t = x1 x 2 SD

322

(24)

1⎞ ⎟ n2 ⎟⎠

(23)

Ejemplo: una fábrica produce dos marcas distintas de tubos fluorescente A y B. De cada marca se toma una muestra de 15 unidades y se calcula la duración media y la varianza muestral de cada una los resultados son:

Muestra Duración media Varianza

Marca A

Marca B

n1 = 15 x1 = 1.600 hs. S21 = 14.4000 hs.

n2 = 15 x2 = 1.570 hs. S22 = 12.100 hs

Probar la hipótesis de que no hay diferencias entre las duraciones de ambas marcas con α = 0,05. Se trata de una prueba de dos colas, entonces: H0: μ1 = μ2 (no hay diferencias entre las duraciones de A y B) H1: μ1 ≠ μ2 (si hay diferencias entre las duraciones de A y B) El número de grados de libertad es n1 + n2 - 2, es decir: 15 + 15 - 2 = 28 t26,0,05

= 2,048

Rechazar H0 si t ³ 2,048 ó t £ -2,048

-2,048

2,048

Empleando el estadístico de prueba:

323

t=

1600 − 1570

(15 − 1).14.400 + (15 − 1).12 .100 ⎛

1 1⎞ ⎜ + ⎟ ⎝ 15 15 ⎠

14 + 14 − 2

=

30 = 0,714 42,03

t < 2,048 es decir que la diferencia entre las duraciones de A y B no es significativa, por lo tanto se acepta H0. Dicha diferencia es debida al azar.

b) Muestras dependientes En muchos casos, las observaciones se muestran por pares donde cada observación de una muestra se relaciona con una observación de la otra muestra, por lo tanto se dice que las muestras son dependientes. El procedimiento para probar hipótesis de diferencias de dos medias de muestras dependientes requiere los siguientes datos: 1') D: que es la diferencia entre dos observaciones entre cada par coincidente. 2') D: media de D para n, observaciones:

D D= ∑ n 3') El desvío típico de D:

D2 ∑ SD = − D2 n

4') El error estándar de D: SD =

SD n −1

(27)

5') El estadístico de prueba:

t=

D SD

324

(28)

(26)

(25)

Ejemplo: Diez trabajadores de una fábrica son entrenados con un nuevo método de trabajo. Se desea saber si con dicho entrenamiento la productividad ha aumentado. A continuación se muestran las producciones (en unidades) de cada uno del entrenamiento. Trabajador

Después (L)

1 2 3 4 5 6 7 8 9 10

85 92 94 88 82 95 94 82 85 89

Antes (A)

D=L-A

D2

5 2 -1 8 3 7 4 -5 -1 5

25 4 1 64 9 49 16 25 1 25

80 90 95 80 79 88 90 87 86 84

Σ = 27 Σ = 219

D=

27 = 2,7 10

SD =

SD =

3,82 = 1,273 10 − 1

219 − (2,7 )2 = 3,82 10

error estándar

H0: μ1 = μ2 (no hay diferencia entre la productividad antes y después del entrenamiento). H1: μ1 > μ2 (el entrenamiento ha aumentado la productividad) Si se prueba con α = 0,01, el valor crítico es: t9,0,01 = 2,821 Rechazar H0 si t ≥ 2,821: t=

2,7 = 2,12 1,273

Se acepta H0, el entrenamiento no aumentó la productividad de los trabajadores. 325

6.4.4 Estimación de la diferencia de dos medias muestrales El intervalo de confianza (1- α) para estimar la diferencia entre dos medias muestrales se obtiene: D − t gl α / 2 SD ≤ δ ≤ D + t gl α / 2 SD

(29)

Ejemplo Nº 1: Considerar el problema de muestras independientes del punto 4-3 (a). Estimar d con el 95% de confianza. D ± tgl,

a/2

SD

30 ± 2,048 (42,03) = – 56,1 a 116,1 Como el límite inferior es negativo se considera 0, por lo tanto,

0

≤ δ

≤ 116.1

Ejemplo Nº 2: Considerar el problema de muestras dependientes del punto 4.3.(b). Estimar δ con el 99% de confianza. 2,7 ± 3,250 (1,273) = -1,4 a 6,8

0 ≤ δ

≤ 6,8

6.5 Grados de libertad 4 Los grados de libertad se refiere al número de valores que puede variar libremente en un conjunto de datos bajo ciertas condiciones. Por ejemplo, la suma de 4 valores de como resultado 15. a + b + c + d = 15 Si a = 4; b = 6; c = 3, el valor de d queda determinado automáticamente, ya que: 4 + 6 + 3 + d = 15 d = 15 - 13 = 2 4. Shao, Stephen - op. cit. 326

El número de valores que puede variar libremente en el conjunto es 2. Por lo tanto, si hay n elementos y la suma de ellos es un valor fijo, el número de grados de libertad es igual a n-1. Cuando se estudió la varianza muestral como estimador de la varianza poblacional, se determinó que en la fórmula, la suma del cuadrado de las desviaciones Σ ( x -x)2 se divide entre el tamaño de la muestra menos 1. Dados los siguientes valores x1, x2, x3, x4 y x5 cuya x = 8. Libremente asignamos valores para x1, x2, x3 y x4: x1 = 10 ;

x2 = 6

;

x32 = 9 ; x4 = 7

El valor de la varianza queda determinada automáticamente, ya que el quinto valor es fijo. (x - x) = 0

(10-8) + (6-8) + (9-8) + (7-8) + (x5 -8) = 0 2

+

x5 =

(-2) +

1

+

(-1) + (x5 -8) = 0

8

En el cálculo de la varianza interesa las desviaciones de n-1 elementos, o sea:

(x − x ) S =∑

2

2

n −1

S

2

( 10 − 8 )2 + (6 − 8 )2 + (9 − 8 )2 + (7 − 8 )2 + (8 − 8 )2 = 4

S2 = 2,5

327

Actividad Nº 40 Ejercicios del punto 6 1) Contestar las siguientes preguntas: a) ¿Cuál es la utilidad de la distribución t? b) ¿Cuáles son las semejanzas y diferencias entre la distribución normal y una distribución t? 2) El jefe de personal de una compañía afirma que el promedio de horas trabajadas en una semana por los trabajadores administrativos es de 23 horas. Al tomar al azar 10 tarjetas reloj las horas extras registradas durante una semana en cada una eran:

Tarjeta

A

Horas extras 18

B

C

D

E

F

G

H

I

J

22 20 15 24 18 19 21 22 20

Probar la hipótesis del jefe de personal con un nivel de significación del 5%. 3) Con los datos del problema anterior, determinar el intervalo de confianza del 95% para estimar μ . 4) Dos máquinas producen pernos idénticos. Las longitudes tienen la misma varianza, pero se sospecha que la longitud promedio de los pernos de la máquina I no es igual a los de los fabricados por la máquina II. Se toman dos muestras independientes y se obtienen los siguientes datos:

Máquina I

Máquina II

Tamaño de la muestra

n1 = 8

n2 = 10

Promedio muestral (en pulgadas)

x1 = 2,6

x2 = 2,5

328

S21 = 0,0054

Varianza muestral

S22 = 0,0046

a) Indicar los datos que existe una diferencia significativa entre las dos medias con α = 0,01. b) Obtener el intervalo de confianza del 99% para la verdadera diferencia de las dos medias poblacionales. 5) Se desea determinar si un grupo de 10 estudiantes puede desempeñarse bien en Matemática y en Física. Las calificaciones de una evaluación de la siguiente nómina no son independientes.

Estudiante

A

Matemática

84 55 85 98 80 55 80 64 91 85

Física

84 57 90 97 74 53 75 63 90 82

B

C

D

E

F

G

H

I

J

a) Probar la hipótesis de que la puntuación media en Matemática es la misma que en Física contra la hipótesis alternativa de que son diferentes con el α = 0,005. b) Determinar el intervalo de confianza del 95% para la verdadera diferencia de las medias.

329

Respuestas a los ejercicios de la Unidad IX Puntos 1 al 5 1) Consultar el marco teórico del módulo y de la bibliografía 2) a) una cola b) error de tipo II y significa la probabilidad de aceptar H siendo falsa. c) No hay diferencia entre las medias. 3) a) Z = - 1,8 b) β = 0,43

X CR = 81,3 Rechazar H

(Test de 1 cola)

1 - β = 0,57

4) Z = 1,44

Aceptar H0

(Test de 1 cola)

5) Z = 1,99

Aceptar H0

(Test de 2 colas)

6) Valores alternativos de β C 1-β Potencia

μ1 84 0,95 0,05

83 0,85 0,15

81 0,43 0,57

78 0,02 0,98

Punto 6 1) Consultar el marco teórico del módulo y de la bibliografía. 2) t = - 3,8

Rechazar H0

(Test de 1 cola)

3) 18,1 ≤ μ ≤ 21,7 4) a) t = 3,03 Rechazar H b) 0,003 ≤ μ ≤ 0,197 5) a) t = 1,19 Aceptar H b) -1,08 ≤ μ ≤ 3,48

o

0 ≤ μ ≤ 3,48 330

CARACTERÍSTICAS

CHI CUADRADO

331

DE INDEPENDENCIA

- PRUEBA DE LA VARIANZA POBLACIONAL

- PRUEBA DE HOMOGENEIDAD

- TEST

- BONDAD DE AJUSTE

APLICACIONES

Diagrama de Contenidos Unidad X

332

UNIDAD X LA DISTRIBUCIÓN JI CUADRADA (χ2) 1. Características de la distribución La función de densidad de probabilidad para ji cuadrada se representa matemáticamente con la siguientes ecuación: f (X2) = (k) (χ2)

(gl / 2) -1

(e-X2/2)

(30)

donde k depende sólo de gl, es decir de los grados de libertad, χ2 es ji cuadrada, y es la base de los logaritmos naturales. No se tratará el desarrollo de la ecuación anterior, sino que se hará referencia a las características de χ2 que permitirán su aplicación para la inferencia estadística. Estas características son las siguientes:

1') χ2 es una variable aleatoria que no puede asumir valores negativos. 2') La distribución χ2 tiene un sólo parámetro: los grados de libertad (gl). 3') La distribución χ 2 es continua y unimodal. Al igual que z y t, el área bajo la curva χ2 representa probabilidades. 4') La distribución χ2 tiene sesgo a la derecha. A medida que aumenta gl, el sesgo es menor, y se aproxima a una distribución normal. 5') La media de χ2 está dada por los grados de libertad, E (χ 2) = gl. La varianza es el doble de los grados de libertad, Var (χ2) = 2 gl. 6') La ecuación representa una familia de distribuciones. Hay una distribución diferente para cada grado de libertad. 2

0.60

f (x )

0.50 0.40

R=1

0.30

R= 5

0.20

R = 10

0.10 0 2

4

6

8

10

333

12

14

16

x

2

2. Uso de las tablas de χ2 Ya se estableció que la curva χ2 representa probabilidades. Para cada posible valor de gl puede construirse una tabla de probabilidades. No obstante, puede utilizarse la tabla χ2. La tabla del Anexo III muestra los valores críticos χ2 que se denota por χ2(gl,a). El subíndice tiene dos números, gl indica los grados de libertad y a indica el porcentaje cortado bajo la cola superior de la distribución. Las probabilidades más comúnmente utilizadas se consignan en el encabezamiento de la tabla, siendo representadas por el área de la cola superior de la curva. En la columna izquierda se muestran los grados de libertad. El valor por una gl y para una probabilidad dada constituye el valor crítico χ2 que corta la cola superior (o lado derecho) bajo la curva. Por ejemplo el valor χ2 que corta el 5% de la distribución con 8 grados de libertad es: χ2(8,0,05) = 15,507

5%

5%

15,507

El gráfico también muestra el valor que corta el 5% inferior del área bajo la curva (o el 95% superior de la distribución) con 8 grados de libertad. χ2(8,0,95) = 2,732

3. Aplicaciones de χ2 Existen problemas donde deben realizarse inferencias acerca de la distribución de toda una población en base a observaciones muestrales donde las hipótesis de las pruebas no son aseveraciones acerca del parámetro de una población, sino verificar hipótesis tales como “una moneda es 334

regular” o “las variables desempeño e instrucción son independientes”. Los datos son categorizados y los resultados se muestran en forma de conteo. Por ejemplo, los salarios de los empleados de una compañía representados a través de una tabla de frecuencias. Cada frecuencia se anota en una celda o clase. Las frecuencias observadas de la muestra se denotan por f01 f02, ....f0n. La suma de todas las frecuencias observadas es igual al tamaño de la muestra, o sea: f01 + f02 + .... + f0n = n Estos valores observados, se comparan con frecuencias esperadas o teóricas fe1, fe2 + ... + fen que se obtienen de distribuciones teóricas específicas, también en este caso: fe1 + fe2 + .... + fen = n La prueba consiste en determinar si las frecuencias observadas concuerdan o discrepan con las esperadas. El estadístico de prueba es:

χ =∑ 2

(f0 . fe )2 fe

(31)

El numerador es la diferencia al cuadrado, la cual sólo puede tomar valores positivos. Mientras menor sea la diferencia, menor será el valor de χ2. Los valores pequeños de χ2 indican concordancia, mientras que los valores grandes indican discrepancia, entre los dos conjuntos frecuencias. Debe observarse que es común que estas pruebas son de una sola cola. Los valores calculados del estadístico de prueba χ2 se basan en datos discretos, pero la distribución χ2 es continua. Si las fe son grandes, la distribución del estadístico de prueba puede aproximarse a la distribución de χ2. Una regla práctica es que la fe para cada clase debe ser por lo menos 5. Las categorías que no cumplen este criterio deben combinarse con otras adyacentes cuando sea posible. El estadístico de prueba (31) se utiliza para las pruebas de bondad de ajuste, de independencia y de homogeneidad. La distribución χ2 también se utiliza para probar el valor de un parámetro, como es “la prueba de la varianza”. (punto 3.4.) 335

3.1 Prueba para la bondad de ajuste En esta prueba, H0 especifica una distribución uniforme (todos los valores posibles de una variable aleatoria son igualmente probables), binomial, Poisson, etc. Se elige una muestra y se prueba si la distribución muestral sigue a la distribución teórica especificada en H0. La hipótesis alternativa afirma que la muestra no ha sido tomada de la distribución específica. La prueba implica n observaciones que se clasifican en k clases o categorías, donde en cada celda se anotan las frecuencias observadas que se comparan con las esperadas a través de los cálculos, utilizando el estadístico de prueba de χ2. El valor que se requiere de la estadística χ2 para rechazar o aceptar H0 depende del nivel de significación y de los grados de libertad (gl). Para la prueba de bondad de ajuste, los grados de libertad son iguales al número de categorías o clases menos 1, es decir: gl = k - 1

(32)

Si el valor del estadístico de prueba es mayor o igual al valor crítico se dice que el ajuste es malo y se rechaza H0. Si el valor χ2 es pequeño, se dice que el ajuste es bueno y se acepta H0.

Ejemplo: Una empresa dedicada a estudios de mercados está interesada en las preferencias de las amas de casa de 4 zonas de la ciudad respecto a una marca de arroz. Selecciona una muestra al azar de 200 amas de casas con los siguientes resultados: ZONA

A

B

C

D

TOTAL

Preferencias (f0)

35

43

64

58

200

Estas preferencias constituyen las frecuencias observadas. Bajo la hipótesis de que pA = pB = pC = pD todas estas probabilidades son iguales a 1/4. Entonces las frecuencias esperadas son cada una igual a 50 (1/4.200).

336

Planteando las hipótesis: H0: Las preferencias están distribuidas de manera uniforme en las cuatro zonas. H1: Las preferencias no están distribuidas de manera uniforme en las cuatro zonas. Las categorías son 4, por lo tanto los grados de libertad son 3, ya que: k=4

gl = 4 - 1 = 3

gl = k - 1

Utilizando un nivel de significación del 5%, el valor crítico con 3 grados de libertad es: χ2(3,0,05) = 7,814

7,814

Rechazar H0 si χ2 es mayor o igual a 7,814. Los cálculos para obtener χ2 se muestran a continuación:

Zona

f0

fe

f0-f e

(f 0-f e) 2

f0-fe)2/ fe

A B C D

35 43 64 58

50 50 50 50

-15 -7 14 8

225 49 196 64

4,5 0,98 3,92 1,28 10,68

χ =∑ 2

(f0 . fe )2 = 10,68 fe

337

Como χ2 es mayor que 7,814, se rechaza H0 es decir no hay uniformidad en las preferencias en las 4 zonas. En el cálculo de las frecuencias teóricas, puede haber restricciones adicionales. Si la media de la muestra X se utiliza para estimar μ para obtener las frecuencias esperadas, esta restricción reduce el número de grados de libertad en 1. En general, si hay m estimaciones muestrales utilizadas para m parámetros desconocidos en el cálculo de frecuencias teóricas, el número de grados de libertad está aún más reducido por m, es decir: gl = k - 1 - m

(33)

Ejemplo: una consultora desea demostrar que la distribución de los índices de accidentes de trabajo en empresas industriales es normal. Selecciona una muestra de 50 establecimientos y la distribución de índices se muestra en la siguiente tabla de frecuencias. Indices 1 - 1,5 1,5 - 2,0 2,0 - 2,5 2,5 - 3,0 3,0 - 3,5

frecuencias observadas (9) 6 10 18 9 7 50

Se calculan la media y el desvío típico a través de las fórmulas estudiadas en el módulo 3.

xf X= ∑ n

X = 2,3

(x − x ) f S= ∑ 2

n −1

S = 0,60

- Planteo de hipótesis H0: la distribución de frecuencias tiene distribución normal. H1: la distribución de frecuencias no sigue una distribución normal.

338

- El número de clases está dado por el número de intervalos, o sea k = 5. - Cálculo de las frecuencias esperadas. Como se desconocen μ y σ, se utilizarán x como estimación puntual de μ y S como estimación de σ. En primer lugar se debe encontrar la probabilidad de un valor de x dentro de los intervalos de clase. Como la normal es una distribución de una variable continua que puede tomar valores de -∞ a +∞, P(x < 1,0) y P(x > 3,5) no son igual a 0. Debido a que ΣP0 = ΣPe = n, no pueden ignorarse las colas de la curva. Por lo tanto, las clases pueden definirse de la siguiente manera: Menos 1,5 2,0 2,5 3,0 y

de 1,5 2,0 2,5 3,0 más

Los límites de clase se transforman a valores de z y se utiliza la para calcular las frecuencias teóricas.

Desv.est.normal Li

Ls

-∞ 1,5 2,0 2,5 3,0

1,5 2,0 2,5 3,0



ZLi

Area de clase ZLs

-∞ -1,33 -1,33 -0,5 -0,5 0,33 0,33 1,17 1,17 ∞

P(ZLi ≤ z ≤ Zls)

Frec. esp. 50 (Area de Clase)

0,0918 0,2167 0,3208 0,2497 0,121

4,6 10,8 16,0 12,5 6,1

1,0000

50,0

* Li = Límite inferior

Ls = Límite superior

* ZLi y ZLs son las desviaciones estándares normales. ZL i =

L i − 2,3 0,6

ZL s = 339

L s − 2,3 0,6

Por ej. ZLs en la primera clase ZL s =

1,5 − 2,3 = − 1,33 0,6

* P (ZLi ≤ Z ≤ ZLs) representa el área de la clase. Por ejemplo la probabilidad para el área de la primera clase.

-1,33

0

Area entre 0 y -1,33 = 0,4082 — según tabla 4 Area entre -∞ y 1,33 = 0,5 - 0,4082 = 0,0918 P (-∞ ≤ z ≤ 1,5) = 0,0918 * Las frecuencias teóricas se obtienen multiplicando n por el área de la clase. n . P (ZLi ≤ Z ≤ ZLs) La frecuencia esperada de la 1º clase es: 50 (0,0918) = 4,59 = 4,6

- Grados de libertad. Recordar que: gl = k - 1 - m k = es el número de clases m = es el número de parámetros a estimar

340

En nuestro ejemplo: k=5 m = 2, ya que son dos los parámetros desconocidos a estimar μ y σ. Por lo tanto: gl = 5 - 1 - 2 = 2 grados de libertad.

- Determinación del nivel de significación ( α ) Para esta prueba α = 0,05

- Valor crítico Para X22,0,05 = 5,991

- Regla de decisión Rechazar H0 si X2 ≥ 5,991 Aceptar H0 si X2 ≤ 5,991

- Cálculo de X2 Frecuencias

Frecuencias

Observadas (f0 )

Esperadas (fe )

6 10 18 9 7

4,6 10,8 16,0 12,5 6,1

50

50,0

f0 − fe2 fe (f0 -fe ) 2 1,96 0,64 4 ,00 12,25 0,81

0,426 0,059 0,25 0,98 0,133 1,848

X2 = 1,848

341

Como X2 es menor que el valor crítico, se acepta H0, lo que indica que la distribución de frecuencias sigue una distribución normal. Considérese el siguiente problema. Un estudio sobre la propiedad de parcelas de tierra es una zona durante un período de 10 años proporcionó la siguiente información. Cuando una parcela cambia de dueño debido a un juicio hipotecario o abandono se clasifica como “traspaso”. Una muestra de 50 parcelas aportó los siguientes datos. Número de Traspasos (x) 0

1

2

3

4

5

6

7

8

9

Número de Parcelas (f0)

9

11 8

7

4

2

2

1

0 = 50

6

Se plantea la hipótesis de que la distribución de traspasos se ajusta a una distribución de Poisson. - En primer lugar se determinará el valor de l para probar la hipótesis.

X=

x . f0 137 = = 2,74 n 50

x = λ = 2,7

- Luego, se obtendrán las frecuencias esperadas con base a la distribución de Poisson con λ = 1,8.

Número de Traspasos (x) 0 1 2 3 4 5 6 7 8 9

P (x) con λ =2,7 (tabla 3) 0,0672 0,1815 0,2450 0,2205 0,1488 0,0804 0,0362 0,0139 0,0047 0,0014

Frecuencias e

s

p

e

r

a

d

n.P (x) 3,4 9,1 12,3 11,0 7,4 4,0 1,8 0,7 0,2 0,1 50,0

342

a

s

(

f

)

e

(*) Diferencia por redondeo de datos. - Con la información obtenida se plantean las hipótesis: H0: La distribución de traspasos se ajusta a una distribución de Poisson. H1: La distribución no se ajusta a la distribución de Poisson.

X 0 1 2 3 4 5 6 7 8 9

f0 6 9 11 8 7 4 2 2 1 0

f0 − fe2 fe

fe

15

3,4 9,1 12,3 11,0 7,4 4,0 1,8 0,7 0,2 0,1

9

12.5

0,5 0,001 0,137 0,818 0,022

6,8 0,712

2,189 X2 = 2,189 Obsérvese que para cumplir el requisito de que cada fe sea de cuando menos 5, se combinaron las dos primeras y las cinco últimas categorías por lo que K = 5 Como se estima el parámetro

en base a una muestra, gl = 3, ya que:

gl = k - m - 1 gl = 5 - 1 - 1 =

3

- Si se utiliza un nivel de significación del 1%, el valor crítico es X23,0,01 = 11,3449. Como la regla de decisión es:

343

Rechazar H0 si X2 > 11,3449 Aceptar H0 si X2 < 11,3449 Se acepta H0, por lo tanto la distribución de traspasos de las parcelas se ajusta a una variable con distribución de Poisson.

344

Actividad Nº 41 Ejercicios del punto 1 1) El número de accidentes fatales en una ruta durante una semana se distribuye de la siguiente forma:

Día

D

L

M

M

J

V

S

Nº de accidentes

28 12 10 7

8

11 24

Probar la hipótesis de que tanto, el sábado como el domingo tiene el 25% y cada uno de los otros 5 días el 10% de todos los accidentes fatales con α = 0,025. 2) Un fabricante de heladeras ofrece tres líneas básicas de su producto que pueden describirse en términos comparativos de su precio como “bajo”, “intermedio” y “alto”. Antes de llevar a cabo una campaña de promoción para resaltar las virtudes de las heladeras de precio alto, los porcentajes de ventas de las 3 categorías eran de 45%, 30% y 25%. De una muestra aleatoria de 50 heladeras que se vendieron después de la promoción, el número de productos que se vendieron en cada categoría fue 15, 15 y 20. Probar la H0 de que el patrón histórico de ventas no difiere del patrón histórico, utilizando el 5% como nivel de significación. 3) Se desea probar si la distribución de jornales de operarios de una industria es normal. Una distribución de frecuencias de jornales de 40 operarios, elegidos aleatoriamente, es la siguiente:

Jornales ($) 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60

Nº de operarios 6 10 14 7 3 40

Utilizar con α = 0,01 para probar la hipótesis.

345

3.2 Test de Independencia En los tests de independencia existen dos variables categóricas y la prueba consiste en suponer que ambas variables son estadísticamente independientes. La independencia implica saber que la categoría en la que se clasifica una observación con respecto a una variable, no tiene ningún efecto sobre la probabilidad de caer también en alguna de las diversas categorías de las otras variables5. Dicho de otra manera, el problema es determinar si existe alguna relación entre dos conjuntos de atributos de una población. La prueba X2 de independencia tiene una metodología parecida a la prueba de bondad de ajuste. La misma se explicará con el siguiente problema. En una empresa se desea conocer si hay alguna relación entre la asistencia de los empleados y el sexo. La asistencia se clasifica en “satisfactoria” (S) y “no satisfactoria” (NS). Para la prueba se toma una muestra de 100 empleados. 1') Planteo de Hipótesis H0: Sexo y Asistencia son variables independientes. H1: Sexo y Asistencia son variables dependientes. 2') Las frecuencias observadas de la muestra se anotan en una tabla de contingencia (o de clasificación doble) de dimensión r . k, donde: r = el número de renglones. k = el número de columnas.

Sexo Asistencia

V

M

Total

S NS

45 15

25 15

70 30

Total

60

40

100

5. Kazmier, Leonard: "Estadística Aplicada a la Economía y Administración". Ed. Mc. Gral. Hill. 346

La tabla tiene dos categorías de renglón (V y M) y dos de columnas (S y NS), por lo tanto es una tabla de 2 x 2. 3') Las f0 deben compararse con las frecuencias esperadas. La fe de cada celda de la tabla debe ser proporcional al total de f0 es la frecuencia total del renglón y fk es la frecuencia total de la columna, la frecuencia esperada se determina como:

f0 = ∑

fr . ∑ fk n

(33)

La tabla de frecuencias esperadas para el problema del ejemplo queda confeccionada así:

Sexo Asistencia

V

M

Total

S NS

42 18

28 12

70 30

Total

60

40

100

La fe de la primera celda (S y V) se obtiene:

fe =

(60)(70 ) = 42 100

4') Los grados de libertad para la prueba de independencia se determinan por la siguiente fórmula: gl = (r - 1) (k - 1)

(34)

Para este problema r = 2 y k = 2 gl = (2-1) . (2-1) = 1 5') Si se usa a = 0,05, el valor crítico es: X2(1,0,05) = 3,841, por lo tanto la regla de decisión es:

347

Rechazar H0 si X2 ≥ 3,841 Aceptar H0 si X2 < 3,841 6') El estadístico de prueba es el mismo que se utilizó para la bondad de ajuste o sea: X =∑ 2

(f0 − fe )2 fe

En este caso, se eleva el cuadrado la diferencia entre f0 y fe de cada celda y se divide entre la fe de dicha celda.

X

2

( 45 − 42 )2 (25 − 28 )2 (15 − 18 )2 (15 − 12 )2 = + + + = 1,789 42

28

18

12

X2 = 1,786 es menor que el valor crítico. Se aceptar H0 y se demuestra que la asistencia y el sexo son independientes, es decir no hay ninguna relación.

3.3 Prueba de Homogeneidad Esta prueba para X2 es una extensión del test de independencia donde también se trabaja con datos clasificados cruzadamente y se utiliza el mismo estadístico de prueba. Las diferencias entre ambas pruebas son las siguientes: 1) Las pruebas de independencia tienen como objetivo decidir si dos variables son independientes, mientras que las pruebas de homogeneidad se aplican cuando se desea saber si diferentes muestras provienen de la misma población. 2) El test de independencia supone una sola muestra obtenida de una sola población; la prueba de homogeneidad suponen dos o más muestras independientes, donde cada una procede de cada una de las poblaciones distintas bajo estudio. 3) El aspecto anterior implica que en la prueba de independencia, todas las frecuencias marginales son cantidades al azar, mientras que en el criterio de homogeneidad, los totales de los renglones (o filas) son tamaños de muestras que son números elegidos.

348

Considérese el siguiente problema. Los técnicos de un establecimiento que fabrica fiambres y embutidos deben decidir la adopción de un nuevo proceso para elaborar jamón cocido tipo A. Eligen 200 piezas obtenidas mediante le proceso nuevo y 200 mediante el proceso tradicional. Los resultados son:

Piezas Proceso

(1) Defectuosos

(2) Buenas

Total

Nuevo (a) Tradicional (b)

22 36

178 164

200 200

Total

58

342

400

La hipótesis nula puede plantearse como que las dos muestras proceden de la misma población, es decir que las dos clasificaciones son homogéneas en lo que respecta al estado de las piezas. Esto significa que no hay diferencia entre los dos métodos. S se define: p1a: probabilidad p2a: probabilidad p1b: probabilidad p2b: probabilidad

de de de de

nuevo y defectuoso nuevo y buena tradicional y defectuosa tradicional y buena.

p1a = p1b H0 p2a = p2b Con la expresión alternativa de H0 se puede determinar porque se denomina homogeneidad. Al decir homogéneas se entiende que las cosas son iguales o tiene algo en común. Ahora, se estiman las proporciones de defectuosas y buenas, es decir: 58/400 y 342/400. Las frecuencias esperadas, por ejemplo, para el método nuevo son: 349

(7)

58/400 (200) = 29

342/400 (200) = 171

Las frecuencias esperadas se muestran en el siguiente cuadro:

Piezas Proceso

Defectuosos

Buenas

Total

Nuevo (a) Tradicional (b)

29 29

171 171

200 200

Total

58

342

400

En resumen: p1a = p1b H0

Los métodos son iguales p2a = p2b

H1: alguna igualdad no se cumple. Los métodos son diferentes. Los grados de libertad son: gl: (r-1) (k-1) gl: (2-1) (2-1) = 1 Si α = 0,01, entonces el valor crítico de X2 = 6,634, por lo tanto: Rechazar H0 si X2 ≥ 6,634 Aceptar H0 si X2 < 6,634 Aplicando el estadístico de prueba:

X = 2



(f0 − fe )2 fe

7. fe = Σ fr Σ fk/n

350

X

2

( 22 − 29 )2 (178 − 171)2 (36 − 29 )2 (164 − 171)2 = + + + = 3,952 29

171

29

X2 = 3,952 Se acepta H0.

351

171

Actividad Nº 42 Ejercicios del punto 2 1) Un centro Comercial tiene 5 divisiones. De una muestra aleatoria de 500 clientes se obtuvo la siguiente clasificación doble:

DIVISION DE COMPRAS Tipo de Pago

Ropa y Comes- ElectroBazar Juguetes Total Calzado tibles doméstico

Contado efectivo

10

15

5

5

15

50

Contado Cheque

20

15

5

15

5

60

Tarjeta de crédito

70

75

25

20

50

240

Cuenta Corriente

50

45

15

10

30

150

Total

150

150

10

50

100

500

Con un nivel de significación del 0,05, son tipo de pago y tipo de compra independientes? 2) Se eligen 3 muestras aleatorias de docentes de los 3 nivel. La primera contiene 300 docentes de nivel primario; la segunda contiene 200 de nivel medio, y la tercera, 100 de nivel superior. A cada docente se le pide una opinión sobre la reforma educativa y las opciones son “a favor” y “en contra” “muestral”.

352

Docentes

A Favor

Neutral

En Contra

Total

Nivel Primario Nivel Medio Nivel Superior

182 68 32

85 60 53

33 72 15

300 200 100

Total

282

198

120

600

Probar con un nivel de significación del 0,05, si hay uniformidad en las opiniones.

3.4 Prueba de una varianza de la población Para una población con distribución normal, el estadístico de prueba

X

2

( n − 1) S 2 = σ2

(36)

se distribuye como X2 con (n-1) grados de libertad. Como n y σ2 son constantes, la distribución muestral de S2 está asociada con distribución X2 cercanamente. A partir de S2, puede probarse la hipótesis para una varianza poblacional aplicando ji cuadrada. La prueba puede ser de una cola o de dos colas y las hipótesis pueden plantearse

ó

H0: σ2 = σ02

ó H0: σ2 = σ02

H1: σ2 > σ02

H1: σ2 ≠ σ02

H1: σ2 < σ02

Desde luego, H0 puede también ser una hipótesis inexacta como H0: σ2 ≥ σ02 o H0: σ2 ≤ σ02 .

353

Dado un nivel de significación (α) y especificando los grados de libertad se puede tomar la decisión comparando el valor del estadístico de prueba con el valor crítico.

Ejemplo: los salarios de los empleados de una compañía se distribuye normalmente. Se afirma que la desviación típica de la población no es superior a $100. Una muestra de 15 salarios dio como resultado una media de $670 y un desvío típico (S) de $125. Probar la hipótesis con α = 0,05 de que σ2 es mayor que σ02 H0: σ2 ≤ 10.000

H1: σ2 > 10.000

gl = 15 -1 = 14 X214,0,05 = 23,68

23,684

Rechazar H0 si X2 ≥ 23,684 Aceptar H0 si X2 < 23,684

X2 =

14 (15.625 ) = 21,875 10.000

Se acepta H0. Considérese el problema anterior suponiendo que la varianza poblacional es igual a 100 y se desea probar que σ2 es distinto de 100. En este caso se plantea una hipótesis de dos colas. H0: σ2 = 100

H1: σ2 ≠ 100

Para α = 0,05 y gl = 14, los valores críticos son: X214,0,025 = 26,118

y

X214,0,975= 5,628

354

10%

26,118

Rechazar H0 si X2 ≥ 26,118 o X2 ≤ 5,628.

X2 =

14 (15.625 ) = 21,875 10.000

Se acepta H0.

Construcción del intervalo de confianza para estimar El estadígrafo S2 es un buen estimador de σ2 , por lo tanto el intervalo de confianza (1- α) para estimar σ2 se obtiene:

(n − 1)S 2 ≤ σ 2 ≤ (n − 1)S 2 X 2gl,α

X 2gl,α

(37)

Ejemplo: Estimar la varianza poblacional para la distribución de salarios con base a la varianza muestral S2 = 15.625 con el 95% de confianza.

14 (15.625 ) 2 14 (15.625 ) ≤σ ≤ 26,118 5,628 8.375,45 ≤ σ 2 ≤ 38.868,16 91,52 ≤ σ ≤ 197,15

355

ACTIVIDAD OBLIGATORIA Ejercicios punto 3 1) Cuando un proceso de producción está funcionando adecuadamente, la varianza de las medidas de las unidades producidas es de 4 cm. Se sugiere que el proceso de producción se encuentra ahora fuera de control. Se selecciona una muestra de 7 unidades producidas y se obtiene las siguientes medidas en centímetros. 9

10

13

12

8

6

12

a) Obtener S2. b) Probar la hipótesis de que el proceso de producción sigue funcionado adecuadamente, con α = 0,05. c) Determinar el intervalo de confianza del 95% para estimar σ2 . 2) Una fábrica de neumáticos para camiones afirma que la duración media de los productos es de 26.000 km y un desvío típico de 340 km. Sin embargo, se sospecha que la variabilidad aumentó. Se toma una muestra de 16 neumáticos, se prueban bajo ciertas condiciones hasta que se desgastan y se encuentra que la media se mantiene, pero el desvío es de 350 km. a) Probar la hipótesis con α = 0,10. b) Determinar el intervalo de confianza con el 90% para estimar σ2.

356

Respuestas a los ejercicios de la Unidad X Punto 1 1)χ2 = 14,45

Aceptar H0

2)χ2 = 7

Aceptar H0

3)χ2 = 0,24

Aceptar H0

Punto 2 1)χ2 = 25,8

Rechazar H0

(Prueba de independencia)

2)χ2

Rechazar H0

(Prueba de homogeneidad)

= 77,5

Punto 3 1)a)

S

= 6,33

b)

χ2 = 9,495 Aceptar H0

c)

2,63 ≤ σ2 ≤ 30,69

2)a) b)

χ2 = 15,89

Aceptar H0

82362,17 ≤ σ2 ≤ 214.912,28 286,99 ≤

σ

≤ 463,59

357

358

APÉNDICES

359

360

Apéndice 6 Tabla de números aleatarios

361

Apéndice 7 Valores porcentuales de la distribución t

362

Apéndice 8 Valores porcentuales de la distribución X2

363

364

FICHA DE EVALUACIÓN MÓDULO ÚNICO Sr. alumno/a:

El Instituto de Educación Abierta y a Distancia, en su constante preocupación por mejorar la calidad de su nivel académico y sistema administrativo, solicita su importante colaboración para responder a esta ficha de evaluación. Una vez realizada entréguela a su Tutoría en el menor tiempo posible. 1) Marque con una cruz

MÓDULO

En gran medida Medianamente Escasamente

1. Los contenidos de los módulos fueron verdadera guía de aprendizaje (punto 5 del módulo). 2. Los contenidos proporcionados me ayudaron a resolver las actividades. 3. Los textos (anexos) seleccionados me permitieron conocer más sobre cada tema. 4. La metodología de Estudio (punto 4 del módulo) me orientó en el aprendizaje. 5. Las indicaciones para realizar actividades me resultaron claras. 6. Las actividades propuestas fueron accesibles. 7. Las actividades me permitieron una reflexión atenta sobre el contenido 8. El lenguaje empleado en cada módulo fue accesible. CONSULTAS A TUTORIAS

SI

NO

1. Fueron importantes y ayudaron resolver mis dudas y actividades. 2) Para que la próxima salga mejor... (Agregue sugerencias sobre la línea de puntos) 1.- Para mejorar este módulo se podría ................................................................................................................................ .......................................................................................................................................................................................................

3) Evaluación sintética del Módulo. .......................................................................................................................................................................................................

Evaluación: MB - B - R - I 4) Otras sugerencias............................................................................................................................................................. .......................................................................................................................................................................................................

365