COMODIN MAESTRIA 09

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles ESTADISTICA DEFINICIÓN. E

Views 20 Downloads 0 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles ESTADISTICA DEFINICIÓN. Estadística es el arte o ciencia de coleccionar reunir y analizar información procedente de una población para inferir a partir de ella en una serie de conclusiones, las cuales son válidas para la población de la cual se extrajo la información.. Para su estudio la Estadística se divide en dos áreas: •

ESTADÍSTICA DESCRIPTIVA.



ESTADÍSTICA INFERENCIAL.

ESTADÍSTICA DESCRIPTIVA: Tiene como objetivo, el procesamiento de información obtenida de una muestra o de toda una población con el objeto de definir características de los valores analizados (parámetros poblacionales o muestrales), o representar la información contenida en esos datos a través de gráficos. Para facilitar el procesamiento de la información contenida en un conjunto de datos es común agruparlos en lo que se denomina Distribución de Frecuencias. DISTRIBUCIÓN DE FRECUENCIAS. Es una disposición de los datos que muestra cuántos elementos o que parte de los datos entran en diferentes intervalos o categorías en los cuales son agrupados los datos. Construcción: 1. La elección del número de clases o intervalos. 2. La identificación o ubicación del número de datos en cada clase o intervalo. 3. Cuantificar el número de datos en cada clase o intervalo. 4. La presentación de la información en una tabla o diagrama. Reglas:

1. El número de intervalos en los que se dividen los datos, entonces es función del número de datos que se van a agrupar. 2. Cada elemento (registro u observación) debe quedar en una y sola una clase. 3. Con el objeto de facilitar su posterior procesamiento es conveniente es necesario que las clases cubran escalas o intervalos iguales de valores.

PROCESAMIENTO DE DATOS Rango = valor máximo - valor mínimo. Intervalos de clase: Consiste en agrupar los datos en rangos con un límite inferior y un límite superior cada intervalo o clase. Marca de clase ( mi ): Valor representativo de cada clase ó intervalo resulta del promedio entre el límite inferior y superior de cada intervalo o clase. _____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

1

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles Tamaño de clase ( W ): Diferencia entre el límite superior e inferior de cada clase o intervalo.

 s iv gu a un  lm oiv et ear n nl r to oie or r   −   a m v l d la d o e yldalsod o et raors ts o s W= n d iú e n e mr t v e a r l o o s Cálculo del número de intervalos. REGLA DE STURGES: Si k es el número de intervalos en los que se dividen los datos, entonces k es función de n el número de intervalos: Teniendo k una magnitud: …………..

5 ≤ k ≤ 15.

Cumpliendo siguiente relación:

x

2

1

≤n≤ 2

x

2

donde: x1: es la potencia a la cual elevado el # 2 se acerca en su mínima diferencia pero sin sobrepasar el valor de n. x2: es la potencia a la cual elevado el # 2 sobrepasa en su mínima diferencia al valor de n. Estando entre x1 y x2 el número optimo de intervalos a formar con el conjunto de datos escogiendo el que mejor se ajuste al número de datos.

_____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

2

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles

Problema 1. El registro de la estatura expresada en metros de una muestra seleccionada aleatoriamente de 154 estudiantes de una Institución Educativa se presenta en la siguiente tabla: 1

_____

2

3

4

5

6

7

8

9

10

1

1.62

1.75

1.54

1.71

1.71

1.70

1.67

1.57

1.61

1.81

2

1.76

1.64

1.62

1.66

1.73

1.75

1.65

1.69

1.68

1.64

3

1.75

1.70

1.72

1.76

1.85

1.79

1.80

1.84

1.57

1.64

4

1.66

1.71

1.72

1.60

1.65

1.69

1.59

1.60

1.70

1.56

5

1.75

1.65

1.69

1.68

1.59

1.58

1.68

1.73

1.62

1.76

6

1.70

1.69

1.72

1.68

1.62

1.57

1.59

1.60

1.73

1.75

7

1.55

1.63

1.70

1.64

1.57

1.65

1.72

1.85

1.70

1.75

8

1.74

1.75

1.62

1.71

1.71

1.78

1.56

1.57

1.65

1.82

9

1.67

1.71

1.72

1.61

1.58

1.68

1.73

1.60

1.70

1.58

10

1.54

1.70

1.75

1.64

1.59

1.67

1.69

1.66

1.70

1.85

11

1.62

1.63

1.72

1.81

1.85

1.77

1.80

1.84

1.57

1.58

12

1.76

1.79

1.62

1.71

1.76

1.72

1.68

1.63

1.69

1.80

13

1.72

1.68

1.63

1.57

1.77

1.82

1.69

1.79

1.74

1.84

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

3

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles 14

1.70

1.69

1.72

1.68

1.58

1.66

1.72

1.60

1.73

1.75

15

1.74

1.80

1.84

1.67

1.63

1.79

1.80

1.84

1.57

1.58

16

1.69

1.76

1.80

1.77

Basados en estos datos, determine e interprete con respecto a la estatura de los alumnos de esta Institución Educativa:

1. El cuadro de frecuencias 2. La media, mediana y moda (ó modo). 3. La varianza y desviación estándar.

4. Los fractiles: Q3, D4, P20 .

Problema 2. Los datos presentados en la tabla, relacionan una muestra seleccionada aleatoriamente del registro de ventas diarias expresadas en miles de litros de gasolina en una estación de servicio ubicada en la ciudad de Orizaba, Veracruz: Ventas de Gasolina ( miles de litros )

Número de días

Determine:

1.235 -

25

1. Cuadro de frecuencias,

1.265 -

43

2. La media, mediana y moda ( ó modo).

1.295 -

55

1.325 -

63

3. La varianza y desviación estándar.

1.355 -

41

1.385 -

20

1.415 -

15

1.445 -

8

4. Calcule e interprete los siguientes Fractiles: Q3, D3, P60 .

Problema 3. Con el objeto de estimar la capacidad de producción de una empresa textil fue seleccionada aleatoriamente una muestra de los registros de producción por turno. Los datos presentados en la tabla, relacionan el total de metros de tela producidos por un turno de 8 horas. _____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

4

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles Producción (miles de metros)

Número de turnos

Determine:

1.61 -

53

1. La media, mediana y moda ( ó modo).

1.64 -

58

2. La varianza y desviación estándar.

1.67 -

80

3. Calcule e interprete los siguientes Fractiles: Q1,

1.70 -

42

1.73 -

34

1.76 -

23

1.79 -

7

1.82 -

3

D7, P40 .

Introducción. Si la Estadística solo tuviera como objetivo la determinación y la representación gráfica de las características de un conjunto de datos (describirlos); tal vez no tendría el carácter de ciencia. Este hecho requiere; de la persona que realiza este análisis un mínimo nivel de conocimientos. El principal objetivo de la Estadística con lo cual actualmente toma una importancia relevante, es el de hacer inferencias acerca de una población a partir de una muestra; es decir hacer válido el resultado del análisis de un conjunto de elementos extraídos de una población (denominado muestra) para la población de la cual se obtuvo. Entendiendo por población a la colección de toda la posible información que caracteriza un fenómeno. Concibiendo por población, un concepto mucho más general del que tiene el significado común esta palabra, no necesariamente implica que está constituida por personas. En este sentido una población es cualquier colección ya sea de un número finito de mediciones o una colección grande, virtualmente infinita de datos acerca de algo de interés. Estadísticamente hablando de una población interesa conocer determinadas características de ella, las cuales se presentan en diferentes magnitudes en forma de valores; dichas características denominadas parámetros se pueden describir matemáticamente. Para llegar a conocer su valor, se puede proceder de dos formas. Mediante: El Censo y El Muestreo. CENSO. Consiste en analizar el 100% de los elementos que constituyen la población. MUESTREO. Hace referencia al análisis de solo una parte representativa de los elementos que tiene la población. Una buena muestra es aquella que refleja las características esenciales de la población de la cual se obtuvo.

_____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

5

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles En problemas cotidianos y reales se puede considerar que presenta mayores ventajas el muestreo con respecto al censo. Algunas de las ventajas y desventajas del muestreo se comentan a continuación. Ventajas del muestreo •

Más económico que el censo.



Reduce considerablemente el tiempo de aplicación.



Proporciona resultados más oportunos, dado que permite la obtención rápida de información sobre un proceso variable y de alguna forma la determinación de su estado en un tiempo fijo.



Más adecuado cuando los datos se obtienen de la destrucción de los elementos en estudio.



Cuando la población es dinámica y no puede mantenerse el tiempo suficiente para su estudio. Desventajas del muestreo



Los resultados no son tan exactos como con el censo.



Requiere de una preparación o capacitación de la persona que lo aplica. Validez, certeza o confiabilidad Pero respecto al muestreo. ¿Qué tan valida sería el resultado o la conclusión a la cual se llegara;

si la muestra en la cual se tomara la decisión estuviera basada en un segmento de la población que no fuera representativo de la misma. Ejemplos…….. ¿ Que tanta validez, confiabilidad o certeza, se tendría ………… ? •

Si para obtener el grado de contaminación de un río, la muestra se obtuviera de las aguas del nacimiento del mismo.



Si para obtener el índice de personas analfabetas en el país la muestra se obtuviera de la población que vive en las zonas urbanas.



Si para definir al candidato ganador en unas elecciones para ocupar un puesto a nivel nacional, la muestra se obtuviera de una determinada ciudad o estado del país.



Si para obtener el índice de desempleo en un estado, la muestra se obtuviera de la población de una ciudad industrial del mismo.



Por último, si para aceptar o rechazar el embarque relacionado con un pedido de 200 rollos de tela de 150 mts. c/u. El encargado o responsable tomará la decisión del resultado de la inspección efectuada a los rollos de tela seleccionados de aquellos de más fácil accesibilidad.

La respuesta a cada uno de los ejemplos sería la misma: ¡ Ninguna validez…. Ninguna confianza ….. Ninguna certeza ! Pero, la pregunta o preguntas ahora serían……… ¿Cuándo es o no válida una muestra? ¿Cuándo es o no confiable una muestra? ¿Cuándo es o no certera una muestra? De igual manera, podría existir una sola respuesta a cualquiera de estos tres _____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

6

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles cuestionamientos: Tiene validez, es confiable o certero el resultado, cuando la muestra esta compuesta por elementos que representen las características de la población. TIPOS DE MUESTREO Hay dos maneras de seleccionar elementos de una población para conformar una muestra: •

Muestreo no aleatorio o a juicio.



Muestreo aleatorio o probabilístico.

MUESTREO NO ALEATORIO O A JUICIO. Está basado en el siguiente criterio: “No todas las muestras tienen un interés de generalización, pudiendo tener un interés de tipo analítico" Debido a ello, las muestras son seleccionadas de manera tal que contengan el tipo de elementos sobre los cuales hacen referencia las proposiciones de la hipótesis que está siendo sometida a prueba. El muestreo a juicio, también llamado no probabilístico o no aleatorio, se realiza, teniendo conocimiento de las características de los elementos de la población; situación que se toma en cuenta al momento de seleccionar los elementos que pasarán a formar parte de la muestra en la realización del estudio. Ejemplo. Una ama de casa que acude al súper a comprar manzanas; seleccionará para compra solo aquellas manzanas que cubren las características para el fin que persigue en su utilización; aquellas que son las “mejores”. Y puede ser, que para una ama de casa diferente, seleccionará manzanas con otras características, pero para ella serán las “mejores”. •

El entrenador de la selección nacional de fútbol, seleccionará solo los “mejores” jugadores. Que serán aquellos jugadores que piense les serán aptos para el sistema que desea implantar. Por lo expuesto anteriormente, la selección de los elementos que constituyen la muestra se realiza

en base al criterio o juicio del investigador. Estos no se seleccionan por procedimientos al azar sino en base al conocimiento o interés que el investigador muestre sobre un determinado elemento, lo que genera que no todos los elementos que forman parte de la población que se está analizando tienen probabilidad de ser seleccionados. En lo general estos métodos no probabilísticos carecen de validez científica, además que no tienen una base teórica para calcular la escala de error ni la representatividad de la muestra, dado que los elementos seleccionados solo representan las características de la persona que los elige. De lo visto, puede decirse que son dos las principales características de los elementos seleccionados de esta manera. 1. Los elementos de la muestra obtenida no representan las características de los elementos que componen la población. 2. No todos los elementos que componen la población tienen la misma oportunidad de ser

_____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

7

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles elegidos. Los principales métodos de muestreo no probabilístico son: MUESTREO DECISIONAL. Se presenta cuando los entrevistadores o investigadores de campo utilizan su criterio para elegir a los elementos con los cuales formarán la muestra. En este tipo de muestreo, el elemento seleccionado cubre determinadas características las cuales son definidas a juicio del entrevistador. Este tipo de muestreo es empleado en las llamadas " encuestas de

opinión ", donde las

personas que se toman en cuenta para la muestra deben de cubrir determinadas características con el tema tratado. MUESTREO DE CUOTA. Se realiza una clasificación de la población en estudio en función al objetivo del estudio y se utilizan estas categorías previamente fijadas para obtener un número predeterminado de elementos de cada categoría. Son muestras casi estratificadas y so utilizadas por las agencias de investigación de mercados. El procedimiento de esta técnica consiste en fijar un número de individuos por entrevistar y dejar totalmente al entrevistador

( profesional o no ), su localización. El sesgo que

introduce el entrevistador, al seleccionar únicamente elementos

que de acuerdo a su interés o

facilidad determine que serán parte de la muestra. Es una de las desventajas más importantes que tiene este tipo de muestreo. MUESTREO BASADO EN EXPERTOS. Los elementos se eligen con base en la opinión de personas con autoridad y suficientemente informadas acerca de la población bajo estudio. Los elementos que formarán la muestra serán resultado de la de la experiencia o conocimiento del comportamiento de la población analizada. Por ejemplo en una investigación sobre la problemática de la educación en el bachillerato. Al entrevistar a los directores de escuelas de este nivel; la muestra estará formada por

aquellos

dirigentes de las instituciones que se consideren más apropiadas al problema planteado. MUESTRAS CASUALES. Este método consiste en investigar a cualquier grupo de personas que son de fácil acceso o que acuden a un lugar determinado. Son las muestras más utilizadas por los reporteros de los medios de comunicación ( prensa, radio, televisión ), así como de algunas agencias que realizan estudios de mercadeo de opinión. La técnica consiste en entrevistar a los individuos en forma casual, por ejemplo a uno de cada cinco individuos que pasen por la calle. MUESTREO ALEATORIO O PROBABILÍSTICO Tiene como objetivo obtener muestras representativas de la población que se analiza basado en la aleatoriedad en la selección de los elementos que formarán la muestra.

_____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

8

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles Puede decirse que son dos las principales características de los elementos seleccionados de esta manera. 1. Los elementos de la muestra obtenida representan las características de los elementos que componen la población. 2. Todos los elementos que componen la población tienen la misma oportunidad de ser elegidos. En lo general estos métodos tienen una base teórica

para calcular la escala de error y la

representatividad de la muestra. Los principales métodos de muestreo aleatorio o probabilístico son: MUESTREO ALEATORIO SIMPLE. Procedimiento:

1. Asignar un número a cada uno de los elementos que constituyen la población. 2. Utilizando

la tabla de números aleatorios (también llamada de dígitos aleatorios) ó bien,

introduciendo en un recipiente tantos papelitos numerados como elementos tiene la población y una vez revueltos estos, extraer del recipiente tantos papeles como elementos formen la muestra. Tabla de número aleatorios. Está formada por filas

(→) y columnas (↓). Dependiendo del autor, cada columna está

formada de diferente número de dígitos ( 2, 5, 10, … ). Los dígitos que forman las filas y columnas se han generado por un proceso completamente aleatorio. La probabilidad que aparezca cualquier dígito entre cero y nueve es la misma y la probabilidad que ocurra una secuencia de dígitos es la misma que para cualquier otra secuencia. Ventajas del muestreo aleatorio simple.

a. De fácil aplicación. b. Muy utilizado cuando la población de la cual se extraerán las muestras es finita. c. Es el indicado cuando no se pueden formar grupos (estratos o conglomerados) con los elementos de la población. Desventajas del muestreo aleatorio simple.

a. Es difícil aplicarlo para poblaciones muy grandes. b. Se requiere tener una lista completa de los elementos de la población. MUESTREO ESTRATIFICADO. Es empleado este tipo de muestreo cuando la naturaleza de la población y el objetivo del estudio lo permiten. Consiste en formar grupos (estratos) con elementos que presentan pequeñas diferencias entre sí; pero una diferencia significativa entre grupos o estratos. Procedimiento

1. Definir de una manera clara y detallada la manera en que se formarán los estratos (elementos _____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

9

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles con similares características ). Asociando a cada elemento con uno y solo un estrato. 2. Una vez especificados los estratos, se selecciona aleatoriamente de cada uno de ellos el número de elementos que participarán en la muestra. Ventajas del muestreo estratificado

a. Frecuentemente el costo de la recolección de los datos en el muestreo estratificado se reduce al estratificar en grupos cuyos elementos tienen características similares pero que difieren de un grupo a otro.

b. Garantiza que en la muestra estén participando elementos de los diferentes grupos que constituyen la población, los cuales representan las diferentes características que están contenidas en la misma, generando con ello mayor representatividad de la muestra.

c. Ofrece la oportunidad de comparación entre los diferentes estratos, sin tener que otra muestras e incurrir en más gastos y / o mayor tiempo en la realización del estudio. Desventajas del muestreo estratificado.

a. La principal y posiblemente la única, es que no siempre es posible conformar grupos o estratos con elementos que presenten similitud en cuanto a las características del objetivo del estudio y ello debido a que la naturaleza de la población no lo permite. MUESTREO POR CONGLOMERADOS. Se emplea el muestreo por conglomerados cuando por la naturaleza de la población y el objetivo del estudio es posible formar grupos (llamados conglomerados), con elementos que presentan significativas variaciones entre sí, pero existe similitud en cuanto a su conformación entre grupos o conglomerados. Procedimiento.

1. Se divide la población en grupos con elementos heterogéneos en cuanto a las características; objeto del estudio.

2. Definidos estos se seleccionan aleatoriamente uno a uno los conglomerados hasta completar el tamaño de la muestra.

3. Se efectúa un censo en los conglomerados seleccionados. Ventajas del muestreo por conglomerados.

a. No se requiere tener una lista completa de los elementos de la población. b. Para poblaciones grandes, muy extensas o dispersas reduce significativamente los costos con su aplicación. Desventajas del muestreo por conglomerados. Si al conformar los conglomerados no se tiene el cuidado de que estos queden integrados con elementos que difieren en sus características, en caso de ser estos seleccionados; desplazarán a otros conglomerados más representativos de la población dado que si cubren condiciones de heterogeneidad, provocando con ello que la muestra no represente adecuadamente a la población al

_____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

10

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles quedar excluidos por haberse completado el tamaño la muestra Una manera de reducir el error de muestreo, es disminuir el número de elementos que integran los conglomerados, lo que incrementará el número de conglomerados. MUESTREO SISTEMATICO. En el muestreo sistemático, los elementos se seleccionan de la población a un intervalo uniforme que es medido en tiempo, orden o espacio. Procedimiento

1. Se define la magnitud "k de elementos" del intervalo, la cual se obtiene al dividir el total de elementos de la población entre el número de elementos que constituirán la muestra.

2. Se elige aleatoriamente un elemento dentro de los primeros "k" elementos que constituyen el primer intervalo formado dentro del marco muestral y posteriormente se selecciona en forma sucesiva el "k-ésimo " elemento que sigue al último que se obtuvo. Ventajas del muestreo sistemático. Es especialmente útil en auditorias, cuando la información relevante se registra en forma ordenada; por ejemplo en computadora o en un archivo de tarjetas. La selección de cuentas de crédito, registro de mantenimiento de equipo o datos de ventas de los registros de la compañía. Desventajas del muestreo sistemático. Hay situaciones en las que no debe emplearse. Por ejemplo, cuando existe una periodicidad en el comportamiento de la población; en este caso el muestreo sistemático puede causar un sesgo, al introducir el error de muestreo que resulta de la influencia periódica. Frecuentemente los registros de ventas y los datos financieros que se observan en el tiempo, tienen un comportamiento cíclico: las ventas en los restaurantes son mayores durante el fin de semana que durante el resto de los días, los niveles de dinero en efectivo son más altos alrededor de los días 15 y 30 de cada mes, los prestamos personales son más frecuentes en los meses de invierno.

_____

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

11

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles

Problema 1. La siguiente es una muestra del salario mensual obtenido por el personal de una empresa ubicada en el norte del país. El monto del salario esta en función al puesto y funciones que tiene el personal. Los valores están expresados en miles de pesos. Estime el salario promedio de todo el personal. Seleccionando una muestra aleatoria de 20 elementos; aplicando el muestreo: 1. ALEATORIO SIMPLE. 2. POR CONGLOMERADOS. 3. ESTRATIFICADO. 1

2

4. SISTEMATICO 3

4

5

6

7

8

9

10

32.6 31.8 29.7 26.8 33.0 31.7 33.5 28.5 NIVEL: JEFES DE DEPARTAMENTO

26.9 29.8

32.8 29.9

31.9 27.8

29.5 32.6

29.5 31.6

33.1 29.7

19.7 16.8 16.9 12.8 18.3 15.5 18.8 17.9 5 16.9 17.7 19.9 20.0 NIVEL: PERSONAL DE OFICINAS 6 1.3 1.5 1.9 2.0 7 1.8 1.9 2.0 1.9 8 1.6 1.9 2.0 1.9 NIVEL: SUPERVISORES

11.9 17.8 15.9

11.6 16.4 18.6

19.8 19.3 19.9

12.1 18.0 13.0

19.5 17.9 15.7

18.7 15.5 17.6

1.9 2.0 1.8

1.8 2.3 2.4

1.4 2.5 1.9

1.8 1.9 2.0

1.4 2.0 2.3

2.0 1.9 2.5

7.9 7.5 7.8 7.9

7.8 7.3 7.4 7.6

7.4 7.5 7.9 7.9

7.8 7.9 7.4 7.5

7.4 7.3 7.8 7.9

7.5 7.9 7.5 7.3

NIVEL: GERENTES 1 2

3 4

9 10 11 12

7.3 7.8 7.6 7.9

7.5 7.9 7.9 7.8

7.9 7.6 7.3 7.4

7.0 7.9 7.9 7.8

NIVEL: PERSONAL SINDICALIZADO 13 5.9 4.5 6.7 4.8 14 4.5 6.3 6.3 5.4 15 5.3 5.9 4.5 6.7 16 4.6 6.6 6.2 5.8 _____

6.3 6.4 4.8 6.2

4.1 6.9 4.1 6.5

4.9 5.6 4.9 5.4

5.5 7.3 5.5 7.6

5.5 6.9 4.9 6.0

6.7 4.0 7.0 4.1

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

12

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34

_____

5.3 4.5 5.3 5.9 5.3 4.6 5.3 4.5 4.6 4.5 5.8 6.6 5.4 4.6 5.8 5.5 4.5 4.5

5.9 6.7 5.9 4.5 5.9 6.6 5.9 6.3 6.6 6.3 6.2 6.2 6.4 6.6 5.5 5.9 6.7 6.3

4.5 4.8 4.5 6.7 4.5 6.2 4.5 6.3 6.2 6.3 6.5 5.8 6.9 6.2 4.5 4.8 4.5 6.3

6.7 4.1 6.7 4.8 4.1 5.8 4.1 5.4 5.8 5.4 5.4 6.2 5.6 5.8 6.7 6.2 6.7 6.9

4.8 4.9 4.8 4.1 4.9 6.2 4.9 4.8 6.2 4.8 6.2 6.5 7.3 6.2 4.8 4.1 4.8 5.5

4.1 5.9 6.3 4.9 5.9 6.5 4.5 4.1 6.5 4.1 5.8 4.8 6.2 6.5 4.1 4.4 4.1

4.9 4.5 6.3 5.5 4.5 5.4 6.3 4.9 5.4 4.9 6.2 4.1 6.5 5.4 4.9 4.2 4.9

6.3 6.7 5.4 5.5 6.7 7.6 6.7 5.9 4.5 5.9 6.5 4.9 5.4 7.6 6.3 5.3 5.4

5.4 4.8 6.4 6.7 4.8 6.0 4.8 6.7 6.3 6.7 5.4 5.5 7.6 6.0 5.4 5.0 6.4

6.4 4.1 6.9 4.8 4.5 4.1 4.1 4.8 6.7 4.8 7.6 5.5 6.0 4.1 6.4 6.1 6.9

_____ Cuaderno de trabajo de la materia de Estadística Aplicada Pag. MAESTRIA EN INGENIERIA ADMINISTRATIVA

13

TEMA: MUESTREO ________________________________________Catedrático: Fernando Fernández Rodiles ALEATORIO SIMPLE PASOS A SEGUIR. 1. Se asigna un número a cada uno de los elementos de la población. 2. Utilizando la tabla de números aleatorios o escribiendo en un papel todos los números que conforman la población se introducen en un recipiente y después de revolverlos se ex trae al azar la muestra.

ESTRATIFICADO

CONGLOMERADOS

SISTEMATICO

PASOS A SEGUIR.. 1. Formar grupos con elementos que tengan aproximadamen te las mismas características respecto al objetivo del estudio. 2. De cada grupo o estrato formado, seleccionar el número de elementos que participaran en la muestra.

PASOS A SEGUIR.. 1. Formar grupos con elementos que tengan diferencias signi ficativas respecto a las características del estudio. 2. Se selecciona uno a uno de los grupos hasta completar el tamaño se la muestra. 3. Se realiza un censo en los conglomerados seleccionados.

PASOS A SEGUIR. 1. Se define un intervalo uniforme, medido en tiempo, orden o espacio (k=N/n)

VENTAJAS. a. El costo de la recolección y análisis de los datos se reduVENTAJAS.. ce al estratificar en grupos cua. Selecciona a la muestra por yos elementos tienen caractemétodos que le permiten a ca- rísticas similares pero que difieda elemento tener la misma ren de un grupo a otro. probabilidad de formar parte de b. Garantiza que en la muestra la muestra. estén participando elementos con diferentes las característib. Para poblaciones finitas no cas que componen la población muy extensas es el método c. Permite analizar diferencias más rápido y menos costoso. entre los estratos sin necesidad de mayor trabajo. DESVENTAJAS a. El azar en la selección, en DESVENTAJAS ocasiones no garantiza la repre- a. Por la naturaleza de la poblasentatividad de la muestra esto ción en ocasiones no es senciocasiona la necesidad de incre- llo formar estratos mentar el número de muestras.

VENTAJAS. a. No se necesita una lista de los elementos de la población.

2. Se elige aleatoriamente un elemento del primer intervalo. 3. La posición que guarda el elemento seleccionado en el primer intervalo marca la posición de los demás elementos en los siguientes intervalos.

VENTAJAS. b. Para grandes poblaciones es a. Útil cuando la información se tiene más económico que otros. adecuadamente ordena- da, por ejemplo en computadora o en DESVENTAJAS. archivo de tarjetas ( auditorias, a. Si al formar un conglomera- cuentas de crédito, da- tos de do no se cumple con la hetero- ventas, etc. ) geneidad de sus elementos en caso de salir este seleccionado DESVENTAJAS desplazará a otros conglomera- a. Se corre el riesgo de que la dos más representativos al que- muestra no sea representativa dar excluidos por haberse com- cuando los datos presentan pletado la muestra. tendencia cíclica, al seleccionar b. Se contrarresta lo anterior elementos que solo se presentan reduciendo el número de elesistemáticamente. mentos en los conglomerados.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ MAESTRIA EN INGENIERIA ADMINISTRATIVA

Pag.

14

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles CUESTIONARIO 1. ¿ Cual es el objetivo del muestreo ?. 2. ¿ Cual es la relación del muestreo con la Estadística ? 3. ¿Cuándo es más conveniente el muestreo con respecto al censo ? 4. ¿ Que significado tiene denominar a una muestra como muestra aleatoria ? 5. ¿ Cuales de los siguientes ejemplos están relacionados con muestras aleatorias y cuales no ?. Explique en cada caso. a. Preguntas que de parte de la Gerencia de una tienda se aplican a cada décimo cliente respecto a las ofertas que se realizan. b. Selección de árboles de un aserradero para ser convertidos en madera. c. Selección de “n” alumnos por el Director de una Escuela, para representar en un concurso de conocimientos. d. Integrar a la Selección de fútbol para representar a México en la próxima Copa del Mundo 2006 a celebrarse en Alemania. e. Control del contenido en peso de las cajas de una fabrica de galletas.

COMENTARIOS REFERENTES A LA APLICACIÓN DE MUESTREO Es necesario antes de definir el tipo de muestro a utilizar para la conformación de la muestra es necesario identificar y delimitar los factores que afectan o modifican el resultado del análisis, que se pretende realizar. En los ejemplos siguientes se enumeran algunos factores que pueden estar presentes en el estudio a realizar. Sin embargo, una vez identificados es necesario definir ¿Cuáles de ellos van a ser tomados en cuenta para la realización del estudio. Ejemplos: Objetivo: Estimar el tiempo promedio en realizar el maquinado de una pieza. FACTORES. 1. El número de operarios que realiza esta operación. 2. Las máquinas utilizadas para la realización de esta operación. 3. Los tipos de herramienta de corte empleados para el maquinado de esta pieza. 4. Las jornadas de trabajo. 5. El tiempo durante la jornada en que serán tomadas las lecturas. Objetivo: Estimar la preferencia por el consumo de una determinada marca de refresco. FACTORES. 1. Las edades de los consumidores. 2. Las condiciones climatológicas. 3. Como bebida sola o acompañado. 4. Los puntos de venta del producto. Objetivo: Estimar el tiempo promedio en realizar el recorrido de una distancia.. FACTORES. 1. Tipo de vehiculo. 2. Analizar condiciones durante el traslado: hora en realizarlo día de la semana, temporada. 3. Operario. 4. Alternativas de rutas. Objetivo: Estimar la preferencia por el voto de un candidato a un puesto público. FACTORES. 1. Las edades de los votantes. 2. El nivel económico de las personas. 3. El grado académico de las personas. 4. La región geográfica (norte, centro, sur). 5. Zona geográfica (urbana, rural) _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

15

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles DISTRIBUCIÓN NORMAL Es la distribución de probabilidad más importante en Estadística. Denominada también Distribución Gaussiana, en honor de Karl Friedrich Gauss quién derivó su ecuación. Su gráfica que es una curva en forma de campana se, le denomina curva normal.

0.5

Media Mediana Moda

Su ecuación viene dada por:

n ( x; µ; σ ) =

1 2σ π

0.5

e



1  x −µ  2  σ

2  

Para - α < x < α

Características:

1. La curva es simétrica con respecto a su eje vertical el cual incide en la parte central. 2. La Media, Mediana y Moda inciden en un mismo punto. En la parte central de la curva donde presenta su altura máxima. 3. La curva normal se acerca asintóticamente a su eje horizontal en ambos extremos a partir de la media. 4. El área que se genera bajo la curva y sobre el eje horizontal es igual a 1.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

16

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

Ejercicio I. Utilizando las tablas de la distribución normal y mediante un bosquejo de un gráfico de la curva normal, determine el valor del área involucrada en cada ejercicio.

1. p ( z < 1.01 )

6. p ( -1.04 < z < 0.09)

11. p ( - 0.50 > z > 0.50 )

2. p ( z > -1.23 )

7. p (-0.82 < z < 1.87)

12. p ( - 1.66 > z > -0.05 )

3. p ( z > -2.10 )

8. p (-2.19 < z < -0.07)

13. p ( - 0.30 > z > 0.30 )

4. p ( z < - 1.32 )

9. p (- 1.45 < z < 1.05 )

14. p ( 1. 00 > z > 1.00 )

5. p ( z > -3.59 )

10. p (- 3.59 < z < 3.59)

15. p ( - 5.25 > z > 4.75 )

Ejercicio II. Encuentre el valor de z si el área bajo la curva normal estándar:

1. A la derecha de z es de 75% 2. A la izquierda de z es de 0.4013 3. A la derecha de z es del 81%

6. A la derecha de z es de 0.1018 7. A la izquierda de z es del 84.85% 8. A la derecha de z es de 0.1469

4. A la izquierda de z es de 0.3500

9. A la derecha de z es del 60.10%

5. A la derecha de z es del 61.15%

10. A la izquierda de z es de 0.1762

Ejercicio III. Encuentre el valor de z si el área bajo la curva normal estándar:

1.

Entre 0 y z con z positivo es de 43.7%

6. Entre 0 y z con z negativo es de 0.4525

2.

Entre 0 y z con z positivo es de 0.3708

7. Entre 0 y z con z negativo es de 42.36%

3.

Entre 0 y z con z positivo es de 2.79%

8. Entre 0 y z con z negativo es de 0.2852

4.

Entre 0 y z con z positivo es de 0.4948

9. Entre 0 y z con z negativo es de 31.33%

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

17

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

5.

Entre 0 y z con z positivo es de 0.0259

10. Entre 0 y z con z negativo es de 49.01%

CARACTERÍSTICAS DE LAS POBLACIONES

X1

X2

CONDICIONES NO ESTANDARIZADAS

µ ≠0 σ ≠1 X

Z1 ESTANDARIZADAS Z2

µ =0 σ =1 Z

MEDIA DESV. EST. VARIABLE

CONVERSIÓN

DE

Valores X a

VALORES Valores Z

Z =

Valores Z

x −µ

σ

Valores X X=µ +σ Z

TEOREMA DE CHEYBSHEV Proporciona la estimación de la probabilidad de que una variable aleatoria asuma un valor dentro de k desviaciones estándar de su media para cualquier valor de k. La probabilidad de que una variable aleatoria que cuyo valor se distribuye normalmente, asuma un valor dentro de k desviaciones estándar de la media es al menos de: 1 – 1 / k2. Esto es:

P(µ -kσ Ejemplos: Si k = 2 Entonces: Si k = 3 Entonces:

< X 30) seleccionadas de una

población con media µ y desviación estándar σ - Los valores de las medias

_

x

tendrán aproximadamente una distribución normal.

obtenidas de muestras seleccionadas de poblaciones que se distribuyen

normalmente tendrán una distribución normal sin importar la magnitud de n. De donde se tiene que:



La media o promedio de todas las medias de las muestras extraídas de la población igual a la media de toda la población µ



_

x

σ

es



_

x

_

x

=

=

σ

Para poblaciones grandes ( 20 n < N )

n

σ n

N −n N −1

Estandarización de los valores de

Para poblaciones pequeñas ( 20 n ≥ N ) _

x

( pasar de

_

x

z = •

_

x

La desviación estándar de las muestras:

σ •

μ

μ

Desestandarización de los valores de z ( pasar de z a

_ x =µ + σx z

az):

_ x −μ _

σx _

x

)

Problema 1. La máquina empleada para el llenado de sacos de azúcar en un Ingenio Azucarero, está regulada para efectuar dicha operación, despachando en promedio 50 Kgs. con una desviación estándar de 2.5 kgs. El control del peso vertido se verifica tomando periódicamente una muestra de 15 sacos, calculando el contenido promedio. Si el valor promedio de estas muestras se distribuye normalmente. Determine la probabilidad que el peso promedio de cualquiera de estas muestras sea de: 1. Al menos 49.5 kgs. 2. Máximo 51.5 kgs. 3. No menos de 49 pero a lo más 51 kgs. 4. Mínimo 47 pero máximo 50 kgs. 5. Más de 50.5 kgs. pero a lo sumo 53 kgs. 6. No más de 48 kgs. pero como mínimo 49.5 kgs. 7. Cuando más ¿Cuál será el valor del 83 % de las muestras de esta magnitud ?. 8. Cuando menos ¿Cuál será el valor del 60 % de las muestras de esta magnitud ?. 9. ¿ No mayor de que valor tendrá el 83 % de las muestras de esta magnitud ?. 10. Cuando menos ¿Cuál será el valor del 60 % de las muestras de esta magnitud ?. _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

21

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Problema 2. La máquina empleada para el llenado de las cajas de galletas de una determinada marca, está regulada para efectuar dicha operación, despachando en promedio 1 000 grs. con una desviación estándar de 95 grs. En base a esta información, determine la probabilidad que muestras seleccionadas aleatoriamente de 65 cajas contengan en promedio: 1.¿ Al menos 985 grs. ? 2.Un mínimo de 975 grs. pero no más de 1 025 grs. 3. ¿ A lo más 985 grs. ? 4. La fracción de muestras de esta magnitud que pesen en promedio un máximo 980 grs. pero no menos de 1 020 grs. 5. ¿Que proporción de muestras de esta magnitud pesaran en promedio al menos 975 grs. pero cuando más 1 kg.? 6. ¿ Cuántas de 500 muestras de 25 cajas cada una; pesarán en promedio al menos 990 kg. pero cuando más 1 025 grs. ?. 7. Al menos cuanto pesarán en promedio el 60% de las muestras. 8. Cuando más cuanto pesarán en promedio el 35% de las muestras. 9. Para verificar si se esta cumpliendo con el peso etiquetado en una inspección la PROFECO selecciona aleatoriamente 20 cajas y aplica una sanción en caso que el peso promedio obtenido en la muestra no contenga al menos el 95% del peso etiquetado. ¿Habría probabilidad de que esto sucediera?. 10. Por otra parte la empresa para controlar contenido en peso de las cajas, selecciona aleatoriamente 15 cajas; y para el proceso para corregirlo, si el peso de la muestra no esta entre ± un 5% del peso etiquetado. ¿En que porcentaje de las muestras el peso promedio se sale de este rango?.

Problema 3. El consumo promedio diario de combustible utilizado en una caldera que suministra vapor al Departamento de Engomado de una empresa textil es de 1 850 lts. diarios con una desviación estándar de 325 lts. En función a esta información determine la probabilidad que el consumo promedio de una muestra seleccionada aleatoriamente de 15 días en esta caldera sea de:

11. Al menos 1 700 lts.

16. 17. 18. 19. 20.

12. Mínimo 1 900 lts. Pero máximo 2000 lts. 13. No más de 1 950 lts. 14. Entre 1 750 y 1 950 lts diarios. 15. No más de 1600 pero al menos 1 750 lts. Mínimo 1 650 lts. pero máximo 1 750 lts. ¿ Cual será el consumo promedio mínimo del 65 % de las muestras con esta cantidad de días ?. Cuando menos, ¿Cual será el consumo promedio del 25 % de las muestras con esta cantidad de días ?. ¿ Cual será el consumo promedio máximo en el 80 % de las muestras conteniendo 20 días seleccionados al azahar ?. ¿ No mas de cuanto se consumirá en promedio en el 35% de las muestras conteniendo 25 días seleccionados al azahar ?

DISTRIBUCION t de Student Si el valor de la variable aleatoria continua t se distribuye como una distribución t de Student. I. Determinar la: _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

22

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles a. p ( t < 2.201  = 10 )

φ= 11 )

f. p ( -0.879 < t > -2.080  φ= 21 ) < -0.856  φ= 25 ) > -2.947  φ= 15 )

φ= 17 ) h. p ( 2.042 > t > -2.750  φ= 30 ) i. p ( -0.860 < t < 1.725  φ= 20 ) j. p ( -1.061 > t > 1.717 φ= 22 )

b. p ( t > 1.943  c. p ( t d. p ( t e. p ( t

g. p ( -0.863 < t < 1.740 

II. Determinar el valor de to cuando: a. p ( t > to  b. p ( t < to  c. p ( t > to  d. p ( t < to  e. p ( t > to 

φ

φ= 15 ) = 0.25 φ= 23 ) = 0.75 φ= 19 ) = 0.025 φ= 12 ) = 0.975 φ= 20 ) = 0.99

φ= 5 ) = 0.85 g. p ( t > to  φ= 30 ) = 0.80 h. p ( t < to  φ= 11 ) = 0.25 i. p ( t > to  φ= 33 ) = 0.25 j. p ( t < to  φ= 20 ) = f. p ( t < to 

0.025 III. Casos especiales: Determinar el valor de to cuando

φ= 51 ) = 0.75  φ= 36 ) = 0.25  φ= 45 ) = 0.025  φ= 54 ) = 0.975  φ= 33 ) = 0.99

a. p ( t > to 

f. p ( t < to 

b. p ( t < to

g. p ( t > to 

c. p ( t > to d. p ( t < to e. p ( t > to

h. p ( t < to  i. p ( t > to  j. p ( t < to 

Otros casos: Determinar el valor de to cuando a. p ( t < to  b. p ( t > to 

φ= 42 ) = 0.92 φ= 54 ) = 0.012

DISTRIBUCION Chi-Cuadrada

φ= 11 ) = 0.93 φ= 29 ) = 0.17 φ= 18 ) = 0.13 φ= 23 ) = 0.83 φ= 30 ) = 0.18

φ= 69 ) = 0.17  φ= 58 ) = 0.87

c. p ( t > to  d. p ( t < to

χ2

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

23

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Si el valor de la variable aleatoria continua

χ2 se distribuye como una distribución

Chi-Cuadrada. Determine la:

χ 2 < 5.58  φ= 11 ) 3. p ( χ 2 > 21.3  φ= 22 ) 5. p ( χ 2 > 14.26 φ= 29 ) 1. p (

II. Determinar el valor de

χo2 cuando:

χ 2 > χo2  φ= 23 ) = 0.05

2. p (

χ 2 < χo2  φ= 23 ) = 0.75

χ 2 > χo2  φ= 30 ) = 0.50

4. p (

χ 2 > χo2  φ= 20 ) = 0.35

χ 2 < χo2  φ= 18 ) = 0.10

6. p (

1. p ( 3. p (

χ 2 > 15.99 φ= 10 ) 4. p ( 9.39 > χ 2 > 26.00  φ= 18 ) 6. p ( 11.81 > χ 2 > 21.7  φ= 27 ) 2. p ( 3.94 >

5. p (

χ 2 < χo2  φ= 3 ) = 0.75

Casos especiales Determinar el valor de

χo2 cuando:

χ 2 > χo2  φ= 43 ) = 0.50

2. p (

3. p (

χ 2 < χo2  φ= 57 ) = 0.10

4. p (

5. p (

χ 2 > χo2  φ= 65 ) = 0.25

6. p (

1. p (

χ 2 > χo2  φ= 25 ) = 0.43

χ 2 < χo2  φ= 33 ) = 0.65

χ 2 > χo2  φ= 13 ) = 0.60

Otros casos especiales Determinar el valor de 1. p (

χ 2 > χo2



χo2 cuando:

φ= 48 ) = 0.30

2. p (

χ 2 < χo2  φ= 53 ) = 0.72

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

24

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles DEFINICIÓN. Estadística es el arte o ciencia de coleccionar reunir y analizar información procedente de una población para inferir a partir de ella en una serie de conclusiones, las cuales son válidas para la población de la cual se extrajo la información.. Para su estudio la Estadística se divide en dos áreas: •

ESTADÍSTICA DESCRIPTIVA.



ESTADÍSTICA INFERENCIAL.

ESTADÍSTICA DESCRIPTIVA: Tiene como objetivo el procesamiento de información obtenida de una muestra o toda una población con el objeto de definir valores o representarlos a través de gráficos de toda la información analizada. ESTADÍSTICA INFERENCIAL: Consiste en analizar el resultado del análisis hecho a una muestra seleccionada aleatoriamente de una población, haciendo válido dicho resultado para toda la población de la cual se extrajo la muestra. Se pueden hacer inferencias acerca de los parámetros de una población de dos formas: I.

ESTIMACIÓN DE PARÁMETROS. Estimar el valor del parámetro de una población

II.

PRUEBA O VERIFICACION DE HIPÓTESIS. Verificar el verdadero valor del parámetro de una población.

En ambos casos se toma como base el resultado obtenido al analizar una muestra obtenida de la población que interesa y hacer valido el resultado para toda la población de la cual se extrajo la muestra. ESTIMACIÓN DE PARÁMETROS Estimar del valor del parámetro de una población, es definir a través de un proceso estadístico, el valor aproximado del verdadero valor que tiene el parámetro de una población a partir del análisis de una muestra de elementos extraídos de la población de la cual se extrajo. La estimación del parámetro de una población puede realizarse de dos maneras: a. Estimación puntual Consistente en definir un único valor del parámetro que se está estimando. Ejemplos: 1. “Se estima que el porcentaje de piezas defectuosas al final de una línea de producción es del 8%“ 2. . “ El volumen promedio de gasolina vendida por día en una estación de servicio se estima en 3500 lts”.

3. “Se estima que la varianza con respecto al promedio de duración de una bombilla eléctrica de la marca OSRAM en 800 horas ”. b. Estimación por intervalo. Consistente en definir un rango de valores ( con un límite inferior y otro superior) dentro del cual puede caer el verdadero valor del parámetro que se está estimando. Ejemplos: _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

25

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 1. “ Se estima que el porcentaje de piezas defectuosas al final de una línea de producción está entre el 7 y el 9% “ 2. “ El volumen promedio de gasolina vendida por día en una estación de servicio se estima entre 3200 y 3800 lts”. 3. “La desviación estándar con respecto al promedio de la duración de una bombilla eléctrica de la marca OSRAM se estima entre 750 y 850 horas”. Nivel de Confianza en la estimación del parámetro: Mide que tan probable es que el valor estimado del parámetro se encuentra dentro del rango de valores definidos en la estimación. Esta Confianza o Probabilidad es expresada en porcentaje (%), en un rango de valores que comúnmente se establece entre el 90 y 99 %. MAGNITUD DE LAS MUESTRAS NECESARIAS EN LA ESTIMACIÓN DE PARÁMETROS El número de muestras necesarias para la estimación del parámetro de una población depende de tres factores:

a. Del grado de confianza con que se pretende estimar el parámetro. Ha mayor confianza deseada mayor deberá ser el número de elementos que compondrán la muestra Este grado de confianza se ve reflejado en el valor del estadístico z en la curva normal.

b. De la heterogeneidad de los valores analizados en la muestra. Ha mayor diferencia o dispersión de estos mayor será el número de elementos que compondrán la muestra. Esto se refleja en el valor de la desviación estándar de la muestra (σ ) c.

De la exactitud con la que se desee estimar el parámetro (E). FORMULA EMPLEADA PARA OBTENER EL NÚMERO DE MUESTRAS NECESARIAS PARA ESTIMAR: LA MEDIA DE UNA POBLACIÓN

z σ n= e 2 α /2

2

 z α /2 σ n =  2  e

2

  

2

LA MEDIA DE UNA POBLACIÓN 2

n = zα / 2 2

∆ ∆

pq

e

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

26

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Problema 1 En las auditorias efectuadas a las empresas (específicamente en las denominadas grandes), al intentar evaluar los procedimientos de control interno mediante un análisis de los libros de contabilidad; resulta excesivo considerar todas las transacciones efectuadas en un año ó en un periodo de tiempo determinado. Para tal fin generalmente se selecciona aleatoriamente una muestra de las transacciones efectuadas en el intervalo de tiempo que se analiza. De una de estas empresas fueron seleccionadas muestras de transacciones efectuadas en los dos tipos que la empresa contempla: A crédito y en efectivo obteniéndose los siguientes resultados: DESCRIPCIÓN

CREDITO

EFECTIVO

No. de transacciones analizadas

61

71

Valor promedio

$ 15 865.00

$ 10 560.00

Desviación estándar

$850.00

$ 650.00

Número de transacciones en la muestra con un monto mayor a los $7000.00

35

23

En base a estos resultado. Estime un intervalo de confianza del: 1. 95 %, para el monto promedio por transacción efectuada a CREDITO. 2. 90 %, para el monto promedio por transacción efectuada en EFECTIVO. 3. 99 %, para la diferencia en el monto promedio de los tipos de transacción manejadas en esta empresa. 4. 90 %, para la varianza y desviación estándar con respecto al monto promedio por transacción efectuada a CREDITO. 5. 90 %, para la varianza y desviación estándar con respecto al monto promedio por transacción efectuada en EFECTIVO. 6. 95 % para el porcentaje de transacciones efectuadas a CREDITO en esta empresa con un valor superior a los $ 7 000.00. 7. 98 % para el porcentaje de transacciones efectuadas en EFECTIVO en esta empresa con un valor superior a los $ 7 000.00. 8. 95 %, para el porcentaje de transacciones efectuadas a CREDITO en esta empresa con un valor inferior a los $ 7 000.00. 9. 98 %, para el porcentaje de transacciones efectuadas en EFECTIVO en esta empresa con un valor inferior a los $ 7 000.00 10. ¿Fue suficiente el número de muestras para estimar el monto promedio de las transacciones de los incisos 1 y 2. Si el error que se está dispuesto aceptar en la estimación del valor en las mismas, no debe ser mayor de: a. $500.00; b. $300.00; c. $100.00 y d. si no se acepta ningún error en la estimación del valor ?. 11. ¿Fue suficiente el número de operaciones en la muestra (transacciones) para estimar el porcentaje de transacciones con un valor superior a $7 000.00 los incisos 6, 7, 8 y 9 ?. Si el error que se está dispuesto aceptar en la estimación del porcentaje no debe ser mayor del: a. 5%; b. 7%; c. 10% y d. si no se acepta ningún error en la estimación del porcentaje. Problema 2.

Un procedimiento que ha resultado efectivo para medir el grado de aceptación de un producto y el cual ha disminuido la inversión realizada en la promoción y mercadotecnia de nuevos productos, consiste en la introducción del producto al mercado; en zonas de ventas representativas. Este _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

27

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles procedimiento por una parte proporciona el número de ventas y por otra parte define las zonas donde se tendrá mayor o menor demanda del producto. Con el objeto de ejemplificar lo anterior, se considera el caso de una empresa fabricante de implementos agrícolas, al cual esta interesada en introducir al mercado un nuevo “equipo para riego”. Para probar su aceptación, se seleccionó utilizando para ello el muestreo aleatorio estratificado con afijación proporcional una muestra de 45 tiendas distribuidoras, localizadas en tres zonas agrícolas y se observó el número de equipos vendidos durante un periodo de un año. Los resultados se presentan en la siguiente tabla:

DESCRIPCION número de tiendas # de equipos vendidos en promedio varianza

A 16

ZONAS B 10

C 19

31

28

47

30.5

15.3

47.9

En base a los resultados observados en la tabla. Y suponiendo que las ventas se distribuyen normalmente en cada zona. Determine un intervalo de confianza del: 1. 95% para el número promedio de equipos vendidos en cada una de las tres zonas (A, B y C). 2. 90% para la diferencia en el promedio de equipos vendidos entre las zonas (A y B), (A y C), (B y C). 3. 95% para la varianza y desviación estándar con respecto al numero promedio de equipos vendidos en cada una de las tres zonas. Suponiendo que la proporción de ventas se distribuyen normalmente en cada zona

4. Determine un Intervalo de confianza del 95% para el Porcentaje de ventas de equipos de riego en cada una de las zonas con respecto al total de equipos vendidos en las 45 tiendas.

Problema 3. Las mazas para molino azucarero (2.00 mts de largo por 1.75 mts. de diámetro) empleadas para la extracción de las mieles contenidas en la caña de azúcar, son cilindros de hierro colado que después de ser fundidas y ensambladas en su flecha de acero, son sometidas al maquinado con el objeto de proporcionarles el diámetro y características requeridas para la función que desempeñarán ya colocadas en el molino para su operación. Con el objeto de mejorar el tiempo de maquinado, fueron propuestas por diferentes proveedores tres herramientas de corte y utilizadas en operaciones seleccionadas aleatoriamente. Los tiempos realizados expresados en minutos se presentan en la siguiente tabla: _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

28

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles HERRAMIENTA

1

2

3

4

5

6

7

8

9

10

11

A

243

255

239

248

245

241

249

247

240

242

244

B

231

230

229

232

230

235

236

235

233

234

231

C

254

250

259

263

250

257

259

260

269

267

DATOS

ANTES

12 229

DESPUES

Numero de operaciones tiempo promedio (en minutos) varianza con respecto a la tiempo promedio desviación estándar con respecto a la tiempo promedio Suponiendo que los tiempos empleados en el maquinado se distribuyen normalmente con cada una de las tres herramientas y en base a esta información estime un intervalo de confianza del: 1. 90% para el tiempo promedio empleado por cada una de las herramientas propuestas. 2. 95% para la diferencia entre el tiempo promedio de corte entre las herramientas propuestas (A con B, A con C y B con C). 3. 95% para la Varianza y Desviación Estándar con respecto al tiempo promedio empleado por cada una de las herramientas propuestas. Problema 4. Teniendo como objetivo "mejora en el servicio", como una dentro de varias de las estrategias de mercadotecnia para el incremento en sus ventas. Una gran cadena de supermercados muestreó las opiniones de sus clientes respecto al servicio ofrecido antes y después que el personal asistiera a cursos de capacitación que tenían como objeto mejorar la atención a los clientes. Se pidió a cada una de las personas encuestadas que asignaran una calificación que reflejara la calidad del servicio del personal en una escala de 0 ( malo) a 10 ( excelente ). Los resultados obtenidos en cada una de estas etapas son presentados en la siguiente tabla: DATOS ANTES DESPUES # de clientes encuestados

71

81

calificación promedio desviación estándar con respecto a la calificación promedio # de clientes que dieron una calificación inferior a 5

6.85

8.66

0.95

0.46

47

28

En base a la información de la tabla. Estime un intervalo de confianza del: 1. 90% para la calificación promedio obtenida por el personal antes de la realización del curso. 2. 93% para la calificación promedio obtenida por el personal después del curso. 3. 98% para la proporción de clientes que calificó el servicio del personal antes de la realización del curso, con una calificación inferior a 5 puntos. _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

29

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 4. 98% para la proporción de clientes que calificó el servicio del personal después de la realización del curso, con una calificación inferior a 5 puntos. 5. 98% para la proporción de clientes que calificó el servicio del personal antes de la realización del curso, con una calificación superior a 5 puntos. 6. 98% para la proporción de clientes que calificó el servicio del personal después de la realización del curso, con una calificación superior a 5 puntos. 7. 95% para el incremento en la calificación promedio, respecto al servicio ofrecido por el personal, otorgada por los clientes antes y después del curso. 8. 93% para la Varianza y Desviación Estándar con respecto a la calificación promedio del personal, antes de la realización del curso. 9. 93% para la Varianza y Desviación Estándar con respecto a la calificación promedio del personal, después de la realización del curso. 10. ¿Fue suficiente el número de clientes encuestados (muestra) para estimar la calificación promedio en los incisos 1 y 2. ?. Si el error que se está dispuesto aceptar en la estimación de la calificación otorgada por los clientes no debe ser mayor de: a. 0.05; b. 0.10; c. 0.20 y d. si no se acepta ningún error en la estimación de la calificación. 11. ¿Fue suficiente el número de clientes encuestados (muestra) para estimar el porcentaje de clientes que asignaron una calificación inferior a 5 puntos en los incisos 3, 4, 5, y 6 ?. Si el error que se está dispuesto aceptar en la estimación del porcentaje no debe ser mayor del: a. 5%; b. 7%; c. 10% y d. si no se acepta ningún error en la estimación del porcentaje.

PRUEBA O VERIFICACIÓN DE HIPÓTESIS Es la segunda parte en la cual la Estadística en su área Inferencial se divide para su estudio. PROBAR O VERIFICAR UNA HIPÓTESIS. Es tomar una decisión respecto al valor que tiene el parámetro; o bien. Es comprobar a través de un proceso estadístico si el valor que se supone tiene el parámetro de una población es cierto o es falso. PROCEDIMIENTO. Para comprobar si el valor del parámetro sometido a prueba es cierto o es falso, es extraída y procesada una muestra de la población que se estudia. El resultado obtenido se compara con el valor sometido a prueba (valor hipotético). De esta comparación se generan dos alternativas: 1. Si no existe una diferencia “significativa “ entre estos dos valores; el valor que se supone tiene el parámetro de la población ( valor hipotético ), se ACEPTA como cierto. 2. Si existe una diferencia “significativa” entre el valor del parámetro obtenido en la muestra y el valor hipotético sometido a prueba, el valor que se supone tiene el parámetro de la población ( valor hipotético ), se RECHAZA como falso .

REGIONES DE ACEPTACION Y DE RECHAZO. Ejemplo: Yo supongo que esta moneda es “ legal ”, entendiendo como tal; que la moneda no está cargada en ninguno de sus lados, o bien, que existe la misma probabilidad que al lanzarla caiga “cara” o “cruz”. ( Es decir que al ser lanzada un número de veces el 50 % de los resultados serían cara y el otro 50 % sería cruz ). Para probar esto, una alternativa sería lanzarla un número determinado de veces y observar: ¿Cuántas caras y cuantas cruces que se presentan ?. Basados en esto; por ejemplo en n = 100 lanzamientos de la moneda esperaríamos obtener: 50 caras y 50 cruces. Pero una vez realizado el experimento ¿A que conclusión llegaríamos sobre el resultado obtenido ?. Veamos algunas alternativas analizadas por el lado de las caras:

a.

Resultado: 50 caras Con este resultado se comprobaría que la moneda es legal. Pero con…….. ¿ Con estos resultados b. Resultado: 51 caras.

consideraría Ud. que la

Pag.

_____ Cuaderno de trabajo de la materiamoneda de Estadística no es Aplicada legal ? _____ MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

30

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles c.

Resultado: 53 caras.

d. e. f. g.

Resultado: 55 caras. Resultado: 60 caras. Resultado: 65 caras. Resultado: 70 caras

¿ Y con estos ?

O bien: a. Resultado: 49 caras b. Resultado: 47 caras c. Resultado: 45 caras

¿ Con estos resultados consideraría Ud. que la moneda no es legal ?

d. Resultado: 40 caras e. Resultado: 35 caras ¿ Y con estos ? f. Resultado: 30 caras Aquí, la clave estaría; en establecer ….. “ un rango de aceptación, es decir, el mínimo y el máximo número de caras, dentro del cual consideraría que la moneda es legal ”. Es decir un intervalo de resultados en el cual se consideraría que no existe una diferencia significativa entre lo que nos esperábamos encontrar y el resultado. Por ejemplo: 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61

REGION DE RECHAZO ( RR )

REGION DE ACEPTACION ( RA )

REGION DE RECHAZO ( RR )

En prueba de hipótesis el principal objetivo es “Establecer el o los límites de aceptación hasta el cual se consideraría que lo que se esta comprobando es cierto ó es falso”. REGION DE ACEPTACION (RA): Zona de resultados en la cual se considera que no existe una diferencia significativa entre el valor hipotético sometido a prueba y el valor del parámetro muestral. REGIÓN DE RECHAZO (RR): Zona de resultados en la cual se considera que existe una diferencia significativa entre el valor hipotético sometido a prueba y el valor del parámetro muestral. TIPOS DE HIPOTESIS El primer paso a dar al realizar una prueba de hipótesis es el de hacer el planteamiento de dos proposiciones que están relacionadas con el valor supuesto del parámetro que se intenta someter a prueba. Dichas proposiciones son denominadas: HIPOTESIS NULA e HIPOTESIS ALTERNATIVA. HIPOTESIS NULA : ( Ho ) La proposición planteada en esta hipótesis deberá colocar a la persona que realiza la prueba en una posición imparcial a lo que intenta probar. El objetivo final de toda prueba de hipótesis es el de aceptar o rechazar la proposición planteada en la hipótesis nula; por esta razón algunos autores la denominan hipótesis de trabajo. HIPOTESIS ALTERNATIVA: ( H1 ) La proposición en esta hipótesis generalmente se plantea en función a lo que se intenta probar. Los autores la denominan hipótesis de investigación. Esta hipótesis es aceptada cuando el resultado del proceso estadístico no sostiene lo planteado en la hipótesis nula. TIPOS DE PRUEBAS ( UNA Y DOS COLAS ) En función a lo que se intenta probar respecto al valor del parámetro. Las pruebas de hipótesis se clasifican en dos tipos: _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

31

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Sean: PRUEBAS DE TIPO I:

PRUEBAS DE UN EXTREMO ( UNA COLA )

a. EXTREMO IZQUIERDO O COLA IZQUIERDA: Se genera cuando interesa que el valor del parámetro sometido a prueba alcance un mínimo valor para aceptar lo planteado en la hipótesis nula.

HO : θ = θ0 H1 : θ < θ0

RR

RA

b. EXTREMO DERECHO O COLA DERECHA: Se genera cuando interesa que el valor del parámetro muestral sometido a prueba no sobrepase un mínimo valor para aceptar lo planteado en la hipótesis nula.

HO : θ = θ0 H1 : θ > θ0 RA

RR

PRUEBAS DE TIPO II: DOS EXTREMOS ( DOS COLAS ) Se genera cuando interesa por una parte que el valor del parámetro sometido a prueba alcance un mínimo; pero por otra, que no sobrepase un máximo para aceptar lo planteado en la hipótesis nula.

HO : θ = θ0 H1 : θ ≠ θ0

RR

RA

RR

NIVEL DE SIGNIFICANCIA (

α

). Es aquel que establece los valores en el límite de aceptación o rechazo de la proposición planteada en la hipótesis nula ( el límite inferior y/o superior de aceptación ). El nivel de sigificancia generalmente se establece en términos de porcentaje, el cual generalmente oscila entre un 1 y 10 %, aún cuando pueden aplicarse niveles de significancia de otras magnitudes. Pudiéndose establecer que la probabilidad de _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

32

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles rechazar Ho cuando esta es cierta es directamente proporcional a la magnitud de dicho nivel de significancia. No hay un estándar o un nivel universal de significancia para probar una hipótesis. Es posible probar una hipótesis a cualquier nivel de significancia.

ERRORES TIPO I y TIPO II (

α

y 

β )

Al tomar la decisión de aceptar o rechazar la hipótesis nula, existe la posibilidad de caer en alguno de dos errores posibles:

ERRORES TIPO I (α

)

En una prueba estadística, es el error que se comete al tomar la decisión de rechazar la hipótesis nula cuando ésta es cierta.

ERRORES TIPO II (

β )

En una prueba estadística, es el error que se comete al tomar la decisión de no rechazar la hipótesis nula cuando ésta es falsa.

Ejemplo: Imagine las situaciones posibles que se pueden llegar a establecer en un juicio respecto a la decisión que toma un juez al emitir su veredicto en relación al acusado. VEREDICTO DEL JUEZ INOCENTE SITUACION DEL ACUSADO

CULPABLE

INOCENTE

ACIERTO

ERROR I I

CULPABLE

ERROR I

ACIERTO

Planteamiento de las hipótesis: Ho: El acusado es inocente H1: El acusado es culpable El error TIPO I ( α ) ocurriría cuando siendo inocente el acusado se le declara culpable (se rechaza Ho ) El error TIPO II ( β )  Ocurriría cuando siendo culpable el acusado se le declara inocente ( se acepta Ho). Para un problema en general, el cuadro anterior podría quedar de la siguiente manera:

ERRORES TIPO I y TIPO II ( α DECISION

ACEPTAR Ho

RECHAZAR Ho

y β

)

HIPOTESIS NULA CIERTA

FALSA

DECISION CORRECTA

ERROR TIPO II ( β )

ERROR TIPO I (α

)

DECISION CORRECTA

Notas: _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

33

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

1. Toda prueba o verificación de hipótesis tiene como objetivo aceptar o rechazar lo planteado en la hipótesis nula Ho. Por ello, a esta hipótesis se le denomina Hipótesis de trabajo 2. La proposición planteada en Ho, deberá colocar a la persona que realiza la prueba en una posición imparcial a lo que se trata de probar con respecto al valor del parámetro.

3. El planteamiento hecho con respecto al valor del parámetro sometido a prueba en la hipótesis nula H ( < , ≠ , > ), será el que define el tipo de prueba: Sea : θ

cualquier parámetro

θ

( µ , σ , P, µ x - µ y , P

x

- Py ,

σ

2

x



2

y

1

) poblacional

sometido aprueba y o el valor supuesto del parámetro sometido a prueba (valor hipotético de prueba), entonces se podría probar que

θ θ 

menor con respecto a un valor. ( extremo izquierdo ó cola izquierda ).

o o

diferente con respecto a un valor ( dos extremos o dos colas ). mayor con respecto a un valor ( extremo derecho o cola derecha ).

o

INSTRUCCIONES: Los siguientes problemas tienen como objetivo que el alumno: I.

Identifique el parámetro ó parámetros que se someterán a prueba.

II.

Exprese con palabras el planteamiento de las hipótesis: NULA ( Ho ) y

ALTERNATIVA ( H1 ). III.

El planteamiento hecho con palabras lo traduzca a expresiones algebraicas.

EJERCICIO 1. En los años 90, el porcentaje de alumnos de nuevo ingreso en una institución de educación superior que abandonaban sus estudios durante el primer semestre debido a que la carrera que habían elegido no cubría sus expectativas, era del 25 %. Para los periodos transcurridos en este nuevo siglo fue analizada una muestra de alumnos que abandonaron sus estudios por diferentes causas. En base al análisis de los resultados obtenidos: 1. Se quiere probar si el porcentaje de deserción por esta causa es el mismo, es decir; si puede considerarse que el porcentaje de deserción sigue siendo del 25 %. 2. Se quiere probar si se ha incrementado el porcentaje de deserción por esta causa, es decir; si puede considerarse que actualmente es mayor del 25 %. 3. Se quiere probar si ha disminuido el porcentaje de deserción, es decir; si puede considerarse que actualmente es menor al 25 %. EJERCICIO 2. El contenido en impreso en la etiqueta de una determinada marca de refresco es de 225 mililitros. Para comprobar dicho contenido se seleccionaron aleatoriamente botellas conteniendo dicho refresco y el volumen promedio obtenido fue utilizado para comprobación. En base al análisis de los resultados obtenidos: 1. Se quiere comprobar si el contenido es el mismo que el que dice la etiqueta. 2. Se quiere probar si dicho volumen es de al menos 225 mililitros. 3. Se quiere probar si dicho volumen supera los 225 mililitros. _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

34

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 4. Se quiere probar si dicho volumen no supera los 225 mililitros 5. Se quiere probar si el volumen es inferior al impreso en la etiqueta. EJERCICIO 3. Se trata de probar si el procedimiento propuesto para disminuir el tiempo empleado en la realización de una operación, es mejor que el procedimiento actual. Para compararlos, se aplicó un procedimiento específico a cada uno de dos grupos seleccionado aleatoriamente de alumnos y se compararon los resultados obtenidos con uno y otro método. Basados en estos resultados, se quiere probar: 1. La calificación promedio obtenida por los alumnos con el método TRADICIONAL es mínimo 75. 2. La calificación promedio obtenida por los alumnos con el método basado en el APRENDIZAJE SIGNIFICATIVO supera los 90 puntos. 3. Si no existe una diferencia en el nivel de aprovechamiento entre uno y otro método. 4. Si el método basado en el APRENDIZAJE SIGNIFICATIVO actual es mejor que el basado en el método TRADICIONAL. 5. Si el método basado en el MÉTODO TRADICIONAL es mejor que el basado en el APRENDIZAJE SIGNIFICATIVO. 6. Si la calificación promedio alcanzada con el método de APRENDIZAJE SIGNIFICATIVO supera en al menos 5 puntos a la calificación promedio alcanzada con el método de MÉTODO TRADICIONAL. 7. Si el Porcentaje de alumnos reprobados empleando el MÉTODO TRADICIONAL es de cuando más el 25%. 8. Si el Porcentaje de alumnos reprobados empleando el APRENDIZAJE SIGNIFICATIVO es máximo del 15%. 9. Si es mayor el porcentaje de alumnos reprobados con el MÉTODO TRADICIONAL que empleando el método de APRENDIZAJE SIGNIFICATIVO. EJERCICIO 4. Los folletos de publicidad de un automóvil compacto de conocida marca, manejan que el promedio de rendimiento del mismo, en condiciones normales de operación es de 17.4 kilómetros / litro. Para someter a prueba esta afirmación se realizan pruebas en diferentes autos de dicha marca. 1. Se quiere probar si el rendimiento difiere con lo que dice la publicidad. 2. Se quiere probar si dicho rendimiento es superior a lo que afirma la publicidad. 3. Se quiere probar si el rendimiento es inferior a lo que los folletos publicitarios afirman. EJERCICIO 5. El gerente de una línea de autobuses realiza la programación de sus corridas con base en que un autobús requiere en promedio, un tiempo de cuando más 40 minutos en recorrer la distancia Orizaba-Córdoba, Para corroborar esto fueron cronometradas una muestra seleccionada aleatoriamente de corridas. Desarrolle el planteamiento de las hipótesis Nula y Alternativa ( expresando con palabras y posteriormente a través de símbolos ).

EJERCICIO 6.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

35

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles El promotor de una dieta para reducir peso afirma que en promedio, la persona que se someta a ella siguiendo las indicaciones, reducirá al menos 2 kgs. en una semana. Para probar esta afirmación fue seleccionada aleatoriamente una muestra de personas sometidas a tal régimen. Desarrolle el planteamiento de las hipótesis Nula y Alternativa

EJERCICIO 7. Un estudio relacionado con el nivel de consumo diario y la preferencia de dos de las principales marcas de refresco de cola ( marcas A y B para nuestro ejemplo ) en una amplia región del país, involucró la aplicación de encuestas a una muestra de personas seleccionada aleatoriamente de la región; en base a los resultados del análisis de la muestra. Se desean probar los siguientes supuestos: I. ¿Cuales serían el o los parámetros que utilizaría para medir? a. La preferencia de cualquiera de las dos marcas: Nombre ____________ Símbolos ____________ b. El consumo de refresco de cualquiera de las dos marcas: Nombre __________ Símbolos ____________ II. Exprese con palabras y después con expresiones algebraicas el planteamiento de las hipótesis: NULA ( Ho ) y ALTERNATIVA ( H1 ).

1. Si el consumo promedio del refresco de cola para las personas que demandan la marca A es de cuando menos 200 mililitros diarios.

2. Si el consumo promedio del refresco de cola para las personas que demandan la marca A es mayor a 200 mililitros diarios.

3. Si el consumo promedio de refresco de cola para las personas que demandan la marca B es de cuando más 200 mililitros al día.

4. Si el consumo promedio de refresco de cola para las personas que demandan la marca B es menor a 200 mililitros al día

5. Si se puede considerar que al menos el 60% de las personas que consumen refresco de cola, prefieren la marca A.

6. Si se puede considerar que menos del 60% de las personas que consumen refresco de cola, prefieren la marca A.

7. Si se puede considerar que máximo 35% de las personas que demandan para consumo refresco de cola, prefieren la marca B.

8. Si se puede considerar que el consumo promedio de las personas que prefieren refresco de cola es el mismo en las dos marcas.

9. Si es significativamente menor el consumo promedio de las personas que prefieren la marca B que aquellos que se inclinan por la marca A.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

36

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

10. Si los que prefieren la marca A consumen en promedio al menos 50 mlls. más de refresco al día que los que prefieren la marca B.

11. Si es significativamente mayor la preferencia por parte de los consumidores de refresco de cola por la marca A que por la marca B.

12. Si difiere significativamente la preferencia por parte de los consumidores de refresco de cola por la marca A que por la marca B.

13. Si la varianza con respecto a las ventas promedio de la marca A es la misma que la varianza con respecto a las ventas promedio de la marca B.

14. Si la varianza con respecto a las ventas promedio de la marca A es la mayor que la varianza con respecto a las ventas promedio de la marca B.

Problema 1. “La estabilidad de las mediciones de las características de un producto manufacturado es importante para mantener su calidad. En realidad, es mejor tener, a veces una pequeña variación en el valor medido de alguna de sus características importantes y tener una media del proceso dentro del “rango de aceptación”, que tener una amplia variación con una media que supuestamente se ajusta a las necesidades, dado que puede producir un porcentaje de productos defectuosos mayor que en el primer caso”.

Ofrecer Un producto homogéneo en cuanto a su comportamiento ha sido una de las principales preocupaciones de una empresa fabricante de bombillas eléctricas para lograr un control adecuado, somete periódicamente a pruebas de operación en condiciones normales de servicio. De una de estas pruebas realizadas se obtuvo la información correspondiente a dos líneas de producción y que se presenta en la siguiente tabla:

DESCRIPCIÓN

LINEAS

# de muestras.

A 86

B 91

promedio de duración

1 190 hrs.

1 062 hrs.

desviación estándar # de lámparas que dilataron menos de 1 200 hrs

303 hrs.

162 hrs.

34

20

Puede considerarse a un nivel de significancia del:

1. 5%, que el tiempo promedio de duración de los focos producidos por la LINEA A es de al menos 1 200 horas.

2. 8%, que el tiempo promedio de duración de los focos producidos por la LINEA B no supera las 1 000 horas.

3. 10%, que es significativamente mayor la duración de los focos producidos por la LINEA A que los focos producidos por la LINEA B.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

37

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

4. 6%, que la diferencia en el tiempo promedio de duración entre esta clase de focos es mayor a las 120 horas.

5. 5%, que la desviación estándar con respecto al tiempo promedio de duración de los focos producidos en la LINEA A supera significativamente el valor de 290.

6. 10%, que la desviación estándar con respecto al tiempo promedio de duración de los focos producidos en la LINEA B es de cuando más 150.

7. 5% Si el porcentaje de focos con una duración menor a las 1 200 horas

producidos por la

LINEA A es superior al 35%.

8. El porcentaje de focos con una duración menor a las 1 200 horas

producidos por la LINEA

B es inferior al 25 %.

9. 8% Si la diferencia en el porcentaje de focos producidos por las dos clases de líneas con una duración inferior a las 1 200 horas es de al menos el 15 %.

Problema 2.

El tiempo de secado de un tipo de pintura anticorrosiva depende de la cantidad de solvente “X” con lo cual se prepara la misma. Con el objeto de determinar en que grado afecta la cantidad de este solvente en el tiempo de secado, fue realizado un experimento utilizando diferentes cantidades. Para el estudio se determinó que las cantidades de interés eran de 15 grs/lt. y 30 grs/lt. de solvente, añadido en la mezcla con la cual se preparó. Los datos obtenidos aparecen en la tabla. DESCRIPCIÓN número de pruebas realizadas tiempo promedio de secado (min.) varianza desviación estándar

CANTIDAD DE SOLVENTE 15 grs/lt 30 grs/lt 21 20 48 37 2.3 1.8 1.52 1.67

Suponiendo que los tiempos de secado de la pintura anticorrosiva se distribuyen normal-mente. En base a estos resultados ¿Se puede considerar a un nivel de significancia del: 1. 5% que el tiempo promedio de secado de la pintura con 15 grs. de solvente es de cuando más 45 minutos. 2. 10% que el tiempo promedio de secado de la pintura con 30 grs. de solvente es de al menos 35 minutos. 3. 5% que el tiempo promedio de secado de la pintura con 15 grs. de solvente es significativamente mayor que el tiempo promedio de secado de la pintura con 30 grs/lt. . 4. 5% que el tiempo promedio de secado de la pintura con 15 grs. de solvente es mayor en al menos 5 minutos más que el tiempo promedio de secado de la pintura con 30 grs/lt. _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

38

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 5. 5% que la varianza con respecto al tiempo el tiempo promedio de secado de la pintura con 15 grs. de solvente es de cuando más 2 grs/lt. 6. 5% que la varianza con respecto al tiempo el tiempo promedio de secado de la pintura con 30 grs. de solvente es de cuando menos 2.0 grs/lt.

Problema 3.

Con el objeto de estar en un nivel competitivo, se genera la necesidad en los productores de diseñar procesos más eficientes sin descuidar la calidad de los productos elaborados. Por tal motivo fue sometido a prueba un nuevo método en el ensamble de un dispositivo electrónico. Para tal fin fueron ensamblados dispositivos empleando el método actual y el propuesto obteniendo los siguientes resultados:

DATOS número de piezas tiempo promedio por pza. desviación estándar piezas defectuosas en la muestra

METODO

ACTUAL

PROPUESTO

79

85

35.9 min.

23.3 min.

8.4

12.3

8

17

En base a los resultados presentado en la tabla. Pruebe a un nivel de significancia del: 1. 5% si el tiempo promedio en realizar el ensamble del dispositivo empleando el método ACTUAL es de cuando mas 35 minutos. 2. 10% si el tiempo promedio en realizar el ensamble del dispositivo empleando el método PROPUESTO es inferior a los 25 minutos. 3. 8% si el tiempo promedio en realizar el ensamble del dispositivo empleando el método ACTUAL significativamente diferente al del método PROPUESTO. 4. 10% si el porcentaje de piezas defectuosas con el método PROPUESTO es mayor al 17%. 5. 10% Si es significativamente mayor el porcentaje de piezas defectuosas al emplear el método PROPUESTO que al emplear el método ACTUAL 6. 5% si el ahorro en tiempo es significativo al emplear el método PROPUESTO con respecto al método ACTUAL. 7. 10% si hay un ahorro de tiempo de cuando mas 10 minutos al emplear el método PROPUESTO con respecto al método ACTUAL, al ensamblar el dispositivo. 8. 10% si es superior a 60 la varianza con respecto al tiempo al emplear el método ACTUAL. _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

39

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

Problema 4. Teniendo como objetivo "mejora en el servicio", como una de las estrategias de mercadotecnia para el incremento en sus ventas. Una gran cadena de supermercados muestreó las opiniones de sus clientes respecto al servicio ofrecido antes y después que el personal asistiera a cursos de capacitación que tenían como objeto mejorar la atención a los clientes. Se pidió a cada una de las personas encuestadas que asignaran una calificación que reflejara la calidad del servicio del personal en una escala de 0 ( malo) a 10 ( excelente ). Los resultados obtenidos en cada una de estas etapas son presentados en la siguiente tabla: DATOS

ANTES

DESPUES

# de clientes encuestados

60

75

calificación promedio

6.35

8.76

0.95

0.46

47

28

desviación estándar con respecto a la calificación promedio # de clientes que dieron una calificación inferior a 5

En base a los resultados presentados en la tabla. ¿Puede considerarse a un nivel de significancia del: 1. 10% que el promedio en la calificación obtenida por el personal; antes de la capacitación no superaba los 6.75 puntos? 2. 5% que la calificación promedio obtenida por el personal; después de la capacitación supera los 8.5 puntos ?. 3. 6% que más del 70% del personal en esta empresa obtuvo una calificación menor a 5 puntos antes del curso de capacitación ?. 4. 5% que cuando más el 30% del personal en esta empresa obtuvo una calificación menor a 5 puntos después del curso de capacitación ?. 5. 6% que el promedio en la calificación obtenida por el personal antes de la capacitación es significativamente diferente a la obtenida después del curso ?. 6. 6% que el promedio en la calificación obtenida por el personal antes de la capacitación es significativamente diferente a la obtenida después del curso ?. 7. 5% que el resultado del curso mejoró significativamente la calificación ?. 8. 5% que el promedio en la calificación obtenida por el personal después de la capacitación supera en al menos 1.5 puntos a la obtenida antes del curso ? _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

40

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 9. 10 % que la varianza con respecto a la calificación obtenida por el personal; antes de la capacitación es superior a 0.8 . 10. 10 % que la varianza con respecto a la calificación obtenida por el personal; después de la capacitación es inferior a 0.25 .

Problema: Fue propuesto al gerente de producción de la empresa fabricante de ropa de mezclilla para caballero un nuevo hilo de algodón para ser empleado en la confección de las prendas, con una mayor resistencia que el que actualmente se esta usando. Para tomar una decisión, el hilo propuesto fue sometido a pruebas de tensión, comparándolo con el que actualmente se está utilizando. Los resultados se presentan en la siguiente tabla: D A T O S

ACTUAL

PROPUESTO

Pruebas realizadas

45

50

Resistencia media

2.1 kg.

3.8 kg.

Desv. Estándar.

1.0 kg.

1.5 kg.

Probar a un nivel de significancia del 5 %, si puede considerarse que:

1. La resistencia promedio a la tensión del hilo PROPUESTO es superior a 3.5 kg. 2. El hilo PROPUESTO supera la resistencia promedio en al menos 2 kgs. A la del hilo ACTUAL.

3. La varianza con respecto a su resistencia del hilo ACTUAL es de cuando más 0.8 kgs. 4.

5. Es significativamente mayor la varianza con respecto a la resistencia promedio del hilo PROPUESTO ACTUALMENTE.

al compararla

con

hilo que

se está empleando

Problema 1. El proceso de aseguramiento de la calidad en una empresa de la Industria Metal-Mecánica, ha tenido avances significativos. Uno de los procesos que ha mejorado no tan solo en la calidad del producto sino en la reducido de sus tiempos de operación; ha sido en el del maquinado del embrague para freno de auto. Para tal fin fueron diseñados nuevos aditamentos y se emplearon nuevas herramientas de corte, propuestas por los proveedores. Con el objeto de evaluar los resultados obtenidos fueron comparados los tiempos realizados ANTES Y DESPUES de la aplicación de las mejoras. La tabla siguiente presenta los resultados del análisis de muestras seleccionadas aleatoriamente respecto al tiempo realizado al inicio del programa y los que actualmente se presentan:

DESCRIPCIÓN

PROCESO INICIAL MEJORADO

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

41

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles tamaño de la muestra tiempo promedio (minutos) desviación estándar

29 79.8 29.24

27 57.3 15.76

Suponiendo que los tiempos en realizar el maquinado de los embragues con cualquiera de los dos procesos, se distribuye normalmente. En base a estos resultados ¿Se puede considerar a un nivel de significancia del:

1. 5% que el tiempo promedio realizado en el maquinado del embrague ANTES de la implementación 2. 3. 4. 5. 6. 7.

de las mejoras era superior los 73 minutos. 10% que el tiempo promedio realizado en el maquinado del embrague DESPUES de la implementación de las mejoras es inferior a los 60 minutos. 5% que el tiempo promedio realizado en el maquinado del embrague disminuyó significativamente DESPUES de la implementación de las mejoras con relación al tiempo realizado en esta operación ANTES de aplicarlas?. 8% que el tiempo promedio realizado en el maquinado del embrague disminuyó significativamente DESPUES de la implementación de las mejoras, en al menos 25 minutos, con relación al tiempo realizado en esta operación ANTES de su aplicación?. 5% si la desviación estándar con respecto al tiempo promedio realizado en el maquinado del embrague ANTES de la implementación de las mejoras era superior 25 minutpos 10% si la desviación estándar con respecto al tiempo promedio realizado en el maquinado del embrague DESPUES de la implementación de las mejoras es inferior a los 20 minutos?. 5% si la varianza con respecto al tiempo promedio realizado en el maquinado del embrague ANTES de la implementación de las mejoras era superior a la de DESPUES de su aplicación?.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

42

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

PRUEBA DE BONDAD DE AJUSTE Prueba realizada para determinar si una población tiene una distribución teórica especificada. Está basada en el grado de ajuste que existe entre la frecuencia de ocurrencias de las observaciones en una muestra observada

y las frecuencias esperadas que se obtienen de una distribución hipotética. Dichas

diferencias pueden ser debidas entre otras causas a: a. Fluctuaciones propias de los elementos que participan en la muestra. b. Que el fenómeno observado realmente no presenta el comportamiento que se trata de probar. El planteamiento de las hipótesis sería: Ho: Presenta comportamiento ………………………….. H1: No presenta comportamiento………………………

χc2

Ho se rechaza si:

Donde: Con: Donde:

χc2 :

es un valor de la variable aleatoria

χ

2 = c

>

χα2

( fo −fe ) 2 ∑ fe i =1 k

φ = número de celdas - 1

χ2 cuya distribución muestral se asemeja

a la distribución Chi-Cuadrada.

χα2 :

es el valor de la variable aleatoria

χ2 obtenido en tablas

fo : frecuencias observadas en la i - ésima celda. fe : frecuencias esperadas en la i - ésima celda. Celda: Es cada resultado posible del experimento Nota. Entre mayor sea la diferencia entre las frecuencias observadas y las esperadas, mayor será el valor de

χc2

y por lo tanto mayor será la probabilidad de rechazar la hipótesis nula Ho. Este criterio de decisión

no debe usarse si las frecuencias observadas son menores a cinco.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

43

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Problema 1.

El registro de la estatura expresada en metros de una muestra seleccionada aleatoriamente de 154 estudiantes de una Institución Educativa se presenta en la siguiente tabla. Probar la hipótesis que de que la estatura de estos alumnos se distribuye normalmente. (Utilice un nivel de significancia del 10 %). ESTATURA (metros) 1.54 – 1.57 1.58 – 1.61 1.62 – 1.65 1.66 – 1.69 1.70 – 1.73 1.74 – 1.77 1.78 – 1.81 1.82 – 1.85

# alumnos 13 16 23 25 32 21 13 11

LIMITES REALES

mi

fi

mi fi

fi (mi – x-)2

Z1

Z2

1.535 – 1.575

1.555

13

20.215

0.2369

-2.08

- 1.55

1.575 – 1.615

1.595

16

25.520

0.1444

- 1.55

- 1.01

1.615 - 1.655

1.635

23

37.605

0.0696

- 1.01

- 0.48

1.655 - 1.695

1.675

25

41.875

0.0056

- 0.48

- 0.05

1.695 - 1.735

1.715

32

54.880

0.0200

- 0.05

0.59

1.735 - 1.775

1.755

21

36.855

0.0131

0.59

1.12

1.775 - 1.815

1.795

13

23.335

0.1433

1.12

1.65

1.815 – 1.855

1.835

11

20.185

0.2313

1.65

2.19

260.47

0.8642

AREA

fo

X = 1.691 S2= 0.00565 S = 0.075

LIMITES REALES

FRECUENCIAS OBSERVADAS fo

AREA O PROBABILIDAD

FRECUENCIAS ESPERADAS fe

( fe- fo ) 2

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

44

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 1.535 – 1.575

13

1.575 – 1.615

16

1.615 - 1.655

23

1.655 - 1.695

25

1.695 - 1.735

32

1.735 - 1.775

21

1.775 - 1.815

13

1.815 – 1.855

11

Problema 2.

En base a las estadísticas de periodos anteriores de la Secretaría del Trabajo los accidentes de tipo laboral, en la Industria Metal-Mecánica: el 45% de los mismos son debidos a la falta de capacitación del trabajador, el 25% su origen se debe a equipo de protección inadecuado para la labor que realizan, el 20% a la falta de concentración o descuido del trabajador en la función realizada, y el 10% al cansancio o fatiga del trabajador. Para este periodo; de los 225 accidentes que ocurrieron en empresas de este giro, el origen de los accidentes fueron debidos a: ORIGEN DE LO S ACCIDENTES falta de capacitación

equipo de protección

falta de concentración o descuido

cansancio o fatiga

110

52

49

14

En base a estos resultados, ¿Se puede considerar que el origen de los accidentes fue diferente al de periodos anteriores?. (Utilice un nivel de significancia del 10 %). Problema 3.

En un proceso de producción se toma una muestra aleatoria de 150 artículos cada uno de los 5 días laborables de la semana y estos son inspeccionados para encontrar los artículos defectuosos. Para una semana determinada el total de artículos defectuosos fueron 60, los cuales se presentaron de la siguiente manera: DÍA

LUNES

MARTES

MIERC.

JUEVES

VIERNES

TOTAL

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

45

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles # de piezas defectuosas

13

12

9

14

12

60

En base a estos resultados, ¿Se puede considerar que existe una diferencia significativa en el porcentaje diario de artículos defectuosos? (Utilice un nivel de significancia del 8 %).

Problema 5.

En el lanzamiento de 120 veces un dado, se obtuvieron los resultados que se presentan en la tabla:

# DE VECES

1

2

C A R A S 3 4

18

24

23

19

5

6

15

21

En base a estos resultados ¿Se puede considerar que el dado está balanceado ?. Utilice un nivel de significancia del 10 %.

Problema 6.

El sexo registrado en 1000 nacimientos es el que se presenta en la siguiente tabla: S

número

E

X

O

masculino

femenino

440

560

Estos datos apoyan la hipótesis que la proporción de hombres y mujeres es la misma. Utilice un nivel de significancia del 10 %. Realice las siguientes pruebas: 1. Bondad de ajuste. 2. De hipótesis para una proporción. 3. De una diferencia de proporciones

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

46

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

PRUEBA DE INDEPENDENCIA Prueba realizada para determinar si existe o no relación entre dos variables. Conceptos: Tabla de contingencia: Formada por filas → y columnas↓. Y esta formada de tal manera que clasifica y relaciona la información que se presenta entre filas columnas. Dimensiones de una tabla de contingencia: Una tabla de contingencia se describe nombrando primero el numero de filas y después el número de columnas ( # de filas x # de columnas), sin tomar en cuenta la fila ni la columna de los totales. Ejemplo: La información presentada en la tabla hace referencia al número de piezas vendidas de tres diferentes prendas de vestir en los últimos años:

ARTICULO PANTALONES CAMISAS ZAPATOS TOTAL

numero de artículos vendidos 1 995

1 996

1 997

1 998

3 545 1 156 567 5 268

3 890 1 546 678 6 114

4 087 2 345 989 7 421

4 235 2 567 1 025 7 827

TOTAL 15 757 7 614 3 259 26 630

Dimensiones de la tabla: Es una tabla de contingencia de 3 x 4 . El planteamiento de las hipótesis sería: Ho: las variables analizadas son independientes H1: El valor que toma una variable depende del valor que toma la otra. Ho se rechaza si:

Donde:

χc2

>

χ

χα2

2 = c

( fo −fe ) 2 ∑ fe i =1 k

Con φ = ( número de filas - 1 ) ( número de columnas - 1 ) Donde:

χc2 :

χα : 2

fo : fe :

es un valor de la variable aleatoria a la distribución Chi-Cuadrada. es el valor de la variable aleatoria

χ2

cuya distribución muestral se aproxima

χ2 obtenido en tablas

frecuencias observadas en la i - ésima celda. frecuencias esperadas en la i - ésima celda.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

47

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Nota: Entre mayor sea la diferencia entre las frecuencias observadas y las esperadas, mayor será el valor de

χc2

y por lo tanto mayor será la probabilidad de rechazar la hipótesis nula Ho. Este criterio de

decisión no debe usarse si las frecuencias observadas no son de al menos cinco. Problema 1.

En una investigación socioeconómica efectuada en una población con el objeto determinar la relación existente entre el número de hijos por familia y el grado académico máximo alcanzado por el padre fueron seleccionadas aleatoriamente 200 familias para encuestarlas, obteniéndose la información que se presenta en la siguiente tabla: NÚMERO DE HIJOS

MÁXIMO GRADO ESCOLAR ALCANZADO POR LOS PADRES

O-1

2-3

PRIMARIA SECUNDARIA BACHILLERATO total

14 19 12 45

37 42 17 96

+ de 3 32 17 10 59

TOTAL 83 78 39 200

En base a estos resultados, se puede considerar que el número de hijos que tiene una familia depende del nivel escolar alcanzado por el padre. Utilice un nivel de significancia del 10%.

Problema 2.

Al preparar una campaña promocional a nivel nacional para un producto alimenticio, una oficina publicitaria desea determinar si la edad es un factor para la aceptación del producto. Por tanto la firma ha encuestado cuatro grupos distintos de edad obteniéndose la siguiente información. GRUPO DE EDAD (años) CALIFICACION

TOTAL

10 - 19

20 - 29

30-49

50 ó +

EXCELENTE

25

40

47

46

158

BUENO REGULAR MALO TOTAL

69 36 25 155

51 29 24 144

74 19 30 170

57 37 21 161

251 121 100 630

En base a estos resultados, se puede considerar el grado de aceptación del producto depende de la edad de la persona. Utilice un nivel de significancia del 10 %. Al preparar una campaña promocional a nivel regional una empresa refresquera desea determinar ¿Qué tanto influye en la demanda el punto o lugar de venta del producto?. Para determinarlo, la firma ha colocado su producto en cuatro grupos distintos de edad obteniéndose la siguiente información. _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

48

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

GRUPO DE EDAD (años) CALIFICACION

TOTAL

10 - 19

20 - 29

30-49

50 ó +

EXCELENTE

25

40

47

46

158

BUENO REGULAR MALO TOTAL

69 36 25 155

51 29 24 144

74 19 30 170

57 37 21 161

251 121 100 630

En base a estos resultados, se puede considerar el grado de aceptación del producto depende de la edad de la persona. Utilice un nivel de significancia del 10 %. Problema 3.

La gerencia de la Cia. "X" con el objeto de estimular a sus vendedores ha propuesto un nuevo método de pago el cual consiste en comisiones sobre ventas realizadas en contra del actual; salario fijo más bono de compensación al finalizar el año. Para ello puso a consideración su plan, muestreando aleatoriamente a una muestra de vendedores en cada una de las zonas que tiene; obteniéndose los siguientes resultados:

número de vendedores que prefieren METODO ACTUAL METODO PROPUESTO TOTAL

Z NOROESTE

SURESTE

O

N

CENTRO

A COSTA

TOTAL

32

31

49

55

167

24

33

63

26

146

56

64

112

81

313

En base a estos resultados, se puede considerar el grado de aceptación del método de pago propuesto es el mismo en cada una de las zonas consideradas. Utilice un nivel de significancia del 10 %. Problema 4. Las compañías aseguradoras están revisando su política de cobrar primas reducidas para los seguros de automóviles pequeños, debido a que la proporción de accidentes fatales en este tipo de transporte es mayor al compararlo con los autos grandes. Para investigar este problema se realizó un análisis sobre la distribución de accidentes en los que al menos un pasajero resultó gravemente herido o falleció. Los datos de 322 accidentes se muestran en la tabla. DESCRIPCIÓN DEL ACCIDENTE Con heridas fatales o graves

TAMAÑO DEL AUTOMOVIL PEQUEÑO

COMPACTO

GRANDE

71

29

21

TOTAL 121

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

49

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Sin heridas fatales o graves

133

19

49

201

TOTAL

204

48

70

322

¿ Indican los datos que la frecuencia de accidentes con heridos fatales o graves dependen del tamaño del automóvil ?. Utilice un nivel de significancia del 10 %. Problema 3.

Durante el proceso de control de la calidad en la producción de un artículo fabricado en líneas diferentes de una empresa. Se toma una muestra aleatoria de 120 artículos en cada una de y estos son inspeccionados para encontrar los artículos defectuosos. Efectuada la inspección el total de artículos defectuosos fueron 60, los cuales se presentaron de la siguiente manera:

4

LINEA DÍA

I

II

III

IV

# de piezas defectuosas En base a estos resultados, ¿Se puede considerar que existe una diferencia significativa en el porcentaje de artículos defectuosos en las diferentes líneas? ( Utilice un nivel de significancia del 8 % ).

CONCEPTOS ANÁLISIS DE REGRESIÓN. Análisis que tiene por objetivo estimar el valor de una variable a través de otra, mediante métodos estadísticos, utilizando datos observados de eventos similares ya ocurridos. El término regresión lineal implica que el valor medio que toma Y variable dependiente dado un valor x variable independiente (µ y/x ), está linealmente relacionado por la ecuación de regresión lineal poblacional: µ y/x= α + β x donde los coeficientes de regresión α y β son parámetros que deben estimarse a partir de los datos muestrales. Si a y b representan estas estimaciones respectivamente, se puede entonces estimar µ y/x por



Y

de la regresión muestral o de la línea de regresión ajustada. ∧

Y=a+bx

donde: a: el valor de la ordenada al origen. b: el valor de la pendiente de la recta _____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

50

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles ANÁLISIS DE CORRELACION. Técnica que determina la fuerza con que las variables están relacionadas. COEFICIENTE DE CORRELACION. Determina el porcentaje de valores que toma la variable dependiente ( y ), que son explicados por la línea estimada de regresión. ECUACIÓN DE ESTIMACIÓN. Formula matemática que relaciona la variable desconocida con la (s) variable (s) conocida (s) en el análisis de regresión. ERROR ESTÁNDAR DE LA ESTIMACIÓN Medida de la confiabilidad de la ecuación de estimación, que indica la variabilidad de los puntos observados alrededor de la línea de regresión, esto es; hasta que punto los valores observados difieren de sus valores estimados obtenidos con la ecuación establecida. LÍNEA DE REGRESIÓN Línea ajustada a un grupo de puntos para estimar la relación entre dos variables. MÉTODO DE MÍNIMOS CUADRADOS Técnica para ajustar una línea recta a través de un conjunto de puntos, de tal manera que la suma entre la diferencia de las distancias del valor observado y el valor estimado, elevadas al cuadrado, sea el mínimo. PENDIENTE Constante ( b ) para cualquier línea recta dada, cuyo valor representa: Que tanto, el cambio del valor de la variable independiente ( X ), modifica el valor de la variable dependiente ( Y ). VARIABLE DEPENDIENTE La variable ( Y ) que se intenta predecir en el análisis de regresión. VARIABLE INDEPENDIENTE Variable ( s ) conocida ( s ) en el análisis de regresión ( x1 , x2, .... ( xi ). RELACIÓN LINEAL Tipo particular de asociación entre dos variables que puede describirse matemáticamente mediante una línea recta. RELACION DIRECTA Relación entre dos variables en las que al incrementarse el valor de la variable independiente, se incrementa el valor de la variable dependiente. RELACIÓN INVERSA Relación entre dos variables en las que al incrementarse el valor de la variable independiente, decrece el valor de la variable dependiente. DIAGRAMA DE DISPERSION Gráfico que se construye a partir de los valores observados de dos variables una denominada variable independiente ( X ) y la otra variable dependiente ( Y ). Que tiene como función: 1. Conocer de forma gráfica si existe o no relación entre las dos variables. 2. Definir que tipo de relación se presenta en caso de existir.

DIAGRAMAS DE DISPERSION

TIPOS DE RELACIONES ENTRE VARIABLES y

y

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

51

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

LINEAL DIRECTA y

x

L

LINEAL

x

INVERSA

y

x

x ESTACIONARIA

NO EXISTE RELACION

Problema 1. Con el objeto de establecer una ecuación que establezca los costos de producción (directos e indirectos), basándose en el nivel de producción, una empresa recabó información sobre los gastos generales expresados en miles de pesos y las unidades producidas, en diferentes plantas con las que cuenta la Compañía, la cual se muestra en la siguiente tabla.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

52

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles

1

Gastos generales (miles de pesos) 184

Unidades producidas 38

2

163

40

3

265

51

4

148

33

5

273

54

6

166

37

7

227

46

8

109

30

9

146

35

10

167

39

11

173

43

12

158

39

#

Con base en esta información: 1. Desarrolle la ecuación de estimación que mejor describa estos datos. 2. Empleando la ecuación desarrollada en el punto anterior, determine un intervalo de confianza del 96% para la estimación de los gastos generales que se generan al producir: a. 45 unidades. b. 50 unidades. 3. Determine los coeficientes de correlación y determinación.

Problema 3. Con el objeto de determinar el presupuesto de operación para el próximo año, se intenta definir una ecuación para estimar los gastos de reparación de los camiones de una empresa, de auto transporte de carga; con base en su antigüedad. Para ello se toma como base las erogaciones hechas por este concepto en el último año en los diferentes camiones con que la empresa cuenta., lo cual se muestra en la siguiente tabla:

Camión

Edad del camión en años

Miles de pesos gastados mantenimiento

1

6

16.5

2

5

13.0

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

53

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 3

5

13.6

4

3

13.2

5

3

12.8

6

1

10.8

7

1

11.0

8

6

15.8

Con base en esta información: 1. Determine la ecuación que mejor se ajuste a este conjunto de datos. 2. Empleando la ecuación desarrollada en el punto 2, determine un intervalo del 95% para la estimación del gasto en mantenimiento para camiones con: 2 y 4 años de uso respectivamente. 3. Determine los coeficientes de correlación y determinación.

Problema 2: Si bien, no es la publicidad de un artículo ofertado el único factor que influye en su demanda, es un hecho que a mayor y mejor publicidad, las ventas de un producto se incrementan. El gerente de ventas de una empresa que confecciona ropa para dama está interesado en establecer una relación del comportamiento de estas dos variables: (inversión en miles de pesos y monto de las ventas que se observaron), para ello tomó los registros de ventas de los últimos diez años en los cuales fue promocionada una línea de ropa en sus diferentes modelos. La siguiente tabla presenta los resultados observados en los mismos:

1 997

Gastos de Publicidad ( miles de pesos ) 34

Ventas anuales ( millones de pesos ) 1.09

1 998

48

1.16

1 999

39

1.26

2 000

51

1.49

2 001

44

1.34

2 002

41

1.23

2 003

50

1.32

2 004

56

1.42

2 005

61

1.48

Año

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

54

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles 2 006

54

1.24

2 007

58

1.39

2 008

49

1.35

Con base en esta información: 1. Determine la ecuación que mejor se ajuste a este conjunto de datos. 2. Empleando la ecuación desarrollada en el punto anterior, estime un intervalo de confianza del 90% para las ventas anuales para una inversión en publicidad de: a. $ 53 000.00 b. $ 38 000.00 3. Determine los coeficientes de Correlación y Determinación

Problema 3. Con el objeto de estimar sus costos de producción para elaborar su Programa Operativo Mensual el Gerente de Producción desea establecer la relación existente entre el número de piezas producidas y el costo. Para ello tomó de los registros de producción de los últimos doce meses el comportamiento de estas dos variables. La siguiente tabla presenta los resultados observados: Año

Número de piezas producidas

Costo (miles de pesos)

Diciembre

131

25.1

Enero

117

24.3

Febrero

149

25.3

Marzo

149

25.4

Abril

122

24.4

Mayo

145

25.7

Junio

154

30.1

Julio

153

30.0

Agosto

112

24.1

Septiembre

142

25.5

Octubre

128

24.7

Noviembre

163

33.1

Con base en esta información: 1. Determine la ecuación que mejor se ajuste a este conjunto de datos. 2. Empleando la ecuación desarrollada en el punto anterior, estime un intervalo de confianza del 90% para el costo estimado en producir 120 piezas 3. Determine los coeficientes de Correlación y Determinación.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

55

TEMA: ANALISIS DE REGRESIÓN LINEAL _______________________________________Fernando Fernández Rodiles Ejercicio 1. Dado el siguiente conjunto de datos i xi

1 8

2 4

3 15

4 10

5 12

6 7

7 18

8 5

9 13

10 10

11 25

12 22

Yi

25

15

37

29

23

23

45

16

35

30

72

62

Con base en esta información: 1. Desarrolle la ecuación de estimación que mejor describa el comportamiento de estos datos. 2. Empleando la ecuación desarrollada en el punto anterior, determine un intervalo de confianza del 90% para la estimación del número de unidades producidas cuando la variable

a. x i toma el valor de 16.

b. x i toma el valor de 24

3. Determine los coeficientes de correlación y determinación.

Ejercicio 2. Dado el siguiente conjunto de datos i

1

2

3

4

5

6

7

8

9

xi

66

75

41

54

25

49

46

30

34

15

11

8

10

5

10

9

7

6

Yi

Con base en esta información: 1. Desarrolle la ecuación de estimación que mejor describa el comportamiento de estos datos.

2. Empleando la ecuación desarrollada en el punto anterior, determine un intervalo de confianza del 90% para la estimación del número de unidades producidas cuando la variable x i toma el valor de 26 . 3. Determine los coeficientes de correlación y determinación.

_____ Cuaderno de trabajo de la materia de Estadística Aplicada _____ Pag. MAESTRIA EN INGENIERIA EN ADMINISTRACIÓN

56