pdf-estadistica-ii-cibertec_compress.pdf

Estadística II Presentación 05 Red de contenidos 06 Sesiones de aprendizaje SEMANA 1 : • SEMANA 2 • • : • • • •

Views 125 Downloads 17 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Citation preview

Estadística II

Presentación

05

Red de contenidos

06

Sesiones de aprendizaje SEMANA 1

: •

SEMANA 2

• • : • • • •

SEMANA 3

: • •

SEMANA 4

: •

SEMANA 5

• • • : • • • •

SEMANA 6

: • • • • •

Definiciones básicas: Población, marco muestral, muestra, censo y muestreo: Ventajas y desventajas Diseño de la encuesta por muestreo. Tipos de muestreo Distribuciones muestrales Estimación Puntual. Propiedades de un estimador. Estimación de intervalos de confianza Intervalos de confianza para la media con varianza conocida, muestra grande Tamaño muestral para estimar una media Intervalo de confianza para la diferencia de medias de dos distribuciones con ambas desviaciones estándar conocidas, muestras grandes Intervalo de confianza para la media con varianza desconocida. Muestra pequeña Intervalo de confianza para la diferencia de medias con varianzas desconocidas pero iguales, muestras pequeñas Intervalo de confianza para una proporción. Muestras grandes Tamaño muestral para estimar una proporción Tamaño de muestra para poblaciones finitas Intervalo de confianza para la diferencia de proporciones Hipótesis estadística. Tipos de errores I y II, Nivel de significación, Región crítica o región de rechazo. Región de aceptación Prueba de Hipótesis para medias, muestras grandes. Prueba bilateral de una hipótesis sobre la media Prueba unilateral de una hipótesis sobre la media, caso I, caso II Prueba de Hipótesis para la diferencia de medias. Desviación estándar conocidas, muestras grandes Prueba de Hipótesis para medias, muestras pequeñas Prueba bilateral de una hipótesis sobre la media Prueba unilateral de una hipótesis sobre la media, caso I, caso II Prueba de Hipótesis para la diferencia de medias Desviación estándar desconocidas, Muestras pequeñas

07

19

35

45

55

73

SEMANA 7

: EXAMEN PARCIAL

SEMANA 8

: • • • •

SEMANA 9

: •

• • • •

SEMANA 10 : • • • •

SEMANA 11

SEMANA 12

SEMANA 13 SEMANA 14

: • • • : • • • • : • • : • •

SEMANA 15 : • SEMANA 16

• • : • • •

Prueba de Hipótesis para las proporciones, muestras grandes. Prueba bilateral de una hipótesis sobre las proporciones Prueba unilateral de una hipótesis sobre la media, caso I, caso II Prueba de Hipótesis para la diferencia entre dos proporciones

87

Definición del x² (Chi cuadrado). Ensayos de significación Prueba de homogeneidad, prueba de independencia Prueba de bondad de ajuste. Tablas de contingencia Prueba de Kolmogorov-Smirnov Correlación de yates para la continuidad. Coeficientes de contingencia Análisis de Regresión lineal Simple. Variable independiente, variable dependiente Diagrama de dispersión. Método de mínimos cuadrados Recta de mínimos cuadrados en términos de varianzas muestrales Recta de regresión de mínimos cuadrados. Aplicación e interpretación Análisis de Regresión lineal múltiple Recta de regresión de mínimos cuadrados Aplicación e interpretación Análisis de Regresión no lineal: Cuadrática Análisis de Regresión no lineal: Potencial Análisis de Regresión no lineal: Exponencial Análisis de Regresión no lineal Logarítmica Correlación entre dos variables, dependiente e independiente Coeficiente de correlación lineal (fórmula de Pearson) Coeficiente de correlación generalizado (Coeficiente de determinación) Coeficiente de correlación gradual (fórmula de Spearman) Serie de tiempo. Introducción a la serie de tiempo Representación y Clasificación de la serie de tiempo Análisis de la serie de tiempo Modelos de estimación. Métodos de estimación de la tendencia Predicción mediante la serie de tiempo

103

123

135 149

163 173 185 199

La globalización ha creado un campo muy extenso de desarrollo para los nuevos profesionales, ya sea en servicios o en producción. Es por esto que tienen

que estar preparados para enfrentar cualquier reto en el campo

laboral. Las comunicaciones y el software han hecho que en la actualidad todo profesional esté en constante contacto con la información estadística. Más aún, muchas veces es necesario realizar alguna medición estadística para tener una idea acerca de la producción de una empresa, del mercado bursátil a nivel mundial, del precio de los metales en el mercado Europeo, el control de epidemias en zonas determinadas, el control de los precios de la canasta familiar, etc, de manera que se pueda tomar la decisión adecuada para que dichos estudios sean siempre favorables. El propósito de este manual es brindar conceptos claros de estadística inferencial y sus numerosas aplicaciones en el campo laboral. Por otra parte, se pretende dar al futuro profesional las herramientas necesarias para interpretar y evaluar información estadística, para que adquiera destreza en la interpretación, y manejo de las definiciones y teoremas. En una primera etapa se desarrollará el marco teórico y práctico de la Estadística Inferencial. En la segunda etapa se desarrollará la aplicación de Métodos regresivos para predecir situaciones experimentales basadas en datos reales. Finalmente es importante resaltar que este curso es netamente práctico. Por ello en cada sesión se desarrollará la teoría necesaria en forma concreta, dándole mayor énfasis a la parte práctica y a la interpretación de resultados.

σ² conocida

Intervalos de confianza

σ² desconocida

Proporciones

σ² conocida

Prueba de hipótesis Muestreo

σ² desconocida

Proporciones Lineales Simple No Lineales Regresiones

Correlaciones

Serie de tiempo

Múltiple

!

"

$ "#

TEMAS • •

Definiciones básicas: población, marco muestral, muestra, censo y muestreo. Ventajas y desventajas del muestreo Diseño de la encuesta por muestreo. Tipos de muestreo. Determinación del tamaño de muestra

OBJETIVOS ESPECÍFICOS • • • •

Relacionar la población y la muestra Estimar las diferencias entre población y muestra Realizar, adecuadamente, un muestreo de una población dada Aplicar distribuciones muestrales

CONTENIDOS • •

Definiciones básicas: Población, marco muestral, muestra, censo y muestreo. Ventajas y desventajas del muestreo Diseño de la encuesta por muestreo. Tipos de muestreo. Determinación del tamaño de la muestra

ACTIVIDADES o o

Determinan, adecuadamente, una muestra de la población. Determinan el tamaño de la muestra.

%

TEORÍA DE MUESTREO La teoría de muestreo es un estudio de las relaciones existentes entre una población y muestras extraídas de la misma. Tiene gran interés en muchos aspectos de la estadística. Por ejemplo, permite estimar cantidades desconocidas de la población (tales como la media poblacional, la varianza, etc.), frecuentemente llamadas parámetros poblacionales o brevemente parámetros, a partir del conocimiento de las correspondientes cantidades muestrales (tales como la media muestral, la varianza, etc.), a menudo llamadas estadísticos muestrales o brevemente estadísticos. La teoría de muestreo es también útil para determinar si las diferencias que se puedan observar entre dos muestras son debidas a la aleatoriedad de las mismas o si por el contrario son realmente significativas. Tales preguntas surgen, por ejemplo, al ensayar un nuevo suero para el tratamiento de una enfermedad, o al decidir si un proceso de producción es mejor que otro. Estas decisiones envuelven a los llamados ensayos e hipótesis de significación, que tienen gran importancia en teoría de la decisión. En general, un estudio de inferencias, realizado sobre una población mediante muestras extraídas de la misma, junto con las indicaciones sobre la exactitud de tales inferencias aplicadas a la teoría de la probabilidad, se conoce como inferencia estadística. MUESTRAS AL AZAR. NÚMEROS ALEATORIOS Para que las conclusiones de la teoría del muestreo e inferencia estadística sean válidas, las muestras deben elegirse de forma que sean representativas de la población. Un estudio sobre métodos de muestreo y los problemas que tales métodos implican se conoce como diseño de experimentos. El proceso mediante el cual se extrae de una población una muestra representativa de la misma se conoce como muestreo al azar. De acuerdo con ello cada miembro de la población tiene la misma posibilidad de ser incluido en la muestra. Una técnica para obtener una muestra al azar es asignar números a cada miembro de la población: escritos estos números en pequeños papeles, se introducen en una urna y después se extraen números de la urna, teniendo cuidado de mezclarlos bien antes de cada extracción. MUESTREO CON Y SIN REEMPLAZO Si se extrae un número de una urna, se puede volver o no el número a la urna antes de realizar una segunda extracción. En el primer caso, un mismo número puede salir varias veces, mientras que en el segundo un número determinado solamente puede salir una vez. El muestreo, en el que cada miembro de la población puede elegirse más de una vez, se llama muestreo con reemplazo, mientras que si cada miembro no puede ser elegido más de una vez se tiene el muestreo sin reemplazo. Las poblaciones pueden ser finitas o infinitas. Si, por ejemplo, se extraen sucesivamente 10 bolas sin reemplazo de una urna que contiene 100, se está tomando una muestra de una población finita, mientras que si se lanza al aire una moneda 50 veces, anotándose el número de caras, se está muestreando en una población infinita.

&

Una población finita, en la que se realiza un muestreo con reemplazo, puede teóricamente ser considerada como infinita, puesto que puede extraerse cualquier número de muestras sin agotar la población. En muchos casos prácticos, el muestreo de una población finita que es muy grande, puede considerarse como muestreo de una población infinita. DISTRIBUCIONES MUESTRALES Considérense todas las posibles muestras de tamaño n que pueden extraerse de una población dada (con o sin reemplazo). Para cada muestra se puede calcular un estadístico, tal como la media, la desviación estándar, etc., que variará de una muestra a otra. De esta forma, se obtiene una distribución del estadístico que se conoce como distribución muestral. Si, por ejemplo, el estadístico de que se trata es la media muestral, la distribución se conoce como distribución muestral de medias Análogamente se obtendrían las distribuciones mustrales de las desviaciones estándar, varianzas, medianas, proporciones, etc. DISTRIBUCIÓN MUESTRAL DE MEDIAS Supóngase que son extraídas de una población finita todas las posibles muestras sin reemplazo de tamaño n, siendo el tamaño de la población N. Si se denota la media y la desviación estándar de la distribución muestral de medias por µ x y σ x , y la media y la desviación estándar de la población por µ y σ , respectivamente, se tiene µx = µ

σx =

σ n

N −n N −1

Si la población es infinita, los resultados anteriores se convierten en µx = µ

σx =

σ

n

Para valores grandes de n ( n ≥ 30 ) la distribución muestral de medias se aproxima a una distribución normal con media µ x y desviación estándar σ x independiente de la población de que se trate (siempre que la media y la varianza poblacional sean finitas y el tamaño de la población sea al menos dos veces el tamaño de la muestra). Este resultado en una población infinita es un caso especial del teorema central del límite de teoría de probabilidad superior, que demuestra que la aproximación es tanto mejor conforme n se hace mayor. Esto se indica diciendo que la distribución muestral es normal. En caso de que la población se distribuya normalmente, la distribución muestral de medias se distribuye también normalmente, incluso para pequeños valores de n (es decir, n < 30).

$'

DISTRIBUCIÓN MUESTRAL DE PROPORCIONES Supóngase una población infinita y que la probabilidad de ocurrencia de un suceso (conocido como su éxito) es p, mientras que la probabilidad de no ocurrencia del suceso es q = 1 – p (conocido como su fracaso). Se consideran todas las posibles muestras de tamaño n extraída de esta población y para cada muestra se determina la proporción p de éxito. Entonces se obtiene una distribución muestral de proporciones cuya µ p y desviación estándar σ p vienen dadas por

µp = p p (1 − p) n

σp =

Si la población es infinita, los resultados anteriores se convierten en µ=p

σ = p(1 − p ) Para grandes valores de n( n ≥ 30 ) la distribución muestral se aproxima mucho a una distribución normal. Nótese que la población se distribuye binomialmente. DISTRIBUCIÓN MUESTRAL DE DIFERENCIAS Y SUMAS Supóngase que se tienen dos poblaciones. Para cada muestra de tamaño n1 extraída de la primera población se calcula un estadístico s1. Esto proporciona una distribución muestral del estadístico s1 con media µ x1 y desviación estándar σ x1 . Análogamente, para cada muestra de tamaño n2, extraída de la segunda población, se calcula un estadístico s2. Esto Igualmente proporciona una distribución muestral del estadístico s2, con media µ x 2 y desviación estándar σ x 2 . De todas las posibles combinaciones de estas muestras de las dos poblaciones, se puede obtener una distribución de las diferencias (s1-s2) que se conoce como distribución muestral de diferencias de los estadísticos. Si s1 y s2 son las medias muestrales de las dos poblaciones, las cuales vienen dadas por x1 y x 2 , entonces la distribución muestral de las diferencias de medias para poblaciones infinitas con medias y desviaciones estándar µ1 , σ 1 y µ 2 , σ 2 , respectivamente, tiene por media y desviación estándar: µ x1 − x 2 = µ x1 − µ x 2 = µ1 − µ 2

σx

1 − x2

= σ x21 + σ x22 =

σ 12 n1

+

σ 22 n2

El resultado se mantiene válido para poblaciones finitas. Resultados correspondientes pueden deducirse para las distribuciones muestrales de diferencias de proporciones de dos poblaciones distribuidas binomialmente con parámetros p1, q1 y p2, q2, respectivamente. En este caso s1 y s2 corresponden a las proporciones de éxito, p1 y p2

µ p − p = µ p − µ p = p1 − p2 1

2

1

2

$$

p1 (1 − p1 ) p2 (1 − p2 ) + n1 n2

σ p − p = σ p2 + σ p2 = 1

2

1

2

Si n1 y n2 son grandes ( n1 ≥ 30 y n2 ≥ 30 ), las distribuciones muestrales de diferencias de medias o proporciones se distribuyen muy aproximadamente como una normal. A veces, es útil hablar de la distribución muestral de la suma de estadísticos. La media y la desviación estándar de esta distribución vienen dadas por

µs − s = µs − µs 1

2

1

2

σ s − s = σ + σ s2 1

2 s1

2

2

suponiendo que las muestras son independientes. ERRORES TÍPICOS La desviación estándar de la distribución muestral de un estadístico se conoce también como su error estándar. En la tabla se han anotado los errores típicos de distribuciones muestrales para diversos estadísticos bajo las condiciones de muestreo aleatorio sin reemplazo para una población infinita (o muy grande) o con reemplazo para una población finita. También, se apuntan notas especiales que indican las condiciones para las que los resultados son válidos, así como otras notas de interés. ∧

Las cantidades µ , σ , p, µ r y x, s, p, x r denotan, respectivamente, las medias, desviaciones estándar, proporciones y momentos de orden r respecto de la media en la población y en la muestra. Es de notar que si el tamaño de la muestra n es bastante grande, las distribuciones muestrales son normales o casi normales. Por esta razón, los métodos se conocen como métodos para grandes muestras. La teoría de pequeñas muestras, o teoría de muestreo exacto, como a veces se llama, se usa cuando n 1, k > 1 por (a) ν = (h − 1)(k − 1) si las frecuencias esperadas pueden calcularse sin tener que estimar parámetros poblacionales con los estadísticos muestrales. (b) ν = (h − 1)(k − 1) − m si las frecuencias observadas pueden solamente calcularse estimando m parámetros poblacionales con los estadísticos muestrales. Las frecuencias esperadas son halladas bajo una determinada hipótesis Ho. Una hipótesis normalmente supuesta es la de que las dos clasificaciones son independientes entre sí. Las tablas de contingencia pueden extenderse a un número mayor de dimensiones. Así, por ejemplo, se pueden tener tablas h x k x 1 donde estén presentes 3 clasificaciones. FÓRMULAS PARA EL CÁLCULO DE χ 2 Se pueden obtener fórmulas sencillas para el cálculo de XZ que se basen únicamente en las frecuencias observadas. En lo que sigue se dan los resultados para tablas de contingencia 2 x 2 y 2 x 3. Tablas 2 x 2

χ2 =

I

II

Totales

A

a1

a2

na

B

b1 n1

b2 n2

nb n

Totales Tablas 2 x 3

n(a1b2 − a 2 b1 ) 2 n1 n2 na nb

$'%

n χ = na 2

 a12 a 22 a32  n  b12 b22 b32  + −n + +  +  +  n1 n2 n3  nb  n1 n2 n3  I

II

III

Totales

A

a1

a2

a3

na

B

b1

b2

b3

nb

Totales

n1

n2

n3

n

COEFICIENTE DE CONTINGENCIA Una medida del grado de relación, asociación o dependencia de las clasificaciones en una tabla de contingencia es dada por: C=

χ2 χ2 +n

Se llama coeficiente de contingencia. A mayor valor de C, mayor es el grado de asociación. El número de filas y columnas de la tabla de contingencia determina el valor máximo de C, que no es nunca superior a uno. Si el número de filas y columnas de una tabla de contingencia es igual a k, el máximo valor de C viene dado por (k − 1) / k CORRELACIÓN DE ATRIBUTOS Como las clasificaciones de una tabla de contingencia describen a menudo características de individuos u objetos, se denotan a veces como atributos y el grado de dependencia, asociación o relación se llama correlación de atributos. Para tablas kxk se define

r=

χ2

n(k − 1) Como el coeficiente de correlación entre atributos o clasificaciones. Este coeficiente se encuentra entre 0 y 1 LA PRUEBA DE KOLMOGOROV-SMIRNOV La prueba de Kolmogorov-Smirnov, bautizada así en honor de los estadísticos A. N. Kolmogorov y N. V. Smirnov quienes la desarrollaron, se trata de un método no paramétrico sencillo para probar si existe una diferencia significativa entre una distribución de frecuencia observada y otra de frecuencia teórica. La prueba K-S es, por consiguiente, otra medida de la bondad de ajuste de una distribución de frecuencia teórica, como lo es la prueba Chi cuadrada. Sin embargo, la prueba K-S tiene varias ventajas sobre la prueba χ 2 : es una prueba más poderosa, y es más fácil de utilizar, puesto que no requiere que los datos se agrupen de alguna manera. La estadística K-S, Dn, es particularmente útil para juzgar qué tan cerca está la distribución de frecuencia observada de la distribución de frecuencia esperada,

$'&

porque la distribución de probabilidad de Dn depende del tamaño de muestra n, pero es independiente de la distribución de frecuencia esperada (Dn es una estadística de "distribución libre"). Un problema que ilustra la prueba K-S Supóngase que la central telefónica del la ciudad de Arequipa ha estado llevando un registro del número de "transmisores" (un tipo de equipo automático que se utiliza en las centrales telefónicas) usados en un instante dado. Las observaciones se hicieron en 3,754 ocasiones distintas. Para propósitos de planeación de inversión de capital, el funcionario de presupuesto de esta compañía piensa que el patrón de uso sigue una distribución de Poisson con una λ = 8,5 . Si desea probar esta hipótesis al nivel de significancia de 0,01, puede emplear la prueba K-S: La hipótesis se formularía de la siguiente manera: Ho: Una distribución de Poisson con λ = 8,5 es una buena descripción del patrón de uso. H1: Una distribución de Poisson con λ = 8,5 no es una buena descripción del patrón de uso. α = 0,01 nivel de significancia para probar estas hipótesis A continuación, se enumeran los datos que se observan en la tabla. Luego, se enumeran las frecuencias observadas y las transforma en frecuencias acumulativas observadas relativas. En la tabla se enumeran las frecuencias acumulativas observadas relativas Fo, frecuencias acumulativas relativas esperadas Fe y las desviaciones absolutas para x = 0, x = 1....., x = 22 luego las frecuencias relativas esperadas e −λ λx x! Cálculo de la estadística K-S Para calcular la estadística K-S, simplemente elija Dn, la desviación absoluta máxima de Fe, desde Fo, luego estadística K-S Dn = Fe − Fo En este ejemplo, Dn = 0,2582 en la observación x = 9. fe =

Una prueba K-S siempre debe ser una prueba de un extremo. Los valores críticos para Dn se han tabulado y pueden encontrarse en la tabla de Valores críticos de bondad de ajuste de Kolmogorov-Smirnov. Se busca en la fila de n = 3,754 (el tamaño de muestra) y la columna para un nivel de significancia de 0,01, se encontrará que el valor crítico de Dn debe calcularse usando la fórmula: 1,63 Dn = n 1,63 Dn = = 0,0266 3754 El siguiente paso es comparar el valor calculado de Dn con el valor crítico de Dn que se encuentra en la tabla. Si el valor de la tabla para el nivel de significancia

$$'

elegido es mayor que el valor calculado de Dn, entonces se aceptará la hipótesis nula. Obviamente, 0,0266 < 0,2582, así que se rechaza Ho y se llega a la conclusión de que una distribución de Poisson con λ = 8,5 no es una buena descripción del patrón del uso del transmisor en la central telefónica de la ciudad de Arequipa.

Número ocupado O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Frecuencia Frecuencia Frecuencia Frecuencia Acumulativa Acumulativa Desviación Acumulativa observada Observada Observada absoluta Observada relativa esperada O O 0,0000 0,0002 0,0002 5 5 0,0013 0,0019 0,0006 14 19 0,0051 0,0093 0,0042 24 43 0,0115 0,0301 0,0186 57 100 0,0266 0,0744 0,0478 111 211 0,0562 0,1496 0,0934 197 408 0,1087 0,2562 0,1475 278 686 0,1827 0,3856 0,2029 378 1,064 0,2834 0,5231 0,2397 418 1,482 0,3948 0,6530 0,2582 461 1,943 0,5176 0,7634 0,2458 433 2,376 0,6329 0,8487 0,2158 413 2,789 0,74*9 0,9091 0,1662 358 3,147 0,8383 0,9486 0,1103 219 3,366 0,8966 0,9726 0,0760 145 3,511 0,9353 0,9862 0,0509 109 3,620 0,9643 0,9934 0,0291 57 3,677 0,9795 0,9970 0,0175 43 3,720 0,9909 0,9987 0,0078 16 3,736 0,9952 0,9995 0,0043 7 3,743 0,9971 0,9998 0,0027 8 3,751 0,9992 0,9999 0,0007 3 3,754 1,0000 1,0000 0,0000

ACTIVIDADES 1. Durante las primeras 13 semanas de la temporada de televisión, se registraron las audiencias de sábado por la noche, de 8:00 p. m. a 9:00 p. m. como sigue: ATV 29%, América televisión 28%, Panamericana televisión 25% y otros 18%. Dos semanas después, una muestra de 300 hogares arrojó los siguientes resultados de audiencia: ATV 95 hogares, América televisión 89 hogares, Panamericana televisión 70 hogares y otros 46 hogares. Pruebe, con α = 0,05, si han cambiado las proporciones de telespectadores.

$$$

2. La empresa “Negusa”, fabricantes de chocolates conito, patrocinó una encuesta nacional en la que más de 10 millones de personas indicaron su preferencia para un color nuevo. El conteo de esta encuesta dio como resultado el reemplazo del color chocolate por un nuevo color. En el folleto Colores que publicó el Departamento de Asuntos del Consumidor de la mencionada empresa, la distribución de los colores de chocolates es como sigue: Café Amarillo Rojo Naranja Verde Azul 30% 20% 20% 10% 10% 10% En un estudio que apareció en “El Gourmet”, se usaron muestras de bolsas de una libra para determinar si eran válidos los porcentajes publicados. Se obtuvieron los siguientes resultados con una muestra de 506 chocolates. Café Amarillo Rojo Naranja Verde Azul 177 135 79 41 36 38 Use α = 0,05 para determinar si estos datos respaldan los que publicó la empresa.

$$

3. Se conoce que las actitudes negativas son un método efectivo de persuasión en la publicidad. Un estudio realizado por una conocida universidad informó los resultados de un análisis de contenido de anuncios culposos en 24 revistas. La cantidad de anuncios con actitudes de culpa, que aparecieron en ellas, es la siguiente: Tipo de revista Cantidad de anuncios culposos Noticias de opinión 20 Editorial general 15 Orientadas a la familia 30 Negocios y financieras 22 Orientadas hacia la mujer 16 Afro americanos 12 Pruebe, con α = 0,10, si hay una diferencia en la proporción de anuncios con actitudes de culpa que se publican en las 6 clases de revistas.

4. A continuación, se observa una tabla de contingencias de 2 x 3, con frecuencias observadas en una muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando la prueba x2 con α = 0,05. Variable de columna Variable de renglón A B C P 20 44 50 Q 30 26 30

$$

5. Los puestos iniciales de los graduados en administración y en ingeniería se clasifican por industria, como vemos en la tabla siguiente:

Industria Licenciado en Petróleo Química Eléctrica Computación Administración 30 15 15 40 Ingeniería 30 30 20 20 Use α = 0,01 y pruebe si hay independencia entre licenciatura y tipo de industria.

6. La revista “Vendomás” publicó un estudio en el que se informó los resultados de un análisis de culpa y miedo en anuncios, en 24 revistas. Las cantidades de anuncios con actitudes de culpa y miedo que aparecieron en algunas revistas son las siguientes:

Tipos de revista

Tipo de actitud Cantidad de anuncios Cantidad de anuncios con actitudes de culpa con actitudes de miedo 20 10 15 11 la 30 19

Noticias y opinión Editorial general Orientada hacia familia Comercial o financiera Orientada hacia la mujer Afroamericana

22 16 12

17 14 15

Aplique la prueba ji cuadrada de independencia con un nivel de significancia igual a 0,01 para analizar los datos. ¿Cuál es su conclusión?

$$

7. Los datos de partes defectuosas procedentes de tres proveedores son las siguientes. Calidad de las partes Proveedor Buena Defectos pequeños Defectos graves A 30 3 7 B 170 18 7 C 135 6 9 Use α = 0,05 y demuestre si hay independencia entre proveedor y calidad de partes. ¿Qué dice el resultado de su análisis al departamento de compras?

8. Un estudio realizado por la revista “Colors”, indicó a qué personas se les dificulta más, hombres o mujeres, comprar regalos. Suponga que se obtuvieron los siguientes datos en un estudio de seguimiento basado en 100 hombres y 100 mujeres. Sexo Más difícil comprar regalo para Hombres Mujeres Consorte 37 25

$$

Padres Hijos Hermanos Parientes políticos Otros parientes

28 7 8 4 16

31 19 3 10 12

Use α = 0,05 y pruebe si hay independencia entre el sexo y la persona más difícil para regalar. ¿Cuál es su conclusión?

9. J. J. Pérez, vendedor de la compañía Movil Speak, tiene siete cuentas que visitar a la semana. Se piensa que las ventas del señor Nelson pueden describirse mediante la distribución binomial, con probabilidad de venta en cada cuenta de 0.45. Examinando la distribución de frecuencia observada del número de ventas por semana del señor Pérez, determine si la distribución corresponde, en efecto, a la distribución sugerida. Use el nivel de significancia de 0,05. Número de ventas por semana Frecuencia del número de ventas

0

1

2

3

4

5

6

7

25

32

61

47

39

21

18

12

$$

10. La siguiente es una tabla de frecuencias observadas, junto con las frecuencias que se esperan bajo una distribución normal. 10.1 Calcule la estadística K-S. 10.2 ¿Podemos concluir que estos datos, en efecto, provienen de una distribución normal? Use el nivel de significancia de 0,10.

51-60 Frecuencia observada Frecuencia esperada

(

Resultados de la prueba 61-70 71-80 81-90

91-100

30

100

440

500

130

40

170

500

390

100

) *(

1. A continuación, se observa una tabla de contingencias de 3 x 3, con frecuencias observadas en una muestra de 240. Pruebe la independencia entre las variables de renglón y de columna usando la prueba x2 con α = 0,05.

Variable de renglón P Q R

Variable de columna A B C 20 30 20 30 60 25 10 15 30

2. Una de las preguntas de una encuesta fue la siguiente: “Durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con más frecuencia?” Las repuestas obtenidas se ven en la siguiente tabla de contingencias: Usando α = 0,05 pruebe la independencia del tipo de vuelo y tipo de boleto. ¿Cuál es su conclusión? Tipo de vuelo

$$!

Tipo de boleto Nacional Internacional Primera clase 29 22 Clase de negocios o ejecutiva 95 121 Clase económica 518 135 3. Las cantidades de unidades vendidas por tres agentes de ventas durante un periodo de tres meses aparecen a continuación. Use α = 0,05 y demuestre la independencia entre el vendedor y el tipo de producto. ¿Cuál es su conclusión? Producto Vendedor A B C Abanto 14 12 4 Marini 21 16 8 Noel 15 5 10 4. Una encuesta sobre el deporte preferido tuvo los siguientes resultados en hombres y mujeres: Deporte preferido Sexo Natación Básquetbol Fútbol Hombres 19 15 24 Mujeres 16 18 16 Use α = 0,05 y pruebe si las preferencias de hombres y mujeres son iguales. ¿Cuál es su conclusión? 5. Un estudio de niveles educativos de los votantes y su afiliación política tuvo los siguientes resultados: Afiliación al partido Nivel educativo Apra PPC UPP No terminó secundaria 40 20 10 Secundaria completa 30 35 15 Licenciatura 30 45 25 Use α = 0,01 y determine si la afiliación política es independiente del nivel educativo de los votantes. 6. Halley Torres y Aarón Delguiudice son críticos de cine que, con frecuencia, difieren acerca de las mejores películas. En un artículo de una revista especializada, se mencionan los resultados de 160 películas por parte de ambos críticos. Cada resultado puede ser Buena, Regular o Mala. Calificación de Delguiudece Calificación de Torres Mala Regular Buena Mala 24 8 13 Regular 8 13 11 Buena 10 9 64

$

%$Aplique la prueba Chi cuadrada de independencia, con nivel de significancia igual a 0,01 para analizar los datos. 7. Se cree que el número de accidentes automovilísticos diarios en determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que la cantidad diaria de accidentes tiene una distribución de Poisson? Use α = 0,05. Cantidad de accidentes Frecuencia observada (días) 0 34 1 25 2 11 3 7 4 3 8. Suponga que la cantidad de llamadas telefónicas que entran al conmutador de una empresa durante intervalos de un minuto tiene una distribución de Poisson. Use α=0,10 y los siguientes datos para probar la hipótesis de que las llamadas que entran tienen una distribución de Poisson: Cantidad de llamadas Frecuencia observada que entran durante un intervalo de un minuto 0 15 1 31 2 20 3 15 4 13 5 4 6 2 Total 100 9. Considere que la demanda semanal de un producto tiene una distribución normal. Haga una prueba de bondad de ajuste con los datos de la tabla siguiente para probar esta hipótesis. Use α = 0,10. La media de la muestra es 24,5 y la desviación estándar de la muestra es 3. 18 25 26 27 26 25

20 22 23 25 25 28

22 27 20 19 31 26

27 25 24 21 29 28

22 24 26 25 25 24

10. El 7% de inversionistas de fondos de ahorros valorizan como “muy seguras” a las acciones corporativas, el 58% las define como “algo seguras”, el 24%

$$&

como “no muy seguras”, el 4% como “definitivamente inseguras”, y el 7 % no tienen opinión definida. En una encuesta de una revista, se preguntó a 529 inversionistas de fondos de ahorro cómo creen que es la seguridad de los bonos corporativos. Se obtuvieron las respuestas siguientes: Concepto de seguridad Muy seguras Algo seguras No muy seguras Definitivamente inseguras Sin opinión definida Total

Frecuencia 48 323 79 16 63 529

¿Difieren los conceptos de los inversionistas en bonos respecto a los que se tienen de las acciones corporativas? Apoye su conclusión con una prueba estadística con α = 0,01. 11. Se desea abrir un paseo de aguas al público. Se ha pedido, a una muestra de 140 personas, decir qué día preferirían visitarlo. A continuación observamos los resultados. Entre semana Sábado Domingo Día feriado 20 20 40 60 Para establecer un plan de personal, ¿debe suponer el gerente que habrá la misma cantidad de visitantes todos los días? Base su conclusión en una prueba estadística con α = 0,05. 12. A una autoridad regional de transporte colectivo le preocupa la cantidad de pasajeros que van en una de las rutas del autobús. Al definir la ruta se creía que la cantidad de pasajeros era la misma de lunes a viernes. Con los datos de la tabla, pruebe, con α = 0,05 si es correcta la hipótesis de la autoridad.

Día Lunes Martes Miércoles Jueves Viernes

Cantidad de pasajeros 13 16 28 17 16

13. Los resultados de una Encuesta Anual de satisfacción de trabajo indicó que el 28% de los gerentes de sistemas de información está muy satisfecho con su trabajo, el 46% medianamente satisfecho, el 12% no está satisfecho ni insatisfecho, el 10% está medianamente insatisfecho y el 4% está muy insatisfecho. Suponga que en una muestra de 500 programadores obtuvieron los siguientes resultados.

$ '

Categoría Cantidad Muy satisfechos 105 Medianamente satisfechos 235 Ni satisfechos ni insatisfechos 55 Medianamente insatisfechos 90 Muy insatisfechos 15 Haga una prueba con α = 0,05 para determinar si la satisfacción de los programadores es diferente de la de los gerentes de sistemas de información. 14. Una muestra de partes suministró los datos de la siguiente tabla de contingencias, acerca de calidad de parte y de turno en que fue producida. Use α = 0,05 y pruebe la hipótesis de que la calidad de las partes es independiente del turno en que fueron producidas. ¿Cuál es su conclusión? Turno Cantidad de buenas Cantidad de defectuosas Primero 368 32 Segundo 285 15 Tercero 176 24 15. El Estudio 1996 de suscriptores de “El Mercurio” produjo datos acerca de las clases de empleo de sus suscriptores. Los resultados de la muestra correspondientes a suscriptores a las ediciones oriental y occidental son los siguientes: Región Clase de empleo Edición oriental Edición occidental Tiempo completo 1105 31 Tiempo parcial 31 15 Independiente / consultor 229 186 Sin empleo 485 344 Use α = 0,05 y pruebe la hipótesis de que la clase de empleo es independiente de la región. ¿Cuál es su conclusión? 17. Al nivel de significancia de 0,05, ¿podemos concluir que los siguientes datos provienen de una distribución de Poisson con λ = 3 ? Número de llegadas por día

0

1

2

3

4

5

6o más

Número de días

6

18

30

24

11

2

9

18. Álvaro Carreño, gerente nacional de ventas de una compañía de electrónica, ha recabado la siguiente estadística de salarios de los ingresos de la fuerza de ventas en su campo. Tiene tanto las frecuencias observadas como las frecuencias esperadas. Si la distribución de salarios es normal;

$ $

¿puede concluir Kevin que la distribución de los ingresos de la fuerza de ventas es normal?. Al nivel de significancia de 0,10

25-30 Frecuencia observada Frecuencia esperada

Ingresos en miles 31-36 37-42 43-48 49-54

55-60

61-66

9

22

25

30

21

12

6

6

17

32

35

18

13

4

Se deben plantear en forma adecuada la hipótesis nula para una mejor aplicación de la prueba de bondad de ajuste.

$

$

"

$' 2

/

"

TEMAS • • • •

Análisis de Regresión lineal Simple. Variable independiente, variable dependiente Diagrama de dispersión. Método de mínimos cuadrados Recta de mínimos cuadrados en términos de varianzas muestrales Recta de regresión de mínimos cuadrados. Aplicación e interpretación

OBJETIVOS ESPECÍFICOS • •

Conocer la ecuación de predicción lineal Determinar la ecuación de regresión lineal a partir de los datos observados

CONTENIDOS • • • • • •

Análisis de Regresión lineal Simple Variable independiente, variable dependiente Diagrama de dispersión Método de mínimos cuadrados Recta de mínimos cuadrados en términos de varianzas muestrales Recta de regresión de mínimos cuadrados. Aplicación e interpretación

ACTIVIDADES • •

Identifican el método de regresión lineal Analizan la ecuación de regresión lineal

$

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE Análisis de Regresión El objetivo del análisis de regresión es el de establecer una relación cuantitativa entre dos o más variables seleccionadas. Trata de establecer un modelo que permite predecir, explicar o estimar el valor de una variable (dependiente) en función de otras variables (independientes). El modelo a establecer puede tener la forma de la ecuación de una recta (modelo lineal), de la ecuación de una parábola, de la función logarítmica, de la función exponencial. Asimismo, según el número de variables independientes, el modelo puede ser simple (una variable independiente) o múltiple (más de una variable independiente). Para establecer cuál es el modelo a utilizar, es conveniente elaborar un Diagrama de Dispersión. Regresión lineal simple Implica que se debe establecer un modelo que permita explicar a la variable Y (dependiente) en función de la variable independiente X. En un gráfico de dispersión, lo que se trata de ajustar una línea entre los puntos observados. Supuestos del análisis de regresión lineal simple: a) Cada valor de las variables X e Y se distribuye normalmente. b) Las medias de las distribuciones normales (de cada X e Y) se encuentran sobre la recta de regresión. c) Las desviaciones estándar correspondientes son iguales. d) Los valores de Y son estadísticamente independientes. ∧



y = a+bx

El modelo de regresión lineal simple tiene la forma: Donde: a: intercepto con el eje Y o la variación de Y que no es explicada por x b: es la pendiente de la recta o el valor que varía Y cuando x aumenta en una unidad. Para calcular estos coeficientes se utiliza el método de mínimos cuadrados a partir del cual se obtienen las siguientes fórmulas: ∑ y = na + b∑ x

∑ xy = a∑ x + b∑ x b=

2

n∑ xy − ∑ x∑ y n∑ x 2 − (∑ x )

2



( y - y) =

Sx y S x2

Coeficiente de correlación r:



( x − x)

ó b=

Sx y S x2

$

r=

n∑ x y − ∑ x∑ y

n∑ x 2 − (∑ x )

2

n∑ y 2 − (∑ y )

2

ó r=

Sx y Sx S y

Al realizar la estimación de la variable dependiente Y utilizando la recta de regresión es obvio esperar que el resultado no sea exacto. Hay diferencias con respecto a los valores “reales” y a dichas diferencias se les denomina error. Por ello, se define al error estándar de estimación (Sxy) como la desviación promedio de todas las observaciones con respecto a la recta de regresión. Se calcula de la siguiente manera:

SC ( y ) − b2 .SC ( x) n−2

S xy = (∑ x )

2

SC(x) =



x2 −

SP(xy) = ∑ xy − a = y − bx

n

(∑ x )(∑ y ) n

(∑ y )

2

SC(y) =

b=



y2 −

SP(xy) SC(x)

b 2 .SC(x) r = SC(y) 2

n

$

ACTIVIDADES 1. ¿Son importantes las notas en la universidad para ganar un buen sueldo? Un estudiante de estadística comercial tomó una muestra aleatoria de sueldos iniciales y promedios de notas en la universidad de algunos de sus amigos recién graduados. Los datos son los siguientes: Sueldo inicial ($ miles) 36 30 30 24 27 33 21 27 Promedio de notas 4,0 3,0 3,5 2,0 3,0 3,5 2,5 2,5 1.1 Represente gráficamente estos datos. 1.2 Desarrolle la ecuación de estimación que mejor describa los datos.

2. La fundación Wuawua desea mostrar con estadísticas que, contrariamente a la creencia popular, las cigüeñas sí traen bebés. Por lo tanto, ha recabado datos sobre el número de cigüeñas y el número de bebés (ambos en miles) en varias ciudades grandes de Europa central. Cigüeñas 27 38 13 24 6 19 15 Bebes 35 46 19 32 15 31 20 2.1 Calcule el coeficiente de determinación de muestra y el coeficiente de correlación de muestra de estos datos. 2.2 ¿Ha refutado la ciencia estadística la creencia popular?

$ !

3. El presidente de una compañía de computadoras está interesado en estudiar la relación entre el tamaño del aumento anual y el desempeño de un representante de ventas en el año subsiguiente. Muestreó a 12 representantes de ventas y determinó los tamaños de sus respectivos aumentos (dado como un porcentaje de sus sueldos individuales) y el número de ventas hechas por cada uno durante los aumentos de los siguientes 12 meses. Tamaño aumento Número ventas

del 7,8 6,9 6,7 6,0 6,9 5,2 6,3 8,4 7,2 10,1 10,8 7,7 de 64

73

42

49

71

46

32

88

53

84

85

93

3.1 Desarrolle la ecuación de estimación de mejor ajuste que describa estos datos. 3.2 Calcule el error estándar de la estimación para esta relación. 3.3 Desarrolle un intervalo de confianza de aproximadamente 90% para el número de ventas hechas por un vendedor después de recibir un aumento de 9,6%

4 La cadena de comida Mikuy ha experimentado grandes fluctuaciones en sus ingresos en los últimos años. Durante este tiempo, se han empleado numerosos platillos especiales, productos nuevos y técnicas de publicidad, así que es difícil determinar qué estrategias son las que han tenido mayor influencia en las ventas. El departamento de mercadeo ha estudiado una variedad de relaciones y cree que los gastos mensuales en carteleras pueden ser significativos. Muestreó siete meses y determinó lo siguiente: Gastos mensuales en carteleras (x $1 000) 25 16 42 34 10 21 19 Ingresos mensuales de ventas (x $100 000) 34 14 48 32 26 29 20 4.1 Desarrolle una ecuación de estimación que mejor describa estos datos. 4.2 Calcule el error estándar de la estimación de esta relación.

$ %

4.3 Para un mes con un gasto de carteleras de $ 28 000, desarrolle un intervalo de confianza de aproximadamente 95% para las ventas mensuales esperadas para ese mes.

5. En la siguiente tabla se muestra las cantidades extraídas (en miles Kg.) de oro a lo largo de 10 años de producción. Si los parámetros de producción están controlados, sobre la base de estos datos estime la extracción para el año 11. Año 1 2 3 4 5 6 7 8 9 10 Extracción 0,25 0,28 0,38 0,45 0,68 0,78 1,20 1,80 2,15 2,98

6. Un analista de mercado desea estudiar las exportaciones de espárragos que se están produciendo antes de la aceptación del Tratado de Libre Comercio con EEUU. Toma una muestra aleatoria a 10 embarques recientemente enviados a lo largo de 2 semanas por la Compañía Espárragos Perú SA y registra los siguientes volúmenes de exportación (en toneladas). Estos datos se muestran a continuación:

$ &

Embarque 1 Volumen Exp. 82 5

2

3

4

5

865

915

950

980

6 102 0

7 125 0

8 132 5

9 147 0

10 161 5

6.1 Construya un diagrama de dispersión y determine si un análisis de regresión lineal es apropiado para relacionar los volúmenes exportados y el transcurrir del tiempo. 6.2 Mediante el método de mínimos cuadrados, halle una ecuación que permita estimar el volumen de exportación a lo largo del tiempo. 6.3 Calcule el error estándar de estimación e interprételo.

7. El tiempo en segundos en que una computadora con procesador XTF se demora en correr un sofisticado programa de regresión se cree que depende de la cantidad de KB que pueda tener el archivo “datos” necesario para que el programa determine los resultados que se esperan. Para 10 archivos distintos “datos” se obtuvo la siguiente información:

∑ x = 1450 ∑ y = 673

∑ x 2 = 218 , 500 ∑ xy = 101 , 570

2 ∑ y = 47225

7.1 Determine la recta de regresión. 7.2 Estime el tiempo que la computadora se demorará en correr el programa cuando se utiliza un archivo “datos” de 180 KB.

$ '

8. Un editor tomó una muestra de 7 libros anotando el precio y el número de páginas con el fin de predecir precios. ¿Qué porcentaje de la varianza total de precios se explica por esta función? Precio ($) # Pág.

12,00

12,50

13,80

15,40

17,50

18,00

20,00

175

240

280

320

380

420

500

8.1 Determine la ecuación de regresión lineal. 8.2 Determine el coeficiente de correlación entre el precio y el número de páginas. 8.3 Estime el precio de un libro de 600 páginas. Si a este libro se le incrementa 40 paginas en una segunda edición, ¿en cuánto se incrementará su precio? 8.4 ¿ Cuántas páginas debería tener un libro cuyo precio se estima en $ 25,30? 9. Un estudio de Mercado trata de averiguar si es efectiva la propaganda televisada de un producto que salió a la venta con relación al tiempo de publicidad (en horas/semana). Se recopilaron datos a partir de la segunda semana de iniciada la publicidad resultando el cuadro que sigue. No se puedo recopilar datos de la cuarta parte. Semana Tiempo de propaganda Venta del producto ($)

2

3

4

5

6

7

10

15

16

18

26

30

3000

3320

-

3850

4000

4200

9.1 Halle la ecuación de regresión lineal. 9.2 ¿En cuanto estimaría las ventas para la semana 4?

10. Una empresa que fabrica Plantas de zapatillas quiere estudiar la relación entre las edades (en años) de un tipo de máquinas compradas para la

$ $

fabricación de este artículo y el número de artículos que se producen a lo largo de una semana. A partir de la muestra siguiente: Años No de Artículos

5.0 453 4

4.5 564 5

4.0 --

3.5 624 8

3.0 679 4

2.5

2.0

--

--

1.5 964 2

1.0 985 5

10.1 Determine la recta de regresión de mínimos cuadrados para predecir la producción. Estime la producción para 4, 2,5 y 2 años. 10.2 Calcule el porcentaje de la varianza explicada por la regresión de la producción.

(

) *(

1. Suponga que usted tiene a su cargo el dinero de la municipalidad de San Marcos (Ancash). Se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en millones de soles): Suministro de dinero Producto Nacional Bruto

2,0 2,5 3,2 3,6 3,3 4,0 4,2 4,6 4,8

5,0

5,0 5,5 6,0 7,0 7,2 7,7 8,4 9,0 9,7 10,0

1.1. Desarrolle la ecuación de estimación para predecir el producto nacional bruto Y del suministro de dinero X. 1.2. ¿Cómo interpreta la pendiente de la línea de regresión? 1.3. Calcule e interprete el error estándar de la estimación. 1.4. Calcule el intervalo de predicción de aproximadamente 90% para el producto nacional bruto cuando el suministro de dinero es 8,0.

$

2. Durante los partidos recientes de tenis, un jugador ha observado que sus lanzamientos no han sido totalmente eficaces porque sus oponentes le han regresado algunos de ellos. Algunas de las personas con las que juega son bastante altas, así que se ha estado preguntando si la altura de su oponente podría explicar el número de lanzamientos no regresados durante un partido. Los siguientes datos se sacaron de cinco partidos recientes. Altura del oponente (H) pies 6,0 5,5 5.2 5.1 5,0 Lanzamientos no regresados(L) 12 9 7 7 3 2.1. ¿Cuál es la variable dependiente? 2.2. ¿Cuál es la ecuación de estimación de mínimos cuadrados para estos datos? 2.3. ¿Cuál es su mejor estimación del número de lanzamientos no regresados para su partido de mañana con un oponente de 5,9 pies de altura? 3. Un estudio hecho por el Ministerio de Transportes y Comunicaciones, acerca del efecto de los precios de los pasajes de los buses interprovinciales sobre el número de pasajeros, produjo los siguientes resultados: Precio del pasaje 25 30 35 40 45 50 55 60 Pasajeros por 100 millas 800 780 780 660 640 600 620 620 3.1. Represente gráficamente estos datos. 3.2. Desarrolle la ecuación de estimación que mejor describa estos datos. 3.3. Pronostique el número de pasajeros por 100 millas si el precio del pasaje fuera 50. Utilice un intervalo de predicción de 95% de aproximación. 4. Se ha diseñado una prueba, para mostrar a los supervisores de una compañía, sobre los riesgos de supervisar a sus trabajadores. Un trabajador de la línea de ensamblaje tiene a su cargo una serie de tareas complicadas. Durante el desempeño del trabajador, un inspector lo interrumpe constantemente para ayudarlo a terminar las tareas. El trabajador después de terminar su trabajo, recibe una prueba psicológica diseñada para medir la hostilidad del trabajador hacia la autoridad (una alta puntuación significa una hostilidad baja). A ocho distintos trabajadores se le asignaron las tareas y luego se les interrumpió con propósitos de asistencia de instrucción un número variable de veces y sus calificaciones correspondientes en la prueba de hostilidad se revelan en la siguiente tabla. número de veces de interrupción al trabajador Calificación del trabajador en la prueba de hostilidad-9

5

10 10 15 15 20 20 25

58 41 45 27 26 12 16

3

$

4.1. Desarrolle la ecuación que mejor describa la relación entre el número de veces de interrupción y la calificación de la prueba. 4.2. Pronostique la calificación esperada de la prueba si el trabajador es interrumpido 18 veces. 5. El editor jefe de un importante periódico de la capital ha intentado convencer al dueño del periódico para que mejore las condiciones de trabajo en el taller de prensas. El está convencido de que, cuando trabajan las prensas, el grado de ruido crea niveles no saludables de tensión y ansiedad. Realmente hizo que un psicólogo realizara una prueba durante la cual los prensistas se situaron en cuartos con niveles variables de ruido y, luego, se les hizo otra prueba para medir niveles de humor y ansiedad. La siguiente tabla muestra el índice de su grado de ansiedad o nerviosismo y el nivel de ruido al que se vieron expuestos (1,0 es bajo y 10,0 es alto). Nivel de ruido 4 3 1 2 6 7 2 3 Grado de ansiedad 39 38 16 18 41 45 25 38 5.1 Desarrolle una ecuación de estimación que describa los datos. 5.2 Pronostique el grado de ansiedad que se podría esperar cuando el nivel de ruido es 5. 6. Una compañía administra a sus vendedores una prueba readiestramiento de ventas antes de permitirles trabajar. La administración de la compañía está interesada en determinar la relación entre las calificaciones de la prueba (T) y el número de unidades vendidas por esos vendedores al final de un año de trabajo. Los siguientes datos se recolectaron de 10 agentes de ventas enumerados del 1 al 10 que han estado en el campo durante un año. Número del 1 2 3 4 5 6 7 8 9 10 vendedor Calificación (T) 2,6 3,7 2,4 4,5 2,6 5,0 2,8 3,0 4,0 3,4 Unidades 95 140 85 180 100 195 115 136 175 150 vendidas (S) 6.1 Encuentre la línea de regresión de mínimos cuadrados que podría usarse para predecir las ventas de las calificaciones de las personas en adiestramiento. 6.2 ¿En cuánto se incrementa el número esperado de unidades vendidas por cada incremento de 1 punto en una calificación de la prueba? 6.3 Utilice la línea de regresión de mínimos cuadrados para predecir el número de unidades que vendería una persona en adiestramiento que recibió una calificación de prueba promedio. 7. El consejo municipal de La Victoria ha recabado datos sobre el número de accidentes menores de tráfico y el número de juegos de fútbol de jóvenes que tienen lugar en ese distrito el fin de semana. X (juegos de fútbol) 20 30 10 12 15 25 34 Y (accidentes menores) 6 9 4 5 7 8 9

$

7.1 Desarrolle una ecuación de estimación que describa los datos. 7.2 Pronostique el número de accidentes menores de tráfico que ocurrirán en un fin de semana durante el cual tendrán lugar 33 partidos de fútbol. 7.3 Calcule el error estándar de estimación. 8. En economía, la función de demanda de un producto a menudo se estima mediante la regresión de la cantidad vendida (Q) sobre el precio (P). La compañía Matel está tratando de estimar la función de demanda para su nueva muñeca “Sally”, y ha recabado los siguientes datos: P 20,0 17,5 16,0 14,0 12,5 10,0 8,0 6,5 Q 125 156 183 190 212 238 250 276 8.1 Represente gráficamente estos datos. 8.2 Calcule la línea de regresión de mínimos cuadrados. 9. Los contadores, con frecuencia, estiman los gastos generales basándose en el nivel de producción. La envasadora “Miski” recabó información sobre gastos generales y unidades producidas en diferentes plantas, y desean estimar una ecuación de regresión para predecir gastos generales futuros. Gastos generales 191 170 272 155 280 173 234 116 153 178 Unidades 40 42 53 35 56 39 48 30 37 40 9.1 Desarrolle la ecuación de regresión para los contadores costosos. 9.2 Pronostique los gastos generales cuando se producen 50 unidades. 9.3 Calcule el error estándar de la estimación. 10. El fabricante de una empresa que se dedica al desarrollo de vacunas informáticas (antivirus), esta preocupado por la competencia que existe hoy en el mercado. El fabricante desea estimar el tiempo que demora su producto en analizar archivos de distintos tamaños. Para ello, se ha recolectado los siguientes datos: Tamaño (KB) Tiempo (seg.)

200 269 300 358 450 490 500 550 10,9 12,1 14,4 17,8 18,9 19,5 21,8 24,9

Estime el tiempo que el antivirus se demorará en analizar un archivo de 480 KB.

Se deben identificar adecuadamente la variable independiente y la variable dependiente.

$

"

$$ 2

/

TEMAS • • • •

Análisis de Regresión no lineal: Cuadrática Análisis de Regresión no lineal: Potencial Análisis de Regresión no lineal: Exponencial Análisis de Regresión no lineal Logarítmica

OBJETIVOS ESPECÍFICOS • • •

Conocer las otras ecuaciones de predicción no lineales. Determinar la ecuación de regresión que mejor se aproxime a la realidad de los datos observados. Estimar adecuadamente las regresiones no lineales

CONTENIDOS • • • •

Regresión no lineal: Cuadrática Regresión no lineal: Potencial Regresión no lineal: Exponencial Regresión no lineal Logarítmica

ACTIVIDADES • •

Identifican los diferentes métodos de regresión no lineal Analizan las diferentes ecuaciones de regresión no lineal

$

ANÁLISIS DE REGRESIÓN NO LINEAL Regresiones no lineales En un análisis de regresión cuando los valores de la variable independiente (X) y la variable dependiente (Y) no se ajustan a una línea de regresión, se podrá conseguir una relación lineal mediante una transformación de estos valores. Regresión Potencial

y = Ax B

ln y = ln(A) + B.ln(x)

Regresión Exponencial Regresión Hiperbólica Regresión Cuadrática

y = Ae Bx ln y = ln(A) + Bx y = 1 /( A + Bx) 1/y = A + Bx y = A + Bx + Cx 2

ACTIVIDADES 1. Ajuste, por el método de mínimos cuadrados, una curva de la forma:

y = Ax B X Y

para los siguientes datos: 2 1,8

3 2,8

4 4,5

5 6,8

6 8,8

7 8 9 10 12.3 24,8 61,.5 84,.9

2. Ajuste, por el método de mínimos cuadrados, una curva de la forma:

y = Ae Bx X Y

para los siguientes datos: 1,2 1,3

2,3 2,2

3,4 5,5

5,5 6,6

8,6 7,8

11,7 13,8 16,9 21,1 18.3 34,8 71,2 94,.8

$ !

4. Ajuste, por el método de mínimos cuadrados, una curva de la forma: 2 y = A + Bx + Cx para los siguientes datos: X Y

2 1

3 2

5 5

7 16

9 28

11 38

13 50

16 72

21 90

4. Un Vendedor de Autos usados desea estimar los precios (en $) de un lote de autos usados importados desde el Asia. El estudio lo realiza para una misma marca y modelo de la siguiente manera: Años

1 2 3 10,50 8,200 6,500 Precio ($) 0

4

5

6

-----

4,500

3,800

4.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 4.2 Estime el precio para un auto de 4 años de antigüedad. 4.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.

$ %

5. Una nueva bacteria de influenza ha entrado al país, los reportes de algunas partes del interior han alertado al ministerio de salud. El área de epidemiología ha tomado muestra de algunos pacientes con dichos síntomas internados por emergencia. Uno de los primeros estudios es ver la velocidad de reproducción que esta bacteria tiene en el cuerpo humano. Para esto se realiza un cultivo de estas bacterias (volumen) para encontrar dicha velocidad reproductiva. El estudio lo realiza de la siguiente manera: Tiempo (Horas) Volumen (u3)

3 250

4 350

5 700

6 870

7 1080

8 1600

5.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 5.2 Si los médicos definen como epidemia cuando después de 14 horas el volumen es de 10000 u3. , diga Ud. si lo observado llega a ese límite.

6. En una planta de gas natural se ha observado diferentes fallas en el gaseoducto cuando se transfiere el gas hacia la ciudad. La zona donde más problemas se han generado para el traslado del gas es de clima muy variado. Se tomó del reporte de esa zona los volúmenes transferidos (cm3) y la presión (Kg. /cm.2) generada. Los datos se encuentran en la siguiente tabla:

$ &

Presión (Kg./cm.2) Volumen (cm3)

3

4

5

6

7

8

50

60

70

85

98

110

6.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 6.2 Estime la presión cuando el volumen sea 120 cm.3.

7. Un grupo político, que se presentará a las elecciones presidenciales, ha observado que un gran problema es el de disminuir la pobreza. Para esto, uno de los parámetros es la explosión demográfica. Por ello, realiza un estudio de los últimos 25 años para averiguar la velocidad de crecimiento poblacional. Asimismo, toma reportes históricos de la población (en millones) de la siguiente manera: Años

1980

1985

Población

10,5

11,2

1990 1994 12,5

13,2

1998

2001

2003

2005

18,8

22,6

27,8

32,8

7.1 Determine la ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 7.2 Estime la población que se espera para el año 2010. 7.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.

$ '

8. La empresa AMAUTA desea decidir si firma o no un contrato de mantenimiento para su nuevo sistema de procesamiento de palabras. Los directivos creen que el gasto de mantenimiento debe estar relacionado con el uso, por ello han reunido la información que se ve en la tabla siguiente sobre el uso semanal, en horas, y el gasto de mantenimiento (cientos de soles). Uso semanal 13 10 20 28 32 17 24 31 40 38 (horas) Gastos 17,0 22,0 30,0 37,0 47,0 30,5 32,5 39,0 51,5 40,0 anuales de mantenimie nto 8.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 8.2 AMAUTA espera operar 30 horas semanales el procesador de palabras. Determine un intervalo de predicción de 95% para el gasto de la empresa en mantenimiento anual. 8.3 Si el contrato de mantenimiento cuesta s/. 3000 anuales, ¿recomendaría firmarlo? ¿Por qué?

9. Los siguientes datos corresponden a la altura (pulgadas) y peso libras de matadoras de voley : 64 62 65 66 Altura 68 Peso 132 108 102 115 128 9.1 Desarrolle la ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 9.2 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.

$ $

10. Los datos siguientes muestran las ventas (en millones) de cajas y los gastos de publicidad (en miles de soles) para siete marcas de gaseosas. Marca Inca kola Coca Cola Kola Real Pepsi cola Isaac Kola Concordia Saboré

Gastos de publicidad (s/.) 131,3 92,4 60,4 55,7 40,2 29,0 11,6

Ventas de cajas 1 929,2 1 348,6 811,4 541,5 536,5 535,6 219,5

10.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 10.2 ¿Qué parece indicar este diagrama acerca de la relación entre las dos variables? 10.3 Prediga las ventas para una marca que gaste 70 millones de soles en publicidad. 10.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.

$

(

) *(

3. A continuación, observamos datos sobre el porcentaje de vuelos que llegan puntuales y la cantidad de quejas por 100 00 pasajeros. Aerolínea WAYRA PERÚ L C BUSRE TACA AERO CONDOR ATSA IBERIA LAN PERÚ STAR PERÚ AERO MÉXICO

Porcentaje puntual 81,8 76,6 76,6

0,21 0,58 0,85

75,7

0,68

73,8 72,2 71,2 70,8 68,5

0,74 0,93 0,72 1,22 1,25

Quejas

3.1 Trace un diagrama de dispersión para estos datos. 3.2 ¿Qué parece indicar este diagrama acerca de la relación entre las dos variables? 3.3 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 3.4 Proporcione una interpretación para la curva de la ecuación de regresión estimada. 3.5 ¿Cuál es la cantidad estimada de quejas por 100000 pasajeros si el porcentaje de vuelos puntuales es 80%? 4.

Los principales hoteles ofrecen, con frecuencia, tarifas especiales para viajeros de negocios. Las tarifas mínimas se cobran cuando se hacen reservaciones con 14 días de anticipación. La tabla siguiente muestra las tarifas de negocios y las de súper ahorro por 14 días de anticipación, por una noche, en una muestra de seis hoteles. Lugar del hotel Tarifas de negocios Tarifa de anticipo de 14 días s/. Ica 89 81 Trujillo 130 115 Arequipa 98 89 Lima 149 138 Cuzco 199 149 Iquitos 114 94 4.1 Trace el diagrama de dispersión para estos datos, con las tarifas de negocios como variable independiente.

$

4.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 4.3 El hotel de turistas de Huancayo, tiene una tarifa de negocios de s/. 135 por noche. Estime la tarifa de súper ahorro por 14 días de anticipación. 4.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta.

5 La empresa Vista reúne los datos que muestran qué publicistas obtienen la mayor difusión durante las horas estelares de TV en 6 canales de televisión. A continuación, se presentan los datos de la cantidad de familias espectadoras, en millones, y la cantidad de veces que salió el anuncio al aire durante la semana del 23 de julio al 10 de agosto. Marca Veces que salió al Familias anunciada aire espectadoras Kolinos 28 191,7 Colgate 20 174,6 Dento 14 161,3 Ace 16 161,1 Ariel 16 147,7 Bolívar 16 146,3 Pacocha 11 138,2 .5.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 5.2 ¿Cuál es la cantidad estimada de familias espectadoras si un anuncio sale 15 veces al aire en una semana? 5.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 5 Abajo están los datos recopilados por un gerente de ventas de reportes anuales y en años de experiencia. Vendedor 1 2 3 4 5 6 7 8 9 10 Años de 1 3 4 4 6 8 10 10 11 13 Experiencia Ventas anuales (S/. 80 97 92 102 103 111 119 123 117 136 miles) 6.1 Trace el diagrama de dispersión para estos datos, con los años de experiencia como la variable independiente. 6.2 Forme una adecuada ecuación de regresión con la que se puedan predecir las ventas anuales, dados los años de experiencia. 6.3 Use la ecuación estimada de regresión para predecir las ventas anuales de un vendedor con 9 años de experiencia. 7 Las clases de llantas y capacidades de carga para una muestra de llantas son las siguientes:

$

Clase 75 de llanta Capacidad 853 de carga

82

85

87

88

91

92

93

105

1 047

1 135

1 201

1 235

1 356

1 389

1 433

2 039

7.1 Trace un diagrama de dispersión para estos datos, con la clase de llanta como variable independiente. 7.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 7.3 Estime la capacidad de carga para una llanta cuya clase es 90. 8 Los datos siguientes muestran los ingresos de los casinos y de sus hoteles, en miles de soles. Compañía J W Marriott Swissôtel Lima Sheraton Hotel de las Américas Delfines El Condado Plaza del bosque Sonesta Costa del Sol Sol de Oro

Ingreso en hotel 303,5 664,8 121,00 429,6 373,1 670,9 66,4 105,8 102,4 135,8

Ingreso en casino 548,2 664,8 270,7 511,0 404,7 782,8 130,7 105,5 148,7 358,5

8.1 Trace un diagrama de dispersión para estos datos, con los ingresos en el hotel como variable independiente. 8.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 8.3 Suponga que los ingresos del hotel fueron de s/. 500 millones. ¿Cuál es un estimado de los ingresos del casino? 8.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 9 La siguiente tabla muestra el porcentaje de mujeres que trabaja en cada empresa (x) y el porcentaje de puestos gerenciales desempeñados por mujeres en esa empresa (y). Los datos son de empresas del sector de ventas y comercio al menudeo. Empresa Wong Mc Donald’s Hiraoka Ebel Aceros Arequipa

Xi 72 47 51 57 55

Yi 61 16 32 46 36

9.1 ¿Qué indica el diagrama de dispersión trazado en el inciso a acerca de la relación entre x e y?

$

9.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 9.3 Prediga el porcentaje de puestos gerenciales desempeñados por mujeres en una empresa en la que el 60% de sus empleados sean mujeres. 9.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 10 En el país, las autoridades del gobierno consideran que para que las deducciones totales sean razonables, es necesario considerar el ingreso bruto del causante. Las grandes deducciones, que comprenden los pagos a instituciones de beneficencia y por gastos médicos, son más razonables para causantes con grandes ingresos brutos ajustados. Si un causante pide deducciones mayores que el promedio para determinado nivel de ingresos, aumentan las posibilidades de una auditoría fiscal. A continuación vemos datos sobre el impuesto bruto ajustado y el promedio o cantidad razonable de deducciones agrupadas. Los datos están en miles de dólares. Ingresos brutos ajustados 22 27 32 48 66 85 120

Deducciones ajustadas totales (s/. miles) 9,6 9,6 10,1 11,1 13,5 17,7 25,5

10.1Trace un diagrama de dispersión para esos datos, con ingresos brutos ajustados como variable independiente. 10.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 10.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 11 En los siguientes datos, se ven las tasas de ocupación (%) y las tarifas por noche ($) en las regiones hoteleras más importantes de Estados Unidos. Región

Los Angeles Chicago Washington Atlanta Dallas

Tasa de ocupación (%) 67,9 72,0 68,4 67,7 69,5

Tarifa promedio por noche (s/. ) 75,91 92,04 94,42 81,69 74,76

$

San Diego Anaheim –Santa Ana San Francisco Houston Miami Oahu Island Phoenix Boston Tamp Dtroit Philadelphia Nashvile Seatle Mineapolis New Orleans

68,7 69,5

80,86 70,04

78,7 62.0 71,2 80,7 71,4 73,5 63,4 68,7 70,1 67,1 73,4 69,8 70,6

106,47 66,11 85,83 107,11 95,34 105,51 67,45 64,79 83,56 70,12 83,60 73,64 99,00

11.1 Trace un diagrama de dispersión para estos datos, con la tarifa promedio por noche como variable independiente. 11.2 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 11.3 Estime la tasa promedio de ocupación para un hotel cuya tarifa promedio sea de s/. 130,00 por noche. 11.4 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 12 Los datos de la tabla siguiente muestran la cantidad de ventas de acciones (en millones) y el precio esperado (promedio del precio bajo proyectado y el precio alto proyectado) para 10 emisiones públicas iniciales de acciones. Empresa Nabisco Nestlé P&G Backus Cementos Lima Andina SAC Pacocha PROATEC Río Blanco Yanacocha

Venta acciones 5,0 9,0 6,7 8,75 3,0 13,6 4,6 6,7 3,0 7,7

de Precio esperado(s/.) 15 14 15 17 11 19 13 14 10 13

$ !

12.1

Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados (con la cantidad de acciones vendidas como variable independiente). 12.2 Use la ecuación de regresión para estimar el precio que puede esperar una empresa con una oferta pública inicial de 6 millones de acciones. 12.3 ¿Qué tan confiable es dicha ecuación? Justifique estadísticamente su respuesta. 13 Una ley manda publicar información sobre impuestos irregulares sobre propiedad. Hace una lista del nombre del propietario, la valuación de la propiedad y la cantidad de impuestos, evaluaciones y penalizaciones vencidas. La valuación de la propiedad y los impuestos vencidos para una muestra de 10 propiedades irregulares aparecen en la siguiente tabla. La valuación está en miles de soles. Valuación de la propiedad (en miles de soles) 18,8 24,4 20,4 35,8 14,8 40,4 49,0 14,5 37,3

Cantidad vencida (en soles) 445 539 1 212 2 237 479 1 181 4 187 409 1 002

54,7

2 062

13.1 Determine la ecuación de regresión para estimar la cantidad de impuestos vencidos de la valuación de la propiedad. 13.2 Aplicar la ecuación de regresión para estimar los impuestos vencidos para una propiedad cuya valuación es de s/. 42 400. 13.3 ¿Cree usted que la ecuación de regresión permita una buena predicción de la cantidad de impuestos vencidos? 14 En un proceso de manufactura, se cree que la velocidad de la línea de producción, en pies por minuto, afecta la cantidad de piezas defectuosas que se encuentran en proceso de inspección. Para probar esta teoría se hizo una determinación en la que el mismo conjunto de partes era inspeccionado visualmente a diversas velocidades de la línea. En la tabla siguiente, se ve una lista de los datos reunidos. Valor de la línea Cantidad de encontradas

partes

20 20 40 30 60 40 defectuosas 21 19 15 16 14 17

$ %

14.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 14.2 Tuvo un buen ajuste con los datos de la ecuación de regresión?

15 Un hospital de una gran ciudad contrató a un psicólogo para investigar la relación entre la cantidad de días que faltan sin permiso los empleados, por año, y la distancia, en millas, de su hogar a su trabajo. Se eligió una muestra de 10 empleados y se reunieron los siguientes datos: Distancia al trabajo 1 3 4 6 8 10 12 14 14 18 Cantidad de días de ausencia 8 5 8 7 6 3 5 2 4 2 15.1 Desarrolle una ecuación de regresión que mejor se aproxime a la realidad de los datos observados. 15.2 ¿Tienen buen ajuste los datos con la ecuación de regresión? Explique por qué. 15.3 ¿Tuvo un buen ajuste con los datos de la ecuación de regresión?

Se deben identificar adecuadamente las ecuaciones de regresión no lineal.

$ &

"

$ 2

/

"3

TEMAS • • •

Análisis de Regresión lineal múltiple Recta de regresión de mínimos cuadrados Aplicación e interpretación

OBJETIVOS ESPECÍFICOS • • •

Conocer la otra ecuación de predicción lineal Determinar la ecuación de regresión lineal múltiple a partir de los datos observados Estimar adecuadamente la regresión lineal múltiple

CONTENIDOS • • •

El proceso de regresión múltiple Error estándar de la estimación de la regresión múltiple Los coeficientes de determinación múltiple

. ACTIVIDADES • •

Identifican el método de regresión lineal múltiple Analizan la ecuación de regresión lineal múltiple

$ '

ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE El proceso de regresión múltiple se usa cuando es posible utilizar más de una variable independiente para estimar la variable dependiente y, de esta manera, intentar aumentar la precisión de la estimación. Este proceso está basado en las mismas suposiciones y procedimientos que se encuentran al utilizar la regresión simple. Considere al agente de bienes raíces que desea relacionar el número de casas que la firma vende en un mes con la cantidad de su publicidad mensual. Ciertamente, se puede encontrar una ecuación de estimación sencilla que relacione a estas dos variables. Si se incluye en el proceso de estimación el número de vendedores que emplea cada mes, para predecir las ventas mensuales de casas, se debe utilizar regresión múltiple, y no simple, para determinar la relación. La principal ventaja de la regresión múltiple es que permite utilizar más información disponible para estimar la variable dependiente. En algunas ocasiones, la correlación entre dos variables puede resultar insuficiente para determinar una ecuación de estimación confiable. Sin embargo, si se agrega los datos de más variables independientes, es posible determinar una ecuación de estimación que describa la relación con mayor precisión. Regresión lineal múltiple es un modelo de la forma:

Y

=

a o + a1 X 1 + a 2 X

Donde: Y: Xi:

2+

a3 X

3+

4 + .......... .... +

a4 X

an X

n

Variable dependiente Variable independiente “i”, cuando i = 1, 2, 3, 4,.......n

El significado de los coeficientes de las “n” variables independientes, así como las definiciones de error estándar de estimación y coeficiente de determinación son válidas también para este modelo. ∧

Sea el modelo de la forma: Y = a + bX 2 + cX 2 Para hallar los valores de a, b y c

∑Y ∑YX

=

na

b ∑X

+

1

c ∑X

2

b ∑ X1 + c ∑ X X ∑ Y X = a ∑ X + b ∑ X X +c ∑ X 2 1

2

=

a ∑X

+ 1

2

2

+

1

1

2 2

2

Medida de dispersión o el error estándar de la estimación de la regresión múltiple. En la regresión simple, la estimación se hace más precisa conforme el grado de dispersión alrededor de la regresión se hace más pequeño. Lo mismo se aplica a los puntos de muestra que se encuentran alrededor del plano de regresión múltiple.

$ $

Para medir esta variación, se debe utilizar de nuevo la medida conocida como error estándar de la estimación: ∧

Y = a + bX 2 + cX 2

Sea el modelo de la forma:



Se =

∑ (Y − Y ) 2 n − k −1

Donde: .

y = valores de muestra -de la variable dependiente ∧

.

.

Y = valores correspondientes estimados a partir de la ecuación de regresión. n = número de puntos de dato de la muestra k = número de variables independientes

El denominador de esta ecuación indica que, en la regresión múltiple con k variables independientes, el error estándar tiene n-k - 1 grados de libertad. Esto es así debido a que los grados de libertad se ven reducidos de su valor n en los k + 1 constantes numéricas, a, bl, b2, ..., bk, que fueron estimadas de la misma muestra. Como fue el caso en la regresión simple, se puede utilizar el error estándar de la estimación y la distribución t para formar un intervalo de confianza aproximado alrededor de nuestro valor estimado Y. Si se desea construir un ∧

intervalo de confianza del 95% alrededor de esta estimación de Y con (n-k – 1) grados de libertad. Luego de hallar el valor apropiado de t, se puede calcular los límites del intervalo de confianza de esta forma: ∧

LSup = Y + tS e Límite superior ∧

LInf = Y − tS e Límite inferior

Los coeficientes de determinación múltiple. En el estudio del análisis de correlación simple, se mide la intensidad de la relación entre dos variables, utilizando el coeficiente de determinación r 2 de la muestra. Este coeficiente es la fracción de la variación total de la variable dependiente Y que se explica con la ecuación de estimación. Similarmente, en la correlación múltiple se deberá medir la intensidad de la relación entre tres variables utilizando el coeficiente de determinación múltiple, R2, o su raíz cuadrada, R (el coeficiente de correlación múltiple). Este coeficiente de determinación múltiple es también la fracción que representa la porción de la variación total de Y que es "explicada" por el plano de regresión. .

$

ACTIVIDADES 1. Se quiere controlar el precio (valor real) de cierto producto a partir de los de gastos de publicidad (miles de $) y los gastos en transporte ($/ton.). En un mes se tomó una muestra de 9 ensayos y se observó lo siguiente: Precio

2

2,1

2,2

2,5

2,6

2.6

2,7

2,7

2,8

Publico.

12

14

17

22

26

28

32

34

35

Transporte

25

25,2 25,1 25,3 25,3 25,4 25,3 25,4 25,5

1.1 Halle la ecuación de regresión lineal múltiple de mínimos cuadrados para predecir los precios reales. 1.2 Determine el precio real a un gasto de publicidad de 30 y un gasto en el transporte de 26.

2. Una fábrica de cierta marca de reactivos industriales desea saber los posibles cambios de reacción que sus productos pueden generar en diferentes temperaturas a diferentes volúmenes de solvente utilizado. Se ha tomado al azar 9 muestras, observando la temperatura de trabajo media correspondiente en grados centígrados (X1), el volumen del solvente utilizado (X2) y el peso promedio recuperado de soluto (Y). Los datos se resumen en la siguiente tabla: X1 X2

18 6

19 9

21 5

22 7

23 8

27 7

29 5

21 6

23 5

Y

60

69

62

65

69

70

71

65

64

Halle la recta de regresión múltiple de mínimos cuadrados para predecir el peso promedio de soluto recuperado ¿Se puede planificar dicha recuperación sobre la base de la temperatura?

$

3. La compañía minera PROATEC SA desea avaluar los posibles problemas que tiene en la recuperación de concentrado de oro a partir del proceso de lixiviación controlada, en la unidad “León” ubicado en la localidad de Churubamba departamento de Huanuco. Los siguientes datos son los pesos en gramos recuperados por Tn. (Y), temperatura de trabajo (X1) volumen de cianuro a utilizar ml/gl(X2): X1

8

9

1

2

3

7

9

1

3

X2

6

9

5

7

8

7

5

6

5

Y

6

6,9

6,2

6,5

7,2

7,0

7,1

6,6

6.8

3.1 Ajuste una curva de regresión lineal múltiple. 3.2 Estime la recuperación al trabajar a 5 °c y u n volumen de 9ml de CN.

4. Ajuste una curva de regresión lineal múltiple a los siguientes datos: X1 X2

4 3

8 6

12 14

16 18

20 29

24 37

28 38

32 42

Y

24

21

20

15

14

10

7

5

$

4.1 Halle la ecuación de regresión lineal múltiple de mínimos cuadrados. 4.2 Determine el valor de Y, cuando X1 es igual a 35 y X2 es igual a 30.

5. La presión P (Kg./cm2) de un gas metano es dependiente de las variables X1, X2 y X3, Se registró 6 reportes realizados en el laboratorio para un posible control de este gas: P

79, 7 65, 3 52, 7 36, 4 27, 7 18, 5

X1

77

61

56

68

57

87

X2

50

60

67

78

89

98

X3

97

51

52

58

56

57

Ajuste a los datos una curva de regresión lineal múltiple y estime P cuando X1 es 91, X2 es 80 y X3 es 70

6. Un gerente de obra de una constructora desea optimizar los pagos realizados en el transporte de concreto premezclado a las diferentes obras de su cargo. De reportes anteriores, obtuvo, de varios envíos, datos de ubicación (en

$

kilómetros), tonelaje de concreto (cargado en los camiones) transporte (en $). Ello se resume en la siguiente tabla. Ubicación Tonelaje

4 6

6 8

7,7 8

9,6 10

10 9

y gastos en

15,4 24,8 10 12

28 10

Gastos ($) 24 34 40 45 45 50 60 70 6.1 Halle la recta de regresión múltiple de mínimos cuadrados para predecir los gastos en transporte. 6.2 Si se desea enviar a 25 KM un volumen de 15 toneladas de concreto premezclado, ¿cuál será el gasto en el transporte?.

(

) *(

1. Se desea predecir el número de solicitudes de reembolso de los impuestos prediales, en una municipalidad, durante los días hábiles del período que va del 1 de marzo al 15 de abril, de modo que se pueda planearse mejor las necesidades de personal durante dicho periodo. Se ha hecho la hipótesis de que varios factores pueden ser útiles en la predicción. Los datos correspondientes a estos factores y el número de solicitudes de reembolso de años anteriores son las siguientes: X1 Índice económico

99 106 100 129 179

X2 Población dentro de una milla a la redonda de la oficina 10 188 8 566 10 557 10 219 9 662

X3 Ingreso promedio para la municipalidad 21 465 22 228 27 665 25 200 26 300

Y Número de solicitudes de reembolso, del 1 de marzo al 15 de abril 2 306 1 266 1 422 1 721 2 544

$

1.1 Encuentre la ecuación de regresión de mejor ajuste para estos datos. 1.2 ¿Qué porcentaje del total de variación en el número de solicitudes de reembolso se explica mediante esta ecuación? 1.3 Para 2003, el índice económico es de 169, la población dentro del área de 1 milla alrededor de la oficina es de 10 212, y el ingreso promedio en la municipalidad es de $ 26 925. ¿Cuántas solicitudes de reembolso deberá esperarse dar trámite entre el 1 de marzo y el 15 de abril? 2. Se intenta predecir la demanda anual de un cierto producto (DEMAND) utilizando las siguientes variables independientes: PRECIO = Precio del producto (en $) INGRESO= Ingreso del consumidor (en $) SUB = Precio del bien sustituto (en $) (Nota: Un bien sustituto es aquel que puede suplir a otro bien. Por ejemplo, la margarina es un buen sustituto de la mantequilla) Año 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006

Demanda Precio ($) 40 9 45 8 50 9 55 8 60 7 70 6 65 6 65 8 75 5 75 5 80 5 100 3 90 4 95 3 85 4

Ingreso ($) 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800

Sub ($) 10 14 12 13 11 15 16 17 22 19 20 23 18 24 21

2.1 Encuentre la ecuación de regresión de mejor ajuste para estos datos. 2.2 ¿Son los signos (+ o -) de los coeficientes de regresión de las variables independientes como cabe esperar? Explique brevemente la respuesta. 2.3 Establezca e interprete el coeficiente de determinación múltiple del problema. 2.4 Establezca e interprete el error estándar de la estimación para el problema. 2.5Utilizando la ecuación de regresión obtenida, ¿qué valor de DEMAND predeciría si el precio de los productos fue de $6, el ingreso del consumidor de $1 200 y el precio del bien sustituto fue de $17? 3. Antonio está pensando en vender su departamento. Con el fin de decidir qué precio pedir por él, ha recogido datos de doce ventas recientes. Registró el precio de las ventas (en miles de dólares), el número de pies

$ !

cuadrados de construcción (en cientos de pies), el número de cuartos, el número de baños y la antigüedad del departamento(en años). Precio de venta 49,65 67,95 81,15 81,60 91,50 95,25 100,35 104,25 112,65 149,70 160,65 232,50

Pies cuadrados 8,9 9,5 12,6 12,9 19,0 17,6 20,0 20,6 20,5 25,1 22,7 40,8

Dormitorios Baños Antigüedad 1 1 2 2 2 1 2 2 1 2 2 3

1,0 1,0 1,5 1,5 1,0 1,0 1,5 1,5 2,0 2,0 2,0 4,0

2 6 11 8 22 17 12 11 9 8 18 12

3.1 Determine la ecuación de regresión de mejor ajuste para los datos dados 3.2 ¿Cuál es el valor de R2 para esta ecuación? 3.3 Si el departamento de Antonio tiene 1 800 pies cuadrados (=18,0 cientos de pies cuadrados), un dormitorio, 1,5 baños y seis años de antigüedad, ¿qué precio de venta podría esperar Antonio? 4 Aceros Arequipa ha estado buscando los factores que influyen en la cantidad de acero (en millones de toneladas) que es capaz de vender cada año. La administración sospecha que los siguientes son los factores principales: la tasa anual de inflación del país, el precio promedio por tonelada mediante el cual el acero importado acota los precios (en dólares) de la compañía, y el número de construcciones que se están planeando realizar en este año. Se han recogido los datos correspondientes a los últimos siete años: Año

1 999 1 998 1 997 1 996 1 995

Y Millones de tons. vendidas 4,2

X1 Tasa de inflación

X3 Número de construcciones

3,1

X2 Limitación de importación 3,10

3,1

3,9

5,00

5,1

4,0

7,5

2,20

5,7

4,7

10,7

4,50

7,1

4,3

15,5

4,35

6,5

6,2

$ %

1 994 1 993

3,7

13,0

2,60

6,1

3,5

11,0

3,05

5,9

4.1 Determine la ecuación de regresión de mejor ajuste para los datos. 4.2 ¿Qué porcentaje de la variación total de la cantidad de acero vendido (en millones de toneladas) por la compañía cada año es explicado por esta ecuación? 4.3 ¿Cuántas toneladas de acero deberá esperar vender la compañía en un año, si la tasa de inflación estimada sería de 7,1; las empresas constructoras están planeando construir 6,0 millones de departamentos y el promedio de limitación por impuesto al acero importado por tonelada sería de $3,50? 5 Una línea aérea ha efectuado una investigación sobre sus 15 terminales y ha obtenido los siguientes datos correspondientes al mes de julio, en los que se han recogido los siguientes datos: VENTAS = Recuperación total basada en el número de boletos vendidos (en miles de dólares) PROMOC= Cantidad gastada en promover la línea aérea en la zona (en miles de dólares) COMPET = Número de aerolíneas competidoras en ese aeropuerto. GRATIS = porcentaje de pasajeros que vuelan gratis (por alguna razón) Venta 79,3 200,1 163,2 200 146,0 177,7 30,9 291,9 160,0 339,4 159,6 86,3 237,5 107,2 155,0

Promoc 2,5 5,5 6,0 7,9 5,2 7,6 2,0 9,0 4,0 9,6 5,5 3,0 6,0 5,0 3,5

Compet 10 8 12 7 8 12 12 5 8 5 11 12 6 10 10

Gratis 3 6 9 16 15 9 8 10 4 16 7 6 10 4 4

5.1 Determine la ecuación de regresión de mejor ajuste para la aerolínea 5.2 ¿Los pasajeros que vuelan gratis ocasionan que las ventas bajen significativamente? Establezca y pruebe las hipótesis apropiadas. Use α=0,10.

$ &

5.3 Dé un intervalo de confianza de 90% para el coeficiente de la pendiente de COMPET. 6 El doctor Javier L. registró los datos correspondientes a edad, reacción a la penicilina y presión sanguínea sistólica de 30 pacientes. Tomó la presión sanguínea como la variable dependiente, la edad como X1 (variable independiente) y la reacción a la penicilina como X2 (variable independiente). Haciendo 0 represente una reacción positiva a la penicilina y 1 una reacción negativa, hizo correr el procedimiento de regresión múltiple. La ecuación de predicción es: Yˆ = 6,7 + 3,5 X 1 + 0,489 X 2

6.1 Después de haber hecho la regresión, el doctor descubrió que en realidad quería codificar una reacción positiva a la penicilina como =1 y la negativa como 0. ¿Tiene que volver a realizar la regresión? Si es sí, ¿por qué? Si no, dé la ecuación que debió haber obtenido si la variable hubiera sido codificada de la manera que se había planeado inicialmente. 6.2 Si Sb2 tiene un valor de 0,09, ¿esta regresión proporciona evidencia a un nivel de significancia de 0,05 de que la reacción a la penicilina es una variable explicativa significativa de la presión sanguínea? 7 Una popular cadena de comida rápida, recientemente, ha experimentado un marcado cambio en sus ventas, como consecuencia de una campaña publicitaria bastante exitosa. Como resultado de lo anterior, la administración de la cadena está buscando un nuevo modelo de regresión para sus ventas. Los datos siguientes fueron recolectados durante un periodo de doce semanas desde el inicio de la campaña publicitaria.

tiempo 1 2 3 4 5 6

Ventas (miles de dólares) 4 618 311 7 119 4 367 5 118 8 887

tiempo 7 8 9 10 11 12

Ventas (miles de dólares) 19746 34215 50306 65717 86434 105464

7.1 Ajuste un modelo lineal con TIEMPO como variable independiente y VENTAS como variable dependiente. 7.2 ¿Está usted satisfecho con el modelo construido en a) como predictor de VENTAS? Explique su respuesta. 7.3 Ajuste un modelo cuadrático para los datos. ¿Este modelo es mejor? Explique su respuesta. 8 Un profesor de estadística ha recolectado un conjunto de 20 pares de puntos de datos. A la variable independiente la llamó X1 y a la variable dependiente Y. Llevó a cabo una regresión de Y sobre X1, y no quedó

$ '

satisfecho con el resultado. Debido a algunos patrones no aleatorios que observó en los residuos, decidió elevar al cuadrado los valores de X1; designó como X2 a estos valores al cuadrado. El profesor, entonces, corrió el procedimiento de regresión múltiple de Y sobre X1 y X2. La ecuación resultante fue la siguiente: Yˆ = 200,4 + 2,79 X 1 − 3,92 X 2 El valor de Sb1 fue de 3,245 y el de Sb2 fue de 1,53. A un nivel de significancia de 0,05, determine si 8.1 El conjunto de valores lineales de X1 es una variable explicativa significativa para Y. 8.2 El conjunto de valores al cuadrado de X1 es una variable explicativa significativa para Y.

9 A continuación se presentan algunos datos sobre gastos de consumo, CONSUMO; ingreso disponible, INGRESO; y sexo del jefe o de la jefa de familia, SEXO; de n=12 familias escogidas aleatoriamente. La variable GÉNERO ha sido codificada de la siguiente manera:

GÉNERO

1 si SEXO = " M " ( masculino ) =   0 si SEXO = " F " ( femenino )

Consumo Ingreso($) Sexo Género 18535 22550 M 1 11350 14035 M 1 12130 13040 F 0 15210 17500 M 1 8680 9430 F 0 16760 20635 M 1 13480 16470 M 1 9680 10720 F 0 17840 22350 M 1 11180 12200 F 0 14320 16810 F 0 19860 23000 M 1 9.1 Ajuste un modelo de regresión para predecir CONSUMO a partir de INGRESO y de GÉNERO. 9.2 Establezca la ecuación de regresión ajustada. 9.3 Si el ingreso disponible se mantiene constante, ¿existe una diferencia significativa en el consumo entre familias cuyo jefe es hombre, contra aquellas familias cuyo jefe es mujer? Establezca explícitamente las hipótesis, pruébelas al nivel de significancia de 0,10 y establezca una conclusión explícita. 9.4 Dé un intervalo de confianza aproximado de 95% para el consumo de una familia con ingreso disponible de $ 23 000 y encabezada por un hombre.

$ $

10 La Unidad de Medición de la Calidad (UMC) está examinando la relación existente entre el resultado de un empleado en una prueba de aptitudes, su experiencia previa de trabajo y su éxito en el empleo. Se hace un estudio y se pondera la experiencia de un empleado en trabajos anteriores, y se obtiene un índice entre 2 y 12. La medida del éxito en el empleo está basada en un sistema de puntuación que implica producción total y eficiencia, con un valor máximo posible de 50. Se tomó una muestra de seis empleados con menos de un año de antigüedad y se obtuvo lo siguiente: X2 Y X1 Resultado de la prueba Experiencia en Evaluación del sobre aptitudes desempeño Trabajos anteriores 74 5 28 87 11 33 69 4 21 93 9 40 81 7 38 97 10 46 10.1Desarrolle la ecuación de estimación que mejor describa estos datos. 10.2Si un empleado obtuvo 83 puntos en la prueba de aptitudes y tenía una experiencia en trabajos anteriores de 7, ¿qué evaluación de desempeño se podría esperar? 11 El Banco de Lima desea abrir nuevas cuentas de cheques para clientes que emitirán al menos 30 cheques al mes. Para ayudarse en la selección de los nuevos clientes, el banco ha estudiado la relación existente entre el número de cheques expedidos, y la edad y el ingreso anual de ocho de sus clientes actuales. La variable EDAD fue registrada con respecto al año más reciente y la variable INGRESO anual fue registrada en miles de dólares. Los datos se presentan a continuación: Cheques Edad Ingreso 29 37 16,2 42 34 25,4 9 48 12,4 56 38 25,0 2 43 8,0 10 25 18,3 48 33 24,1 4 45 7,9 11.1 Desarrolle una ecuación de estimación que utilice las variables edad e ingreso para predecir el número de cheques emitidos por mes. 11.2¿Cuántos cheques al mes se esperaría que emitiera un cliente de 35 años de edad con ingreso anual de $22500? 12 Ciro Taipe está considerando cambiarse a otra parte de la ciudad y le gustaría predecir el precio de venta de su casa. Ha decidido utilizar la

$

variable VALORIMP (en miles de dólares) y ESQUINA (= 1 para lotes situados en esquina y 0 en cualquier otro caso) como variables explicativas. Para ajustar su modelo, ha recolectado los datos, que se presentan a continuación, concernientes a nueve ventas escogidas aleatoriamente, en la que la variable PRECIO se midió en miles de dólares. Ha decidido utilizar VALORIMP (VALORIMP)2 y ESQUINA como variables explicatorias, debido a que piensa que existe una relación cuadrática. Precio VALORIMP IMPES = (VALORIMP)2 Esquina 56,2 17,5 306,25 1 42,5 12,5 156,25 1 67,5 20,0 400,00 1 39,0 11,5 132,25 1 33,3 12,5 156,25 0 29,0 10,0 100,00 0 30,0 10,8 116,64 0 48,0 17,0 289,00 0 44,3 16,0 256,00 0

12.1 Calcule la ecuación de regresión de mejor ajuste para estos datos. 12.2 ¿Qué fracción de la variación en PRECIO se explica con esta ecuación? 12.3 Dé un intervalo de confianza de 90% para el aumento de precio de venta atribuible a tener un lote en esquina. 12.4 ¿Fue buena idea incluir la variable (VALORIMP)2 en la regresión? Explique su respuesta.

Se deben diferencias la variable dependiente de las variables independientes.

$

"

$ /

+

TEMAS • •

Correlación entre dos variables, dependiente e independiente Coeficiente de correlación lineal (fórmula de Pearson)

OBJETIVOS ESPECÍFICOS • •

Determinar los coeficientes de correlación para un conjunto de datos Determinar cuantitativamente el grado de asociación entre las variables

CONTENIDOS • • •

Análisis de correlación Correlación entre dos variables, dependiente e independiente Coeficiente de correlación lineal (fórmula de Pearson)

ACTIVIDADES



Analizan los alcances de la regresión Simple, las ventajas y desventajas que presenta para realizar pronósticos Determinan cuantitativamente el grado de asociación entre dos variables

$

CORRELACIÓN ENTRE DOS VARIABLES Análisis de Correlación El análisis de correlación es un grupo de técnicas estadísticas que permiten medir la intensidad de la relación que puede existir entre dos variables. Ayuda a concluir si es que están fuertemente relacionadas o no. El objetivo es determinar que tan intensa es la relación. Para ello, se utiliza para ello el coeficiente de correlación (r). El valor de este coeficiente está comprendido entre –1 y 1. Si el valor de r tiende o está cerca de 1 se dirá que la relación entre las variables en cuestión es bastante intensa y además directa; en cambio, si el valor es cercano a –1 la relación también es muy intensa pero inversa. Por otra parte, si el valor de r se acerca a cero se puede afirmar que no existe ninguna correlación. El valor de la correlación se calcula a través de la siguiente fórmula:

r=

n∑ x y − ∑ x∑ y

n∑ x 2 − (∑ x )

2

r=

n∑ y 2 − (∑ y )

2

Sx y Sx S y

ACTIVIDADES 1. Un estudiante del cuarto ciclo de la carrera de gestión y sistemas elabora un estudio de compañías que se están dando a conocer. Tiene curiosidad por ver si existe o no relación significativa entre el tamaño de la oferta (en millones de dólares) y el precio por acción. Tamaño 108,00 4,40 3,50 3,60 39,00 68,40 7,50 5,50 375,00 12,20 4,40 Precio

12,0

4,0

5,0

5,0

13,0

19,0

8,5

5,0

15,0

6,0

1.1 Desarrolle la ecuación de estimación lineal. 1.2 Calcule el coeficiente de determinación de la muestra. 1.3 ¿Debería usar esta ecuación de regresión con propósitos predictivos?

12,0

$

2. La compañía electrónica CEPER está iniciando pruebas de mercadeo, de su nuevo producto (detector de radar operado por baterías). Sus laboratorios de control han realizado pruebas limitadas en las unidades y han recabado los siguientes datos: VIDA APROXIMADA (MESES) Horas de uso diario 2,0 1,5 1,0 0,5 1,8

Litio

Alcalina

3.1 4.2 5.1 6.3 8.1

1.3 1.6 1.8 2.2 3.1

2.1 Desarrolle la ecuación de estimación lineal para predecir la vida del producto basándose en el uso diario con baterías de litio y una para baterías alcalinas. 2.2 Calcule el coeficiente de correlación de la muestra para ambos tipos de batería 2.3 ¿Debería usar alguna ecuación de regresión con propósitos predictivos?

3. Se ha propuesto un estudio para investigar la relación entre el peso Kg. al nacer de bebés varones y su peso kg. de adultos. Use los siguientes datos: Peso al nacer 3.52 2.95 3.90 4.20 3.85 2.85 3.05 2.95 3.80 Peso de adulto 72.5 85.3 94.2 78.4 65.4 80.4 74.5 60.3 90.5 3.1 Desarrolle la ecuación de estimación de mínimos cuadrados. 3.2 ¿Qué porcentaje de la variación en peso de adulto es explicado por la línea de regresión? 3.3 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?

$

4. Un estudio de Mercado trata de averiguar si es efectiva la propaganda televisada de un producto que salió a la venta con relación al tiempo de publicidad (en minutos/semana). Se recopilaron datos a partir de la segunda semana de iniciada la publicidad resultando el cuadro que sigue. Semana Tiempo de propaganda (minutos/semana) Venta del producto ( miles $)

2

3

4

5

6

7

35

52

62

68

76

80

30

120

180

100

310

200

4.1 Halle la ecuación de regresión de mínimos cuadrados lLineal para predecir las ventas semanales. 4.2 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?

. 5. Debido a la demanda de sus publicaciones y del fuerte incremento de la competencia desleal e informal, la editorial Vinces Vives ha tomado la decisión de preparar algunos libros de uso popular en la educación primaria. Teniendo como único parámetro la cantidad de páginas de dicho libro. Se toma una muestra de siete (07) de ellos, y se anota el precio de venta que debería tener por la cantidad de páginas que tendría dicho libro. En la siguiente tabla, se recopilan dichos datos.

$ !

Precio 12.00 ($) # Pág. 175

12.50

13.80

15.40

17.50

18.00

20.00

140

280

320

280

360

300

5.1 Determine la ecuación de regresión lineal y el coeficiente de correlación entre el precio y el número de páginas. 5.2 ¿Debería usarse esta ecuación de regresión con propósitos predictivos?

6. Un estudio efectuado por la dirección de transporte de Lima Metropolitana sobre el efecto de los precios de los boletos de autobuses (en céntimos de nuevo sol) que tienen, con respecto al número de pasajeros (por cada 100 kilómetros de recorrido) en diferentes zonas (distritos) de la capital, produjo los siguientes resultados: PRECIO DEL BOLETO TOTAL DE PASAJEROS

15

20

25

30

35

40

45

50

55

430 330 400 270 180 340 220 180 280

6.1 Desarrolle la ecuación de regresión lineal simple correspondiente al conjunto de datos 6.2 ¿Debería usarse esta ecuación de regresión con propósitos predictivos? 6.2 Si es posible, determine el número de pasajeros por cada100 kilómetros, si el precio del boleto fuera de 65 céntimos de nuevo sol.

$ %

7. Una aplicación importante del análisis de regresión en contabilidad es para estimar costos. Al reunir datos sobre volumen y costo, y aplicar el método de cuadrados mínimos para formar una ecuación de regresión donde se relacionen el volumen y el costo, un contador puede estimar el costo asociado con determinada operación de manufactura. Se obtuvo la siguiente muestra de volúmenes de producción y costo total para una operación de manufactura. Volumen (unidades)

de 400 450 550 600 700 750

producción Costo total (s/.) 4 000 5 000 5 400 5 900 6 400 7 000

7.1 Use estos datos para deducir una ecuación de regresión con la que se pueda predecir el costo total para determinado volumen de producción. 7.2 ¿Cuál es el costo variable, o costo adicional, por unidad producida? 7.3 Calcule el coeficiente de determinación. ¿Qué porcentaje de la variación en el costo total puede explicar el volumen de producción? 7.4 El programa de producción de la empresa indica que el mes próximo se deben producir 500 unidades. ¿Cuál será el costo total estimado para esta operación?

$ &

(

) *(

1. En finanzas, es de interés ver la relación entre Y, devolución promedio de acciones, y X, la devolución global del mercado. El coeficiente de pendiente calculado por la regresión lineal es denominada la beta de las acciones por los analistas de inversiones. Una beta mayor que 1 indica que las acciones son relativamente sensibles a cambios de mercado, mientras que una beta menor que 1 indica que las acciones son relativamente insensibles. Para los datos siguientes, calcule la beta y pruebe si esta es significativamente menor que1. Use α = 0,05. Y (%) X (%)

10 11

12 15

8 3

15 18

9 10

11 12

8 6

10 7

13 18

11 13

2. En un problema de regresión con un tamaño de muestra de 17, se encontró que la pendiente era 3,73 y que el error estándar de la estimación era

(∑ X

2

)

− n X = 871,56 . 2.1 Encuentre el error estándar del coeficiente de pendiente de regresión. 2.2 Construya un intervalo de confianza de 98% para la pendiente de población. Interprete el intervalo de confianza. 28,654. La cantidad

2

3 Las Inmobiliarias a menudo están interesadas en ver cómo el valor de una casa varía de acuerdo con su tamaño. A continuación se muestran alguno de los datos del área (en miles de pies cuadrados) y valor tasado (en miles de dólares para una muestra de 11 casas. Área (mile s pies² ) Valor (mile s de dólar es)

1,1

1,5

1,6

1,6

1,4

1,3

1,1

1,7

1,9

1,5

1,3

75

95

110

102

95

87

82

115

122

98

90

3.1 Estime la regresión de mínimos cuadrados para predecir el valor tasado a partir del tamaño. 3.2 Generalmente, las inmobiliarias sienten que el valor de una casa sube 50 mil dólares por cada 1 000 pies cuadrados de áreas. Para esta muestra, ¿se cumple esta relación? 4 En 1 999, una agencia gubernamental de salud encontró que, en cierto número de distritos, la relación de fumadores y muertes, por enfermedades del corazón para 10 000 pobladores, tenía una pendiente de 0,08. Un estudio reciente en 18 distritos produjo una pendiente de 0,147 y un error estándar del coeficiente de pendiente de regresión de 0,032.

$!'

4.1 Construya una estimación de intervalo de confianza de 90% de la pendiente de la verdadera línea de regresión. ¿El resultado de este estudio indica que la verdadera pendiente ha cambiado? 4.2 Construya una estimación de intercalo de confianza de 99% de la pendiente de la verdadera línea de regresión. ¿Indica el resultado de este estudio que la verdadera pendiente ha cambiado? 5 Los registros de una universidad presentan datos sobre la probabilidad de una auditoía por parte de la SUNAT. La siguiente tabla muestra los ingresos brutos promedio informados y el porcentaje de las declaraciones de impuestos que fueron auditadas en 20 distritos seleccionados de recaudación de impuestos. Distrito

Ingresos ajustados La Molina 36 664 La Victoria 38 845 Ate 34 886 Breña 32 512 Pueblo Libre 34 531 Jesús María 35 995 Magdalena 37 799 Surco 33 876 Comas 30 513 San juan de Miraflores 30 174 San juán de 30 060 Lurigancho Chosica 37 153 Miraflores 34 918 Barranco 33 291 San Isidro 31 504 Rímac 29 199 Los Olivos 33072 Ancón 30 859 Independencia 32 566 San Borja 34 296

brutos Porcentaje auditado 1,3 1,1 1,1 1,1 1,0 1,0 0,9 0,9 0,9 0,9 0,8 0,8 0,7 0,7 0,7 0,6 0,6 0,5 0,5 0,5

5.1 Desarrolle la ecuación estimada de regresión que se pueda usar para predecir el porcentaje auditado proporcionando el promedio del ingreso bruto ajustado reportado. 5.2 Al nivel de significancia de 0,05, determine si están relacionados el ingreso bruto ajustado y el porcentaje auditado. 5.3 ¿Proporciona un buen ajuste la ecuación estimada de regresión? Explique.

$!$

5.4 Emplee la ecuación estimada de regresión desarrollada en el inciso a para calcular el estimado de un intervalo de confianza de 95% del porcentaje esperado auditado para los distritos con un promedio del ingreso bruto ajustado de s/. 35 000. 6 La compañía de teléfonos siempre ha asumido que el número promedio de llamadas diarias asciende a 1,5 por cada persona adicional en una casa. Se ha sugerido que la gente conversa más de lo que esto refleja. Se tomó una muestra de 64 casas y se calculó que la pendiente de regresión de Y (número promedio de llamadas diarias) sobre X (tamaño de la casa) era de 1,8 con un error estándar del coeficiente de pendiente de regresión de 0,2. Pruebe si se hacen significativamente más llamadas por persona adicional de lo que la compañía de teléfonos asume, utilizando α = 0,05. Establezca la hipótesis y la conclusión explícitas. 7 Los funcionarios universitarios responsables de la admisión, constantemente buscan variables con las cuales predecir los promedios de puntos de nivel de los aspirantes. Una variable comúnmente usada es el promedio de puntos del nivel del bachillerato. Para una universidad, los datos anteriores indicaban que la pendiente era 0,85. Un pequeño estudio reciente de 20 estudiantes encontró que la pendiente era 0,70 y que el error

(

)

estándar de la estimación era 0,60. La cantidad ∑ X 2 − n X era igual a 0,25. Al nivel de significancia de 0,01, ¿debería concluir la universidad que la pendiente ha cambiado? 2

8. Los economistas con frecuencia están interesados en estimar funciones de consumo. Esto se efectúa mediante la regresión del consumo Y sobre el ingreso X. (Para esta regresión, los economistas llaman a la pendiente la progresión marginal al consumo.) Para una muestra de 25 familias, se calculó una pendiente de 0,87 y un error estándar del coeficiente de pendiente de regresión de 0, 035. Para esta muestra, ¿la propensión marginal a consumir disminuyó por debajo del estándar de 0,94? Utilice α = 0,05. Establezca explícitamente las hipótesis y una conclusión.

El coeficiente de Pearson define el grado de asociación entre la variable independiente y dependiente Si el coeficiente de Pearson es pequeño entonces no tendrá sentido encontrar la ecuación de regresión para predecir valores a futuro.

$!

$!

"

$ /

+

TEMAS • •

Coeficiente de correlación generalizado (coeficiente de determinación) Coeficiente de correlación de rango (fórmula de Spearman)

OBJETIVOS ESPECÍFICOS •

Determinar cuantitativamente el grado de asociación entre las variables

CONTENIDOS • • • •

Coeficiente de Determinación Error de estimación Pendiente de una recta de población Coeficiente de correlación de rango (fórmula de Spearman)

ACTIVIDADES • •

Identifican las variables independiente, dependiente Analizan los grados de asociación entre las variables para su predicción

$!

CORRELACIÓN ENTRE DOS VARIABLES Una vez establecido el modelo habría que preguntarse: ¿Qué tan confiables son las predicciones que se hagan a través del modelo? Para ello, es fundamental calcular el coeficiente de determinación (r2). Dicho coeficiente indica el porcentaje en que la variación de la variable dependiente es “explicada” por la variable independiente. Los valores de este coeficiente se encuentran comprendidos entre 0 y 1 y, mientras más cercano de encuentre de 1, el modelo será más confiable. El coeficiente de determinación se calcula de las siguientes maneras: r = 2

a ∑ y + b∑ x y − n y

∑y

2

− ny

2

2

S 2x y r = 2 2 Sx S y 2

Para medir la confiabilidad de una ecuación de estimación, se usa el error estándar de estimación (Se) y es similar a la desviación estándar que mide el grado de conjuntos observados respecto a la media. El error de estimación, por otra parte mide el grado de variabilidad, o dispersión de los valores observados alrededor de la línea de regresión. Se =

Se =

∑y

2

− a ∑ y − b∑ x y n−2

∧   y − y   ∑  n−2

2

Donde: y = Es el valor de la variable independiente. ∧

y = Valores estimados de la ecuación de estimación correspondiente. n = El número de puntos de datos utilizados. Como se aplica en el error estándar, mientras más grande sea el error estándar de estimación, mayor será la dispersión de los puntos alrededor de la línea de regresión.

Pendiente de la Línea de Regresión de la Población La línea de regresión se deriva de una muestra y no de una población entera. Como resultado no se puede esperar que la ecuación de regresión, Y = A + BX (aquella para la población), sea exactamente la misma que la estimada a partir ∧



de las observaciones de la muestra y = a + b x . Para encontrar la estadística de prueba de B (pendiente de la línea de regresión para toda la población), es necesario primero encontrar el error estándar del coeficiente de regresión Sb

$!

Sb =

Se

∑x

2

− nx

2

Donde: Sb = error estándar del coeficiente de regresión Se = error estándar de estimación x = valor de la variable independiente x = la media de los valores de la variable independiente Para realizar una prueba de hipótesis respecto a B, se define: H o : B = Bo H 1 : B ≠ Bo Para estandarizar la pendiente de la ecuación de regresión. b − Bo t= Sb b = la pendiente de regresión ajustada Bo =la pendiente real hipotética para la población Sb = error estándar del coeficiente de regresión Puesto que la prueba se basa en una distribución t student con (n-2) grados de libertad, usamos t para denotar la estadística estandarizada. EL COEFICIENTE DE CORRELACIÓN DE RANGO Con la noción del coeficiente de correlación, se concluyó una medida de la cercanía de asociación entre dos variables. Con frecuencia, en el análisis de correlación, la información no está siempre disponible en forma de valores numéricos. Pero si se puede asignar clasificaciones a los elementos de cada una de las dos variables que se están estudiando, entonces puede calcularse un coeficiente de correlación de rango. Ésta es una medida de la correlación que existe entre los dos conjuntos de rangos, una medida del grado de asociación entre las variables que no podríamos calcular de otra manera. Una segunda razón para aprender el método de correlación de rango es la posibilidad de simplificar el proceso de cálculo de un coeficiente de correlación a partir de un conjunto de datos muy grande para cada una de las dos variables. Esta medición se le conoce como el coeficiente de correlación de rango de Spearman, en honor al estadístico que lo desarrolló a principios de siglo pasado.

rs = 1 −

6∑ d

(

2

n n2 −1

)

rs = coeficiente de correlación de rango n = número de observaciones apareadas d = diferencia entre rangos para cada pareja de observaciones Si el valor del coeficiente de rangos es +1 o -1, significa que existe una asociación perfecta entre las dos variables.

$!

ACTIVIDADES 1. Los datos siguientes son los sueldos mensuales, y promedios de calificaciones x para estudiantes que obtuvieron su licenciatura en administración, con especialización en sistemas de información. Calificación 2,6 3,4 3,6 3,2 3,5 2,9

Sueldo mensual ( s/.) 2 800 3 100 3 500 3 000 3 400 3 100

1.1 Calcule el coeficiente de determinación r2. 1.2 ¿Cuál es el valor del coeficiente de correlación para la muestra?

2. En un laboratorio médico, se estima la cantidad de proteína en muestras de hígado empleando un modelo de regresión. En un espectrómetro se emite luz que pasa por una sustancia que contiene la muestra, y la cantidad de luz absorbida se emplea para estimar la cantidad de proteína. Diariamente, se forma una nueva ecuación de regresión, porque las cantidades de colorante son distintas. En un día, se obtuvieron las indicaciones de absorbencia de la tabla, usando concentraciones conocidas de proteína. Absorbencia ( Miligramos de proteína ( yi) xi) 0,509 0 0,756 20 1,020 40 1,400 80 1,570 100 1,790 127

$!!

2.1 Con estos datos, forme una ecuación de regresión que relacione la indicación de absorbencia de luz con los miligramos de proteína de la muestra. 2.2 Calcule r2. ¿Se sentiría cómodo con este modelo de regresión, al estimar la cantidad de proteína de una muestra? 2.3 En una muestra que se acaba de recibir, la indicación de absorbencia fue de 0,941. Estime la cantidad de proteína en esa muestra.

3. Las siguientes son clasificaciones de acometividad (X) y cantidad de ventas en el último año (Y) de ocho vendedores. ¿Existe una correlación significativa entre las dos mediciones? Utilice el nivel de significancia de 0.10. X Y

30 35

17 31

35 43

28 46

42 50

25 32

19 33

29 42

4. Un supervisor de planta clasificó una muestra de ocho trabajadores según el número de horas extras trabajadas y la antigüedad en el empleo. ¿La correlación de rango entre las dos mediciones es significativa al nivel de 0.01?

$!%

Cantidad de horas 5.0 extra Años de empleo 1.0

5.

8.0

2.0

4.0

3.0

7.0

1.0

6.0

6.0

4.5

2.0

7.0

8.0

4.5

3.0

La mayoría de las personas cree que la experiencia gerencia produce mejores relaciones interpersonales entre un gerente y sus empleados. La Corporación ATT tiene los siguientes datos que equiparan los años de experiencia por parte del gerente con el número de quejas archivados, el año pasado, por los empleados que reportaban con el gerente. Al nivel de significancia de 0.05, ¿la correlación de rango entre estos dos factores sugiere que la experiencia mejora las relaciones? Edad del gerente Número de quejas

32 5

43 2

42 2

29 4

56 3

62 2

45 4

39 5

40 4

35 6

6. Seguros Plan ha confinado sus estudios a la industria química sintética, por ello se desea realizar unos estudios de la relación de gastos para la seguridad en plantas y la tasa de accidentes en ellas. Para ajustar el tamaño diferencial que existía entre algunas de las plantas, Seguros Plan convirtió sus datos en gastos (en dólares) por empleado de producción. Los siguientes son los resultados:

$!&

Compañía Gastos Accidentes

A 60 5

B 37 7

C 30 6

D 20 9

E 24 7

F 42 4

G 39 8

H 54 2

I 48 4

J 58 3

K 26 8

¿Existe una correlación significativa entre los gastos y los accidentes en las plantas de las compañías químicas? Use una correlación de rango (en la que 1 represente el mayor gasto y tasa de accidentes) para respaldar su conclusión. Pruebe al nivel de significancia de 1 %.

(

) *(

1. “El granjerito” trató de determinar la relación entre el porcentaje de metionina que se agrega al alimento y el peso corporal de pollos. Con los datos obtenidos se aplicó el análisis de regresión y se determinó la siguiente línea de regresión: yˆ = 0,21 + 0,42 x

En donde: yˆ = peso corporal estimado en kilogramos X = porcentaje de metionina adicional en el alimento El coeficiente de determinación, r2, fue 78, lo que indica que el ajuste fue razonablemente bueno para los datos. Suponga que se usó una muestra de

(

)

2

∧  tamaño 30 para el estudio, y ∑ y − y = 45 . Calcule ∑  y − y  .   2. ¿A los directores y principales ejecutivos se les paga de acuerdo con las ganancias obtenidas por las empresas? La siguiente tabla muestra una lista de datos corporativos sobre el cambio porcentual en el rendimiento de las acciones durante un periodo de dos años, y el cambio porcentual en la paga a los directores y principales ejecutivos, inmediatamente después de 2 años. 2

$%'

Empresa ASAKA WONG MICMAS TODOS TECHO PATIO PPKSA

Cambio bianual en el Cambio en el pago ejecutivo (%) rendimiento (%) 201,3 18 146,5 28 76,7 10 158,2 28 -34,9 15 73,2 -9 -7,9 -20

2.1 Forme la ecuación de regresión con el cambio porcentual bianual de rendimiento de las acciones como variable independiente. 2.2 Calcule r2. ¿Se sentirá cómodo al usar el cambio porcentual bianual de rendimiento de las acciones para predecir el cambio porcentual en el sueldo de los principales ejecutivos? Comente sus razones. 2.3 ¿Cuál es el coeficiente de correlación? ¿Refleja una relación intensa o débil entre el rendimiento y la compensación a ejecutivos? 3. La revista Etiqueta Negra informó que “la beta” de mercado para Backus es 1,25. Las betas de mercado para acciones individuales se determinan con regresión lineal simple. Para cada acción, la variable dependiente es el rendimiento trimestral porcentual (reevaluación del capital más dividendos) menos el rendimiento porcentual que se podría obtener con una inversión libre de riesgos (la tasa de Bonos de la Tesorería se usa como tasa libre de riesgo). La variable independiente es el rendimiento trimestral porcentual (reevaluación del capital más dividendos) para el mercado de acciones (S&P 500) menos el rendimiento porcentual de una inversión libre de riesgos. Con los datos trimestrales se determina una ecuación; la beta de mercado para la acción es la pendiente de la ecuación estimada de regresión (b1), y su valor se interpreta con frecuencia, como medida del riesgo asociado con esas acciones. Las betas del mercado mayores que uno indican que la acción es más volátil que el promedio del mercado. En la tabla siguiente se presentan las diferencias entre el rendimiento porcentual y el rendimiento libre de riesgo de 10 trimestres de las empresas Backus y Brahama. Backus Brahama

1,2 -0,7

-2,5 -2,0

-3,0 -5,5

2,0 4,7

5,0 1,8

1,2 4,1

3,0 2,6

-1,0 2,0

0,5 -1,3

2,5 5,5

3.1 Determine la ecuación de regresión para calcular la beta de mercado ¿Cuál es la beta de mercado de Brahama? 3.2 Calcule r2. ¿Se sentiría cómodo con este modelo de regresión. 3.3 ¿Tuvo buen ajuste la ecuación estimada de regresión? Explique su respuesta. 4. Un profesor de mercadotecnia se interesa en la relación entre las horas de estudio y los puntos totales obtenidos en su curso. A continuación, se observa los datos reunidos con 10 alumnos que acaban de tomar el curso.

$%$

Horas de estudio 45 30 90 60 105 65 90 80 55 75 Total de puntos 40 35 75 65 90 50 90 80 45 65 obtenidos 4.1 Forme una ecuación de regresión que muestre cómo se relaciona el total de puntos obtenidos con las horas de estudio. 4.2 ¿Cuál es el coeficiente de correlación? 4.3 Prediga los puntos totales que obtendrá Karina López. Pasó 95 horas estudiando. 5. Dos profesores de una escuela de comercio discutían sobre lo difícil que es predecir el éxito de los graduados basándose solamente en las calificaciones. Un profesor pensaba que el número de años de experiencia que los maestros en administración de empresas tuvieran antes de regresar por sus post grados era probablemente el mejor preeditor. Usando los siguientes datos, al nivel de significancia de 0.02, ¿qué correlación de rango es un mejor preeditor de éxito profesional? Años de experiencia Promedio de calificaciones Rango de éxito (10 = tope)

4

3

4

6

7

5

5

2

1

3

3.4 3.2 3.5 2.9 3.4 3.9 3.6 3.0 2.5 3.0 4

2

6

7

9

8

10

3

1

5

6. La Empresa Carolina tiene dos encuestadores entrenados para reclutar aprendices gerenciales para nuevos mercados de ventas. Aunque cada uno de los encuestadores tiene su propio estilo, se considera que ambos son buenos jueces preliminares del potencial gerencial. La gerente de personal se preguntaba qué tanto coincidirían los encuestadores, así que hizo que ambos evaluaran independientemente a 14 solicitantes. Clasificaron a los solicitantes en términos de su grado de contribución potencial a la compañía. Los resultados se presentan en la tabla. Use la correlación de rango y un nivel de significancia de 2% para determinar si existe una correlación positiva significativa entre las dos clasificaciones de los encuestadores. Solicitante Encuestador 1

1 2 3 4 5 6 7 8 9 10 11 12 13 1.4 1 11 13 2 12 10 3 4 14 5 6 9 7 8

Encuestador 2

4 12 11 2 14 10 1 3 13

8

6

7

9

5

7. Una supervisora de un proceso de ensamblaje de cámaras litográficas, siente que mientras más tiempo trabaja junto a un grupo de empleados, mayor es la tasa de producción diaria. Ha recibido los siguientes datos para un grupo de empleados que trabajan juntos durante 10 días. Producción diaria Días trabajados conjuntamente

7.2 5.5 6.2 8.3 5.2 2.0 3.0 0.5 9.0 6.0 1

2

3

4

5

6

7

8

9

10



%$¿Puede concluir Nancy a un nivel de significancia de 5%, que no existe correlación entre el número de días trabajados conjuntamente y la producción diaria? 9. Una compañía electrónica que recluta muchos ingenieros se pregunta si el costo de los esfuerzos extensivos de reclutamiento vale la pena. Si la compañía pudiera confiar (usando un nivel de significancia de 1 %) en que la correlación de rango de población entre el currículum individual de los solicitantes clasificados por el departamento de personal y las calificaciones de las entrevistas es positiva, se sentiría justificado en descontinuar las entrevistas y basarse en las calificaciones por currículum en la contratación. La compañía ha extraído una muestra de 35 solicitantes en los últimos dos años. Sobre la base de la muestra anterior, ¿debería la compañía descontinuar las entrevistas y usar las calificaciones del currículum individual para contratar? Individual 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Calificación de entrevista 81 88 55 83 78 93 65 87 95 76 60 85 93 66 90 69 87 68 81 84 82 90 63 78 73 79 72 95 81 87

Calificación de currículum 113 88 76 111 121 83 129 99 142 93 136 82 91 83 96 126 108 95 65 96 101 79 71 108 68 11 109 121 140 132



%$31 32 33 34 35

93 85 91 94 94

135 143 118 147 138

10. Los siguientes son los salarios y datos de edad de los 10 candidatos a doctorado que se gradúan este año de la Escuela de Doctorado en Contabilidad de la Universidad Peruana de Ciencias. Al nivel de significancia de 0.05, ¿la correlación de rango de edad y salario sugiere que los candidatos de mayor edad obtienen salarios iniciales mayores? Salario en Edad dólares 67,000 29 60,000 25 57,500 30 59,500 35 50,000 27 55,000 31 59,500 32 63,000 38 69,500 28 72,000 34 11. J.J. Pérez opera un taller de reparación de motores de aeronaves ligeras. Está interesado en mejorar sus estimaciones de tiempo de reparación requerido y cree que el mejor predictor es el número de horas de operación en el motor desde su última reparación importante. Más abajo se muestran los datos sobre diez motores que J.J. Pérez trabajó recientemente. Al nivel de significancia de 0.10, ¿la correlación de rango sugiere una fuerte relación? Motor

Horas desde la última reparación importante

Horas requeridas para reparación

1 2 3 4 5 6 7 8 9 10

1,000 1,200 900 1,450 2,000 1,300 1,650 1,700 500 2,100

40 54 41 60 65 50 42 65 43 66



%$El coeficiente de Determinación define el modelo mas confiable para una acertada predicción Si el coeficiente de Spearman simplifica el proceso de cálculo de los coeficientes de correlación.



%$"

$ " TEMAS • • •

Serie de tiempo. Introducción a la serie de tiempo Representación y Clasificación de la serie de tiempo Análisis de la serie de tiempo

OBJETIVOS ESPECÍFICOS • •

Descubrir un comportamiento de los datos históricos para extrapolarlo a futuro Pronostica de manera óptima mediante el uso de los modelos,

CONTENIDOS • • • • •

Movimientos característicos de la serie de tiempo Clasificación de movimientos de series de tiempo El análisis de las series de tiempo Movimientos medios. suavización de series de tiempo Estimación de la tenencia

ACTIVIDADES • •

Identifican una serie de tiempo Analizan los diferentes métodos de estimación de la serie de tiempo



%$ANÁLISIS DE SERIES DE TIEMPO SERIES DE TIEMPO Una serie de tiempo es un conjunto de observaciones hechas en momentos determinados, normalmente a intervalos iguales. Ejemplos de series de tiempo son la producción total anual de acero en el Perú en un cierto número de años, el precio diario de cierre de una acción en la Bolsa, las temperaturas horarias anunciadas por el observatorio meteorológico de una ciudad o el total mensual de ventas habidas en un departamento de una tienda. Matemáticamente, una serie de tiempo se define por los valores Y1, Y2,..., de una variable Y (temperatura, precio al cierre de una acción, etc.) en los momentos f1 o f2,.... Así, Y es una función de t, simbolizada por Y = F(t). MOVIMIENTOS CARACTERÍSTICOS DE LAS SERIES DE TIEMPO Es interesante considerar que en un gráfico de una serie de tiempo, como descrito por un punto que se mueve con el paso del tiempo, el movimiento puede ser debido a la combinación de fuerzas económicas, sociológicas, psicológicas u otras. La experiencia basada en muchos ejemplos de series de tiempo ha revelado ciertos movimientos o variaciones características, algunos o todos de ellos se presentan en diferentes grados. El análisis de tales movimientos es de gran importancia en muchos casos, uno de gran interés es el problema de la previsión de movimientos futuros. No es, pues, de extrañar que muchas industrias y acciones gubernativas estén vitalmente unidas con tan importante materia. CLASIFICACIÓN DE MOVIMIENTOS DE SERIES DE TIEMPO Los movimientos característicos de una serie de tiempo pueden clasificarse en cuatro tiempos principales, llamados a menudo componentes de una serie de tiempo. 1. Movimientos seculares o de larga duración se refieren a la dirección general a la que el gráfico de una serie de tiempo parece dirigirse en un intervalo grande de tiempo. En el gráfico anterior, este movimiento secular o variación secular o tendencia secular, como se llama a veces, se indica por una curva de tendencia, que aparece a trazos. En algunas series puede ser apropiada una recta de tendencia. La determinación de tales curvas de tendencia por el método de mínimos cuadrados se ha considerado en el Capítulo 13. Otros métodos se discuten más adelante. 2. Movimientos cíclicos o variaciones cíclicas se refieren a las oscilaciones de larga duración alrededor de la recta o curva de tendencia. Estos ciclos, como se llaman a veces, pueden ser o no periódicos, es decir, pueden seguir o no exactamente caminos análogos después de intervalos de tiempo iguales. En negocios y actividades económicas, los movimientos se consideran cíclicos solamente si su periodo tiene un intervalo de tiempo superior al año.

$%!

Un ejemplo importante de movimientos cíclicos son los llamados asuntos cíclicos, que representan los intervalos de prosperidad, retroceso, depresión y recuperación.

3. Movimientos estacionales o variaciones estacionales se refieren a las idénticas, o casi idénticas, normas que una serie de tiempo parece seguir durante los correspondientes meses de los sucesivos años. Tales movimientos se deben a sucesos recurrentes que se repiten anualmente, como, los repentinos incrementos de ventas de un departamento antes de la Navidad. Aunque los movimientos estacionales se refieren en general a una periodicidad anual en negocios o teoría económica, las ideas envueltas pueden extenderse a incluir una periodicidad de cualquier intervalo de tiempo, tal como diaria, horaria, semanal, etc., dependiendo del tipo de datos que se utilizan. 4. Movimientos irregulares o al azar se refieren a movimientos esporádicos de las series de tiempo debidos a sucesos ocasionales, tales como inundaciones, huelgas, elecciones, etc. Aunque normalmente se supone que tales sucesos producen variaciones que solamente duran un corto intervalo de tiempo, se concibe que puedan ser tan intensos que originen un nuevo ciclo u otros movimientos. EL ANALISIS DE SERIES DE TIEMPO El análisis de las series de tiempo consiste en una descripción (matemática generalmente) de los movimientos que la componen para justificar los procedimientos que tal descripción envuelve. La muestra de un gráfico de una recta puede tener tendencia secular o de larga duración (igualmente podía haber sido una curva de tendencia), tendencia de larga duración con un movimiento cíclico superpuesto (supuesto periódico) y movimiento cíclico estacional superpuesto sobre el gráfico de algún movimiento irregular o aleatorio.

Las ideas anteriores suministran una posible técnica para analizar las series de tiempo. Se supone que en las series de tiempo la variable Y es un producto de

$%%

las variables T, C, S e I que originan, respectivamente, los movimientos de tendencia, cíclicos, estaciónales e irregulares. En símbolos, Y = T x C x S x I = TCSI El análisis de las series de tiempo consiste en una investigación de los factores T, C, S e I y a menudo se refiere a una descomposición de una serie de tiempo en sus movimientos componentes básicos. Debe indicarse que algunos estadísticos prefieren considerar Y como suma T + C + S + I de las variables básicas que lo componen. Aunque en otro el método supone la descomposición de TCSI, procedimientos análogos son aplicables cuando se supone Y como suma de sus componentes. En la práctica, la decisión sobre qué método de descomposición debe suponerse, depende del grado de éxito conseguido al aplicar el supuesto. MOVIMIENTOS MEDIOS. SUA VIZACIÓN DE SERIES DE TIEMPO Dado un conjunto de números Y1 , Y2 , Y3.... se define un movimiento medio de orden n al que viene dado por la sucesión de medias aritméticas, Y1 + Y2 + Y3 ....Ys Y2 + Y3 + Y4 ....Ys +1 Y3 + Y4 + Y5 ....Ys + 2 , , ,......... n n n Las sumas de los numeradores de se llaman movimientos totales de orden n. Ejemplo 1: Dados los números 2, 6, 1, 5, 3, 7, 2 un movimiento medio de orden 3 está dado por la sucesión.

Si los datos son dados anual o mensualmente, se llama movimiento medio de orden n a un movimiento medio de n años o un movimiento medio de n meses, respectivamente. Así, se habla de movimientos medios de 5 años, movimientos medios de 12 meses, etc. Naturalmente que cualquier otra unidad de tiempo puede igualmente utilizarse. Los movimientos medios tienen la propiedad de tender a reducir la cantidad de variación presente en un conjunto de datos. En el caso de series de tiempo,

$%&

esta propiedad se utiliza, a menudo, para eliminar las fluctuaciones no deseadas y el proceso se llama suavización de series de tiempo. Si en la sucesión de medias aritméticas se emplean las medias aritméticas ponderadas, siendo los pesos dados con anterioridad, la sucesión resultante se llama movimiento medio ponderado de orden n. ., Si se utilizan los pesos 1, 4, 1 en el ejemplo anterior, un movimiento medio ponderado de orden 3 está dado por la sucesión

ESTIMACIÓN DE LA TENDENCIA La estimación de la tendencia puede conseguirse de varias formas posibles. El método de mínimos cuadrados puede utilizarse para hallar la ecuación de una recta o curva de tendencia adecuada. De esta ecuación se pueden calcular los valores de tendencia T. El método libre, que consiste en ajustar una recta o curva de tendencia mediante la sola observación del gráfico, puede utilizarse para estimar T. Sin embargo, esto tiene el inconveniente de depender en gran parte del criterio personal. El método de movimiento medio. Mediante movimientos medios de órdenes apropiados, pueden eliminarse los movimientos cíclicos, estaciónales e irregulares, quedando así solamente el movimiento de tendencia. Un inconveniente de este método es que los datos del principio y final de la serie se pierden. Así, en el anterior, se comenzó con 7 números y con un movimiento medio de orden 3 se quedó con 5 números. Otro inconveniente es que los movimientos medios pueden originar ciclos u otros movimientos que no tenían los datos originales. Un tercer inconveniente es que los movimientos medios están fuertemente afectados por los valores extremos. Para reducir en parte estos inconvenientes, se utiliza a veces un movimiento medio ponderado con pesos adecuados. En tal caso, el término (o términos) central recibe el peso mayor y los valores extremos los pesos pequeños.

$&'

El método de semimedias consiste en agrupar los datos en dos partes (preferiblemente iguales) y mediar los datos de cada parte, así, se obtienen dos puntos en el gráfico de la serie de tiempo. Una recta de tendencia puede entonces trazarse entre estos dos puntos y los valores de tendencia pueden así determinarse. Los valores de tendencia pueden, también, determinarse directamente sin necesidad de un gráfico. Aunque este método es sencillo de aplicar, puede conducir a resultados pobres cuando se utiliza sin discernimiento. También, es aplicable solamente cuando la tendencia es lineal o aproximadamente lineal, aunque puede extenderse su aplicación a casos en los que los datos pueden ser divididos en varias partes, teniendo cada una de ellas una tendencia lineal. ACTIVIDADES 1. Con qué movimiento característico de una serie de tiempo se asociaría principalmente cada uno de los siguientes: 1.1 Un fuego en una fábrica que retrasa la producción 3 semanas. 1.2 Una etapa de prosperidad. 1.3 La venta en un departamento después de Pascua. 1.4 La necesidad de incrementar la producción de trigo debido a un constante aumento de la población. 1.5 El número mensual de pulgadas de lluvia en una ciudad en un periodo de 5 años. 2. En la siguiente tabla se muestra la media mensual de producción de carbón bituminoso en millones de toneladas cortas en Canadá durante los años de1991-2000. Año 1991 1992 1993 1994 1995 1996 1997 1998 19969 2000 Producción media 50,0 36,5 43,0 44,5 38,9 38,1 32,6 38,7 41,7 41,1 mensual Construya lo que se indica. 2.1 Un movimiento medio de 5 años

$&$

Años

Producción media mensual

Movimiento total de Movimiento medio de 5 años 5 años

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2.2 Un movimiento medio de 4 años

Años 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

Movimiento total de Producción 4 años media mensual

Movimiento medio de 4 años

$&

2.3 Un movimiento medio de 4 años centrado

Años

Movimiento medio de 4 años

Movimiento total de 2 años de la col. 3

Movimiento medio centrado de 4 años

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

2.4 Muestre el movimiento centrado de 4 años, equivalente al movimiento medio ponderado de 5 años con pesos 1, 2, 2, 2, 1, respectivamente.

$&

Años

Y

Movimiento total de 4 años

Movimiento total de 2 años de la col. 3

Movimiento medio centrado de 4 años

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

2.5 Represente el movimiento medio de (2.1) junto con los datos originales.

2.6 Obtenga los valores de tendencia para los datos de la tabla mediante el método de semimedias donde la media se toma de (2.1)

$&

Año 1991 1992 1993 1994 1995 1996 1997 1998 19969 2000 Valores de tendencia 2.7 Utilice el método de mínimos cuadrados para ajustar una recta a los datos de (2.1) y halle los valores de tendencia.

Año 1991 1992 1993 1994 1995 1996 1997 1998 19969 2000 Valores de tendencia

3. El departamento de ventas de Automotriz Moderna suministró datos de unidades vendidas. Con ellos, se formó la siguiente serie de tiempo de 10 años.

$&

Años Ventas

1 400

2 390

3 320

4 340

5 270

6 260

7 300

8 320

9 340

10 370

Grafique la serie de tiempo y comente acerca de lo adecuado de una tendencia lineal. ¿Qué forma de función cree usted que sería adecuada para el patrón de tendencia de esta serie tiempo?

4. El rendimiento por acción, para una Compañía Metalúrgica, durante un periodo de 10 años, es el siguiente: Año 1 2 3 4 5 6 7 8 9 10 Rendimiento 0.64 0.73 0.94 1.14 1.33 1.53 1.67 1.68 2.10 2.50 4.1 Emplee una proyección de tendencia lineal para pronosticar esta serie de tiempo en el próximo año. 4.2 ¿Qué nos dice este análisis de tendencia temporal acerca de la Compañía Metalúrgica? 4.3 De acuerdo con los datos históricos, ¿es bueno invertir en esta empresa?

$&

(

) *(

1. Identifique con qué movimiento característico de una serie de tiempo se podría asociar principalmente cada una de los siguientes supuestos: 1.1 Un retroceso 1.2 Un incremento de empleo durante los meses de verano 1.3 La disminución de mortandad debido al avance de la ciencia 1.4 Una huelga del acero 1.5 Una demanda continuamente creciente de automóviles pequeños (a) tendencia de larga duración (b) estacional (c) cíclico (d) irregular (e) tendencia de larga duración 2. Dados los números 1, 0, -1, 0, 1, 0, -1, 0, 1, determine un movimiento medio de orden 2.1 dos 2.2 tres 2.3 cuatro 2.4 cinco 3. En la siguiente tabla, se da el consumo medio mensual en millares de fanegas de algodón nacional y de importación en Estados Unidos durante los años 1990-1999. Construya lo siguiente: 3.1 un movimiento medio de 2 años 3.2 un movimiento medio centrado de 2 años 3.3 un movimiento medio de 3 años 3.4 un movimiento medio centrado de 4 años 3.5 un movimiento medio centrado de 6 años 3.6 represente los movimientos medios junto con los datos originales y discuta los resultados obtenidos 3.7muestre que el movimiento medio centrado de 2 años es equivalente a un movimiento medio ponderado de 3 años con pesos 1, 2, 1, respectivamente. Año Consumo de algodón

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 656

804

836

765

777

711

755

747

696

677

4. En la siguiente tabla se muestra el total de ventas mensuales de autos de pasajeros en el Perú durante los años 1997-2002. Construya lo que se le indica: 4.1 Un movimiento medio de 12 meses 4.2 Un movimiento medio centrado de 12 meses 4.3 Un movimiento medio centrado de 6 meses

$&!

4.4 Represente el movimiento medio de los apartados (4.2) y (4.3) junto con los datos originales y compare los resultados Ene.

• • • • •

Feb

Marzo Abril May

Jun

Jul

Ago. Sep

Oct

Nov

Dic

1997 52,6 45,3

56,1

59,8 54,3 58,7 59,9 51,7 47,2 52,8 37,9 38,6

1998 44,6 46,7

53,5

53,7 49,1 50,1 45,7 44,3 30,0 22,2 49,2 66,9

1999 65,5 67,7

79,3

75,4 72,1 64,7 65,7 62,6 46,8 50,2 74,0 69,1

2000 51,0 50,9

58,2

55,9 47,0 44,8 44,0 41,0 20,9 35,1 57,7 61,6

2001 68,0 57,0

58,7

54,7 53,1 49,3 48,7 52,3 31,3 29,1 58,8 55,2

2002 48,4 39,2

35,5

32,5 35,1 34,2 31,4 19,0 10,7 27,2 51,9 60,7

Movimientos característicos de la serie de tiempo Clasificación de movimientos de series de tiempo El análisis de las series de tiempo Movimientos medios. Suavización de series de tiempo Estimación de la tenencia.

5. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos seis años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19.0 19.1 18.8 Deduzca una ecuación del componente de tendencia lineal en esta serie de tiempo. Haga comentarios acerca de lo que sucede con la inscripción en esta institución. 6. La siguiente tabla muestra la asistencia promedio a los juegos locales de fútbol en una universidad durante los últimos siete años. Determine la ecuación del componente de tendencia lineal para esta serie de tiempo. Año 1 2 3 4 5 6 7 Asistencia 28,000 30,000 31,500 30,400 30,500 32,200 30,800 7. Al presidente de una pequeña fábrica le interesa considerar el aumento continuo de costo de fabricación durante los últimos años. A continuación, se observa la serie de tiempo del costo por unidad del producto principal de esa empresa durante los últimos ocho años. Año Costo/unidad ($)

1

2

3

4

5

6

7

8

20.50 24.50 28.20 27.50 26.60 30.10 31.40 36.50

7.1 Trace la gráfica de esta serie de tiempo. ¿Parece haber una tendencia lineal?

$&%

7.2 Determine una ecuación del componente de tendencia lineal para la serie de tiempo. 7.3 ¿Cuál es el aumento anual promedio de costo que ha tenido la empresa? 8. Al final de la década de los noventa, muchas empresas trataron de reducir su tamaño para disminuir sus costos. Uno de los resultados de esas medidas de recorte de costos fue una disminución en el porcentaje de empleos gerenciales en la industria privada. Los siguientes datos corresponden al porcentaje de mujeres gerentes, del año 1995 al 2000. Año Porcentaje

1995 1996 1997 1998 1999 2000 2001 2002 7.45

7.51

7.52

7.53

7.65

7.62

7.73

7.68

8.1 Deduzca una ecuación de tendencia lineal para esta serie de tiempo. 8.2 Use la ecuación de la tendencia para estimar el porcentaje de mujeres gerentes para el 2003 y 2004.

Se deben diferenciar adecuadamente los movimientos de la serie de tiempo.

$&&

"

$ "

TEMAS • • •

Modelos de estimación Métodos de estimación de la tendencia Predicción mediante la serie de tiempo

OBJETIVOS ESPECÍFICOS • •

Descubrir un comportamiento de los datos históricos para extrapolarlo a futuro Pronostican de manera óptima mediante el uso de los modelos,.

CONTENIDOS • • • • • •

Estimación de valores estacionales Métodos de estimación Estimación de variaciones cíclicas Estimación de variaciones irregulares o aleatorias Comparación de datos Predicciones

ACTIVIDADES • •

Identifican una serie de tiempo. Analizan los diferentes métodos de estimación de la serie de tiempo.

''

SERIE DE TIEMPO

ESTIMACIÓN DE VARIACIONES ESTACIONALES. ÍNDICE ESTACIONAL Para determinar el factor estacional S en TCSI, se debe estimar cómo varían los datos en la serie de tiempo de un mes a otro a lo largo de un año característico. Un conjunto de números mostrando los valores relativos de una variable, durante los meses del año, se llama índice estacional de la variable. Si, por ejemplo, se sabe que las ventas durante enero, febrero, marzo, etc., son 50, 120, 90,. . . por ciento de la venta media mensual del año completo, los números 50, 120, 90,. . . suministran el índice estacional del año y, a veces, se conocen como números del índice estacional. El promedio (media) del índice estacional para el año completo deberá ser 100 %, es decir, la suma de los números índice deberá ser 1200 %. Varios son los métodos que se utilizan para el cálculo del índice estacional: Método del porcentaje medio. En este método los datos de cada mes se expresan como porcentajes de la media anual. Los porcentajes de meses que se corresponden en diferentes años son entonces promediados mediante su media o mediana. Si se emplea la media, es mejor evitar los valores extremos que puedan aparecer. Los 12 porcentajes resultantes dan el índice estacional. Si su media no es 100 % (es decir, si la suma no es 1200 %) deberá ajustarse multiplicando por un factor adecuado. Método de porcentaje de tendencia o razón de tendencia. En este método los datos de cada mes se expresan como porcentajes de los valores de tendencia mensuales. Una adecuada media de los porcentajes para los meses correspondientes da el índice pedido. Como en el método anterior, se deben ajustar si su medida no es el 100 %. Nótese que la división de cada valor mensual Y por el correspondiente valor de tendencia T da Y/T = CSI, en TCSI. En consecuencia, el promedio Y/T produce índices estacionales que pueden incluir variaciones cíclicas e irregulares, sobre todo cuando son grandes. Esto puede ser un inconveniente importante del método. Método del porcentaje del movimiento medio o razón del movimiento medio. En este método, se calcula un movimiento medio de 12 meses. Puesto que los resultados así obtenidos caen entre meses sucesivos en lugar de en el centro del mes, como ocurría con los datos originales, se debe calcular un movimiento medio de 2 meses de este movimiento medio de 12 meses. El resultado se llama, a menudo, movimiento medio centrado de 12 meses. Después de que se haya hecho esto, los datos originales para cada mes se expresan como porcentajes de los correspondientes al movimiento medio centrado de 12 meses. Los porcentajes para los meses correspondientes son

'$

entonces promediados, dando el índice pedido. Como antes, deberán ajustarse si su media no es el 100 %. Adviértase que el razonamiento lógico de este método se sigue de la Ecuación TCSI. Un movimiento medio centrado de 12 meses de Y sirve para eliminar los movimientos estacionales e irregulares S e I y así equivale a los valores dados por TC. Entonces, la división de los datos originales por TC da SI. Las medias sucesivas de los meses correspondientes sirven para eliminar la irregularidad I y así el resultado constituir un índice adecuado de S. Método de enlaces relativos. En este método, los datos de cada mes se expresan como porcentajes de los datos del mes anterior. Estos porcentajes se llaman enlaces relativos, puesto que enlazan cada mes con el precedente. Después se toma una media adecuada de los enlaces relativos para los meses correspondientes. De estos 12 enlaces relativos medios se pueden obtener los porcentajes relativos de cada mes con respecto a enero, que se considera como 100 %. Después de haber hecho esto, se encontrará normalmente que el enero siguiente tendrá un porcentaje asociado que será mayor o menor del 100 % dependiendo de si ha habido crecimiento o decrecimiento en la tendencia. Con esto, los distintos porcentajes obtenidos se pueden ajustar para esta tendencia. Estos porcentajes finales, ajustados de forma que su media sea el 100 %, suministran el índice estacional pedido. DESESTACIONALIZACIÓN DE DATOS Si los datos originales mensuales se dividen por los correspondientes números del índice estacional, los datos resultantes se dicen desestacionalizados o ajustados para la variación estacional. Tales datos incluyen aun, movimientos de tendencia, cíclicos e irregulares. ESTIMACIÓN DE LAS VARIACIONES CÍCLICAS Después de que los datos han sido desestacionalizados, pueden también ser ajustados a su tendencia dividiendo los datos por los correspondientes valores de tendencia. De acuerdo con la Ecuación TCSI, el proceso de ajuste para la variación estacional y los valores de tendencia se consiguen al dividir Y por ST, que da CI, es decir, variaciones cíclicas e irregulares. Un apropiado movimiento medio de unos pocos meses de duración (por ejemplo, 3, 5 ó 7 meses, de modo que no es necesaria la sucesión centrada) posteriormente sirve para suavizar las variaciones irregulares (I) y deja solamente las variaciones cíclicas. Una vez que éstas han sido aisladas, pueden ser estudiadas con detalle. Si aparece una periodicidad (o periodicidad aproximada) de ciclos, pueden construirse unos índices cíclicos análogamente a como se obtuvieron los índices estacionales. ESTIMACION DE LAS VARIACIONES IRREGULARES O ALEATORIAS La estima de las variaciones irregulares o aleatorias se logra ajustando los datos a los valores de tendencia, variaciones estacionales y cíclicas. Al dividir

'

los datos originales Y por T, S y C por la Ecuación TCSI, se obtiene l. En la práctica, se encuentra que los movimientos irregulares tienden a ser de pequeña magnitud y que, a menudo, tienden a distribuirse normalmente, es decir, desviaciones pequeñas aparecen con gran frecuencia, desviaciones grandes aparecen con poca frecuencia. COMPARACIÓN DE DATOS Se debe tener siempre cuidado al comparar datos y que tal comparación esté correctamente justificada. Por ejemplo, al comparar los datos de marzo con los de febrero, se debe tener en cuenta que marzo tiene 31 días, mientras que febrero tiene 28 ó 29. Análogamente, al comparar los meses de febrero para diferentes años, se debe tener presente que en años bisiestos febrero tiene 29 días en lugar de 28. El número de días laborables durante varios meses del mismo o años diferentes, puede también diferir debido a fiestas, huelgas, paros temporales, etc. PREDICCIÓN Las ideas anteriores pueden servir de ayuda en el importante problema de la predicción en las series de tiempo. Sin embargo, se debe tener en cuenta que un tratamiento matemático de los datos no resuelve por sí solo todos los problemas. Juntamente con el sentido común, experiencia, habilidad y buen juicio del investigador, tales análisis matemáticos pueden, no obstante, ser de valor para la predicción a largo y corto plazo. RESUMEN DE LOS PASOS FUNDAMENTALES EN EL ANÁLISIS DE SERIES DE TIEMPO 1. Coleccionar los datos de la serie de tiempo, procurando asegurarse de que estos datos sean dignos de confianza. En la colección de datos, se debe siempre tener presente el propósito que se persigue en cada caso con el análisis de la serie de tiempo. Por ejemplo, si se desea predecir sobre una serie de tiempo dada, puede servir de ayuda el obtener series afines así como otra posible información. Si es necesario ajustar los datos para poderlos comparar, es decir; ajustar para años bisiestos, etc. 2. Representar la serie de tiempo, anotando cualitativamente la presencia de tendencia de larga duración, variaciones cíclicas y variaciones estacionales 3. Construir la curva o recta de tendencia de larga duración y obtener los valores de tendencia apropiados mediante cualquiera de los métodos, de mínimos cuadrados, libre, movimientos medios o semimedias .4. Si están presentes variaciones estacionales, obtener un índice estacional y ajustar los datos a estas variaciones estacionales, es decir, desestacionalizar los datos. 5. Ajustar los datos desestacionalizados a la tendencia. Los datos resultantes contienen (teóricamente) solamente las variaciones cíclicas e irregulares.

'

Un movimiento medio de 3, 5 ó 7 meses sirve para eliminar las variaciones irregulares y poner de manifiesto las variaciones cíclicas 6. Representar las variaciones cíclicas obtenidas en el paso 5, anotando cualquier periodicidad (o periodicidad aproximada) que pueda aparecer 7. Combinando los resultados de los pasos 1-6 y con cualquier otro tipo de información útil, hacer una predicción (si se desea) y si es posible discutir las fuentes de error y su magnitud

ACTIVIDADES 1. La Tabla muestra la energía eléctrica mensual en millones de kilovatios hora empleada para el alumbrado de calles y carreteras en el Perú durante los años 1991-1998.

1991 1992 1993 1994 1995 1996 1997 1998

Ene 318 342 367 392 420 453 487 529

Feb 281 309 328 349 378 412 440 477

Mar 278 299 320 342 370 398 429 463

Abril 250 268 287 311 334 362 393 423

May 231 249 269 290 314 341 370 398

Jun 216 236 251 273 296 322 347 380

Jul 223 242 259 282 305 335 357 389

Ago 245 262 284 305 330 359 388 419

Sep 269 288 309 328 356 392 415 448

Oct 302 321 345 364 396 427 457 493

Nov 325 342 367 389 422 454 491 526

Dic 347 364 394 417 452 483 516 560

1.1 Construye un gráfico de los datos.

1.2 Obtenga un índice estacional mediante el método del porcentaje medio.

'

Años Consumo total Medias mensuales

Ene

Feb

1991 1992 1993 1994 1995 1996 1997 1998

Mar Abril May Jun Jul

Ago Sep Oct Nov Dic

1991 1992 1993 1994 1995 1996 1997 1998 Total Media 1.3 Obtenga el índice estacional mediante el método de porcentaje de tendencia (utilice el método de mínimos cuadrados para obtener los valores de tendencia mensuales)

'

Años Medias mensuales

1991 1992 1993 1994 1995 1996 1997 1998

Valores de tendencia central mensuales Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic 1991 1992 1993 1994 1995 1996 1997 1998 Total Media Valores de tendencia central mensuales expresados en porcentajes Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic 1991 1992 1993 1994 1995 1996 1997 1998 Total Mediana Años Indice estacional

1991 1992 1993 1994 1995 1996 1997 1998

1.4 Obtenga el índice estacional mediante el método de enlaces relativos

'

La media de los enlaces relativos Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic 1991 1992 1993 1994 1995 1996 1997 1998 Total Media 1.5 Ajuste los datos a la variación estacional (desestabilización de los datos).

Ene Feb Mar Abril May Jun Jul Ago Sep Oct Nov Dic 1991 1992 1993 1994 1995 1996

'!

1997 1998 Total Media 1.6 Ajuste los datos a la tendencia.

Ene 1991 1992 1993 1994 1995 1996 1997 1998

Feb

Mar Abril May Jun Jul

Ago Sep Oct Nov Dic

'%

(

) *(

1. En la siguiente tabla se da el consumo medio mensual, en millares de fanegas de algodón nacional y de importación en Estados Unidos durante los años 1990-1999. 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999

Año Consumo de algodón

656

804

836

765

777

711

755

747

696

677

1.1 Obtenga los valores de tendencia para los datos mediante el método de semimedias, donde la media se toma como (a) la media aritmética (b) la mediana Construir un gráfico con los resultados obtenidos 1.2 Obtenga los valores de tendencia para los datos mediante (a) el método libre (b) un movimiento medio de orden adecuado Comparar con los resultados 1.3 Emplee el método de mínimos cuadrados para ajustar una recta a los datos de la tabla 2. En la siguiente tabla, se muestra la producción mensual de mantequilla en el Perú en miles de kilogramos los años 1996-2003. 2.1 Represente los datos. 2.2 Construya un índice estacional mediante el método del porcentaje medio. 2.3 Obtenga un índice estacional mediante el método de porcentaje de tendencia o razón de tendencia. 2.4 Obtenga un índice estacional mediante el método del porcentaje del movimiento medio o razón del movimiento medio 2.5 Obtenga un índice estacional mediante el método de enlaces relativos

1996 1997 1998 1999 2000 2001 2002 2003

Ene

Feb

Mar

Abril

Mayo

Jun

Jul

85,6 78,7 103,9 118,7 108,1 114,6 115,3 118,6

80.9 78,8 101,9 116,6 104,3 114,1 110,3 113,4

92,2 91,5 121,4 143,3 121,1 129,6 124,6 129,5

101,8 102,5 133,5 142,0 129,4 135,4 132,3 130,3

132,6 135,0 156,0 164,5 157,9 151,9 159,3 150.6

141,2 128,0 154,0 160,9 151,9 149,0 148,1 144,7

130,5 117,7 135,6 129,7 123,0 127,6 125,8 126,9

Ago.

Sep

Oct

Nov

119,0 93,6 86,6 68,4 105,7 92,1 87,7 75,9 118,7 95,0 91,6 91,3 109,4 92,6 87,8 86,8 102,1 91,9 94,7 92,7 109,8 92,4 93,1 92,3 106,9 90,1 100,3 94,1 97,7 8607 91,9 90,0

Dic 70,4 94,6 109,0 97,0 105,8 103,4 105,7 107,2

'&

3. En la siguiente tabla, se muestra las ventas estimadas en millones de dólares de todas las tiendas al por menor en la ciudad de Lima durante los años 1996-2003. 3.1 Represente los datos. 3.2 Obtenga un índice estacional mediante el método del porcentaje medio. 3.3 Obtenga un índice estacional mediante el método de porcentaje de tendencia o razón de tendencia. 3.4 Obtenga un índice estacional mediante el método de la razón del movimiento medio. 3.5 Obtenga un índice estacional mediante el método de enlaces relativos. Ene

Feb

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

Nov

Dic

1996 12,63 11,72 13,43 12,53 13,29 13,27 12,36 13,27 13,10 13,86 13,39 15,38 1997 11,84 11,74 12,74 13,40 14,85 13,81 13,40 13,45 13,62 14,82 14,01 16,91 1998 13,05 12,33 13,96 14,17 14,66 14,58 14,38 14,18 14,08 14,95 13,96 16,44 1999 12,34 12,06 13,54 14,32 14,25 14,66 14)39 13,90 14,14 14,66 14,53 17,87 2000 13,15 12,64 14,57 15,49 15,33 15,60 15,26 15,48 15,76 15,68 15,75 19,12 2001 13,73 13,55 15,72 14,89 16,11 16,58 15,38 16,19 15,58 16,13 16,49 19,38 2002 14,74 14,06 15,79 16,44 17,20 17,11 16,86 17,49 16,37 16,95 17,13 19,84 2003 15,29 13,78 15,55 16,27 17,36 16,60 16,60 17,00 16,33 17,36 17,04 21,17

4. En la siguiente tabla, se muestra la carga transportada en miles de vagones de ferrocarril con carga de minerales llevados al puerto del callao durante los años 1998-2005. 4.1 Construya un gráfico de los datos. 4.2 Obtenga un índice estacional mediante el método del porcentaje medio. Ene.

Feb.

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

Nov

Dic

1998 3661

2834

2999

3152

3977

3295

3807

3307

3312

4317

3139

2700

1999 3562

2911

2868

2912

3678

2606

2969

3149

3364

4156

3139

2672

2000 3351

2730

2801

2957

3883

3204

3758

3229

3153

4024

2797

2413

2001 2967

2462

2412

2445

3345

2730

3251

2708

2711

3629

2685

2518

2002 2505

2556

3256

2757

3754

3052

3015

3883

3148

3282

3758

2669

2003 2713

2751

3517

2971

3835

3143

2397

3700

3155

3284

3740

2641

2004 2565

2616

3446

2696

3558

2959

2708

3737

2849

2920

3223

2221

2005 2164

2108

2702

2105

2729

2489

2138

3146

2570

2733

2462

2188

5. La tabla muestra la energía eléctrica mensual en millones de kilovatios hora empleada para el alumbrado de calles y carreteras en el Perú durante los años 1991-1998. Calcule un índice estacional para los últimos cuatro años y los cuatro primeros años de los datos. Utilice cualquier método.

$'

1991 1992 1993 1994 1995 1996 1997 1998

Ene 316 338 363 389 425 454 488 519

Feb 285 312 321 353 383 417 446 487

Mar 288 305 315 352 378 402 412 457

Abril 253 274 294 320 324 356 398 425

May 225 244 259 260 315 351 387 402

Jun 225 246 261 283 296 332 357 390

Jul 223 242 259 282 305 335 357 389

Ago 235 252 274 308 330 358 388 419

Sep 269 285 309 325 356 392 415 448

Oct 302 321 345 364 396 427 457 493

Nov 323 342 367 389 422 454 491 526

Dic 352 364 394 421 452 492 521 568

6. En la siguiente tabla, se muestra la producción mensual de mantequilla en el Perú en miles de kilogramos los años 1996-2003. Ene.

Feb.

Mar

Abril

Mayo

Ago.

Sep

Oct

Nov

Dic

1996

84,6

87.9

98,2

107,8 132,7 144,2 132,5 120,6

98,6

90,6

78,4

90,4

1997

77,7

76,8

99,5

108,5 135,8 128,0 117,7 105,7

92,1

87,7

75,9

98,6

1998 100,9 105,9 120,4 138,5 156,7 154,0 135,6 118,7

95,0

91,6

91,3 107,0

1999 115,7 120,6 148,3 146,0 164,5 160,9 129,7 109,4

92,6

87,8

86,8

2000 104,1 115,3 134,1 132,4 157,5 151,9 123,0 102,1

91,9

94,7

92,7 109,8

2001 117,6 118,1 134,6 138,4 151,3 149,0 127,6 109,8

92,4

93,1

92,3 106,4

2002 118,3 119,3 144,6 139,3 159,2 148,1 125,8 106,9

90,1

100,3 94,1 108,7

2003 113,6 115,4 139,5 140,3 150,8 144,7 126,9

8607

91,9

Jun

Jul

97,7

99,0

90,0 109,2

6.1 Obtenga un índice estacional mediante el método del porcentaje del movimiento medio o razón del movimiento medio. , 6.2 Obtenga un índice estacional mediante el método de enlaces relativos 6.3 Desestacionalice los datos 6.4 Represente los datos desestacionalizados y explicar los resultados. 6.5 Ajuste los datos para la variación estacional 6.6 Represente los datos ajustados estacionalmente e interpretar los resultados obtenidos. 7. En la siguiente tabla, se muestra las medias mensuales de producción de arroz en la zona nororiental de Perú en miles de toneladas durante los años 1990-1999. Represente los datos y discuta la posible existencia de ciclos. Año Media Mensual

1990

1991 1992 1993 1994

1995 1996 1997 1998

1999

67.4

81.3

74.3

69.7

82.5

74.8

79.7

77.5

73.7

69.6

8. En la siguiente tabla, se muestra la producción mensual de mantequilla en el Perú en miles de kilogramos los años 1996-2003.

$$

Ene

Feb

Mar

Abril

Mayo

Ago.

Sep

Oct

Nov

Dic

1996

85,6

80.9

92,2

101,8 132,6 141,2 130,5 119,0

93,6

86,6

68,4

70,4

1997

78,7

78,8

91,5

102,5 135,0 128,0 117,7 105,7

92,1

87,7

75,9

94,6

1998 103,9 101,9 121,4 133,5 156,0 154,0 135,6 118,7

95,0

91,6

91,3 109,0

1999 118,7 116,6 143,3 142,0 164,5 160,9 129,7 109,4

92,6

87,8

86,8

2000 108,1 104,3 121,1 129,4 157,9 151,9 123,0 102,1

91,9

94,7

92,7 105,8

2001 114,6 114,1 129,6 135,4 151,9 149,0 127,6 109,8

92,4

93,1

92,3 103,4

2002 115,3 110,3 124,6 132,3 159,3 148,1 125,8 106,9

90,1

100,3 94,1 105,7

2003 118,6 113,4 129,5 130,3 150.6 144,7 126,9

8607

91,9

Jun

Jul

97,7

97,0

90,0 107,2

8.1Emplee cualquiera de los resultados para predecir la producción de mantequilla en el Perú durante el año 2003. 8.2Discuta los posibles orígenes de error. 8.3Compare las predicciones con los valores reales para 2003 dados en la siguiente tabla. Ene

Feb

Mar

Abril

Mayo

Jun

Jul

116,3 108,2 121,4 126,8 143,4 135,6 112,5

Ago.

Sep

Oct

Nov

Dic

90,9

82,6 92,1 91,2 108,0

9. En la siguiente tabla, se muestra la carga transportada en miles de vagones de ferrocarril con carga de minerales llevados al puerto del callao durante los años 1998-2005. Ene

Feb

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

Nov

Dic

1998 3661

2834

2999

3152

3977

3295

3807

3307

3312

4317

3139

2700

1999 3562

2911

2868

2912

3678

2606

2969

3149

3364

4156

3139

2672

2000 3351

2730

2801

2957

3883

3204

3758

3229

3153

4024

2797

2413

2001 2967

2462

2412

2445

3345

2730

3251

2708

2711

3629

2685

2518

2002 2505

2556

3256

2757

3754

3052

3015

3883

3148

3282

3758

2669

2003 2713

2751

3517

2971

3835

3143

2397

3700

3155

3284

3740

2641

2004 2565

2616

3446

2696

3558

2959

2708

3737

2849

2920

3223

2221

2005 2164

2108

2702

2105

2729

2489

2138

3146

2570

2733

2462

2188

9.1Emplee cualquiera de los resultados para predecir la carga transportada en miles de vagones de ferrocarril con carga de minerales llevador al puerto del callao en el 2006. 9.2Discuta los posibles orígenes de error. 9.3Compare las predicciones con los valores reales para 2006 dados en la siguiente tabla. 9.4 Construya un gráfico de los datos. 9.5 Obtenga un índice estacional mediante el método del porcentaje medio.

$

Ene.

Feb.

Mar

Abril

Mayo

Jun

Jul

Ago.

Sep

Oct

2742

2291

2398

2489

3419

2813

2249

2712

2190 2908

Nov

Dic

2403 2376

10. Se tiene la siguiente serie de tiempo: Trimestre 1 2 3 4

Año 1 4 2 3 5

Año 2 6 3 5 7

Año 3 7 6 6 8

10.1 Determine los valores de promedio móvil de cuatro trimestres y centrado para esta serie de tiempo. 10.2 Calcule los índices estacionales para los cuatro trimestres. 11. Los datos trimestrales de ventas de un texto escolar (cantidad de ejemplares vendidos) durante los tres últimos años son los siguientes: Trimestre 1 2 3 4

Año 1 1690 940 2625 2500

Año 2 1800 900 2900 2360

Año 3 1850 1100 2930 2615

11.1 Determine los valores de promedio móvil centrado de cuatro trimestres y para esta serie de tiempo. 11.2 Calcule los índices estacionales para los cuatro trimestres. 11.3 ¿Cuándo se presentará el máximo índice estacional? ¿Parece razonable? Explique por qué. 12. Identifique los índices estaciónales mensuales de los tres años de gastos para un edificio de departamentos en Surco, de acuerdo con la siguiente tabla. Emplee un cálculo de promedios móviles de 12 meses.

Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre

Año 1 170 180 205 230 240 315 360 290 240 240 230 195

Gastos Año 2 180 205 215 245 265 330 400 335 260 270 255 220

Año 3 195 210 230 280 290 390 420 330 290 295 280 250

$

13. Los especialistas en contaminación atmosférica del sur de America vigilan cada hora la cantidad de ozono, dióxido de carbono y dióxido de nitrógeno en el aire. Los datos recabados presentan efecto estacional, porque muestran patrones durante las horas del día. En la fecha 15, 16 Y 17 de julio se observaron las siguientes concentraciones de dióxido de nitrógeno en la zona comercial, durante las 12 horas que van de las 6:00 a.m. a las 6:00 p.m. 15 de julio

25

28

35

50

60

60

40

35

30

25

25

20

16 de julio

28

30

35

60

65

50

50

40

35

25

20

20

17 de julio

35

42

45

72

75

60

60

45

40

25

25

25

13.1 Identifique los índices estacionales por hora para las 12 indicaciones de cada día. 13.2 Con los índices estaciónales determinados en el inciso a, se eliminó el efecto estacional la ecuación de tendencia para los datos desestacionalizada fue T=32.983 + 3922 t. Use sólo el componente de tendencia para determinar pronósticos para las 12 horas del 18 de julio. 14. En el Perú, la ONPE mantiene datos de la edad de votante, cantidad de votantes registrados y el porcentaje de votación para elecciones presidenciales y municipales. En la siguiente tabla, se muestra los porcentajes nacionales de votantes, en relación con la población con edad de votar, desde 1982 hasta 2002. Año % Movimientos

1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 55

38

54

37

52

40

53

36

50

37

55

14.1 Aplique el suavizamiento exponencial para pronosticar esta serie de tiempo. Use constantes de suavizarmiento α = 0.1 . y α = 0.2 ¿Qué valor de la constante da los mejores pronósticos? 14.2 ¿Cuál es el pronóstico del porcentaje de votantes en 2004?

Se deben tener en claro los pasos fundamentales de la serie de tiempo.