Empresa Gloria

ANALISIS DE REGRESIÓN LINEAL SIMPLE Kuncewitz Cerrón Salvatierra REGRESIÓN LINEAL Teniendo ya conocimiento de la intens

Views 101 Downloads 8 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ANALISIS DE REGRESIÓN LINEAL SIMPLE Kuncewitz Cerrón Salvatierra

REGRESIÓN LINEAL Teniendo ya conocimiento de la intensidad de la correlación entre las variables, manifestada a través del diagrama de dispersión, y el coeficiente de correlación, podemos ensayar el ajuste de un modelo estadístico que se adapte mejor a las n observaciones; lo que lleva por nombre regresión. Uno de los procedimientos muy comunes en el ajuste regresivo es el método de los mínimos cuadrados, que produce estimaciones con menor error cuadrático promedio Una función de regresión lineal es simple cuando las variaciones en la variable independiente provocan variaciones proporcionales en la variable dependiente. Y=f(x) Donde: Y: variable dependiente X: Variable independiente Por ejemplo: Podemos estar interesados en predecir el consumo promedio de un conjunto en base al ingreso de las mismas. Y: Consum; X: Ingreso. El análisis de regresión simple consiste en estimar la función de regresión poblacional (F:D:P) que responde a la siguiente expresión. 𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 Donde: Y: Variable dependiente X: Variable independiente 𝐵0 : Intercepto 𝐵1 : Coeficiente de pendiente 𝜀𝑖 : Cerro aleatorio Con base en la función de regresión muestral (F.R.M. ) 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖 Elección de una relación funcional El siguiente es un gráfico de dispersión que muestra estos datos.

1

La interpretación del coeficiente de correlación puede ilustrarse mediante los siguientes gráficos

Ejemplo 01 Data Ingreso Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a continuación.

2

Consumo Ingreso (y) (x) 30 35 35 40 30 38 50 55 35 42 50 60 Se pide representar los datos en un diagrama de dispersión Resolución Gráfica de dispersión de Consumo y vs. Ingreso x 50

Consumo y

45

40

35

30 35

40

45

50

55

60

Ingreso x

Ejemplo 02 (Laboratorio) Venta de automóviles Se piensa que, si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta. Estudio sobre 15 concesionarios similares X Comisiones pagadas a vendedores de autos en un mes (%) Y Ganancias netas por ventas, en el mismo mes (Millones de $) obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 3.6 5.2 5.3 7.3 5 5.2 3 3.1 3.2 7.5 8.3 6.1 4.9 5.8 7.1 Y 11.28 14.74 18.46 20.01 12.43 15.37 9.59 11.26 8.05 27.91 24.62 18.8 13.87 12.11 23.68

b). Estimando la recta mínima cuadrado Calculando

3

Ejemplo: Data Ingreso Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a continuación. Consumo Ingreso (y) (x) 30 35 35 40 30 38 50 55 35 42 50 60 Determinar la recta de la regresión de mínimo cuadrática y graficarlas. Resolución Consumo y 30 35 30 50 35 50 230

Ingreso x 35 40 38 55 42 60 270

xy 1050 1400 1140 2750 1470 3000 10810

x2 1225 1600 1444 3025 1764 3600 12658

6(10810)−(270)(230) 𝛽̂1 = = 0.90551181 =0.9055 2 6(12.658)−(270)

4

Calculando

𝛽̂1= ¿?

Como Me (x)=45 Me(y)=38.33333333 Calculando

𝛽̂𝑜 = 38.3333 – 0.9055(45) 𝛽̂𝑜 = -2.4142

Entonces la línea estimada esta dada por

𝑦̂ =𝛽̂𝑜 +𝛽̂𝑜 x 𝑦̂0 = -2.412 +0.9055x -Hallando los intercepto graficar la regresión estimada: Los puntos que pasan por los ejes X e Y Cuando x es igual a cero entonces estará dado por: Y= -2.4142 + 0.9055x Y= -2.4142 + 0.9055(0) Y= -2.4142 Entonces P1= (0, -2.4142) Cuando y=0 Entonces x estará dado por: Y= -24142 + 0.9055x 0=24142 + 0.9055x X=2.6662 Entonces p2= (2.6662, 0)

5

Gráfica de dispersión de Y vs. Ingreso x 55

50

Y

45

40

35

30 35

40

45

50

55

60

Ingreso x

Ejemplo (Laboratorio) Venta de automóviles Se piensa que, si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta. Estudio sobre 15 concesionarios similares X Comisiones pagadas a vendedores de autos en un mes (%) Y Ganancias netas por ventas, en el mismo mes (Millones de $) obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 3.6 5.2 5.3 7.3 5 5.2 3 3.1 3.2 7.5 8.3 6.1 4.9 5.8 7.1 Y 11.28 14.74 18.46 20.01 12.43 15.37 9.59 11.26 8.05 27.91 24.62 18.8 13.87 12.11 23.68 a).Determinar la recta de regresión mínimo cuadrática y graficarla Ejemplo (Laboratorio) DATOS DEL CLUB DE SALUD Datos correspondientes a 20 empleados del club de salud de una empresa X pulsasiones or minuto en reposo Y tiempo en correr 1 milla ( reg) Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression" obs 1 2 3 4 5 6 7 8 9 10

x 67 52 56 66 65 80 77 65 68 66 6

y 481 292 357 396 345 469 425 393 346 401

11 12 13 14 15 16 17 18 19 20

70 59 58 52 64 72 57 59 70 63

267 368 295 391 487 481 374 367 469 252

a).Representar los datos en un diagrama de dispersión b).Determinar la recta de regresión mínimo cuadrática y graficarla

7

Coeficiente de determinación (r2) Consideramos ahora la bondad de ajuste de la línea de regresión ajustada al conjunto de datos.

Si todas las líneas coinciden con la con la línea de regresión, obtendríamos el ajuste perfecto, lo que raras veces ocurre. El coeficiente de determinación (r2) es una medida de resumen que nos dice qué tan exactamente la línea de regresión estimada se ajusta a los datos observados. El coeficiente de determinación se expresa de la siguiente manera.

El coeficiente de determinación muestral es ampliamente utilizada como una medida de bondad de ajuste de una línea de regresión. Es decir el r2 mide la proporción o porcentaje de la variación total en Y explicada por el modelo de regresión. a) Es una cantidad positiva b) Sus límites son: 0≤ 𝑟 2 ≤ 1 Si 𝑟 2 = 1, quiere decir que el ajuste es perfecto Si 𝑟 2 = 0, quiere decir que no hay relación entre la variable dependiente y la variable independiente. c) Cuanto más se acerca 𝑟 2 a 1, tanto más alto será el grado de la linealidad entre las variables. d) Si 𝑟 2 ≥ 0.75 hay seguridad en las predicciones con la ecuación de la regresión lineal estimada. Ejemplo: Data Ingreso Calcular el coeficiente de determinación (r2) e interpretar. Determinar el consumo esperado para una familia si su ingreso es de $55.00.

8

Resolución Calcular el coeficiente de determinación (r2) e interpretar

𝑟 2 = 0.90552

101.6 = 0.96 86.67

O también se puede calcular mediante la siguiente formula que se da a continuación.

[6(10810)−(270)(230)]2

(2760)2

𝑟 2 = [6(12658)−2702 ][6(9250)−2302 ] =(3048)(2600) = 0.96 Interpretación: Quiere decir que el 96% de las variaciones del consumo promedio está explicado por el ingreso.

Trabajo encargado a) Calcular e interpretar el coeficiente de determinación de las datas a). Venta de automóviles b).DATOS DEL CLUB DE SALUD

9

ANALISIS DE REGRESIÓN LINEAL SIMPLE CON R Laboratorio 1.Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a continuación. (y) (x) 30 35 35 40 30 38 50 55 35 42 50 60 a) b) c) d) e)

Cuál es el tamaño de muestra. Se pide representar los datos en un diagrama de dispersión Determinar la recta de recesión mínimo cuadrática y graficarla Calcular el coeficiente de determinación (r2) e interpretar Determinar el consumo esperado para una familia si su ingreso es de $55.00 Resolución

Cargando la data Sol Sol dim(Sol) #[1] 6 2

Rta: La data contiene 6 observaciones y dos variables

10

b.Se pide representar los datos en un diagrama de dispersión

Sol(y~x)

Rta: existe una relación positiva entre la variable consumo e ingreso, a menos ingreso menos consumo y a más ingreso mayor consumo.

plot(y~x,xlab="x=Ingreso",ylab = "y=Consumo",col="Blue")

c). Determinar la recta de recesión mínimo cuadrática y graficarla Sol.m1|t|) 0.594111 0.000571 *** ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#Residual standard error: 2.049 on 4 degrees of freedom #Multiple R-squared: 0.9612, Adjusted R-squared: 0.9515 #F-statistic: 99.19 on 1 and 4 DF, p-value: 0.0005709

Respuesta:

y= -2.41470 + 0.90551x El intercepto = -2.41470 Pendiente = 0.90551

Sol.m1|t|) 0.594111 0.000571 *** ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#Residual standard error: 2.049 on 4 degrees of freedom #Multiple R-squared: 0.9612, Adjusted R-squared: 0.9515 #F-statistic: 99.19 on 1 and 4 DF, p-value: 0.0005709

Respuesta.

R2= 0.9612 Interpretación: Quiere decir que el 96.12% de las variaciones del ingreso promedio está explicado por la consumo.

e).Determinar el consumo esperado para una familia si su ingreso es de $55.00

summary(Sol.m1) #Remplazando si X=50 y= -2.41470 + 0.90551x -2.41470 + 0.90551*50

[1] 42.8608

La coordenada de los puntos serán (50; 42.8608)

points(50,42.8608,pch=15,col="blue")

13

Tarea Trabajar con los data grasa y=peso

x=edad

grasas