Est U1

Instituto Tecnológico Superior de Coatzacoalcos. División de Ingeniería Industrial. FEBRERO – JUNIO 2019. Nombre del Al

Views 929 Downloads 3 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Instituto Tecnológico Superior de Coatzacoalcos. División de Ingeniería Industrial.

FEBRERO – JUNIO 2019. Nombre del Alumno:

Zapot

Casanova

Apellido Paterno

Apellido Materno

Diana Guadalupe. Nombre(s)

ASIGNATURA: ESTADISTICA INFERENCIAL II UNIDAD 1. ‘’ REGRESIÓN LINEAL MÚLTIPLE’’.

Nombre del Docente:

Jiménez

Apellido Paterno

Carrera:

Ventura

TRABAJO DE INVESTIGACIÓN

Ing. Industrial

Fecha: 14 de febrero del 2019

Apellido Materno

Semestre:



Bricio. Nombre(s)

Grupo:

¨C¨

ÍNDICE.

Introducción.

3

UNIDAD 1. ‘’ REGRESIÓN LINEAL MÚLTIPLE’’. 1.1 Regresión lineal múltiple.

4

1.1.1 Pruebas de hipótesis en regresión lineal múltiple.

7

1.1.2 Intervalos de confianza y predicción en regresión múltiple.

8

1.1.3 Uso de un software estadístico.

13

1.2 Regresión no lineal.

15

Conclusión.

19

Referencias bibliográficas.

20

2

INTRODUCCIÓN.

La palabra Estadística procede del vocablo “Estado”, pues era función principal de los Gobiernos de los Estados establecer registros de población, nacimientos, defunciones, impuestos, cosechas... fue una de las causas principales del nacimiento de la misma. Cada día, realizamos acciones y tomamos decisiones de pensamientos estadísticos. Cuando no usamos el transporte público en horas pico se sabe que es el momento para hacerlo. Esta decisión se toma a partir de experiencias e información que hemos recopilado en situaciones anteriores. En áreas como medicina, economía, ciencia, política etc., se recopila información que, tras ser analizada, permita tomar decisiones en muchos casos para el mejoramiento de alguna situación o aspecto relacionados.

3

UNIDAD 1. ‘’ REGRESIÓN LINEAL MÚLTIPLE’’.

1.1 REGRESIÓN LINEAL MÚLTIPLE. En muchas situaciones prácticas existen varias variables independientes que se cree que influyen o están relacionadas con una variable de respuesta , y por lo tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de . Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitación tal vez sea necesario considerar el tipo de residencia, el número de personas que la habitan, la temperatura promedio de la zona, etcétera.

Sea

variables independientes o regresores, y sea

una variable de

respuesta, entonces el modelo de regresión lineal múltiple con

variables

independientes es el polinomio de primer orden:}

Donde los regresión y

son los parámetros del modelo que se conocen como coeficientes de es el error aleatorio, con media cero,

ecuación (1.22)

. Si en la

, estamos en el caso de regresión lineal simple y el modelo

es una línea recta; si

, tal ecuación representa un plano. En general, la

ecuación (1.22) representa un hiperplano en el espacio de dimensiones generado por las variables }. El término lineal del modelo de regresión se emplea debido a que la ecuación (1.22) es función lineal de los parámetros desconocidos

La interpretación de

éstos es muy similar a lo ya explicado para el caso de regresión lineal simple:

es 4

la ordenada al origen, y

mide el cambio esperado en

por cambio unitario en

cuando el resto de las variables regresoras se mantienen fijas o constantes. Para encontrar los coeficientes de regresión múltiple por el método de mínimos cuadrados aplicamos el siguiente sistema de ecuaciones normales:

Estas ecuaciones se pueden resolver para

,

y

mediante cualquier

método apropiado para resolver sistemas de ecuaciones lineales Por ejemplo La siguiente tabla muestra los pesos Y a la libra más cercana, las estaturas X1 a la pulgada más cercana y las edades X2 al año más cercano de 12 muchachos. Peso Estatura Edad 64 71 53 67 55 58 77 57 56 51 76 68

57 59 49 62 51 50 55 48 52 42 61 57

8 10 6 11 8 7 10 9 10 6 12 9

Regresión lineal múltiple

31

Tabla 1.5 Peso, estatura y edad

5

Para encontrar los coeficientes de regresión ( , y ) múltiple mediante el método de mínimos cuadrados seria de la siguiente manera

Tabla 1.6 Procedimiento para realizar los cálculos para la regresión múltiple Y

X1

X2

Y2

X12

X22

X1Y

X2Y

X1X2

64 71 53 67 55 58 77 57 56 51 76 68

57 59 49 62 51 50 55 48 52 42 61 57

8 10 6 11 8 7 10 9 10 6 12 9

4096 5041 2809 4489 3025 3364 5929 3249 3136 2601 5776 4624

3249 3481 2401 3844 2601 2500 3025 2304 2704 1764 3721 3249

64 100 36 121 64 49 100 81 100 36 144 81

3648 4189 2597 4154 2805 2900 4235 2736 2912 2142 4636 3876

512 710 318 737 440 406 770 513 560 306 912 612

456 590 294 682 408 350 550 432 520 252 732 513

y

x1

x2

y2

x12

x22

x1y

x2y

x1x2

753

643

106

976

40,830

6,796

5,779

48,139 34,843

Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene Resolver este sistema de tres ecuaciones lineales para

,

y

, es por lo menos

tedioso. Es común emplear matrices para simplificar el proceso. Hoy en día, esta clase de cálculos son realizados por la computadora.

El resultado seria el siguiente

por lo

tanto la ecuación de regresión es

La solución manual aplicando el sistema de tres ecuaciones lineales con tres incógnitas (3x3) pudiera ser aplicando el métodos de eliminación de Gauss o bien 6

el método de Cramer. Para este tipo de planteamiento se recomienda el método de Cramer el cual consiste en la siguiente secuencia:

1.1.1 PRUEBAS DE HIPÓTESIS EN REGRESIÓN LINEAL MÚLTIPLE. En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes, sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación entre y. Una primera forma de hacer esto es probar una serie hipótesis sobre el modelo. Para ello es necesario suponer una distribución de probabilidad para el término de error, Es usual suponer normalidad: se distribuye en forma normal, independiente, con media cero y varianza. Por lo general, la hipótesis de mayor interés plantea que la pendiente es significativamente diferente de cero. Esto se logra al aprobar la siguiente hipótesis:

El estadístico de prueba es:

Si la hipótesis nula es verdadera él estadístico (1.10) tiene una distribución -Student con n-2 grados de libertad. Se rechaza Ho si el valor absoluto de este estadístico es mayor que el correspondiente valor crítico obtenido de tablas, es decir, se rechaza Ho si:

7

En caso contrario no se rechaza Ho No rechazar que 𝛽1 = 0, en el caso del modelo de regresión lineal simple, implica que no existe una relación lineal significativa entre y ; por tanto, no existe relación entre estas variables o ésta es de otro tipo. La suma de cuadrados de los residuos o suma de cuadrados del error ( y se utiliza para estimar la varianza del error de ajuste de un modelo, y está dada por:

1.1.2 INTERVALOS DE CONFIANZA Y PREDICCIÓN EN REGRESIÓN MÚLTIPLE. En los modelos de regresión múltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresión

. Por

ejemplo, a partir de la tabla 1.6 es claro que un estimador por intervalos de cada coeficiente en lo individual está dado por:

También es posible obtener un intervalo de confianza con respecto a la respuesta media en un punto particular, digamos

está dado por:

Ejercicios de regresión lineal múltiple 8

13.- ¿Por qué se requiere la regresión lineal múltiple?

14.- Se realizo un estudio para investigar la relación de la resistencia al corte del terreno ( ) con la profundidad en pies ( ) y el contenido de humedad

. Se hicieron 10

observaciones, obteniéndose las siguientes cantidades resumidas , , ,

,

,

,

,

a) Establezca las ecuaciones normales de mínimos cuadrados para el modelo

b) Estime los parámetros del modelo del inciso a) c) ¿Cuál es la resistencia predicha cuando

pies y

?

15.- En una empresa dedicada a anodizar artículos de aluminio (baterías de cocina), el anodizado se logra con una solución hecha a base de ácidos (sulfúrico, cítrico, bórico) y dicromato de aluminio. En este proceso se controla el pH de la solución, la temperatura, la corriente y el tiempo de permanencia. Debido al poco grosor del anodizado, han aumentado las quejas por la escasa resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un experimento, la relación del pH y la temperatura con el grosor del anodizado. Los datos se muestran en la siguiente tabla:

pH Temperatura Espesor

9

1,2 -8

9

1,8 -8

14

1,2 8

10

1,8 8

19 8

1,2 -8

12

1,8 -8

11

1,2 8

20

1,8 8

14

1,5 0

13

1,5 0

a) ¿Cuáles son las variables independientes y cuál la dependiente? Argumente Intervalos de confianza y predicción en

regresión

múltiple

b) Ajuste un modelo del tipo

y anote la

ecuación del modelo ajustado c) A partir del modelo ajustado, ¿cuál es el espesor estimado cuando se utiliza un pH = 2 y una temperatura de 10 grados? d) ¿El modelo es adecuado? Argumente con base en graficas de residuos, pruebas de hipótesis y coeficientes de determinación.

16.- Se realizó un experimento para estudiar el sabor del queso panela en función de la cantidad del cuajo y la sal. La variable de respuesta observada es el sabor promedio reportado por un grupo de cinco panelistas que probaron todos los quesos y los calificaron en una escala hedónica. Los datos obtenidos se muestran a continuación:

10

Sal Cuajo Sabor 6

0,3

5,67

5,5 0,387 7,44 4,5 0,387

7,33

4

6,33

0,3

4,5 0,213 7,11 5,5 0,213 7,22 5

0,3

6,33

5

0,3

6,66

a) Ajuste el modelo b) ¿El modelo explica la variación observada en el sabor? Argumente con base en la significancia del modelo, los residuales y el coeficiente de determinación. c) Ajuste un modelo que incluya términos cuadráticos y analice con detalle la calidad del ajuste aplique las pruebas de hipótesis d) Compare el error estándar de estimación (

y los coeficientes de

determinación ) para ambos modelos e) ¿Cuál modelo prefiere para explicar el sabor?

17.- Se piensa que la energía eléctrica consumida mensualmente por una planta química se relaciona con la temperatura ambiente promedio (

, el número de

días laborales del mes (

y las toneladas

, la pureza promedio del producto

del producto producidas . Se cuenta con los datos del último año, los cuales se presentan en la tabla siguiente:

11

240 25 24 91 100 236 31 21 90 95 290 45 24 88 110 274 60 25 87 88 301 65 25 91 94 316 72 26 94 99 300 80 25 87 97 296 84 25 86 96 267 75 24 88 110 276 60 25 91 105 288 50 25 90 100 261 38 23 89 98

a) Ajuste un modelo de regresión lineal múltiple a estos datos b) Prediga el consumo de electricidad para un mes en el que días c) Calcule

y

,

toneladas

para este modelo. Interprete esta cantidad

d) Grafique los residuales contra . Interprete la grafica

12

1.1.3 USO DE UN SOFTWARE ESTADÍSTICO. primeramente capturamos los datos en la hoja de cálculo, posteriormente activamos Datos seguido de Análisis de datos y seleccionamos Regresión, y aceptar

Datos

Análisis de datos

Regresión

En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos para la variable dependiente Rango regresora(s) Rango

de entrada y para la(s) variable(s)

de entrada (para los datos de X1 y X2, se sombrean ambos

simultáneamente con el ratón, en este caso a partir de la columna 2)

13

Activamos la casilla de rótulos,

por default está indicado en una hoja nueva,

seleccionamos además cualquiera de las opciones

de residuos, grafica de

residuales, y curva de regresión ajustada y aceptar y tendremos el resultado.

Utilizando Minitab En Minitab la secuencia de captura para la regresión lineal simple o múltiple en la hoja de cálculo una vez capturada las columnas de datos seleccionamos Estadísticas luego Regresión seguida de Regresión nuevamente

Estadísticas

Regresión

Regresión

De la ventana desplegada en respuesta indicamos la variable de respuesta, en este caso es resistencia y en predictor indicamos porcentaje de fibra activando también cualquiera de las opciones posibles, terminando en aceptar.

14

Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda la información de la tabla, en respuesta, se indica con un clic del ratón en peso y este automáticamente se manifiesta, en predictores de igual manera se da un clic a cada uno y estos se manifiestan en el recuadro.

1.2 REGRESIÓN NO LINEAL. Si las dos variables X y Y se relacionan según un modelo de línea recta, se habla de regresión lineal simple

Cuando las variables X y Y se relacionan según una línea curva, se habla de regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica, exponencial, potencial etc.

15

Supongamos que al hacer la representación gráfica correspondiente la distribución bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relación entre las dos variables, pero desde luego, esa relación no es lineal. Por tanto, debemos buscar la función que ha de describir la dependencia entre las dos variables. Nos limitaremos al estudio de las más utilizadas: la función parabólica, la logarítmica, la exponencial y la potencial.

Parábola de Regresión En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada. La expresión general de un polinomio de 2º grado es:

donde a, b y c son los parámetros. El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresión lineal simple, utilizando el procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresión sea mínima:

donde, siguiendo la notación habitual, yi son los valores observados de la variable dependiente, e

los valores estimados según el modelo; por tanto, podemos

escribir D de la forma:

16

Para encontrar los valores de a, b y c que hacen mínima la expresión anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parámetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en el caso de la regresión lineal simple).

Función Exponencial, Potencial y Logarítmica El problema de ajustar un modelo potencial, de la forma

y uno exponencial

se reduce al de la función lineal, con solo tomar logaritmos. Modelo potencial: Si tomamos logaritmos en la expresión de la función potencial, obtendremos:

Como vemos es la ecuación de una recta:

, donde ahora

. De modo que el problema es sencillo, basta con transformar Y en

y X en

y ajustar una recta a los valores transformados. El parámetro b del modelo

17

potencial coincide con el coeficiente de regresión de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).

Modelo exponencial: Tomando logaritmos en la expresión de la función exponencial, obtendremos:

También se trata de la ecuación de una recta a

, pero ahora ajustándola

y a X; de modo que, para obtener el parámetro A del modelo exponencial,

basta con hacer antilog(a), y el parámetro B se obtiene tomando antilog(b).

Modelo logarítmico: La curva logarítmica Y = a + b

es también una recta, pero en lugar de estar

referida a las variables originales X e Y, está referida a

y a Y.

Hemos visto, cómo, a pesar de ser inicialmente modelos mucho más complejos que el de una recta, estos tres últimos se reducen al modelo lineal sin más que transformar adecuadamente los datos de partida.

18

CONCLUSIÓN.

En las industrias es importante la estadística ya que gracias a ella se crean nuevas mejoras en los productos, es decir se van mejorando según las calificaciones que le asigne el consumidor, de esta manera buscan la mejora del producto. La estadística es importante en nuestras vidas tanto que gracias a ellas se crean nuevos medicamentos, ya que obtienen porcentajes cada día de enfermedades nuevas que deben ser curadas con medicamentos para cada tipo de enfermedad.

19

REFERENCIAS BIBLIOGRÁFICAS.



Estadística inferencial II Raúl Jiménez González. Agosto 2012.



WALPOLE, R.; MAYERS, R.H.; MAYERS, S.L. 1998. Sexta edición. Probabilidad y Estadística Para Ingenieros. Pearson Education



ANDERSON, D.R.; SWEENEY, D.J.; WILLIAMS, T.A.2005. Octava edición. Estadística para Administración y Economía. MATH LEARNING



BERENSON, M.L.; LEVINE, D.M.; KREHBIEL, T.C. 2001. Segunda edición. Estadística para Administración. Prentice Hall.

20