Regresion Multiple

INSTITUTO TECNOLÓGICO DE CAMPECHE. INGENIERÍA INDUSTRIAL. ESTADÍSTICA INFERENCIAL 2. Bocos Patrón Ramón Agustín. . UNI

Views 433 Downloads 4 File size 609KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

INSTITUTO TECNOLÓGICO DE CAMPECHE.

INGENIERÍA INDUSTRIAL. ESTADÍSTICA INFERENCIAL 2. Bocos Patrón Ramón Agustín. .

UNIDAD 1: Conceptos de la Regresión Lineal Múltiple.

ALUMNO: May Cahuich Candelario Emanuel.

GRUPO: VI4.

4 SEMESTRE.

San Francisco de Campeche, Campeche a 25 de abril del 2012

Estadística Inferencial II

Página 1

ÍNDICE. Introducción…………………………………………………………………………….4 La regresion lineal múltiple…………………………………………………………..5 Introducción………………………………………………………………………….5 Desarrollo del modelo…………………………………………………………………6 Determinación de la ecuación de R.L.M…………………………………………....7 Determinación de los coeficientes bi…………………………………………………………………...7 Método de mínimos cuadrados………………………………………………….....7 El método matricial (más conveniente en modelos de R.L.M)…………………7 Interpretación de los coeficientes bi del modelo…………………………………...8 Inferencias en la R.L.M……………………………………………………………….9 Error estándar de la estimación……………………………………………………9 P. de h. (de significación) para los coeficientes β1, β2,…………………………9 Prueba “t” de independencia entre las variables………………………………10 Enfoque del ANDEVA para la prueba de significación de la regresion…….10 Estimación de los intervalos de confianza para β1, β2,………………………..10 Predicción de la variable dependiente “Y”……………………………………...10 Intervalo de confianza para la media µy, x1, x2,………………………………….11 Intervalo de predicción para una observación futura Yi………………………………....11 El coeficiente de determinación múltiple……………………………………….....11 Introducción…………………………………………………………………………12 Medidas de variación {SCT (SST), SCR (SSR), SCE (SSE)}…………………13 Calculo del coeficiente e interpretación…………………………………………13 El coeficiente de determinación “ajustado”……………………………………...13 Evaluación de la adecuación del modelo de regresion………………………….14

Estadística Inferencial II

Página 2

Análisis residual……………………………………………………………………14 La matriz de correlación……………………………………………………………..14 ¿Qué propósito tiene?......................................................................................15 La multicolinealidad o colinealidad múltiple………………………………………15 ¿Qué es?..........................................................................................................15 ¿Cómo se detecta su presencia?.....................................................................15 ¿Qué medidas correctivas se pueden utilizar para resolver este problema?.16 Conclusión……………………………………………………………………………17 Bibliografía…………………………………………………………………………….18

Estadística Inferencial II

Página 3

INTRODUCCIÓN. Como la Estadística Inferencial nos permite trabajar con una variable a nivel de intervalo o razón, así también se puede comprender la relación de dos o más variables y nos permitirá relacionar mediante ecuaciones, una variable en relación de la otra variable llamándose Regresión Lineal y una variable en relación a otras variables llamándose Regresión múltiple. Casi constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables. En la regresión lineal múltiple vamos a utilizar más de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas. Al tener más de una variable explicativa (no se debe de emplear el término independiente) surgirán algunas diferencias con el modelo de regresión lineal simple. Esperando que se de gran utilización este trabajo el cual tiene varios conceptos sobre regresion lineal múltiple para poder notar las características sobre este temas y clasificar las diferencias referente a la regresion lineal simple.

Estadística Inferencial II

Página 4

LA REGRESIÓN LINEAL MÚLTIPLE. El análisis de regresión múltiple es el estudio de la forma en que una variable dependiente, y, se relaciona con dos o más variables independientes. En el caso general emplearemos p para representar la cantidad de variables independientes. y =0 + 1x1 + 2x2 +. . . +pxp +  En muchas situaciones prácticas existen varias variables independientes que se cree que influyen o están relacionadas con una variable de respuesta Y, y por lo tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de Y. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitación tal vez sea necesario considerar el tipo de residencia, el número de personas que la habitan, la temperatura promedio de la zona, etcétera.  Introducción. Muchas aplicaciones del análisis de regresion incluyen situaciones en las que hay más de una variable regresora se le llama modelo de regresion múltiple. Esta regresión es donde tenemos una variable dependiente Y y dos independientes X2 y X3, así en vez de obtener una función lineal en dos variables (línea recta), tendremos una función lineal en tres variables (ecuación del plano en el espacio tridimensional X2X3Y). ̂ = a + b X2 + c X3 Obviamente, si tuviéramos más de dos variables independientes, tendríamos una ecuación lineal con más de tres variables; en otras palabras, nuestro modelo trivariable se puede generalizar a más variables con los consecuentes problemas de cálculo, que serían fáciles de resolver con la ayuda de una computadora. Si una variable Y está relacionada linealmente con dos variables independientes X 2 y X3, su función lineal poblacional puede describirse por: Yi = (A + B Xi2 + C X i3) + εi ….. Donde (A + B Xi2 + C X i3) es la parte de la variación total de Y que es explicada y εi es la parte de la variación total no explicada o debida a errores aleatorios. En general, el modelo clásico de regresión lineal múltiple definido por la formula anterior debe cumplir con las siguientes suposiciones: 1) Las variables independientes X2 y X3 son fijas o no aleatorias.

Estadística Inferencial II

Página 5

2) Pueden existir relaciones significativas de dependencia lineal entre dos cualesquiera de las variables independientes, pero su correlación no debe ser perfecta. 3) Los errores εi tienen distribuciones normales con . 4) La varianza de la regresión es constante e igual a la varianza de los εi. 5) Los errores son estadísticamente independientes; es decir, los ε i no están correlacionados (Cov (εi, εj) = 0, i ≠ j). 6) El número de observaciones de la muestra de la muestra debe superar al número de coeficientes de regresión que han de estimarse para garantizar que el número de grados de libertad sea diferente de cero.

DESARROLLO DEL MODELO. Muchas aplicaciones del análisis de regresion incluyen situaciones en las que hay más de una variable regresora se le llama modelo de regresion múltiple. Como un ejemplo, suponga que la vida efectiva de una herramienta de corte depende de la velocidad de corte y del ángulo de la herramienta. Un modelo de regresión múltiple que podría describir esta relación es:

Donde Y representa la vida de la herramienta, representa la velocidad de corte, representa el ángulo de la herramienta, y ε es un término del aleatorio. Se trata de un modelo de regresion lineal múltiple con dos regresores o variables independientes. Se usa el termino lineal porque la ecuación anteriores una función lineal de los parámetros desconocidos , , . El parámetro es la ordenada al origen del plano. En ocasiones a , se les llama los coeficientes de regresion parciales, debido a que mide el cambio esperado en Y por un cambio unitario de cuando se mantiene constante. En general, la variable de respuesta o dependiente y, puede relacionarse con k variables regresoras o independientes. Al modelo:

Se le llama modelo de regresión lineal múltiple con k variables regresoras.

Estadística Inferencial II

Página 6

DETERMINACIÓN DE LA ECUACIÓN DE REGRESIÓN LINEAL MÚLTIPLE.  Determinación de los coeficientes bi B1 es el cambio neto en Y por cada cambio unitario en x1, manteniendo x2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta o bien coeficiente de regresión.

El método de mínimos cuadrados. Para hacer la estimación de los coeficientes de regresion b0, b1, b2 y usando el método de mínimos cuadrados, según los datos muéstrales y así podemos tener la suma de los errores cuadráticos: ∑



La cual se considera con mínima varianza.

Si usamos el método de mínimos cuadrados, derivando de la suma de los errores cuadráticos con respecto a cada coeficiente b1 e igualamos a cero estas ecuaciones se optimizara el modelo de regresion lineal múltiple.

El método matricial (más conveniente en modelos de R.L.M) Al ajustar un modelo de regresion múltiple, es mucho más conveniente expresar las operaciones matemáticas utilizando la notación matricial. Suponga que hay k variables regresoras y n observaciones (xi1, xi2,…, xik, yi), i= 1, 2,…, n, y que el modelo que relaciona las variables regresoras con la variable de respuesta es: yi = β0 + β1xi1 + β2xi2 +… + βkxik + εi i=1, 2, …, n Este modelo es un sistema de n ecuaciones que en notación matricial puede expresarse como:

Dónde:

Estadística Inferencial II

x=

Página 7

y [

[

]

]

En general, y es un vector (n x 1) de las observaciones, x es una matriz (n x p) de los niveles de las variables independientes, β es un vector (px1) de los coeficientes de regresion, y ε es un vector (n x 1) de los errores aleatorios.

INTERPRETACIÓN DE LOS COEFICIENTES BI DEL MODELO. El coeficiente ̂ mide el efecto parcial del regresor x1 manteniendo los otros regresores fijos. Vamos a ver el significado de esta expresión. El modelo estimado para la observación i- esima viene dado por: ̂

̂

̂

̂

̂

̂

Consideremos ahora el modelo estimado para la observación h-esima, en el que los valores de las variables explicativas y, en consecuencia, y habrán cambiado con respecto a la ecuación anterior: ̂

̂

̂

̂

̂

̂

La expresión anterior capta la variación de ˆy debida a cambios en todos los regresores. Si sólo cambia xj, tendremos que: ̂ ̂ Si xk se incrementa en una unidad, tenemos: ̂ ̂

En consecuencia, el coeficiente ̂ mide el cambio en y cuando xj aumenta en 1 unidad, manteniendo fijos los regresores x1, x2,…,xj-1, xj+1,…,xk. es muy importante en la interpretación de los coeficientes tener en cuenta, esta interpretación no es válida, por supuesto, para el termino independiente.

Estadística Inferencial II

Página 8

INFERENCIAS EN LA R.L.M.  Error estándar de la estimación. Al igual que en regresión lineal simple, el error estándar de estimación proporciona la medida del error de ajuste de un modelo, éstas tienen una interpretación similar a la que se dio para el caso de regresión lineal simple. En cuanto al cálculo en el caso múltiple, el error estándar de estimación: ̂



 P. de H. (de significación) p/los coeficientes β1, β2,… Las hipótesis sobre los parámetros del modelo son equivalentes a las realizadas para regresión lineal simple, pero ahora son más necesarias porque en regresión múltiple tenemos más parámetros en el modelo; sin embargo, por lo general es necesario evaluar su verdadera contribución a la explicación de la respuesta. También requerimos de la suposición de que los errores se distribuyen en forma normal, independientes, con media cero y varianza . La hipótesis global más importante sobre un modelo de regresión múltiple consiste en ver si la regresión es significativa. Esto se logra probando la siguiente hipótesis:

Aceptar significa que ningún término o variable en el modelo tiene una contribución significativa al explicar la variable de respuesta, Y. Mientras que rechazar implica que por lo menos un término en el modelo contribuye de manera significativa a explicar Y. El procedimiento para probar esta hipótesis es una generalización del procedimiento utilizado para probar la hipótesis equivalente en regresión lineal simple. El estadístico de prueba para la significancia del modelo de regresión lineal múltiple está dado por:

Que bajo tiene una distribución también si valor –p = P (F > ) < α.

Estadística Inferencial II

. Así, se rechaza

si

>

o

Página 9

Prueba de “t” de independencia entre las variables.

Se rechaza

si | | >

; o alternativamente, si p-valor de tc es menor que α.

Enfoque del ANDEVA p/la prueba de significación de la regresión. La división de la suma total de cuadrados en sus componentes, la regresion y suma de cuadrados del error juega un papel importante. Se puede llevar a cabo un análisis de varianza para aclarar la calidad de la ecuación de regresion. Los resultados se acomodan en una tabla ANOVA. Fuente de Suma de variación. cuadrados . Regresor. SCR. Error. SCE. Total. SCT.

Grados de libertad. P n-p-1 n-1

Cuadrados medios.

F.

P- valor o sig.

CMR=(SCR/p) Fc=CMR/CME CME=(SCE/(n-p-1)

 Estimación de los intervalos de confianza para β1, β2,… En los modelos de regresion múltiple con frecuencia es conveniente construir estimaciones de intervalos de confianza para los coeficientes de regresion {B j}. El desarrollo de un procedimiento para obtener estos intervalos requiere que los errores {εi} tenga una distribución normal e independiente con media cero y varianza . Se trata del mismo supuesto requerido en la prueba de hipótesis.  Predicción de la variable dependiente “Y” Es posible usar un modelo de regresion para predecir observaciones futuras de la variable de respuesta Y correspondientes a valores particulares de las variables independientes, por ejemplo, x01, x02,…, x0k. Si = {x01, x02, …, x0k}, entonces una estimación puntual de la observación futura Y0 en el punto x01, x02, …, x0k es: ̂ Estadística Inferencial II

̂ Página 10

 I. de C. para la media µy, x1, x2,… También puede obtenerse un intervalo de confianza para la respuesta media en un punto particular, por ejemplo, x01, x02,…, x0k. Para estimar la respuesta media en un punto, se define el vector.

[

]

Para el modelo de regresion lineal múltiple, un intervalo de confianza del 100 (1–α) por ciento para la respuesta media en el punto x01, x02,…, x0k es: ̂

√̂

̂

̂

√̂

 I. de predicción para una observación futura Yi Es posible usar un modelo de regresion para predecir observaciones futuras de la variable de respuesta Y correspondiente a valores particulares de las variables independientes. Un intervalo de predicción para esta observación futura del 100 (1-α) por ciento es: ̂

√̂

̂

√̂

EL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE. El coeficiente de determinación múltiple R2 se define como: R2 = R2 es una medida de la cantidad de reducción en la variabilidad de y obtenida utilizando las variables regresoras . Como en el caso de la regresión lineal simple, debe tenerse 0 Sin embargo, un valor grande de R2 no necesariamente significa que el modelo de regresión es bueno. Agregar una variable al modelo siempre aumentará a R2, sin importar si la variable adicional es

Estadística Inferencial II

Página 11

estadísticamente significativa o no. Entonces, es posible que los modelos que tienen grandes valores de R2 proporcionen malas predicciones de nuevas observaciones o estimaciones de la respuesta media. La raíz cuadrada positiva de R2 es el coeficiente de correlación múltiple entre y y el conjunto de variables regresoras . Esto es, R es una medida de la asociación lineal entre y y . Cuando K = 1, esto se vuelve la correlación simple entre y y x.

 Introducción. A fin de poder determinar que tan bien predice la variable independiente a la variable dependiente en el modelo estadístico, se necesita desarrollar varias medidas de variación. La primera medida, la variación total, es una medida de la variación de los valores de Y en torno a su media, Y. como ya se vio, la variación total se puede dividir en dos componentes. En un problema de regresión, la variación total en Y, la variable dependiente, se puede subdividir en variación explicada, o sea, la que es atribuible a la relación entre X y Y y la variación no explicada, atribuible a factores que no sean la relación entre X y Y. La variación explicada representa la diferencia entre ̅ (el valor promedio de Y) y ̂ (el valor de Y que se predeciría con la relación de regresión). La variación no explicada representa la parte de la variación en Y que no se explica con la regresión y está basada en la diferencia entre Yi (el valor real de Y) y ̂ (el valor predicho de Y para una X dada). Estas medidas de variación se pueden representar como sigue: Variación total = variación explicada + variación no explicada. ̅

Variación total = ∑

Variación no explicada = ∑ Variación explicada = ∑



=∑

-

(∑

)

̂) =∑

(

– bo ∑

– b1 ∑

̅)

= variación total – variación no explicada. = bo ∑

Estadística Inferencial II

– b1 ∑

-

(∑

)

Página 12

 Medidas de variación SCT (SST), SCR (SSR), SCE (SSE). Suma de Cuadrados Totales, SCT, también denotado por SST: ∑ Suma de Cuadrados Explicada, SCE, también denotado por SSE: ̂

Suma de Cuadrados de los Residuos, SCR, también denotado por SSR: ̂



 Calculo del coeficiente e interpretación. Definiendo el coeficiente de determinación R2 como la medida de la cantidad de reducción en la variabilidad de (y) obtenida a partir de las variables regresoras x 1, x2, x3,… xk tal que R2 puede tener valores entre 0 aunque un valor 2 grande de R no significa que el modelo de regresion es bueno. La raíz cuadrada positiva de R2 en el coeficiente de correlación múltiple entre (y) y las variables regresoras x1, x2, x3,… xk es una medida de la asociación lineal entre (y) y x1, x2, x3,… xk  El coeficiente de determinación “ajustado” Para superar una de las limitaciones del R2, este coeficiente se puede "ajustar" de manera que tenga en cuenta el número de variables incluidas en un modelo dado. Para ver cómo el R2 usual podría ajustarse, es útil expresarlo como:

Donde, en el segundo término del segundo miembro, aparece la varianza residual dividida por la varianza del regresando. En su lugar, vamos a utilizar estimaciones insesgadas de estas varianzas: ̅

Esta medida se denomina R cuadrado ajustado, o ̅ . El principal atractivo del ̅ es que impone una penalización al añadir otros regresores a un modelo. Si se añade un regresor al modelo la SCR decrece o, en el peor de los casos queda Estadística Inferencial II

Página 13

igual. Por otra parte, los grados de libertad de la regresion (n-1-k) siempre disminuyen. Por ello, el ̅ puede crecer o decrecer cuando se añade un nuevo regresor al modelo. Es decir: ̅ ̅ ̅ ̅ Un resultado algebraico interesante es el hecho de que si añadimos un nuevo regresor a un modelo, el ̅ se incrementa si, y solo si, el estadístico t del nuevo regresor es mayor que uno en valor absoluto. Así, vemos inmediatamente que ̅ podría ser utilizado para decidir si un determinado regresor adicional debe ser incluido en el modelo. El ̅ tiene una cota superior que es igual a 1, pero estrictamente no tiene una cota inferior, ya que puede tomar un valor negativo, aunque muy cerca de 0.

EVALUACIÓN DE LA ADECUACIÓN DEL M|ODELO DE REGRESIÓN.  Análisis residual. Los residuales a partir del modelo estimado de regresión múltiple, definidos por ̂ , desempeñan un papel importante en la evaluación de la adecuación del modelo al igual que lo hacen en la regresión lineal simple, existen varias graficas residuales que a menudo resultan útiles. También resulta útil graficar los residuales en relación con variables que no se encuentren presentes en el modelo, pero que sean posibles candidatas para su inclusión. Los patrones en estas graficas indican que el modelo puede mejorarse agregando la variable candidata.

LA MATRIZ DE CORRELACIÓN. Una matriz de correlación es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación llamado r. El análisis factorial se puede utilizar para estudiar series numéricas o de valores cuantitativos para un determinado número de variables cuantitativas y mayor de dos. Por ejemplo, tres características o más para series numéricas con igual número de datos. Estas variables independientes o explicativas están dispuestas ya en una matriz de correlación, que es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación llamado r o la relación entre cada pareja en cada celda, expresada con un número que va desde 0 a 1. El modelo

Estadística Inferencial II

Página 14

mide y muestra la interdependencia en relaciones asociadas o entre cada pareja de variables y todas al mismo tiempo.

 ¿Qué propósito tiene? Una matriz de correlación es una tabla de doble entrada para A B y C, que muestra una lista multivariable horizontalmente y la misma lista verticalmente y con el correspondiente coeficiente de correlación llamado r.

LA MULTICOLINEALIDAD O COLINEALIDAD MÚLTIPLE.  ¿Qué es? En los problemas de regresion múltiple se espera encontrar dependencias entre la variable de respuesta Y y las variables regresoras xj. Sin embargo, en la mayoría de los problemas de regresion se encuentra que también hay dependencias entre las variables regresoras xj. Cuando estas dependencias son fuertes, se dice que existe colinealidad múltiple. La colinealidad múltiple puede tener efectos de consecuencia sobre las estimaciones de los coeficientes de regresion y sobre la aplicabilidad general del modelo estimado. Los efectos de colinealidad múltiple pueden demostrarse con facilidad. Los elementos de la diagonal de la matriz C= (X´X)-1 pueden escribirse como: j=1, 2,…, k Donde es el coeficiente de determinación múltiple que resulta de hacer la regresion de xj sobre las k-1 variables regresoras.  ¿Cómo se detecta su presencia? Hay varias formas de detectar la presencia de la colinealidad múltiple. 1. Los factores de inflación de loa varianza, son medidas de colinealidad múltiple muy útiles. Entre mayor sea el factor de inflación de la varianza, más marcada será la colinealidad múltiple. Algunos autores han sugerido que si cualquiera de los factores de inflación de la varianza excede 10, entonces la colinealidad múltiple constituye un problema. Otros autores consideran este valor muy dadivoso y sugieren que los factores de inflación de la varianza no deberán exceder 4 o 5.

Estadística Inferencial II

Página 15

2. Si la prueba F de la significación de la regresion es significativa, pero las pruebas de los coeficientes de regresion individuales son no significativas, entonces puede estar presente la colinealidad múltiple.  ¿Qué medidas correctivas se pueden utilizar para resolver este problema? Se han propuesto varias medidas correctivas para resolver el problema de la colinealidad múltiple. Se sugiere con frecuencia aumentar los datos con nuevas observaciones diseñadas específicamente para romper las dependencias lineales aproximadas que existen normalmente. Sin embargo, en ocasiones esto es imposible debido a razones económicas o por las restricciones físicas que relacionan las xj. Otra probabilidad es eliminar ciertas variables del modelo, pero este enfoque tiene la desventaja de descartar la información contenida en las variables eliminadas. Puesto que la colinealidad múltiple afecta principalmente la estabilidad de los coeficientes de regresion, al parecer estimar estos parámetros con algún método que sea menos sensitivo a la colinealidad múltiple que los mínimos cuadrados ordinarios, seria de ayuda. Se han sugerido varios métodos. Una alternativa de los mínimos cuadrados ordinarios, la regresion sobre ascensos (cordilleras), puede ser útil para combatir la colinealidad múltiple.

Estadística Inferencial II

Página 16

CONCLUSIÓN. Como veremos la regresion lineal múltiple es de gran importancia para obtener la relación de información obtenida que favorezca en la situación aplicada, ya sea para tomar decisiones ajustadas con respecto al problema. Es conveniente usar este tipo de regresion ya que se emplea o se realiza para saber si existe relación entre las variables y el tipo de relación donde existe una variable dependiente en función de dos o más variables independientes. Por ejemplo la regresión lineal múltiple tiene muchas aplicaciones en las cuales podemos aplicarlas según sea el problema: 1.- El costo del consumo de gasolina de los vehículos de transporte según sus tiempos de viaje y el mantenimiento proporcionado. 2.- La cantidad de ventas de la compañía (y), según el número de vendedores (x1), los años de experiencia (x2), y la época del año, etc. 3.- En ergonomía para conocer el peso de un muchacho y relacionarlo con su estatura, edad, etc. 4.- El rendimiento de un proceso químico donde se desea conocer la relación que guarda la temperatura con la concentración y el PH de una mezcla. Entre otras aplicaciones donde se puede realizar o llevar a cabo la regresión lineal múltiple. Esperando que la información presentada haiga sido de gran utilidad y sea de gran ayuda para comprender ciertos concepto

Estadística Inferencial II

Página 17

BIBLIOGRAFÍA. 

Probabilidad y Estadística Aplicadas a la Ing. 2a edición; Montgomery – Runger; limusa.



Probabilidad y Estadística, 4a edición; Walpole – Myers; McGraw – Hill.



Probabilidad y Estadística para ciencias Quimicas Biologicas; María Márquez de Cantú McGraw – Hill.



Diseño y Análisis de Experimentos; Douglas C. Montgomery; Iberoamericana.

Estadística Inferencial II

Página 18