6. Regresion Lineal y Cuadratica ME

Curso: Métodos estadísticos de investigación Profesor: Ingº Antonio Matos Alejandro CURVA DE AJUSTE, REGRESIÓN Y CORREL

Views 100 Downloads 4 File size 208KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Curso: Métodos estadísticos de investigación Profesor: Ingº Antonio Matos Alejandro

CURVA DE AJUSTE, REGRESIÓN Y CORRELACIÓN Curva de ajuste.Es la relación entre dos ó más variables. Fundamentalmente se da entre dos variables. 1º) Se realiza la colección de datos, los valores de las variables. Ejemplo: Si x e y denotan la estatura y peso de una persona, entonces una muestra de n individuos resultaría en las estaturas x1, x2, ..., xn y los pesos correspondientes y1, y2,..., yn. 2º) Dibujar los puntos (x1, y1); (x2, y2); ……….

Relación lineal

Relación no lineal

1º) Regresión lineal (ecuación de una recta)

Ninguna relación

Y = a + bx

2º) Relación no lineal (curva cuadrática o parabólica)

Y= a + bx + cx2

3º) Ninguna relación entre variables Uno de los propósitos de la curva de ajuste es estimar una de las variables (dependiente) de la otra (independiente). El proceso de estimaciones se conoce como regresión. Regresión Estudia la función matemática que relaciona a la variable dependiente o respuesta, con la o las variables independientes o predictoras o explicativas. Y = f(x1, x2,...., xn)

Ejm. -

Tiempo de vida; depende de la alimentación, del estado físico, de la tranquilidad, etc. En toxicología; los efectos letales de una droga se describen por la regresión del % muertes sobre la cantidad de droga. % de muertes Y causado por la cantidad de droga X. Interesa conocer el grado de dependencia entre: el % de carcasa y el peso vivo de animales; entre el rendimiento de granos (trigo) y la caída de la lluvia, etc. es decir,

como se incrementan o disminuyen los valores de una característica al incrementarse o disminuir los valores de otra característica. - Una característica depende de la otra; ejm. el volumen del pan depende del % de proteína del trigo; la estabilidad del néctar depende del tamaño de partículas así como también de la concentración de estabilizante. La regresión entre dos características puede ser lineal o curvilínea. Lineal (recta): Cuando las variaciones de la característica dependiente están ligadas proporcionalmente con las variaciones de la característica independiente.

Curvilínea (no lineal): Cuando no hay una dependencia de constante proporcionalidad, cuando es cualquier curva.

De acuerdo al número de variables independientes en estudio la regresión puede ser simple o múltiple. Es simple cuando se estudia una sola variable independiente, y es múltiple cuando se estudia dos o más variables independientes. Correlación Estudia el grado de asociación entre la variable respuesta y la o las variables independientes. Se dice que la correlación es simple cuando se estudia una variable

independiente asociada con la variable dependiente. La correlación es parcial cuando en una regresión múltiple estudiamos el grado de asociación de una variable independiente con la variable dependiente o respuesta, permaneciendo las demás variables independientes constantes. Regresión lineal simple La regresión permite estudiar la influencia de una característica respecto de otra, para establecer como varía el promedio de la primera característica al variar la segunda en una unidad de su medida. Se presentan casos como: 1.- Que las medidas o niveles de x sean seleccionados o escogidos por el investigador. Entonces regresión de y sobre x. 2.- Que las medidas o niveles de x sean tomados al azar. Entonces regresión de y sobre x y la x sobre y. Modelo estadístico El modelo poblacional es el siguiente: Yi = β0 + β1Xi + Ei i =1, 2, 3,......., n población Donde: Yi = Xi = βo = β1= Ei=

Variable dependiente o respuesta Variable independiente, predictoras o explicativas Intersección de la recta con el eje y, cuando x = 0 Coeficiente de regresión o pendiente de la recta Error o residual; independientes

Ei, es una variable aleatoria tomada de una distribución normal, con media cero y variancia σ2, esto es, N(0, σ2). Estimación del modelo: Yi = β0 + β1Xi + Ei  población. yi = b0+ b1xi + ei

 muestra.

i = 1; 2; 3;…….; n.

Donde: b0 es el estimador de β0 (b0  β0): b0 = ˆ0 b1 es el estimador de β1 (b1 β1): b1 = ˆ 1

La población de valores de y correspondiente a una x seleccionada tiene una media µ que yace en la recta: µ = β0 + β1xi Donde: β0 y β1 son parámetros Yi = β0 + β1Xi + Ei Yi =

µy.x + Ei

Estimación de parámetros Método de los mínimos cuadrados: Este método permite obtener los valores estimados de β 0 y β1 de modo que la suma de los errores al cuadrado sea mínima, es decir, de lo que se trata es de calcular b 0 y b1 de modo que: 1) Dado el modelo: yi = bo+ bix1+ ei .................(1) i= 1, 2, 3,......n Se determinará bo y b1 para ubicar la recta de regresión estimada: yi = bo+ bix1 2) De la ec. (1), despejamos ei para minimizar la expresión ei = yi - bo - bixi ---------(2) 3) Σei2 = Σ (yi - bo – b1xi)2 = Q ---------(3) 4) Derivando la ec. (3) con respecto a bo, b1 tendremos: dQ = 2Σ (yi - bo – b1xi) (-1) dbo dQ = 2Σ(yi – bo - b1xi) (-xi) db1 Luego igualando a 0: dQ =0 y dbo

dQ =0 db1

Resolviendo ambas ecuaciones con respecto a bo y b1, tendremos:

5) Σ(yi - bo - b1xi) = 0 → Σyi - nbo – b1Σxi = 0 Ecuaciones normales Σ(yi - bo - b1xi) = 0 →∑xiyi – bo∑xi - b1Σxi2 = 0

6) De las ec. normales y resolviendo en términos de bo y b1 tendremos: b0 

y

i

n

 b1

x

i

 y  b1 x

n

7) Reemplazando en la segunda ecuación normal.

i

y 

yx

i

 

i

n



 x   x n 

i



( yi )( xi )

yx



yx

  y   x   b  

i i

i

i

n

i

 b1

i

i

n



 x  i

n

x

2 i

2

 b1  xi2  0

 x  



2



i

n



  y   x   

b1 

 b1  x12  0

i

 b1

 xi yi  

i

i

n



 x  x  n

2

i

2 i



  Suma _ de _ productos" xy"  SPxy Suma _ de _ Cuadrados SCx

Resolviendo:

b1 

  x  x  y  y   ( x  x) 1

i

2

i

Donde:

b1 = Coeficiente de regresión xi = Valores de la característica independiente yi = Valores de la característica dependiente

X = Promedio de los valores de la característica independiente Y = Promedio de valores de la característica independiente

Coeficiente de determinación (r2): Mide el porcentaje de la variabilidad de la respuesta que es explicado por la variable predictora para el modelo de regresión supuesto. Su valor va de 0 a 1.

r2 

SCregre . SCtotal

 100%

Coeficiente de correlación (r)

Mide el grado de asociación entre la variable X y la variable Y. Toma valores desde -1 hasta 1. r

SPXY  0,95 SCX .SCY

Varía:

1  r  1

 0,95 indica una elevada correlación(+)

Para interpretar un coeficiente de correlación se debe tener en cuenta: -

Un valor de –1, significa una perfecta correlación negativa, es decir todos los puntos caen sobre una línea con pendiente negativa.

Un valor de +1, significa una perfecta correlación positiva, es decir, todos los puntos caen sobre una línea con pendiente positiva.

Un valor de cero (0), significa no correlación.

Regresión no lineal Modelo cuadrático: 2 Población : yi   0  1 xi   2 xi   i ;.......Donde : i  1;2;...; N

Muestra

2 : yi  b0  b1 xi  b2 xi  ei ;.......Donde : i  1;2;..., n

bo estima al parámetro β0

b1 estima al parámetro β1 b2 estima al parámetro β2 Estimación de los valores estadísticos: b0, b1 y b2 mediante el principio de los mínimos cuadrados.. (1)

yi  b0  b1 xi  b2 xi2  ei

(2) Despejando ei:

ei  yi  b0  b1 xi  b2 xi2



Hacemos

 e   y n

i 1

2 i

n

i 1

i

Elevamos al cuadrado

 b0  b1 xi  b2 xi2



2

Q

Q Q Q  0,  0, 0 b0 b1 b2         

(3).Diferenciamos:

2

1

e igualamos a cero

3

n Q  2 yi  b0  b1 xi  b2 xi2 ( 1)  0 (4) En 1°  b0 i 1





(5) En 2°

Q  2  yi  b0  b1 xi  b2 xi2 (  xi )  0 b1

(6) En 3°

Q  2  yi  b0  b1 xi  b2 xi2  xi2  0 b2











Tenemos: (7) de (4)

y

(8) de (5)

x y

(9) de (6)

x

i

i

2 i

 nb0  b1  xi  b2  xi2  0

i

 b0  xi  b1  xi2  b2  xi3  0

yi  b0  xi2  b1  xi3  b2  xi4  0

(10) de ecuación (7) tenemos:

b0

y 

i

n

 b1

x

i

n

 b2

x

2 i

n

Reemplazando b0 en la ecuación (8) y (9) tenderemos: (11)

x y i

y 

i

 

i

 b1

n



x

i

 b2

n

x



2 i

n

 ( xi )  b1  xi2  b2  xi3  0  

Agrupando:

 

  y   x  

x y

i



x  x  n



2 i

 

 



 x  x    x   n   2 i

 b1  0   b2  i i  n                                   SPXY SCX   SPX . X 2   

i

2 i

3 i

i

(12)

y 

 xi2 y1   

 xi2 yi 

n

i

 b1

x

i

n

( yi )( x ) 2 i

n

 x   x n  2 1

 b2

 b1

2 i



x x

2 i

i

n

 b1  xi3  b2  x i  0

 b2

4

( xi2 ) 2

 b1  xi3  b2  xi4  0

n

Agrupando: 







( yi )( xi2 ) 





( xi )( xi2 ) 

 



( xi2 ) 2 

  b2   x   0  x yi    b1   x         n          n          2 n    SPX Y SPX . X 2 SCX 2       

2 i

3 i

Luego tendremos: (13) De ec. (11): b1SCX  b2 SPX . X 2  SPXY

(14) De ec. (12): b1SPX . X 2  b2 SCX 2  SPX 2Y Resolviendo ec. (13) y (14) para b1 y b2 tendremos (por matrices):

b1 

SPXY SPX 2Y

SPX . X 2 SCX 2

SCX SPX . X 2

SPX . X 2 SCX 2



 SPXY   SCX 2    SPX . X 2  SPX 2 .Y   SCX   SCX 2   ( SPX . X 2 ) 2

4 i

b2 

SCX SPX . X 2

SPXY SPX 2Y

SCX SPX . X 2

SPX . X 2 SCX 2



 SCX   SPX 2Y    SPXY   SPX . X 2   SCX   SCX 2    SPX . X 2  2

Tenemos ecuación de regresión estimada:

yˆi  b0  b1 xi  b2 xi2 .........................  Gráficamente:

Cálculo del punto estacionario: yˆ  0 Derivamos en función de X, de la ecuación (*) x yˆ  b1  2b2 x  0 x De donde obtenemos:

X 

b1 2b2

ˆ ) Punto máximo y mínimo será: (x; y

ANÁLISIS DE VARIANZIA (ANVA)

Hipótesis nula Hipótesis alternante

H 0 : 1   2  0 (No hay regresión parabólica) H a : 1   2  0 (Si hay regresión parabólica)

Cuadro (ANVA) F.V.

G.L.

Regresión

p-1

b1SPXY  b2 SPX 2 .Y SCRe g . / G.LRe g CM Re g / CM Re s

Residual

n-p

SCY  SC REGRESIÓN

Total

n-1

S.C.

SCY   Y

2

C.M.

Y  

Fc

SCRes/G.LRes. 2

n

Regla de decisión: 1º) Si Fc  Ft   p  1 ,  n  p  ;  ; Rechazo H0 (Porque hay significación) 2º) Si Fc  Ft   p  1 ,  n  p  ; 

; Acepto H0 (Porque no hay significación)

Ft

Sign.