Curso: Métodos estadísticos de investigación Profesor: Ingº Antonio Matos Alejandro CURVA DE AJUSTE, REGRESIÓN Y CORREL
Views 100 Downloads 4 File size 208KB
Curso: Métodos estadísticos de investigación Profesor: Ingº Antonio Matos Alejandro
CURVA DE AJUSTE, REGRESIÓN Y CORRELACIÓN Curva de ajuste.Es la relación entre dos ó más variables. Fundamentalmente se da entre dos variables. 1º) Se realiza la colección de datos, los valores de las variables. Ejemplo: Si x e y denotan la estatura y peso de una persona, entonces una muestra de n individuos resultaría en las estaturas x1, x2, ..., xn y los pesos correspondientes y1, y2,..., yn. 2º) Dibujar los puntos (x1, y1); (x2, y2); ……….
Relación lineal
Relación no lineal
1º) Regresión lineal (ecuación de una recta)
Ninguna relación
Y = a + bx
2º) Relación no lineal (curva cuadrática o parabólica)
Y= a + bx + cx2
3º) Ninguna relación entre variables Uno de los propósitos de la curva de ajuste es estimar una de las variables (dependiente) de la otra (independiente). El proceso de estimaciones se conoce como regresión. Regresión Estudia la función matemática que relaciona a la variable dependiente o respuesta, con la o las variables independientes o predictoras o explicativas. Y = f(x1, x2,...., xn)
Ejm. -
Tiempo de vida; depende de la alimentación, del estado físico, de la tranquilidad, etc. En toxicología; los efectos letales de una droga se describen por la regresión del % muertes sobre la cantidad de droga. % de muertes Y causado por la cantidad de droga X. Interesa conocer el grado de dependencia entre: el % de carcasa y el peso vivo de animales; entre el rendimiento de granos (trigo) y la caída de la lluvia, etc. es decir,
como se incrementan o disminuyen los valores de una característica al incrementarse o disminuir los valores de otra característica. - Una característica depende de la otra; ejm. el volumen del pan depende del % de proteína del trigo; la estabilidad del néctar depende del tamaño de partículas así como también de la concentración de estabilizante. La regresión entre dos características puede ser lineal o curvilínea. Lineal (recta): Cuando las variaciones de la característica dependiente están ligadas proporcionalmente con las variaciones de la característica independiente.
Curvilínea (no lineal): Cuando no hay una dependencia de constante proporcionalidad, cuando es cualquier curva.
De acuerdo al número de variables independientes en estudio la regresión puede ser simple o múltiple. Es simple cuando se estudia una sola variable independiente, y es múltiple cuando se estudia dos o más variables independientes. Correlación Estudia el grado de asociación entre la variable respuesta y la o las variables independientes. Se dice que la correlación es simple cuando se estudia una variable
independiente asociada con la variable dependiente. La correlación es parcial cuando en una regresión múltiple estudiamos el grado de asociación de una variable independiente con la variable dependiente o respuesta, permaneciendo las demás variables independientes constantes. Regresión lineal simple La regresión permite estudiar la influencia de una característica respecto de otra, para establecer como varía el promedio de la primera característica al variar la segunda en una unidad de su medida. Se presentan casos como: 1.- Que las medidas o niveles de x sean seleccionados o escogidos por el investigador. Entonces regresión de y sobre x. 2.- Que las medidas o niveles de x sean tomados al azar. Entonces regresión de y sobre x y la x sobre y. Modelo estadístico El modelo poblacional es el siguiente: Yi = β0 + β1Xi + Ei i =1, 2, 3,......., n población Donde: Yi = Xi = βo = β1= Ei=
Variable dependiente o respuesta Variable independiente, predictoras o explicativas Intersección de la recta con el eje y, cuando x = 0 Coeficiente de regresión o pendiente de la recta Error o residual; independientes
Ei, es una variable aleatoria tomada de una distribución normal, con media cero y variancia σ2, esto es, N(0, σ2). Estimación del modelo: Yi = β0 + β1Xi + Ei población. yi = b0+ b1xi + ei
muestra.
i = 1; 2; 3;…….; n.
Donde: b0 es el estimador de β0 (b0 β0): b0 = ˆ0 b1 es el estimador de β1 (b1 β1): b1 = ˆ 1
La población de valores de y correspondiente a una x seleccionada tiene una media µ que yace en la recta: µ = β0 + β1xi Donde: β0 y β1 son parámetros Yi = β0 + β1Xi + Ei Yi =
µy.x + Ei
Estimación de parámetros Método de los mínimos cuadrados: Este método permite obtener los valores estimados de β 0 y β1 de modo que la suma de los errores al cuadrado sea mínima, es decir, de lo que se trata es de calcular b 0 y b1 de modo que: 1) Dado el modelo: yi = bo+ bix1+ ei .................(1) i= 1, 2, 3,......n Se determinará bo y b1 para ubicar la recta de regresión estimada: yi = bo+ bix1 2) De la ec. (1), despejamos ei para minimizar la expresión ei = yi - bo - bixi ---------(2) 3) Σei2 = Σ (yi - bo – b1xi)2 = Q ---------(3) 4) Derivando la ec. (3) con respecto a bo, b1 tendremos: dQ = 2Σ (yi - bo – b1xi) (-1) dbo dQ = 2Σ(yi – bo - b1xi) (-xi) db1 Luego igualando a 0: dQ =0 y dbo
dQ =0 db1
Resolviendo ambas ecuaciones con respecto a bo y b1, tendremos:
5) Σ(yi - bo - b1xi) = 0 → Σyi - nbo – b1Σxi = 0 Ecuaciones normales Σ(yi - bo - b1xi) = 0 →∑xiyi – bo∑xi - b1Σxi2 = 0
6) De las ec. normales y resolviendo en términos de bo y b1 tendremos: b0
y
i
n
b1
x
i
y b1 x
n
7) Reemplazando en la segunda ecuación normal.
i
y
yx
i
i
n
x x n
i
( yi )( xi )
yx
yx
y x b
i i
i
i
n
i
b1
i
i
n
x i
n
x
2 i
2
b1 xi2 0
x
2
i
n
y x
b1
b1 x12 0
i
b1
xi yi
i
i
n
x x n
2
i
2 i
Suma _ de _ productos" xy" SPxy Suma _ de _ Cuadrados SCx
Resolviendo:
b1
x x y y ( x x) 1
i
2
i
Donde:
b1 = Coeficiente de regresión xi = Valores de la característica independiente yi = Valores de la característica dependiente
X = Promedio de los valores de la característica independiente Y = Promedio de valores de la característica independiente
Coeficiente de determinación (r2): Mide el porcentaje de la variabilidad de la respuesta que es explicado por la variable predictora para el modelo de regresión supuesto. Su valor va de 0 a 1.
r2
SCregre . SCtotal
100%
Coeficiente de correlación (r)
Mide el grado de asociación entre la variable X y la variable Y. Toma valores desde -1 hasta 1. r
SPXY 0,95 SCX .SCY
Varía:
1 r 1
0,95 indica una elevada correlación(+)
Para interpretar un coeficiente de correlación se debe tener en cuenta: -
Un valor de –1, significa una perfecta correlación negativa, es decir todos los puntos caen sobre una línea con pendiente negativa.
Un valor de +1, significa una perfecta correlación positiva, es decir, todos los puntos caen sobre una línea con pendiente positiva.
Un valor de cero (0), significa no correlación.
Regresión no lineal Modelo cuadrático: 2 Población : yi 0 1 xi 2 xi i ;.......Donde : i 1;2;...; N
Muestra
2 : yi b0 b1 xi b2 xi ei ;.......Donde : i 1;2;..., n
bo estima al parámetro β0
b1 estima al parámetro β1 b2 estima al parámetro β2 Estimación de los valores estadísticos: b0, b1 y b2 mediante el principio de los mínimos cuadrados.. (1)
yi b0 b1 xi b2 xi2 ei
(2) Despejando ei:
ei yi b0 b1 xi b2 xi2
Hacemos
e y n
i 1
2 i
n
i 1
i
Elevamos al cuadrado
b0 b1 xi b2 xi2
2
Q
Q Q Q 0, 0, 0 b0 b1 b2
(3).Diferenciamos:
2
1
e igualamos a cero
3
n Q 2 yi b0 b1 xi b2 xi2 ( 1) 0 (4) En 1° b0 i 1
(5) En 2°
Q 2 yi b0 b1 xi b2 xi2 ( xi ) 0 b1
(6) En 3°
Q 2 yi b0 b1 xi b2 xi2 xi2 0 b2
Tenemos: (7) de (4)
y
(8) de (5)
x y
(9) de (6)
x
i
i
2 i
nb0 b1 xi b2 xi2 0
i
b0 xi b1 xi2 b2 xi3 0
yi b0 xi2 b1 xi3 b2 xi4 0
(10) de ecuación (7) tenemos:
b0
y
i
n
b1
x
i
n
b2
x
2 i
n
Reemplazando b0 en la ecuación (8) y (9) tenderemos: (11)
x y i
y
i
i
b1
n
x
i
b2
n
x
2 i
n
( xi ) b1 xi2 b2 xi3 0
Agrupando:
y x
x y
i
x x n
2 i
x x x n 2 i
b1 0 b2 i i n SPXY SCX SPX . X 2
i
2 i
3 i
i
(12)
y
xi2 y1
xi2 yi
n
i
b1
x
i
n
( yi )( x ) 2 i
n
x x n 2 1
b2
b1
2 i
x x
2 i
i
n
b1 xi3 b2 x i 0
b2
4
( xi2 ) 2
b1 xi3 b2 xi4 0
n
Agrupando:
( yi )( xi2 )
( xi )( xi2 )
( xi2 ) 2
b2 x 0 x yi b1 x n n 2 n SPX Y SPX . X 2 SCX 2
2 i
3 i
Luego tendremos: (13) De ec. (11): b1SCX b2 SPX . X 2 SPXY
(14) De ec. (12): b1SPX . X 2 b2 SCX 2 SPX 2Y Resolviendo ec. (13) y (14) para b1 y b2 tendremos (por matrices):
b1
SPXY SPX 2Y
SPX . X 2 SCX 2
SCX SPX . X 2
SPX . X 2 SCX 2
SPXY SCX 2 SPX . X 2 SPX 2 .Y SCX SCX 2 ( SPX . X 2 ) 2
4 i
b2
SCX SPX . X 2
SPXY SPX 2Y
SCX SPX . X 2
SPX . X 2 SCX 2
SCX SPX 2Y SPXY SPX . X 2 SCX SCX 2 SPX . X 2 2
Tenemos ecuación de regresión estimada:
yˆi b0 b1 xi b2 xi2 ......................... Gráficamente:
Cálculo del punto estacionario: yˆ 0 Derivamos en función de X, de la ecuación (*) x yˆ b1 2b2 x 0 x De donde obtenemos:
X
b1 2b2
ˆ ) Punto máximo y mínimo será: (x; y
ANÁLISIS DE VARIANZIA (ANVA)
Hipótesis nula Hipótesis alternante
H 0 : 1 2 0 (No hay regresión parabólica) H a : 1 2 0 (Si hay regresión parabólica)
Cuadro (ANVA) F.V.
G.L.
Regresión
p-1
b1SPXY b2 SPX 2 .Y SCRe g . / G.LRe g CM Re g / CM Re s
Residual
n-p
SCY SC REGRESIÓN
Total
n-1
S.C.
SCY Y
2
C.M.
Y
Fc
SCRes/G.LRes. 2
n
Regla de decisión: 1º) Si Fc Ft p 1 , n p ; ; Rechazo H0 (Porque hay significación) 2º) Si Fc Ft p 1 , n p ;
; Acepto H0 (Porque no hay significación)
Ft
Sign.