correlacion

ANALISIS DE CORRELACIÓN El análisis de correlación es la herramienta estadística que podemos usar para describir el grad

Views 206 Downloads 0 File size 664KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ANALISIS DE CORRELACIÓN El análisis de correlación es la herramienta estadística que podemos usar para describir el grado en el que una variable está linealmente relacionada con otra. El análisis de correlación se utiliza junto con el de regresión para medir que tan bien la línea de regresión explica los cambios de la variable independiente Y. También puede usarse la correlación para medir el grado de asociación que existe entre dos variables. Los estadísticos han desarrollado dos medidas para describir la correlación entre dos variables:  

El coeficiente de determinación. El coeficiente de correlación.

ELCOEFICIENTE DE DETERMINACIÓN. El coeficiente de determinación es la principal forma en que podemos medir el grado, o fuerza, de las asociación que existe entre dos variables X y Y. El coeficiente de determinación muestral se deriva de la relación entre dos tipos de variación: la variación de los valores Y en un conjunto de datos alrededor de: 1. La recta de regresión lineal. 2. Su propia media. 3. El término de variación en estos dos casos se utiliza en su sentido estadístico usual para expresar “la suma de los cuadrados de un grupo de desviaciones”. Usando esta definición, entonces, es razonable expresar la variación de los valores Y de la recta de regresión con esta ecuación: VARIACIÓN DE LOS VALORES DE Y ALREDOR DE LA RECTA DE REGRESIÓN Variación de los valores de Y alrededor de la recta de regresión:



̂

La segunda variación, de los valores de Y alrededor de su propia media, está determinada por: VARIACIÓN DE LOS VALORES DE Y ALREDEDOR DE SU PROPIA MEDIA Variación de los valores de Y de su propia media



̅

Uno menos la razón entre estas dos variaciones es el coeficiente de determinación muestral, que se denota por : COEFICIENTE DE DETERMINACIÓN MUESTRAL ∑

̂



̅

Las siguientes dos secciones mostraremos que r2, según la definición de la ecuación anterior, es una medida del grado de asociación lineal entre X y Y.

UNA INTERPRETACIÓN INTUITIVA DE r2 Considera las dos formas extremas en las que las variables X y Y puede relacionarse. En la tabla siguiente, cada valor observado de Y cae en la línea de estimación, como puede verse en la gráfica. Punto de datos 1 2 3 4 5 6 7 8

Valor de X 1 2 3 4 5 6 7 8

Valor de Y 4 8 12 16 20 24 28 32 ∑

̅ ESTA ES UNA CORRELACIÓN PERFECTA 36 32 28 24 20 16 12 8 4 0 0

1

2

3

4

5

6

7

8

9

La ecuación de estimación apropiada para estos datos es fácil de determinar. Dado que la recta de regresión pasa por el origen, sabemos qué Y es cero; como Y se incrementa en 4 cada vez que x se incrementa 1, la pendiente debe ser igual a 4. Por lo tanto, la recta de regresión es: ̂ Ahora para establecer el coeficiente de determinación de la muestra para la recta de regresión de la figura anterior, primero calculamos el numerador de la fracción en la ecuación del coeficiente de determinación muestral. Calculando Y alrededor de la recta de regresión: ∑

̂



Calculando Y alrededor de su propia media: ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑

̅

Al sustituir los resultados en la ecuación, podemos encontrar el coeficiente de determinación de la muestra:

TAREA. Punto de datos6 1 2 3 4 5 6 7 8

Valor de X 1 1 3 3 5 5 7 7

Valor de Y 6 12 6 12 6 12 6 12

r2 se encontrara entre esos dos extremos de 1 y 0. Pero no se olviden que un r 2 cercano a 1 indica una fuerte correlación entre X y Y, mientras que un r2 cercano a 0 significa que esas dos variables tienen poca correlación. Un punto en que hemos de insistir mucho es que r 2 mide exclusivamente la fuerza de una relación lineal entre dos variables.

OTRA MANERA DE INTERPRETAR r

2

Un valor observado de la variable dependiente (Y)

Desviación inexplicada de esta Y respecto de su media 𝑌̅ 𝑌 𝑌̂

Y

Desviación total de esta Y respecto de su media 𝑌̅ (𝑌 𝑌̅ 𝑌̅

Desviación explicada de esta Y respecto de su media 𝑌̅ 𝑌̂ 𝑌̅

Valor de estimación de esta Y a partir de la línea de regresión (𝑌̂ )

X

Para interpretar el coeficiente muestral de determinación examinando la magnitud de la variación de Y que es explicada por la línea de regresión. Con objeto de entender el significado de r2, observemos la línea de regresión de la figura anterior. Aquí hemos escogido un valor observado de Y que aparece en el círculo superior. Si usamos la media de los valores de Y, ̅ , para estimar ese valor de y, entonces la desviación total de Y ̅ . Nótese que, si usáramos la línea de regresión para estimar respecto a su media será dicho valor de Y, conseguiríamos una mejor estimación. Sin embargo, aun cuando la línea de ̂ . regresión explica ̂ ̅ de la desviación total, la parte restante de la desviación total,

Pero consideremos un conjunto entero de valores observados de Y y no sólo uno. La variación total, o sea la suma de los cuadrados de las desviaciones totales, de esos puntos respecto de su media será: ∑

̅

y la parte inexplicada de la variación (la suma de los cuadrados de las desviaciones no explicadas) de estos puntos de la línea de regresión será: ̂



y por último, si restamos a 1 la fracción de la variación total que queda sin explicar, tendremos la formula con que calculamos la fracción de la variación total de Y, la cual es explicada por la línea de regresión. ∑( ∑

̂) ̅

o sea la misma ecuación que hemos aplicado antes para calcular r2. Asi pues, es en este sentido que r2 mide la eficiencia con que X explica Y; es decir, el grado de asociación entre ellas. Para obtener r2 mediante las ecuaciones se requiere una serie de cálculos tediosos. Con el propósito de no tener que hacerlos, se han ideado una versión abreviada, empleando valores que ya habrían obtenido en el análisis de regresión. La fórmula es: ∑

̅

∑ ∑

Dónde: r2= Coeficiente muestral de la determinación. a= Intersección en Y b= Pendiente de la línea de estimación n= Número de datos X= Valores de la variable independiente. Y= Valores de la variable dependiente. ̅ = Media de los valores de la variable dependiente.

̅

Ejemplo. Aplicaremos esta fórmula del método abreviado, a nuestra regresión anterior que relaciona los gastos de investigación y desarrollo con las utilidades. En la tabla siguiente hemos repetido las columnas ya antes calculadas y agregando una columna Y 2. AÑO 1986 1985 1984 1983 1982 1981

GASTOS EN UTILIDAD INVESTIGACION ANUAL (Y) 5 11 4 5 3 2

31 40 30 34 25 20 ∑X=30

∑Y=180

XY

X2

155 440 120 170 75 40

25 121 16 25 9 4

∑XY=1,000

Y2

∑X2=200

Recordemos que, cuando calculamos los valores de a y b, de la línea de regresión de este problema fue descrita por: ̂

EL COEFICIENTE DE CORRELACIÓN El coeficiente de correlación es la segunda medida con que puede describirse la eficiencia con que una variable es explicada por otra. Cuando estamos trabajando con muestras, el coeficiente muestral de correlación se denota con r y es la raíz cuadrada del coeficiente de determinación: √ Cuando la pendiente de la ecuación de estimación es positiva, r es la raíz cuadrada positiva; pero si b es negativa, r es la raíz cuadrada negativa. Así pues, el signo de r indica la dirección de la relación entre las dos variables X y Y. Si existe una relación inversa estos es, si Y disminuye al aumentar X, entonces r caerá entre 0 y -1. De manera similar, si existe una relación directa (si Y aumenta al aumentar X), entonces r será un valor en el intervalo de 0 a 1 la siguiente figura ilustra estas características de r.

El coeficiente de correlación es más difícil de interpretar que r2 suponiendo r=0.9 es lo mismo que r2= 0.81, este último nos dice que el 81% de la variación Y es explicada por la recta de regresión. Vamos que r es solo la raíz cuadrada y su significado es que tanto se relaciona X y Y por lo tanto que r=0.9 significa que el 90% de los datos se relacionan entre sí. Ejemplo. Ahora calcularemos el coeficiente de correlación del problema que relación los gastos de investigación y desarrollo con las utilidades anuales. En la sección anterior descubrimos que el coeficiente muestral de determinación es r2=0.866, por lo cual podemos sustituir este valor en la ecuación. INFERENCIAS SOBRE LOS PARAMETROS DE LA POBLACIÓN. Hasta ahora hemos empleado los análisis de regresión y correlación para relacionar dos variables a partir de la información referente a la muestra. Pero estos datos representan únicamente una parte de la población total. Por ello podemos concebir la línea de regresión estimada de la muestra como una estimación de la línea de regresión verdadera, pero desconocida, de la población con la siguiente forma

Recuérdese lo dicho acerca del director del departamento de salubridad que trataba de usar la edad de un camión para explicar los gastos anuales de su reparación. Ese gasto probablemente conste de dos partes: 1. El mantenimiento regular que no depende de la edad del camión: afinaciones, cambios de aceite y lubricación. Este gasto se observa en el término intersección A en la ecuación anterior. 2. Los gastos por reparación debidas el envejecimiento: realineación de los frenos, reparación general del motor y la transmisión así como la pintura. Tales gastos tendrán a aumentar con la edad del camión y se incluye en termino BX. Claro está que no todos los frenos de todos los camiones se desgastaran al mismo tiempo, algunos de los camiones funcionaran durante años sin revisiones de motor. Debido a estos, los puntos individuales probablemente no caerán exactamente en la recta de regresión de población de población. Algunos estarán arriba otros abajo, así que en lugar de satisfacer la ecuación anterior los puntos individuales satisfarán la siguiente formula:

Donde e es una perturbación o variación aleatoria de la recta de regresión. En promedio e es igual a 0, porque las variaciones arriba de la recta de regresión poblacional se anulan con las variaciones debajo de esa recta. Podemos expresar esa desviación estándar de estas variaciones individuales mediante es una estimación de

el error estándar de la estimación

entonces,

, la desviación estándar de las variaciones.

Analizando las dos ecuaciones la ecuación expresa los valores de Y (gasto anual) en términos de los valores individuales de X (antigüedad de los camiones) y la variación (e). Puesto que las variaciones arriba de la recta de regresión de población se anulan por aquellas situadas abajo, sabemos que el valor esperado de e es cero, y vemos que si tuviéramos varios camiones de la misma antigüedad, X, esperaríamos que el gasto anual de reparación para estos camiones fuera . Esto nos muestra que la recta de regresión de la población proporciona el valor medio de Y asociado con cada valor de X. Puesto que nuestra recta de regresión de la muestra ̂ , estima la recta de regresión de la población, Y=A+BX, deberías poder usarla para hacer inferencia acerca de la recta de regresión de la población. Entonces, en esta sección haremos inferencias respecto a la pendiente B de la ecuación de regresión “verdadera” (de toda la población), basadas en la pendiente b de la ecuación de regresión estimada a partir de una muestra de valores.

Pendiente de la recta de regresión. La recta de regresión se deriva de una muestra y no de una población. Como resultado, no podemos esperar que la ecuación de la recta de regresión, (de toda la población), sea exactamente la misma que la ecuación estimada a partir de observaciones de la muestra, o ̂ . Aun así, podemos usar el valor de b, la pendiente que calculamos a partir de una muestra para probar la hipótesis respecto al valor de B, la pendiente de la recta de regresión para toda la población. Para comprender este proceso, regresaremos al problema de la relación entre los gastos anuales de investigación y desarrollo, y la las ganancias, donde señalamos que b=2. El primer paso es escoger un valor de B con el fin de compararlo con b=2. Supongamos que durante un periodo extenso la pendiente de la relación entre X y Y fue 2.1. Para probar si este es todavía el caso, podríamos definir la hipótesis como:

Para encontrar el estadístico de prueba par B, es necesario primero encontrar el error estándar del coeficiente de regresión. Aquí, el coeficiente de regresión con el que estamos trabajando es b, así que el error estándar de este coeficiente se expresa como S b. Error estándar de b

√∑

̅̅̅̅

Dónde: Sb=Error estándar del coeficiente de regresión. Se=Error estándar de la estimación. X=Valores de la variable independiente. ̅ =Media de los valores de la variable independiente n=Número de datos. Una vez calculado Sb, podemos utilizar la siguiente ecuación para estandarizar la pendiente de nuestra ecuación de regresión:

Valor estandarizado de b

Dónde: b=Pendiente de la regresión ajustada. = Pendiente real hipotética para la población. Sb=Error estándar del coeficiente de regresión. Recordando que utilizando el método abreviado para calcular Se nos da de la siguiente manera: √ Se=3.24 Ahora podemos determinar el error estándar del coeficiente de regresión:

√∑

̅̅̅̅

Ahora usamos el error estándar del coeficiente de regresión para calcular el estadístico de prueba estandarizado:

Supongamos que tenemos razones para probar nuestra hipótesis al 10% de nivel de significancia. Como tenemos seis observaciones en nuestra muestra, sabemos que tenemos 4 grados de libertad, consultando la tabla 2 bajo la columna del 10% y bajamos hasta encontrar el renglón 4. Allí vamos que el valor de t adecuado es 2.132. Puesto que no interesa si b (la pendiente de la recta de regresión de la muestra) es significativamente diferente a B (la pendiente hipotética de la recta de regresión de la población), esta es una prueba de dos colas, y los valores críticos son ± 2.132. El coeficiente de regresión estandarizado es -0.217, que está dentro de la región aceptada de nuestra prueba de hipótesis. Por lo tanto aceptamos la hipótesis nula de que B sigue siendo igual a 2.1. En otras palabras, no existe suficiente diferencia entre b y 2.1 para que concluyamos que B ha cambiado de su valor histórico. Por esto, sentimos que cada millón de dólares

adicionales gastado en investigación y desarrollo todavía aumentara las ganancias anuales aproximadamente $2.1 millones, como sucedía en el pasado. Además de la prueba de hipótesis también podemos construir un intervalo de confianza para el valor de B. De la misma forma que b es una estimación puntual de B, estos intervalos de confianza son estimaciones de intervalo de B. El problema que acabamos de resolver, y para el cual hicimos una prueba de hipótesis, ilustrara el proceso de construir un intervalo de confianza. Encontramos que: b=2.0 Sb=0.46 t=2.132 Con esta información podemos calcular los intervalos de confianza como:

b ± t (Sb)