TEMA 62.pdf

Tema 62. Series estadísticas bidimensionales. TEMA 62. Series estadísticas bidimensionales. Regresión y correlación lin

Views 117 Downloads 0 File size 416KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Tema 62. Series estadísticas bidimensionales.

TEMA 62. Series estadísticas bidimensionales. Regresión y correlación lineal. Coeficiente correlación. Significado y Aplicaciones 1. Introducción Generalmente cuando se hacen estudios estadísticos de una población estos no se limitan al estudio de una única variable, sino que se estudian más variables. En este tema nos centraremos en el estudio estadístico conjunto de dos variables de una misma población que denotaremos con las letras X e Y. No sólo nos centraremos en las estadísticas individuales de ambas, sino que también la relación entre ellas. Las variables que consideraremos en este tema son sólo cuantitativas, pues las cualitativas no nos permiten establecer relaciones entre las variables. Cuando estudiamos la relación entre las variables X e Y pueden ocurrir tres cosas: -

Variables independientes: no se puede establecer relación afín entre las dos variables, por lo que se pueden considerar independientes. Por ejemplo si estudiamos la altura de la población y el número de horas de sueño.

-

Variables dependientes: cuando al hacer el estudio de las dos variables, X e Y, existe una cierta relación entre ambos. Un ejemplo puede ser el estudio de la altura y el peso de las personas de una población (generalmente más altura implica más peso)

-

Variables con dependencia funcional: existe una relación funcional entre las dos variables, y=f(x). Ejemplos son la relación entre variables físicas. De esta forma mediante un experimento podemos determinar distintas parejas (X,Y) y a partir de las mismas obtenemos una función aproximada (debido error de las medidas) entre x e y.

En este tema trabajaremos con los siguientes datos estadísticos, de notas de matemáticas (variable X) y física (variable Y), de los 20 alumnos de una clase. Las calificaciones de cada alumnos vendrán definidas como las parejas (xi,yi): (3,4), (4,5), (2,2), (4,5), (9,6), (6,7), (2,2), (2,3), (3,4), (3,3), (4,5), (3,4), (4,6), (4,3), (1,1), (3,4), (3,3), (1,1), (5,6), (1,2).

2. Distribución de frecuencias bidimensional. 2.1 Distribución conjunta. Tablas de doble entrada. Distribución marginal. Los datos estadísticos bidimensionales se escriben mediante expresiones de la forma (xi,yi ) donde xi es valor de X e yi es el valor de Y del individuo i-ésimo de la población (supondremos con n individuos). Para organizar los valores los expresamos en una tabla de doble entrada, donde en cada celda podremos el número de individuos con estos valores de X e Y, lo que se denomina frecuencia de dicha pareja, fij. En la tabla ponemos X en las columnas e Y en las filas: X/Y x1 x2 (…) xk Total

y1 f11 f21

y2 f12 f22

fk1 f-1

fk2 f-2

(…)

yp f1p f2p

Total f1f2-

fkp f-p

fkn

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)

1

Tema 62. Series estadísticas bidimensionales. Notación: -

Frecuencia absoluta, fij , es el valor correspondiente al número de veces que aparece p

la pareja de (xi,yj) en la estadística. Se cumple lógicamente

k

∑∑ f

ij

=n

j =1 i =1

-

Frecuencia relativa, frij, se calcula como el cociente entre la frecuencia absoluta entre

f ij

el número de datos: frij =

n

p

Lógicamente se cumple

. Es el tanto por uno de los valores de la pareja (xi,yj ).

k

∑∑ f

ij

=1

j =1 i =1

-

Frecuencia de la distribución marginal de X, fi-, que presenta el número de individuos con valor de X igual a xi , independientemente del valor de Y. Este valor nos permite calcular el estudio de la estadística de la variable X de forma independiente. Se cumple p

lógicamente que f i − =

∑f

ij

j =1

-

Frecuencia de la distribución marginal de Y, f-j, que presenta el número de individuos con valor de Y igual a yj , independientemente del valor de X. Este valor nos permite calcular el estudio de la estadística de la variable Y de forma independiente. Se cumple lógicamente que f − j =

k

∑f

ij

i =1

-

Frecuencias relativas marginales de X e Y: fri − =

f i− (relativa de X); n

fr− j =

f− j n

(relativa de Y). Ejemplo: notas de matemáticas y física donde agruparemos los datos en marcas de clase: X/Y 1-3 4-5 6-10 Total

1-3 8 1 0 9

4-5 4 3 0 7

6-10 0 2 2 4

Total 12 6 2 20

Estudio marginal de X o de Y: se hace a partir de tablas marginales donde tomamos los valores de X y la última fila (marginal de X) o los de Y y la última columna (marginal de Y). En el ejemplo anterior: X 1-3 4-5 6-10 Total

fi12 6 2 20

Y f-J Total

1-3 8 9

4-5 4 7

6-10 0 4

Total 12 20

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)

2

Tema 62. Series estadísticas bidimensionales.

2.2 Distribución condicionada. Dependencia e independencia de variables. Definición: llamamos distribución de frecuencias condicionada de la estadística (X,Y, fij) por xi a la estadística definida como (yj,fij ). Es decir los valores de Y que toma la población con valor de xi fijado. Para trabajar con esta distribución vamos a poner un ejemplo de estadística bidimensional, donde X=resultado de una valoración de la encuesta A={1,2,3} e Y= resultado de una valoración de la encuesta B={1,2,3}. La tabla de doble entrada es: X/Y 1 2 3 Total

1 10 12 30 52

2 15 20 10 45

3 5 10 0 15

Total 30 42 40 112

Una distribución marginal puede ser el estudio de la variable Y cuando x=1 (por ejemplo). La frecuencia relativa condicionada vendrá definida como h j|i = h( y j | x = x j ) =

f ij f i−

p

(siempre que f i − =

∑f

ij

≠ 0 ).

j =1

La tabla condicionada para x=1 será X/Y f-j

h j|1

1 10 0.33

2 15 0.5

3 5 0.17

Total 30 1

X/Y f-j

1 12

2 20

3 10

Total 42

0.24

1

3 0

Total 40

0

1

Para x=2

h j |2

0.29 0.48

Para x=3 X/Y f-j

h j|3

1 30

2 10

0.75 0.25

La frecuencia relativa nos permite relacionar una variable con respecto a los valores de la otra, esto nos permite eliminar interpretaciones falsas. Por ejemplo, el porcentaje de personas que tienen cáncer de pulmón es mayor en personas que no trabajan en la mina que los que trabajan en la mina (pues la mayoría de personas no son mineros). Pero en cuanto estudiamos el porcentaje condicionado veremos que el porcentaje de mineros con cáncer de pulmón relativo al número de mineros es bastante mayor que el porcentaje de personas no mineros que tienen este cáncer.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)

3

Tema 62. Series estadísticas bidimensionales. Podemos ver la dependencia e independencia de las dos variables, X e Y, a partir de las distribuciones condicionales. Veamos cómo se hace esto: a. Dos variables (X,Y) son independientes si las distribuciones condicionales coinciden (o son próximas) las frecuencias relativas marginales: Es decir: h j|i =

f ij f i−

=

f− j n

iguales∀i

Esto implica que la distribución de las frecuencias relativas es independiente de la otra variable muestral. b. Dos variables (X,Y) son dependientes si no son independientes. En el ejemplo anterior vemos que claramente son dependientes pues las frecuencias para x=3 son muy distintas para x=1 o x=2. Proposición: si dos variables X e Y son independientes se cumple la siguiente igualdad:

frij =

f ij n

= fri − · fr− j =

f i− f − j · n n

Demostración: por ser independientes se cumple h j|i =

fri − · fr− j =

f i− · f − j f i− f − j · = n n n2

n· f ij

=

independientes

n

2

=

f ij n

f ij f i−

=

f− j n

→ f i − · f − j = n· f ij

= frij

3. Parámetros estadísticos. 3.1. Distribución condicionada Definición: se llama momento de orden r, s respecto al origen a la expresión

a r ,s =

n 1 (xi )r ·( y j ) s · f ij = ∑ (xa )r ·( y a ) s ∑ n i, j a =1

siendo ( x a , y a ) = característica individuo a

Casos particulares:

ar ,0 =

1 (xi )r · f ij = 1 ∑ (xi )r ∑ f ij = 1 ∑ (xi )r · f i − = momento orden r de X = a r ( xi , f i ) ∑ n i, j n i n i j

a 0,r =

1 ( y i )r · f ij = 1 ∑∑ (y j )r f ij = 1 ∑ (y j )r · f − j = momento orden r de Y = a r ( y j , f j ) ∑ n i, j n i j n j

En los casos anteriores si r=1 tendremos las medias de las dos variables: a10= x , a01= y Definición: se llama momento de orden r, s respecto a la media o central a la expresión

mr ,s =

(

)

(

)

n r r 1 s x − x ·( y − y ) · f = x a − x ·( y a − y ) s ∑ ∑ i j ij n i, j a =1

( x a , y a ) = característica individuo a

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)

4

Tema 62. Series estadísticas bidimensionales. Casos particulares: m00=1; m01 =m10=0

(

)

(

)

(

)(

m2,0 =

2 1 2 xi − x · f ij = (σ x ) (dispersión de x) ∑ n i, j

m0, 2 =

2 1 2 y i − y · f ij = (σ y ) (dispersión de y) ∑ n i, j

m1,1 =

)

1 ∑ xi − x yi − y · f ij = cov( x, y) = σ xy (covarianza) n i, j

Proposición: los momentos centrales de una distribución bidimensional pueden expresarse en función de los momentos respecto el origen. Demostración: sólo hay que ver como las potencias ( xi − x) r y ( y i − y ) s se pueden desarrollar y por tanto poner en función de momentos respecto el origen. Ejemplo:

m1,1 = σ xy =

 1 1 ( xi − x)( y j − y ) f ij =  ∑ f ij xi ·y j + ∑ f ij x·y − ∑ f ij xi ·y − ∑ f ij y i ·x  = ∑ n i, j n  i, j i, j i, j i, j 

= a11 + x·y − x·y − x·y = a11 − x·y = a11 − a10 ·a 01 3.2. Covarianza Uno de los parámetros con más importancia y significado es el momento central de orden 1,1, conocido como covarianza, definido de la siguiente forma:

m1,1 = σ xy =

1 ∑ ( xi − x)( y j − y) f ij = a11 − a10 ·a 01 = a11 − x·y n i, j

Notar que cuando los valores de xi y de yi se separan de los valores de x e y , los dos siendo mayores o los dos menores (producto positivo) entonces la contribución al parámetros es positiva; si xi es mayor que x e yi es menor que y o al revés la contribución es negativa. Es por esto que la covarianza nos informa de la relación entre las dos variables, X e Y: a. Si las variables no tienen relación entre sí habrá tantas contribuciones negativas como positivas en σ xy y por tanto se cumple σ xy ≈ 0 . Por ejemplo si relacionamos la variable X=”altura de la persona”, Y=”horas de sueño” b. Si los datos situados la mayoría gráficamente en la nube de puntos en la diagonal de pendiente positiva (los dos positivos o negativos) entonces σ xy >>0. Las magnitudes se relacionan “de forma directamente proporcional”. Ejemplo: en las notas de matemáticas y física se cumple σ xy =2.6 pues como suele ocurrir el que saca buena nota en Matemáticas lo suele hacer en física o al revés.

Jose Luis Lorente (preparador oposiciones secundaria www.joseluislorente.es)

5

Tema 62. Series estadísticas bidimensionales. c. Si por lo contrario los datos situados mayormente en la diagonal de pendiente negativa (contribuciones negativas a la covarianza) entonces σ xy