Soluciones 2 Ejercicios Propuestos Tema 2

15/10/2018 1.- Complete la siguiente tabla. X\Y Intervalo 1 3 6 8 ni. fi. ai. di. xi. 0 2 1 2 2 2 2 8

Views 122 Downloads 3 File size 918KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

15/10/2018

1.- Complete la siguiente tabla.

X\Y Intervalo

1

3

6

8

ni.

fi.

ai.

di.

xi.

0

2

1

2

2

2

2

8

0,200

2

4

2

5

3,5

0

1

3

5

9

0,225

3

3

5

9

7

2

5

6

1

14

0,35

4

3,5

9

13

11

5

1

0

3

9

0,225

4

2,25

9

9

11

11

40

1,00

n.j f.j

0,225 0,225 0,275 0,275

1,00

1

2.-Una pareja quiere comprar un piso, de manera que visita un total de 50 pisos, obteniendo la siguiente información acerca del precio (Y, en miles de euros) y la superficie (X, en m 2):

a) Obtenga la media y la varianza de X y de Y, y la covarianza para (X,Y). Interprete el resultado de las medidas calculadas. ¿Qué media es más representativa?

5490 636700 2  109,8 S X2   109,8  677,96 50 50 13203,8 3624618 2 Y   264,076 SY2   264,076   2756,23 50 50 1510309 S XY   109,8  264,076  1210,64 50 677,96 2756,23 Cv ( X )   0,2371 Cv (Y )   0,1988 109,8 264,076 X

La distribución de la variable Y (precio) presenta menos dispersión relativa que la distribución de la variable X (superficie). Dado que Sxy>0 , tenemos que las variables no son independientes y presentan una tendencia lineal creciente: incrementos (o decrementos) de una variable están asociados a incrementos (o decrementos) de la otra. 2

1

15/10/2018

b) Suponiendo que existe una relación lineal entre el precio de los pisos y su superficie, utilice la recta de regresión para predecir el precio de un piso de 125 m2 y comente la bondad del ajuste. ¿Cuál es la interpretación de la pendiente de la recta que ha utilizado?

S 1210,64   b  XY2   1,7857  Y  a  bX   SX 677,96 a  Y  bX  264,076  1,7857 109,8  68,006 2 1210,64  0,7843 S XY  2 2 S X SY 677,96  2756,23  X  125  Y  68,006  1,7857 125  291,219 2

R2 

Utilizando un ajuste lineal, la superficie de la vivienda es capaz de explicar el 78,43% de la variabilidad de los precios. Si incrementamos la superficie de la vivienda en 1 m2 obtendríamos un incremento medio del precio medio de la vivienda de 1.785,7 euros. 3

3.- Se tiene la siguiente información sobre el salario familiar (X), en cientos de euros, y los metros cuadrados de la vivienda principal (Y) de un conjunto de familias. X\Y 5-9 9-11 11-13 13-16 16-20

60 5 9 7 5 1

90 120 180 2 0 0 6 3 1 20 10 5 15 20 10 5 10 6

xn y n

i i.

i

j .j

 1864  15060

 x n  25931,5  y n  1818000

j

2 i i.

i

2 j .j

j

x y n i

j ij

 206445

i, j

a) Calcule el intervalo salarial modal. b) ¿En cuál de las dos variables la media es más representativa? c) Se va a dar una subvención a aquellas familias cuyo salario sea inferior a 1150€. Halle el porcentaje de familias que recibirán la subvención. d) Halle la recta que relaciona ambas variables y pronostique el tamaño medio de una vivienda para una familia que con un salario medio de 1500€, ¿es fiable esa predicción? Si aumentan los salarios en 100€, ¿en cuánto variarían los m2 de la vivienda?

2

15/10/2018

a) Calcule el intervalo salarial modal.

a)

Para obtener el intervalo modal calculamos la distribución marginal de los salarios y la densidad de frecuencia (ya que los intervalos no son de la misma longitud): X\Y

60 90 120 180

5-9 9-11 11-13 13-16 16-20 Total

5 9 7 5 1

2 6 20 15 5

0 3 10 20 10

0 1 5 10 6

ni (salarios)

ai (salarios)

7 19 42 50 22 140

4 2 2 3 4

di (salarios) (ni/ ai) 1,75 9,50 21,00 16,67 5,50

El intervalo modal es [11 ; 13] por tener mayor densidad de frecuencias (42/2=21)

b) ¿En cuál de las dos variables la media es más representativa?

b) 1864 25931,5  13,31 S x2   (13,31) 2  8,07 S x  2,84 140 140 15060 1818000 Y   107,57 S y2   (107,57) 2  1414,41 S y  37,61 140 140 S 2,84 Cv X  x   0,2134 X 13,31 Sy 37,61 CvY    0,3496 Y 107,57 X

La media es más representativa para la variable X al presentar una dispersión relativa (Cv=0,2134) inferior a la de la variable Y (Cv=0,3496)

3

15/10/2018

c) Se va a dar una subvención a aquellas familias cuyo salario sea inferior a 1150€. Halle el porcentaje de familias que recibirán la subvención.

c)

El percentil deja por detrás un α% de la distribución



11,5

11

X 5-9 9-11 11-13 13-16 16-20 Total

Se trata de determinar α de forma que el percentil Pα sea igual a 11,5

ni Ni 7 7 19 26 42 68 50 118 22 140 140

P

13

percentil 

0  1

P  11,5 Sea   N  W W  26 (11,5  11)  42  2  11,5  W   26  36,5 42 2 W 36,5    0,2607 N 140 P  11 

Supuesta una distribución homogénea dentro el intervalo 11-13, tendremos que el 26,07% de las familias tendrán salarios inferiores a 1150 € y por tanto pueden recibir la subvención.

d) Halle la recta que relaciona ambas variables y pronostique el tamaño medio de una vivienda para una familia que con un salario medio de 1500€, ¿es fiable esa predicción? Si aumentan los salarios en 100€, ¿en cuánto variarían los m2 de la vivienda?.

d)

S xy   b 2 Y  a  bX   Sx  a  Y  bX 

R2 

Recordando lo realizado en el apartado b) solo necesitamos calcular Sxy.

206445  13,31 107,57  42,85 140 42,85   b  5,31  8,07   Y  37,03  5,31X a  107,71  5,31 13,31  37,03  Si X  15  Y  37,03  5,31 15  116,68 m 2 Si X  1  Yˆ  b  X  5,31 m 2 S xy 

R2 

42,852 8,07 1414,41

 0,1609

S xy2 S x2  S x2

Para un salario de 1500€ obtenemos una estimación de tamaño de vivienda de 116,68 m2. Así mismo, un incremento de 100€ (una unidad de la variable X) supone que la estimación crecería en 5,31 m2 (el valor de la pendiente de la recta). En cualquier caso, estas estimaciones hay que tomarlas con cautela por cuanto el grado de ajuste es bajo. La regresión solo logra explicar el 16,09% de la varianza de Y

4

15/10/2018

4.- En el primer trimestre de 2006, según la Encuesta de Población Activa en España, la distribución de las personas en paro según edad y tiempo de búsqueda de empleo era la siguiente:

Edad

De 16 a 19 años De 19 a 24 años De 24 a 54 años De 54 a 65 años

Tiempo de búsqueda de empleo Hasta 1 año De 1 a 2 años 116.100 15.700 215.700 32.800 835.000 176.700 59.400 19.200

Más de 2 años 5.100 18.300 191.600 44.900

a) Construya un gráfico de sectores para representar la distribución marginal de los desempleados según su edad. b) ¿Por debajo de qué edad están el 75% de los desempleados que llevan entre 1 y 2 años buscando empleo? c) Estamos interesados en elaborar un Programa de Intervención Juvenil para desempleados de 24 o menos años y llevan hasta 2 años buscando trabajo. Considerando únicamente esa población, ¿son independientes la edad y el tiempo de búsqueda de empleo?

a)

Edad

Tiempo de búsqueda de empleo Menos de 1 Entre 1 y 2 Más de 2 año años años De 16 a 19 116.100 15.700 5.100 años De 19 a 24 215.700 32.800 18.300 años De 24 a 54 835.000 176.700 191.600 años De 54 a 65 59.400 19.200 44.900 años marginal 1.226.200 244.400 259.900 tiempo

marginal edad

fi

grados

136.900

0,08

28

266.800

0,15

56

1.203.300

0,70

250

123.500

0,07

26

1.730.500

1,00

360

Distribución de los desempleados según edad 7% 8% De 16 a 19 años 15%

De 19 a 24 años De 24 a 54 años De 54 a 65 años

70%

5

15/10/2018

b) Debemos calcular el Percentil del 75% de solo los desempleados incluidos en el grupo de tiempo de búsqueda entre 1 y 2 años (segunda columna de la tabla general): 0,75N=0,75∙244.400=183.300. La observación 183.300º se encuentra en el intervalo (24 , 54] (ver columna frecuencias acumuladas) edad De 16 a 19 años De 19 a 24 años De 24 a 54 años De 54 a 65 años

P75  Li 1 

ni 15.700 32.800 176.700 19.200 244.400

Ni 15.700 48.500 225.200 244.400

0,75 N  N i 1 183300  48500 ai  24  30  46,9 años ni 176700

c) Debemos analizar la tabla de las frecuencias relativas conjuntas y la tabla del producto de las frecuencias relativas marginales a los efectos e comprobar si f ij  f i.  f . j Pero en este caso, nos vamos a limitar solo a los casos correspondientes a las edades inferiores a 24 años con tiempo de búsqueda también inferior a 2 años. FRECUENCIAS ABSOLUTAS Menos de Entre 1 y 1 año 2 años De 16 a 116.100 15.700 131.800 19 años De 19 a 215.700 32.800 248.500 24 años 331.800 48.500 380.300

FRECUENCIAS RELATIVAS Menos de Entre 1 y 1 año 2 años De 16 a 0,3053 0,0413 0,3466 19 años De 19 a 0,5672 0,0862 0,6534 24 años 0,8725 0,1275 1,0000

En estricto sentido, el producto de las frecuencias marginales es distinto de las frecuencias relativas conjuntas, por lo que diríamos que no son independientes. No obstante, las diferencias son de tan escasa magnitud que si aplicásemos las técnicas estadísticas precisas (Test de independencia, lo que sobrepasa el nivel de esta asignatura) llegaríamos a la conclusión de que ambas variables son independientes.

PRODUCTOS DE LAS FRECUENCIAS MARGINALES Menos de Entre 1 y 1 año 2 años De 16 a 0,3024 0,0442 19 años De 19 a 0,5701 0,0833 24 años

6

15/10/2018

5.- Dada la siguiente distribución de frecuencias de 200 empresas, en las que X es el gasto corriente y la variable Y es el coste de personal: a) Establezca una relación lineal  xi ni  14870 X\Y 30 35 40 50 60 que intente explicar los gastos 50 6 5 2 0 0 de personal a partir del gasto  xi2ni  1129100 60 10 7 3 1 0 corriente. y n  7255  j j 70 25 20 13 6 1 b) Explique razonadamente la  y 2j n j  273325 80 23 19 15 8 3 fiabilidad del resultado 90 10 10 7 5 1 alcanzado.  xi y j nij  542150 Y  a  bX

siendo b 

S XY S X2

; a  Y  bX

14870 1129100 2  74,35 S X2   74,35  117,5775 200 200 7255 273325 2 Y   36,275 SY2   36,275  50,7494 200 200 X

S XY 

542150  74,35  36,275  13,70375 200

13,70375  0,1166 117,5775 a  36,275  0,1166  74,35  27,61

b

R2 

(13,70375) 2  0,0315 117,5775  50,7494

El grado de ajuste es muy bajo ya que la regresión solo logra explicar el 3,15% de la varianza de Y. Esto es, conocer la variable X (gasto corriente) solo permite explicar el 3,15% de las diferencias encontradas entre los 200 valores observados de Y (gastos de personal).

6.- Una empresa de publicidad ha clasificado las campañas del último año en la siguiente tabla de correlación, en la que se recoge el número de campañas según las variables Duración: número de días en que ha estado activa la campaña. Coste: presupuesto empleado en la campaña (en euros). Duración 15 – 30 30 – 50 50 – 90

500 - 1000 12 8 0

Coste 1000 - 5000 14 22 8

5000 - 10000 6 11 9

a) Calcule la duración media de las campañas. Sumando por filas obtenemos la distribución marginal de la variable duración (X): Duración 15 – 30 30 – 50 50 – 90 Total

D

xi 22,5 40 70

ni 32 41 17 90

22,5  32  40  41  70 17 3550   39,5 90 90

7

15/10/2018

b) Obtenga el coste máximo del 40% de las campañas con menor coste. Sumando por columnas obtenemos la distribución marginal de la variable coste (Y): Coste

yi

ni

Ni

500 – 1000 1000 – 5000 5000 – 10000 Total

750 3000 7500

20 44 26 90

20 64 90

Y ahora calculamos el percentil del 40%:

0,4 N  0,4  90  36

La observación 36ª pertenece al intervalo 1000-5000:

P40  1000 

36  20  4000  2454,5 44

c) Indique cuál es la duración más frecuente. Duració n 15 – 30 30 – 50 50 – 90 Total

xi

ni

ai

di

22,5 40 70

32 41 17 90

15 20 40

2,13 2,05 0,425

Calculamos la densidad de frecuencias (frecuencia/amplitud). El intervalo modal (más frecuente) será el de mayor densidad: de 15 a 30 días

d) Construya las distribuciones de frecuencias relativas condicionadas de la variable coste para una duración 15-30 y para una duración 30-50. ¿Son independientes las variables coste y duración? Coste 500 – 1000 1000 – 5000 5000 – 10000 Total

Duración 15-30 nj/i=1 fj/i=1 12 14 6 32

0,375 0,4375 0,1875 1

Duración 30-50 nj/i=2 fj/i=2 8 22 11 41

0,195 0,537 0,268 1

No son independientes puesto que hay diferencias entre ambas distribuciones condicionadas. Además, si hubiésemos observado que existe una frecuencia cero en la tabla de frecuencias absolutas, directamente también podríamos haber concluido que no son independientes pues resulta imposible que las frecuencias relativas conjuntas sean igual al producto de las marginales (fij=fi.f.j)

8

15/10/2018

e) Con datos de 12 campañas se ha realizado un estudio que relaciona el presupuesto invertido en publicidad (P) y el volumen de ventas (V), ambos en miles de euros.

 p  348  p  11062  v  7091  v  4340045  p v  217120 i

2 i

i

2 i

V  a  bP

siendo b 

SVP S P2

; a  V  bP

348 11062 2  29 S P2   29   80,83 12 12 7091 4340045 2 V   590,92 SV2   590,92   12487,91 12 12 P

i i

S PV 

217120  29  590,92  956,75 12

956,75  11,84 80,83 a  590,92  11,84  29  247,67

b

R2 

(956,75) 2  0,9068 80,83 12487,91

El esfuerzo publicitario logra explicar el 90,68% de la varianza de las ventas observadas en estas 12 campañas. Para pronosticar las ventas basta usar la ecuación de regresión obtenida:

Vˆ  247,67  11,84  35  661,933

P=35 ventas de 661933 euros

7) A partir de la distribución de las personas en paro de la EPA del tercer trimestre de 2017:

 F n 272358,7 ;  P n 373212,6 ;  F n  P n 7108681 ;  F P n 3900284 2

i i

i i

i

i

3587358

2

i

i

i i i

Analfabetos Estudios primarios incompletos Educación primaria Primera etapa de educación secundaria y similar Segunda etapa de educación secundaria, con orientación general Segunda etapa de educación secundaria con orientación profesional Educación superior

años formación % de paro Fi Pi 0 48,02 3 35,40 6 29,44 8 21,91 12 15,30 12,5 16,80 16 9,79

Activos (miles) 71,3 268,1 1.334,2 6.689,2 3.226,1 2.215,1 8.977,1

a) Obtenga las medias, varianzas y covarianza de las variables Formación y Paro 373212,6 7108681 2  16,38 S P2   16,38  43,655 22781,1 22781,1 272358,7 3587358 2 F   11,955 S F2   11,955  14,54 22781,1 22781,1 P

S FT 

3900284  11,955  16,38  24,654 22781,1

9

15/10/2018

b) Obtenga la recta de regresión que explica la tasa de paro en función de los años de formación. c) Explique el nivel de ajuste de la regresión anterior S P  a  bF siendo b  PF2 SF

R2 

;

a  P  bF

( 24654 )2  0,9577 14,5377  43,6548

 24,654  1,696 14,54 a  16,38  1,696  11,955  36,6575

b

El grado de ajuste es bueno ya que la formación logra explicar el 95,77% de los cambios observados en la tasa de paro.

d) Qué impacto medio tiene un año más de formación sobre la tasa de paro. Qué tasa de paro estima para una formación de 14 años: Un año más de formación disminuye el riesgo de paro (tasa de paro) de una persona activa en 1,7 puntos porcentuales. Para el conjunto de personas activas con 14 años de formación la tasa de paro estimada sería de 36,6575-1,696*14 = 12,9

10