ESTADISTICA 2: DESCRIPCION DE DATOS BIVARIANTES

ESTAD´ISTICA ´ GRADO EN INGENIER´IA TECNICA INDUSTRIAL ´ DE DATOS BIVARIANTES HOJA DE PROBLEMAS 2: DESCRIPCION 1. En un

Views 40 Downloads 1 File size 756KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ESTAD´ISTICA ´ GRADO EN INGENIER´IA TECNICA INDUSTRIAL ´ DE DATOS BIVARIANTES HOJA DE PROBLEMAS 2: DESCRIPCION 1. En un taller mec´anico una pieza pasa primero por la m´aquina 1 (X) y luego por la m´aquina 2 (Y ). La siguiente tabla muestra los tiempos X e Y (en minutos) empleados por diez piezas en cada m´aquina. X Y

5 10

15 10 10 10 5 10 10 15 10 15 15 10 10 15 20 15 20 20

Se pide: a) Obtener la distribuci´on de frecuencias relativas conjunta de los tiempos de ambas m´aquinas. Obtenemos en primer lugar la distribuci´on de frecuencias absolutas conjunta Y/X 10 15 20

5 1 1 0

10 2 2 2

15 0 1 1

dividiendo cada frecuencia absoluta entre el n´ umero total de observaciones (10), obtenemos la distribuci´on de frecuencias relativas conjunta Y/X 5 10 0.1 15 0.1 20 0

10 15 0.2 0 0.2 0.1 0.2 0.1

b) Obtener las distribuciones de frecuencias relativas marginales, dando sus medias y sus varianzas. Sumando por filas y por columnas, Y/X 10 15 20 Total

5 0.1 0.1 0 0.2

10 15 Total 0.2 0 0.3 0.2 0.1 0.4 0.2 0.1 0.3 0.6 0.2 1

Usando la tabla, calculamos las medias, multiplicando cada valor de X o Y por su frecuencia relativa correspondiente. x¯ = 5 × 0.2 + 10 × 0.6 + 15 × 0.2 = 10 y¯ = 10 × 0.3 + 15 × 0.4 + 20 × 0.3 = 15 1

An´alogamente, para calcular las varianzas, usamos s2x = 52 × 0.2 + 102 × 0.6 + 152 × 0.2 − 102 = 10 s2y = 102 × 0.3 + 152 × 0.4 + 202 × 0.3 − 152 = 15 c) Calcular la covarianza entre ambas variables X e Y , interpretando el resultado. 10

sxy

1 X 1 = xi yj − x¯y¯ = (5 · 10 + 15 · 15 + . . . + 10 · 20) − 10 · 15 = 5 10 i=1 10

Una covarianza positiva significa que ambas variables evolucionan conjuntamente, de manera que crecen o decrecen simult´aneamente. De esta forma cuanto m´as tiempo invierta una pieza en la m´aquina X m´as tiempo se esperar´a que necesite tambi´en en la m´aquina Y . 2. Tras preguntar a 300 estudiantes, se ha obtenido que el 10 % fuma y el 40 % eran del sexo femenino. Construye la tabla de frecuencias absolutas de estos 300 estudiantes para las variables Fuma/No Fuma y Chico/Chica, sabiendo que el n´ umero de chicos que fuma es igual al n´ umero de chicas que fuma. Definimos las variables X =Chico/Chica, Y =Fuma/No Fuma. Y /X Fuma No fuma Total por sexo

Chicas 15 105 120

Chicos Total fumadores 15 30 165 270 180 300

3. Dada la tabla del problema anterior se pide a) La distribuci´on de frecuencias conjunta relativa. Dividiendo por 300, Y /X Fuma No fuma

Chicas 0.05 0.35

Chicos 0.05 0.55

b) La distribuci´on marginal relativa de la variable Fuma/No Fuma. Y Fuma No fuma Total

2

f.j 0.10 0.90 1

c) La distribuci´on de frecuencias absolutas de Fuma/No Fuma condicionada a que los individuos son chicas. Y |X =Chicas n1j Fuma 15 No fuma 105 Total 120 d ) La distribuci´on de frecuencias relativas de Fuma/No Fuma condicionada a que los individuos son chicas. A partir de la tabla anterior dividiendo por el n´ umero de chicas (120) Y |X =Chicas f1j Fuma 0.125 No fuma 0.875 Total 1 e) ¿Qu´e grupo es m´as fumador, los chicos o las chicas? De la tabla anterior vemos que el 12.5 % de las chicas fuma. Si hacemos lo mismo para chicos tenemos Y |X =Chicos f2j Fuma 0.083 No fuma 0.916 Total 1 por tanto, aunque hay igual n´ umero de chicos que fuma que de chicas, el porcentaje es menor. S´olo el 8.3 % de chicos fuma, mientras que las chicas lo hacen en un 12.5 %. 4. Un proceso productivo tiene dos l´ıneas de producci´on: l´ınea A y l´ınea B, que funcionan de forma totalmente independiente (distintas m´aquinas, distintos operarios, etc). Un analista toma nota al final de cada l´ınea del n´ umero de defectos que tienen los art´ıculos que van produciendo ambas l´ıneas. En una hoja de papel, va anotando en dos columnas los defectos que tiene cada uno de los art´ıculos que analiza. Primero toma nota de 50 art´ıculos de la l´ınea A y despu´es va a la l´ınea B y toma nota de 50 art´ıculos de dicha l´ınea. orden Defectos A 1 2 2 1 ... ... 50 1

Defectos B 0 3 ... 1

Cuando tiene 50 art´ıculos inspeccionados por cada l´ınea construye una tabla de frecuencias bivariante, resultando la siguiente tabla: ¿Qu´e conclusiones se pueden sacar?

3

La tabla no tiene sentido, pues los dos pares de 50 observaciones no est´an relacionados. Los 50 datos de la l´ınea A no se corresponden con los de la l´ınea B. 5. Consideremos los datos de los niveles de NO2 en las estaciones de la red de medici´on de la contaminaci´on atmosf´erica del Ayuntamiento de Madrid. Llamemos X a los niveles de contaminaci´on en el a˜ no 2007 (medidos en microgramos por metro c´ ubico), e Y a los 2008. Con esta notaci´on se tiene 25 X i=1 25 X

25 X

xi = 1498 x2i

i=1 25 X

= 94828

i=1

yi = 1387 yi2

= 80423

i=1

25 X

xi yi = 87035

i=1

a) Ajustar, mediante m´ınimos cuadrados, la recta de regresi´on que explica los niveles medios de di´oxido de nitr´ogeno en el a˜ no 2008 como funci´on de los registrados en 2007. A partir de los sumatorios de los que disponemos se pueden calcular la medias y varianzas de las variables X e Y y la covarianza entre ellas: 25 X

x=

1498 = 59.92 25

x2i

i=1

25

=

94828 = 3793.12 25

4

s2x = 3793.12 − 59.922 = 202.71

25 X

y=

1387 = 55.48 25

yi2

i=1

25 25 X

=

80423 = 3216.92 25

s2y = 3216.92 − 55.482 = 138.89

xi y i

87035 = 3481.4 sxy = 3481.4 − 59.92 × 55.48 = 157.04 25 25 Podemos resumir estos valores indicando el vector de medias y la matriz de varianzas y covarianzas de estos datos:         2 sx sxy 202.71 157.04 x 59.92 =   = ; S= 2 syx sy 157.04 138.89 y 55.48 i=1

=

El valor de la pendiente de la recta de regresi´on es b=

sxy 157.04 = = 0.77 2 sx 202.71

En cuanto al intercepto, su valor es a = y − b x = 55.48 − 0.77 × 59.92 = 9.06 En consecuencia, la recta de regresi´on es yˆ = 9.06 + 0.77 · x b) Para un punto de Madrid que tuvo en 2007 un nivel medio de NO2 de 60 µg por m3 , ¿qu´e estimaci´on puede hacerse sobre su nivel de contaminaci´on en el a˜ no 2008? La estimaci´on que proporciona la recta de regresi´on sobre su nivel de contaminaci´on en el a˜ no 2008 es yˆ = 9.06 + 0.77 × 60 = 55.54µg/m3 c) ¿Qu´e porcentaje de la variabilidad de los niveles de NO2 en Madrid puede excplicarse por la variabilidad de los niveles de este contaminante en el a˜ no anterior? El coeficiente de determinaci´on entre X e Y es 2

R =

2 rxy

s2xy 157.042 = 2 = = 0.8758 sx × s2y 202.71 × 138.89

Por tanto, el porcentaje de la variabilidad de los niveles de NO2 en 2008 que quedan explicados por las variaciones de este contaminante en el a˜ no anterior es un 87.58 %.

5

6. Con el fin de investigar la relaci´on entre el nivel de riqueza y el impacto ejercido sobre el medio ambiente, se han analizado la renta per c´apita de los pa´ıses en el a˜ no 20081 (expresada en decenas de miles de dolares per c´apita) y su huella ecol´ogica per c´apita durante el mismo periodo2 (en hect´areas per c´apita). Tras realizar un an´alisis de regresi´on de los datos con R se ha obtenido el siguiente resultado: Call: lm(formula = Huella ecologica per capita ∼ Renta per capita) Residuals: Min 1Q -3.5857 -0.5277

Median -0.1560

3Q 0.3973

Max 3.3276

Coefficients: Estimate (Intercept) 1.08429 Renta per capita 1.31034 ---

Std. Error t value Pr(> |t|) 0.11164 9.712