examenes

INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA. 9 DE FEBRERO DE 1999 1.-Tres imprentas hacen trabajos para una oficina de pub

Views 167 Downloads 5 File size 505KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA. 9 DE FEBRERO DE 1999 1.-Tres imprentas hacen trabajos para una oficina de publicaciones: Los datos que a continuación se expresan reflejan la experiencia a largo plazo con estas imprentas Proporción de contratos Proporción de entrega con Impresor correspondientes retraso de más de un mes 1 .2 .1 2 .3 .4 3 .5 .2 La oficina descubre un trabajo con más de un mes de retraso. Calcular la probabilidad de que el impresor 3 sea el que tiene el contrato. SOLUCION: P(impresor 3/más de un mes de retraso)= P(impresor 3, más de un mes de retras0)/P(más de 1 mes de retraso) = p(mas de un mes de retraso/impresor 3) P(impresor 3)/[P( P(

/2)P(2)+P(

/1)P(1) +

/3)P(3)] = (0,2x0,5)/(0,1x0,2+0,4x0,3+0,2x0,5)=0,1/0,24=0,416

2.- El servicio postal requiere, en promedio, 2 días para entregar una carta al otro lado de la ciudad. Se estima que la varianza es de 0,4. Si un ejecutivo desea que el 99% de sus cartas sean entregadas a tiempo, ¿Con qué anticipación debe ponerlas en el correo? SOLUCIÓN: 1 1 1 P( X    k )  1  2  0.99 1  2  0.99 k 2  100 k  10  0.01 k k k2  2  0.4   0.632 X  2  6.32 Debe enviarlas con 9 días de antelación. 3.- Un lote de 200 piezas presenta 5 defectuosas. Calcular la probabilidad de que en una muestra aleatoria de tamaño 50 se encuentre al menos una defectuosa. Calcular el tamaño muestral necesario para detectar tres o menos piezas defectuosas el 90% de las veces. SOLUCIÓN:  195    50  =0,233 Sin reemplazamiento P (0 defectuosas)=  200    50  P(al menos una defectuosa)=0,766 Con reemplazamiento p=5/200=0,025 n=50 P(0 defectuosas)=(0,975)50 = 0,2819 P(al menos una defectuosa)= 0,7181 Se puede aproximar por una variable de Poisson de parámetro 50x0,025=1,25 P(X=0)=(0,301+0,272)/2= 0,286 P(al menos una defectuosa)= 0,714 P(X3)=0,9 tablas = 1,7 np = 1,7 n =1,7/0,025= 68

1

4.- Un fabricante de cierto monitor comercial de televisión garantiza el cinescopio por un año (8760 h). Los monitores se usan en terminales de aeropuertos para indicar horarios de vuelo y están en uso continuo. La vida media de los cinescopios es 20000 y sigue una distribución exponencial. Al fabricante le cuesta 45000 Pts hacer un monitor y le vende en 60000 Pts. Le cuesta 22000 Pts reemplazar un cinescopio en periodo de garantía. ¿Cuál es la ganancia esperada del fabricante? Suponemos que el fabricante reemplaza el cinescopio solo una vez. SOLUCION : =1/20000 8760

P (T8760)=

 t  e dt  1  e



8760 20000

 1  0.6453  0,354

0

15000 si T > 8760 Ganancia = -7000 si T8760 E (G)= 15000x0, 645-7000 x 0,354= 7190 Ganancia esperada 5.- Un ensamble está compuesto por tres componentes colocados uno junto al otro. La longitud de cada componente se distribuye normalmente con media 2 cm. y desviación típica 0,2 cm. Las especificaciones requieren que todos los ensambles tengan una longitud entre 5,7 y 6,3 cm. ¿Cuántos ensambles verificarán estos requerimientos? SOLUCION: Sean X1, X2, X3 la longitud de los componentes cada uno de ellos con distribución normal de media 2 y varianza (0,2)2 = 0,04. La suma tiene una distribución normal de media 3x2=6 y varianza 0,04x3= 0,12. Nos piden P(5,71) = 1-P(X1) 1-0,982=0,01 b. Si p = 0,04, la variable X sigue una distribución B(20, 0,04) P(X>1) = 1 – P(X=0) – P(X=1) = 1-0,442-0,368 = 0,19. Aproximando nxp = 20x0,04 = 0,8 ; aproximamos X por una variable de Poisson de parámetro 0,8; P(X>1) = 1 - P(X1)1 - 0,808 = 0,192 c. Sean X1, X2, X3, X4, X5 las muestras obtenidas en las 5 horas siguientes. Definimos las variables Yi =1 si Xi > 1; Yi = 0 en caso contrario para i=1, 2, 3, 4, 5. Sea Y = Y1 +Y2 + Y3 + Y4 + Y5. Nos piden calcular P (Y  1) . La variable Y sigue una distribución B (5, 0,19). Por tanto P (Y  1)  1  P(Y  0)  1  0,810  1  0,349  0,65 5

5.- Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales con desviaciones estándar 0,02 y 0,025 onzas. Un miembro del grupo de ingeniería de calidad sospecha que el volumen de llenado de las dos maquinas es el mismo, sin importar si éste es de 16 onzas o no. Se toma una muestra aleatoria de 10 botellas

Máquina 1 16,03 16,04 16,05 16,05 16,02 16,01 15,96 15,98 16,02 15,99 Máquina 2 16,02 15,97 15,96 16,01 15,99 16,03 16,04 16,02 16,01 16 a. Utilizando =0,05. ¿Tiene razón el ingeniero? b. Calcular el p-valor de la prueba. c. Calcular la potencia del contraste si la diferencia entre las medias es de 0,095. d. Suponiendo el tamaño muestral el mismo para las dos muestras, calcular el tamaño de muestra necesario para asegurar que =0,05 cuando la diferencia de las medias es de 0,08. SOLUCION: a. Dadas dos muestras de tamaño 10 de las variables X1N (1, 0.02) y X2N (2, 0,025) se H 0 : 1   2 al nivel  = 0,05. Bajo H0 el trata de realizar el siguiente contraste H 1 : 1   2 estadístico Z 0 

X1  X 2

 12 n1



 22

 N (0,1) . La región crítica al nivel 0,05 viene dada por

n2

Z 0  z 0, 025 ; buscando en las tablas de la normal z0,025= 1,96. Para nuestras muestras el valor

de Z0 es 0,9871 que no cae dentro de la región crítica por tanto acepto la hipótesis nula y el ingeniero tiene razón. b. P  Z  z 0   2(1    z 0 )  2(1   0,9871)  2 x(1  0,836)  0,338 , como vemos el p-valor es muy grande lo que nos apoya en nuestra decisión de aceptar la hipótesis nula de igualdad de medias.

9

P (aceptarH 0 / 1   2  0,095)  P( Z 0  1,96 / 1   2  0,095)  P (1,96  Z 0  1,96 / 1   2  0,095)  c.

P (1,96 

0,095

 12 n1



 22



n2

X 1  X 2  0,095

 12 n1



 22

 1,96 

n2

0,095

 12 n1



 22

/ 1   2  0,095) 

n2

P (11,34  Z  7,42)   (7,42)   (11,34)  0 La potencia viene dada por 1- P (aceptarH 0 / 1   2  0,095)  1 0,08 d. P (aceptarH 0 / 1   2  0,08)  0,05 , d =  2,498 .  12   22 Buscando en las curvas OC encontramos n = 2 ó n = 3. Si n = 2 P (aceptarH 0 / 1   2  0,08)  P (1,96 

0,08



2 1



2 2



X 1  X 2  0,08



2 1



2 2

 1,96 

0,08

 12

 22

/ 1   2  0,08) 

   2 2 2 2 2 2 P (5,492  Z  1,572)   (1,572)  1   (1,572)  0,059 Si n = 3 P (aceptarH 0 / 1   2  0,08)  P (1,96 

0,08

 12

 22



X 1  X 2  0,08

 12

 22

 1,96 

0,08

 12

 22

/ 1   2  0,08) 

   3 3 3 3 3 3 P (6,286  Z  2,366)   (2,366)  1   (2,366)  0,01 La respuesta es n = 3.

6.- Una compañía productora de energía eléctrica está interesada en desarrollar un modelo que relacione la demanda pico por hora (y, en Kw.) con el uso de energía total al mes (x, en Kwh.). Se dispone de una muestra de 49 clientes que se ha procesado con el paquete Statgraphics y se han obtenido los siguientes resultados XKWH YKW n 49 49 Media 1083,02 3,24204 Varianza 293589,0 5,84703 Desviación típica 541,838 2,41806 Mínimo 292,0 0,17 Máximo 2316,0 9,5 Cov(X,Y)=1020,1 Análisis de Regresión - Modelo: Y = a + b*X Variable Dependiente: YKW Variable Independiente: XKWH Parámetro Estimador Error Standard Estadístico T P-Valor Intercept -0,521022 0,493678 -1,05539 0,2966 Slope 0,0034746 0,000408497 8,50582 0,0000

10

Análisis de la Varianza Fuente Suma de cuadrados Df Media cuadrática F-Ratio P-Valor Modelo 170,134 1 170,134 72,35 0,0000 Residual 110,524 47 2,35157 Total (Corr.) 280,657 48 Coeficiente de Correlación = 0,778587 R-Cuadrado = 60,6197 percent Error Standard de Estimación = 1,53348 Valores Predichos 95,00% 95,00% Predicted Prediction Limits Confidence Limits X Y Lower Upper Lower Upper 292,0 0,493561 -2,68981 3,67693 -0,291802 1,27892 582,0 1,5012 -1,64218 4,64457 0,898078 2,10431 1097,0 3,29061 0,174298 6,40693 2,84975 3,73147 1428,0 4,44071 1,31154 7,56987 3,91669 4,96473 2189,0 7,08488 3,83875 10,331 6,07478 8,09497 Plot of Fitted Model

Residual Plot Studentized residual

15

YKW

12 9 6 3 0 0

1

2

3

4 (X 1000)

XKWH

4,9 2,9 0,9 -1,1 -3,1 0

10

20

30

40

50

row number Histogram for SRESIDUALS

Box-and-Whisker Plot 24

frequency

20 16 12 8 4 0

-3,1

-2,1

-1,1

-0,1

0,9

SRESIDUALS

1,9

2,9

-3,3

-2,3

-1,3

-0,3

0,7

1,7

2,7

SRESIDUALS

Explicar los resultados de la salida del ordenador en los siguientes aspectos a. Modelo de regresión b. Hacer el contraste de regresión: Hallar la región crítica y el p valor c. Intervalo de confianza para el intercept d. Explicar el significado de R-cuadrado e. En la tabla de predicción ,explicar el significado de los dos intervalos proporcionados e. ¿Qué se desprende del análisis de los residuos? ¿Crees que el modelo está bien ajustado? SOLUCION a. El modelo de regresión ajustado es Y = 0,00347 X – 0,521 H 0 : 1  0 Contrastamos si existe relación lineal entre las b. Contraste de regresión H 1 : 1  0 ˆ S n variables. El estadístico de contraste es T  1 x que sigue una distribución t con n-2 Sˆ R

11

grados de libertad, bajo la hipótesis nula. Según los datos proporcionados por la salida de la Sˆ R regresión  0.000408497 y ˆ1  0.0034746 . El valor del estadístico t también Sx n proporcionado es 8,5058152. La región crítica al nivel 0,05 viene dada por T  t 0, 025, 47 , buscando en las tablas t 0,025, 47  2,021 . El valor de t está dentro de la región crítica y

c.

rechazamos la hipótesis nula y admitimos que existe relación lineal entre las variables. El pvalor viene dado por la fórmula P( t 47  8,505)  0 . ( ˆ 0   0 ) n El estadístico que se utiliza es que sigue una distribución t con n-2 grados de 2 X Sˆ R 1  2 SX

libertad.

El

ˆ 0  t 0, 025, 47

valores

d.

e.

intervalo

X2 Sˆ R 1  2 SX n

de

  0  ˆ 0  t 0,025, 47

ˆ 0  0,521022

n

nivel

X2 Sˆ R 1  2 SX

X2 Sˆ R 1  2 SX

y

al

n

0,05

viene

dado

por

. Las salidas nos proporcionan los

 0,493686 ,

sustituyendo

obtenemos

 1,5187   0  0,4767 VE ; VE= Variación explicada por la regresión; VT = variación total R 2  0,606197  VT VE   (Yi  Yˆi ) 2 ; VT   (Yi  Y ) 2 . El 60% de la variación de nuestros datos está explicada por la regresión. Intervalo de predicción: Estimamos el valor de la variable dependiente Y para un valor de la variable independiente X. Intervalo de estimación: Estimamos el valor de la media de la variable Y para un valor de la variable X. El intervalo de predicción es más amplio 1 Intervalo de predicción yˆ  t Sˆ 1  nˆ , Intervalo de estimación yˆ  t Sˆ / nˆ h



2

donde nˆ h 

f.

confianza

n X X 1   h  SX

  

2

R

h

h



R

h

2

valor muestral equivalente. Como estos intervalos son al 95%

 = 0,05 Residuos. No se observa ninguna anomalía en el plot de los valores ajustados ni en el de los residuos, sin embargo en el diagrama de cajas se observa cierta asimetría y en el histograma se aprecia que los valores de los residuos se alejan de lo que cabría esperar para una variable normal. En el modelo de regresión se observa que el contraste de la ordenada en el origen tiene un p-valor cercano a 0,3 con lo que aceptaríamos la hipótesis nula de que esta vale 0. Convendría hacer un nuevo análisis de regresión con esta ordenada igual a 0 y ver si los resultados son mejores.

12

INGENIERIA QUIMICA: EXAMEN DE ESTADÍSTICA, SEGUNDO CURSO. 16 de febrero de 2000 1.- En un proceso de fabricación industrial se utilizan 10 máquinas. Estas máquinas funcionan independientemente unas de otras durante un tiempo que sigue una ley exponencial de media 100 horas. El proceso de fabricación se detiene cuando hay más de 8 máquinas sin funcionar. (La fabricación sigue si funcionan al menos dos máquinas) a) Calcular la probabilidad de que una máquina se averíe antes de 98 horas. b) Calcular la probabilidad de que se detenga el proceso de fabricación antes de 98 horas c) ¿Cuantas máquinas necesitaríamos para asegurarnos que el proceso de fabricación no se detendrá antes de 98 horas con una probabilidad mayor que 0,9? Solución: Sea X la variable que mide el tiempo de funcionamiento de una máquina cualquiera. 1 98 98  1 100 x P ( X  98)   e dx  1  e 100  0,625 100 0 El proceso de fabricación se detiene si de las 10 máquinas se averían más de 8 antes de 98 horas. Sea Xi =1 si la máquina i se avería antes de 98 horas. P(Xi=1) = 0,625. El número de 10 máquinas averiadas es Z  i 1 X i . Z tiene una distribución binomial. P (se detenga el

proceso) = 10  9 10 P ( Z  8)  P ( Z  9)  P( Z  10)   0,625 0,375  0,625  0,055  0,009  0,0637 9 Con n=10 la probabilidad de que no se detenga el proceso es 1-0,0637=0,9363; este n nos asegura el resultado. Si n=9 P (se detenga el proceso) 9 9 8 = P ( Z  9)  P( Z  8)  0,625   0,625 0,375  0,015  0,079  0,0193 . 8 P (no se detenga el proceso) = 1 – 0,0193 = 0,9807 Si n=8, esta probabilidad es 8 8 7 = P ( Z  8)  P( Z  7)  0,625   0,625 0,375  0,023  0,111  0,135 7 Por tanto n=9. 2.- Supongamos que tres fábricas A, B y C vierten productos al río Pisuerga en una proporción 0,3 0,5 0,2. Estos vertidos son tóxicos con probabilidades 0,05 0,01 y 0,1 respectivamente. a) Calcular la probabilidad de un vertido tóxico al río Pisuerga. b) Si se detecta un vertido tóxico en el río, calcular la probabilidad de que este provenga de cada una de las tres fábricas. c) Si se han detectado en el último año 10 vertidos tóxicos, calcular la probabilidad de que 5 sean de A 3 de B y 2 de C. Solución: Por la regla de la probabilidad total. P (vertido tóxico) = P (tóxico/A) P(A) + P (tóxico/B) P (B) + P (tóxico/C) P(C) = 0,05x0,3 + 0,01x0,5 + 0,1x0,2= 0,04 Por la regla de Bayes

13

P(A/tóxico)= P (tóxico/A) x P(A)/P (tóxico) = 0,015/0,04 = 0,375; P (B/tóxico) = 0,005/0,04 = 0,125; P(C/tóxico) = 0,02/0,04 = 0,5. Si se han detectado 10 vertidos tóxicos 10  5  5 3 2 P (5deA,3deB,2deC )    0,375 0,125 0,5  0,024  5  3  3.- El diámetro de una arandela tiene una distribución normal de media 0,2 pulgadas. Las especificaciones requieren que el diámetro está entre 0,14 y 0,26 pulgadas con probabilidad 0,9973. a) Calcular la desviación estándar. b) Si se conoce que la varianza es de 0,0016 pulgadas, calcular el valor de las especificaciones. Solución: Sea X la variable que mide el diámetro de la arandela P (0,14 < X t0,025,12 =2,179. De las salidas del ordenador sabemos que t =446,309/16,4418 =27,1447 que está en la región crítica, por

19

tanto rechazamos la hipótesis nula y llegamos a la conclusión de que existe relación lineal entre las variables. El intervalo de confianza para 0 viene dado por la fórmula ˆ0  t0,025,12 var( 0 ). Es decir –1.967,372,179.259,597, dando como resultado. –2.533,0319  0  -1401,7081. 6.- Se han procesado las notas del examen y de prácticas de la asignatura de Estadística con el paquete statgraphics, obteniéndose las siguientes salidas. Se pide explicar las salidas producidas por el ordenador y las conclusiones a las que nos lleva el estudio estadístico. (3 puntos) Solución: De las tablas de distribución de frecuencias, se observa que la variable prácticas es más homogénea, tiene menos variabilidad, los valores están concentrados entre el 5 ,5 y el 7,5, mientras en las notas de junio están algo mas dispersa en torno a estos valores. También se ve esta mayor dispersión en los cuartiles y el rango intercuartilico que es mayor en junio. Mirando a los percentiles de las dos variables se podría decir que la nota de prácticas es más alta que la de junio. Frequency Tabulation for junio Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency At or below 2,0 0 0,0000 0 0,0000 1 2,0 3,0 2,5 4 0,0870 4 0,0870 2 3,0 4,0 3,5 8 0,1739 12 0,2609 3 4,0 5,0 4,5 6 0,1304 18 0,3913 4 5,0 6,0 5,5 9 0,1957 27 0,5870 5 6,0 7,0 6,5 9 0,1957 36 0,7826 6 7,0 8,0 7,5 7 0,1522 43 0,9348 7 8,0 9,0 8,5 3 0,0652 46 1,0000 Above 9,0 0 0,0000 46 1,0000 Mean = 5,55217 Standard deviation = 1,70434

Frequency Tabulation for prácticas Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency at or below 1,5 0 0,0000 0 0,0000 1 1,5 2,5 2,0 3 0,0652 3 0,0652 2 2,5 3,5 3,0 1 0,0217 4 0,0870 3 3,5 4,5 4,0 3 0,0652 7 0,1522 4 4,5 5,5 5,0 5 0,1087 12 0,2609 5 5,5 6,5 6,0 10 0,2174 22 0,4783 6 6,5 7,5 7,0 16 0,3478 38 0,8261 7 7,5 8,5 8, 0 5 0,1087 43 0,9348 8 8,5 9,5 9,0 3 0,0652 46 1,0000 above 9,5 0 0,0000 46 1,0000 Mean = 6,19565 Standard deviation = 1,73358

-One-Variable Analysis - junio Analysis Summary

One-Variable Analysis - practicas Analysis Summary

20

Data variable: junio 46 values ranging from 2,6 to 9,0 Summary Statistics for junio Count = 46 Average = 5,55217 Median = 5,45 Variance = 2,90477 Standard deviation = 1,70434 Minimum = 2,6 Maximum = 9,0 Range = 6,4 Lower quartile = 4,0 Upper quartile = 6,9 Interquartile range = 2,9 Stnd. skewness = -0,0150496 Stnd. kurtosis = -1,29393

Data variable: practicas 46 values ranging from 2,0 to 9,0 Summary Statistics for practicas Count = 46 Average = 6,19565 Median = 7,0 Variance = 3,00531 Standard deviation = 1,73358 Minimum = 2,0 Maximum = 9,0 Range = 7,0 Lower quartile = 5,0 Upper quartile = 7,0 Interquartile range = 2,0 Stnd. skewness = -2,35487 Stnd. kurtosis = 0,844995

Percentiles for junio 1,0% = 2,6 5,0% = 2,8 10,0% = 3,1 25,0% = 4,0 50,0% = 5,45 75,0% = 6,9 90,0% = 7,8 95,0% = 8,3 99,0% = 9,0

Percentiles for practicas 1,0% = 2,0 5,0% = 2,0 10,0% = 4,0 25,0% = 5,0 50,0% = 7,0 75,0% = 7,0 90,0% = 8,0 95,0% = 9,0 99,0% = 9,0

Stem-and-Leaf Display for junio: unit = 0,1 1|2 represents 1,2 3 2|668 5 3|01 10 3|55699 13 4|002 17 4|5578 23 5|033334 23 5|589 20 6|033 17 6|555589 11 7|0123 7 7|568 4 8|033 1 8| 1 9|0

Stem-and-Leaf Display for practicas: unit = 0,1 1|2 represents 1,2 3 4 7 12 22 (16) 8 3

2|000 3|0 4|000 5|00000 6|0000000000 7|0000000000000000 8|00000 9|000

Confidence Intervals for junio 95,0% confidence interval for mean: 5,55217 +/- 0,506127 [5,04605; 6,0583] 21

95,0% confidence interval for standard deviation: [1,41364; 2,14665] Confidence Intervals for practicas 95,0% confidence interval for mean: 6,19565 +/- 0,514812 [5,68084;6,71046] 95,0% confidence interval for standard deviation: [1,4379; 2,18349] Aquí tenemos intervalos de confianza al 95% para las medias y las varianzas de las dos variables. Para las medias, ambos intervalos se solapan, pero el de prácticas está mas a la derecha, evidenciando que la nota de prácticas es más alta. Para la varianza los intervalos de confianza son bastante similares con lo que la dispersión de las dos variables parece ser la misma. Box-and-Whisker Plot

Histograma de practicas

frequency

16 12 8 4 0 0

2

4

6

8

10

1,5

2,5

3,5

practicas

4,5

5,5

6,5

7,5

8,5

9,5

practicas

Box-and-Whisker Plot

Histograma de junio 10

frequency

8 6 4 2 0 2,6

4,6

6,6

junio

8,6

10,6

2

3

4

5

6

7

8

9

junio

Aquí tenemos un histograma y un diagrama de cajas para las dos variables. De los histogramas no puede decirse que las dos variables sean normales, sobre todo la variable prácticas. Esto ya se podía haber dicho con el coeficiente de asimetría que toma el valor – 2,35 evidenciando asimetría hacia la izquierda. En los diagramas de cajas se ve el menor rango intercuartilico de la variable práctica y también el mayor valor de la media y la mediana de esta variable, así como la falta de simetría. Two-Sample Comparison - junio & prácticas Comparison of Means 95,0% confidence bound for mean of junio: 5,55217 - 0,422026 [5,13015] 95,0% confidence bound for mean of prácticas: 6,19565 - 0,429268 [5,76638] 95,0% confidence bound for the difference between the means Assuming equal variances: -0,643478 - 0,595717 [-1,23919] t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 > mean2 Assuming equal variances: t = -1,79521 P-value = 0,962012

22

Comparison of Standard Deviations Junio prácticas Standard deviation 1,70434 1,73358 Variance 2,90477 3,00531 Df 45 45 Ratio of Variances = 0,966546 95,0% Confidence Intervals Standard deviation of junio: [1,41364;2,14665] Standard deviation of prácticas: [1,4379;2,18349] Ratio of Variances: [0,534811;1,7468] F-test to Compare Standard Deviations Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 0,966546 P-value = 0,909639 Con estos procedimientos contrastamos lo que nos parece haber visto en los datos mediante el estudio descriptivo. Primeramente calculamos un intervalo de confianza para la diferencia de medias. Este intervalo depende de si las varianzas son iguales o distintas. El procedimiento empleado es el suponer varianzas iguales, que después se verá que es la hipótesis acertada. El intervalo de confianza es in intervalo superior dado por diferencia de medias es mayor que –1,239, ya que la hipótesis que se contrasta a continuación es si la media de junio es menor o igual que la media de practicas contra la alternativa de que es mayor. El ordenador nos da el valor del estadístico T utilizado en el contraste para nuestras muestras y el p valor. Como el p valor es muy grande, aceptamos la hipótesis nula a cualquier nivel, es decir la nota media de junio es menor o igual que la nota media de prácticas. Finalmente se hace un contraste de varianzas, las salidas nos ofrecen un intervalo de confianza para el cociente de varianzas y el valor del estadístico F para nuestra muestra y el p-valor que también en este caso es muy grande y se acepta la hipótesis nula de que las varianzas son iguales. Esta hipótesis ya la habíamos utilizado anteriormente.

23

INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA 10 de febrero de 2001 1.- Para cada uno de los siguientes experimentos, indicar la distribución de la variable resultante justificando la respuesta. (1 punto) El resultado del lanzamiento de un dado. Es una variable discreta que toma los valores 1,2,3,4,5 y 6 con probabilidad 1/6 cada uno de ellos Sacar una pieza de un lote y anotar si es buena o defectuosa. Es una variable de Bernoulli que toma los valores 0 o 1 según que la pieza sea buena defectuosa con probabilidades 1-p y p siendo p la proporción de piezas defectuosas. El número de piezas defectuosas al inspeccionar 20 piezas de un lote grande Es una variable que se puede aproximar por una binomial de parámetros 20 y p, siendo p la proporción de piezas defectuosas. La temperatura media nocturna de Valladolid en el mes de julio. Es una variable continua cuya distribución se podrá aproximar por una normal 2.- En una encuesta se plantea la siguiente pregunta ¿Conoces a algún hombre que vaya a la compra normalmente? Al procesarla se comprueba que el 90% de los preguntados responde que si, y por lo tanto se concluye que el 90% de los hombres realiza la compra normalmente. (1punto) A) Opina si la conclusión es acertada, justificando tu respuesta. De la pregunta de la encuesta se concluye que el 90% de los encuestados conoce a algún hombre que vaya a la compra (todos pueden conocer al mismo), por tanto la conclusión es errónea. B) Se presenta el resumen de los datos de la siguiente forma Numero de encuestados = 10000 media = 0.9008 Desviación estándar = 0.298945 ¿Es una presentación acertada? La variable que se está estudiando es una variable cualitativa con respuestas si y no, por tanto no tiene sentido calcular ni su media ni su desviación estándar. La presentación de los datos no es acertada. 3.- Tres máquinas fabrican piezas en serie siendo sus producciones horarias de 5000, 6000 y 4000 piezas respectivamente. Las proporciones de defectuosas son 0.05, 0.08 y 0.01; De la producción de un día se seleccionan dos piezas que resultaron buenas. Calcular la probabilidad de que ambas procedan de la misma máquina (1 punto). Se supone que el número de piezas de que disponemos es lo suficientemente grande como para considerar que la selección de la primera pieza es independiente de la selección de la segunda. Solución Sean M1, M2 y M3 las tres máquinas. P (M1)=5/15; P (M2)=6/15; P (M3)=4/15: Al extraer dos piezas se pueden dar las siguientes elecciones de máquinas con probabilidad P (M1, M1)= (5/15) x (5/15); P (M1, M2)= (5/15) x (6/15); P (M1, M3)= (5/15) x (4/15); P (M2, M1)= (6/15) x (5/15); P (M2, M2)= (6/15) x (6/15); P (M2, M3)= (6/15) x (4/15); P (M3, M1)= (4/15) x (5/15); P (M3, M2)= (4/15) x (6/15); P (M3, M3)= (4/15) x (4/15); El resultado de la selección de las piezas depende de la elección de las máquinas. Denotamos por B pieza buena P (BB/M1, M1) = 0.95 x0.95; P (BB/M1, M2) = 0.95 x0.92; P (BB/M1, M3) = 0.95 x0.99; P (BB/M2, M1) = 0.92 x0.95; P (BB/M2, M2) = 0.92 x0.92; P (BB/M2, M3) = 0.92x0.99; P (BB/M3, M1) = 0.99 x0.95; P (BB/M3, M2) = 0.99 x0.92; P (BB/M3, M3) = 0.99 x0.99; 24

La probabilidad de que las dos piezas extraídas sean buenas viene dada por la suma P(BB)= P(BB/M1,M1)x P(M1,M1)+ P(BB/M1,M21)x P(M1,M2)+ P(BB/M1,M3)x P(M1,M3)+P(BB/M2,M1)x P(M2,M1)+ P(BB/M2,M2)x P(M2,M2)+ P(BB/M2,M3)x P(M2,M3)+P(BB/M3,M1)x P(M3,M1)+ P(BB/M3,M2)x P(M3,M2)+ P(BB/M3,M3)x P(M3,M3)=0.899966 La probabilidad de que las dos piezas sean de la misma máquina viene dada por P (M1, M1/BB) +P (M2, M2/BB) +P (M3, M3/BB) = =(P(BB/M1,M1)x P(M1,M1)+ P(BB/M2,M2)x P(M2,M2)+ P(BB/M2,M2)x P(M2,M2))/P(BB)=0.33934 4.- Un auditor sospecha que el 25% de las facturas de una empresa son fraudulentas. Dispone de un millón de facturas para inspeccionar. Calcular el número de facturas que debe examinar para asegurarse que encontrará al menos una fraudulenta con una probabilidad mayor que 0.99. Justificar la aproximación realizada (1 punto) Solución: Si hay un millón de facturas 250.000 son fraudulentas y 750.000 correctas. Al examinar n facturas, si llamamos X el nº de facturas fraudulentas  750000    n   P( X  1)  1  P( X  0)  1  1000000    n  

Aproximamos la distribución de X por una binomial de parámetros n y 0.25 P ( X  0)  0.250 x0.75n  0.01

Tomando

logaritmos

log 0.01 n  16.0078 . log 0.75

n log 0.75  log 0.01

como

ambos

logaritmos

son

negativos

Por lo tanto debe examinar 17 facturas.

5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución BN (20, 0.05), para ello disponemos de las salidas proporcionadas por el statgraphics (1 punto) Parameters: Event prob. Successes Dist. 1 0.05 20 Dist. 2 0.2 5

Distribución: Negativa Binomial Lower Tail Area() Variable Dist. 1 Dist. 2 Variable Dist. 1 Dist. 2 Variable Dist. 1 Dist. 2 269 0.0499782 1.0 269 0.00157882 1.75174E-21 269 0.948443 0.0 338 0.247116 1.0 338 0.00408192 9.05034E-28 338 0.748802 0.0 394 0.49991 1.0 394 0.00461729 6.27861E-33 394 0.495473 0.0 455 0.74921 1.0 455 0.00332881 1.37373E-38 455 0.247461 0.0 554 0.949908 1.0 554 0.000943347 7.71827E-48 554 0.049149 0.0 Solución: Como es una distribución B (20,0.05) debemos utilizar los resultados calculados para la distribución 1. Vamos a denotar por X la variable con esta distribución. Si Percentil 5 = a por definición P( X  a)  0.05 ; P( X  a)  0.95 P ( X  269)  0.049978  0.001578  0.051556  0.05 P ( X  269)  0.948443  0.001578  0.950021  095

Por tanto el percentil 5 es 269. El percentil 25 es 338 ya que

25

P ( X  338)  0247116  0.00408192  0.25 P ( X  338)  0.748802  0.00408192  0.75

El percentil 50 es 394 ya que P ( X  394)  049991  0.0046172  0.5 P ( X  394)  0.495473  0.00461729  0.5

El percentil 75 es 455 ya que P ( X  455)  0.74921  0.00332881  0.75 P ( X  455)  0.247461  0.00332881  0.25

El percentil 95 es 554 ya que P ( X  554)  0.949908  0.000943347  0.95 P ( X  554)  0.049149  0.000943347  0.05

6.- En un análisis de regresión se han obtenido los siguientes resultados (2 puntos) Regression Analysis - Linear model: Y = a + b*X Dependent variable: accel Independent variable: weight Standard T Parameter Estimate Error Statistic P-Value -----------------------------------------------------------------------------------Intercept 16.7875 0.927477 0.0000 Slope -0.000191326 0.000338575 -0.565094 0.5728 ----------------------------------------------------------------------------------Analysis of Variance -------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value -----------------------------------------------------------------------------------Model 1 2.03717 0.5728 Residual 976.065 6.37951 --------------------------------------------------------------------------------------Total (Corr.) 978.102 154 Correlation Coefficient = -0.0456375 R-squared = Standard Error of Est. = Rellenar los huecos que faltan : El valor del estadístico T para la ordenada en el origen, la suma de los cuadrados del modelo, el valor del estadístico F, los grados de libertad de los residuos, el valor de R2 y el valor del error estándar de estimación. Solución: T= 16.7875/0.927477=18.1001793 VT =VE + VNE; VE = VT- VNE =978.102-976.065=2.037 F =(VE/1)/(VNE/153)=2.037/6.37951=0.3193 Los residuos tienen 153 grados de libertad R2= VE/VT =2.037/978.102=0.0020825 Error estándar de estimación VNE  6.37951  2.525769 153

¿A la vista de los resultados, creéis que hay una relación lineal entre las dos variables analizadas? El p-valor para el contraste de hipótesis de la pendiente es 0.57, por lo tanto aceptamos la hipótesis de que la pendiente es 0 y por tanto no existe relación lineal entre las variables. El contraste F de regresión también da un p-valor de 0.57 como cabía esperar ya que ambos contrastes son equivalentes. El coeficiente R2 da un valor muy pequeño, sólo el 0.2% de la variación de los datos está explicado por la regresión. Definitivamente si existe alguna relación entre estas dos variables, no es lineal.

26

Después de realizada la regresión se ha hecho un análisis descriptivo de los residuos, obteniéndose Summary Statistics for RESIDUALS Percentiles for RESIDUALS Count = 155 Average = 8.49677E-8 1.0% = -4.97435 Variance = 6.33808 5.0% = -3.43123 Standard deviation = 2.51755 10.0% = -2.87294 Minimum = -4.99106 25.0% = -1.68098 Maximum = 8.62278 50.0% = -0.346094 Range = 13.6138 75.0% = 1.40754 Lower quartile = -1.68098 90.0% = 3.13286 Upper quartile = 1.40754 95.0% = 4.36781 Interquartile range = 3.08852 99.0% = 8.21998 Skewness = 0.780005 Kurtosis = 0.998636) Box-and-Whisker Plot

Histogram for RESIDUALS 50

frequency

40 30 20 10 0 -7

-4

-1

2

5

8

11

-5

-2

1

4

7

10

RESIDUALS

RESIDUALS

¿Qué se puede decir de los residuos? De los valores muestrales presentados para los residuos, no puede decirse que se aparten demasiado de las hipótesis de normalidad necesarias para la regresión. Son centrados. El primer y tercer cuartil son casi simétricos y los coeficientes de asimetría y curtosis entran dentro de los valores normales. Puede observarse en los percentiles que los superiores (90,95 y 99) son superiores en módulo que sus correspondientes inferiores (10,5 y 1) por tanto la distribución presenta asimetría a la derecha. Esta asimetría se observa en el histograma aunque no muy marcada y en el diagrama de cajas se observan valores anormalmente altos que pueden ser los que determinen esta asimetría. 7.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes de su instalación una muestra aleatoria proporcionó la siguiente información acerca del porcentaje de impurezas: tamaño muestral, 8; media muestral, 12.5; varianza muestral, 101.17. Después de la instalación se tomó otra muestra obteniéndose: tamaño muestral, 9; media muestral, 10.2; varianza muestral, 94.73. (3puntos) a) ¿Se puede concluir que las dos varianzas son iguales?

Se realiza el contraste

H 0 : 1   2 El H1 :  1   2

estadístico utilizado es

S12 S 22

que bajo la hipótesis nula se

distribuye según una F con 7 y 8 grados de libertad. Buscando en las tablas F0.025,7,8  4.53

F0.025,8,7  4.90

27

La región de aceptación es S12 S 22

 1.06 que

1 S2  12  4.53 es 4.90 S 2

decir

0.20 

S12 S22

 4.53 .

En nuestro caso

cae dentro de la región de aceptación, es decir aceptamos igualdad de varianzas.

b) Calcular la potencia del contraste cuando el cociente de varianzas es 2. Dato F(2.2659) = 0.862761; F (0.1)=0.003265 P (2)  1   (2)  1  P (0.20 

Si

S12  12 2 2 2 2S22

S12 S22

S12

 4.53 /

2 2  12 2 2  2)  1  P (0.20 22  12  4.53 22 / 12  2)  a 2 S2 1  2 2 1 2 2

sigue una distribución F con 7 y 8 grados de libertad, por tanto

P (2)= 1  P(0.10 

S12

2 S22

 2.2659)  1  F (2.2659)  F (0.10)  1  0.86271  0.003265  0.140504

c) ¿Que tamaño muestral nos asegura una potencia de 0.9 cuando el cociente de varianzas es de 4? Una potencia de 0.9 corresponde a un error de segunda clase 0.1 para una distancia entre la hipótesis nula y la alternativa de 2, buscando en las curvas CO para un nivel 0.05 encontramos un tamaño maestral aproximado de 31 observaciones para las dos muestras d) Dar un intervalo de confianza para la diferencia de medias Asumiendo igualdad de varianzas la estimación de la varianza común es (7x101.17+8 x 4.73)/15=97.735.La desviación estándar es 9.886 Buscando en las tablas t0.025,15  2.131 ; 2.131x9.886(1/7+1/8)=10.9032. El intervalo de confianza al 95%

para la diferencia de medias viene dado por (12.5-10.2)10.9032

1   2  8.6,13.2

e) Están los datos de acuerdo en que se ha reducido el porcentaje de impurezas al colocar el filtro en al menos un 2%? Hacemos el contraste La

región

de

H 0 : 1   2  2

H1 : 1   2  2

aceptación

0.3 X Y  2   0.05 que t 5.116 1 1  s 7 8

al

Buscando en las tablas nivel

0.05

es

T

t0.05,15  1.753 ;

>-1.753

,

en

nuestro

caso

está en la región de aceptación luego aceptamos la hipótesis de

que se ha reducido el porcentaje de impurezas en al menos un 2% f) Calcular la potencia del contraste cuando la diferencia de medias es de 0. F (1,36)=0.898 P (0)=P (Rechazar la hipótesis/1=2)= X Y  2 X Y 2  1.753 / 1   2  0)  P (  1.753  / 1   2  0) 5.116 5.116 5.116 Si 1=2 entonces X  Y sigue una distribución T con 15 grados de libertad 5.116 X Y 2 P (0)= P(  1.753  )  P(T15  1.36)  1  P (T15  1.36)  1  0.898  0.102 ) 5.116 5.116 P(

28

INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA.11 de setiembre de 2001 1.- Para cada uno de los siguientes experimentos, indicar la distribución de la variable resultante justificando la respuesta. (1 punto) - El resultado del lanzamiento de una moneda - Sacar una pieza de un lote grande y anotar si es aceptable o no - El número de piezas de piezas extraídas de un lote grande hasta sacar la primera defectuosa, conociendo la proporción de defectuosas - Las medidas de concentración de ozono en la calle Regalado de Valladolid 2.- Se han procesado unos datos y se han obtenido los resultados (1punto) Clase Valor Frecuencia Frecuencia Frecuencia Frec.Relativa Relativa Acumulada Acumulada 1 1.0 4 0.0741 0.0741 2 2.0 0.6111 37 0.6852 3 3.0 9 0.1667 0.8519 4 4.0 5 0.0926 51 0.9444 5 5.0 2 0.0370 53 0.9815 6 6.0 1 0.0185 1.0000 Rellena los huecos, explica que tipo de variable es y dibuja un diagrama de barras o un histograma según corresponda. 3.- Tres máquinas fabrican piezas en serie siendo sus producciones horarias de 3000, 2000 y 1000 piezas respectivamente. Las proporciones de defectuosas son 0.01, 0.03 y 0.05; De la producción de un día se selecciona dos piezas que resultan buenas. Calcular la probabilidad de que ambas procedan de la misma máquina (1 punto). 4.Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular el número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación realizada (1 punto). 5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución H (10, 15,35), para ello disponemos de las salidas proporcionadas por el statgraphics (1 punto) Distribution: Hypergeometric. Probability Mass (=) Variable Dist. 1 0 0.0178713 1 0.103104 2 0.240576 3 0.297856 4 0.215689 5 0.094903 6 0.0255116 7 0.00410007 8 0.000372734 9 0.0000170532 10 2.9234E-7

29

6. - En un análisis de regresión se ha obtenido los siguientes resultados Simple Regresión - Col_2 vs. Col_1 Regresión Análisis - Linear modelo: Y = a + b*X Dependent variable: Col_2 Independent variable: Col_1 Standard T Parameter Estimate Error Statistic P-Value Intercept -0,966824 0,00484523 -199,541 0,0000 Slope 1,54376 0,00307363 502,259 0,0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1,96613 1 1,96613 252263,91 0,0000 Residual 0,0000623515 8 0,00000779394 Total (Corr.) 1,96619 9 Correlation Coefficient = 0,999984 R-squared = 99,9968 percent Standard Error of Est. = 0,00279176 Explica las salidas suministradas por el programa. Dar un intervalo de confianza para la pendiente al 5%. (2 puntos) 7.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes de su instalación una muestra aleatoria proporcionó la siguiente información acerca del porcentaje de impurezas: tamaño muestral, 9; media muestral, 10.2; varianza muestral, 94.73. Después de la instalación se tomó otra muestra obteniéndose: tamaño muestral, 8; media muestral, 12.5; varianza muestral, 94.73. (3puntos) a) ¿Se puede concluir que las dos varianzas son iguales? b) Calcular la potencia del contraste cuando el cociente de varianzas es 2. c) ¿Que tamaño muestral nos asegura una potencia de 0.9 cuando el cociente de varianzas es de 4? d) Dar un intervalo de confianza para la diferencia de medias e) ¿Están los datos de acuerdo en que el nuevo dispositivo de filtrado no reduce el porcentaje de impurezas? f) Calcular la potencia del contraste cuando la diferencia de medias es de -1. Datos: Distribution: F (variance ratio) Variable Lower Tail Area () 0.2 0.0188324 0.273502 0.981168 0.44 0.136386 0.642464 0.863614 0.94 0.460826 0.558782 0.539174 4.55 0.96968 0.0171977 0.0303198 9.8 0.996528 0.00107239 0.00347171 Distribution: Student's t Variable Lower Tail Area () 0.25 0.597011 0.379517 0.402989 0.44 0.666895 0.354097 0.333105 0.94 0.818945 0.248208 0.181055 4.55 0.999808 0.000380906 0.000191598 9.8 1.0 4.35082E-8 3.25702E-8

30

INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA 6 DE SETIEMBRE DE 2002 1.-Tres laboratorios hacen análisis para una empresa de medio ambiente: Los datos que a continuación se expresan reflejan la experiencia a largo plazo con estos laboratorios (2 puntos) Proporción de análisis Proporción de entrega con Laboratorio correspondientes retraso de más de un mes 1 .5 .3 2 .3 .4 3 .2 .2 La empresa descubre un análisis con más de un mes de retraso. Calcular la probabilidad de que cada laboratorio sea el responsable del análisis. 2.- A continuación se presentan datos de viscosidad de un lote de cierto proceso químico. 13,3 14,9 15,8 16,0 14,5 13,7 13,7 14,9 15,3 15,2 15,1 13,6 15,3 14,5 13,4 15,3 14,3 15,3 14,1 14,3 14,8 15,6 14,8 15,6 15,2 15,8 14,3 16,1 14,5 13,3 14,3 13,9 14,6 14,1 16,4 15,2 a. Construir un diagrama de tallo- hojas para los datos de viscosidad. (0.5 punto) b. Construir una tabla de distribución de frecuencias y dibujar el histograma correspondiente. (1 punto) c. Calcular los cuartiles primero, segundo y tercero y construir un diagrama de cajas. (0.5 puntos) d. Suponiendo que todas las observaciones siguen una distribución normal con una varianza común desconocida. Calcular un intervalo de confianza para la media al nivel 0.1. (1 punto) e. Contrastar la siguiente hipótesis al nivel 0.05. (1 punto) H0:  =15 H0:  =16 H1:  1.725 Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 1.75. Calcular el tamaño de muestra necesario para asegurarnos una potencia mayor de 0.99 en el punto 1.73. (1.5) e. Para el siguiente contraste de hipótesis H0 :  = 0.005 H1 :  .0.005 Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 0.004. Calcular el tamaño de muestra necesario para asegurarnos una potencia mayor de 0.9 en el punto 0.004. (1.5) Solución: n = 24 media = 1.73458 mediana = 1.7345 Moda = Hay dos 1.732; 1.738 Varianza = 0.0000402536 Desviación estándar = 0.00634457 Mínimo = 1.724 Máximo = 1.746 Rango = 0.022 Valores desde 1.724 a 1.746 Primer cuartil = 1.7295 (dato 6 + dato 7)/2 ordenados de menor a mayor Tercer cuartil = 1.7395 (dato 18 + dato 19)/2 ordenados de menor a mayor Rango intercuartílico = 0.01 percentil 5 = 1.725 dato 2 ordenados de menor a mayor percentil 95 = 1.744 dato 23 ordenados de menor a mayor Tabla de distribución de frecuencias

clase menor 1 2 3 4 5 6 mayor

lim. Inf lim.Sup. 1.72 1.72 1.725 1.725 1.73 1.73 1.735 1.735 1.74 1.74 1.745 1.745 1.75 1.75

Frec.Abs. 0 1 5 6 6 5 1 0

Frec.Rel. 0 0.041 0.208 0.25 0.25 0.208 0.041 0.

Frec.Abs.Ac. Frec.Rel.Ac 0. 0 1 0.041 6 0.25 12 0.5 18 0.75 23 0.58 24 1. 24 1

32

6

frequency

5 4 3 2 1 0 1.72 1.725 1.73 1.735 1.74 1.745 1.75

histograma

Diagrama de cajas

1.723 1.728 1.733 1.738 1.743 1.748 1.753

diametro Diagrama de tallo- hojas 1 172|4 6 172|56789 (6) 173|012234 (6) 173|567779 6 174|01234 1 174|6 Intervalo de confianza para la media. T23,0.025= 2.069 1.73458 +/- 0.00267908 [1.7319;1.73726] Intervalo de confianza para la desviación estánda.r X223,0.025= 38.08 X223, 0.975= 11.69 [0.00493109;0.00889992] Para la varianza [0.0000239;0.000078089]

33

Contraste para la media t23,0.05= 1.714 t0 = 7,776 Región crítica T0 > 1.714. Rechazamos la hipótesis nula P- valor P (T23 > 7.776) < P (T23 > 3.767) = 0.0005 Potencia P (1.75)=P (T23 > 1.714/ = 1.75)= P (T23 > -17.286) 1 Tamaño muestral d = (1.73-1.725)/0.0063 = 0.79 (d) < 0.01 n comprendido entre 30 y 40 Si n =30 t29, 0.05 = 1.699 P (1.73)=P (T29 > 1.699/ = 1.73)= P (T29 > -2.65) De las tablas P (T29 > 2.75) = 0.005 P (T29 > 2.462) = 0.01 P (T29 > - 2.75) = 0.995 P (T29 > - 2.462) = 0.99 0.99 < P (1.73) < 0.995 luego n=30 Contraste para la desviación estándar X20  X223 X223,0.025 = 38.08 X223,0.975 = 11.69 Región de aceptación 11.69  X20  38.08 x20 = 36.514. Acepto la hipótesis nula, a pesar de que estamos muy cerca de la región crítica P-valor P(X223 < 36.514)  0.05 P (0.004) = P (X20 > 38.08/ =0.004) + P (X20 < 11.69/ =0.004) = P(X223 > 59.5)+ P(X223 < 18.26) De las tablas P(X223 > 14.85) = 0.90 P(X223 > 22.34) = 0.50 0.10 < P (0.004) 100 Si n=101 X2100,0.025 = 129.56 X2100,0.975 = 74.22 P (0.004) = P (X20 > 129.56/ =0.004) + P (X20 < 74.22)/ =0.004) = P(X223 > 202.437) + P(X223 < 115.96) > 0.5 Utilizando el statgraphics se comprueba n=110 2.- Clasifica las siguientes variables como discretas, continuas o categóricas y da su posible rango. (0.5) a. Número de acciones vendidas en la bolsa de valores. b. Temperatura media anual. c. Vida media de los tubos de TV. d. Ingresos anuales de un trabajador. e. Longitud de tornillos producidos por una empresa. f. Capacidad de un frigorífico. g. Número de libros en la Biblioteca de la Facultad. h. Suma de los puntos al lanzar 20 dados. i. Diámetro de una pieza cilíndrica. j. Países de Europa.

34

EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 31 de Enero de 2003. Segunda parte 1.- Un muestreo de 200 votantes revela la siguiente información referente a tres candidatos A, B, y C. 28 a favor de A y B; 98 a favor de A o B, pero no de C; 42 a favor de B, pero no A o C; 122 a favor de B o C pero no A; 64 a favor de C pero no A o B; 14 a favor de A y C pero no B. Se pide número de votantes a favor de los tres candidatos. (0.75)

Solución: P(ABC) = 8/200. Número de votantes favorables a los tres candidatos 8 2.- Se lanza un dado 120 veces. (0.75) a. Calcular la probabilidad de que salga el 4, 18 veces o menos. b. Calcular la probabilidad de que salga el 4, 14 veces o más.

Solución: Sea Xi =1 si el resultado del lanzamiento del dado i es 4 y 0 en caso contrario. Xi es una variable de Bernoulli de parámetro p =1/6 120

Sea Y =

X i 1

i

. La variable Y sigue una distribución B (200, 1/6) y cuenta el número de

veces que sale el 4 en 120 lanzamientos. Esta variable la aproximamos por una normal de media 20 y desviación estándar 4.08 P (Y  18) = P (Z  -0.49) = 1- 0.6879 = 0.3121; P (Y  14) = P (Z  -1.47) = 0.9292 3.- Tres joyeros idénticos tienen cada uno 2 cajones. En el primer joyero los dos cajones tienen un reloj de oro, en el segundo un reloj de plata y en el tercer joyero un cajón tiene un reloj de oro y el otro cajón un reloj de plata. Seleccionamos un joyero al azar, abrimos uno de los cajones y observamos que contiene un reloj de plata. Encontrar la probabilidad de que en el otro cajón haya un reloj de oro. (1)

Solución: Sean I, II, y III los tres joyeros. P (I) = P (II) = P (III) = 1/3 P (oro/I)=1 P (oro/II)=0 P (oro/III)=½ P (plata/I)=0 P (plata /II)=1 P (plata /III)=1/2 Hay que calcular P (III/plata). Por la fórmula de Bayes P( plata / III ) P( III ) =1/3 = P( plata / I ) P( I )  P( plata / II ) P( II )  P ( plata / III ) P( III )

4.- Sea Z una variable N (0,1). (0.75) 35

a. -Calcular P (Z  -1.64) P (-1.96  Z  1.96) P (  Z > 1) b. -Hallar z1, z2, z3, z4, z5 en las siguientes ecuaciones: P (Z > z1) = 0.2266 P (Z < z2) = 0.0314 P (-0.23 < Z < z3) = 0.5722 P (1.15 < Z < z4) = 0.0730 P (-z5 1) = 2(1-P(Z  1)) = 0.3172 P (Z > z1) = 0.2266 P (Z  z1) = 0.7734 z1 = 0.75 P (Z < z2) = 0.0314 z2 ha de ser negativo P (Z  -z2) = 0.9686 - z2= 1.86 z2= -1.86 P (-0.23 < Z < z3) = P (Z < z3) – P (Z < -0.23) = P (Z < z3) – 0.41 =0.5722 . De donde P (Z < z3) = 0.9822 z3 = 2.10 P (1.15 < Z < z4) = P (Z < z4) – P (Z < 1.15) = P (Z < z4) – 0.87493 = 0.0730. De donde P (Z < z4) =0.94793 z4 = 1.62 P (-z5 1) b.-Hallar z1, z2, z3, z4, z5 en las siguientes ecuaciones P (Z < z2) = 0.0314 P (-0.23 < Z < z3) = 0.5722 P (Z > z1) = 0.2266 P (-z5 tn1+n2-2,/2 |T0|> 2,021 Para nuestros datos t0 = -7,0334 que cae dentro de la región crítica, es decir rechazamos la hipótesis de igualdad de medias. P-valor < 0,001 ya que éste viene expresado P(|T38| > 7,0334) = 2 x P(T38 > 7,0334) ≈ 2 x P(T40 > 7,0334) < 2 x P(T40 > 3,551) = 2 x 0,0005 = 0,001 Este p-valor tan pequeño nos asegura de nuevo que los datos no están de acuerdo con la hipòtesis nula de igualdad en el volumen de llenado. Si miramos al intervalo de confianza calculado para la diferencia de medias, vemos que el 0 no está en este intervalo, lo que es otro punto que refuerza el rechazo de la hipótesis nula. c) Potencia en el punto 10 P(10) = P(rechazar H0 / μ1-μ2 = 10) = P(|T0| >2,021/ μ1-μ2 = 10) = X1  X 2 X1  X 2 > 2,021 / μ1-μ2 = 10) + P( < -2,021 / μ1-μ2 = 10) = P( 1 1 1 1   sp sp n1 n2 n1 n2 P(

X 1  X 2  10 10 / μ1-μ2 = 10) + > 2,021 0,3625 0,3625

P(

X 1  X 2  10 10 / μ1-μ2 = 10) = P(T38 > -25,56) + P( T38 < -29,60) ≈ 1 < -2,021 0,3625 0,3625

d) Diagramas de tallo-hojas Bodega 1 Bodega2 1 750|0 1 753|0 3 751|00 5 754|0000 7 752|0000 9 755|0000 (9) 753|000000000 (10) 756|0000000000 4 754|00 1 757|0 2 755|00 Tratamos los datos como contínuos, por eso dibujamos un histograma en vez de un diagrama de barras ya que las medidas estan dadas en ml. Los cuartiles para el diagrama de cajas ya estan halladas, vamos a calcular los límites superior e inferior Bodega 2 Bodega 1 Q1 – 1,5 x RI = 754,5 – 1,5 x 1,5 = 752,25 Q1 – 1,5 x RI = 752 – 1,5 = 750,5 Q3 + 1,5 x RI = 753 + 1,5 = 754,5 Q3 + 1,5 x RI = 756 + 1,5 x 1,5 = 758,25 LI = 750,5 LS = 754,5 LI = 753 LS = 758

40

Histograma 10

8

8

frecuencia

frecuencia

Histograma 10

6 4 2 0 749

750

751

752

753

754

6 4 2 0

755

752

753

bodega 1

751

752

753

755

756

757

diagrama de cajas

diagrama de cajas

750

754

bodega 2

754

753

755

754

755

756

757

755

757

bodega 2

bodega 1

bodega 1

diagrama de cajas

frecuencia

10

bodega 1

bodega 2

6 2 2 6 10

750

752

754

756

758

749

751

753

bodega 2

Mirando el histograma, los datos de la bodega 1 parecen más dispersos, tienen mayor varianza y mayor rango; pero si nos fijamos en el diagrama de cajas, el rango de la bodega 1 es menor ya que la caja es bastante más estrecha y presenta 3 datos extremos que quizá sean los que aumentan su varianza. Ambas variables presentan asimetría a la izquierda, más marcada en la bodega 2. Por tanto a la vista de los gráficos la hipótesis de varianzas iguales debería ser contrastada. e) Comparación de las Varianzas H0: σ1 = σ2 H1: σ1 ≠ σ2 Se utiliza el estadístico

S12 que bajo H0 tiene una distribución F (n1-1,n2-1) F0  2 S2 Región crítica {F0>fn1-1,n2-1,/2 }{F0 2,51 }{F0 < 0,38} Para nuestros datos f0 = 1,47 que no cae dentro de la región crítica, es decir acepto la hipótesis nula de igualdad de varianzas. f) Para hacer el contraste necesitamos una tabla de distribución de frecuencias con la frecuencia observada y la frecuencia esperada 41

Si suponemos que el volumen de llenado sigue una distribución normal, estimamos su media y su desviación típica por los valores muestrales, es decir V→ N( 752,75 , 1,2196) P(X ≤ 750) = P(Z ≤ (750-752,75)/1,2196) = Φ(-2,25) = 1–0,987 = 0,013 0,013 x 20 = 0,26 P(750 < X ≤ 751)=Φ(-1,43)-Φ(-2,25)=0,077–0,013=0,064 0,064 x 20 = 1,28 P(751 < X ≤ 752)=Φ(-0,61)-Φ(-1,43)=0,271–0,077=0,194 0,194 x 20 = 3,98 P(752 < X ≤ 753)=Φ(0,20)-Φ(-0,61)=0,579–0,271=0,308 0,308 x 20 = 6,16 P(753 < X ≤ 754)=Φ(1,02)-Φ(0,20)=0,846–0,579=0,267 0,267 x 20 = 5,34 P(X > 754)=1-Φ(1,02)=1–0,846=0,154 0,154 x 20 = 3,08 Clase Oi Ei (Oi – Ei)2/Ei X≤170 1 0,26 2,106 750 < X ≤ 751 2 1,28 0,405 751 < X ≤ 752 4 3,98 0,0001 752 < X ≤ 753 9 6,16 1,309 753 < X ≤ 754 2 5,34 2,089 X > 754 2 3,08 0,378 6,287 20 sigue una distribucion chi- cuadrado con 3 (6-2-1) grados de libertad. x20 = 6,287 P-valor P(23 > 6,287) 0,05 < p-valor < 0,1 Ya que de las tablas obtenemos P(23 > 7,81) = 0,05 P(23 > 6,25) = 0,1 Aceptariamos la hipótesis al nivel 0,05, aunque el valor del estadístico 20 está próximo a la región de rechazo. 2.- Resolver las ecuaciones (0.5 puntos) a) P(25 ≤ x) = 0,95 b) P(12,549 ≤ 210 ≤ y) = 0,20 c) P(T15 ≤ z) = 0,01 e) P( 1,476 ≤ T5 ≤ u) = 0,075 f) P( F10,20 ≤ 2,42) = v d) P(T8 > t) = 0.9 Solución a) P(25≤ x) = 0,95 P(25 > x) = 0,05 x = 11,07 b) P(12,549 ≤ 210 ≤ y) = P(210 ≤ y) - P(210 ≤ 12,549) = 0,20 P(210 >15,99) = 0,1 P(210 > 9,34 ) =0,5 0,5 < P(210 ≤ 12,549) < 0,9 0,7 < P(210 ≤ y) < 1 P(210 > y) < 0,3 y > 15,99 c) P(T15 ≤ z) = 0,01 z ha de ser negativo P(T15 > -z ) = 0,01 -z = 2,602 z = -2,602 d) P(T8 > t) = 0.9 t ha de ser negativo P(T8 > -t ) = 0,1 -t = 1,397 t = -1,398 e) P( 1,476 ≤ T5 ≤ u) = P(T5 ≤ u) - P(T5 ≤ 1,476) = 0,075 P(T5 > 1,476) = 0,1 P(T5 ≤ u) = 0,975 P(T5 > u) =0,025 u= 2,57 f) P( F10,20 ≤ 2,42) P( F10,20 > 2,77) = 0,025 P( F10,20 > 2,35) = 0,05 0,025 < P( F10,20 > 2,42) < 0,05 0,95 ≤ P( F10,20 ≤ 2,42) ≤ 0,975 3.- Contesta lo más brevemente posible a las siguientes preguntas (1punto) a) Define variable aleatoria discreta b) Da la fórmula de la probabilidad total c) Teorema de Bayes d) Diferencia entre histograma y diagrama de barras y sus usos e) Teorema Central del Límite (aproximación a la normal)

42

Examen de Estadística: Segundo de Ingeniería Química: Segunda parte 26 de enero de 2004. 1.- Dado que no todos los pasajeros de una aerolínea abordan el vuelo para el que han reservado, la compañía aérea vende 125 billetes para un vuelo de 100 pasajeros. Si la probabilidad de que un pasajero no aborde el vuelo es de 0,05 y los pasajeros se comportan de forma independiente unos de otros. Calcular o aproximar (1punto) a) P (todos los pasajeros aborden el vuelo) b) P (un vuelo parta vacío) c) P (100 < nº de pasajeros ≤ 125) d) P ( nº de pasajeros ≤ 100) Solución: Sea X el nº de pasajeros que abordan el vuelo. X → B (125, 0,95) - P(X = 125) = (0,95)125 = 0,00164 - P(X = 0) = (0,05)125 = 2,35. 10-63 ≈ 0 - X puede ser aproximada por una distribución normal de media 125x0,95 = 118,75 y varianza 125x0,95x0,05 = 5,9375; desviación estándar 2,437. 125  118,75  100  118,75 = Φ(2,5649)-Φ(-7,695) ≈ P(100 < X ≤ 125) ≈ P  Z 2,437   2,437 0,99484 - P(X ≤ 100) ≈ P(Z ≤ -7,695) ≈ 0. 2.- Se lanza un dado n veces. Sea pˆ = (1/n) x( nº de veces que ha salido el 1). (0.75 puntos) a) Calcula la distribución de pˆ .

  1 b) ¿Cuantas veces debemos lanzar el dado para P pˆ   0,05   0.95 ? 6   Solución: - pˆ es el estimador de una proporción y su distribución puede ser aproximada por una normal de media 1/6 y varianza nx(1/6)x(5/6)       1     pˆ      1 0,05  0,05  0,05  6    - P pˆ   0,05  = P  = P Z  =2Φ -1 > 0,95.    5  6 5 5  5          36n  36n   36n   36n          0,05  0,05    > 0,975 . Buscando en las tablas = 1,96 Despejando Φ  5   5       36n   36n  Resolviendo n = 213,42 y redondeando obtenemos n = 214 3.- El espesor de la película fotoprotectora en un proceso de fabricación de semiconductores tiene una media de 10 micrómetros y una desviación estándar de 1 micrómetro. Acotar la probabilidad de que el espesor sea menor que 6 o mayor que 14. (0.75 puntos) Solución:

43

Llamemos E a la variable espesor

E  6  P(E 14) = P  +    

 E   E   14     4  = P ( E    4 ) ≤1/16 = 0,0625. Para la cota P   = P        hemos utilizado la desigualdad de Chebychev con k = 4. 4.- Los clientes se encargan de evaluar los diseños preliminares de varios productos. Se sabe que de los productos con éxito en el mercado el 95% recibió buenas evaluaciones, de los productos con éxito moderado el 60% recibió buenas evaluaciones y de los productos con escaso éxito el 10% recibió buena evaluación. Además el 40% de los productos han tenido éxito, el 35% éxito moderado y el 25% baja aceptación. (1punto) a) Calcular la probabilidad de que un producto obtenga buena evaluación. b) Si un nuevo diseño de un producto recibe buena evaluación. ¿Cual es la probabilidad de que el producto alcance éxito en el mercado? Solución: Definimos los sucesos B – Recibir buena evaluación E – Producto con éxito. M – Producto con éxito moderado. F – Producto con escaso éxito. Los datos suministrados son: P(E) = 0,4 P(M) = 0,35 P(F) = 0,25 P(B/E) = 0,95 P(B/M) = 0,60 P(B/F) = 0,10 - P(B) = P(B/E) P(E) + P(B/M) P(M) + P(B/F) P(F) = 0,615 Regla de la probabilidad total - P(E/B) = P(B/E) P(E)/ P(B) = 0,618 Fórmula de Bayes.

44

Examen de Estadística Segundo de Ingeniería Química: Primera parte 13 de setiembre de 2004. 1.- Dada la siguiente tabla, que es una salida proporcionada por statgraphics. Se pide dar una explicación de toda la información suministrada por esta tabla. (0.5 punto) Goodness-of-Fit Tests for Col_9 Chi-Square Test ---------------------------------------------------------------------------Lower Upper Observed Expected Limit Limit Frequency Frequency Chi-Square ---------------------------------------------------------------------------at or below 162,167 8 8,37 0,02 162,167 167,013 11 8,37 0,82 167,013 170,636 13 8,37 2,55 170,636 173,881 2 8,38 4,85 173,881 177,125 11 8,38 0,82 177,125 180,749 8 8,37 0,02 180,749 185,594 7 8,37 0,23 above 185,594 7 8,37 0,23 ---------------------------------------------------------------------------Chi-Square = 9,53741 with 5 d.f. P-Value = 0,0894551

2.- Para controlar el volumen de llenado de una planta embotelladora se toma una muestra aleatoria de tamaño 20 obteniendose las siguientes medidas en ml 750 746 747 748 748 748 748 749 749 747 746 747 747 748 748 747 750 748 745 748 Suponiendo normalidad g) Calcular un intervalo de confianza al 95% para la media (0.5 puntos) h) ¿Apoyan los datos la afirmación de que el volumen medio de llenado es de 750 ml? Para responder a esta cuestión, plantear el contraste de hipótesis, calcular la región crítica al nivel 0.05 y el p-valor de la prueba. (1 punto) i) Calcular la potencia si el volumen medio de llenado fuera de 745ml. (0.5 puntos) j) Construir un histograma, un diagrama de tallo-hojas y un diagrama de cajas para la muestra e interpretar las gráficas. ¿Parece razonable la hipótesis de normalidad? (1 punto) k) Contrastar la hipótesis de varianza 1 frente a la alternativa t) = 0.5

a) b) c) d) e)

c) P(T15 ≤ z) = 0,9 f) P( F10,20 ≤ 1,42) = v

4.- Contesta lo más brevemente posible a las siguientes preguntas (1punto) Clasifica las variables aleatorias Da la fórmula de Bayes Probabilidad a posteriori y Teorema de Bayes Diagrama de tallo-hojas Aproximaciones de la distribución binomial

45

Examen de Estadística.Segundo de Ingeniería Química. Segunda parte 13 de setiembre de 2004. 1.- El tiempo de duración de un ensamble mecánico en una prueba de vibración tiene una distribución exponencial con media 400 horas. (1.5 punto) a) ¿ Cual es la probabilidad de que el ensamble falle en la prueba antes de 100 horas ? b) Si el ensamble lleva probandose 400 horas sin que haya fallado ¿Cuál es la probabilidad de que falle en las proximas 100 horas ? c) Si se prueban 100 ensambles ¿ Cual es la probabilidad de que falle al menos uno de ellos en menos de 100 horas? ¿Aproxima la probabilidad de que fallen 5 o menos 2.- La alineación entre la cinta mágnetica y el cabezal de un sistema de almacenamiento de datos afecta a la lectura de los mismos. Si el 10% de las operaciones de lectura se ven afectadas por una alineación oblicua, el 5% por alineación descentrada y las demás lecturas se efectúan correctamente. La probabilidad de un error de lectura por alinezción oblicua es 0,01, por alinezción descentrada 0,02 y 0,001 cuando la alineación es correcta. (1punto) a) Probabilidad de un error de lectura b) Dado que ha habido un error de lectura. Calcular la probabilidad de que este sea debido a una alineación oblícua. 3.- En una muestra de tamaño 25, se ha obtenido una media muestral de 3,5 y una desviación estándar muestral de 1.25. (1punto) e. ¿Qué porcentaje mínimo de observaciones cae dentro del intervalo [1, 6]? f. ¿Qué porcentaje mínimo de observaciones cae dentro del intervalo [-0,25, 7,25]?

46

Examen de Estadística: Segundo de Ingeniería Química: Primera parte 18 de febrero de 2005. 1.- Se han obtenido los siguientes datos del rendimiento de dos catalizadores Catalizador I: 91.5 94.18 92.18 95.39 91.79 89.07 94.72 89.21 Catalizador II: 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75 a) Hacer un diagrama de tallo-hojas para los datos de cada catalizador (0.5 puntos) b) Calcular los percentiles 5, 15, 25, 50, 75, 85 y 95 de cada catalizador y hacer algún comentario comparando los rendimientos. (0.5 puntos) c) Realizar una tabla de distribución de frecuencias y un histograma de los rendimientos de cada catalizador en la misma gráfica. (0.5 puntos) d) Hacer los diagramas de cajas de los dos rendimientos en la misma gráfica y comentar los gráficos. (0.5 puntos) e) Calcular un intervalo de confianza para el cociente de varianzas Realizar el contraste H0: σ1 = σ2 mediante el cálculo de la región crítica y el p-valor. H1: σ1σ2 Calcular la potencia en el punto 0.5 (1 punto) f) Calcular un intervalo de confianza para la diferencia de medias. Realizar el contraste H0: 1 = 2 mediante el cálculo de la región crítica y el p-valor. H1: 1< 2 Calcular la potencia en el punto -0.5 (1 punto) Solución: Diagrama de tallo-hojas

2 2 4 4 3 3 1

Catalizador I

Catalizador II

89|02 90| 91|57 92|1 93| 94|17 95|3

1 3 4 4 3 2 2 2 2

Percentiles Catalizador I 5,0% = 89,07 15,0% = 89,21 25,0% = 90,355 50,0% = 91,985 75,0% = 94,45 85,0% = 94,72 95,0% = 95,39

89|1 90|49 91|0 92|7 93|2 94| 95| 96| 97|01

Catalizador II dato 1 dato 2 (dato2+dato3)/2 (dato4+dato5)/2 (dato6+dato7)/2 dato 7 dato 8

5,0% = 89,19 15,0% = 90,46 25,0% = 90,705 50,0% = 91,91 75,0% = 95,125 85,0% = 97,04 95,0% = 97,19

Los percentiles del segundo catalizador, están por encima de los percentiles del primero, indicando que quizá el rendimiento sea mayor; pero la mediana es mayor en el catalizador I. Los percentiles no son simétricos respecto de la mediana en ninguno de los dos catalizadores, la asimetría está más marcada en el segundo catalizador.

47

Tabla de distribución de frecuencias Catalizador I -------------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Frecuencia Clase Inferior Superior Marca Frecuencia Relativa Acumulada Rel. Acu. -------------------------------------------------------------------------------Menor o igual 89,0 0 0,0000 0 0,0000 1 89,0 92,0 90,5 4 0,5000 4 0,5000 2 92,0 95,0 93,5 3 0,3750 7 0,8750 3 95,0 98,0 96,5 1 0,1250 8 1,0000 Mayor 98,0 0 0,0000 8 1,0000 -------------------------------------------------------------------------------Media = 92,255 Desviación estándar = 2,38502

Catalizador II -------------------------------------------------------------------------------Límite Límite Frecuencia Frecuencia Frecuencia Clase Inferior Superior Marca Frecuencia Relativa Acumulada Rel. Acu. -------------------------------------------------------------------------------Menor o igual 89,0 0 0,0000 0 0,0000 1 89,0 92,0 90,5 4 0,5000 4 0,5000 2 92,0 95,0 93,5 2 0,2500 6 0,7500 3 95,0 98,0 96,5 2 0,2500 8 1,0000 Mayor 98,0 0 0,0000 8 1,0000 -------------------------------------------------------------------------------Media = 92,7325 Desviación estándar = 2,98345

Histograma

catalizador I

Frecuencia

4 2 0 2 4 89

91

93

95

97

99

catalizador II Diagrama de cajas: Catalizador I RI= 94.45 – 90.35 = 4.10 Q1 – 4.10 x1.5 = 84,2 Q3 + 4.10 x1.5 = 100.65 LI = 89,07 LS= 95.39

Catalizador II RI= 95.125 – 90.70 = 4.425 Q1 – 4.425 x1.5 = 84,06 Q3 + 4.425 x1.5 = 101.76 LI = 89,18 LS= 97.19

48

Diagrama de cajas

Catalizador I

Catalizador II

89

91

93

95

97

99

Las medianas son similares en los dos catalizadores. Ambos catalizadores presentan asimetría a la derecha. El catalizador II presenta mayor dispersión y mayor asimetría hacia la derecha. Cociente de varianzas: Intervalo de confianza Catalizador I Catalizador II -----------------------------------------------------------n 8 8 Media 92,255 92,7325 Mediana 91,985 91,91 Varianza 5,68831 8,90099 Desviación Estándar 2,38502 2,98345 Mínimo 89,07 89,19 Máximo 95,39 97,19 Rango 6,32 8,0 Primer Cuartil 90,355 90,705 Tercer Cuartil 94,45 95,125 Rango Intercuartílico 4,095 4,42 ------------------------------------------------------------

Radio de varianzas = 0,639065 f0.025,7,7 = 4.99 f0.975,7,7 = 0.2 Intervalo de confianza [0,127943; 3,19207] Contraste de hipótesis: Región crítica {F0< 0.2 } Ụ {F0 >4.99 } f0 = 0.63 no está en la región crítica aceptamos igualdad de varianzas. P-valor P(F7,7 >0.63) De las tablas P(F7,7 >1,7) = 0.25 P(F7,7 >0,58) = 0.75 0.25 < p-valor < 0.75 Apoya nuestra decisión de aceptar la hipótesis nula. Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 0,639065 P-value = 0,569131

Potencia P(0.5) = P(RC/(σ1/ σ2) = 0.5) = P (F0 < 0.2 /(σ1/ σ2) = 0.5) + P (F0 > 4.99 /(σ1/ σ2) = 0.5) = P(F7,7 < 0.2/0.25) + P(F7,7 > 4.99/0.25) = P(F7,7 < 0.8) +P(F7,7 >19.96) De las tablas P(F7,7 > 6,99) = 0.01 P(F7,7 > 19,96) < 0.01 P(F7,7 > 1,7) = 0.25 luego P(F7,7 > 1/1,7) = 0,75 P(F7,7 > 0,58) = 0,75 P(F7,7 < 0,58) = 0.25 De donde P(F7,7 < 0.8) > P(F7,7 < 0,58) = 0.25 P(0,5) > 0,25 49

Diferencia de medias: - 0.4775 t14,0.025 = 1,746 Intervalo de confianza asumiendo varianzas iguales S p = 2.67 -0,4775 +/- 2,89639 [-3,37389,2,41889] Contraste de hipótesis Región crítica {T0 0.23) > P(T14 >0.25) = 0.4 t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = -0,353591

P-value = 0,728914

Potencia (-0.5) = P(T0 < -1,746/μ1 – μ2 = -0.5) = P(T14 < -1.746 + 0.5/1.89) = P(T14 < -1.48) = P(T14 > 1.48) P(T14 > 1.34) = 0.1 P(T14 >.1.76) = 0.05 0.05 < P(-0.5) < 0.1 2.- En un proceso de fabricación de semiconductores ciertos problemas técnicos pueden generar un defecto funcional, un defecto menor o ningún defecto en la proporción 10%, 60% y 30%. Si suponemos que los efectos de 10 problemas técnicos son independientes. a) Calcular la probabilidad que 10 problemas técnicos generen 2 defectos funcionales y 5 defectos menores. b) Dar la distribución del nº de problemas técnicos entre 10 que no da como resultado defecto. Calcular su media y su varianza. (1punto) Solución: 10  8  P (2 def fun., 5 def meno, 3 sin def) =   0.12 x 0.6 5 x 0.33 = 0.0529  2  5  La variable es binomial de parámetros 10 y 0,3. Su media es 3 y su varianza 2.1 3.- En las siguientes preguntas elige la respuesta justificando la opción elegida (1 punto) 1. Si la probabilidad de error de tipo I de un contraste bilateral es de 0'02, entonces a) La probabilidad de cometer un error de tipo II es del 0'98. b) Se rechaza H0 para todo nivel de significación superior a 0'01. c) Se aceptará H0 el 98% de las veces. xd) Ninguna de las otras respuestas. 2.- Se denomina “nivel de significación” de un test de hipótesis xa) A la probabilidad de rechazar H0 cuando H0 es cierto. b) A la probabilidad de aceptar H0 cuando H0 es cierto. c) A la probabilidad de rechazar H0 cuando H0 es falso. d) A la probabilidad de aceptar H0 cuando H0 es falso. 3.- Un test de hipótesis es “estadísticamente significativo” si a) La hipótesis nula es correcta. b) La hipótesis nula es incorrecta. xc) Si el estadístico del contraste cae en la región de aceptación. d) Ninguna de las otras tres respuestas.

50

4.- En la Figura., se representan los residuos de un modelo de regresión frente al número de orden. De él se deduce

Studentized residual

Residual Plot 2 1 0 -1 -2 0

10

20

30

40

50

60

row number a) Que sería mejor hacer un ajuste parabólico. b) Que los residuos no son normales. c) Que no se ha tenido en cuenta una variable de clasificación. xd) Que los datos son heterocedásticos. 5.- Del siguiente contraste se deduce a) De la aplicación de este contraste no podemos obtener una conclusión acerca de la hipótesis. xb) El p-valor del contraste nos dice que podemos rechazar la hipótesis. c) El resultado del contraste es 42,9108 y se acepta la hipótesis. d) Ninguna de las otras tres respuestas. Analysis Summary Data variable: lanzamientos 53 values ranging from 1,0 to 8,0 Fitted geometric distribution: event probability = 0,321212 Goodness-of-Fit Tests for lanzamientos Chi-Square Test ---------------------------------------------------------------------------Frecuencia Frecuencia clase valor observada esperada Chi-Square --------------------------------------------------------------------------1 0 0 17,02 17,02 2 1 25 11,56 15,64 3 2 11 7,84 1,27 4 3 11 5,32 6,05 5 4 3 3,61 0,10 6 5 1 2,45 0,86 7 6, 7 1 2,80 1,15 8 >8 1 2,39 0,81 ---------------------------------------------------------------------------Chi-Square = 42,9108 with 6 d.f. P-Value = 1,2148E-7

51

Examen de Estadística: Segundo de Ingeniería Química: Segunda parte 18 de febrero de 2005. 1.- El peso de un caramelo tiene una distribución normal de media 5 gr. Y desviación estándar 0,25gr. Se empaquetan de 16 en 16 Calcular la media y la desviación estándar del paquete, así como la probabilidad de que su peso sea mayor de 85 gr. (1punto) Solución: El peso total es la suma de los pesos de los 16 caramelos P = X1 + X2 + … + X16 E(P) = 16x5 =80 gr. Var (P)= 16x 0.52 = 1 gr2 La variable peso sigue una distribución normal de media 80 y desviación estándar 1.  P  80 85  80   P (P > 85) = P   P( Z  5)  0 1   1 2.- Tres máquinas producen arandelas. El ritmo de producción de A es el doble que el de B y el mismo que el de C. Las arandelas producidas por cada máquina se van empaquetando en lotes que son colocados en un almacén a medida que se van produciendo. De las arandelas producidas por A, el 10% son defectuosas por grandes y el 5% por pequeñas. Para B, el 5% son defectuosas por grandes y el 10% por pequeñas. Para C, el 10% son defectuosas por grandes y el 10% por pequeñas. (1punto) Se extrae al azar un lote del almacén y se comprueba la validez de 20 arandelas del lote, resultando 3 defectuosas por grandes y ninguna por pequeña. a) Hallar la probabilidad de que se trate de un lote producido por la máquina A. b) Hallar la probabilidad de que de 10 arandelas elegidas al azar, 9 sean buenas y una defectuosa por grande. Solución: P(A) = 0.4 P(B) = 0.2 P(C) = 0.4 Probabilidades a priori Sea G el suceso la pieza es grande; P el suceso la pieza es pequeña ; N la pieza es buena; y H el suceso de un lote de 20 arandelas 3 son grandes, 0 pequeñas y 17 buenas. Se conocen las probabilidades condicionadas P(G/A) = 0.1 P(P/A) = 0.05 P(N/A) = 0.85 P(G/B) = 0.05 P(P/B) = 0.1 P(N/B) = 0.85 P(G/C) = 0.1 P(P/C) = 0.1 P(N/C) = 0.8 Nos piden encontrar P(A/H) una probabilidad a posteriori Aplicamos la fórmula de Bayes  20  P(H/A) =  0.13 x 0.8517 = 0.0719 3  20  P(H/B) =  0.05 3 x 0.8517 = 0.00899 3  20  P(H/C) =  0.13 x 0.817 = 0.0257 3 0.0719 x0.4 P(A/H) = = 0.704 0.0719 x0.4  0.00899 x0.2  0.0257 x0.4

Sea el suceso Y de 10 arandelas elegidas al azar, 9 son buenas y una grande Utilizamos la fórmula de la probabilidad total P Y/A) = 10 x 0,1x 0,859 = 0,2316 P (Y/B) = 10 x 0,05x 0.859 = 0,1158

52

P (Y/C) = 10 x 0,1x 0.89 = 0,1342 P (Y) = 0,2316 x 0,.4 + 0,1158 x 0,2,+ 0,134 x 0,4 = 0.1695 3.- En un libro de 400 páginas, el número de erratas de cada página sigue una distribución G (0.05) Aproximar la probabilidad de que el número total de erratas del libro esté comprendido entre 375 y 410. (1punto) Solución: El número total de erratas, N, es la suma de las erratas de cada página Sea Xi el número de erratas de la página i E (Xi) = 0,95/0,05 = 19 Var (Xi) = 0,95/(0,05)2 = 380 E (N) = 400x19 = 7600 Var (N) = 400x380 = 152000 Desviación estándar = 389,87 N es la suma de 400 variables independientes e igualmente distribuidas, aplicando el teorema central del límite 410  7600   375  7600 Z P (375  N  410)  P   P( Z  18,44)  P( Z  18,53)  0 389,87   389,87 4.- La Distribución beta es una distribución de una variable aleatoria X continua. Con los datos de las siguientes salidas responder a las preguntas (1punto) P(X