UNIVERSIDAD NACIONAL SAN ANTONIO ABAD DEL CUSCO ESCUELA DE POST-GRADO MAESTRIA EN INGENERIA CIVIL. CURSO: ESTADISTIC
Views 117 Downloads 9 File size 2MB
UNIVERSIDAD NACIONAL SAN ANTONIO ABAD DEL CUSCO
ESCUELA DE POST-GRADO
MAESTRIA EN INGENERIA CIVIL.
CURSO:
ESTADISTICA APLICADA.
Mgt. CLETO DE LA TORRE DUEÑAS Mgt. L. ALBERTO VERA CHAVEZ
Email: [email protected] CUSCO – PERU 2010.
CAPITULO I
INTRODUCCION
La Estadística es la ciencia que se ocupa de los métodos y procedimientos de colección, clasificación, organización, análisis, síntesis e interpretación de datos; siendo su característica que la distingue, la de hacer generalizaciones o inferencias en base a una muestra. En palabras sencillas podríamos decir que la estadística es la ciencia de los datos En términos generales la estadística aborda dos tipos de problemas: ♦ Resumir, describir y explorar datos. ♦ Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se escogió la muestra.
1.1 DIVISION DE LA ESTADISTICA Así, la estadística se divide en dos partes íntimamente relacionadas: Estadística Descriptiva.- Esta es la parte de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o reducida. Estadística Inferencial.- Esta rama de la estadística trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos.
2
El problema general de la Estadística
Muestra
Población
Inferencias
Que tan reales es.
Figura 1: Relación entre población y muestra.
1.2 CONCEPTOS BASICOS Población. Es cualquier conjunto de datos, objetivo de nuestro interés, sobre los cuales interesa observar una o más características. Esta puede ser finita o infinita. El tamaño de la población es el número de individuos que tiene Muestra. Una muestra es un conjunto de individuos de la población que refleja las características de ésta lo mejor posible. Si las características quedan bien reflejadas, se dice que la muestra es representativa. El tamaño de una muestra es el número de individuos que tiene, lo denotamos por n. Unidad de estudio. Es cada elemento que va a ser estudiado. Lo más normal es que se trate de individuos, pero no tiene por qué ser así. Data. Es cualquier medida resultado de haber observado una variable en una unidad de alguna población. Parámetro es una propiedad descriptiva de una población. Ejemplo media y varianza poblacional Estadístico es una propiedad descriptiva de una muestra., ejemplo media y varianza muestral Variable. Cualquier característica de Interés en el estudio. Variable cualitativa: Ordinal y Nominal Variable cuantitativa: Discreta y continua. Por otra parte, el reporte de las variables medidas requiere de los siguientes conceptos: Exactitud. Hace referencia a la cercanía con la que se encuentra la medición realizada con el valor real de la variable medida, esta relacionado con el concepto de la media. 3
Precisión. Hace referencia a la cercanía con que se encuentran un conjunto de mediciones realizadas sobre la misma variable, relacionado con el concepto de varianza.
1.3 VARIABLES ESTADISTICAS A las características objeto de estudio en la población se les llama variables, ya que pueden variar de un individuo a otro y se representara por una letra mayúscula: X, Y, Z,. . ., debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadísticas apropiadas.
Tipos de variables. Las variables estadísticas pueden ser de dos tipos: Variables cualitativas o atributos: describen cualidades y no toman valores numéricos, estas a su vez pueden ser: Nominales.- Las cualidades no presentan ningún orden. Ejemplo. Nombres y/o Razón Social de la empresa constructora.
Ordinales.- Este tipo de variables presentan orden Ejemplo. Nivel de riesgo de una obra Nivel Socioeconómico,
Variables cuantitativas: toman valores numéricos. A su vez pueden ser: • Discretas: Solo toman un número finito o infinito numerable de valores distintos (generalmente números naturales o enteros). Número de obras ejecutadas. Número de empresas que son calificadas como Micro y Pequeñas Empresas (MYPE). Número de empleados de un Municipio. • Continuas: Toman valores en un intervalo. Generalmente corresponden a medir magnitudes continuas.
4
Ejemplo. Los Sueldos de los trabajadores de las Micro Empresas. Monto de ejecución presupuestal. Saldo de balance.
Una característica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida.
1.4 MEDICION Se llama medición Tenemos las
al proceso de atribuir números a las características.
siguientes escalas de medición: nominales, ordinales,
cuantitativas de intervalo y cuantitativas de razón.
Escala nominal: la clave de estas escalas de medida es que sólo informan de la igualdad o desigualdad de los individuos en una característica, pero no de posibles ordenaciones, puesto que la característica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente distintas. Los números solo sirven para distinguir valores o categorías diferentes de la variable. Ejemplo: Nombres y/o Razón Social de la empresa ya sean
Personas Naturales y
Personas Jurídicas. 1=Aries y 2=Daz, esto simplemente es un proceso de codificación pero no significa que la Aries sea menor que Daz, ni el doble.
Escala Ordinal: Los números además de servir para distinguir reflejan un orden existente sobre los valores de la variable. Se obtiene clasificando objetos o arreglándolos en un orden con respecto a alguna variable común. La pregunta es simplemente, si el objeto tiene más o menos de esta variable que algún otro objeto. Ejemplo: El dato representado por 5 es superior al representado por 2 en “ excelente=5, bueno =4, regular =3 y malo = 2.” es cierto la relación de orden 2
6
[4, 5>
7
[5, 6>
1
[6, 7>
1
[7, 8>
1
[8, 9>
1
a) Halla la media, varianza, la desviación típica y coeficiente de variación.
54
b) Mediana c) Moda.
SOLUCION: I
fi
mi
mi2fi
mifi
Fi
[0, 1>
2
0.5
1
0.5
2
[1, 2>
2
1.5
3
4.5
4
[2, 3>
3
2.5
7.5
18.75
7
[3, 4>
6
3.5
21
73.5
13
[4, 5>
7
4.5
31.5
141.75
20
[5, 6>
1
5.5
5.5
30.25
21
[6, 7>
1
6.5
6.5
42.25
22
[7, 8>
1
7.5
7.5
56.25
23
[8, 9>
1
8.5
8.5
72.25
24
Total
24
40.5
92
440
a) Media, varianza, desviación y coeficiente de variación. Media. fi mi x
n
92 24
3.83
440 24
3.83
Varianza. mi2 fi S2
x2
n
3.66
Desviación.
s
3.66 1.91
Coeficiente de Variación. CV
S |X|
1.91 3.83
0.498
Mediana Me 3
12 7 *1 3.833 6
55
Moda
Mo
1 A 1 2
Li
1 7 6 1 1 7 1 6 Mo
4
1 1 6
*1 4.14
4. Se realizo un estudio de Caudales mínimos instantáneos anuales del río Piura en Puente Sánchez Cerro, obteniendo los siguientes resultados.
Caudales
Nro de años
mínimos 0-5
10
5-10
15
10-13
25
13-18
8
18-20
2
a) Calcule la media, varianza y la desviación. b) Determine la mediana y la moda c) Determine e interprete Q1, Q3, P10 y P90 d) Coeficiente de curtosis y de asimetría.
SOLUCION: Intervalo
fi.
Fi
mi
mi2fi
mifi
0-5
10
10
2.5
25
62.5
5 -10
15
25
7.5
112.5
843.75
10-13
25
50
11.5
287.5
3306.25
13-18
8
58
15.5
124
1922
18-20
2
60
19
38
722
56
587
6856.5
60
56
a) Media y varianza Media. fi mi x
587 60
n
9.78
Varianza. mi2 fi S2
6856.5 60
x2
n
9.782
18.63
Desviación.
s
18.63
4.31
b) Mediana y moda Mediana
Me
Determinamos
n 2
60 2
Me
n Fk 2 fK
Li
1
A
30
Li
n Fk 2 fK
1
A 10
30 25 3 10.6 25
Moda Mo
Li
1 A 1 2
1 25 15 10 1 25 8 17
Mo
Li
1 A 10 1 2
10 3 11.11 10 17
c) Determine e interprete Q1, Q3, P10 y P90
57
Para obtener los cuarteles se tiene la relación.
Qi
i.n Fk 4 fK
Li
1
A
Cuartil 1
Q1
1.n Fk 4 fK
Li
1
A 5
15 10 5 6.67 15
El 25% de los contadores presentan nivel de conocimientos de auditoria menores a 6.67
Cuartil 3
Q3
3.n Fk 4 fK
Li
1
A 10
45 25 3 12.4 25
Para obtener los percentiles se tiene la relación.
Pi
i.n Fk 100 fK
Li
1
A
Percentil 10
P10
Li
10.n Fk 100 fK
1
A 0
6 0 5 3 10
Percentil 90
P90
Li
90.n Fk 100 fK
1
A 13
54 50 5 15.5 8
58
d) Coeficiente de Asimetría.
Ap
x Mo s
9.78 11.11 -0.308 4.31
Puesto que Ap < 0 la distribución es asimétrica negativa o a izquierdas (desplazada hacia la izquierda).
Coeficiente de curtosis de fisher. K
Si k
Q3 Q1 P90 P10
0.5
12.4 6.67 0.5 -0.0416 15.5 3
0 , entonces la distribución es platicúrtica.
EJERCICIOS PROPUESTOS
1.
En una construcción se quiere preparar concreto con una resistencia mínima a la comprensión de 17.2MN/m2 .El mínimo a considerar será un valor que sea excedido por no menos del 96% de los resultados de la prueba .Los valores de la resistencia de 50 probetas se proporciona en la tabla siguiente.
22.3 18.2 24.8 23.5 19.8 27 25.9 29.2 24.1 24.3 21.7 23.4 23.3 28.3 23.4 20 26.1 15.2 20 22.8 32 25.6 20.8 23.2 26.9 22.8 22.1 21.2 23.4 18.1 23.4 23 23.6 25.4 22.2 17.8 28 28.8 22.1 20.1 20.8 23 28.2 23 30.4 25.1 24.8 19.9 18.2 25.1 a) Calcule la media, y el percentil 96. b) Diga si las especificaciones requeridas son satisfactorias.
2.
Una muestra de pequeñas empresas se clasifica en función de su antigüedad en el mercado y del porcentaje de deudas sobre el capital que presentan, con los siguientes resultados:
59
Deudas
Empresas antiguas
Empresas Nuevas
0-15
19
29
15-30
13
10
30-50
7
11
50-70
4
32
En base a los resultados, ¿ Puede admitirse que el porcentaje de deudas de las empresas es independiente de su antigüedad?. Fundamente su respuesta.
3.
En una empresa donde los salarios tienen una media de 700 dólares y una desviación estándar de 150 dólares, el sindicato solicita un reajuste de 25% más un incentivo de 10 dólares. El Directorio acoge parcialmente la petición rebajando los salarios solicitados en un 10%.
a) El Sindicato se declara satisfecho en sus negociaciones si el sueldo promedio final aumenta por lo menos en un 20% respecto de su valor actual. ¿Se logra esto aceptando la proposición del Directorio? Justifique su respuesta. b) El Sindicato pretende con su proposición aumentar la homogeneidad de los
sueldos de sus afiliados ¿Se logra este objetivo aceptando la proposición del Directorio? Fundamente su respuesta. c)
Si en la Empresa laboran 500 funcionarios ¿En qué porcentaje aumentó la planilla de sueldos respecto a la planilla inicial?.
4.
Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus empleados son los siguientes:
60
Sección A Ingresos ($)
Frecuencia
80-100)
30
100-120)
80
120-140)
40
140-160)
10
160-180)
4
180-200)
1
Sección B Ingresos ($)
Frecuencia
60-90)
10
90-120)
20
120-150)
50
150-180)
20
180-210)
15
210-240)
10
240-270)
4
Calcular la media aritmética y varianza de la sección A y B. Compare los ingresos.
5. El registro de precipitación máxima en 24 horas en una estación, desde 1948 hasta 1997 se muestra en la tabla
61
Año
Precipitación
Precipitación
Precipitación
Máxima
Máxima
Máxima
en 24 hrs.
Año
en 24 hrs.
Año
en 24 hrs.
1948
34.3
1965
19.5 1982
50.2
1949
29.3
1966
10.5 1983
32.9
1950
6.2
1967
36.5 1984
14.8
1951
17.8
1968
15 1985
18.4
1952
11.2
1969
17.6 1986
48
1953
7
1970
16.8 1987
11.1
1954
8
1971
10.5 1988
30.8
1955
29.8
1972
55.5 1989
14
1956
8.3
1973
11.1 1990
17.1
1957
37
1974
15.3 1991
17.2
1958
22
1975
17.9 1992
73.8
1959
13.5
1976
37.3 1993
19
1960
18
1977
62 1994
17.3
1961
34.5
1978
29.5 1995
17.3
1962
31
1979
26.9 1996
7.3
1963
29
1980
16.7 1997
45.6
1964
8.6
1981
16.2
Calcule la media aritmética, varianza y desviación estándar.
6.
En las siguientes tablas se registran los sueldos quincenales (en dolares) de 50 obreros de dos constructoras Constructora A Sueldo
Constructora B fi
sueldo
fi
45 – 55)
18
45 – 55)
12
55 – 65)
24
55 – 65)
28
65 – 75)
26
65 – 75)
30
75 – 85)
20
75 – 85)
22
85 – 95)
12
85 – 95)
8
62
a) ¿En qué constructora hay mayor dispersión relativa de suledos? b) Un obrero que gana 140 mensuales. ¿Dónde estaría mejor remunerado con respecto a sus compañeros? c) ¿Cuál de las dos distribuciones es más simétrica?
7.
En enero el sueldo promedio de los obreros de una empresa era de $560000 y el sueldo de los empleados $1270000. En septiembre debido a un reajuste, cada obrero recibió un 15% más que su sueldo anterior más un bono de $50000, mientras que cada empleado recibió un aumento de $120000. En diciembre se produjo un nuevo reajuste y los obreros quedaron con un sueldo promedio de un 10% superior que el sueldo promedio en septiembre y el sueldo promedio de todos los trabajadores de la empresa es ahora de $980260. Si se sabe que el número de obreros es el triple del número de empleados, proporcione la siguiente información al gerente general de la empresa. a) ¿Cuál es el sueldo promedio de los empleados en diciembre y en qué porcentaje aumentó con respecto a septiembre? b) ¿Cuál es el sueldo promedio de todos los trabajadores de la empresa en septiembre.
8.
En la estación se cuenta con los siguientes valores de precipitación diaria máxima en un período de tiempo. Obtener las características que describen la serie (media, mediana, varianza, desvío y coeficiente de variación).
125 143 123 562 425 316 136 143 425 465 213 143 312 480 116 259 269 425 218 312 489 476 619 524 391 425 143 432 213
63
CAPITULO IV
DISTRIBUCIONES BIDIMENSIONALES
Si resumir la información de una variable es de por si interesante, en investigación lo es mucho más el poner de manifiesto la posible relación entre dos de ellas. El análisis de la relación de dos variables, X e Y, depende del tipo de variables y Según sean los tipos de cada una de ellas se usa técnicas estadísticas diferentes.
4.1 CUALITATIVA-CUALITATIVA. Cuando las variables de estudio son discretas con poca
cualitativas (categóricas) o cuantitativas
modalidades, se suele presentar las observaciones de las
variables X e Y, mediante pares ordenados (xi, yi), esta forma de presentaciones se denomina tablas de contingencia. Las tablas de contingencia son de doble entrada organizada por filas y columnas y donde se presenta la distribución de frecuencias conjuntas de las dos variables. Dada una variable bidimensional ( X, Y ), consideramos una muestra de tamaño n en la que X toma k valores distintos, x1, . . . , xk, e Y toma l valores distintos, y1, . . , yl, obtenemos, por tanto, observaciones del tipo (xi, yj). La frecuencia absoluta de un valor (xi, yj) es el número de veces que dicho valor aparece en la muestra. Se representa por fij , se cumple k
l
fij
n
i 1 j 1
64
La frecuencia relativa de un valor (xi, yj) es el cociente de la frecuencia absoluta fij entre el tamaño de la muestra n, se representa por hij fij , n
hij
k
l
se cumple:
hij
1
i 1 j 1
Distribuciones marginales Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional.
fi.
Frecuencia absoluta marginal de xi,
fi 2 fil
fi1
l
fij j 1
Frecuencia relativa marginal de xi,
hi .
Frecuencia absoluta marginal de yj,
f. j
fi . n f 2 j f kj
f1 j
k
fij i 1
Frecuencia relativa marginal de yj,
h. j
f. j n
Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuación, en la que tienen cabida las frecuencias marginales (representadas en la última fila y última columna). Puede ser de frecuencias absolutas o relativas.
Y
y1
y2
.....
yl
ni.
x1
f11
f12
.....
f1l
f1.
x2
f21
f22
.....
f2l
f2.
..
..
..
.....
..
..
fk2
.....
fkl
fk.
f.2
.....
f.l
n
X
xk n.j
fk1 f.1
65
Ejemplos
1. El gerente de ventas de la firma A desea determinar el comportamiento de las ventas de cuatro productos (I, II, III y IV), en función de la clase de clientes clasificados en cuatro grupos. Una muestra aleatoria de las ventas suministro la siguiente información.
Grupo de
Producto
clientes
I
II
III
IV
Profesionales
30
35
55
40
Comerciantes
155
50
125
80
Obreros
130
30
105
50
Amas de
35
15
20
45
casa ¿Las ventas de los cuatro grupos son homogéneas?
Solución Producto Grupo de clientes Profesionales Comerciantes Obreros Ama de casa Total
Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje
I
II
III
IV
30 18.8% 155 37.8% 130 41.3% 35 30.4% 350 35.0%
35 21.9% 50 12.2% 30 9.5% 15 13.0% 130 13.0%
55 34.4% 125 30.5% 105 33.3% 20 17.4% 305 30.5%
40 25.0% 80 19.5% 50 15.9% 45 39.1% 215 21.5%
Total 160 100.0% 410 100.0% 315 100.0% 115 100.0% 1000 100.0%
66
160 140 120 100
I
80
II III
60
IV
40 20 0 Profesionales
4.2
Comerciantes
Obreros
Amas de casa
CUALITATIVA-CUANTITATIVA. Supongamos que tenemos
datos numéricos
para varias categorías, por
ejemplo en un experimento donde hacemos mediciones numéricas en dos o más grupos. En estos casos, lo que se realiza es un estudio descriptivo de la variable numérica
en cada una de las muestras y se comparamos los
resultados.
Ejemplo Una empresa
dedica al rubro de ingeniera, decide analizar el rendimiento
económico porcentual, obtenido en inversiones en 4 áreas geográficas. Para ello selecciona muestras de sus últimas inversiones, obteniendo los siguientes resultados.
Tasas de Rendimiento (%) C
B
D
A
4.6
2
7
7.9
2
7.4
4.5
6.8
6.8
1.8
11.6
5.8
4.2
3.2
6
9.2
1.6
4
6.8
11
67
¿Son las tasas medias de rendimiento (%) en los ares A, B, C y D diferentes? Solución. Nivel de Rendimiento
Mean
Variance CoefVar Median
A
8.140
4.158
25.05
7.900
B
3.68
5.13
61.56
3.20
C
3.840
4.468
55.05
4.200
D
7.18
7.07
37.04
6.80
12
Tasas de rendimiento
10
8
6
4
2 A
4.3
B C Nivel de rendimiento
D
CUANTITATIVA-CUANTITATIVA. Análisis de dos variables cuantitativas y establecimiento de una relación entre ellas. La forma mas sencilla de estudiar la posible asociación entre estas variables es el diagrama de dispersión (Nube de puntos). Si reconocemos una tendencia, entonces el interés ahora será el análisis de regresión.
Media y varianza La información de las dos variables X e Y se puede resumir usando la media y la varianza como se muestra a continuación: Media de la variable X:
x
fi xi n
68
Media de la variable Y:
fi yi
y
Varianza de la variable X: s
n fi xi2
2 x
n fi yi2
Varianza de la variable Y: s y2
n
x
2
y
2
La covarianza Es una medida de la asociación lineal existente entre dos variables. Resume la información contenida en el diagrama de dispersión. Presenta la siguiente expresión:
cov( x, y)
sxy
fi xi yi
x. y
n
Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la asociación existente entre distintos pares de variables. Para dar solución a este problema se obtiene el coeficiente de correlación.
Correlación Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional.
Coeficiente de correlación lineal Es un número que mide el grado de dependencia entre las variables X e Y. Se mide mediante la siguiente fórmula:
r
s xy s x .s y
Su valor está comprendido entre – 1 y 1. Si r
= -1 ó r = 1 todos los valores de la variable bidimensional se
encuentran situados sobre una recta.
69
Si – 1< r < 0 se dice que las
variables X e Y están también en
dependencia aleatoria. La correlación es negativa. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia aleatoria. La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0.
Análisis de Regresión Regresión: conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas también deberían ser cuantitativas, sin embargo algunas de ellas podrían ser cualitativas.
Modelo de regresión. Ecuación que representa la relación entre las variables Y
X
Estimación de la línea de regresión usando Mínimos Cuadrados Se debe Minimizar el error cuadrático medio: n
Q
n 2 i
,
e i 1
xi )2
( yi i 1
n
ˆ
n
n
xi yi i 1
n
xi i 1 n
n
xi2 (
n i 1
yi i 1
xi ) 2
S xy S xx
i 1
ˆ
y
ˆx
La pendiente ˆ , indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto ˆ , indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable pensar que el rango de valores de x incluye a cero.
70
A partir de la recta Yˆ
ˆ X podemos calcular los valores de y conocidos
ˆ
los de x. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1, las estimaciones realizadas coincidirán con los valores reales.
Ejemplos; 1.
Se realiza un estudio respecto de la influencia que presenta la intensidad de la fuerza aplicada (X) al cable de acero, en el alargamiento (Y) que esta presenta ,La información se muestra a continuación.
X 14.8 15.2 14.4 14 14.7
12
13.2
14 14.4 12.4 14.8
16 12.67 15.3 13.3 12.7
14 14.4 14.8 13.2
16 12.7 15.3
a)
Trace un diagrama de dispersión.
b)
Ajuste una recta de regresión.
c)
Calcule la correlación lineal e interprete dicho valor.
16.4 12.4
16 13.3 13.33
Solución: Scatterplot of Y vs X 16
15
Y
Y
15.2
14
13
12 12
13
14
15
16
17
X
Resumen de calculos.
71
12
X
xi
x
yi
s
xi2
s
N
x
yi2
2 y
2
2
Y
14.8
14
207.2
219.04
196
15.2
14.67
222.984
231.04
215.2089
14.4
12
172.8
207.36
144
15.2
16
243.2
231.04
256
13.2
12.67
167.244
174.24
160.5289
14
15.33
214.62
196
235.0089
14.4
13.33
191.952
207.36
177.6889
12.4
12.67
157.108
153.76
160.5289
14.8
16
236.8
219.04
256
14
12.67
177.38
196
160.5289
14.4
15.33
220.752
207.36
235.0089
14.8
16
236.8
219.04
256
13.2
13.33
175.956
174.24
177.6889
16.4
13.33
218.612
268.96
177.6889
12.4
12
148.8
153.76
144
213.6
209.33
2992.208
3058.24
2951.8801
3058.24 14.242 1.11 15
2
y
N xi yi
sxy
X
209.33 13.96 ; 15
N
2 x
X.Y
213.6 14.24 ; 15
N
y
Y
2951.88 13.962 1.91 ; 15
2
2992.208 (14.24).(13.96) 0.69 15
x. y
N
Recta de regresión n
ˆ
n
n
xi yi i 1 n
n
xi i 1 n
xi2 (
n i 1
yi i 1
xi )2
S xy S x2
0.69 1.11
0.62
i 1
72
ˆ
y
ˆ x 13.96 0.62(14.24) 5.13
Yˆ
ˆ
ˆX
r
sxy sx .s y
5.13 0.62 X
0.69 1.11. 1.91
0.47
73
Ejercicios propuestos.
1. En las siguientes tablas se presentan las remuneraciones de obreros y empleados de la empresa El Progreso en el mes de Abril de 2010 (en dolares).
OBREROS
EMPLEADOS
Remuneraciones Frecuencias
Remuneraciones Frecuencias
200 - 250
30
700 - 750
10
250 - 300
50
750 - 800
25
300 - 350
85
800 - 850
15
350 - 400
55
850 - 900
5
400 - 450
30
900 - 950
5
a) Se afirma que la remuneración promedio de los empleados es mayor en un 30% respecto a la remuneración promedio de los empleados. ¿Está usted de acuerdo? b) ¿Cuál es la remuneración más frecuente de los obreros y de los empleados? c) ¿Entre qué valores se encuentra el 50% central de las remuneraciones de los empleados? d) Si los obreros han recibido en Mayo una remuneración promedio de 391,2 dólares por efecto de un reajuste ¿cuál fue el aumento porcentual de reajuste?
2. Un especialista trabaja como corredor de bolsa para una empresa. Sus registros muestran que las tasas de rendimiento ( en porcentajes) de dos acciones para 8 meses seleccionados fueron de :
Acciones A
15.5
3.6 21.7
27.2
7.8
2.2
5.0
12.2
Acciones B
4.5
6.2
7.2
3.5
4.2
4.1
12
5.5
a) En que acción invertiría la empresa, si el interés es tener un rendimiento mas alto. b) Que acción debería aconsejar el especialista a la empresa que prefieren menos riesgo.
74
3. Se realizo pruebas de laboratorio para determinar el contenido de asfalto sobre la elasticidad y la permeabilidad de concreto asfaltado de clasificación abierta. Se prepararon 4 especimenes de concreto con cada uno de los siguientes contenidos de asfalto (porcentaje del peso total de la mezca): 3, 4, 5, 6, 7 y 8 . Se determino la permeabilidad al agua de cada espécimen de concreto haciendo fluir sobre el espécimen agua al que se le extrajo el aire y midiendo la perdida de agua. Las mediciones de permeabilidad fueron:
Contenido de asfalto (%)
3
4
5
6
7
8
Permeabilidad en pulgadas por
1440 1293 1210 822 585 208
hora a. Estimar la ecuación. b. Prediga la permeabilidad para un contenido de asfalto de 6.5.
4. Los siguientes datos provienen del numero de torsiones necesarias para romper una barra ( Y) hecha con cierto tipo de aleación y el porcentaje (X) del metal A. X
5
5
10
10
15
15
20
Y
68
60
40
38
31
35
18
Ajustar el modelo de regresión.
5.
Una gran compañía llevó a cabo un estudio para ubicar las variables que pudieran determinar el sueldo de un egresado universitario dos años después de haberse graduado como Técnico Superior Universitario en un área de ingeniería. Los datos recogidos se presentan en la siguiente tabla: (La columna del sueldo es en cientos de miles de bolívares.)
Edad Sexo E. Civil
Inglés Sueldo
1
24
F
C
A
6,75
2
25
M
C
M
6,90
3
26
M
S
B
6,90
4
27
F
C
B
6,80
5
27
M
D
A
7,10
6
27
F
C
M
6,50
75
7
27
M
S
A
7,25
8
25
F
C
B
6,80
9
23
M
S
B
6,75
10
24
M
S
B
6,80
11
26
F
C
M
6,75
12
29
F
D
M
7,00
13
25
M
C
A
7,15
14
31
F
D
A
7,50
15
26
M
S
B
6,20
16
24
F
D
M
7,40
17
26
F
C
B
6,70
18
28
F
S
M
6,95
19
25
M
C
B
6,95
20
29
M
C
M
7,10
a. Utilice la técnica de estadística descriptiva más apropiada para analizar cada variable individualmente. Interprete lo obtenido. b. Realice diagramas de cajas que le ayuden a visualizar como influye cada una de las variables en el sueldo que gana el individuo. c. Como futuro Técnico Superior en el área Administrativa, ¿cuál seria la(s) características que usted debería tomar en consideración para obtener el sueldo al que usted aspiraría al egresar?
6.
Se desea estudiar la relación entre los aumentos de precios y los salarios en 8 empresas tomadas al azar, tal que se define “x: % de aumento de salarios” e “y: % de aumento de precios”
x 169.3,
x2 3630.89,
xy 2731.82,
y 126.9,
y2 2498.01
a) Calcular la recta de ajuste e interpretar las componentes en función del problema b) ¿Qué porcentaje del análisis queda explicado por la recta de regresión? Que podría Ud. Decir al respecto? c) Estimar el porcentaje de aumento en los precios, si se produce un aumento del 20% en los salarios, es lógico estimar dado el resultado obtenido en b)
76
7. Suponga que usted tiene a su cargo el dinero de la región, se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en millones de dólares): Suministro de
Producto Nacional
dinero
Bruto
2
5
2.5
5.5
3.2
6
3.6
7
3.3
7.2
4
7.7
4.2
8.4
4.6
9
4.8
9.7
5
10
(a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero. (b) ¿Cómo interpreta la pendiente de la línea de regresión?. (c) Calcule e interprete el error estándar de la estimación.
77
CAPITULO V
PROBABILIDADES
El Cálculo de Probabilidades se ocupa de estudiar ciertos experimentos que se denominan aleatorios, cuya característica fundamental es la incertidumbre del resultado, esto significa que es imposible predecir los resultados porque hay más de uno posible. En nuestra vida cotidiana asociamos usualmente el concepto de probabilidad a su calificativo
probable, considerando probable
a aquellos eventos en los que
tenemos alto grado de creencia en su ocurrencia. En esta línea probabilidad es un concepto asociado a una medida del azar. El objetivo de la probabilidad es cuantificar las posibilidades que tengan ciertos eventos inciertos.
5.1 EXPERIMENTO ALEATORIO. Es una acción que da lugar a resultados identificables y se caracteriza por:
Todos los posibles resultados son conocidos previamente.
Repeticiones en situaciones análogas pueden dar resultados diferentes.
No se puede predecir el resultado del mismo antes de realizarlo, es decir, no se sabe cuál de los posibles resultados aparecerá al final. Los experimentos pueden ser aleatorios o deterministas. Aleatorio significa relativo a todo acontecimiento incierto, por depender de la suerte o del azar, mientras que los deterministas son aquellos que se caracterizan por el hecho de que las mismas causas producen los mismos efectos.
78
Espacio muestral. Es el conjunto de todos los resultados posibles del experimento y se denota por . A cada elemento de
se denomina punto muestral w , es decir:
w / w es un punto muestral . Evento o Suceso Aleatorio. Un evento aleatorio es un subconjunto del espacio muestral y se denota con letras mayúsculas. El evento seguro El evento imposible
, es aquel que ocurre siempre al realizar el experimento. , es aquel que no ocurre nunca.
Lo s eventos elementales solo tienen un punto muestral. El evento complementario Ac , esta dado por todo los puntos muestrales que no están en A
5.2 OPERACIONES DE EVENTOS. Unión de eventos: Dados dos eventos A y B de un mismo espacio muestral su unión se representa por A
B y es el evento que contiene los elementos que
están en A o en B o en ambos. El evento A
B ocurre si al menos uno de los
dos eventos ocurre. Intersección de eventos: Dados dos eventos A y B de un mismo espacio muestral su intersección se representa por A
B y es el evento que contiene
los elementos que están en A y B al mismo tiempo. El evento A
B ocurre cuando ambos eventos ocurren simultáneamente.
Evento Complemento: El complemento de un evento A se representa por Ac y es el evento que contiene todos los elementos que no están en A. El evento Ac ocurre si A no ocurre.
5.3
DEFINICIÓN CLÁSICA DE PROBABILIDAD: La probabilidad de un suceso A se calcula como el número de casos favorables al suceso A, partido por el número de casos posibles del experimento aleatorio. p( A)
casos favorables casos posibles
79
5.4
DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD. La probabilidad es una función que asigna a cada suceso A
un número
real que varia entre 0 a 1. P:
y que verifica: A
i) 0
p(A) A
p( A) 1
ii) p
1
iii) Si A y B son sucesos incompatibles,
p A B
p A
p B
Como consecuencia de estos tres axiomas, se verifican además las siguientes propiedades: iv)
p( Ac ) 1 p A
v)
p( )
vi)
Si A
0 B,
vii) P( A \ B)
p( A)
P( A) P( A
p( B) B) ,
A,B
viii) Si A 1 , A 2 , ...... , A n son incompatibles dos a dos, entonces
p A1 ix)
A2
Si A, B
5.5
An
p A1
p A2
... p An
son dos sucesos cualesquiera, entonces
p A B x)
...
p A
p B
p A B
Si A, B
son dos sucesos cualesquiera, entonces
p( A)
Bc
p A
p A
B
PROBABILIDAD CONDICIONADA. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habria que referirse a la probabilidad
de A condicionada a B como la probabilidad de que ocurra A sabiendo que ha ocurrido B, la denotamos por P(A|B) P( A | B)
P( A B) , P(B) P( B)
p(A
B) =p( A) p( B ) A
0.
En consecuencia,
80
Independencia. Dos sucesos A, B
se dicen independientes si:
p( A)
p( A | B) , o bien p( B)
p( B | A)
Es decir, se cumplirá que:
p( A
B)
p( B). p( A)
Si A y B son independientes, entonces A y B C son independientes, A C y B son independientes, y A C y B C son independientes. Observación. Decimos que n sucesos A1, A2, An son independientes si para cada par
(Ai, Aj), P( Ai
P( Ai
Aj
Ak )
P( A1
A2
Aj )
P( Ai ) P( Aj ) si i
P( Ai ) P( Aj ) P( Ak ) si i
j
j , si para cada trío (Ai, Aj, Ak)
k y así sucesivamente. En general,
P( A1) P( A2) P( An)
An)
Teorema de la probabilidad compuesta. Dados n sucesos A 1 , A 2 , ......., A se verifica: P( A1
A2
An)
P( A1) P( A2 | A1) P( A3 | A1
A2) P( An | A1
A2
An 1)
Teorema de la probabilidad total. Si suponemos que los eventos A1, A2, A3, ...., An, forman una partición de un espacio muestral su unión es
; esto es, que los eventos Ai son mutuamente excluyentes y
.
A1
A2
…
An
81
Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que : i) A1 A2
j ( disjuntos dos a dos)
i
n
ii)
Ai
i 1
iii) p( Ai ) 0 ,
i 1,....n .
La probabilidad de un suceso B cualquiera es: n
p ( B)
p( Ai) p( B | Ai) i 1
p ( B)
p( A1 ) p( B
A1
)
p( A2 ) p( B
A2
) ....... p( An ) p( B
An
)
Teorema de Bayes. El procedimiento que se utiliza para encontrar probabilidades posteriores, a partir de probabilidades previas, se llama regla Bayesiana. Las probabilidades apriori o previas se conocen antes de obtener información alguna del experimento en cuestión. Las probabilidades aposteriori se determinan después de conocer los resultados del experimento. El teorema de Bayes consiste en un método para encontrar la probabilidad de una causa específica cuando se observa un efecto particular. Esto es, si el evento B ha ocurrido, ¿Cuál es la probabilidad de que fue generado por el evento A1 (que es una causa posible ) o por el A2 (otra causa posible)?. Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que p( Ai ) 0 , i 1,....n , entonces para un suceso B cualquiera se verifica:
p( Ai | B)
p( Ai | B)
p( Ai B) p( B)
p( A1 ) p( B
A1
)
p( Ai) p( B | Ai) n i
p( Ai ) p( B | Ai) 1
, i = 1, ...., n.
p( Ai ) p( B | Ai) p( A2 ) p( B ) ....... p( An ) p( B ) A2 An
82
Problemas Resueltos.
1) Un municipio analiza tres proyectos de irrigación presentados por una consultora para confirmar o descartar la presencia de omisiones de tipo técnico. a) Cual es el espacio muestral. b) ¿Cual es la probabilidad de que dos de los proyectos presentados presenten omisiones técnicas. c) Cual es la probabilidad de que el primer proyecto presente una omisión técnica y la ultima no presente. d) Cual es la probabilidad de que por lo menos un proyecto presente algún tipo de omisión técnica.
Solución. Denotemos con P, si el proyecto presenta una omisión tecnica y con N, si el proyecto no presente ningún tipo de omisión . a)
PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3 , N1P2 P3 , N1P2 N3 , N1 N2 P3 , N1 N2 N3
b) Sea el evento A: Dos proyectos presentan omisiones tecnicas
A
PP 1 2 N3 , PN 1 2 P3 , N1P2 P3 p( A)
n( A) n( )
3 8
c) Sea el evento B: Primer proyecto presenta omisión y el último no presenta.
C
PP 1 2 N3 , PN 1 2 N3
83
n(C ) n( )
p(C )
2 8
d) Sea el evento D: Por lo menos un proyecto presenta omisiones tecnicas.
D
p( D)
PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3 , N1P2 P3 , N1P2 N3 , N1N2 P3
n( D ) n( )
7 8
2) El gerente de una empresa constructora con el propósito de incrementar sus utilidades, diseña tres estrategias de marketing A, B y C. En el 40% de las sucursales, se aplica la estrategia A , de estas en el 1% de los casos no se presentan incrementos en las utilidades, en el 30% de las sucursales se aplica la estrategia B y en el 2% no se presentan incrementos en las utilidades. En el resto de las filiales se utiliza la estrategia C, observándose que en el 3% de las mismas no se presentan incrementos en las utilidades. Si
se selecciona aleatoriamente una filial de la
empresa. Cual es la probabilidad de que : a)
No presente incrementos en las utilidades.
b)
No presente incrementos en la utilidad y se haya aplicada la estrategia B.
c)
La filial haya empleado la estrategia C, dado que no se presento incremento en su utilidad.
Solución No incrementa 1% 99%
Incrementa
A 40%
No incrementa
2% Estrategia
30%
98% B
Incrementa 3%
30%
No incrementa
C 97%
Incrementa
84
Sean los eventos. A: La filial de la empresa, aplica la estrategia A B: La filial de la empresa , aplica la estrategia B C: La filial de la empresa , aplica la estrategia C D: No se presenta incrementos en la utilidad.
p( A) p( D ) A
a) p( D)
p( B) p( D ) B
p(C ) p( D ) C
p( D) 0.4*(0.01) 0.3*(0.02) 0.3*(0.03) 0.019 1.9%
b) p(B
D) =p( B) p( D ) B
p(B
D) =0.3*(0.02) 0.006 0.6%
c) p(C | D)
p(C D) p ( D)
p(C | D)
p( A) p( D | A)
p(C ) p( D | C ) p( B) p( D | B) p(C ) p( D | C )
0.3*(0.03) 0.4*(0.01) 0.3*(0.02) 0.3*(0.03)
0.473 47.3%
3) Los siguientes datos pertenecen a 50 empresas de construccion de la ciudad de Cusco divididos en 3 categorías y clasificados según tengan o no deudas impositivas: IMPUESTOS
CATEGORIAS A
B
C
Al día
7
6
12
En mora
9
8
8
Si se elige una empresa al azar ¿cuál es la probabilidad de que: a) esté en mora? b) pertenezca a la categoría A o B? c) pertenezca a la categoría C o esté en mora? d) pertenezca a la categoría A y esté en mora? e) Dado que el pago de sus impuestos esta al día. ¿ Cual es la probabilidad de que la empresa pertenezca a la categoría B?. Solucion. 85
Sean los eventos: A: Empresa pertenece a la categoría A. B: Empresa pertenece a la categoría B. C: Empresa pertenece a la categoría C. D: Impuestos en mora. E: Impuestos al día. n( D ) n( )
a) p( D) b) p( A p( A
B)
B)
c) p(C p(C
D)
d) p( A
25 50
p( A)
16 14 50 50
D) 20 50
D)
e) P ( B | E )
p(C )
0.5 p ( B) 0 50
p( A 30 50
p ( D)
B)
n( B ) n( )
n( A B ) n( )
0.6
p(C
25 8 50 50
37 50
0.74
n( A D ) n( )
9 50
0.18
P( B E ) P( E )
n( A) n( )
D)
n( B E ) n( ) n( E ) n( )
n(C ) n( )
n( D ) n( )
n( B E ) n( E )
n(C D) n( )
8 25
4) Se hizo una auditoria a las obras ejecutadas por tres municipios A, B, y C, para tal efecto se analiza 3 obras ejecutadas por el municipio A, 2 cuentas del municipio B y 5 obras ejecutadas por el municipio C. La probabilidad de que se presenten
irregularidades en el municipio
A es de 1/3, que se presente en
municipio B es de 2/3 y que se presente en municipio C es de 1/7. Se analiza una obra aleatoriamente y se encuentra que hay irregularidades. ¿Cuál es la probabilidad de que se trate del municipio C? Solución Sean los eventos A: Obras ejecutadas por el Municipio A. B: Obras ejecutadas por el Municipio A. C: Obras ejecutadas por el Municipio A. E: La obra ejecutada presenta irregularidades.
86
E
1/3
A
D
3/10
E
2/3 2/10
B D
5/10
1/7
E
C D
p(C | E )
p(C E ) p( E )
p(C | E )
3 1 * 10 3 3 1 2 2 5 1 * * * 10 3 10 3 10 7
p( A) p( E | A)
p(C ) p( E | C ) p( B) p( E | B) p(C ) p( E | C )
21 32.8% 64
87
Problemas Propuestos.
1. En la construcción de unas determinadas obras pueden aparecer anomalías debidas a dos causas que son independientes: Fallos de cimentación y mala calidad de los materiales. La primera ocurre con probabilidad del 4% y la segunda con probabilidad del 3%. a) Calcular la probabilidad de que en una determinada obra no aparezca ninguna anomalía. b) Calcular la probabilidad de que aparezcan fallos de cimentación y no mala calidad de los materiales. c) Si se detecta la presencia de anomalías, la construcción puede verse afectada con un desplome en un plazo de tiempo con las siguientes probabilidades: 0.1 cuando no aparece ninguna de las anomalías y 0.8 cuando aparece alguna de las anomalías. Interprete esta información adicional en términos de sucesos y probabilidades. Calcular la probabilidad de que el edificio se desplome. Si el edificio se ha desplomado ¿cual es la probabilidad de que haya sido producido por alguna anomalía? d) Una determinada empresa realiza 5 obras cada año ¿Cual es la probabilidad de que en 5 años al menos tres obras sufran anomalías?
2. Una empresa compra cierto tipo de materiales de construcción que es suministrada por 3 proveedores: el 45% de los materiales de construcción son compradas al 1er proveedor resultando defectuoso el 1%, el 2 do proveedor suministra 30% de los materiales de construcción y de ellas es defectuoso el 2%. Las restantes provienen del 3er proveedor, siendo defectuoso el 3% de las mismas. En un control de recepción de artículos se selecciona un material de construcción al azar y es defectuosa. Calcular la probabilidad de que la haya suministrado el 2do proveedor.
3. Un proceso se puede ejecutar con uno de tres maquinarias posibles, digamos A, B y C. En el 20% de los casos se emplea la maquinaria A, mientras que las maquinarias B y C son usados el mismo número de veces. En algunas ocasiones 88
en que se realiza el proceso se producen atrasos. Esto ocurre el 10% de las ocasiones en que se usa la maquinaria A, siendo estos porcentajes del 15% en el caso en que se aplica la maquinaria B y el 5% en el caso en que se usa la maquinaria C. a) ¿En qué porcentaje de las ejecuciones del proceso no se producen atrasos? b) ¿Qué porcentaje de los atrasos de las ejecuciones del proceso son atribuibles a la maquinaria B? c) Elegida, al azar, una ejecución ¿Qué probabilidad hay que no tenga retraso en su ejecución y corresponda al uso de la maquinaria A o C?
4. Las previsiones sobre la inflación de un determinado país para el próximo año la sitúan por debajo del 2% con probabilidad 0,65, entre el 2% y el 3% con probabilidad 0,25 y por encima del 3% con probabilidad 0,1. Si la probabilidad de crear más de 700.000 empleos es de 0,7 con inflación baja, de 0,4 cuando ésta se sitúa entre el 2% y el 3% y nula en otro caso, calcule: a) La probabilidad de que se creen más de 700.000 empleos. b) Si antes de conocer el dato de inflación anual, se sabe que se han creado más de 700.000 empleos, ¿cuál es la probabilidad de cada uno de los tres niveles de inflación considerados?
5, Una fábrica produce tres productos, 1, 2 y 3, cada uno de ellos en calidad extra y comercial. La probabilidad de producir una unidad de calidad extra en cada uno de esos productos es: 0,75, 0,5 y 0,8, respectivamente. A su vez esos productos se fabrican en las siguientes proporciones: 45%, 35% y 20%, respectivamente. Con esa información responda a las siguientes cuestiones: a) Si se selecciona al azar una unidad producida, ¿cuál es la probabilidad de que sea de calidad comercial? b) Si se selecciona al azar una unidad producida y es de calidad comercial, ¿de qué producto es más probable que sea?
6, Un sistema de abastecimiento de agua potable pasa por un dispositivo dotado de 3 compuertas A,B y C configurados tal como muestra el siguiente esquema:
89
Las compuertas A,B y C funcionan correctamente con probabilidades 0.90, 0.80 y 0.65 respectivamente. Si la compuerta A funciona correctamente, la probabilidad de que B funcione correctamente es de 0.66. Si las compuertas A y B funcionan correctamente, la probabilidad de que C funcione correctamente es de 0.83. Además existe un probabilidad de 0.10 de que A funcione correctamente y no funcione ni B ni C correctamente.
a. Determine la probabilidad de que el sistema funcione correctamente. b. Si el sistema falla. ¿Cuál es la probabilidad de que la compuerta A funcione correctamente?
90
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
CAPITULO VI
VARIABLE ALEATORIA Y DISTRIBUCIONES DE PROBABILIDAD.
Definición.- Una variable aleatoria (v.a) X es cualquier función, que transforma cada elemento del espacio muestral
, en un numero real.
X:
X
Al conjunto de posibles valores de X se le llama rango de X (Rx) Si Rx es finito o enumerable (rango discreto), entonces X es una v.a Discreta. Si Rx no es enumerable (rango continuo), entonces X es una v.a Continua.
Función de Probabilidad.- Si X es una v.a discreta, la función de probabilidad de X viene dada por: PX x
P X
x
P
/X
x
, tal que
PX ( x) 1 x Rx
Función de densidad.- Si X es una v.a continua, la función de densidad de X es b
una aplicación f X :
0,
tal que P a
X
f X ( x)dx ,tal que
b
f X ( x)dx 1
a
Función de distribución.- La función de distribución de una v.a X esta dada por:
FX ( x)
P( X
x)
P(
/ X( )
x)
Propiedades. 91
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
F es continua por la derecha y es creciente Si X es una v.a discreta , entonces P a
X
b
F b
F a
Si X es una v.a continua , entonces P a
X
b
F b
F a
dF ( x) dx
Si X es una v.a continua , entonces F ' ( x) limx
FX ( x) 0 y lim x
P X
a
f ( x)
FX ( x) 1
Definición. La esperanza o media de una variable aleatoria
X, denotada por E ( X ) o
X
se
define según sea la variable discreta o continua, mediante:
x.P X
x , si X es discreta
x Rx
E X
x. f ( x)dx, si X es continua x Rx
Propiedades. El valor esperado de una constante es dicha constante E a bX
a bE X
Definición.- La varianza de una variable aleatoria X cuya media o esperanza es X
, se define como 2 X
V X
2
E X
X
E X
E X
2
E X
2
E2 X
Propiedades. La raíz cuadrada de la varianza se llama desviación estándar.
2 X
E X
V aX b
2
2 X
a2V ( X )
Desigualdad de Chebyshev. Si X es una variable aleatoria, entonces para cualquier k P X
X
k
X
1
se cumple
1 k2
92
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Ejercicio resuelto.
1. Sea X la variable aleatoria definida como la suma de los valores que aparecen al lanzar dos dados. a) Determine la distribución de probabilidad. b) Calcule la probabilidad P(50 y que la transformación Log tiende a reducir la asimetría positiva ya que al sacar logaritmos se reducen en mayor proporción los datos mayores que los menores. Limitaciones: tiene solamente dos parámetros, y requiere que los logaritmos de la variables estén centrados en la media Función de densidad:
f ( x)
1 x
2
exp
1( y 2
y) 2 y
x 0
y = ln x 112
Estadística aplicada
donde,
y y
Mgt. Cleto De La Torre Dueñas
: media de los logaritmos de la población (parámetro escalar), estimado y
: Desviación estándar de los logaritmos de la población, estimado sy.
Estimación de parámetros:
y
sy
1 n
n
ln(xi ) i 1
1 n 1i
n
(ln(xi ) y ) 2
1 2
1
Factor de frecuencia: Puede trabajarse en el campo original y en el campo transformado. 2. Campo transformado: Si se trabaja en el campo transformado se trabaja con la media y la desviación estándar de los logaritmos, así: Ln(XTr) = xTr+KSy de donde, XTr = eln (xTr) con K con variable normal estandarizada para el Tr dado, xy media de los logaritmos y Sy es la desviación estándar de los logaritmos. 3. Campo original: Si se trabaja con los X sin transformar el K se calcula como 2
Exp KT * ( Ln(1 Cv )) Kt
1 2
ln(1 Cv 2 ) 2
1
Cv
K es la variable normal estandarizada para el Tr dado, Cv
s es el coeficiente de x
variación, x media de los datos originales y s desviación estándar de los datos originales. Limites de confianza: En el campo transformado.
Ln( X Tr ) t(1
)
ST
113
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
( Sy )
Se
1
n
KT 2
2
1 2
en donde, n numero de datos, Se error estándar, KT variable normal estandarizada. EJEMPLO: En un río se tienen 30 años de registros de Qmáximos instantáneos anuales con x= 15 m3/s, S = 5 m3/s (media y desviación estándar para los datos originales).
xy=2.655, sy = 0.324 (media y desviación estándar de los datos
transformados). Encontrar el caudal para un periodo de retorno de 100 años y los limites de confianza para un
= 5%. Calcular la probabilidad de que un caudal de
42.5 m3/s no sea igualado o excedido P(Q 4.25). Solución: n=30 x= 15 m3/s
xy=2.655
s = 5 m3/s
sy = 0.324
En el campo original 2
Exp K * ( Ln(1 Cv )) Kt Cv
1 2
ln(1 Cv 2 ) 2
1
Cv s = 5/15 = 0.33 x
K = F-1(1-1/Tr) = F-1(1-1/100) = F-1(0.99) de la tabla de la normal se obtiene KT=2.33 2
Exp 2.33* ( Ln(1 0.33 )) KT
1 2
ln(1 0.332 ) 2
1
0.33
KT = 3.06 QTr = 15 + 5 * 3.028 QTr = 30.14 m3/s En el campo transformado se tiene que: LnQTr100 = 2.655 + 2.33*0.324 LnQTr100 = 3.40992 QTr100 = Exp (3.40992) Q Tr100 = 30.26 m3/s 114
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Limites de confianza Ln (QTr)
Se
t(1- ) Se
( Sy )
1
n 2
2.33 2
1
KT 2
2
1 2
1 2
= 1.93 Se
193 . 0.324 30
011 .
t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) Ln(30.28) 3.41
(1.645 ) (0.11)
0.18095
[3.22905
3.59095]
[e3.22905
e3.59095]
[25.26
36.29]
Intervalos de confianza para QTr100
b) Calcular la probabilidad de que un caudal de 45 m3/s no se igualado o excedido P(Q 4.25). Ln(42.5) = 3.75 t = (3.75 - 2.655)/0.324 F(3.38) = 0.9996 Leído de la tabla de la normal P(Q 4.25) = 99.9%
DISTRIBUCION GUMBEL O EXTREMA TIPO I Una familia importante de distribuciones usadas en el análisis de frecuencia hidrológico es la distribución general de valores extremos, la cual ha sido ampliamente utilizada para representar el comportamiento de crecientes y sequías (máximos y mínimos).
115
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Función de densidad:
f ( x) En donde
y
1
(x
exp
)
exp
(x
)
son los parámetros de la distribución.
F ( x)
f ( x)dx exp
exp
(x
)
Estimación de parámetros
6
s
x 0.5772 donde x
y s son la media y la desviación estándar estimadas con la muestra.
Factor de frecuencia: KT
6
0.5772 ln ln
Tr Tr 1
Donde Tr es el periodo de retorno. Para la distribución Gumbel se tiene que el caudal para un período de retorno de 2.33 años es igual a la media de los caudales máximos. Limites de confianza Xt
Se
t(1- ) Se
s n 1 2 2
[1 1.1396KT 1.1KT ]
KT es el factor de frecuencia y t(1- ) es la variable normal estandarizada para una probabilidad de no excedencia de 1- . EJEMPLO: Para el ejemplo anterior encontrar el Q de 100 años de periodo de retorno y los intervalos de confianza. x= 15 m3/s, s = 5 m3/s QTr100 = x + KT s KT
6
0.577 ln[ln100 ln(99)]
116
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
KT = 3.14 QTr100 = 15 + 3.14*5 QTr100 = 30.7 m3/s Intervalos de confianza t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) 2
[1 11396 . (314 . ) 11 . (314 . ) ]
1 2
= 3.93
Se
(3.93) (5)
Se
30 3.58 m 3 / s
Xt
t(1- ) Se
30.7 m3/s
(1.64) (3.58)
[24.83 m3/s
36.58 m3/s]
Intervalo de confianza para QTr100
DISTRIBUCION GAMA DE TRES PARAMETROS O PEARSON TIPO 3 Esta distribución ha sido una de las más utilizadas en hidrología. Como la mayoría de las variables hidrológicas son sesgadas, la función Gamma se utiliza para ajustar la distribución de frecuencia de variables tales como crecientes máximas anuales, Caudales mínimos, Volúmenes de flujo anuales y estacionales, valores de precipitaciones extremas y volúmenes de lluvia de corta duración. La función de distribución Gamma tiene dos o tres parámetros. Función de densidad:
f ( x)
1
x xˆ0
1
exp
x xˆ0
Donde, x0
y
x
para
0
x
x0 para
0
son los parámetros de escala y forma, respectivamente , y x0 es el parámetro
de localización.
117
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Estimación de parámetros: 2
ˆ
2 ; Cs
ˆ
s
Cs ; 2
xˆ0
ˆ
x
Cs es el coeficiente de asimetría, x
y s son la media y la desviación estándar de
la muestra respectivamente. Factor de frecuencia:
K
z (z
2
Cs 1) 6
1 3 Cs ( z 6z) 3 6
2
(z
2
Cs 1) 6
3
Cs z 6
4
1 Cs 3 6
5
donde z es la variable normal estandarizada Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la muestra. Intervalos de confianza: Xt
t(1- ) Se
Se
S n
Donde S es la desviación estándar de la muestra, n es el número de datos y
se
encuentra tabulado en función de Cs y Tr.
EJEMPLO: Se tiene una estación con 30 años de registros de caudales máximos instantáneos con Media de 4144 pie3/s y desviación estándar de 3311 pie3/s. Si el coeficiente de asimetría de los caudales es de 1.981 pie 3/s cual es caudal para un periodo de retorno de 100 años y su intervalo de confianza. QTr100 = X+ SK K es F(1.981, 100)
de tablas se obtiene K=3.595
(1.9,100) = 3.553 (2.0,100) = 3.605
QTr100 = 4144+ (3.595) (3311) QTr100 = 16050 pie3/s
118
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Intervalos de confianza Xt
t(1- ) Se S
Se
n
= F(1.981,100)
de tablas se obtiene
=8.4922
(1.9,100) = 8.2196 (2.0,100) = 8.5562
( 3311) (8.4922)
Se
30
Se = 5133.56 pie3/s t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) 16050
(5133.56) (1.645)
[7605.29 pie3/s
24494.71pie3/s]
Intervalos de confianza para
QTr100
DISTRIBUCION LOG GAMMA O LOGPEARSON DE 3 PARAMETROS Si los logaritmos Y de una variable aleatoria X se ajustan a una distribución Pearson tipo III, se dice que la variable aleatoria X se ajusta a una distribución Log Pearson Tipo III. Esta distribución es ampliamente usada en el mundo para el análisis de frecuencia de Caudales máximos. Esta se trabaja igual que para la Pearson Tipo III pero con Xy y Sy como la media y desviación estándar de los logaritmos de la variable original X. Función de densidad:
1
f ( x)
ln(x) y0
x
1
exp
ln(x) y0
donde, y0
y
y
para
0
y
y0 para
0
son los parámetros de escala y forma, respectivamente , y y0 es el parámetro
de localización.
119
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Estimación de parámetros: 2
ˆ
2 ; Cs
ˆ
sy
Cs ; 2
xˆ0
ˆ
xy
Cs es el coeficiente de asimetría, , x y
y s y son la media y la desviación estándar
de los logaritmos de la muestra respectivamente. Factor de frecuencia:
ln(YTr )
K
z (z
2
Cs 1) 6
1 3 Cs ( z 6z) 3 6
2
(z
2
xy
Cs 1) 6
K sy 3
Cs z 6
4
1 Cs 3 6
5
donde z es la variable normal estandarizada
Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la muestra. Intervalos de confianza: Xt
Se
t(1- ) Se
Sy n
Donde Sy es la desviación estándar de los logaritmos de la muestra, n es el número de datos y
se encuentra tabulado en función de Cs y Tr.
120
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
Cuadro : Precipitacion Maxima en 24 horas (mm) - Estacion Granja Kayra Año
Max
1964
23.0
1965
31.4
1966
38.0
1967
42.1
1968
21.6
1969
25.1
1970
44.8
1971
36.1
1972
36.6
1973
28.4
1974
22.8
1975
25.0
1976
20.0
1977
33.9
1978
27.2
1979
39.0
1980
38.2
1981
40.2
1982
29.6
1983
21.4
1984
36.5
1985
31.2
1986
27.5
1987
42.1
1988
35.2
1989
41.9
1990
26.5
1991
37.6
1992
22.6
1993
48.5 121
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
1994
39.6
1995
34.6
1996
31.3
1997
47.0
1998
35.9
1999
19.3
2000
51.3
2001
31.0
2002
26.7
2003
39.1
2004
30.8
2005
27.8
2006
51.6
2007
32.9
2008
27.9
Caudales máximos instantáneos anuales del río Piura en Puente Sánchez Cerro. Q Año
(m3/s)
Q Año
(m3/s)
1926 860.0
1963 37.0
1927 610.0
1964 33.0
1928 124.0
1965 2500.0
1929 135.0
1966 49.0
1930 95.0
1967 82.0
1931 450.0
1968 21.0
1932 1900.0
1969 180.0
1933 620.0
1970 29.0
1934 438.0
1971 545.0
1935 379.0
1972 1616.0
1936 390.0
1973 845.0
1937 39.0
1974 58.0
1938 508.0
1975 272.0 122
Estadística aplicada
Mgt. Cleto De La Torre Dueñas
1939 1525.0
1976 388.0
1940 185.0
1977 646.0
1941 2220.0
1978 167.0
1942 405.0
1979 74.0
1943 2250.0
1980 45.0
1944 273.0
1981 568.0
1945 220.0
1982 390.0
1946 134.0
1983 3200.0
1947 41.0
1984 980.0
1948 42.5
1985 112.0
1949 1010.0
1986 25.0
1950 0.0
1987 574.0
1951 0.0
1988 6.0
1952 153.0
1989 845.0
1953 2200.0
1990 6.0
1954 44.0
1991 14.0
1955 350.0
1992 1793.0
1956 1530.0
1993 1042.0
1957 1700.0
1994 1108.0
1958 690.0
1995 75.0
1959 900.0
1996 100.9
1960 81.0
1997 638.1
1961 88.0
1998 4424.0
1962 115.0
1999 3107.0
123