Estadistica Aplicada parte 2

UNIVERSIDAD NACIONAL SAN ANTONIO ABAD DEL CUSCO ESCUELA DE POST-GRADO MAESTRIA EN INGENERIA CIVIL. CURSO: ESTADISTIC

Views 117 Downloads 9 File size 2MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD NACIONAL SAN ANTONIO ABAD DEL CUSCO

ESCUELA DE POST-GRADO

MAESTRIA EN INGENERIA CIVIL.

CURSO:

ESTADISTICA APLICADA.

Mgt. CLETO DE LA TORRE DUEÑAS Mgt. L. ALBERTO VERA CHAVEZ

Email: [email protected] CUSCO – PERU 2010.

CAPITULO I

INTRODUCCION

La Estadística es la ciencia que se ocupa de los métodos y procedimientos de colección, clasificación, organización, análisis, síntesis e interpretación de datos; siendo su característica que la distingue, la de hacer generalizaciones o inferencias en base a una muestra. En palabras sencillas podríamos decir que la estadística es la ciencia de los datos En términos generales la estadística aborda dos tipos de problemas: ♦ Resumir, describir y explorar datos. ♦ Utilizar datos de una muestra para inferir la naturaleza del conjunto del cual se escogió la muestra.

1.1 DIVISION DE LA ESTADISTICA Así, la estadística se divide en dos partes íntimamente relacionadas: Estadística Descriptiva.- Esta es la parte de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos. Esta es importante, ya que antes de que la mente humana pueda interpretar (hacer inferencias) un conjunto de datos, especialmente cuando estos son demasiados, es necesario resumirlos o representarlos de manera clara, simplificada o reducida. Estadística Inferencial.- Esta rama de la estadística trata el problema de inferir la naturaleza de un conjunto de datos a partir de una muestra de dichos datos.

2

El problema general de la Estadística

Muestra

Población

Inferencias

Que tan reales es.

Figura 1: Relación entre población y muestra.

1.2 CONCEPTOS BASICOS Población. Es cualquier conjunto de datos, objetivo de nuestro interés, sobre los cuales interesa observar una o más características. Esta puede ser finita o infinita. El tamaño de la población es el número de individuos que tiene Muestra. Una muestra es un conjunto de individuos de la población que refleja las características de ésta lo mejor posible. Si las características quedan bien reflejadas, se dice que la muestra es representativa. El tamaño de una muestra es el número de individuos que tiene, lo denotamos por n. Unidad de estudio. Es cada elemento que va a ser estudiado. Lo más normal es que se trate de individuos, pero no tiene por qué ser así. Data. Es cualquier medida resultado de haber observado una variable en una unidad de alguna población. Parámetro es una propiedad descriptiva de una población. Ejemplo media y varianza poblacional Estadístico es una propiedad descriptiva de una muestra., ejemplo media y varianza muestral Variable. Cualquier característica de Interés en el estudio. Variable cualitativa: Ordinal y Nominal Variable cuantitativa: Discreta y continua. Por otra parte, el reporte de las variables medidas requiere de los siguientes conceptos: Exactitud. Hace referencia a la cercanía con la que se encuentra la medición realizada con el valor real de la variable medida, esta relacionado con el concepto de la media. 3

Precisión. Hace referencia a la cercanía con que se encuentran un conjunto de mediciones realizadas sobre la misma variable, relacionado con el concepto de varianza.

1.3 VARIABLES ESTADISTICAS A las características objeto de estudio en la población se les llama variables, ya que pueden variar de un individuo a otro y se representara por una letra mayúscula: X, Y, Z,. . ., debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadísticas apropiadas.

Tipos de variables. Las variables estadísticas pueden ser de dos tipos: Variables cualitativas o atributos: describen cualidades y no toman valores numéricos, estas a su vez pueden ser: Nominales.- Las cualidades no presentan ningún orden. Ejemplo. Nombres y/o Razón Social de la empresa constructora.

Ordinales.- Este tipo de variables presentan orden Ejemplo. Nivel de riesgo de una obra Nivel Socioeconómico,

Variables cuantitativas: toman valores numéricos. A su vez pueden ser: • Discretas: Solo toman un número finito o infinito numerable de valores distintos (generalmente números naturales o enteros). Número de obras ejecutadas. Número de empresas que son calificadas como Micro y Pequeñas Empresas (MYPE). Número de empleados de un Municipio. • Continuas: Toman valores en un intervalo. Generalmente corresponden a medir magnitudes continuas.

4

Ejemplo. Los Sueldos de los trabajadores de las Micro Empresas. Monto de ejecución presupuestal. Saldo de balance.

Una característica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida.

1.4 MEDICION Se llama medición Tenemos las

al proceso de atribuir números a las características.

siguientes escalas de medición: nominales, ordinales,

cuantitativas de intervalo y cuantitativas de razón.

Escala nominal: la clave de estas escalas de medida es que sólo informan de la igualdad o desigualdad de los individuos en una característica, pero no de posibles ordenaciones, puesto que la característica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente distintas. Los números solo sirven para distinguir valores o categorías diferentes de la variable. Ejemplo: Nombres y/o Razón Social de la empresa ya sean

Personas Naturales y

Personas Jurídicas. 1=Aries y 2=Daz, esto simplemente es un proceso de codificación pero no significa que la Aries sea menor que Daz, ni el doble.

Escala Ordinal: Los números además de servir para distinguir reflejan un orden existente sobre los valores de la variable. Se obtiene clasificando objetos o arreglándolos en un orden con respecto a alguna variable común. La pregunta es simplemente, si el objeto tiene más o menos de esta variable que algún otro objeto. Ejemplo: El dato representado por 5 es superior al representado por 2 en “ excelente=5, bueno =4, regular =3 y malo = 2.” es cierto la relación de orden 2

6

[4, 5>

7

[5, 6>

1

[6, 7>

1

[7, 8>

1

[8, 9>

1

a) Halla la media, varianza, la desviación típica y coeficiente de variación.

54

b) Mediana c) Moda.

SOLUCION: I

fi

mi

mi2fi

mifi

Fi

[0, 1>

2

0.5

1

0.5

2

[1, 2>

2

1.5

3

4.5

4

[2, 3>

3

2.5

7.5

18.75

7

[3, 4>

6

3.5

21

73.5

13

[4, 5>

7

4.5

31.5

141.75

20

[5, 6>

1

5.5

5.5

30.25

21

[6, 7>

1

6.5

6.5

42.25

22

[7, 8>

1

7.5

7.5

56.25

23

[8, 9>

1

8.5

8.5

72.25

24

Total

24

40.5

92

440

a) Media, varianza, desviación y coeficiente de variación. Media. fi mi x

n

92 24

3.83

440 24

3.83

Varianza. mi2 fi S2

x2

n

3.66

Desviación.

s

3.66 1.91

Coeficiente de Variación. CV

S |X|

1.91 3.83

0.498

Mediana Me 3

12 7 *1 3.833 6

55

Moda

Mo

1 A 1 2

Li

1 7 6 1 1 7 1 6 Mo

4

1 1 6

*1 4.14

4. Se realizo un estudio de Caudales mínimos instantáneos anuales del río Piura en Puente Sánchez Cerro, obteniendo los siguientes resultados.

Caudales

Nro de años

mínimos 0-5

10

5-10

15

10-13

25

13-18

8

18-20

2

a) Calcule la media, varianza y la desviación. b) Determine la mediana y la moda c) Determine e interprete Q1, Q3, P10 y P90 d) Coeficiente de curtosis y de asimetría.

SOLUCION: Intervalo

fi.

Fi

mi

mi2fi

mifi

0-5

10

10

2.5

25

62.5

5 -10

15

25

7.5

112.5

843.75

10-13

25

50

11.5

287.5

3306.25

13-18

8

58

15.5

124

1922

18-20

2

60

19

38

722

56

587

6856.5

60

56

a) Media y varianza Media. fi mi x

587 60

n

9.78

Varianza. mi2 fi S2

6856.5 60

x2

n

9.782

18.63

Desviación.

s

18.63

4.31

b) Mediana y moda Mediana

Me

Determinamos

n 2

60 2

Me

n Fk 2 fK

Li

1

A

30

Li

n Fk 2 fK

1

A 10

30 25 3 10.6 25

Moda Mo

Li

1 A 1 2

1 25 15 10 1 25 8 17

Mo

Li

1 A 10 1 2

10 3 11.11 10 17

c) Determine e interprete Q1, Q3, P10 y P90

57



Para obtener los cuarteles se tiene la relación.

Qi

i.n Fk 4 fK

Li

1

A

Cuartil 1

Q1

1.n Fk 4 fK

Li

1

A 5

15 10 5 6.67 15

El 25% de los contadores presentan nivel de conocimientos de auditoria menores a 6.67

Cuartil 3

Q3



3.n Fk 4 fK

Li

1

A 10

45 25 3 12.4 25

Para obtener los percentiles se tiene la relación.

Pi

i.n Fk 100 fK

Li

1

A

Percentil 10

P10

Li

10.n Fk 100 fK

1

A 0

6 0 5 3 10

Percentil 90

P90

Li

90.n Fk 100 fK

1

A 13

54 50 5 15.5 8

58

d) Coeficiente de Asimetría.

Ap

x Mo s

9.78 11.11 -0.308 4.31

Puesto que Ap < 0  la distribución es asimétrica negativa o a izquierdas (desplazada hacia la izquierda).

Coeficiente de curtosis de fisher. K

Si k

Q3 Q1 P90 P10

0.5

12.4 6.67 0.5 -0.0416 15.5 3

0 , entonces la distribución es platicúrtica.

EJERCICIOS PROPUESTOS

1.

En una construcción se quiere preparar concreto con una resistencia mínima a la comprensión de 17.2MN/m2 .El mínimo a considerar será un valor que sea excedido por no menos del 96% de los resultados de la prueba .Los valores de la resistencia de 50 probetas se proporciona en la tabla siguiente.

22.3 18.2 24.8 23.5 19.8 27 25.9 29.2 24.1 24.3 21.7 23.4 23.3 28.3 23.4 20 26.1 15.2 20 22.8 32 25.6 20.8 23.2 26.9 22.8 22.1 21.2 23.4 18.1 23.4 23 23.6 25.4 22.2 17.8 28 28.8 22.1 20.1 20.8 23 28.2 23 30.4 25.1 24.8 19.9 18.2 25.1 a) Calcule la media, y el percentil 96. b) Diga si las especificaciones requeridas son satisfactorias.

2.

Una muestra de pequeñas empresas se clasifica en función de su antigüedad en el mercado y del porcentaje de deudas sobre el capital que presentan, con los siguientes resultados:

59

Deudas

Empresas antiguas

Empresas Nuevas

0-15

19

29

15-30

13

10

30-50

7

11

50-70

4

32

En base a los resultados, ¿ Puede admitirse que el porcentaje de deudas de las empresas es independiente de su antigüedad?. Fundamente su respuesta.

3.

En una empresa donde los salarios tienen una media de 700 dólares y una desviación estándar de 150 dólares, el sindicato solicita un reajuste de 25% más un incentivo de 10 dólares. El Directorio acoge parcialmente la petición rebajando los salarios solicitados en un 10%.

a) El Sindicato se declara satisfecho en sus negociaciones si el sueldo promedio final aumenta por lo menos en un 20% respecto de su valor actual. ¿Se logra esto aceptando la proposición del Directorio? Justifique su respuesta. b) El Sindicato pretende con su proposición aumentar la homogeneidad de los

sueldos de sus afiliados ¿Se logra este objetivo aceptando la proposición del Directorio? Fundamente su respuesta. c)

Si en la Empresa laboran 500 funcionarios ¿En qué porcentaje aumentó la planilla de sueldos respecto a la planilla inicial?.

4.

Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus empleados son los siguientes:

60

Sección A Ingresos ($)

Frecuencia

80-100)

30

100-120)

80

120-140)

40

140-160)

10

160-180)

4

180-200)

1

Sección B Ingresos ($)

Frecuencia

60-90)

10

90-120)

20

120-150)

50

150-180)

20

180-210)

15

210-240)

10

240-270)

4

Calcular la media aritmética y varianza de la sección A y B. Compare los ingresos.

5. El registro de precipitación máxima en 24 horas en una estación, desde 1948 hasta 1997 se muestra en la tabla

61

Año

Precipitación

Precipitación

Precipitación

Máxima

Máxima

Máxima

en 24 hrs.

Año

en 24 hrs.

Año

en 24 hrs.

1948

34.3

1965

19.5 1982

50.2

1949

29.3

1966

10.5 1983

32.9

1950

6.2

1967

36.5 1984

14.8

1951

17.8

1968

15 1985

18.4

1952

11.2

1969

17.6 1986

48

1953

7

1970

16.8 1987

11.1

1954

8

1971

10.5 1988

30.8

1955

29.8

1972

55.5 1989

14

1956

8.3

1973

11.1 1990

17.1

1957

37

1974

15.3 1991

17.2

1958

22

1975

17.9 1992

73.8

1959

13.5

1976

37.3 1993

19

1960

18

1977

62 1994

17.3

1961

34.5

1978

29.5 1995

17.3

1962

31

1979

26.9 1996

7.3

1963

29

1980

16.7 1997

45.6

1964

8.6

1981

16.2

Calcule la media aritmética, varianza y desviación estándar.

6.

En las siguientes tablas se registran los sueldos quincenales (en dolares) de 50 obreros de dos constructoras Constructora A Sueldo

Constructora B fi

sueldo

fi

45 – 55)

18

45 – 55)

12

55 – 65)

24

55 – 65)

28

65 – 75)

26

65 – 75)

30

75 – 85)

20

75 – 85)

22

85 – 95)

12

85 – 95)

8

62

a) ¿En qué constructora hay mayor dispersión relativa de suledos? b) Un obrero que gana 140 mensuales. ¿Dónde estaría mejor remunerado con respecto a sus compañeros? c) ¿Cuál de las dos distribuciones es más simétrica?

7.

En enero el sueldo promedio de los obreros de una empresa era de $560000 y el sueldo de los empleados $1270000. En septiembre debido a un reajuste, cada obrero recibió un 15% más que su sueldo anterior más un bono de $50000, mientras que cada empleado recibió un aumento de $120000. En diciembre se produjo un nuevo reajuste y los obreros quedaron con un sueldo promedio de un 10% superior que el sueldo promedio en septiembre y el sueldo promedio de todos los trabajadores de la empresa es ahora de $980260. Si se sabe que el número de obreros es el triple del número de empleados, proporcione la siguiente información al gerente general de la empresa. a) ¿Cuál es el sueldo promedio de los empleados en diciembre y en qué porcentaje aumentó con respecto a septiembre? b) ¿Cuál es el sueldo promedio de todos los trabajadores de la empresa en septiembre.

8.

En la estación se cuenta con los siguientes valores de precipitación diaria máxima en un período de tiempo. Obtener las características que describen la serie (media, mediana, varianza, desvío y coeficiente de variación).

125 143 123 562 425 316 136 143 425 465 213 143 312 480 116 259 269 425 218 312 489 476 619 524 391 425 143 432 213

63

CAPITULO IV

DISTRIBUCIONES BIDIMENSIONALES

Si resumir la información de una variable es de por si interesante, en investigación lo es mucho más el poner de manifiesto la posible relación entre dos de ellas. El análisis de la relación de dos variables, X e Y, depende del tipo de variables y Según sean los tipos de cada una de ellas se usa técnicas estadísticas diferentes.

4.1 CUALITATIVA-CUALITATIVA. Cuando las variables de estudio son discretas con poca

cualitativas (categóricas) o cuantitativas

modalidades, se suele presentar las observaciones de las

variables X e Y, mediante pares ordenados (xi, yi), esta forma de presentaciones se denomina tablas de contingencia. Las tablas de contingencia son de doble entrada organizada por filas y columnas y donde se presenta la distribución de frecuencias conjuntas de las dos variables. Dada una variable bidimensional ( X, Y ), consideramos una muestra de tamaño n en la que X toma k valores distintos, x1, . . . , xk, e Y toma l valores distintos, y1, . . , yl, obtenemos, por tanto, observaciones del tipo (xi, yj). La frecuencia absoluta de un valor (xi, yj) es el número de veces que dicho valor aparece en la muestra. Se representa por fij , se cumple k

l

fij

n

i 1 j 1

64

La frecuencia relativa de un valor (xi, yj) es el cociente de la frecuencia absoluta fij entre el tamaño de la muestra n, se representa por hij fij , n

hij

k

l

se cumple:

hij

1

i 1 j 1

Distribuciones marginales Nos indican el comportamiento aislado de cada una de las variables X e Y que dan lugar a una variable bidimensional.

fi.

Frecuencia absoluta marginal de xi,

fi 2  fil

fi1

l

fij j 1

Frecuencia relativa marginal de xi,

hi .

Frecuencia absoluta marginal de yj,

f. j

fi . n f 2 j  f kj

f1 j

k

fij i 1

Frecuencia relativa marginal de yj,

h. j

f. j n

Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuación, en la que tienen cabida las frecuencias marginales (representadas en la última fila y última columna). Puede ser de frecuencias absolutas o relativas.

Y

y1

y2

.....

yl

ni.

x1

f11

f12

.....

f1l

f1.

x2

f21

f22

.....

f2l

f2.

..

..

..

.....

..

..

fk2

.....

fkl

fk.

f.2

.....

f.l

n

X

xk n.j

fk1 f.1

65

Ejemplos

1. El gerente de ventas de la firma A desea determinar el comportamiento de las ventas de cuatro productos (I, II, III y IV), en función de la clase de clientes clasificados en cuatro grupos. Una muestra aleatoria de las ventas suministro la siguiente información.

Grupo de

Producto

clientes

I

II

III

IV

Profesionales

30

35

55

40

Comerciantes

155

50

125

80

Obreros

130

30

105

50

Amas de

35

15

20

45

casa ¿Las ventas de los cuatro grupos son homogéneas?

Solución Producto Grupo de clientes Profesionales Comerciantes Obreros Ama de casa Total

Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje Frecuencia Porcentaje

I

II

III

IV

30 18.8% 155 37.8% 130 41.3% 35 30.4% 350 35.0%

35 21.9% 50 12.2% 30 9.5% 15 13.0% 130 13.0%

55 34.4% 125 30.5% 105 33.3% 20 17.4% 305 30.5%

40 25.0% 80 19.5% 50 15.9% 45 39.1% 215 21.5%

Total 160 100.0% 410 100.0% 315 100.0% 115 100.0% 1000 100.0%

66

160 140 120 100

I

80

II III

60

IV

40 20 0 Profesionales

4.2

Comerciantes

Obreros

Amas de casa

CUALITATIVA-CUANTITATIVA. Supongamos que tenemos

datos numéricos

para varias categorías, por

ejemplo en un experimento donde hacemos mediciones numéricas en dos o más grupos. En estos casos, lo que se realiza es un estudio descriptivo de la variable numérica

en cada una de las muestras y se comparamos los

resultados.

Ejemplo Una empresa

dedica al rubro de ingeniera, decide analizar el rendimiento

económico porcentual, obtenido en inversiones en 4 áreas geográficas. Para ello selecciona muestras de sus últimas inversiones, obteniendo los siguientes resultados.

Tasas de Rendimiento (%) C

B

D

A

4.6

2

7

7.9

2

7.4

4.5

6.8

6.8

1.8

11.6

5.8

4.2

3.2

6

9.2

1.6

4

6.8

11

67

¿Son las tasas medias de rendimiento (%) en los ares A, B, C y D diferentes? Solución. Nivel de Rendimiento

Mean

Variance CoefVar Median

A

8.140

4.158

25.05

7.900

B

3.68

5.13

61.56

3.20

C

3.840

4.468

55.05

4.200

D

7.18

7.07

37.04

6.80

12

Tasas de rendimiento

10

8

6

4

2 A

4.3

B C Nivel de rendimiento

D

CUANTITATIVA-CUANTITATIVA. Análisis de dos variables cuantitativas y establecimiento de una relación entre ellas. La forma mas sencilla de estudiar la posible asociación entre estas variables es el diagrama de dispersión (Nube de puntos). Si reconocemos una tendencia, entonces el interés ahora será el análisis de regresión.

Media y varianza La información de las dos variables X e Y se puede resumir usando la media y la varianza como se muestra a continuación: Media de la variable X:

x

fi xi n

68

Media de la variable Y:

fi yi

y

Varianza de la variable X: s

n fi xi2

2 x

n fi yi2

Varianza de la variable Y: s y2

n

x

2

y

2

La covarianza Es una medida de la asociación lineal existente entre dos variables. Resume la información contenida en el diagrama de dispersión. Presenta la siguiente expresión:

cov( x, y)

sxy

fi xi yi

x. y

n

Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la asociación existente entre distintos pares de variables. Para dar solución a este problema se obtiene el coeficiente de correlación.

Correlación Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional.

Coeficiente de correlación lineal Es un número que mide el grado de dependencia entre las variables X e Y. Se mide mediante la siguiente fórmula:

r

s xy s x .s y

Su valor está comprendido entre – 1 y 1. Si r

= -1 ó r = 1 todos los valores de la variable bidimensional se

encuentran situados sobre una recta.

69

Si – 1< r < 0 se dice que las

variables X e Y están también en

dependencia aleatoria. La correlación es negativa. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia aleatoria. La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0.

Análisis de Regresión Regresión: conjunto de técnicas que son usadas para establecer una relación entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas también deberían ser cuantitativas, sin embargo algunas de ellas podrían ser cualitativas.

Modelo de regresión. Ecuación que representa la relación entre las variables Y

X

Estimación de la línea de regresión usando Mínimos Cuadrados Se debe Minimizar el error cuadrático medio: n

Q

n 2 i

,

e i 1

xi )2

( yi i 1

n

ˆ

n

n

xi yi i 1

n

xi i 1 n

n

xi2 (

n i 1

yi i 1

xi ) 2

S xy S xx

i 1

ˆ

y

ˆx

La pendiente ˆ , indica el cambio promedio en la variable de respuesta cuando la variable predictora aumenta en una unidad adicional. El intercepto ˆ , indica el valor promedio de la variable de respuesta cuando la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable pensar que el rango de valores de x incluye a cero.

70

A partir de la recta Yˆ

ˆ X podemos calcular los valores de y conocidos

ˆ

los de x. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1, las estimaciones realizadas coincidirán con los valores reales.

Ejemplos; 1.

Se realiza un estudio respecto de la influencia que presenta la intensidad de la fuerza aplicada (X) al cable de acero, en el alargamiento (Y) que esta presenta ,La información se muestra a continuación.

X 14.8 15.2 14.4 14 14.7

12

13.2

14 14.4 12.4 14.8

16 12.67 15.3 13.3 12.7

14 14.4 14.8 13.2

16 12.7 15.3

a)

Trace un diagrama de dispersión.

b)

Ajuste una recta de regresión.

c)

Calcule la correlación lineal e interprete dicho valor.

16.4 12.4

16 13.3 13.33

Solución: Scatterplot of Y vs X 16

15

Y

Y

15.2

14

13

12 12

13

14

15

16

17

X

Resumen de calculos.

71

12

X

xi

x

yi

s

xi2

s

N

x

yi2

2 y

2

2

Y

14.8

14

207.2

219.04

196

15.2

14.67

222.984

231.04

215.2089

14.4

12

172.8

207.36

144

15.2

16

243.2

231.04

256

13.2

12.67

167.244

174.24

160.5289

14

15.33

214.62

196

235.0089

14.4

13.33

191.952

207.36

177.6889

12.4

12.67

157.108

153.76

160.5289

14.8

16

236.8

219.04

256

14

12.67

177.38

196

160.5289

14.4

15.33

220.752

207.36

235.0089

14.8

16

236.8

219.04

256

13.2

13.33

175.956

174.24

177.6889

16.4

13.33

218.612

268.96

177.6889

12.4

12

148.8

153.76

144

213.6

209.33

2992.208

3058.24

2951.8801

3058.24 14.242 1.11 15

2

y

N xi yi

sxy

X

209.33 13.96 ; 15

N

2 x

X.Y

213.6 14.24 ; 15

N

y

Y

2951.88 13.962 1.91 ; 15

2

2992.208 (14.24).(13.96) 0.69 15

x. y

N

Recta de regresión n

ˆ

n

n

xi yi i 1 n

n

xi i 1 n

xi2 (

n i 1

yi i 1

xi )2

S xy S x2

0.69 1.11

0.62

i 1

72

ˆ

y

ˆ x 13.96 0.62(14.24) 5.13



ˆ

ˆX

r

sxy sx .s y

5.13 0.62 X

0.69 1.11. 1.91

0.47

73

Ejercicios propuestos.

1. En las siguientes tablas se presentan las remuneraciones de obreros y empleados de la empresa El Progreso en el mes de Abril de 2010 (en dolares).

OBREROS

EMPLEADOS

Remuneraciones Frecuencias

Remuneraciones Frecuencias

200 - 250

30

700 - 750

10

250 - 300

50

750 - 800

25

300 - 350

85

800 - 850

15

350 - 400

55

850 - 900

5

400 - 450

30

900 - 950

5

a) Se afirma que la remuneración promedio de los empleados es mayor en un 30% respecto a la remuneración promedio de los empleados. ¿Está usted de acuerdo? b) ¿Cuál es la remuneración más frecuente de los obreros y de los empleados? c) ¿Entre qué valores se encuentra el 50% central de las remuneraciones de los empleados? d) Si los obreros han recibido en Mayo una remuneración promedio de 391,2 dólares por efecto de un reajuste ¿cuál fue el aumento porcentual de reajuste?

2. Un especialista trabaja como corredor de bolsa para una empresa. Sus registros muestran que las tasas de rendimiento ( en porcentajes) de dos acciones para 8 meses seleccionados fueron de :

Acciones A

15.5

3.6 21.7

27.2

7.8

2.2

5.0

12.2

Acciones B

4.5

6.2

7.2

3.5

4.2

4.1

12

5.5

a) En que acción invertiría la empresa, si el interés es tener un rendimiento mas alto. b) Que acción debería aconsejar el especialista a la empresa que prefieren menos riesgo.

74

3. Se realizo pruebas de laboratorio para determinar el contenido de asfalto sobre la elasticidad y la permeabilidad de concreto asfaltado de clasificación abierta. Se prepararon 4 especimenes de concreto con cada uno de los siguientes contenidos de asfalto (porcentaje del peso total de la mezca): 3, 4, 5, 6, 7 y 8 . Se determino la permeabilidad al agua de cada espécimen de concreto haciendo fluir sobre el espécimen agua al que se le extrajo el aire y midiendo la perdida de agua. Las mediciones de permeabilidad fueron:

Contenido de asfalto (%)

3

4

5

6

7

8

Permeabilidad en pulgadas por

1440 1293 1210 822 585 208

hora a. Estimar la ecuación. b. Prediga la permeabilidad para un contenido de asfalto de 6.5.

4. Los siguientes datos provienen del numero de torsiones necesarias para romper una barra ( Y) hecha con cierto tipo de aleación y el porcentaje (X) del metal A. X

5

5

10

10

15

15

20

Y

68

60

40

38

31

35

18

Ajustar el modelo de regresión.

5.

Una gran compañía llevó a cabo un estudio para ubicar las variables que pudieran determinar el sueldo de un egresado universitario dos años después de haberse graduado como Técnico Superior Universitario en un área de ingeniería. Los datos recogidos se presentan en la siguiente tabla: (La columna del sueldo es en cientos de miles de bolívares.)

Edad Sexo E. Civil

Inglés Sueldo

1

24

F

C

A

6,75

2

25

M

C

M

6,90

3

26

M

S

B

6,90

4

27

F

C

B

6,80

5

27

M

D

A

7,10

6

27

F

C

M

6,50

75

7

27

M

S

A

7,25

8

25

F

C

B

6,80

9

23

M

S

B

6,75

10

24

M

S

B

6,80

11

26

F

C

M

6,75

12

29

F

D

M

7,00

13

25

M

C

A

7,15

14

31

F

D

A

7,50

15

26

M

S

B

6,20

16

24

F

D

M

7,40

17

26

F

C

B

6,70

18

28

F

S

M

6,95

19

25

M

C

B

6,95

20

29

M

C

M

7,10

a. Utilice la técnica de estadística descriptiva más apropiada para analizar cada variable individualmente. Interprete lo obtenido. b. Realice diagramas de cajas que le ayuden a visualizar como influye cada una de las variables en el sueldo que gana el individuo. c. Como futuro Técnico Superior en el área Administrativa, ¿cuál seria la(s) características que usted debería tomar en consideración para obtener el sueldo al que usted aspiraría al egresar?

6.

Se desea estudiar la relación entre los aumentos de precios y los salarios en 8 empresas tomadas al azar, tal que se define “x: % de aumento de salarios” e “y: % de aumento de precios”

x 169.3,

x2 3630.89,

xy 2731.82,

y 126.9,

y2 2498.01

a) Calcular la recta de ajuste e interpretar las componentes en función del problema b) ¿Qué porcentaje del análisis queda explicado por la recta de regresión? Que podría Ud. Decir al respecto? c) Estimar el porcentaje de aumento en los precios, si se produce un aumento del 20% en los salarios, es lógico estimar dado el resultado obtenido en b)

76

7. Suponga que usted tiene a su cargo el dinero de la región, se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en millones de dólares): Suministro de

Producto Nacional

dinero

Bruto

2

5

2.5

5.5

3.2

6

3.6

7

3.3

7.2

4

7.7

4.2

8.4

4.6

9

4.8

9.7

5

10

(a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero. (b) ¿Cómo interpreta la pendiente de la línea de regresión?. (c) Calcule e interprete el error estándar de la estimación.

77

CAPITULO V

PROBABILIDADES

El Cálculo de Probabilidades se ocupa de estudiar ciertos experimentos que se denominan aleatorios, cuya característica fundamental es la incertidumbre del resultado, esto significa que es imposible predecir los resultados porque hay más de uno posible. En nuestra vida cotidiana asociamos usualmente el concepto de probabilidad a su calificativo

probable, considerando probable

a aquellos eventos en los que

tenemos alto grado de creencia en su ocurrencia. En esta línea probabilidad es un concepto asociado a una medida del azar. El objetivo de la probabilidad es cuantificar las posibilidades que tengan ciertos eventos inciertos.

5.1 EXPERIMENTO ALEATORIO. Es una acción que da lugar a resultados identificables y se caracteriza por: 

Todos los posibles resultados son conocidos previamente.



Repeticiones en situaciones análogas pueden dar resultados diferentes.



No se puede predecir el resultado del mismo antes de realizarlo, es decir, no se sabe cuál de los posibles resultados aparecerá al final. Los experimentos pueden ser aleatorios o deterministas. Aleatorio significa relativo a todo acontecimiento incierto, por depender de la suerte o del azar, mientras que los deterministas son aquellos que se caracterizan por el hecho de que las mismas causas producen los mismos efectos.

78

Espacio muestral. Es el conjunto de todos los resultados posibles del experimento y se denota por . A cada elemento de

se denomina punto muestral w , es decir:

w / w es un punto muestral . Evento o Suceso Aleatorio. Un evento aleatorio es un subconjunto del espacio muestral y se denota con letras mayúsculas.  El evento seguro  El evento imposible

, es aquel que ocurre siempre al realizar el experimento. , es aquel que no ocurre nunca.

 Lo s eventos elementales solo tienen un punto muestral.  El evento complementario Ac , esta dado por todo los puntos muestrales que no están en A

5.2 OPERACIONES DE EVENTOS. Unión de eventos: Dados dos eventos A y B de un mismo espacio muestral su unión se representa por A

B y es el evento que contiene los elementos que

están en A o en B o en ambos. El evento A

B ocurre si al menos uno de los

dos eventos ocurre. Intersección de eventos: Dados dos eventos A y B de un mismo espacio muestral su intersección se representa por A

B y es el evento que contiene

los elementos que están en A y B al mismo tiempo. El evento A

B ocurre cuando ambos eventos ocurren simultáneamente.

Evento Complemento: El complemento de un evento A se representa por Ac y es el evento que contiene todos los elementos que no están en A. El evento Ac ocurre si A no ocurre.

5.3

DEFINICIÓN CLÁSICA DE PROBABILIDAD: La probabilidad de un suceso A se calcula como el número de casos favorables al suceso A, partido por el número de casos posibles del experimento aleatorio. p( A)

casos favorables casos posibles

79

5.4

DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD. La probabilidad es una función que asigna a cada suceso A

un número

real que varia entre 0 a 1. P:

y que verifica: A

i) 0

p(A) A

p( A) 1

ii) p

1

iii) Si A y B son sucesos incompatibles,

p A B

p A

p B

Como consecuencia de estos tres axiomas, se verifican además las siguientes propiedades: iv)

p( Ac ) 1 p A

v)

p( )

vi)

Si A

0 B,

vii) P( A \ B)

p( A)

P( A) P( A

p( B) B) ,

A,B

viii) Si A 1 , A 2 , ...... , A n son incompatibles dos a dos, entonces

p A1 ix)

A2

Si A, B

5.5

An

p A1

p A2

... p An

son dos sucesos cualesquiera, entonces

p A B x)

...

p A

p B

p A B

Si A, B

son dos sucesos cualesquiera, entonces

p( A)

Bc

p A

p A

B

PROBABILIDAD CONDICIONADA. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habria que referirse a la probabilidad

de A condicionada a B como la probabilidad de que ocurra A sabiendo que ha ocurrido B, la denotamos por P(A|B) P( A | B)

P( A B) , P(B) P( B)

p(A

B) =p( A) p( B ) A

0.

En consecuencia,

80

Independencia. Dos sucesos A, B

se dicen independientes si:

p( A)

p( A | B) , o bien p( B)

p( B | A)

Es decir, se cumplirá que:

p( A

B)

p( B). p( A)

Si A y B son independientes, entonces A y B C son independientes, A C y B son independientes, y A C y B C son independientes. Observación. Decimos que n sucesos A1, A2, An son independientes si para cada par

(Ai, Aj), P( Ai

P( Ai

Aj

Ak )

P( A1

A2 

Aj )

P( Ai ) P( Aj ) si i

P( Ai ) P( Aj ) P( Ak ) si i

j

j , si para cada trío (Ai, Aj, Ak)

k y así sucesivamente. En general,

P( A1) P( A2) P( An)

An)

Teorema de la probabilidad compuesta. Dados n sucesos A 1 , A 2 , ......., A se verifica: P( A1

A2

 An)

P( A1) P( A2 | A1) P( A3 | A1

A2) P( An | A1

A2

 An 1)

Teorema de la probabilidad total. Si suponemos que los eventos A1, A2, A3, ...., An, forman una partición de un espacio muestral su unión es

; esto es, que los eventos Ai son mutuamente excluyentes y

.

A1

A2



An

81

Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que : i) A1  A2

j ( disjuntos dos a dos)

i

n

ii)

 Ai

i 1

iii) p( Ai ) 0 ,

i 1,....n .

La probabilidad de un suceso B cualquiera es: n

p ( B)

p( Ai) p( B | Ai) i 1

p ( B)

p( A1 ) p( B

A1

)

p( A2 ) p( B

A2

) ....... p( An ) p( B

An

)

Teorema de Bayes. El procedimiento que se utiliza para encontrar probabilidades posteriores, a partir de probabilidades previas, se llama regla Bayesiana. Las probabilidades apriori o previas se conocen antes de obtener información alguna del experimento en cuestión. Las probabilidades aposteriori se determinan después de conocer los resultados del experimento. El teorema de Bayes consiste en un método para encontrar la probabilidad de una causa específica cuando se observa un efecto particular. Esto es, si el evento B ha ocurrido, ¿Cuál es la probabilidad de que fue generado por el evento A1 (que es una causa posible ) o por el A2 (otra causa posible)?. Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que p( Ai ) 0 , i 1,....n , entonces para un suceso B cualquiera se verifica:

p( Ai | B)

p( Ai | B)

p( Ai B) p( B)

p( A1 ) p( B

A1

)

p( Ai) p( B | Ai) n i

p( Ai ) p( B | Ai) 1

, i = 1, ...., n.

p( Ai ) p( B | Ai) p( A2 ) p( B ) ....... p( An ) p( B ) A2 An

82

Problemas Resueltos.

1) Un municipio analiza tres proyectos de irrigación presentados por una consultora para confirmar o descartar la presencia de omisiones de tipo técnico. a) Cual es el espacio muestral. b) ¿Cual es la probabilidad de que dos de los proyectos presentados presenten omisiones técnicas. c) Cual es la probabilidad de que el primer proyecto presente una omisión técnica y la ultima no presente. d) Cual es la probabilidad de que por lo menos un proyecto presente algún tipo de omisión técnica.

Solución. Denotemos con P, si el proyecto presenta una omisión tecnica y con N, si el proyecto no presente ningún tipo de omisión . a)

PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3 , N1P2 P3 , N1P2 N3 , N1 N2 P3 , N1 N2 N3

b) Sea el evento A: Dos proyectos presentan omisiones tecnicas

A

PP 1 2 N3 , PN 1 2 P3 , N1P2 P3 p( A)

n( A) n( )

3 8

c) Sea el evento B: Primer proyecto presenta omisión y el último no presenta.

C

PP 1 2 N3 , PN 1 2 N3

83

n(C ) n( )

p(C )

2 8

d) Sea el evento D: Por lo menos un proyecto presenta omisiones tecnicas.

D

p( D)

PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3 , N1P2 P3 , N1P2 N3 , N1N2 P3

n( D ) n( )

7 8

2) El gerente de una empresa constructora con el propósito de incrementar sus utilidades, diseña tres estrategias de marketing A, B y C. En el 40% de las sucursales, se aplica la estrategia A , de estas en el 1% de los casos no se presentan incrementos en las utilidades, en el 30% de las sucursales se aplica la estrategia B y en el 2% no se presentan incrementos en las utilidades. En el resto de las filiales se utiliza la estrategia C, observándose que en el 3% de las mismas no se presentan incrementos en las utilidades. Si

se selecciona aleatoriamente una filial de la

empresa. Cual es la probabilidad de que : a)

No presente incrementos en las utilidades.

b)

No presente incrementos en la utilidad y se haya aplicada la estrategia B.

c)

La filial haya empleado la estrategia C, dado que no se presento incremento en su utilidad.

Solución No incrementa 1% 99%

Incrementa

A 40%

No incrementa

2% Estrategia

30%

98% B

Incrementa 3%

30%

No incrementa

C 97%

Incrementa

84

Sean los eventos. A: La filial de la empresa, aplica la estrategia A B: La filial de la empresa , aplica la estrategia B C: La filial de la empresa , aplica la estrategia C D: No se presenta incrementos en la utilidad.

p( A) p( D ) A

a) p( D)

p( B) p( D ) B

p(C ) p( D ) C

p( D) 0.4*(0.01) 0.3*(0.02) 0.3*(0.03) 0.019 1.9%

b) p(B

D) =p( B) p( D ) B

p(B

D) =0.3*(0.02) 0.006 0.6%

c) p(C | D)

p(C D) p ( D)

p(C | D)

p( A) p( D | A)

p(C ) p( D | C ) p( B) p( D | B) p(C ) p( D | C )

0.3*(0.03) 0.4*(0.01) 0.3*(0.02) 0.3*(0.03)

0.473 47.3%

3) Los siguientes datos pertenecen a 50 empresas de construccion de la ciudad de Cusco divididos en 3 categorías y clasificados según tengan o no deudas impositivas: IMPUESTOS

CATEGORIAS A

B

C

Al día

7

6

12

En mora

9

8

8

Si se elige una empresa al azar ¿cuál es la probabilidad de que: a) esté en mora? b) pertenezca a la categoría A o B? c) pertenezca a la categoría C o esté en mora? d) pertenezca a la categoría A y esté en mora? e) Dado que el pago de sus impuestos esta al día. ¿ Cual es la probabilidad de que la empresa pertenezca a la categoría B?. Solucion. 85

Sean los eventos: A: Empresa pertenece a la categoría A. B: Empresa pertenece a la categoría B. C: Empresa pertenece a la categoría C. D: Impuestos en mora. E: Impuestos al día. n( D ) n( )

a) p( D) b) p( A p( A

B)

B)

c) p(C p(C

D)

d) p( A

25 50

p( A)

16 14 50 50

D) 20 50

D)

e) P ( B | E )

p(C )

0.5 p ( B) 0 50

p( A 30 50

p ( D)

B)

n( B ) n( )

n( A B ) n( )

0.6

p(C

25 8 50 50

37 50

0.74

n( A D ) n( )

9 50

0.18

P( B E ) P( E )

n( A) n( )

D)

n( B E ) n( ) n( E ) n( )

n(C ) n( )

n( D ) n( )

n( B E ) n( E )

n(C D) n( )

8 25

4) Se hizo una auditoria a las obras ejecutadas por tres municipios A, B, y C, para tal efecto se analiza 3 obras ejecutadas por el municipio A, 2 cuentas del municipio B y 5 obras ejecutadas por el municipio C. La probabilidad de que se presenten

irregularidades en el municipio

A es de 1/3, que se presente en

municipio B es de 2/3 y que se presente en municipio C es de 1/7. Se analiza una obra aleatoriamente y se encuentra que hay irregularidades. ¿Cuál es la probabilidad de que se trate del municipio C? Solución Sean los eventos A: Obras ejecutadas por el Municipio A. B: Obras ejecutadas por el Municipio A. C: Obras ejecutadas por el Municipio A. E: La obra ejecutada presenta irregularidades.

86

E

1/3

A

D

3/10

E

2/3 2/10

B D

5/10

1/7

E

C D

p(C | E )

p(C E ) p( E )

p(C | E )

3 1 * 10 3 3 1 2 2 5 1 * * * 10 3 10 3 10 7

p( A) p( E | A)

p(C ) p( E | C ) p( B) p( E | B) p(C ) p( E | C )

21 32.8% 64

87

Problemas Propuestos.

1. En la construcción de unas determinadas obras pueden aparecer anomalías debidas a dos causas que son independientes: Fallos de cimentación y mala calidad de los materiales. La primera ocurre con probabilidad del 4% y la segunda con probabilidad del 3%. a) Calcular la probabilidad de que en una determinada obra no aparezca ninguna anomalía. b) Calcular la probabilidad de que aparezcan fallos de cimentación y no mala calidad de los materiales. c) Si se detecta la presencia de anomalías, la construcción puede verse afectada con un desplome en un plazo de tiempo con las siguientes probabilidades: 0.1 cuando no aparece ninguna de las anomalías y 0.8 cuando aparece alguna de las anomalías. Interprete esta información adicional en términos de sucesos y probabilidades. Calcular la probabilidad de que el edificio se desplome. Si el edificio se ha desplomado ¿cual es la probabilidad de que haya sido producido por alguna anomalía? d) Una determinada empresa realiza 5 obras cada año ¿Cual es la probabilidad de que en 5 años al menos tres obras sufran anomalías?

2. Una empresa compra cierto tipo de materiales de construcción que es suministrada por 3 proveedores: el 45% de los materiales de construcción son compradas al 1er proveedor resultando defectuoso el 1%, el 2 do proveedor suministra 30% de los materiales de construcción y de ellas es defectuoso el 2%. Las restantes provienen del 3er proveedor, siendo defectuoso el 3% de las mismas. En un control de recepción de artículos se selecciona un material de construcción al azar y es defectuosa. Calcular la probabilidad de que la haya suministrado el 2do proveedor.

3. Un proceso se puede ejecutar con uno de tres maquinarias posibles, digamos A, B y C. En el 20% de los casos se emplea la maquinaria A, mientras que las maquinarias B y C son usados el mismo número de veces. En algunas ocasiones 88

en que se realiza el proceso se producen atrasos. Esto ocurre el 10% de las ocasiones en que se usa la maquinaria A, siendo estos porcentajes del 15% en el caso en que se aplica la maquinaria B y el 5% en el caso en que se usa la maquinaria C. a) ¿En qué porcentaje de las ejecuciones del proceso no se producen atrasos? b) ¿Qué porcentaje de los atrasos de las ejecuciones del proceso son atribuibles a la maquinaria B? c) Elegida, al azar, una ejecución ¿Qué probabilidad hay que no tenga retraso en su ejecución y corresponda al uso de la maquinaria A o C?

4. Las previsiones sobre la inflación de un determinado país para el próximo año la sitúan por debajo del 2% con probabilidad 0,65, entre el 2% y el 3% con probabilidad 0,25 y por encima del 3% con probabilidad 0,1. Si la probabilidad de crear más de 700.000 empleos es de 0,7 con inflación baja, de 0,4 cuando ésta se sitúa entre el 2% y el 3% y nula en otro caso, calcule: a) La probabilidad de que se creen más de 700.000 empleos. b) Si antes de conocer el dato de inflación anual, se sabe que se han creado más de 700.000 empleos, ¿cuál es la probabilidad de cada uno de los tres niveles de inflación considerados?

5, Una fábrica produce tres productos, 1, 2 y 3, cada uno de ellos en calidad extra y comercial. La probabilidad de producir una unidad de calidad extra en cada uno de esos productos es: 0,75, 0,5 y 0,8, respectivamente. A su vez esos productos se fabrican en las siguientes proporciones: 45%, 35% y 20%, respectivamente. Con esa información responda a las siguientes cuestiones: a) Si se selecciona al azar una unidad producida, ¿cuál es la probabilidad de que sea de calidad comercial? b) Si se selecciona al azar una unidad producida y es de calidad comercial, ¿de qué producto es más probable que sea?

6, Un sistema de abastecimiento de agua potable pasa por un dispositivo dotado de 3 compuertas A,B y C configurados tal como muestra el siguiente esquema:

89

Las compuertas A,B y C funcionan correctamente con probabilidades 0.90, 0.80 y 0.65 respectivamente. Si la compuerta A funciona correctamente, la probabilidad de que B funcione correctamente es de 0.66. Si las compuertas A y B funcionan correctamente, la probabilidad de que C funcione correctamente es de 0.83. Además existe un probabilidad de 0.10 de que A funcione correctamente y no funcione ni B ni C correctamente.

a. Determine la probabilidad de que el sistema funcione correctamente. b. Si el sistema falla. ¿Cuál es la probabilidad de que la compuerta A funcione correctamente?

90

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

CAPITULO VI

VARIABLE ALEATORIA Y DISTRIBUCIONES DE PROBABILIDAD.

Definición.- Una variable aleatoria (v.a) X es cualquier función, que transforma cada elemento del espacio muestral

, en un numero real. 

X:

X

Al conjunto de posibles valores de X se le llama rango de X (Rx)  Si Rx es finito o enumerable (rango discreto), entonces X es una v.a Discreta.  Si Rx no es enumerable (rango continuo), entonces X es una v.a Continua.

Función de Probabilidad.- Si X es una v.a discreta, la función de probabilidad de X viene dada por: PX x

P X

x

P

/X

x

, tal que

PX ( x) 1 x Rx

Función de densidad.- Si X es una v.a continua, la función de densidad de X es b

una aplicación f X : 

0,

tal que P a

X

f X ( x)dx ,tal que

b

f X ( x)dx 1

a

Función de distribución.- La función de distribución de una v.a X esta dada por:

FX ( x)

P( X

x)

P(

/ X( )

x)

Propiedades. 91

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

 F es continua por la derecha y es creciente  Si X es una v.a discreta , entonces P a

X

b

F b

F a

 Si X es una v.a continua , entonces P a

X

b

F b

F a

dF ( x) dx

 Si X es una v.a continua , entonces F ' ( x)  limx

FX ( x) 0 y lim x

P X

a

f ( x)

FX ( x) 1

Definición. La esperanza o media de una variable aleatoria

X, denotada por E ( X ) o

X

se

define según sea la variable discreta o continua, mediante:

x.P X

x , si X es discreta

x Rx

E X

x. f ( x)dx, si X es continua x Rx

Propiedades.  El valor esperado de una constante es dicha constante  E a bX

a bE X

Definición.- La varianza de una variable aleatoria X cuya media o esperanza es X

, se define como 2 X

V X

2

E X

X

E X

E X

2

E X

2

E2 X

Propiedades.  La raíz cuadrada de la varianza se llama desviación estándar. 

2 X

E X

 V aX b

2

2 X

a2V ( X )

Desigualdad de Chebyshev. Si X es una variable aleatoria, entonces para cualquier k P X

X

k

X

1

se cumple

1 k2

92

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Ejercicio resuelto.

1. Sea X la variable aleatoria definida como la suma de los valores que aparecen al lanzar dos dados. a) Determine la distribución de probabilidad. b) Calcule la probabilidad P(50 y que la transformación Log tiende a reducir la asimetría positiva ya que al sacar logaritmos se reducen en mayor proporción los datos mayores que los menores. Limitaciones: tiene solamente dos parámetros, y requiere que los logaritmos de la variables estén centrados en la media Función de densidad:

f ( x)

1 x

2

exp

1( y 2

y) 2 y

x 0

y = ln x 112

Estadística aplicada

donde,

y y

Mgt. Cleto De La Torre Dueñas

: media de los logaritmos de la población (parámetro escalar), estimado y

: Desviación estándar de los logaritmos de la población, estimado sy.

Estimación de parámetros:

y

sy

1 n

n

ln(xi ) i 1

1 n 1i

n

(ln(xi ) y ) 2

1 2

1

Factor de frecuencia: Puede trabajarse en el campo original y en el campo transformado. 2. Campo transformado: Si se trabaja en el campo transformado se trabaja con la media y la desviación estándar de los logaritmos, así: Ln(XTr) = xTr+KSy de donde, XTr = eln (xTr) con K con variable normal estandarizada para el Tr dado, xy media de los logaritmos y Sy es la desviación estándar de los logaritmos. 3. Campo original: Si se trabaja con los X sin transformar el K se calcula como 2

Exp KT * ( Ln(1 Cv )) Kt

1 2

ln(1 Cv 2 ) 2

1

Cv

K es la variable normal estandarizada para el Tr dado, Cv

s es el coeficiente de x

variación, x media de los datos originales y s desviación estándar de los datos originales. Limites de confianza: En el campo transformado.

Ln( X Tr ) t(1

)

ST

113

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

( Sy )

Se

1

n

KT 2

2

1 2

en donde, n numero de datos, Se error estándar, KT variable normal estandarizada. EJEMPLO: En un río se tienen 30 años de registros de Qmáximos instantáneos anuales con x= 15 m3/s, S = 5 m3/s (media y desviación estándar para los datos originales).

xy=2.655, sy = 0.324 (media y desviación estándar de los datos

transformados). Encontrar el caudal para un periodo de retorno de 100 años y los limites de confianza para un

= 5%. Calcular la probabilidad de que un caudal de

42.5 m3/s no sea igualado o excedido P(Q 4.25). Solución: n=30 x= 15 m3/s

xy=2.655

s = 5 m3/s

sy = 0.324

En el campo original 2

Exp K * ( Ln(1 Cv )) Kt Cv

1 2

ln(1 Cv 2 ) 2

1

Cv s = 5/15 = 0.33 x

K = F-1(1-1/Tr) = F-1(1-1/100) = F-1(0.99) de la tabla de la normal se obtiene KT=2.33 2

Exp 2.33* ( Ln(1 0.33 )) KT

1 2

ln(1 0.332 ) 2

1

0.33

KT = 3.06 QTr = 15 + 5 * 3.028 QTr = 30.14 m3/s En el campo transformado se tiene que: LnQTr100 = 2.655 + 2.33*0.324 LnQTr100 = 3.40992 QTr100 = Exp (3.40992) Q Tr100 = 30.26 m3/s 114

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Limites de confianza Ln (QTr)

Se

t(1- ) Se

( Sy )

1

n 2

2.33 2

1

KT 2

2

1 2

1 2

= 1.93 Se

193 . 0.324 30

011 .

t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) Ln(30.28) 3.41

(1.645 ) (0.11)

0.18095

[3.22905

3.59095]

[e3.22905

e3.59095]

[25.26

36.29]

Intervalos de confianza para QTr100

b) Calcular la probabilidad de que un caudal de 45 m3/s no se igualado o excedido P(Q 4.25). Ln(42.5) = 3.75 t = (3.75 - 2.655)/0.324 F(3.38) = 0.9996 Leído de la tabla de la normal P(Q 4.25) = 99.9%

DISTRIBUCION GUMBEL O EXTREMA TIPO I Una familia importante de distribuciones usadas en el análisis de frecuencia hidrológico es la distribución general de valores extremos, la cual ha sido ampliamente utilizada para representar el comportamiento de crecientes y sequías (máximos y mínimos).

115

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Función de densidad:

f ( x) En donde

y

1

(x

exp

)

exp

(x

)

son los parámetros de la distribución.

F ( x)

f ( x)dx exp

exp

(x

)

Estimación de parámetros

6

s

x 0.5772 donde x

y s son la media y la desviación estándar estimadas con la muestra.

Factor de frecuencia: KT

6

0.5772 ln ln

Tr Tr 1

Donde Tr es el periodo de retorno. Para la distribución Gumbel se tiene que el caudal para un período de retorno de 2.33 años es igual a la media de los caudales máximos. Limites de confianza Xt

Se

t(1- ) Se

s n 1 2 2

[1 1.1396KT 1.1KT ]

KT es el factor de frecuencia y t(1- ) es la variable normal estandarizada para una probabilidad de no excedencia de 1- . EJEMPLO: Para el ejemplo anterior encontrar el Q de 100 años de periodo de retorno y los intervalos de confianza. x= 15 m3/s, s = 5 m3/s QTr100 = x + KT s KT

6

0.577 ln[ln100 ln(99)]

116

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

KT = 3.14 QTr100 = 15 + 3.14*5 QTr100 = 30.7 m3/s Intervalos de confianza t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) 2

[1 11396 . (314 . ) 11 . (314 . ) ]

1 2

= 3.93

Se

(3.93) (5)

Se

30 3.58 m 3 / s

Xt

t(1- ) Se

30.7 m3/s

(1.64) (3.58)

[24.83 m3/s

36.58 m3/s]

Intervalo de confianza para QTr100

DISTRIBUCION GAMA DE TRES PARAMETROS O PEARSON TIPO 3 Esta distribución ha sido una de las más utilizadas en hidrología. Como la mayoría de las variables hidrológicas son sesgadas, la función Gamma se utiliza para ajustar la distribución de frecuencia de variables tales como crecientes máximas anuales, Caudales mínimos, Volúmenes de flujo anuales y estacionales, valores de precipitaciones extremas y volúmenes de lluvia de corta duración. La función de distribución Gamma tiene dos o tres parámetros. Función de densidad:

f ( x)

1

x xˆ0

1

exp

x xˆ0

Donde, x0

y

x

para

0

x

x0 para

0

son los parámetros de escala y forma, respectivamente , y x0 es el parámetro

de localización.

117

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Estimación de parámetros: 2

ˆ

2 ; Cs

ˆ

s

Cs ; 2

xˆ0

ˆ

x

Cs es el coeficiente de asimetría, x

y s son la media y la desviación estándar de

la muestra respectivamente. Factor de frecuencia:

K

z (z

2

Cs 1) 6

1 3 Cs ( z 6z) 3 6

2

(z

2

Cs 1) 6

3

Cs z 6

4

1 Cs 3 6

5

donde z es la variable normal estandarizada Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la muestra. Intervalos de confianza: Xt

t(1- ) Se

Se

S n

Donde S es la desviación estándar de la muestra, n es el número de datos y

se

encuentra tabulado en función de Cs y Tr.

EJEMPLO: Se tiene una estación con 30 años de registros de caudales máximos instantáneos con Media de 4144 pie3/s y desviación estándar de 3311 pie3/s. Si el coeficiente de asimetría de los caudales es de 1.981 pie 3/s cual es caudal para un periodo de retorno de 100 años y su intervalo de confianza. QTr100 = X+ SK K es F(1.981, 100)

de tablas se obtiene K=3.595

(1.9,100) = 3.553 (2.0,100) = 3.605

QTr100 = 4144+ (3.595) (3311) QTr100 = 16050 pie3/s

118

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Intervalos de confianza Xt

t(1- ) Se S

Se

n

= F(1.981,100)

de tablas se obtiene

=8.4922

(1.9,100) = 8.2196 (2.0,100) = 8.5562

( 3311) (8.4922)

Se

30

Se = 5133.56 pie3/s t(1- ) = t(0.95) = 1.645 (Leído de la tabla de la normal) 16050

(5133.56) (1.645)

[7605.29 pie3/s

24494.71pie3/s]

Intervalos de confianza para

QTr100

DISTRIBUCION LOG GAMMA O LOGPEARSON DE 3 PARAMETROS Si los logaritmos Y de una variable aleatoria X se ajustan a una distribución Pearson tipo III, se dice que la variable aleatoria X se ajusta a una distribución Log Pearson Tipo III. Esta distribución es ampliamente usada en el mundo para el análisis de frecuencia de Caudales máximos. Esta se trabaja igual que para la Pearson Tipo III pero con Xy y Sy como la media y desviación estándar de los logaritmos de la variable original X. Función de densidad:

1

f ( x)

ln(x) y0

x

1

exp

ln(x) y0

donde, y0

y

y

para

0

y

y0 para

0

son los parámetros de escala y forma, respectivamente , y y0 es el parámetro

de localización.

119

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Estimación de parámetros: 2

ˆ

2 ; Cs

ˆ

sy

Cs ; 2

xˆ0

ˆ

xy

Cs es el coeficiente de asimetría, , x y

y s y son la media y la desviación estándar

de los logaritmos de la muestra respectivamente. Factor de frecuencia:

ln(YTr )

K

z (z

2

Cs 1) 6

1 3 Cs ( z 6z) 3 6

2

(z

2

xy

Cs 1) 6

K sy 3

Cs z 6

4

1 Cs 3 6

5

donde z es la variable normal estandarizada

Este valor de K se encuentra tabulado de acuerdo al valor de Cs calculado con la muestra. Intervalos de confianza: Xt

Se

t(1- ) Se

Sy n

Donde Sy es la desviación estándar de los logaritmos de la muestra, n es el número de datos y

se encuentra tabulado en función de Cs y Tr.

120

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

Cuadro : Precipitacion Maxima en 24 horas (mm) - Estacion Granja Kayra Año

Max

1964

23.0

1965

31.4

1966

38.0

1967

42.1

1968

21.6

1969

25.1

1970

44.8

1971

36.1

1972

36.6

1973

28.4

1974

22.8

1975

25.0

1976

20.0

1977

33.9

1978

27.2

1979

39.0

1980

38.2

1981

40.2

1982

29.6

1983

21.4

1984

36.5

1985

31.2

1986

27.5

1987

42.1

1988

35.2

1989

41.9

1990

26.5

1991

37.6

1992

22.6

1993

48.5 121

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

1994

39.6

1995

34.6

1996

31.3

1997

47.0

1998

35.9

1999

19.3

2000

51.3

2001

31.0

2002

26.7

2003

39.1

2004

30.8

2005

27.8

2006

51.6

2007

32.9

2008

27.9

Caudales máximos instantáneos anuales del río Piura en Puente Sánchez Cerro. Q Año

(m3/s)

Q Año

(m3/s)

1926 860.0

1963 37.0

1927 610.0

1964 33.0

1928 124.0

1965 2500.0

1929 135.0

1966 49.0

1930 95.0

1967 82.0

1931 450.0

1968 21.0

1932 1900.0

1969 180.0

1933 620.0

1970 29.0

1934 438.0

1971 545.0

1935 379.0

1972 1616.0

1936 390.0

1973 845.0

1937 39.0

1974 58.0

1938 508.0

1975 272.0 122

Estadística aplicada

Mgt. Cleto De La Torre Dueñas

1939 1525.0

1976 388.0

1940 185.0

1977 646.0

1941 2220.0

1978 167.0

1942 405.0

1979 74.0

1943 2250.0

1980 45.0

1944 273.0

1981 568.0

1945 220.0

1982 390.0

1946 134.0

1983 3200.0

1947 41.0

1984 980.0

1948 42.5

1985 112.0

1949 1010.0

1986 25.0

1950 0.0

1987 574.0

1951 0.0

1988 6.0

1952 153.0

1989 845.0

1953 2200.0

1990 6.0

1954 44.0

1991 14.0

1955 350.0

1992 1793.0

1956 1530.0

1993 1042.0

1957 1700.0

1994 1108.0

1958 690.0

1995 75.0

1959 900.0

1996 100.9

1960 81.0

1997 638.1

1961 88.0

1998 4424.0

1962 115.0

1999 3107.0

123