ESTADIGRAFOS

ESTADÍGRAFOS Estadígrafo: Es la medida que en Estadística se aplica sobre una muestra. A estos indicadores se les denomi

Views 50 Downloads 1 File size 334KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

ESTADÍGRAFOS Estadígrafo: Es la medida que en Estadística se aplica sobre una muestra. A estos indicadores se les denomina también ESTADIGRAFOS o MEDIDAS DE RESUMEN, permiten hallar un valor numérico, el mismo que representa a toda la población o muestra en estudio. Las medidas de resumen más importantes se clasifican en tres grupos: - Medidas de tendencia central: Media, mediana, moda - Medidas de posición : Deciles, cuartiles, percentiles - Medidas de dispersión: Desviación standard, varianza, coeficiente de variación 1. MEDIDAS DE TENDENCIA CENTRAL GENERALIDADES En una distribución de frecuencias se observan diferentes características que tienen relación con el comportamiento de las variables. Una de las primeras observaciones se refieren a la ubicación o posición de los datos alrededor de un valor central; así en las distribuciones de frecuencias pueden existir diferentes valores centrales para la misma forma de distribución, o también un solo valor central para diferentes formas de distribución. La importancia de estas características condice en general a la determinación de promedios o estadígrafos de posición. Estos estadígrafos localizan el centro de la distribución de frecuencias, por esto se denominan también estadígrafos de posición o de localización, como por ejemplo: media aritmética, media armónica, media geométrica, moda, mediana, cuartiles, etc. 1.1 MEDIA ARITMETICA. La media aritmética, llamado también promedio aritmético, o simplemente media, de un conjunto de n números

X 1 , X 2 , X 3 ,......., X n se denota por X (léase «X barra») es un

estadígrafo que localiza el centro de la distribución en base al centro de gravedad y se obtiene a partir del siguiente razonamiento: n

X  X 2  X 3  .......  X n X 1  n

X j 1

n

j



X n

1

EJEMPLO: Sean las notas de un alumno: 8, 3 ,5 ,12 Y 10 entonces el promedio será: X 

8  3  5  12  10  7.6 5 n

Luego se puede decir que:

X j 1

X 

PARA DATOS NO AGRUPADOS

j

n

Para datos agrupados: Si los números X 1 , X 2 ,....., X m ocurren

f 1 , f 2 ,....., f m veces,

respectivamente (o sea, con frecuencias f 1 , f 2 ,....., f K ), media aritmética es m

f X  f 2 X 2  ....  f m X m X 1 1  f 1  f 2  ......  f m

f j 1



m

j

 fX   fX n f

 f es la frecuencia total (o sea, el número total de casos). m

Entonces:

Xj

f j 1

Donde N =

j

X 

f j 1 m

j

Xj

f j 1

PARA DATOS AGRUPADOS

j

(f, es el numero de veces que aparece el valor de X)

2

EJEMPLO: La tabla es una distribución de frecuencias de alturas (con precisión de 1 pulgada) de 100 estudiante varones de la universidad XYZ. Tabla 1.1 Alturas de 100 estudiantes varones de la universidad XYZ ALTURA NUMERO DE ESTUDIANTES (Pulgadas) 60 - 62

5

63 - 65

18

66 - 68

42

69 - 71

27

72 - 74

8

TOTAL

100

La primera clase comprende las alturas de 60 a 62 pulgadas, puesto que 5 estudiantes tienen una altura perteneciente a esa clase, la correspondiente frecuencia de clase es 5. Los datos ordenados y requeridos como en la distribución de frecuencia anterior, se suelen llamar “Datos Agrupados”, aunque en el proceso de agrupamiento se pierden detalles del valor original de los datos, tiene la ventaja de presentarlos “todos” en un cuadro sencillo que facilita encontrar las relaciones entre ellos. Intervalos de Clase y Límites de Clase: Un símbolo que define una clase tal como 60-62 de la tabla anterior, se conoce como intervalo de clase. Los números extremos 60 y 62 son los “Límites de Clase”, el número menor es el “Límite inferior” de la clase y el mayor es el “Límite superior” de la clase; “Límite Real”. Los términos clase e intervalo de clase se usan a menudo indistintamente, aunque el intervalo de clase es realmente un símbolo para la clase. Marca de Clase: La marca de clase es el punto medio del intervalo de clase y se obtiene sumando los límites superior e inferior de la clase y dividiendo por 2.

3

La marca de clase en el intervalo 60-62 es (60+62)/2=61, también se denomina punto medio de clase. SOLUCIÓN La Tabla 1.2 indica cómo se hace. Nótese que todos los estudiantes que tienen entre 60 y 62 (pulgadas) , o entre 63 y 65, etc., se consideran como de 61 (pulgadas) , 64 (pulgadas), etc. El problema se reduce entonces a hallar la altura media de 100 estudiantes, de los cuales 5 miden 61 (pulgadas), 18 miden 64 (pulgadas), etc. Los cálculos exigidos pueden ser tediosos, sobre todo para casos de números grandes y con muchas clases. Tabla 1.2 Altura (pulgadas) Marca de clase (X) Frecuencia ( f )

fX

60-62

61

5

305

63-65

64

18

1152

66-68

67

42

2814

69-71

70

27

1890

72-74

73

8

584

n   f  100

X 

 fX   fX n f



n   fX  6745

6745  67.45 _ pu lg adas 100

La altura media de 100 estudiantes es de 67.45 pulgadas. 1.1.1 FORMULAS ABREVIADAS PARA LA MEDIA ARITMETICA Dada la importancia que posee la media aritmética como estadígrafo de posición, es necesario apelar a su flexibilidad matemática para deducir formulas abreviadas o reducidas En general, existen dos métodos, denominados método CORTO y método CLAVE respectivamente.

4

a) Método Corto Este método se fundamenta en un cambio de origen o translación a otro nuevo llamado ORIGEN DE TRABAJO, o algunos casos MEDIA HIPOTETOCA, es decir d=X-A Donde:

d= Desviación X= Variable A=Origen de trabajo (o media hipotética)

Despejando la variable X se tiene: m

X=d+A X

f j 1

j

n m

X

Xj

 j 1

m

f j (d j  A) 

n

 j 1

m

f jd j n



A f j j 1

n

Entonces: X X  A

X  A

 fd n

d

 fd  An n

n

FORMULA DEL METODO

CORTO

PARA

DATOS AGRUPADOS

PARA DATOS NO AGRUPADOS

n

Las formulas del método corto no tienen restricciones en este sentido se pueden utilizar cuando los tamaños de clase son iguales o no y cuando la serie es simple o de datos agrupados

b) Método Clave

5

Se sustenta en un cambio de origen y de escala simultáneamente de manera que por este medio , se define una nueva variable (“u”) de números enteros positivos y negativos . es importante aclarar que la formula obtenida por este método, tiene restricciones fundamentales y es que solamente se puede utilizar cuando los tamaños de clase son CONSTANTES y únicamente para datos agrupados en otro caso no es posible utilizar la formula deducida por el método CLAVE. cu  X  A u

X A c

Donde: C = Tamaño de intervalo de clase U = Números enteros positivos, negativos y cero X = Variable A = Origen de trabajo o media hipotética Despejando X: X=cu+A Por lo tanto m

X

f j 1

j



n m

X

A f j j 1

n

m

(cu j  A)

 f cu j 1

j

n

m

j



A f j j 1

n

m



c f j u j j 1

 m   f ju j j 1 X  A   n  

n   c   

FORMULA DEL MÉTODO CLAVE

1.1.2 PROPIEDADES DE LA MEDIA ARITMÉTICA

6

La media aritmética tiene propiedades sumamente importantes desde el punto de vista descriptivo y también inferencial, sin embargo es imprescindible realizar una revisión de las propiedades más fundamentales empezando por las descriptivas. PROPIEDAD 1 Para datos no agrupados. La suma algebraica de las desviaciones de cada valor observado X 1 , X 2 ,........ Xn con respecto a su media es cero. Esta propiedad significa que, n

(X j 1

j

 X)  0

Para datos agrupados. Para datos agrupados esta propiedad se transforma en m

f j 1

j

(X j  X )  0

Donde: m = número de clases f j = frecuencia absoluta de la clase j X

j

= punto medio del intervalo i (marca de clase)

DEMOSTRANDO: n

n

n

 ( X j  X )   X j  X j 1

j 1

j 1

n

  X j nX j 1

m

f

j

j 1

m

m

j 1

j 1

( X j  X )  f j X j  f j X

m

m

j 1

j 1

  f j X j X  f j m

n 1 n    X j n *  *  X j  j 1  n j 1  n

n

j 1

j 1

  X j  X j  0

  f j X j nX j 1

m

 j 1

 m   f j X j  j 1 0 f j X j n  n      

PROPIEDAD 2

7

La suma de los cuadrados de las desviaciones de cada una de las observaciones X 1 , X 2 ,........ Xn

con respecto a su media es mínima. Esta propiedad significa que, si a es

cualquier valor, entonces:

 X

 A

n

j 1

j

 f X m

j

j 1

j

PARA DATOS NO AGRUPADOS

2

 A

PARA DATOS AGRUPADOS

2

DEMOSTRANDO:

X

 A

2

  ( X j  X ) 2  2( X j  X )( X  A)  ( X  A) 2



n

j 1

X n

j 1

n

2

j



 A  ( X j  X )  ( X  A) n



j

2

j 1



j 1 n

n

n

j 1

j 1

j 1

  ( X j  X ) 2   ( X  A) 2  2 ( X i  X )( X  A)

Puesto que n

n

j 1

j 1

2 ( X j  X )( X  A)  2( X  A) ( X j  X )  0

Se tiene n

n

j 1

j 1

 ( X i  A) 2   ( X j  X ) 2  n( X  A) 2 Y como n( X  A) 2  0, obtenemos n

n

j 1

j 1

 ( X j  A) 2   ( X j  X ) 2 Alcanzándose la igualdad cuando X =A

 f X m

j 1

j

j

 A

2

8

Es mínimo si A = X

Hallando la primera derivada respecto de A, e igualando a cero: m

   f j ( X j  A) 2 j 1

m d  2 f j ( X j  A)(1) dA j 1

d 0 dA m

2 f j ( X j  A)(1)  0 j 1

m

f j 1

j

X j  nA  0 m

nA   f j X j j 1

m

A

f

j

Xj

j 1

n

A X

d 2  2n dA

Por tanto es mínimo

PROPIEDAD 3 M (X )  X

9

m





M AX j  K 

f j 1

j

( AX j  K ) n

Operando en el segundo miembro m









M AX j  K 

f j 1

j

m

AX j 

n

f j 1

j

Xj 

n

A f j X j n



k f j n

M AX j  K  AX  K

"EL PROMEDIO O MEDIA ARITMÉTICA DE UNA VARIABLE, MULTIPLICADA POR UNA CONSTANTE MAS OTRA CONSTANTE, ES IGUAL A LA PRIMERA CONSTANTE MULTIPLICADA, POR LA MEDIA ARITMÉTICA DE LA VARIABLE MAS IA OTRA CONSTANTE". i) Si A=0 M[k] = K "EL PROMEDIO O MEDIA ARITMÉTICA DE UNA CONSTANTE ES IGUAI A LA CONSTANTE". De otro modo:

K 

K

Luego:

n



K n



nK n

K K

ii) Si A=1





M Xj K  X K

10

"LA MEDIA ARITMÉTICA O PROMEDIO DE UNA VARIABLE MAS UNA CONSTANTE, ES IGUAL A LA MEDIA DE LA. VARIABLE MAS LA CONSTANTE". iii) Si K=0 M[Ak] =A X "EL PROMEDIO O MEDIA ARITMÉTICA DE UNA VARIABLE POR UNA CONSTANTE, ES IGUAL A LA CONSTANTE MULTIPLICADO POR LA MEDIA DE LA VARIABLE". PROPIEDAD 4 m

X1 

f j 1

j

Xj

n1

m

 X 1n1   f j X j j 1

m

X2 

f j 1

j

n2

Xj

m

 X 2 n2   f j X j j 1

FORMULA DE LA MEDIA GENERAL O MEDIA ARITMÉTICA PONDERADA (Para 2 sub • nuestras) Donde: n1 = Tamaño de la sub-muestra 1

n2 = Tamaño de la sub-muestra 2 X 1 = Media aritmética de la sub-muestra 1

X 2 = Media aritmética de la sub-muestra 2

Apuntes X 

W1 X 1  W2 X 2 W1  W2

11

Es la media aritmética ponderada donde los pesos o las ponderaciones; son las W. Por extensión: r

X

n X r

r

1

r

n

r

1

Siendo:

r = el número de sub-muestras.

1.3 MEDIA ARITMETICA PONDERADA A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada. Si X1,X2,...,Xn es un conjunto de datos o media muestral y w1,w2,...,wn son números reales positivos, llamados "pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como:

Donde: W j =Valor de peso para

o ponderación

= Dato j

EJEMPLO En una materia dada se asignan pesos de importancia, de la siguiente forma: Unida I (20% del curso), Unidad II (25% del curso), Unidad III (20% del curso), Unidad IV (15% de la calificación), Unidad V (20% de la calificación). Si las calificaciones de un alumno son 8 en la

12

primera unidad, 5 en la segunda, 8 en la tercera unidad, 10 en la cuarta unidad y 8 en la última unidad. Es decir, se tienen la siguiente tabla: Unidad I II III IV V

Ponderacion (Wi) 20% = 0.2 25% = 0.35 20% = 0.2 15% = 0.15 20% = 0.10

Datos (Xi) 8 5 8 10 8

1.4 MEDIA ARMONICA La media armónica H de un conjunto de n números X1, X2,........Xn; es el reciproco de la media aritmética de los recíprocos de los números. H

PARA DATOS NO AGRUPADOS

1 j m



1

X j 1

n j m j 1

j

1

X

j

n

j m

En la práctica es más fácil recordar que:

1  H

1

X j 1

j

n



1 1  n X

EJEMPLO:

La media armónica de 2, 4, 8 es:

H 

3 3  3  3,42857 1 1 1 7   2 4 8

13

Para datos agrupados.

H 

1



jm

fj

j 1

j

X

n j m

fj

j 1

j

X

n

En la práctica es mas fácil recordar que: 1 1 j m f j   H n j 1 X j

EJEMPLO: Determinar el tiempo promedio empleado en la producción por artículo de cuarenta obreros. Minutos por Articulo

fi

Xi

10 15 16 20

H 

Nº de obreros

5 20 10 5 40

40 10  14  14,7692 5 20 10 5 13    10 15 16 20

1.5 MEDIA GEOMÉTRICA La media geométrica G de un conjunto de N números x1, x2,...... , xn es la raíz n-esima del producto de los n números: G  n X 1, X 2 ... X n  n

j n

X

j

j 1

14

EJEMPLO: La media geométrica de: 2, 4, 8 es: G  3 2 x 4 x8  4 G  n X 1 , X 2 ,... X n  n

j n

X j 1

j

j n

Utilizando logaritmos seria: log G 

 LogX j 1

j

n

EJEMPLO Calcular el crecimiento promedio porcentual de producción de estaño según el siguiente cuadro: Año 1972 1973 1974 1975 1976

LogG 

Producción % de la producción En TMF respecto al año anterior. Xi 6.031 6.650 10,2636 6.897 3,7143 7.366 6,8000 8.876 20,4996

Log xi 1,011299718 0,569876978 0,832508912 1,311745387 3,725430995

3.725430995  0,9313577488 G  AntiLog(0,9313577588)  8.538031 4

RESPUESTA: EL crecimiento porcentual promedio anual de estaño es 8,54% j m

Para datos agrupados seria: G  n X 1f X 2f ... X mf utilizando logaritmos: 1

2

m

log G 

f j 1

j

log X j n

La media geométrica tiene algunos inconvenientes como por ejemplo si algún X j es igual “0” entonces G=0 ó si algún X j es negativo entonces G es imaginario, luego es preciso buscar una forma diferente de calcular la media geométrica:

15

Luego: Sean los datos observados Co C1 C2 : : Cn

Gn

% de los datos xi C1/Co C2/C1 : : Cn/C n-1

C C1 C 2 C n . ...  G  n n ; Pero la variación porcentual es: 1-G = r C O C1 C n 1 Co

Luego: G = r+1 Entonces remplazando este valor en la anterior formula: r 1  n

Cn C  (r  1) n  n Co Co

Cn  Co (1  r ) n

Donde: Cn = Cantidad al final del período Co = Cantidad inicial

r = Tasa de interes compuesto, o tasa de cambio por período n = número de períodos. Esta última función es muy utilizada para cálculos de crecimiento de población o la tasa de interés compuesto. EJEMPLO En una empresa, la producción ha experimentado un crecimiento del 25% del primer al segundo año, del 40% del segundo al tercero. a.

Determine la tasa promedio de crecimiento del primer año al tercero;

b. Estimar la producción del cuarto año.

16

SOLUCIÓN El crecimiento de la producción de la empresa se resume en la siguiente tabla CRECIMIENTO DE LA PRODUCCIÓN DE UNA EMPRESA Año

Porcentaje de crecimiento

Factor de cambio (x.)

25% 40

1.25 1.40

1 2 3

Producción (T.M) 100 100x1.25 = 125 125x1.40=175

a. El cambio promedio de crecimiento será G

1.25 * 1.40 

1.75  1.323

Por tanto, la tasa promedio de crecimiento será 1.323  1 

32.3 de 32.3 % anual 100

Comprobación: Año 1 2 3

producción (T.M) 100 100x1.323 = 132.3 132.3 x 1.323 = 175.03

b. La producción del cuarto año será: Producción = (producción tercer año) x (Factor de cambio) =175.03*1.323 = 231.56 T.M. Equivalencia con la fórmula del interés compuesto G

1.25 * 1.40  1.323

Elevando al cuadrado la ecuación anterior G2 

(1.25 * 1.40) 2  (1.323) 2

G 2  1.25 * 1.40  (1.323) 2 G 2  1.75  (1  0.323) 2 100 * G 2  C n  175  100(1  0.323) 2  C 0 (1  r ) 2

17

1.6 MODA La moda de una serie estadística es la frecuencia más alta de la serie estadística o dicho de otra manera es el valor más frecuente. Ejemplo: 20, 40, 30, 40, 50, 110, 20, 50, 40, 15 donde la moda de esta serie es: Mo=40. A) Si la distribución de frecuencias tiene un solo máximo, se dice que la distribución es unímodal B) Si la distribución de frecuencias tiene más de un máximo, se dice que la distribución es multimodal, bimodal, trimodal, etc.

C) Si todas las frecuencias son iguales se dice que la distribución no tiene moda y se trata de una distribución uniforme: Para datos agrupados la determinación de la definición de la moda se puede hacer de forma geométrica así:

Mo = Moda Lo = Limite real inferior de la clase modal. no = Frecuencia absoluta de la clase modal. f1 = Frecuencia absoluta anterior a la clase modal. f2 = Frecuencia absoluta posterior a la clase modal. w = Amplitud o ancho del intervalo de clase.

Lo Mo (Lo+w+Mo)

18

M  L0 L0  w  M 0 M  L0 L0  w  M 0 EF EG   0   0  f 0  f1 f0  f2 1 2 AB DC

Para datos agrupados

M 0  LO 

1 w 1   2

EJEMPLO: Intervalos 20 - 30 30 – 40 40 – 50 50 – 60 60 – 70 70 - 80 Total

Universitari os fi 10 20 40 60 10 5 145

M 0  LO 

1 w. 1   2

M 0  50 

20 10  52,86  53 20  50

1.7 MEDIANA La mediana es otro estadígrafo de posición, o medida de tendencia central que sigue en importancia a la media aritmética. La mediana se define como: 'AQUEL VALOR DE LA VARIABLE QUE DIVIDE EN DOS PARTES IGUALES UN HISTOGRÁMA DE FRECUENCIAS O UNA SERIE SIMPLE DE DATOS ORDENADOS". Este estadígrafo es inestable en el muestreo, carece de flexibilidad matemática pero ci contrapartida tiene una ventaja importante y es que la mediana no está afectada por sus valores extremos, por este motivo se utiliza con preferencia en aquellas investigaciones estadísticas, donde existen limites extremos abiertos o en aquellos casos donde los valores extremos se encuentran significativamente distanciados de los valores centrales. Un ejemplo frecuente de aplicación de la mediana se observa para el caso del ingreso medio.

19

Datos no agrupados: en el cálculo de la mediana para datos no tabulados, hay que distinguir dos situaciones: número de observaciones impar y número de observaciones par. a. Si el número de observaciones n es impar, basta con ordenar los datos en orden de magnitud creciente X  1 , X  2  ,....., X  n  , (esto es x(1) denota a la observación más pequeña, X(2) denota a la segunda observación menor, y X(n) denota a la observación mayor, o sea X (1) < X(2) ... < X(n)), y tomar como valor de la mediana el valor de la observación que ocupa la posición central. Es decir: Me  X   n 1 / 2 

Esto es válido tanto para variables continuas como para variables discretas. EJEMPLO: Suponga que se tiene las observaciones: 43,51, 37, 39, 19, 24, 27. Hallar la mediana de la muestra. SOLUCIÓN 1. Se ordena los datos X 1 = 43, X2 = 51, X3 = 37, X4 = 39, X5=19, X6 = 24, X7 = 27, en orden de magnitud creciente

19, X1

24,

27,

37,

39,

43,

51

X2

X3

X4

X5

X6

X7

2. Existen n = 7, un número impar de observaciones, entonces la mediana es el valor de la observación que ocupa la posición central, es decir Me  X   7 1 / 2   X 4  37

20

b. Si el número de observaciones n es par, en este caso, después de ordenado el conjunto de observaciones, existen dos valores centrales X(n/2) y X   n / 2  1 pudiéndose tomar como mediana cualquiera de ellos, o cualquier valor entre estos dos. Se acostumbra tomar como mediana la semisuma de ambos valores. Es decir Me 

X  n / 2   X   n / 2  1 2

EJEMPL0: Considere las observaciones muéstrales: 43, 51, 37, 39, 19, 24,27, 62. Determinar la mediana de la muestra. SOLUCIÓN 1.

La muestra X 1 = 43, X2 =51, X3 = 37, X4 = 39, X5 = 19, X6 = 24., X7 = 27, X 8 = 62

ordenada en forma ascendente es

2. Existen n = 8, un número par de observaciones, entonces la mediana es el promedio de las dos observaciones centrales X(8/2) = X(4) = 37 y X ((8/2) + 1) = X(5) =39 Es decir Me 

X  8 / 2   X   8 / 2  1 2



X 4  X 5 37  39   38 2 2

En consecuencia con la definición de la mediana es fácil observar que dial representa el valor central del conjunto de observaciones, es decir, indica la posición del centro de las observaciones. Para datos agrupados: la mediana se determina utilizando una fórmula derivada del gráfico de las frecuencias absolutas acumuladas, o de las frecuencias relativas acumuladas. 21

La media para datos agrupados seria: Me = Mediana L j-1 = Limite real inferior de la clase que contiene la mediana. Lj = Limite real superior de la clase que contiene la mediana. F j-1 = La frecuencia acumulada que corresponde a x j-1. F j = La frecuencia acumulada que corresponde a fj. N/2 = La mitad de la frecuencia total. w = El ancho de intervalo de clase.

N  F j 1 Me  L j 1 Me  L j 1 w w       Me  L j 1  2 w N N F j  F j 1 fj fj BD CE  F j 1  F j 1 2 2 AB

AC

EJEMPLO: Edades 15 – 19 20 – 24 25 – 29 30 – 34 35 – 40 Total

Xi 17 22 27 32 37

Univ. 5 10 20 10 5 50

Fi 5 15 35 45 50

Me  L j 1

N  F j 1  2 w fj

50  15 2 Me  24,5  5  27 20

Donde F j  F j 1 = f j 1.8 FRACTILES

22

El concepto de la mediana puede extenderse a otros estadígrafos conocidos como cuartiles, deciles, percentiles, etc. Es decir que si la mediana divide en dos partes iguales la distribución de frecuencias, entonces es posible dividirla también en cuatro partes iguales (cuartiles), o en diez partes iguales (deciles), o cien partes iguales (percentiles), y así sucesivamente. Por tanto la formulas serian: N (n)  F j 1 Cuartil: Me  L  4 w j 1 fj

Decil: Me  L j 1

Donde n indica la posición del fractil.

N ( n)  F j 1 10  w fj

Percentil: Me  L j 1

N ( n)  F j 1  100 w fj

1.8.1 CUARTILES Son los que dividen la serie o el histograma de frecuencias en cuatro partes iguales. Son los valores de la variable que dividen en cuartos a los datos ordenados en forma ascendente o descendente en cuatro partes iguales; y se denotan Qi , i=1,2,3 . X (1) , X ( 2 ) ,........., X ( i ) , X ( i 1) ,......, X ( K 1) ,........, X ( m ) , X ( m 1) ,...., X ( n )

23

Cada conjunto de datos posee tres cuartiles. El primer cuartil Q1, es el número tal que cuando mucho el 25 % de los datos es menor en valor que Q1 y cuando mucho el 75% de de los datos es mayor que Q1. El segundo cuartil es la mediana. El tercer cuartil, Q3, es el número tal que cuando mucho el 75% de los datos es menor en valor que Q3 y cuando mucho el 25% de datos es mayor que Q3. (Según el cuadro) Cuartil 1

Q1  L j 1

N (n)  F j 1 4  w f q1

Siendo:

Frecuencia del cuartil uno Suma de todas las frecuencias anteriores a la clase del primer cuartil w ═ Tamaño de clase del primer cuartil Limite inferior de la clase del primer cuartil

Cuartil 2

Q2  L j 1

N ( 2)  F j 1  4 w f q2

El cuartil dos coincide con la mediana, ya que

Cuartil 3

Q3  L j 1

N (3)  F j 1 4  w f q3

EJEMPLO

24

La tabla muestra una distribución de frecuencias de puntuaciones de un examen final de álgebra, (a) Hallarlos cuartiles de la distribución y (b) interpretar su significado.

Solucion

 30  15  Q1  60   10  67  21   60  36  Q2  70   10  75  43   90  79  Q3  80   10  83  32 

b) Q1 significa el valor, hasta donde se encuentra el 25% de los datos.

25

Q2 es la mediana; y Q3 es el valor donde se encuentra el 75% de los datos

1.8.2 QUINTILES Son los que dividen una serie o un histograma de frecuencias en cinco partes iguales se denota por “T” N   2N   3N   4N   5  F j 1   5 2  F j 1   5 3  F j 1   5 4  F j 1  T1  Li    w j ; T2  Li    w j ; T3  Li    w j ; T4  Li   w j f r1 f r2 fr3 f r4                

1.8.3 DECILES Son los que dividen una serie o un histograma de frecuencias en diez partes iguales se denota por “D” N   2N   5N   10  F j 1   10 2  F j 1   10 5  F j 1  D1  Li    w j ; D2  Li    w j ;........; D5  Li   w j f D1 f D2 f D5            

El decil quinto es la mediana ya que:

5N N  10 2

Ejemplo 2. Calcular los deciles para la misma tabla del ejemplo anterior. La tabla se transcribe de nuevo en seguida: Límite Límite Frecuencia No. inferior superior Frecuencia acumulada ($) ($) 1

250

259.99

8

8

2

260

269.99

10

18

3

270

279.99

16

34

4

280

289.99

14

48

26

5

290

299.99

10

58

6

300

309.99

5

63

7

310

319.99

2

65

Al igual que para los cuartiles, lo primero que tenemos que hacer es saber en qué intervalo o clase quedará el primer decil, en él hay incluidos 1/10 N = 65/10 = 6.5 elementos, ¿cuál es la primera clase que su frecuencia acumulada es mayor a 6.5?, vemos que la primera clase tiene una frecuencia acumulada de 8, entonces en este intervalo está el primer decil, así: N   2N   5N   10  F j 1   10 2  F j 1   10 5  F j 1  D1  L1    w j ; D 2  L2    w j ;........; D5  Li   w j f D1 f D2 f D5            

Di = Li + (wj) [ (d N/10) - (Fj-1) ] / [ Fj - (Fj-1) ] D1 = Li + (w1) [ (N/10) - (F1-1) ] / [ F1 - (F1-1) ] Sustituyendo valores: D1 = 250 + (10) [6.5 - 0] / [8 - 0] Efectuando operaciones y simplificando, se obtiene que: D1 = $258.12

El segundo decil abarca: (2/10)(65) = 13 elementos. Quedará en el segundo intervalo, esto es: D2 = 260 + (10) [ 13 - 8 ] / [ 18 -8 ] D2 = 260 + 5 D2 = $265.00 El tercer decil abarcaría: (3/10)(65) =19.5 elementos. Por lo que: D3 = 270 + (10) [ 19.5 - 18 ] / [ 34 -18 ] D3 = 270 + 0.9375 27

D3 = $270.94 El cuarto decil abarcará: (4/10)(65) = 26 elementos. Por lo que: D4 = 270 + (10) [ 26 - 18 ] / [ 34 -18 ] D4 = $275.00 Siguiendo con el mismo procedimiento, obtenemos los deciles restantes. Se dejan al lector como ejercicio. D5 = $279.06 D6 = $283.57 D7 = $288.21 D8 = $294.00 D9 = $301.00

CONCLUSIONES: 10% de los colaboradores de este estudio ganan $258.12 ó menos. 20% de los colaboradores de este estudio ganan $265.00 ó menos. 90% de los colaboradores de este estudio ganan $301.00 ó menos.

1.8.4 PERCENTILES Son valores que dividen a la población en cien partes iguales (de forma ascendente o descendente). Los representamos por Pi ; i= 1,2,…., 99. Evidentemente los percentiles 25, 50 y 75 coinciden con los cuartiles. Y los percentiles 10, 20 , ... , 90 coinciden con los deciles. Se tiene entonces, el esquema siguiente:

28

 N   50 N   99 N   100  F j 1   100  F j 1   100  F j 1  P1  Li    w j ;...; P50  Li    w j ;...; P99  Li   w j f p1 f p 50 f p 99            

Notas: 1. El primer cuartil y el 25avo percentil son iguales; es decir Q1 = P 25 también Q3 = P75 2. La mediana, el segundo cuartil, y el 50avo percentil son iguales X = P50 .Así, cuando se pida encontrar P50, aplique el procedimiento para encontrar la mediana PRIMER PERCENTIL = P1: es el valor que supera a no más de un céntimo de las observaciones y es superado por no más de 99 centécimos de ellas. O equivalentemente, P1 es el valor que deja 1 % de las observaciones menores o iguales a él y el 99% superiores a él. SEGUNDO PERCENTIL = P2: Es el valor que supera a no más de dos centécimos de las observaciones y es superado por no más de 98 centécimos de ellas. En otras palabras, P 2, es el valor que deja 2% de las observaciones menores o iguales a él y el 98% superiores a él. Así, sucesivamente. NOVENTA Y NUEVE AVO PERCENTIL = P 99: es el valor que supera a no más de 99 centécimos de las observaciones y es superado por no más de 1 centécimo de ellas. O en forma equivalente, P99 es el valor que deja 99% de las observaciones menores o iguales a él y el 1% superiores a él. En estadística el término percentil, se emplea para indicar en una distribución, el valor por debajo del cual está situado un cierto porcentaje de la distribución de valores observados. Así, al decir que en una distribución de estatura de un grupo de estudiantes, el percentil 40 es 148.2

29

cm. (P40 = 148.2 cm.), se está afirmando que el 40% de los estudiantes miden menos de 148.2 centímetros. EJEMPLO SALARIOS POR DIA 50 – 60 60 – 70 70 – 80 80 – 90 90 – 100 100 –110 110 – 120 TOTAL

NUMERO DE EMPLEADOS 8 10 16 14 10 5 2 65

Fi 8 18 34 48 58 63 65

A) Calcular el primer cuartil de la distribución: N 65 (n)  F j 1 1 8 4 P25= Q  L  4 w  Q  60  10  68,25 1 j 1 1 fj 10

B) Calcular el Segundo cuartil de la distribución. N 65 ( n)  F j 1 2  18 4 P50 = Q  L  4 w  Q2  70  10  79,0625 2 j 1 fj 16

C) Calcular 5 percentil.

P5  L j 1

N 65 (n)  F j 1 50  10 w  P5  50  100 10  54,0625 fj 8

30

2. MEDIDAS DE VARIABILIDAD Las medidas de tendencia central que se describen en él capitulo anterior, son útiles para la identificación de un valor típico en un grupo de valores. Por el contrario, las medidas de dispersión o variabilidad describen un grupo de valores en función de la variación o dispersión de los datos incluidos en ese grupo. Existen varias técnicas para medir el grado de dispersión en los conjuntos de datos en este capitulo describiremos: La desviación media, la desviación intercuartilica, la varianza y la desviación típica. 2.1 RECORRIDO O RANGO (AMPLITUD) Es un estadígrafo sumamente sencillo pero frecuentemente influido por sus valores extremos, descuidando los valores intermedios, por cuyo motivo su aplicación se restringe a una parte especializada de la estadística, conocida como el control de calidad, y utilizado frecuentemente en el sector industrial. Se define como: LA DIFENENCIA DEL VALOR MAS ALTO DE LA VARIABLE Y EL VALOR MAS BAJO PARA UNA SERIE. PARA DATOS AGRUPADOS, ES LA DIFERENCIA ENTRE EL LIMITE SUPERIOR DE LA ULTIMA CLASE, Y EL LIMITE INFERIOR DE LA PRIMERA” R  X max  X min R  Ls m  Li 1

2.2 LA DESVIACION MEDIA Es la diferencia entre cada valor del conjunto de datos y la media del grupo. Si se calculara la media de la suma de diferencias más o menos entre cada valor y la media aritmética, la respuesta en realidad siempre seria cero. Por esta razón, se suman los valores absolutos de las diferencias. Es decir que, la desviación media son los promedios absolutos de los valores de la variable con respecto a su media aritmética.

n

DM 

| X j 1

j

n

X |

PARA DATOS SIMPLES

31

m

DM 

| X j 1

j

 X | fj

PARA DATOS AGRUPADOS

n

EJEMPLO: Edades 14.5-19,5 19,5-24,5 24,5-29,5 29,5-34,5 34,5-40,5

X

j

17 22 27 32 37.5

fj 5 10 20 10 5 50

Xifi 85 220 540 320 187.5 1352.5

|Xj X | fj

50,25 50,50 1,00 49,50 52,25 203,50

X 

1352  27,05 50

2.3 DESVIACION MEDIANA Es otro estadígrafo de dispersión, definido como: “LA MEDIA ARITMETICA O PROMEDIO DE LOS DESVIOS, RESPECTO DE LA MEDIANA, EXPRESADOS EN VALOR ABSOLUTO”. Es decir:



DMe  M X j  Me

n

DMe 

X j 1

j

n

 Me



PARA UNA SERIE SIMPLE

32

m

DMe 

f j 1

j

X j  Me

PARA DATOS AGRUPADOS

n

RELACION GENERAL DMe  DM  S

EJEMPLO: Hallar la desviación mediana de los pesos de los niños 15, 12, 10,18, 14, 22, 17,20 . SOLUCIÓN 1. En primer lugar se determina la mediana de los datos: Las observaciones escritas en forma ascendente son: 10 12 14 15 17 18 20 22 n = 8, par, entonces la mediana es la semisuma de los dos valores centrales

Me 

15  17  16 2

2. Se halla las desviaciones de cada observación con respecto a la mediana y luego, se toma el valor absoluto de éstas. 3.

Se suma los valores absolutas de las desviaciones y se divide esta suma entre el número de

observaciones. Los pasos (2) y (3) están resumidos en la Tabla adjunta. 33

Observación Xi 10 12 14 15 17 18 20 22

m

DMe 

X j 1

j

n

 Me 

Desviación Xi -Me -6 -4 -2 -1 1 2 4 6

Desviación absoluta I Xi.-Mel 6 4 2 1 1 2 4 6 26

26  3.25 8

2.4 RECORRIDO SEMI-INTERCUARTILICO (ERROR PROBABLE) Frente a las desventajas del recorrido, algunos investigadores han sugerido como su alternativa el estadígrafo denominado RECORRIDO SEMI-INTERCUARTILICO o también ERROR PROBABLE, definido como: "LA SEMIDIFERENCIA ENTRE LOS DOS CUARTILES TERCERO Y PRIMERO (Q 3 y Q1). RESPECTIVAMENTE".

EP 

Q3  Q1 2

34

Es decir

RELACION GENERAL: EP