Estadistica Descriptiva

Estadistica Descriptiva.pdfDescripción completa

Views 289 Downloads 7 File size 9MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Estadistica descriptiva

103 0 257KB Read more

Estadistica Descriptiva

ESTADISTICA DESCRIPTIVA PRESENTADO POR: Angie Xiomara Tejada Molano Grupo: 100105A_272 UNIVERCIDAD NACIONAL ABIERTA Y

47 0 191KB Read more

ESTADISTICA DESCRIPTIVA

38 2 332KB Read more

estadistica descriptiva

1 ACTIVIDAD 10: TRABAJO COLABORATIVO 2 PRESENTADO A: YEISON ANDRES VAQUIRO PLAZAS PRESENTADO POR: LILIANA CONSUELO DIA

129 60 831KB Read more

Estadistica Descriptiva

14 0 89KB Read more

estadistica descriptiva

130 67 281KB Read more

Estadistica Descriptiva

53 3 338KB Read more

Estadistica Descriptiva

64 22 279KB Read more

ESTADISTICA DESCRIPTIVA

38 0 1MB Read more

Estadistica - Descriptiva

48 0 159KB Read more

Author / Uploaded
Esdras W. Pérez

Citation preview

Ft"

,¿.

?c

EIS

)

E

srnd ísricn Descniprivn PARA LOS. CURSOS DE ESTADISTICA APLICADA A LA EDUCACION Y NOCIONES DE ESTADTSTICA

Guillenmo A. Chnperórrr MÉndez Especialista en Estadística de la Educación

rJ

7

QUINTA I.)DICION

Editorial "PIEDRA SANTA" Reservados todos los derechos

Guatemala, I977

,l

t

,

,/ 1

,{ I .

r A l,q.

\ : -

-

'- :r" .l-.

'ilr:

.Jrrlll

,: r,f i ¡ ai" I I

¡,(:^ ii-.ri,-i-r,

'

INDICE CONTENIDO Páginas

TEMA Agradecimiento Introducción,

PRIMERA PARTE: CONCEPTOS FUNDAMENTALES

1,1: 1.2: 1.3: II.

il.

Necesidad e importancia de Ia EstadGtica. Algunos de los fenómenos que se estudian en Estadfstica. 1' 21: Biol6gícos. 1.22; Pedagógicos. 1,23: Psicológicos. Problemas que aspira resolver la Estadfstica. Ejercicios.

2.1: Atributos y variables. 2.2: CategoÍas de clasificación. 2.3: Valores discretos y valores contt:¡os. 2.4: Medida de variables psicoldgicas y pedagógicas. 2.5: Limitaciones y carácter de la medida en psicologfa y

6

9

10

10 L2

pedagogfa. E-

jercicios.

t4

19

3: 3. 4:

Instrumentos de medÍción. Escalas de producción escolar. l¡s tests. 3.31: Desarrollo del método. CaracterGticas del test. 3.41: Yalídez. 3. 42:

3.5:

Las pruebas objetivas.

3.6:

Caracte¡fsticas de las pruebas obietivas. 3.61; Objetividad. 3.62 : U-

3.

1:

3.2: 3.

19 20

Fiabilidad.

3' 43:

Ti23 24

pificación.

nivocidad. 3.63: Adecuación. cabilidad. Ejercicios.

Iv.

4

3. 64: EconomicÍdad. 3. 65: Practi-

1: Muestras y poblaciones. 4.2: Estadfsticos y parámetros. 4.3: El proceso estadfstico. 4.4: Concepto de Estadfstica. Ejercicios. 4.

25

( ze) ')2e 1ao

hr

t

J

Ét

r P

1:

5.

V^

5.2:

3: 5.4: 5. 5:

5.

VI.

6.1: 6.2;

3:

6.

6.4:

t-iarácter aProximado de los números estadfsticos' Orden de 1as oPeraciones' Cifras significativas. Cifras exactas de 1as cantidades aproximadas' Redondeamiento de cantidades' Ejercicios'

3? JI

4l

tos datos, procedencia y ordenaci6n' Recuento de casos. Frecuencias absolutas y relativas' de vaDistribución de fiecuencias' 6.41: Distribución de fiecuencias agrude valores frecuencias de Distribución 6.42: lores sin agruPar' pados.

6.

5:

6.6: 6.

VII.

7:

Lfmites reales de 1os intervalos. 6'61: IntervalosdeamPlitudconstante y variable. Distribuciones acumulativas. Ejercicios'

1: Representación gráfica. Importancia' 7.2: Gtáfica de una distribucidn de frecuencias' ?'21: Fundamentación

43

48

57

de

la diagram átic a lineal'

3: 7.4: ?. 5: ?.6:

47

los interIntewalos y marca§ de clase. 6.51: Núnrero y amplitud de ¡ecodel CocÍente 6'53: distribución' de Ia Recorrido valos. 6.52: rrido ent¡e e] nflme¡o de inte¡valos. 6.54: Amplitud de ios intewalos'

?,

?,

áginas

59

Diagrama de bauas. Pollgono de frecuencias.

61

HÍstograma de Pearson. en Histo[rama de una distribución de frecuencias de valores agrupados distribuuna de Histograma 61: ?' colstarlte. de amplitud intervalos

ci6n de valores e.grupados en intervalos de amplitud variable' ?.7: Suavizaci6n o pulimento f. Xi

= N-

24,65215

823,

Y substituyendo en la fírnula 4:

X

=

24

'95-?-15 = 29195 años 823

Obsérvese que en la distribución de la tabla X, Ios intervalos son de amplitud variable. Cuando esta amplitud es constante se procede en la misma forma, aplicando la fórmula 4 y disponiendo Ios dátos según se indicó anteriormente.

4».

Ejemplo b) calcular la media aritmética de la distribución de la tabla los datos y las operaciones aparecen en Ia tabla Xl.

ll (pág.

,#

88 TABLA

f. (3)

xi

INTERVALOS (1)

16

XI

(2)

_20

18

27 26 31 36

-30 -35 -40

46

61

81 86

4

tr2

-50

48

-60 -65 -70

760

51

2,',103

58

4t

63

27

2,378 1,701 2,244

68

-80 -85 -90

78

16

t,460 t,248

83

21

1,743

88

1

616

-

98

20

91 96

(2 x 3)

1,032 L,872

'71 ?6

18

115

43

51

56

I 5

20

38

+t

f. xi

(a) =

465 100

196

N= FUENTE: Tabla

329

19,092

II.

En este ejemplo:

> f. Xi N

= L9,092 =

329.

y substituyendo en la fírnula 4:

X_

8.4:

>f.xi

L9,092 329

=

5B'03=¿ 59.

CALCUL0 ABREVIAD0 DE LA MEDIA AR|TMET|CA. FUNDAMENTO.

Hemos visto ya la manera de calcular la media aritmética de un conjunto de valores, aplicando Ia fórmula 3 si constituyen una serie simple; o con la f6rmula 4 si

e

forman una distribución de frecuencias, ya sea que los valores estén sin agrupar grupados en intervalos de amplitud variable o constante.

res

o a-.

La fórmula 4, sin embargo, no es siempre apropiada. Es útil cuando los valoy las frecuencias son números sencillos pudiéndose hacer mentalmente las opera-

.

4

89

ciones, o bien si se tiene máquina de calcular. En el caso de usar la fórmula 4 la obtención de la ¡nedia se denomina método largo. Pero ocurre a veces que los valoresy las frecuencias ya no son números sencillos, como por ejemplo los de las tabfas X y Xl, y por lo mismo, las operaciones ya no pueden realizarse con facilidad. Se impone entonces, Ia necesidad de un método que, con la misma efectividad en losresultados, permita obtener en forma abreviada ese valor estadÍstico. Esta es larazíndel método abrev iado.

El fundamento del método abreviado para el cálculo de la mediaar¡tmét¡ca es la primera propiedad: la suma algebraica de Ias desviaciones de los valores deuna serie respecto de la media aritmética es igual a cero, según se demostró enB.22l.1 , página 81. Por el método abreviado, la media aritmética es igual a una media supuesta o arbitraria más una cierta corrección. Lo anterior quiere decir: de los valores de la distribución podemos suponerque un valor Xi cualquiera es la media supuesta. Si se obtiene la suma algebraica de las desviaciones de Ios valoresen relación a la media supuesta, dicha suma no será iqual a cero y nos dará la medida de Ia corrección que hay que hacerle a la mediasupuesta para que sea la verdadera. Tal es Ia lógica del método. Estas aclaraciones no tienen otro fin que ayudar a comprenderlo, ya que fácilmente se cae en Iamemorizacióndefórmu las marg inando e I fundamento. No hay regla alguna para tomar o elegir la media supuesta; se puede usarcualquier valor aunque resulte menor o mayor quelamediaverdadera. Esto Io sabremoshasta hacer la corrección y, por Io mismo, no importa que tomemos un valor menoromayor. Conviene, sin embargo, tomar uno de los valores del centro para estar más próximoal estadístico buscado. Si, por ejemplo, hemos tomado un valor menor que lamediaverdadera, la corrección nos dirá que hay que sumarcierta cantidad ala medla supuesta para que sea Ia verdadera; y si, al contrario, hemos tomado un valor mayor que la media verdadera, la corrección nos dirá entonces que a Ia media supuesta hay que restql le cierta cantidad para que sea la media verdadera.

8.41: Demostración. La media aritmética es igual a la media supuestaoarbitraria más una cierta corrección. Esto se expresa según la fórmula: X = Xs*C en la que:

X= Xs =

(5)

media aritmética verdadera de la muestra. media supuesta o arbitraria. Se lee rrequis mayúscula suprarrayada sub-eser.

f:f

CDe

Ia

corrección que se le hace a Ia media supuesta para que sea la verdadera. fórmula

(5)

se desprende que:

Xs

= X-c

(8.41.r)

Además, sea:

d=

x

-X

(desviación de un valor cualquiera de la variable respecto de la media verdadera).

dr= x - Xs(desviación

de un valor cualquiera de la variable respecto de la media supuesta).

Substituyendo:

d'= x-(X-C)= x-X* C= (x-X)+ C = d + Luego:

dr = d+ C >d' = >(d +

Sumando:

>dr = >d Pero, por

0

8.22I

sea:

Despejando C:

C.

C)

+NC

.l:

>d = 0

>d' =

NC

^ >d' u=_-ñiY substituyendo en la fórmula 5:

x = xs +

+

( 5.1).

N

que es la f6rmula fundamental para el cálculo abreviado de la media aritmética.

d

91 de frecuencias. Para callos casos sicons¡deraremos de datos, cular abreviadamente la media de un conjunto

8.422 La media -abreviadamente- de una distribución

gu

ientes:

1o. Los datos forman una distribución de frecuencias de valores sin agrupar. 20. Los datos forman una distribución de frecuencias de valores agrupadosen in-

3o.

tervalos de amPlitud variable. Los datos forman una distribución de frecuencias de valores agrupados en intervalos de ampfitud constante.

0mitimos el caso de la serie simple pues es impropio hablar de abreviaturas en casos tan elementales. Pa-

8.42t: ra este caso la fírmula

5.1

se transforma en Ia siguiente:

X=Xs

>f.dl

(6)

N

en la que:

X = Xs = >f.d, = N-

media aritmética media supuesta o arbitraria. suma algebraica de los productos de las frecuencias por nes de Ios valores, respecto de Ia media supuesta. suma de frecuencias o

las desviacio-

total de casos.

(pág. Ejemplo: calcular abreviadamente la mediade la distribución de Ia tabla I forma: la siguiente en la tabla Xll, 44 ). Los datos y operaciones aparecen en

a) b) c)

Columna Columna Columna

1: cont¡ene los valores Xi de la variable. 2: contiene las frecuencias rrfrr de los valores. 3: contiene las desviaciones de los valores Xi, respectode la me-

d)

Columna

4:

dia supuesta. contiene los productos de multiplicar las desviaciones arbitrarias respectode la media supuesta, por las respectivasfrecuenc

tas.

La media se obtiene sumando a la media supuesta, el cociente de Ia sumaalgebraica de la columna 4 entre la suma de frecuencias o casos de la columna 2.

f

92

Tomando como media supuesta Xs = de la distribución dada, según la tabla Xll:

10,

calculemos abreviadamente la media

TABLA XIl

xif

d'=xi-fs

(r)

(4

(3)

32 51 61

f. d'

(4)=rxB) (-

-7 -4 -3 -2 -1

ND

84 94 103 11 t25 135 t48 154 163 184 19

I-

4 5

0

12,

I

32

120 I 18

ls,

t-e

o

N=50

En este ejemplo:

tn

lrs ,r, !

8

FUENTE: Tabla

t

I

b

1

I

l-

1

2

t n

-nn)l-

0 2

14

%

I.

Xs=10 >f.dr = 94 N-50

Y substituyendo en la f6rmula 6:

X

= 10 *

94 50

ft

=10 + 1r8B=11rBB=12

resultado que ya habÍamos hallado (véase página número 85 ).

Nota:

Hemos tomado

el valor Xi = 10 como media supuesta, o sea Xs

Todos los valores Xi menores que

10

tendrán desviaciones negativas;

=

10.

y los mayores

93

tendrán desviaciones positivas. La me(ia supuesta ,. ,..onoa. inmediatamente puessu desviación siempre es cero. Lo dicho puedeobservarse en la columna 3, así:la desviación del valor 3 (columna 1) es igual a 3-10 =-7; la desviación del valor 5 es 5 -

I0 = -5; la desviación del valor 14 es 14 - l0 = 4¡ etc. Debe notarse también que hemos tomado como media supuesta un valor Xi del centro. Otras veces se acostumbra tomar aquel valor que tenga la mayor fuecuencia. La suma de Ia columna 4,que dividida entre el total de casos nos dá IacuantÍade Ia corrección,resulta algebraicamente de -44 + l3B = 94, y nos dice que, como hemos tomado un valor Xs menor que la verdadera media, hemos de agregar la corrección. Si se observa la tórmula 5.1 pág.90, se verá fácilmente que la corrección no es sino la media aritmética de las desviaciones respecto de lamedia supuesta. Por esta raz6n,la media,por el método abreviado también se enuncia asÍ: la media aritmética es igual a una media supuesta más lamediaaritmética de las desviaciones respecto de ella,

También debe notarse que, el hecho de multiplicar las frecuencias por las desvia: ciones arbitrarias, resulta de sumar abreviadamente las desviaciones de los valoressegún indique su frecuencia. 0 sea: un término o valor Xi cualquiera tendrá, respecto de la media supuesta, una desviación d'; pero si este valor aparece repetido másde una vez, su desviación será el producto f.d'.

8.4222 La media-abreviadamente- de una distribución

de frecuencias de valo-

able. En este caso la media se calcula aplicando la fórmula 6, solo que, en vezdetomar los intervalos por sÍ mismos, hemos de substituirlos por sus respectivasmarcasde clase o punto medio. De esta cuenta, los valores Xi que indica la flrmula, son lasmarcas de clase dichas.

Ejemplo: calcularabreviadamente la media aritmética de la distribución de la taB7 ). Losdatos y las operacionesaparecen en la tabla Xlll, en taforma si-

bla X (pág. gu

iente:

a) b) c) d) e)

Columna Columna Columna Columna Columna

1: contiene los intervalos de la distribución. 2: contiene las marcas de clase Xi de los intervalos. 3: cont¡ene las frecuencias rrfrr de los intervalos. 4: contiene las desviaciones arbitrarias de los valores Xi

5:

respecto

de la media supuesta elegida. contiene los productos de multiplicar las desviaciones por las respectivas frecuenc ias.

La media se obtiene agregando algebraicamente a la media supuesta,el cociente dividir la suma de los productos de la columna 5 entre Ia suma de frecuencias de la columna 3. Tomando como media supuesta el valor Xi = 3715 tendremos: de

,i

94

TABLA XI¡I

INTERVATOS Xi (1) (2)

f (3)

20 25 30 35 40 50

104 415 185 '.t1 38 8

-

25 30 35 40 50 60

22',5 27',5 32',5 3?'5 45,0 55,0 N=

d.

(4)

(5) = (3xa)

- t5 - 10

-

-5

1,560,0

4,150'0 925.0

0

7'5 17'5

285'0 140,0

-

823

6,210'0

FUENTE: Tabla X.

En este ejemplo:

Xs = 37'5

>f.dr =-6,635 + 425 = N-823

6,2L0.

Y substituyendo en la fórmula 6:

-6,2L0

x=37t5 + @

6,2L0

=37t5- @

resultado que ya habíamos calculado anteriormente (pág.

8.423:

=3715-7t55=29t95

qf ).

La media -abreviadamente- de una distribución de frecuencias de vaud constante.

Cuando la amplitud de los intervalos es constante la media se calcula más fácilmente. Para ello la f6rmula 6 se transforma en la siguiente:

X=Xs*Ef',,d' N en la que:

X= Xs =

media aritmética.

media supuesta o arbitraria.

i

(7)

*l

95

> f.d' =

i N -

suma algebraica de los productos de las frecuencias por las desviaciones de los valores respecto de la media supuesta.

valor numérico de la amplitud constante de lob intervalos. suma de frecuencias o total de casos.

Anles de resolver un ejemplo aplicando esta fórmula, es sumamente interesante

indicar que cuando la amplitud es constante, Ias desviaciones drreciben elnombrede desviaciones unitarias, porque cada desviación se divide entre Ia amplitud de los inter-

valos' o sea:

dr=

xi -

xs

(7. 1)

Por esta raz6n, como todas y cada una de las desviaciones se han divididoenre la amplitud, en la fírmula 7 aparece esta amplitud como factor para volver a la unidad de los intervalos. Vamos a resolver un caso, primero, y después haremos algunas otrasobserva ciones sobre este método abreviado. Ejemplo: calcular abreviadamente Ia media aritmética de la distribución de la Tabla ll (Pá9. 4A ). Los datos y las operaciones aparecen en la Tabla XlV, dispuestos asÍ:

1: 2: 3:

a) b) c) d)

Columna Columna Columna Cof umna

4:

e)

Columna

5:

contiene los intervalos de la distribución. contiene las marcas declase Xi o punto medio de losintervalos. contiene las frecuencias rrfrr o repeticiones de los intervalos. contiene las desvíaciones unitarias de los valores Xi respecto de la media supuesta. Estas desviaciones se han obtenido según indica la fórmula 7.1 contiene los productos de multiplicar las frecuencias por las desviaciones unitarias de los valores Xi.

5

La media aritmética se obtiene así: La suma algebraica de la columna la multiplicamos por la amplitud rrirrconstante y dividimos el producto entre la suma de

frecuencias de Ia columna 3, o sea entre mente a la media supuesta.

N. Este cociente lo sumaremos algebraica-

¡rl

96

Tomando como media supuesta

el valor Xi = 53, tendremos: TABLA XIV

INTERVAl,os (1)

xifd' (2)

16-20 2t-25 26-30 31-35 36-40 4t-45 46-50 51-55 56-60

181-7 235-6 284-5 13 33 20 38 24 43 §39-1 53510 584t1 63272 68333 ?3204 78165 832t6 88'.l 9358 9829 N= 329

frl

-

bD

66-10 71-?5 76-80 81-85 86-90 91-95 96 - 100

f. d'

(3)

(s) = (3x4)

(4)

_30

-20 -4

-60 -48 -39

-3 -2

4L

54 99 80 80

..

7

t26 49

q

18

331

FUENTE: Tabla tr.

En este ejemplo:

Xs = 53. >f.

dt =

+ 587 = 33L N -329 =5.

-256

rt

I

Y substituyendo en Ia f6rmula 7: 33L 1655 x x5 53+= 329 329

- 53+-

= 53 +

resultado que ya habíamos hallado anteriormente (pas. 9q

5103 = 58103

).

a¿ 58.

97

B.43lNotasdeordenpráctico.Segúnto,p,nt,dosobreelcálculodela

media aritméticalpodemos hacer el resumen siguiente:

cálculo de la media sereCuando los valores forman una serie simple, el duce a la aplicación de Ia fórmula 3, página79 '

1.

2.Cuandolosvaloresformanunadistribucióndefrecuencias,yaSeadeVale o constante

de lores sin agrupar o de valoies agrupados en intervalos (página 83 ), 4 rátrrl, lá la media se calcuta upiürrJo re peraciones las si verse deberá i;r;;. E"a;o "uro el usarse :be modo otro de de calcular, ñ;r; máquina

o del

método

s o si se tiene iado'

3.Cuandoladistribuciónestáagrupadaenintervalosdeamplitudvariable-se (pág'91)'

puede usar ta fórmula

a, p;;;;;;ás

rápiáo

"t

cálculo usando la fórmula 6

amplitud constante, 4. Cuando los intervalos de la distribución son de fórmula 7bág' 94 )' la utilizar preferible pero es o 6, 4 den usarse las fórmulas

pueque

es especial Para este caso.

5' es forzoso n

sea,

res, o virá de medi -f, -2,

-3

intervalos

^^^im¡. c o sea de mayor a menor,lentonces encima Ios valores -1-' cero' del debajo etc.l Y res!,2,3,4,..

alafírmulaT'no itarias de los valo-

l"''u]""il l:i.,::t: ,á'J:H::J1".1,"": escribirán los valo

'2' -3' -4' " ' €tc'

l-ataz6n de que esto se haga así olitud 'rirr es constante, todos los interval misma distancia dada por la amplitud' Est en las marcas de clase y distarán de la m constante como intervalos les separen de de clase respecto de la media supuesta., e entre las desviaciones será de una unidad; viación de la media supuesta), en tantas v

frf

de é1.

de de unidad la (f.d') no .tiin en , rias, o sea corrección multipl¡caiá iot-iá i'piii'J "¡" Ahora bien: como los productos

intervalos.

por las desviaciones unita-

en la f6rmula 7 aparece la

se vuelva a la unidad de los

Obsérvese la columna

4,

Tabla XlV,

pág

,

96 , y se notará

lo siguiente:es-

cribir encima del cero las desviaciones -1 , -2, -3, etc.; y debajo las desviaciones 1, 2, 3, etc.; es lo mismo que haber calculado esas desviaciones según la tírnula 7,'L. Ejemplo: Primer

intervalo.

Segundointervalo. Tercer intervalo. Noveno

intervalo

Décimointervalo Undécimointervalo

Etc. etc.

d' = lB - 53 : 5 = -35 5=-7 = 23-53t 5 = -30 5=-6 d' = 28 - 53 t 5 = -25 5=-5 dt

d' = 58 '53 : 5 =

d'= 63-53:5 = d' = 68 - 53 : 5 =

5

10 15

§= 55-

1

2

3

8.44 Uso de la media aritmética. Podemos resumir el uso de la media aritmética según las siguientes: Ve ntaj as,

a) Es fácil su caso

de calcular, ya que las operaciones aritméticas -oalgebraicas en

-

son elementales.

b) Su significación es universal.

c)

Es, entre los estadísticos de tendencia central, el más fiable y representativo de los valores de la variable, pues, según hemos visto, viene afectada por todos ellos.

d) Es imprescindible

para el cálculo y comprensión de otros valores represen-

tativos. Desventajas:

a)

Cuando los valores no se d¡stribuyen homogéneamente, o cuandolamuestra es muy pequeña,la media no será representativa. Por ejemplo en la serie 3, L0, 25 y 46 no podemos fiarnos que la media sea 21 pues los valores están muy distanciados.

b) Si la distribuci6n es incompleta

no se puede calcular la media. Estoquiere decir que si desconocemos uno de los valores límites o intervalos, ya sea el inferior o el superior, o ambos a la vez, no se puede calcular ese promedio. En este caso se utiliza la mediana.

¡,.1

99

8.5:

LA MEDIANA. CONCEPT0.

La mediana es el siguiente estadístico de tendencia central importante en la descripción de una muestra. Se entiende por mediana, un cierto valor de la serie que deja bajo sí el 50% de los casos y por encima el otro 50%. Es decir, dentrodeunconjunto de valores, ordenado en cualquiera de ambos sentidos, hay uno que delimitael 507, de los casos;o dicho de otro modo:un valor que parte exactamente pormitadaltotal de casos. Este valor es la mediana y se denota por Md, quese lee:rreme, mayúscu-

la, sub-d'r. Siordenamos un grupo de alumnos por orden de estatura, habrá uno entreellos

quetengaunaestaturatal queocupeel lugarmedianode laordenación,quedandolamitad de los casos por encima de él y la otra mitad por debajo, es decir, separará en dos mitades el grupo. La mediana es un promedio no firme, esto es su valor no depende de todos Ios datos sino de uno, o dos, a Io sumo, pero han de estar ordenados. Sucálculoes imprescindible cuando no se puede obtener la media aritmética.

8.6:

CALCUL0 DE LA MEDIANA. Para el cálculo de la mediana consideraremos los siguientes casos:

10.

Los datos forman una serie simple que puede ser: a)númeroimpar deda-

tos; y b) número par de datos.

2o.

Los datos forman una distribución ordinaria de frecuencias

de valores

sin agrupar.

3o.

Los datos forman una distribución ordinaria de frecuencias agrupados en intervalos de amplitud variable o constante.

de valores

8.61: La mediana de una serie simple: Para el cálculo de la mediana en una serie simple de número impar o par de datos, bastará ordenar los datos creciente o decrecientemente y ver cuál es el lugar que corresponde al valor que deba bajo sÍy por encima igual número de casos. Por convención, este puesto o lugar,de orden selocaIiza así: D_ r-2

N+

1

(B)

rf

100

en donde:

P-

puesto o lugar de orden donde se halla la mediana.

N=

número de casos.

Ejemplo: sean las series simples A, con número impar de datos; y B, con número par, ordenados de menor a mayor. Calcular la mediana de ambas series:

= 11, 12, L3, 14, 15, L6, 17,20,23. Serie B = 1I, 12, 13, !4, L5, 16, L7, 20.

SerieA

NN-

9 8

Substituyendo en la tórmula B:

Paralaserie

A: P=

Para la serie

B:

9+1

-5 =

P

415

Como P nos indica el puesto que ocupa la mediana estando ordenados los dahemos de contar en cualquiera de ambos-sentidos tantos puestos o lugaresde orden como indique P. En la serie A el lugar 5 o quinto puesto Io ocupa el valor 15, que 15. deja por encima y por debajo igual número de casos. Luego, en la serie A, Md En la serie B buscamos el lugar cuatro y medio. Este lugar se halla entre los puestos 4o. y 5o. ocupados por los valores 14 y 15 respectivamente. La mediana será la seL4 15. misuma de ambc"s valores, o sea 14 15

tos,

=

*

:2 =

Puede notarse que una de las diferencias fundamentales entre la mediaaritmé-

tica y la mediana es que, contrario a Ia primera, a la segunda no la afectan los valores extremos, ya que en las series A y B anteriores, Ios valores primero y último, u otros intermedios, pudieron haber sido totalmente distintos a los dados que iro habrÍa modificación en los lugares de orden, y, por consiguiente, en el valor de la mediana.

8.62t

La mediana de una distrib Cuando se tiene una distribución de frecuencias, además de las ya conocidas columnas de valores Xi y de frecuencias absolutas 'rf", lhemos de agregar una terceia columna donde escribiremos las frecuencias acumuladas rrF¡rr. El procedimiento para calcular la mediana es el siguiente:

¡=f

101

1o.

Hallar la mitad de los casos, o sea hacer N/2, con lo cual el total queel 50"k de casos.

da dividido en dos partes, siendo cada una

2o,

Buscar en la columna de frecuencias acumuladas N/2, o la primera que sea superior a N/2.

Fi, la primera

que sea

igual a

3o. Si hay alguna frecuencia acumulada igual a Ia mitad de los casos, o sea alguna Fi -- N/2, la mediana será Ia semisuma de el valor que tiene frecuencia acumulada Fi = N/2, y del siguiente, 4o. Si ninguna frecuencia supera a

aN/2,|a

acumulada es igual

lor de la distribución que corresponde

N/2.

a la

mediana seráel va-

primera frecuencia acumulada que

Ejemplo: calcular la mediana de las distribuciones de Ias tablas l(reproduciXU y XVl.

da en la tabla

TABLA

xi

XV

TABLA XVI

f.

Fi

2

2

NUMEROS PREMIADOS EN

(SORTEODEL 5 DE ENERO DE 1952), CTASIFICADOS SEGUN SU ULTIMA CIFRA

1 1

4

8

4

11

9

4

15

6

1

1

LA LOTERIA NACIONAL

ULTIMA

NIJMEROS

FRECUENCIA

CIFRA

PREMIADOS

ACUMULADA Fi.

xi

f.

10

3

18

11

2

20

0

101

101

25

1

116

217 330

t2 13

5

30

113

t4

8

38

108

15

4

42

4

127

559

16

3

45

5

134

693

18

4

49

6

oa

?86

19

1

50

,1

902

8

116 727

1,029

I

101

1,130

¡=

50

FUENTE: Tabla I.

N

=

1,130

FUENTE: Vademecum de Frtadfsdca, ya citado.

¡"1

L02

En la distribución de Ia tabla XV tenemos N = 50 y N/2 = 50/2 = 25.Vemos que en la columna de frecuencias acumuladas¡ol una Fi iguala N/2= 25, quecorresponde al valor Xi=L2. Según Io dicho en el paso 3o de 8.62, la mediana será la semisuma del valor que tiene frecuencia acumulada igual a N/2 y del siguiente. En-

tonces, en la distribución de la tabla XV:

Md=

12+

L3

2

= 12t5.

En Ia distribución de la tabla XVI tenemos N =1,130vN/2 iguala L,l-30/2 = 565. Vemos en la columna de frecuencias acumuladas que no hav Fi = N/2.

Luego, según lo dicho en el paso 4o de 8.62, la mediana será el valo,rquecorrespon-. de a Ia primera frecuencia acumulada que supera aN/2. Esta frecuencia es693y corresponde al valor Xi = Entonces en Ia distribución de Ia tabla XVl,

5.

Md

8.6222

=

5.

La mediana de una distri

intervalos.

ula. El cálculo de la mediana es el mismo para valores agrupados e.n intervalos de amplitud variable o constante, puesto que, según se ha visto, no Ia afectan todos los valores de la distribución. en

Vamos a obtener la mediana aplicando una regla de tres; la f6rmula que se usa para este caso.

y

después haremos

Ejemplo: calcular la mediana de la distribución de la tabla ll, que reproducimos en la tabla XVll. Nótese que hemos acumulado las frecuencias en dossentidos:el primero o Fi es ascendente; y el segundo o Fi'es descendente. Veamos: TABLA XYII

NTRVArcS

16-2011329 2L-25563% 26-30410323 31 - 35 36-42Aq306 41-62461286 46 - 50 51 - 55 56 - 60 61 - 65 tr - ?0 ?1 - ?5 ?6-80162%51 81 - 85 86-90132214 91-9553211 96 -100 l=m ffiNTE.

Tábl¿

tr-

13

23

39 51 4t 21 33 2A

106 157 198 225 258 218

21

315

35

2

329

2

319

262 223

t12 131 104

1\

rJ

103

Vamos a calcular primero la mediana tomando Ia ordenac¡ón ascendente, esdefrecuencias acumuladas Fi de laterceracolumna. Procedimien-

cir, trabajaremos con las to y pasos:

10.

Hallamos

N/2.

En este ejemplo

N/2 = 329 /2 = l64t

5

2o. Buscamos el punto o valor que deja bajo síy sobre sí L64t5 casos, o sea el 50"h de los mismos. 0bservando Ia columna tercera, de frecuencias acumuladas Fi, notamos que hasta el intervalo 51-55 hay 157 casos; y que en el intervalo siguiente, 56 - 60 hay 198 casosi o sea que N/2 = 164'5 casos están comprendidos entre los I98 del intervalo 56 - 60 y que en este se halla la mediana.

3o. Hacemos la diferencia 164'5 - L57 = 715. Esto quiere decir que hasta el límite superior del intervalo 51-55 que es 55'5 hay 15Tcasosyquenecesitamos 7r5 casos más para llegar al valor de Ia mediana. Como 55'5 es también el límite real inferior del intervalo 56 - 60, se trata, entonces,de ver cuántas unidades de medida hay que agregar al valor 55'5 para esos 7r5 casos que faltan para N/2.

4o. Suponemos que los 4l del intervalo 56

- 60

casos (frecuencias absolutas o repeticiones rrf (véase columna 2) se distribuyen homogéneamente.

tr)

5o.

Ahora ya sabemos que los 7r5 casos que nos faltan para llegar a N /2 son parte de los 4l casos de intervalo 56 - 60. Sólo nos resta,entoncesrver cuántas unidades de Ias 5 del intervalo 56- 60 corresponden a 7'5 casos. Para ello hacemos la siguiente regla: si 5 unidades (o sea Ia amplitud del intervalo) corresponden a 41 casos, equis unidades corresponderán a 7r5 casos.

0 sea:

5 x

-----

4L

---- - 7t5

715x5 , oe00n0e,x-

37t5

= T

=

-T-

60.

0191.

0'9I

Quiere decir que 7r5 casos corresponden a 0'91 unidades. Estas unidades las debemos agregar al lÍmite real superior del intervalo 51 - 55 que es 5515 o lÍmite real inferior del intervalo 56 - 60 que es el mismo, y el resultado será la mediana. Esto es:

Md

= 5515 +

0r

91 = 56t41¡

Md

=

56' 41,

Si substituimos los valores usados por la correspondiente notación, podemos hacer la fórmula siguiente para el cálculo de la mediana, siempre que la ordenación sea

¡'l

104

ascendente así:

N -F I\4d

= L.l-r ir

f

i-l-

,

(e) : t

. I

en la que:

Li_I =

Límite real inferior del intervalo donde está la mediana.

N/2 =

Mitad de los casos o 50./".

Fi-l =

Frecuencia acumulada inmediata anterior al intervalo donde está la med

iana

.

[i

=

frecuencia absoluta del intervalo donde está la mediana.

i

-

valor numérico de la amplitud del intervalo donde está Ia mediana.

Cuando se aplica Ia fórmula

guientes:

1)

N/2,

Se hace

9,

los pasos para calcular la mediana son los si-

en nuestro ejemplo de la distribución de la tabla

= 329 /2 = l64t 5.

XVll,N/2

2) Buscar en la columna de frecuencias acumuladas Fi la primera que supera a N/2. En el ejemplo esta frecuencia es 198 y el intervalo que le corresponde es el que contiene la mediana. Este intervalo es el 56 - 60 y de él tomamos el límite real inferior. Es decir, L._, igual a 55'5. 3) Ver cuál es la frecuencia acumulada inmediata anterior al intervalo donde está la mediana. En nuestro ejemplo .r Fi_I = 157.

4)

Ver cuál es la frecuencia absoluta del intervalo donde está la mediana. En

el ejemplo,

5)

fi = 4I.

Ver cuál es Ia amplitud del intervalo donde está

plo,

i=

la mediana.

En el ejem-

§.

y substituyendo en Ia f6rmula 9:

Md

=

55,5

.W

.5

= 55,5

.T

=55'5 r

o'91

rl

105

Md

= 56141.

Cuando la distribución está ordenada descendentemente (mayor a menor) se razona la obtención de la mediana en forma análoga a como lo hemos hechopara laordenación ascendente/ con la salvedad que en vez de tomar el límite inferiordelintervalotomamos el límite real superior y le restamos el resultado de la regla de tres. Eneste caso la fórmula es:

Md

N- - t¡-I 2

= L.*,

.i

(10)

f. I

En nuestro ejemplo de la tabla XVll:

l+r = 60'5 N/2 = L6415 E ' i-1 = L3L. L.

=41

f. I

-5.

I

Y substituyendo en la fórmula 10: Md

= 6015 Md

8.7:

=

t64t 5

-

131

4t

5 =6015 -

l67t 4L

5

= 60f5 -4tO9

56141.

CASOS ESPECIALES DE LA MEDIANA. Fuera de los casos expuestos, que son los más comunes, puede ocurrir:a) que

íl

la mediana quede entre dos intervalos; y b) que la mediana quede en un intervaloque tie ne cero de ftecuencia absoluta.

tervalos. Calcular la med iana de la distribu-

-

10ó TABLA XVIII

f

INTERVALOS

2-5 6-9 10-13 t4-1?

4 5 8

13

18-21 22-25 26-29 30-33 En el ejemplo de la tabla

15 o

4 2

N=

OO

XVlll N/2 = 60 /2 = 30.

Acumulando las frecuencias ascendentemente, hallamos

Fi

N/2 = 30.

al llegar al intervalo 14

Acumulando las frecuencias descendentemente, hallamos

ltl/2 = 30.

-

17

al llegar al intervalo 1B - 21

La mediana queda limitada entre los intervalos 14 - 17 y 18 - 2L. En este caso se toma como mediana el lÍmite real superior del intervalo si la ordenaciónes ascendente; o el límite real inferior si laordenaci6nesdescendente. Esdecir, Md= 17'5. Puede observarse que 17t5 es el límite real superiore inferiordeambos intervalos, según la ordenación ascendente o descendente respectivamente. b)

Calcular la mediana de la distribución de la tabla XlX.

TABLA XIX

f

INTERVAI,OS

Fi

5-8 o

-

10

13-16

2L 25 29 33

-28 -32 -36

10

6

4

x

1

= -5e-

rl

107

En el ejemplo de la tabla

XlX, N/2

=

36/2

= LB.

Acumulando las frecuencias ascendente o descendentemente, al llegar al in- 20, cuya frecuencia absoluta es f = 0 vemos que por encima y por deba jo del mismo queda el 507" de casos, es decir, 18.

tervalo L7

La mediana será el punto medio o marca de clase del intervafo que tiene ce

ro de frecuencia absoluta. 0 sea:

Md B.7L:

=

1815.

Uso de la mediana. Para Ia mediana podemos resumir las siguientes:

Ventajas: 1)

Es el promedio a usar cuando no conviene calcular Ia media aritmética.

2) Puede utilizarse cuando la distribución sea incompleta, pues no tan todos los valores sino uno o dos de ellos.

3)

la afec-

Su cálculo es útil para describir en mejor forma la tendencia central del hecho variable, pues ayuda a la comprensión de los resultados.

Desventajas:

1)

La principal es que resulta menos significativa y fiable que la media aritmética.

2)

Que para la serie simple y distribución de frecuencias de valores sin agrupar, la fórmula no dá el valor de la mediana sino el lugar deorden para localizarla. Las fórmulas 9 y 10, en canibio, sídan el valor numéri-

co de la mediana.

B.B:

LA MODA. CONCEPT0. La moda es el tercer estadístico que permite conocer la tendenciacentraf de

un fenómeno o hecho variable. El concepto de moda es sencillo: es aquel valor de la variable que más se repite, el que tiene mayor frecuencia. También se ledenomina modo, aunque es más apropiado llamarle moda.

La moda se denota por Mo (eme, mayúscula sub-ó). Ademásdelconceptodado, algunos autores consideran que moda t es todo valor tal que su frecuencia, sea superior a las de los valores inmediatamente anterior y posterior. De esta cuenta, si

¡,J

108

en la distribución hay solamente un valor cuya frecuencia sea mayor que la de cualquier otro, tendremos una distribución unimodal o de una moda. Esto, más bien de acuerdo a considerar por moda el valor más repetido. Pero si entendemos por moda todo valor cuya trecuencia supere a las de los valores anterior y posterior, entonces puede ocurrir que encontremos distribuciones bimodales (dos modas) o plurimodales (más de 2 modas).

8.9:

CALCUL0 DE LA MODA. Para el cálculo de la moda consideraremos los casos siguientes:

10. Los datos forman una serie simple. 2o. Los datos forman una distribución de frecuencias 3o.

de valores sinagrupar;

v

Los datos forman una distribución de frecuencias de valores agrupados en intervalos de amplitud constante o variable.

8.91: La moda en una serie simple: En realidad no tiene caso determinar la moda de una serie simple, excepto cuando hay valores repetidos. Para eso la moda se determina por simple inspección. Ejemplo: hallar la moda de Ia serie simplequesigue:

B, 10, 11, 11, L5, L5, L5, 16, l-7. Según lo dicho, vemos que el valor más repetido es el 15, pues aparece más veces que cualquiera de los demás. Luego, en Ia serie anterior,

Mo

=

15.

8,92t La moda en una distribución de frecuencias. Puede ocurrirque la distribución de frecuencias sea de valores s¡n agrupár; d;lái;res agrupados int.rru"ñ los. Según el caso se procede de diferente manera. Veamos: 8.92L: La moda de una distribuc En este caso la moda se determina por simpte inspección. Para ello basta observar la columna de frecuencias absolutas y ver cuál de todas es la mayor. La moda será el valor Xi al que corresponda esa ftecuencia. Ejemplo: calcular la moda de la distribución de la tabla l@ág.4q, Observando la columna de ftecuencias absolutas vemos que la más grande de todas es ocho (B) y que el valor al que corresponde es Xi = 14. Luego, en la distribuci6n de la tabla l:

Mo

= 14.

,ú)

109

8.922t

lon

La moda

en_i!ierva]os_. cuando los valores están agrupados en intervalos, puede tomarse como p,rtto medio o marca de clase del intervalo que tiene Iamayorfrecuencia' A la "l "*.1, moda así obtenida se le denomina moda *uda. Ejemplo:obtener la moda crudade la distribuciónde latabla X(pág. B7 ). (3) o de frecuencias absolutas, vemosquelamayorfrecuencia t::415, que corresponde al intervalo 25 - 30. Según lo dicho, la modaserálamarca de ciase del intervalo, o sea: 0hservando la columna

Mo

= 27t5

pero si deseamos calcular la moda, debemos ver entonces si los intervalcs son de amplitud constante o variable, En este caso, es decir, cuando se calcula, la moda recibe el nombre de moda interpolada.

8.922.t: a fórmula:

fi* rvru -

L

¡-r

T

1

(11)

;----=-

ti_I + ti+1

en la que:

Mo

=

moda

L¡-t

límite real inferior del intervalo donde está Ia moda.

f.+1 I

frecuencia absoluta inmediata siguiente al intervalo dondeestá la

f¡-t

frecuencia absoluta inmediata anterior

moda.

al intervalo donde está

Ia

moda.

i

-

amplitud del intervalo donde está la moda.

Ejemplo: calcular la moda -interpolada- de la distribución de la tabla ll, (pág.48). Localizamos pr¡mero Ia mayor frecuencia que es 51y corresponde al intet valo 51 - 55, cuyo lími[e real inferior es Lt-1 = 5015. Lafrecuenciainmediataan-

ri

110

terior es f._., - 39; y la frecuencia inmediata posterior es f¡ a1 = del interváldes i= 5. Luego, substittyendo en la fórmula 11.

Mo

4t = 50'5 + g;q

La ampf itud

201

.5 = 50'5 t TO- = 50'5 + Mo

8.922,2:

4L.

La moda de

=

2t5L

53101

u

. Para este caso debemos hallar el cociente Llamando k. (k, minúsculasubuencia entre la amplitud, o sea f , la moda estará en el intervalo que tenga mayorlk, y se calculaapli-

div D a es cando

/i.

de

:

Mo

k¡+t , = L. -i-r, T k.. + k*" l+r l-I

(L2)

en la que:

Mo

=

tfbda

t = límite real inferior del intervalo dord e está Ia moda. k¡*,- = cociente f /i de la trecuencia entre Ia amplitud del intervalo s¡guiente al que contiene la moda. Más propiamente: f.+1 : i. Li-

k.l- r- = i. = X,

cociente f /i de la frecuencia entre Ia amplitud del intervaloanterior al que contiene la moda. Más propiamente: f,-1 : i. amplitud del intervalo donde está la moda.

Ejemplo: calcular la moda, interpolada, de la distribución de la tabla XX, en la lorma siguiente:

que reproducimos en la tabla

a) b)

Columna Columna

c)

cotumna

d)

Columna

1: 2:

contiene los intervalos de Ia distribución. contiene las frecuencias absolutas 'rfrr de los intervalos

r, Il,$'X,t;:olii',i;,,,r0

"i"

de tos intervalos.

4: contiene los coeientes k. de dividir las frecuencias Ia amplitud respectiva.

de

I

entre la

,.¡

111

TABLA

ki = i/1

fi

INTERVALOS

-30 30-35 35-40 4n-50 50-60

(2)

(3)

104 475 185

5

20,8

5

83'0

(a) = (2:3)

5

to

14,6

D

38 810 N=

En

XX

10

3'8

0'8

e23

este.,.rr;.,;ffi

es 83. y te corresponde er interv ato 25-30, cuLa amplitud del mismo es de 5 unidades. Los k, inmediataposterior al intervalo donde se halla la moda son 20,8y'37. Luego,

yo límite inferior es mente anterior

y

25.

substituyendo en la fírmula 12:

37 37 + 20tB Mo

185

5718

=

28120

Cuando los intervalos anterior y siguiente al que contiene la moda son de igual amplitud, (como en la tabla anterior), no es necesario calcular los cocientes f/i sino basta tomar directamente las frecuencias absolutas y aplicar Ia fórmula II.

8.10:

Uso de la moda: Podemos resumir

el uso de la moda en las siguientés:

Ventajas:

I.

Es útil cuando se quiere tener, de manera rápida, un dato sobre más típico, más frecuente de la distribución.

cia central, o el promedio

2.

Se

la

tenden-

utiliza para obtener un Índice de la asímetrÍa de Ia distribuci6n.

Desventajas:

1. Es menos fiable que los demás estadísticos de tendencia central: media y mediana. Sin embargo, ayuda a la comprensión de los cálculos. 2.

En rigor matemático, la moda es más

difícil

de calcular que los otros valo-

¡'J

Lt2 res pues, por razinde ser el valor al que corresponde la ordenada máxima, se requeriría conocer la función matemática de la distribución para calcular su máximo.

8.101: estadÍsticos

dos Por ejemplo, si conocemos la media a la fórmula:

Conocidos los valores numéricos de obtener, aproximadamente, el tercero. y la mediana, podemos estimar Ia moda deacuerdo

Mo

= 3Md -

2X

(13)

que nos dice que lamoda es igual al triple de la medianamenos el doble de la media aritmética. Esta fórmula es conveniente cuando no deseamos calcular la moda en las formas ya expuestas, o cuando resultan dos o más valores o intervalos con la misma frecuencia absoluta.

ft

113

EJERCIC]O 8

1. 2.

Calcule por el método largo, aplicando fa fórmula distribuci6n dada en el ejercicío 6, página 54. Aplicando Ia fórmula en el ejercicio

3.

página

83, la media

de la

obtenga ra media de la distribución dada

Siguiendo los pasos dados en lapág.54 obtenga la mediana de la distribución del ejercicio 6. Verifique fa corrección de su razonamiento aplicando la fórmula

4.

7, pág. 94,

6.

4,

9,

pág.L04,

En la misma distribución del ejercicio do la fórmula 1I, pág. 109 .

6,

obtenga la moda interpolada aplican,-

ft

t

TEMA IX y centi les. conceptos. 9.2: cólculo de cuo¡tiles y centiles. 9.21: Dist¡ibución de f¡ecuencios de volo¡es ogruPodos en intervolos. 9.22: Distribución de frecuencios de volores sin ogrupor. 9.3: Determinoción grófico de cuorliles y cqntiles. oiivo de Golton. 9.4: Significoción de los puntuociones centiles.

9.1: cuq¡tiles

Eiercicios '

4

115

9.1:

CUARTILES Y CENTILES. CONCEPTOS.

Estas medidas, que algunos autores_llaman de tendencia centr-al o de posición, contribuyen a la descripción de un hecho vañáElá."eri P"§icrjlólál-Pá¿ágoriíá jqn--de -suma impqrtancia, especialmenle los centiles o pqrcentiles, ya que permiten la confección de escalas que dan significado a las puntuaciones individuales.

Cuartiles. Son pun total de ned¡das o ár"ea de

si el

número

o valores de la distribución que

dividen el

total de casos de una d

tribución queda en cuatro partes iguales a las que se denomina cuartos. Como N es siempre igual a 100, cada cuarto es un 25'/" del total. A los puntos o valoresqueseparan un cuarto de otro se les llama cuartiles. 0 sea que en toda distribución podemos considerar que hay cuatro cuartos y tres cuartiles. Un cuartil se denota por Qi (Q., mayúscula sub-0; el subÍndice serefierealnúmero de*cüártós que delimita; Ia letra Q al nombre original: quartile. De esta cuenta, Q1 es el primer cuartil; Q2 el segundo y Q3 el tercero. De acuerdo a lodicho, elcuartiiprimero es el punto que'separa hasta el [rimer cuarto; el cuartil segundoseparahas: ta el segundo cuarto y el tercer cuartil separa hasta el tercer cuarto. Por ser N =100, más propiamente se dice: Q1 es el puntoque deja bajo sí el 25% de los casos; Q2

deja bajo sí el5O"/" de los cásos v Q3 deja bajo sí

el75/".

En conse'cuencia, encima del cuartil primero queda el 75'/. de casos; sobre el cuartil segundo queda el 50%; y sobre el tercer cuartil queda el 25"/" de los casos. Al cuartil segundo, por separar a ambos lados de él 50"/, de los casos se le considera

igual que la mediana. Gráficamente y en una distribución normal, la relación entre cuartos y cuartiles

es la siguiente:

;f 25olo

25olo 2solo

2570

qqQ3 Figura No. 14

116

Centiles, Los centiles o percentiles son puntos de la escala o valores de ladistribución que dividen el total de'medidas o área de Ia curva de frecuencias en cien partes iguales. Es decir, si el número total de casos de una distribución se divide entre 100, esto es, N/100, la distribución de los casos queda en 100 partes iguales. Como N es igual a 100 cada centésima parte es un 1'/" del total. A los puntos que separan una centésima de otra se les llama centiles. 0 sea que en toda distribución podemos considerar que hay 100 partes iguales y 99 centiles. Un centil se denota por Ci (C, mayúscula sub-O y, de manera semejante a los cuartiles, son aquellos puntos que separan un tanto por cien del total de casos. De esta cuenta: Cl deja bajo síel 1"/, de los casos y sobre sí el99%; C2 deja baio siel 2"/" y sobre sí el-98f" de los casos. C2q deja bajo sí el25/, y sobre si el75/" de los casos, etc. Es fácil ver, entonces, l-al igualdades siguientes:

Qr =

czs

Q2= C50 =

Md

Q3 = cls 9:2,

DE CUARTILESY CENTILES.

9AL9UL0 En nz6n de su importancia, vamos a considerar solamente el cálculo de los cuartiles y centiles de una distribución, cuando los valores están agrupados en intervaIos de amplitud variable o constante. No obstante, aclaro que en varios de lostextoscitados en la bibliografía que aparece al final de estos apuntes, setratasuficientementela

-.*

obtención de estos valores en las series simples.

-

9.2L

Cálculo de cuartiles v centiles en una distribución de frecuenciasdevalores agrupados en intervalos. De manera similar a la mediana, el hecho que los tntervalos sean de amplitud variable o constante no afecta el cálculo de los cuartiles y de los centiles. Ya se habrá observado, que estos valores no se basan, para obtenerlos uno a -uno, en todos los datos sino en uno o dos, a Io sumo. Las fórmulas correspondientes (14 y I5) se han obtenido mediante el mismo razonamiento hecho para la fórmula de la mediana en este tipo dedistribución;esdecir, localizando el punto o valor que deba bajo síy sobre síun determinado porcentaje de caSOS.

Para el cálculo de los cuartiles se

utiliza la fórmula:

-

¡"1

117

i$N Q¡

= Li_r

+

-F

4

L*'ra'fe

i-1

ri

&ttu' ,a¡

(14')

ab

la que:

a. = Li-1 = i N -

cuartil que se busca.

I

Fi-'l I ¿=

ui = fi =

lÍmite rear inferior der intervaro donde se haila er cuartir buscado. sub índice numérico del cuartil buscado. número de casos o suma de frecuencias.

frecuencia acumulada inmediata anterior

til

buscado.

al intervalo

donde está el cuar-

amplitud del intervalo donde está el cuartil que se busca. frecuencia absoruta der intervafo donde se haila er cuartir buscado.

Para el cálculo se procede de Ia manera siguiente:

I L

10.

se forma una tabra de tres corumnas que contenga: a) intervarosde ra distribución; b) frecuencias absolutas; y c) ftecueñ.iri u.rrrüdas.

2o-

S: h3..9 N/4. Este cociente se multiplica por el valor numérico sub Índice del cuartil que se va a obtáner, o sea, i xN/4.

,ri,

del

4o. f,l * y/ Ia ia acumutada inmedta al in uar e busca. Esta dife_ ren direm sol ntervalo y multiplicar ués e ud valo. 5o. El resultado de las operaciones indicadas en er paso anterior lo sumaremos al límite real. inferior del intervalo, lo cual nos dará el valor directo ' del cuartil buscado.

rl)

118

Ejemplo: calcular los cuartiles primero (Qt), segundo (Q2) y tercero (Q¡) de para lo que reproducimos Ia tabla XVllen lasiguienla distribución de la tabla

te:

ll,

t

,ABLA xxr Fi

INTERVAT,OS

16-20 2t-25 26-30 31-35 36-40 41-45 46 - 50 51-55 56-60 61-65 66-70 7L-75 't6 - 80 81-85 86-90 91-95 96 - 100

1o)

10

20

43

t9

106

51

15?

bt

4l

198

27

225

r

258 16

2't8 294

21

315

20

7 5

329

2

FUENTE: Tabla

.

o

4 13

N=

Cálculo de Q,

1

1

5

329

II.

Tenemos formada la tabla de tres colurnnas. 2")Hace-

nosN/@B2'25.Elcuartilprimeroselocaliza.muItiplicandoelsubíndice 1, de QI , por N/4, o sea, 1 x 82'25 = BZt 25, 3o) Vemosenlacolum-

a

B2t 25 na de frecuencias acumuladas que Ia primera de estas que iguala o supera = 106, cuyo intervalo es 46 - 50. De este intervalo, en el cualestáelcuartil primero, tomamos el límite real inferior, o sea 45'5; 4o) Del valor 82r25 r.g9es Fi

,o-9e3_-B!_r2!_

:

87--= 15r25. Es-

soluta del intervalo dicho, o sea 15t25 :39 = O'39. A continuación multiplico el cociente anterior porla amplitud del intervalo, o sea:0r39 x 5 =1t95¡ y 5") .El producto 1'95 lo añade al límite real inferior del intervalo, esto es: 45t 5 + L'95 = 47'45. De manera que QI = 47'45. Según el concepto dado,47'45 es el punto bajo el cual'queda el 25%de los casos y sobre él , el 75/". Substituyendo en la fórmula

QI = 45'50+

14 serÍa:

1 x 82r25 -67

x

5=

45'50

I

76t25

'39

= 47t45

1I9

Cálculo de Q2. Siguiendo los pasos dados en la pág.118y de manera similar a como hemos calculado el primer cuartil, tendremos, para el cuartil segundo, observando la tabla XXI:

ixN/4=2x329/4=

t64t50

L.r- l-- = 55r5

'

F¡-t =

157 '

f. a¡ =

4L.

I

5.

Y substituyendo en Ia fórmula 14:

" 164t 50.',- t57 -55150+:+x5=55'50+ v2-^

0'91 =56t41

'4L

que es

trata.

el mismo valor hallado en el cálculo de la mediana de Ia distribuciónde que (pág

Il7)

.

Cálculo de ra et cátculo

Q".

Según los datos de la tabla XXI tenemos:

y los

se

pasos ya indicados,pa-

dl6-uariil terJeró

ix N/4 = 3x329/4 = 246175 Li-I = 65'5. f.

-

33.

=

5'

I

ai

Y substituyendo en la fórmula 14:

Ét Q3

. I

= 65'50+246172--225 x5 = 65'50 +

En resumen,

.,

L dir,ri;3.i6n

los valores de los cuartiles son:

de la Tabla

ll,

3t3O= 68'80.

reproducida en

la Tabla XXl,

L20

Ql = 47'45,

deja bajo sí

el25/"

de casos

y sobre si 75'h.

= 56141, deja bajo sí el50% de casos y-sobre si 50'h. Q3 = 68'80, deja bajo sí el75%de casos y sobre si 25/", Q2

Cálculo de centiles. Para calcular los centiles o percentiles de una distribución de valores agrupados en intervalos, se aplica la fórmula:

ixN -F i-I 'u, loo c.I = L.l-I,*

(15)

f¡

en la que:

C. =

centil o percentil que se busca.

Li-1=

límite real inferior del intervalo donde se halla el centilbuscado.

i

-

sub-índice numérico del centil buscado.

[

=

número de casos o suma de frecuencias.

I

F,-, t-r --

frecuencia acumulada inmediata anterior al intgrvalo donde está

til

el

cen-

buscado.

a. =

amplitud del intervalo donde está el centil que se busca.

n, =

frecuencia absoluta del intervalo donde se halla el centil buscado.

I

I

Para el cálculo de los centiles se siguen exactamente los mismos pasosquepara el cálculo de los cuartiles (ver página 119), con la salvedad que en vez de N/4 será N/100, ya que, por el mismo concepto del centil, lo que buscamos es aquellos valores que dejan bajo síy sobre síun cierto porcentaje de casos.

Ejemplo: calcular los centiles primero, veinticinco, cincuenta, sesenta y cinco y noventa, de la distribución de la tabla ll, con los datos que aparecen en la tablá

XXl.(pág.118 ).

r'l)

L27

Cálculo de

C1. Io)

Tenemos formada Ia tabla de tres columnas. 2o) Hacemos

N/100 = 329/L00 = 3t29. El centil primero se localiza multiplicando el sub indice 1, de c1, por N/100 o sea r x 3t29 = 3t29. 3") Vemos en la columna de frecuencias acumuladas que la primera de estas que supera o iguala a 3'29 es Fi= 6,cuyo intervalo es 2l- - 25. De este intervalo, en el cual está el centil primero, tomamos el límite real inferior, o sea 20r5. 4") Del valor 3129 restamos lafrecuenciaacumulada inmediata anterior, o sea 3129 - l= 2t29. Esta diferencia la dividiremos entre la frecuencia absoluta del intervalo dicho, o sea 2t29:5 = 0146. A continuación multiplicamos el cociente anterior pol la amplítud del intervalo, o sea Ot46 x5 = 2t30. Y 5') EI producto 2t30 lo sumo al lÍmite real inferiordelintervalo, esto es: 2Ot5 + 2t 30 = 22t80. De manera que C1 = 22tBO es el punto o valor bajo el cual queda el 1'/" de los casos y por encima el 99'h. Substituyendo en la fórmula 15 sería:

'

CI = 20'50+

3t2g-l

x5 = 20150 + 2t3O =

Z2\BO.

5

(El valor del centil uno, según Ia fórmula, seúa 22t79 va que el divisor anula con el factor 5. La diferencia de 0'01 se debe a que el cociente 2t2g b, 0'458 que aproximamos, por exceso de 0'46).

5

se es

Cálculo de0r= Siguiendo el mismo procedimiento y de acuerdo a los datosde la

tabla

XXEEññT:¿r'

i x N,2100 = 25 x 329 /100 = 82'25 Li_I =

45t 50

Fi_I =

67.

f¡

39.

a.

5.

tt)

I

Y subsfituyendo en la fórmula 15:. C25

=

45'50

+82t25-67 39

x5 =

45t50

+79'25 39

=47t45

y como C25= Q1, este resultado es igual al que hallamos en la página 118.

Cálculo de

Cs6.

Siguiendo el mismo procedimiento y de acuerdo a los datos de

la tabla XXl, tenemos:

ix

N,2100

=

50

x 329/l-O0 -- 164t50

L¡-t F.t-I. fi ai

= = = =

55r5

157. 41. 5'

Y substituyendo en la fórmula 15: C5O

l-64',50 - t57 --x5

= 55t50+

=55'50* 0191 =56'41

y como C5O = Q2 = Md, este resultado es igual a los que hallamosanteriormente pael cuartil segun?o (pág. 119 ) y para la mediana, (pá9. 117 ).

, ra

Cálculo de fa tabla

CZ5.

Siguiendo el mismo procedimiento y de acuerdo a losdatos de

XXl, tenemos:

i x N/100 =

75 x 329

/L00 =

2461 75

= Fi-I = f¡ = '¡ =

65'50

L¡-1

225,

33.

5'

y substituyendo en la fórmula 15:

cls = 65f50+ ,.j1üfrU

rl

246175 _225

B

x5 = 65150 + 3130 = 68180

= Q3, este resultado es igualal obtenido para

el cuartiltercero. (pá9.

723 Cálculo de la tabla

XXl,

Ccn.

Siguiendo el mismo procedimiento y de acuerdo a los datosde

tenemos:

ixN/100=90

x 329/100 = 296'| Li-1

Fi-t ri-

c-

B0'50 =

294.

2t. 5.

d. I

Y substituyendo en la fórmula 15:

c9o = Bor50+

296't - 294 2t

x5 = Bo'50+

1o'5 21,

= 81100.

Asícomo calculamos los cuartiles y centiles de los ejemplos, para Ia distribución de la tabla ll, podemos seguir obteniendo los demás valores. En la tabla XXlldamos los percentiles del I al 99 , de la distribución dicha. Hemos marcado con asterisTABLA XXII co (*) los centiles quecorrespondena lostres cuartiles. PUNTUACIONES CENTILES

I 5

32',S

10

37',98

15

4t,82

20

45',25

25.

4'1,45

30

49'56 51'40 53'01

4.0

6

54',62

50r

á6'41

55

58',42

60

60'43

65

63'&

?0

75.

66'30 68'80

80

?1€0

85 90

76'02 81'00

95

84',v2

99

94',2L

No solamente por las fórmulas se puede obtener el valorde la distribución que corresponde a un cierto cuartil o centil; existe un procedimiento gráfico, que veremos en páginas siguientes, mediante la 0jíva de Galton, que con casi la misma precisión, permite obtener esos valores o puntos fácilmente.

fl

)

t24

9.22t 9ru par.

Cuartiles v centiles de una distribución de frecuencias de valores sin a-

Para este caso, que es el de Ia distribución de la Tabla l, página 44 aunque, Ia mayoría de autores no Io tratan, conviene usar las fórmulas L4 y L5, formando la tabla de valores, frecuencias absolutas y frecuencias acumuladas; y procederconforme los pasos que se indicaron yapara el cálculo de estos valores en distribución de frecuen-

cias con intervalos.

9.3:

DETERMINACI0N GRAFICA DE cUARTILESY cENTILES. 0JlvA DE GALToN.

Además del cálculo aritmético de los cuartiles y centiles, utilizando las fórmulas respectivas, pueden localizarse estos puntos mediante Ia Ojiva de Galton (fig. l5) que da, con suma facilidad esos valores. Eri cierto modo la ojiva es semejante al diagrama acumulativo, con la diferencia que las frecuencias acumuladas se substituyen por los porcentajes que les corresponden dentro del total de casos.

b

la,

as

Para la localización gráfica de que se trata, dispondremos los datos en una taÍ:

a) Columna l: contiene los intervalos de la distribución. b) columna 2:contiene los límites reales superiores de los intervalos. c) columna 3:contiene las frecuencias absolutas de los intervalos. d) Columna 4:contiene las frecuencias acumuladas que corresponden a los límie)

bla gue:

ll.

Columna

t,

tes reales superiores de los intervalos.

:9,j:,:H:il5:::.*r,"s

acumulativos de las respectivas trécuen-

Ejemplo: construir Ia 0jiva de Galton que corresponde a la distribuciónde la taLos datos, según los pasos indicados anteriormente, aparecen en latab[aquesrj

¡"f

t L25

L TABLA XXIII INTERVALOS

Li*1

f

(1)

(2)

(3)

L6

-20

20'5

2l 26 31

óo 4L 46 51 56 61

-30

30'5

16

86

9t 96

_+0 -45 - 50 - 55 -60 -65 - 70

(4)

40'5 45'5 50'5 55'5

70'5

- 80 - 85 -90 -95 - 100

1

0'3

6

1'8

4

10

3'0 7'0 13'1

43

24

6'.t

39

106

51

157

4L

198

2'.t

225

60'2 68'4 84'5

16

218 294

2l

315

95'8

97'9 99'4 100'0

90'5

,|

322

95'5 100'5

5

321

2

329

N=

20'4 32'2

78',4

óó

80'5 85'5

(5)

1

20

60'5 65'5

Pa.

5

20

FUENTE: T¿bta

i.

13

77 81

1¡

89',4

329

II

Los valores de las columnas 1a 4 ya los conocemos. Los de la columna5,porcentajes acumulados (Pa) se obtienen de la manera siguiente: sabemos que hasta el lÍmite superior del intervalo 36 40, o sea hasta 40r5 hay 43 casos hréasecolumna4). Eltotal de casos es N = 329¡ ahora, ¿qué porcentaje es 43 respecto de 329 ?. Será Podemos décir, entonces, que el 13rL/" de sujetosquedan 43 x 100 z 329 = por debajo de la puntuación 40'5. De igual modo, hasta el valor 60'5, que esellÍmite real superior del intervalo 56 - 60 hay 198 casos, que representan el 60r2"/" de 329. Podemos decir, entonces, que por debajo de la puntuaci6n 60'5 queda el 6Ot2%de casos. La fórmula práctica de obtener los porcentajes acumulados de la columna 5esmultiplicando cada frecuencia acumulada Fi, por el cociente 100/N que es constante. En nuestro ejemplo esL00/329 = 0r304 aproximado por exceso. De manera Quermultiplicando todas las frecuencias acumuladas de la columna 4 por elvalor 0'304 obtendremos los porcentajes acumulados de la columna 5.

-

]-3tl,

Vemos también que los valores de Ia columna 5sonpuntuacionescentilesquecorresponden a los límites realessuperiores de los intervalos, puesto que el centil,como ya se dijo, es aquel valor o punto que deja bajo sí un cierto porcentaje de casos. Así, por ejemplo, la puntuación 6015, de! intervalo 56 60, equivale a la puntuación cen-

-

"J

L26

t¡t 60r 2. Para hacer Ia gráfica marcamos en abscisas los lÍmites reales superiores de los y en ordenadas los centiles en una escala de 0 a r00. Esta gráfica se construye uniendo los porcentajes acumulados que corresponden a los límites realesdichos, tal como se hizo para el diagrama acumulativo.

intervalos;

De esta cuenta, para saber qué centil corresponde a un determinado valoro puntuación, o viceversa, bastará encontrar el punto donde el valor de abscisas corta a Ia curva de porcentajes acumulados -que se llama 0jiva de Galton- y leer en la escala óentil; o, al revés, si deseamos saber qué valor corresponde a un centil dado, bastará ver en qué puntos ese centil corta a Ia 0jiva y leer en el eje de abscisas.

La 0jiva de la tabla parece en la figura

15.

ll,

según losdatos que hemosanotado en la tabla

XXlll, a-

,Jl

15.5 20.5 25.5 30.5

¿55flt5 ñ'5 ffr'5

6á,s To,r, ?5.ó 80.5 85.5 90.5 95,5 100.5

Figura 15; Ojiva de Galton. Datos de

la tabla II.

.\

t L27

L

9.4:

SIGNIFICACION DE LAS PUNTUACI0NES CENTILES. La aplicación de los centiles en ciertos aspectos educativos es de

vital

impor-

tancia. Entre las conveniencias de su uso citaremos las siguientes:

I) Una puntuación centil se interpreta más fácilmente que una puntuación directa. Por ejemplo: si en una prueba de Matemáticas un alumno ha obtenido 65 puntos no se puede conocer cómo está el rendimiento del alumno en esa materia, yaque Iapuntuación 65, como puede ser afta calificación, puede ser también mediana o baja. Pero si se dice que el alumno obtuvo el centil 65, se desprende que ha obtenido una calificación que le sitúa por encima del 65% de sujetos de su grupo y que por encimade él hay el 35"/, de individuos. » La necesidad de asignar puestos a los alumnos según su rendimiento-práctica muy observada en otros tiempos- se satisfacía por la apreciación personal del maestro. Los centiles resuelven de manera más objetiva y justa ese problema. Además las calificaciones escolares son más significativas si se asignan en relación al grupo al que pertenece el alumno. Así, la puntuación directa 65, por ejemplo, es más significativa en un grupo de B0 alumnos que en uno de 25. Es evidente quemientras más numeroso sea el grupo, la competencia es más reñida. 3) De las puntuaciones directas obtenidas por un alumno en diversas materias no se puede saber en cuál está mejor. Así, no podemos ver en qué asignatura es superlor un alumno que obtuvo 45 en Matemáticas, 3B en Lenguaje y 60 enCienciasNaturales. Para averiguarlo necesitamos comparar esas puntuaciones en la mismaunidad de medida. Esta unidad de comparación pueden ser los centiles.

t,l

v LZB

EJERCICIO 9

Con los datos del ejercicio

1. 2. 3.

6, página 54 , calcule:

Los cuartiles primero, segundo y tercero. Haga una tabla que contenga los percentiles semejante a la tabla XXll, pág 123

.

y las puntuaciones respectivas,

Hasa una tabla que contenga los datos de tatabla XXlll (páq. 125 y ) después, obtenga la 0jiva de Galton de la distribución. Compruiebegráficámente algunos centiles obtenidos mediante la apf icaci6n de ra fdrmula 15.

ft

t_

TEMA X

l0.l: Voriobilidod o dispersión. I0.2: Medidos de voriobilidod. 10.3: Recorrido o omplitud totol. 10.4: Amplitud semiinlercuo¡ti l. 10.5: Desviovión medio. Concepto. 10.6: Cótculo de lo desvioción medio. 10.ól: Serie simple( 10.62: Dist¡ibución de frecencios. l0'621: Volores sin ogrupor. 10.6222 Volores ogrupodos en inte¡volos. t0.7: Cálculo obreviqdo de lo desvioción medio. 10.71: Yolores ogrupodos en inte¡volos de omplitud vorioble. 10.72: Volores ogrupodos en intervqlos de omplitud consfonte. 10.73: 0bse¡vociones sobre lo desvioción medio. 10.74: Uso de lo desviqción medio. I0.8i Desvioción típico o siondo¡d. Definición y concepfo. 10.80: Cólculo de lo desvioci,ón típico. 10.81: Serie simple. 10.82: Distribución de frecuen' cios. I0.82lr Yolo¡es sin ogrupor' 10.822: Vqlores ogrupodos en iniervolos. I0.9: Cólculo obreviodo de lo desvioción típico. Fundomen' to. t0.91: Obtenci,ón de lo fó¡mulo fundomentol. 10.92: Volores sin ogrupor. 10.93: Yolores ogrupodos en intervolos de omplitud vorioble. 10.94: Volores ogrupodos en intervolos de omplitud colstonte. 10.95: P¡uebo de Cho¡l ie¡. 10.96: Obse¡vociones sobre lo desvioción típico. I0.97: Uso de !o desviooión típico. 10.98: Coeficiente de vorioci6n. 10.99: Lo qsimetrío. 10.99.1: Cálculo de lo osimelrío. 10.99.2: Coeficienie de osimetrío de Peorson. Eiercicios.

.¡

130

10"1:

VARIABILIDAD 0 DISPERSI0N.

La variabilidad es otro de los conceptos fundamentales, asícomo su medici6n imprescindible, cuando se hace el análisis estadístico de un fenómeno. Este análisis no puede Iimitarse a la obtención de la tendencia central; dicho de otro modo: la tendencia central es necesaria pero no suficiente para el estudio de una distribución. Se impone la necesidad de conocer cómo es esa tendencia/ y en qué medida se relacionan, en más o en menos/ los valores de la variable con el promedio. Que la media aritmética, y en general las medidas de tendencia central no son suficientes para describir un fenómeno, se pone de manifiesto en los siguientesejem-

plos:

d

Sean dos matrimonios; en el primero las estaturas de mujer y maridoson de m; en el segundo l'53 n, y lt67 m. En ambos matrimonios la estatura media es la misma, X = 1r60 m; y, sin embargo, en primero las estaturas de los cónyuges distan más del promedio que en el segundo.

1'50 m. y Lt70

b)

el

Dos grupos de niños, rrArr

Grupo lr4rr

y

rrBrr, ahorraron, en quetzales, lo siguiente:

= L, 2, 4,5, 10.

GruporrBtr=

3,4,4,5, 6,

X

=

414

X =

4t4

en donde vemos también que/ a pesar que el promedio de ahorro es el mismo en ambos grupos, las diferencias de los valores de uno y otro grupo respecto de su promedio los

hace distintos. Casos como los de los ejemplos se presentan a menudo; luego, se necesita sa-

ber, dentro del análisis, cómo es la tendencia central, de cuánta variabilidad está a-

fectada la distribución y si los valores se hallan muy dispersos o no alrededor de la tendencia central. Este es, en síntesis, el problema que se trata de resolver midiendo la variabilidad o dispersión. Diremos, entonces, que la variabilidad es la manera como varían o se distribuyen los valores de una variable respecto desutendenciacen-

tral. Al conocer la dispersión se conoce también la concentración de los valores, pues ambos términos son opuestos. Una variable donde hay mucha concentración ne poca dispersión y viceversa.

L0.2:

tie-

MEDIDAS DE VARIABILIDAD. De las medidas de variabilidad que estudiaremos a continuación, una eslamás

t! )

131

importante: la desviación típica. 0curre algo similar a las medidasdetendenciacentral, o sea que no todas tienen el mismo rigor. LaS que comúnmente Se USan, cada una con

sus limitaciones, son:

1. 2. 3. 4. 5. 10.3:

El recorrido, amplitud total o variación máxima. El recorrido o amplitud semiintercuartil. La desviación o variación media. La desviación típica o standard; y

El coeficiente de variación.

RECORRIDO 0 AMPLITUD T0TAL.

Esta medida se obtiene agregando una unidad, a la diferencia entre los valores mayor y menor de Ia distribución. Es exactámente el recorrido de la variablequeyacalculamos anteriormente apficando la fórmula

1.

Ejemplos:

l.

, d

La variable (errores en Obtener el recorrido de la distribución de la tabla un dictado) toma valores desde 3 hasta 19. Su recorrido será, entonces:

A=(L9-3)

+ l=17.

Obtener el recorrido de la distribución de Iatabla ll. Lavariable(puntuaciones en una prueba de Ciencias Naturales) toma valores desde 16 hasta 99. Surecorrido será:

b)

A=(99-16)

+ l=84.

El recorrido o amplitud es útil, especialmente, para determinar el número de intervalos y su amplitud, tal como se indicó en el tema respectivo. Comomedidadevariabílidad áeja mucho qrl d.t.ut y sólo se usa cuando se quiere saber, en forma rápi: da, un dato sobre lavariabilidad. Tiene el inconveniente, pues, de ser pocofiable ya que se basa en los valores extremos (mayor y menor) de la distribución; esto hace que sea, además, una medida un tanto gruesa. Por otra parte, no se puede obtenerla cuando los valores están agrupados y se desconocen los datos originales, o sea, si no se sabe cuáles son el mayor y menor valores de la variable.

10.4: y

¡.,,

RECORRID0 0 AMPLITUD SEMIINTERCUARTIL.

Esta medida se obtiene dividiendo entre 2 la diferencia de los cuartiles tercero primero. Se expresa mediante la fórmula:

Q=

Q¡-Qr

(16)

L32

a = recorrido

en la que:

o amplitud semiintercuartil.

Q3

=

cuartil tercero de la distribución.

Q1

=

cuartil primero de la distribución.

A la diferencia entre los cuartiles tercero y primero se Ie denomina amplitud intercuartil. Debajo del primer cuartif queda el 25% de los casos; y debajo del tercer cuartil el 75"h¡ entre ambos queda, entonces, el 50% medio de los casos, como Ia am plitud semiintercuartil (Q) es la mitad de la amplitud intercuartil, según la fírnula 16, resulta que Q es la mitad de la porción de la escala que contiene el 50'h medio de los casos. En una distribución normal y simétrica, el punto medio de la amplitud intercuar til y la mediana coincidirán. De igual manera, la mediana será igual al cuartil primerl más la amplitud semiintercuartil.

Para obtener la amplitud semiintercuartilaplicamos Ia fórmula

d

16.

Ejemplos:

0btener la amplitud semiintercuartil de la distribución de Ia Tabla

ll.

Enes-

ta distribución ya sabemos que QI vale 47t45 gás. 48 ) y Q¡ vate 68'80 (pág.48 Substituyendo en la fírmula

0-

6Bf

16,

tendremos:

B0 - 47145

zlt

35

2

)

L

= lot67

La amplitud semiintercuartil es poco usada como medida de variabilidad pero ayuda a comprender e interpretar las distribuciones.

10.5:

DESVIACI0N 0 VARIACI0N MEDIA. C0NCEPT0.

Ya sabemos que desviación es la diferencia entre un valor Xi cualquiera de la distribución y uno cualquiera de los promedios o medidas de tendencia central: media, mediana o moda. Si Ia desviación se toma respecto de la media será Xi - X, y será negativa o positiva, según que el valor Xi sea menor o mayor que la media, aunque tam bién puede ser cero. En estas desviaciones de los términos respecto de un promedio s6 basa el cálculo de la desviación o variación media como medida de variabilidad.Se pue de usar cualquiera de tos valores de teridencia central, aunque se prefiere usar la media. Cuando se calcula la desviación media, las desviaciones de los valoresrespecto del promedio elegido se toman en valor absoluto, esto es, prescindiendo del signo. Este valor absoluto se denota escribiendo entre dos líneas verticales el dato o su expresión. l-a desviaci6n media (D.M.) o variaci6n media (V.M.) es Ia media aritméticade las desviaciones -en valor absoluto- de los valores de la variable respecto de un pro./ medio. E§to se expresa según la fórmula 17, respecto de la media, así:

ti

L33

D. M.

= -frrl

(t7)

en la que:

D.M. = >l¿ I =

desviación media. suma de las desviaciones -en valor absoluto- de los valores respecto del promedio elegido. Como hemos tomado Ia media, será: d = lxi -

XI

N 10.6:

-

total de casos o suma de frecuencias.

CALCUL0 DE LA DESVIACI0N MEDIA. Para ef cálculo de la desviación media consideraremos los casos siguientes:

10. 2o, 3o.

Los datos forman una serie simple. Los datos forman una distribución de frecuencias de valores sin agrupar. Los datos forman una distribución de trecuencias de valores agrupados en intervalos de amplitud variable o constante.

10.61: La desviación media de una serie simple. Para este caso, habiendo calculado uno de los promedios, dispondremos los datos en unatabla que contendrá: Columna Columna

1: 2:

contiene los valores de la serie simple. contiene las desviaciones -en valor absoluto- de los valores de la serie respecto del promedio elegido.

Ejemplo: calcular la desviación media, respecto de la media aritmética,

de Ia

serie simple siguiente:

2,3,4,5, 6,7,8, 9, 10.

En esta serie,

X = 54/9 =

6.

Según los pasos indicados, se hará la tabla respectiva y se aplicará

la

fórmu-

la 17¡ para este ejemplo los datos aparecen en la tabla XXIV. La desviación media se obtiene dividiendo la suma de la columna 2 entreel número de términos o valores de la serie.

tJ

I 1

i_

t34

I I

TABLA XXIV

xÍ

ldl

(1)

(2)

o4 JU ^o

42 ó1 60 71 82 93 104 20

En este ejemplo:

>lul

=

20

N-9 Y substituYendo en la fórmula 17:

D. M.

= 2O:9 = 2t2'

t0.62t valores agrupaSi la distribución de frecuencias es de valores sin agrupar, de Para con litud e las aplicand io ede la var

ndientes

D. M.

>r.

lal

la es

(18)

)

rJl

en la que:

D. M.

>f.

ldl

desviación media. suma de los product¡¡s de las frecuencias por las desviaciones, en

I3s valor absoluto, de los valores de la vaiiable respecto del promedio eleg

N_

ido.

suma de frecuencias o total de casos.

L0.62l-:

La desviación media de una distribución de frecuencias de vafores

sin agrupar. Para este caso hemos de disponer los datos en una tabla, así:' Columna Columna Columna

1: contiene los valores Xi de la variable. 2: contiene las frecuencias rrfrrde los valores. 3: contiene las desviaciones, en valor absoluto,

Columna

4:

de los valores respecto del promedio elegido. contiene los productos de multiplicar las frecuencias por las des-

v

iac iones .

La desviación media se obtiene dividiendo la suma de los valores de la columna 4 entre el total de casos.,

''-€jemplo: calcular la desviación media en la distribución de latabfa l, respectode la media aritmética, que es X = 12 Los datos aparecen en la tabla XXV,siguiente:

TABLA XXY

xi

f

(1)

(2)

lll

(3)

1

b

1

OD

515 416 312 26 12 0' 15 2t6 312 4L2 6%L 17-

7

I

4 4

10

3

8

11 12 13

5

t4

a

15

4

16

3

18

4

19

I N =50

FUENTE: Table

(4)

?18 11

2

5'

l-ldl

0,

¡'i

158

I.

136

En este ejemplo:

I r. l¿l = 158 N-50 Y substituyendo en la fórmula 1B:

D. M. = 158 : 50 = 3tL6, L0,622:

La desviación media de una distribución de frecuencias de valoresa-

grupados en interva

18,

Para este caso también se aplica la fórmula sdlo que toman de las marcas de clase o punto medio de los intervalos.

las desviácionesse

El procedimiento es el mismo para intervalos de amplitud variable o constante. Los datos para el cálculo de la desviación media los dispondremos en una tabla, así: Columna

1: 2:

Columna Columna

3: 4:

Columna

5:

Columna

contiene contiene cton. contiene contiene

los intervalos de la distribución. las marcas de clase

Xi

de los intervalos de la distribu-

las frecuencias rrfrr de los intervalos. las desviaciones, en valor absoluto, de las marcas de clase respecto del promedio elegido. contiene los productos de multiplicar las frecuencias por las desviaciones.

La desviación media se obtiene dividiendo la suma de los valores de lacolumna

5 entre la suma de fiecuencias. Ejemplo: calcular, respecto de la media aritmética que es viaci6n media de la distribución de la tabla gu

ll.

f

= 58r03,, la desLos datos están en la tabla XXVI, si-

iente:

¡.1

, r37

TABLA XXVI

'

.i *

TNTERVALos xi (1) (2,

(3)

16 27 26 31 36 4t 46 51 56 61 66 ?1 16 81 86 91 96

1 5 4 13 20 24 39 51 4t z'.t gg zo 16 2t 1 5 2

-

20 25 30 35 40 45 50 55 60 65 ?o T5 80 85 90 95 100

18 23 28 33 38 43 4 53 58 63 68 ?s 78 83 88 93 98

r

N=Izs

r.lal

lal (4)

5 = (3x4)

40'03 35'03 30'03 25',03 20:03 15'03 10'03 5',03 0'03 4'97 9'9T L4's1 19'9? 24',97 29'91 34.97 39,97

40'03 1?5'15 720',12 325',39

400'60 360'?2 391'17 256'53

l'23 134'19 s29'01

zgg'40 319'52 524'.37 209',79

174'85

19'gL

Lr4r,or

UENTE; Tabla IL

En este ejemplo:

2

r. l¿l =

N -

4,t421 oL 329.

, Y substituyendo en la fdrmula 18:

'---".'

,\\

1

D.M.=4,L42.0L:329=12'59.

calcular, respecto de la media aritmética, que es "','E¡emplo: desviaiión media de la distribución de la tabla X @ág.87 ). Lós datos aparecen en la tabla XXVII siguiente, asf:

X= 29'95,

la

r{t

138

TABLA XXVll

xif (2)

INTERVALOS

(1)

l¿l (3)

(4)

104 415

l',45

25

30

22',5 21'.5

35

32'5

185

35

40

40

50

50

60

45'0 55'0

8

20

5

15'05 25'05

N=823

r.l¿ I =(S x 4) .I?4'80

1,016'75 41l'.15 551'15 571'90 200'40 3,586'75

F(IENTE: Tabla X.

En este ejemplo:

>

f.

lol

=

823.

Y substituyendo en la fórmula 1B:

D.M.

ho.z,

= 3,586t75 : 823 =

4t 36.

cALCULo ABREVtADo DE LA DESVIActoN MED¡A. Si se observan los cálculos'y operaciones contenidos en las tablasXXVly XXVII

para obtener la desviación media, se notará fo laborioso de este método aplicando.la f6r mula 18. Esto se debe a que, generalmente, intervienen números fraccionarios, 9":u¡.q ciones de alto valor numérico o frecuencias elevadas. ¡ Ante esta dificultad ha habido qué introducir métodos abreviados para el cálculo de la desviación media, demanera semeiante a como se abrevia el cálculo de la media aritmética. Consideraremos únicamente, para el cálculo abreviado de la

desviaci6n media.

los dos casos siduientes:

a)

La distribuci6n de frecuencias de valores agrupados en intervalos

rJ de ampli-

tud variable.

b)

La distribuci§n de frecuencias de valores agrupados en intervalos tud constante.

de ampli-

L39

Ns s\stas\s \s srs\s, a\,\ana\§ss q»t \a Ysrrl»\a q»E sE »sapara e\pr\mer ca_ so/ es también aplicable a las distribuciones de frecuencias'de valores sin agiupar,co: mo los de la tabla l.

Para este caso, la desviación media se obtiene aplicando la fórmula: rl >f. ld'l + c(fi -

D. M.

fs)

(19)

en la que:

D. M.

=

desviación media

>f. ld'l = suma de los productos de multiplicar las frecuenciasrrfrr 'l

de los

intervalos, por las desviaciones -en valor absoluto-de Ias mar-

cas de clase respecto de un promedio arbjtrario.

c

=

ri

=

fs

=

N

-

diferencia entre el promedio verdadero y el arbitrario o supuesto.

;:ffi:i;:1',HJ*ffi'J:l1lJ#:,::.i,1'l,l"T::

número de casos o frecuencias que quedan desde el intervalo siguiente al del promedio arbitrario, hasta el intervalo superior. número de casos o suma de frecuencias.

Los datos para el cálculo los dispondremos

d

Columna.

b)

columna

d)

Columna Columna

c)

e, primer inter-

I:

2: 3:

4:

asÍ

contiene los intervalos de la distribuci6n. contiene ras marcas de clase Xi de los intervalos. contiene las frecuencias rfr de los intervalos. contiene las desviaciones arbitrarias, en valor absoluto de las marcas de clase respecto de un promedio arbitrario. Las designaremos por dr.

e)

Columna

5: contiene los productos

de multiplicar las fuecuencias por

las desviaciones arbitrarias.

r:i

140

La desviación media se obtendrá de la m4nera siguiente:

1. El promedio arbitrario es la marca de clase del intervalo donde se halla el promedio verdadero. 2. 3.

Las desviaciones dr se toman en valor absoluto.

Todas las desviaciones dr se deben multiplicar por las frecuenciasrespectivas. Con estos productos se formará la columna 5 que ha de ser totalizada

4.

.

Contaremos cuántos casos o frecuencias hay entre ef primer intervalo y donde está el promedio arbitrario. Estos casos seráh Jos rrfi rl

el intervalo

de la fórmula.

5,

Contaremos también cuántos casos o frecuencias hay

entre el intervalo

siguiente al del promedio arbitrario y el intervalo superior. Estos casosserán los rrfsrr de la fórmula.

6. La diferencia fi-fs, la multiplicaremos por la diferencia entreel pfome: dio verdadero menos el promedio arbitrario, para obtener la "crrde lafórmula. Si Ia desviación media se calcula respecto de la media aritmética, setá

c=X-Xs. 7

.

El producto c (fi

lumna

- fs) Io sumaremos a la suma de los valores de la co5 y luego dividiremos entre el total de casos o N. El cocienteserála

desviación media.

Ejemplo: calcular abreviadamente, respecto de la media aritmética, ladesviación media de'la distribución de la tabla X. Los datos aparecen en la tabla XXV|ll. En esta distribución ya sabemos gue X = 29t95¡ y como el promedio arbis supuesto se toma de la marca de clase del intervalo donde se halla el promedio trario

verdadero, tendremos que Xs

= 2715, pues 29t95

se halla en el intervalo

25

- 30.

TABLA XXVIII

INTERVAI.OS (1)

20 - 2s - 30 Bo - as

I tr 50 -

Xi (2) 22 21 32

5 s s

í: I: 60

550

f.

fi =

',

s19

(4)

fro4

5

[41s

0

frrt

*-133 (

8

N=823 FUENTE. Tebla X-

ld1

(3)

10 1?',5 21'5

r'.J 520

?30 665

220 3. 060

14r

En este ejemplo:

>f. ld'l = 3,060 c = 29tg5 -27\5 =

2145

fi = 519 fs = 304

fi -fs=2L5 N=823 Y substituyendo en la fórmula 19:

3,060+2t45x2L5

D'M'=

=3,586t752823=4t36.

az3

resultado que ya habíamos hallado anteriormente.

Para este caso, la desviación media se obtiene aplicando la fórmula:

D.M.

=

) r.

ld'l

+ c (fi -

fs)

(20)

en la que:

D. M. desviación

media

) rla'l = ,rrn, de los productos de multiplicar las frecuencias I'f" intervalos, por Ias desviaciones -en valor absoluto-

de

de los

las mar-

cas de clase respecto de unpromedioarbitrario. Estasdesviaciones son unitarias.

c

=

diferencia entre el promedio verdadero arbitrario.

fi

=

número de casos o ftecuencias que quedan tlesde valo hasta el intervalo del promedio arbitrario.

y el

promedio supuesto o

el primer inter-

I,J

t42

número de casos o frecuencias que quedan desde el intervalo siguiente al del promedio arbitrario, hasta el intervalo superior.

fs

número de casos o suma de frecuencias.

i

-

amplitud constante de los intervalos,

Los datos para el cálculo, Ios dispondremos en una tabla, así:

Columna Columna Columna

1: 2: 3: 4:

Columna

5:

Columna

los intervalos de la distribución. las marcas de clase Xi de los intervalos. las frecuencias "fI de los intervalos. las desviaciones unitarias, en valor absoluto,de las marcas de clase respecto del promedio arbitrario. contiene los productos de multiplicar las Frecuencias por las desviaciones arbitrarias.

contiene contiene contiene contiene

Para obtener las desviaciones unitarias se sigue el mismo procedimiento utilizado para las desviaciones en el cálculo abreviado de la media aritmética. Ténganse presentes las recomendaciones dadas en el numeral 5, de B .43, página 97.

Ejemplo: calcular abreviadamente, respecto de la media aritmética,ladesviación media de la distribución de la tabla ll. En esta distribución X = 5B' 03 y como el promedio arbitrario se toma de la marca de clase del intervalo donde está el promedio verdadero, será Xs = 58, del intervalo 56- 60. Los datos se hallan en la tabla XXIX siguiente: TABLA XXIX

NTERVAPS

xi

(1)

(2)

16-20n(t 27 - 25 2q - 30 3r - 35 a6 _ 40 4t-454324 46-048139 51 - 55

Es

61 66 11 16 81 86 er s6

" 6J 60 13 rs 83 88 g¡ *

56

23 2F 33 T

65 ?0 ?5 80 85 90 sn 1oo

ruNTE: Tabla

ld1 (4)

f. ldl

5:

(3 x4) 8

15 14

fi =rq"

113

120

35

24 65

80 12

-60

-

f (3)

E.

78

1.,

l¡i (21 133 120

B

Jre

131 121

N=

51 21 66 60 64 105

11

42

329

tñ

l, L,

35 16

;!'

t43

En este ejemplo:

>f. c=

ld'l

=

B2B

- 58:5 = fi = 198 fs = 131

58103

01006

fi -fs=67

i = 5. N = 329. Y substituyendo en la fórmula 20:

'---\

D.M.

-

828 + 01006

x

67

329

.5 = 4,l42t0l-

z 329 =I2t59

resultado que ya habíamos hallado anteriormente. (pás. 141 ).

10.732 Observaciones sobre la desviación media. La desviación media como medida de variabilidad, es mucho más fiable que táaffi'rtud o recorrido yque la amplitud semiintercuartil, pues, como hemos visto, se basa en las desviacionesde todos los valores de la variable respecto del promedio elegido. Como se dijo, se puede calcular sobre cualquier promedio, aunque acá nos hemos limitado al cálculorespecto de la media aritmética. Cuando una distribución es aproximadamente normal, simétrica o de tipo gaussiano, ocufre que enlre el puntc o valor situado a una desviación media por debajo de la media aritmética, y el punto o valor situado a una desviación media porencimade la media aritmética, queda comprendido el 5B"h de los casos. 0 sea: restandoy suman do una D.M. a la media aritmética, los dos valores que resultan dejan comprendido en tre síel 587" de los casos. Esto es:

Xt r

O.

M. =

comprende

el

58"/" de los casos.

Comprobemos si en nuestra distribuci6n de las puntuaciones en la prueba se cumple la propiedad dicha. Tomemos, de Ciencias Naturales, dada en la tabla

ll,

para ello, la distribuci6n segfnaparece en Iatabla XXI (pág. 118 en esta distribuci6n X = 58'03 y D.M. 12'59. Entonces:

=

). Yá sabemos que

r-T

L44

X - 1 D.M. = 58103 - 12'59 = 45144

X+1D.M.

=58103 + L2t59 = 70t62

Si la distribución es aproximadamente normal, entre los valores 45t 44

y

70t 62 estará comprendido el 587" de los casos. Veamos: 45t44 se encuentra en el intervalo 41 - 45, hasta el cual hay (véase la columna Fi 67 casos. Como entre el lÍmite real superior del intervalo, que es 45r5 y el valor 45t 44 apenas hay la diferencia de 0.06 unidades, diremos que debajo del valor 45t 44 quedan 67 casos.

El otro valor, que es 70t62 se halla en el intervalo 7L-75 cuyo límite real superior es 75'5; Ia columna Fi nos dice que hasta dicho límite hay 278 casos. La diferencia entre ese límite y el valor 70t 62 es igual a 4'BB unidades. Debemos aver¡guar cuántos casos, de los 20 que hay en dicho intervalo según Ia columna 'rf'r, corresponden a 4tBB unidades y restarlos de los 278 casos que hay hasta el límite 75'5. Esto se averigua así: Si a 5 unidades (las del intervalo)corresponden ZOcasos, a 4'BB unidades corresponderán 20 x 4'88: 5 = L9t 52 casos. Entoncps, hasta el valor 70' 62 quedan 278 - Lgt 52 = 25Bt 48 casos; aproximadamente 258

e

casos. Entonces:

67

casos. Debajo del valor 45'44 hay aproximadamente Debajo del valor 70' 62 hay aproximadamente 258 casos .

Entre los puntos 70'62y 45t 44 quedan, aproximadamente, 258 - 67= 191 casos, que representan el 5B%.de los casos/ esto es, 5B"hde 329. Esteresultado nos dice que la distribución es aproximadamente normal.

10.74:

Uso de la desviacién

media. Es aconsejable utilizar Ia desvia-

ción media;

a)

Si se quiere saber et grado de aproximación de una distribución a la

curva notmal.

b) Si se desea comparar varias distribuciones, siendo mejor que más la de menor desviación media.

c)

-

sola prueba.

las

de-

Cuando se quieren formar grupos equivalentes con-la aplicaciónde una

't.l

L44

X

- 1 D.M. = 58103 - 12'59 =

X+1D.M. =58'03

+

12159 =

45t44 70t 62

Si la distribución es aproximadamente normal, entre los valores 45t 44 70' 62 estará comprendido el 5Bl. de los casos.

y

Veamos: 45t44 se encuentra en el intervalol 41 - 45, hasta el cual hay (véase la columna Fi 67 casos. Como entre el IÍmite real superior del intervalo, que es 45'5 y el valor 45t44 apenas hay la diferencia de 0.06 unidades, diremos que debajo del valor 45t 44 quedan 67 casos.

El otro valor, que es 70'62 se halla en el intervalo 7L-75 cuyo límite real superior es 75t5; la columna Fi nos dice que hasta dicho límite hay 278 casos. La diferencia entre ese límite y el valor 70'62 es igual a 4'BB unidades. Debemos averiguar cuántos casos, de los 20 que hay en dicho intervalo según Ia columna "f'r, corresponden a 4¡88 unidades y restarlos de los 278 casos que hay hasta el límite 75t 5. Esto se averigua asÍ: Si a 5 unidades (las del intervalo)corresponden 2Ocasos, a 4188 unidades corresponderán 20 x 4r88: 5 = 19'52 casos. Entoncps, hasta el valor 70'62 quedan 278 - L9t 52 = 258' 48 casos; aproximadamente 258 casos. Entonces:

67

casos. Debajo del valor 45t 44 hay aproximadamente Debajo del valor 70'62 hay aproximadamente 25Bcasos .

Entre los puntos 70'62 y 451 44 quedan, aproximadamente, 258 - 67= 191 casos, que representan el 58"/,.de los casos, esto es, 58% de 329. Esteresultado nos dice que la distribución es aproximadamente normal.

L0.74t

Uso de la desviacién

media. Es aconsejable utilizar la desvia-

ción media;

d

Si se quiere saber el grado de aproximación de una distribución

a

la

curva normal.

b) Si se desea comparar varias distribuciones, siendo mejor que más la de menor desviación media.

c) sola prueba.

las

de-

Cuando se quieren formar grupos equivalentes con-la aplicaciónde una

,,1

L45

10.8:

LA DESVIACI0N TIPICA 0 DESVIACI0N STANDARD.

típica o standard es la principal medida de variabilidad y deposible. Además de los nombres de standard o típicatamquesea siempre be calcularse bién se le llama: desviación tipo, desvío paY6n, cuadrado medio de la variaci6n y desviación cuadrática media.

, La desviación

'

griega(fque se lee rrSigma minúscula", aunque también se utiliza Ia letra castellana "srro las iniciales S.D. de Standard De' viation, nombre que le dió su introductor,,el Estadístico Karl Pearson en elañoLBg6. nEs universalmente usada, no solo por ser la más significativa y fiable de las medidas de variabilidad, sino por los muchos cálculos a los que se aplica, propiedades que la Se denota generalmente por la letra

caracterizan, etc.

'

CUando se calculó la desviación media pudo notarse que las desviaciones no setomaron con sus signos correspondientes sino en valor absoluto. Esto sehaceasí convencionalmente, ya que matemáticamente no tiene fundamentación, lo cual no deja de ser un inconveniente de la desviación media. I La desviación tÍpica o standard también también se calcula tomando las desviaciones de los valores de la variable respecto de la media aritmética. Estas desviaciones tendrán signo negativo unas y positivootras; también sabemos que la suma algebraica de las desviaciones es cero..Este inconvenien te se salva elevando esas desviaciones al cuadrado, con lo cual lodas se convierten en positivas, ya que toda cantidad, negativa o positiva, tienecuadradopositivo. La suma de los cuadrados de las desviaciones dividida entre el total N de casos es lo quese denomina varianza¡ si a esta varianza extraemos raizcuadrada el resultado será la desviac ión típica.

La raz6n de extraer raiz cuadrada es para volver las desviaciones a Ia unidad de medida de la variable. Es decir: si la unidad de medida fuera lineal, alcuadrar las desviaciones éstas ya no estarían en unidades Iineales sino cuadradas. Para retornarlas a la unidad de medida lineal debe extraerse raíz cuadrada.

-Definición; La desviación típica o standard se define como la ra(z cuadta' da de la med¡a aritnÉt¡ca de los cuadrados de las desviaciones. Y la f6rmula fundamental que la expresa es:

/_ >d2

\J =v/ c=.

*

en la que:

O-

desviación típica o standard.

eD

¡:í

L46

> d¿ =

suma de tos cuadrados de las desviaciones de los valores de lavariable respecto de la media aritmética.

N 10.80:

número de casos o suma de frecuencias.'

CALCUL0 DE LA DESVIACI0N TIPICA 0 STANDARD. Para el cálculo de la desviación típica consideraremos los casos siguien-

tes:

1.

Los datos torman una serie simple.

2.

Los datos forman una distribución de frecuencias de valoressinagrupar.

3.

Los datos forman una distribución de frecuencias de valores agrupados en intervalos de amplitud variable o constante.

10.81.

para este caso basta Los datos para el cálculo los hemos de disponer en una tabla, habiendo obtenido previamente la media aritmética, en Ia forma siguie.nte:

aplicar

laf6rmula2l. Columna Columna

1: 2:

contiene 'los valores Xi de la serie. contiene las desviaciones d de los valores Xi respecto de la

Columna

3:

media aritmética. contiene los cuadrados de las desviaciones.

La desviación típica se obtiene extrayendo aiz cuadrada al cociente de dividir la suma de los valores de la columna 3, entre el número de términos de la serie.

Ejempfo: calcular Ia desviación tÍpica de Ia serie TABLA XXX

s

TTT

xi

d.

d2

4,t 4s

1 s

4s s

4000 38-24 3?-39 35 -5

25 96

igu

iente:

47, 43, 40, 38,37, 35. En esta

serie, X =

40.

Los datos

el cálculo los vemos en la Tabla XXX.

para

ú

t47

En este ejemplo:

>d2 = 96 N =6. Y substituyendo en la fórmula 21:

q=V0; =r[; = 6

4.

10 . 82: Puede ocurrir que los plitud variable o cons una modificación de la fórmula

: aplica indistintamente a estos casos y es en el sentido que las desviaciones al cuadradosemul tiplicarán por las frecuencias correspondientes, es decir:

2!,

Q2)

en la que:

O-

)

-

f.d2=

N-

desviación tíPica o standard. suma de los productos de las frecuencias por los cuadrados de las_des

viaciones de los valores de la variable respecto de la mediaaritmética suma de frecuencias o total de casos.

10.B2L: Para este caso, y habiendo calculado previa datos en una tabla, así:

1: cont¡ene los valores Xi derrfrrla distribución. de los valores. Columna 2: contiene las ftecuencias Columna 3: contiene las desviaciones de los valores Xi respecto de la me' Columna

dia aritmética.

Columna Columna

4: contiene los cuadrados de las desviaciones 5: contiene los productos de multiplicar las frecuencias por los cuadrados de las desviaciones.

rl

148

Ejemplo: calcular la desviación típica de la distribución de Ia Tabla

la que X =

12.

l,

en

Los datos aparecen en la tabla XXXI.

La desviación típica se obtiene extrayendo raíz cuadrada, al cociente de dividir la suma de los valores de la columna 5 entre la suma de los valores de Ia columna 2, que es el total de casos. En este ejemplo:

2¡. a2 =

750

N-50. Y substituyendo en la fírmula 22: 750 50

= t/ 15

= 3t87.

TABLA XXXI

(

2

t.d 5 = (zx4)

xÍ

f

d.

d

1)

(2)

(3)

(4)

3

z

81

1

49

162 49

b

1

36

36

8

4

16

64

I

4

I

36

10

3

4

12

11

2

1

t2

5 :1

13 L4

8

15

4

16

4 16

48

t44

18

4

óo

19

1

49

N=

50

FUENTE: Tabla I.

49 ?50

f¡

148

Ejemplo: calcular la desviación típica de la distribución de la Tabla

Ia que

X= 12.

l,

en

Los datos aparecen en la tabla XXXI.

La desviación típica se obtiene extrayendo raíz cuadrada, al cociente de dividir la suma de los valores de la columna 5 entre la suma de los valores de Ia columna 2, que es eltotal de casos. En este ejemplo:

2¡. a2 =

750

N-50. Y substituyendo en la fírmula 22t 750 50

= t/ 15

= 3t87.

TABLA XXXI

XII

(1)

(4

2

d.

d

(3)

(4)

Í. ¡2 5 -- (r"E

2

81

5

1

49

762 49

b

1

36

36

4 4

16

64

7 8

I 10

2

11

o

4

12

1

2

t2 :1

13 L4

8

15

4

4

I 16

16 18

4

19

1

N=

50

FUENTE: Tabla I.

48

t44 49

lo ?50

rJ

L49

d

ución de frecuencias de va10.822. La lores agrupados qqjnlg1y_alel Ya dijimos que para este caso se aplica lafírmula22,

@l¡tuddelosintervalosseavariableoconstante.Laúnica

salvedad es que los valores Xi serán las marcas de clase de los intervalos, de manera semejante a como hemos hecho para otros cálculos. Los datos, habiendo calculado previamente la media aritmética, pondremos en una tabla, así:

Columna Columna Columna

1: 2: 3: 4:

Columna Columna

5: 6:

Columna

los dis-

contiene los intervalos de Ia distribución. contiene las marcas de clase Xi de los intervalos. contiene las frecuencias 'rf'r de los intervalos. contiene las desviaciones (d) de las marcas de clase respecto de la media aritmética. contiene los cuadrados de las desviaciones. contiene los productos de multiplicar las frecuencias por los cuadrados de las desviaciones.

La desviación típica se obtiene extrayendo raíz cuadrada, al cociente de dividir la suma de los valores de la columna .6 entre la suma de frecuencias.

_ Ejemplo: calcular la desviación típica de la distribuc.ión de la Tablall, 58. Los datos para el cálculo aparecen en la tabla siguiente:

en la que X =

TABLA XXXII

r. ¿2 6=1sx5)

lNTERVAI,OS (1)

16-20 26-30 31-35 36-40 4t-45 46-50 51-55 56-60 61-65 66-?0 ?1-?5 't6 - 80 81-85 86-90 91-95 96 - 100

18 23 28 33 38 43 48 53 58410 63215 68 ?3 ?8 83 88730 93535 98240

1 5 4 13 20 24 39 51 33 20 16 21

N= 329 FUENTE: Tabla tr.

-40 -35

-30 -25

-20 -15

-10

-5 10 15

20 25

600 L,225 900 625 400 225 1oo 25 1,

25 100 225 400

1,600 6,125

3,600 8,125 8,000

5,400 3,900 7,275 6?5

3,300

4,500

6,400 625 13.125 900 6,300 t,225 6,125 1,600 3,200 81,650

jt,

150 En este ejemplo:

2f. d2 = N -

81,650. 329.

Y substituyendo en la fórnula 22:

81,650

o-10.9:

fz+e,rc = t5'75

CALCUL0 ABREVIADO DE LA DESVIACI0N TlPICA. FUNDAMENTO.

Es fácilobservar que aplicando la fórmula 22, el cálculo de Ia desviación típica resulta laborioso. Repetimos acá algo de lo dicho para la nredia aritmética: conviene abreviar la obtención de es[os valores, utilizando un procedimiento que/ con ia misma precisión, haga más rápido el cálculo. Además, si se puede obtener la media aritmética con base en las desviaciones de los valores respecto de una media supuesta, este principio fundamentelaobtención de Ia desviación típica abreviadamente. De esta cuenta, como veremosal finaf del presente tema/ en un solo cuadro podemos resumir todos los datos y operaciones para obtener los valores estadíslicos de una muestra.

10.91: Obtención de Ia fórmula Fundamental. La [órmula fundamental para el cálculo abreviado de Ia desviación típica se obtiene tomanclo las desviaciones de Ios valores Xi, respecto de una media supuesta Xs que ya conocemos. Demostrac ión (*)

En la figura

L3, pág. 82 ,

d = Xi - X -

sean:

desviación de un valor Xi respecto de la media aritmética verdadera.

dr= Xi h =X-

Xs

= desviación de un valor Xi respecto tica supuesta. (Xs

=

de la media aritmé-

P)

Xs = diferencia entre la media aritmélica verdadera y la meclia supuesta.

dr-d=(Xi -Xs)-(X¡ -ñ=Xi (.) Nota importanre:

-X-s-Xi +X=X-Xs=h.

La demost¡ación anterior la he tomado de "Introducción a los Métodos Estadfsticos", del Lic. Manuel Gonz|lez Bellido", ya citado.

t.l

151

Entonces:

dr=d+h(10.9I.1) d,2 = ¿2 + zdh + n2

¡0.9t.2)

Pero por ser la suma algebraica de las desviaciones respecto de Ia media gual a cero, Ia expresión anterior queda:

2¿'2 = 2¿2 +

trlh2

)¿'2 = >d2 +

¡2

i-

Dividiendo entre N:

NN De 10.91.1 se deduce

(10.91.3)

que:

>dr = >d+Nh Como en

el primer término del segundo miembro es

igu-al a

cero, Ia igualdad

anterior queda:

>d' = despejando h:

Nh

h -

Ia' N

Substituyendo en 10

2d'2

N =

.91,3 el valor de h, tendremos:

>o' - fZ1' \' N \N /

de donde:

>

d2 = >d,2 N

N-

_¡ |/> o,\2

\ru/

fl

t52

Extrayendo taíz cuadradat

es decir:

(23) que es la fórmula fundamental para el cálculo de Ia desviación

típica,

por

el método a-

brev iado.

l0 ,92t

La desviación típica -abreviadamente- de una distribución de fre-

Cuando se presente este caso, la fórmula 23 se modifica en el sentido afectar las desviaciones por las frecuencias correspondientes, o sea:

de

(24) en la que:

O- -

2

r'

d'

2

=

/ \^ () f.¿' ¡z = \ N / N -

desviación típica o standard.

¡,,xflil{';

i',".'J;:T, ff"

T

it'

iJ

r' i

:,'i: i' ilJ,l.T'

fJ i :' ;::1

;

dividir la suma algebraica de los productos de las frecuencias por las desviaciones, entre el número de casos. cuadrado del cociente de

suma de frecuencias o total de casos.

Los datos para el cálculo los hemos de disponer en una tabla, así: Columna

Columna Columna

1: 2: 3:

contiene los valores Xi de la distribucién. contiene las frecuencias (D de los valores. contiene las desviaciones (dr) arbitrarias ,de Ios valores respecto de la media supuesta.

rl

153

Columna

4:

contiene los productos de multiplicar las frecuencias por las

Columna

5:

desviaciones. contiene los productos de multiplicar las frecuencias por los cuadrados de las desviaciones.

La desviación típica se obtiene así: la suma de los valores de la columna restamos el cuadrado de dividir Ia suma algebraica de los valores de la columna 4entre Iasumadefrecuencias. A esta dilerencia se le extrae raiz cuadrada.

5 se divide entre la suma de lrecuencias. A este cocienter

Posiblemente en la distribución de frecuencias de valores sin agrupar no sea mucha Ia abreviatura/ pero al menos evita calcular los cuadrados de las desviaciones por separado. Nótese Io dicho en lo siguiente: en Ia columna 4 van los producLos (f,dr). Para formar Ia columna 5, no es menester cuadrar las desviaciones de Ia columna 3 y multiplicarlas.por Ias frecuencias, Bastará multiplicar los valores de Ia colur¡na 3 por los valores de Ia columna 4

Ejemplo: calcular Ia desviación típica -abreviadamente- de ción de Ia [abla

l,

tomando Xs

= 14.

Ia

distribu-

Los datos para elcálculo aparecen en la tabla

siguiente: TABLA XXXIII

xi (1)

f (2)

_d' (3)

é

Z

-II

5 1 1 6 3 't 4 8 4 9 3 10 2 11 72 5 13 s t480 154144 16326\2 18141664 1915525 N=

50

FUENTE: Tabla I.

¡--

-9 -8 -1 -6 -5 -4 -3 -2 -1

f.d' (4) -I -8 -21 -24 -20 -72 -6 -10 -5

- 106

f.¿'2 5

= (3 x 4) 81

64 l4',t 1-41

100 48 18 20

5

914

¡§

154

En este ejemplo:

2t '

d'2

)r.

d'

N

Y substituyendo en Ia fórmula

o-o-C-

t9t48

,B V

=

3'BB'7 3t

resulLado qLre ya habíamos hall ado anLer ormente (pá9.

10.93:

t52

).

La desviación típica -abreviadamente- de una distribución de fre-

Cuando se tiene este caso se aplica Ia fórmula 24, con la salvedad que para las desviaciones se usan las marcas de clase y de cada una seresta IamediasupuesLd.

Los datos para el cálculo se disponen en una tabla de 6 columnas, de las cuales Ia primera contiene los intervalos de Ia dis[ribución y las restantes en el mismo orden que se ha dado para el caso anterior.

1-0.94: La desviación típica -abreviadamente- de una distribución de frecuencias de valores agrupados en intervalos de amplitud constante. Para este caso, la fórmula 24 tiene la siguiente modificación: las desviaciones se toman unitarias respecto de Ia media supuestá, es decir, cada desviación se divide entre la amplitud que es conslanLe, tal como lo expresa la fórmula 7.L, Pág.95 aunque/ como ya se dijo, la forma de hacerlo en Ia práctica es escribir las desviacio nes unitarias, con sus signos respec[ivos, por encima y por debajo de Ia desviación ce ro. Por larazón apuntada, en Ia iórmula 25 aparece Ia amplitud como factor, así:

rl

155

cr -i

i

(25)

t

en la que:

2

o-

=

desviación típica o standard.

I

=

amplitud constante de los intervalos.

multiplicar las frecuencias por los unitarias. las desviaciones de cuadrados suma de los productos de

¡.¿',2

cuadrado del cociente de dividir la suma algebraica de los pro-

ductos de Ias frecuencias por las desviaciones unitarias,entre el total de casos. suma de frecuencias o

total de casos.

Los datos para el cálculo los hemos de disponer en una tabla, así: Columna Columna Columna Columna

1: contiene los intervalos de la distribución. 2: contiene los valores Xi o marcas de clase de los intervalos. 3: contiene Ias frecuencias (0 de los intervalos. 4: contiene las desviaciones unitarias de las marcas de clase,

Columna

5:

na

u'

c

o r um

respecto de Ia media supuesta. contiene los productos de multiplicar las frecuencias por las desviac iones unitarias.

::::',"":"

o;'i 1'o'"

:'.tT,i.', frxt' ll]iil,lx'.

t'""'

nc

i

as por

I

o

s

La desviación típica se obtiene así: a) Ia suma de los valores de la co6 se divide entre el tdtal de casos; b) A esta suma restamos el cociente de dividir la suma algebraica de los valores de la columna 5 entre el total de casos. Este cociente se ha de elevar al cuadrado; c) a la diferencia anterior se le extrae ta(zcuadrada y el resultado se multiplica por el valor numérico de la amplitud de losintervalumna

los. de la tabla g uiente:

N

Ejemplo: calcular abreviadamente la desviación típica de la distribuci6n tomando Xs = 53. Los datos para el cálculo aparecen en la tabla si-

ll,

¡i

15ó

TABLA XXXIV

INTERVALOS

(i)

f. (3)

Xi (2)

18 16 - 20 23 21 - 25 28 26. - 30 33 31 - 35 36 - 40 38 43 4! - 45 46 - 50 § 51-5553510 56-605841147 61-656327254 66-706833399 71-?57320480 '76-807816580 81-8583216126 86-90887'.l 91-95935840 96 -100 98 FUENTE: Tabla

1 5 4 13 20 24 39

f.d,

d' (4)

f.d'2

-G)

-7 -6 -5 -4 -3 -2 -1

6

;1+;5)

-7

49

-30 -20

180

-52

208

-60

180

100

-48

96

-39

39

4t 108

297 320 400 756 49

320

2 N= 329

I

762 3.599

18

331

II.

En este ejemplo:

2¡,d'2 =

>f.d'

=

t-

[

3,599. 33l-. 5.

=

329.

ú

Y substituyendo en la fírnula 25:

Tt c= 5 I lz,sqq

/33A I -= ) --rD \-rl l'l _l 0=5x3rl5=15t75

5

L57

resultado que ya habíamos hallado anteriormente (pág. 155 ).

Es interesante hacer notar que cuando se usa el método abreviado, no hay necesidad de hacer por separado los cuadrados de las desviaciones.0bsérveseelcua/dro o tabla XXXIV y se verá que tenemos:

a) b)

Columna Columna

5: 6:

los productos f .d' los productos (d')

(f.d') = f ,d'2,

obtenidosmultiplican-

do entre sí los valores de las columnas 4 y

5, -¡'

10.95: Prueba de Charlier. La prueba o comprobación de Charlier sirve para comprobar la exactitud del cálculo de la desviación típica. Llamando "d" a las desviaciones de los valores respecto de la media aritmética, y en virtud que:

) ¡ tA + D2 = 2r

ta2

+

2d

+ I) = 2fd2 + Z >fd + 2f

calcularemos, utilizando (tabla XXXIU los valores de la columna3(frecuencias)ycoIumna 4 (desviaciones), a) elcuadrado de la suma de las desviaciones más uno; y b)) el producto de las frecuencias por los cuadrados dados en d. Veamos:

(d + t)2 -7 -6 -5 -4

+ + + +

-2 + -1+ 0+ 1+

1) 1) 1) 1)

=

f(d + L)2 36

25

=

= =

)=

16 9

4 1 0

I 4 o

3+ 4+ u+ 6+ 7¡ 8+ 91

xI=36 x5=125 4= 16 x 64 o x13= 117 4 x20=80 I x24=24 0 x39= 0 1 x 5l = 51 4 x 41 -764 q x27=243 16 x33=523 x20=500 36 x16= 5?6 49 x 21 = 1,029 64 x7=W 81 x5=405 100 x2=200 óD

16 36

49 64 81 100

¿,Tgo

frl

158

Vemos que:

)r t¿ + t)2 = te,

4,590.

En la tabla XXXIV podemos ver, en Ias columnas que:

6, 5 y 3,

respectivamen-

2r. d2 = 3,599 2>f. 2x 33L = 662 662..

2f= N =

329,

Según el desarrollo del binomio dado,

y

contrados:

4,590 = 3,599 + 662 +

4,590 =

4

substituyendo por los valores en-

329

,590

igualdad que nos dice que el cálculo ha sido bien hecho.

LO.96t

gbservaciones sobre la desviación

tÍpica" La desviación típica o

standard es la más fiable y significativa de las medidas de varlabilidad. Enunadistribución aproximadamente normal, se cumple Io siguiente: Si a la mediaaritmética se leresta y suma una desviación típica, se encuentran 2.puntos o valores que comprenden entre si el 68'/" de los casos. Para determinar esta zona, se sigue un razonam¡ento análogo al utilizado para encontrar el 58% de casos que quedan comprendidos en el área limitada a una desviación media, por debajo y por encima, de la media aritmética.

10.97: diverso

ción típica es

citar algunas de estas aplicaciones, así:

1.

d

Ef uso y aplicaciones de ladesviay significación de esta medida.podemos

Cuando se desea conocer el grado de aproximación de una distribución

empÍrica, a Ia curva normal.

2. 3.

Cuando se desea igualar la variabilidad de dos o más distribuciones. Para

calcular otros valores, como los siguientes: sigma individual,

construcción de escalas, coeficiente de variaci6n, coeficiente de correlación lineal de

Pearson, lírnites de confianza, etc.

rl

159

Coeficientq de variación. Este coeficiente resulta de multiplicar r ^^.. ruu, por el,10:?8: cociente de dividir la desviación típica de una distribución entre h ar¡tmética correspondiente. Viene dado por la fórmula:

A^

;;;i;

C.

V=

0-

-=-

x

X

(26)

100

en Ia que: C.

V. =

fr

=

desviación típica

X

=

media aritmética

coeficiente de variación.

En nuestra distribución de ra tabra

calculados, tendremos:

C. V. =

l5t

75

58.

il,

substituyendo por los varores ya

xl0O=27

EI coeficiente de variación se calcula generalmente sobre la media aritmé-r.: o.el tanto porcientoque ladesviacióntípica ¿" i, ", aber, cuál de dos o óás J¡rii¡O*irn.r', es menos varia_ las variabres en las que hay cero absoruto, razón por ra que en la mayoría de ras variabres psicorógicas y pedagágicas no se recomienda.

interpr dia aritmética. Se ble' su uso se lim tica.

Sue,le

10.99.

LA ASIMETRIA.

La asimetría es o ística que, además de Ia tendencia central y la variabilidad, ayuda a comp se disiribuyen los valoies de una variable. una distribución es simétrica varores de su varor centrar;encaso contrario será asimétrica. La simetría perfecta"quidistan solo ocurre teóricamente, y por ex-

cepc

ión, en la

práct ica.

La asimetría puede ser de dos tipos: negativa o hacia a Ia izquierda y positiva o hacia la derecha. Es negativa cuando rnu-d. lur rrrá, ie la curva seex tiende más sobre la izquierda; y es positiva cuando una de las ramas se extiende sobre la derecha.

máE

160 t

l_ La asimetrÍa de una distribución se hace en comparación a la curva norma que es simétrica. Grál'icamente se puede expresar así:

I

16. a

Figura No.16

Distribución simétrica, como la que indica la fig. 16.a en la que los valores y frecuencias se distribuyen simétricamente respecto del valor central. en la que lo tendida sobre la izquierda. ra que tos vatores no se disrribuyen

tendida sobre Ia derecha.

como la que

se indica en la fig. 16.

b

icamente, y una de las rarnas está hás ex-

simétric#:[:]i,iH'd""'ljj1H:r':jU'^]3

X:

Son muchos los factores que influyen en la asimetría de una distribución; por ejemplo: instrumentos de medida impertectos, muestra poco representativa, influen cia del tactor subjetivo, Ia manera especial de conducirse un fenómeno, etc. Solo eñ

condiciones estrictamente ideales se puede encontrar una distribución simétrica. En síntesis, la asimetría consiste en el alejamiento, en más o en menos, de losvalores de una distribución empírica respecto de la forma simétrica de Ia curva normal dedistribuc ión.

1:

10 .99. Cálculo de Ia asimetría: De varias maneras se puede calcular Ia asimetría de una distribución, por ejemplo, mediante el momento central de tercer orden, o sea el cubo de las desviaciones de los valores de la variable respecto de la media aritmética. También mediante Ia desviación cuartilar, habida cuenta que en una

distribución normal los cuartiles 1o y 3o equidistan de la mediana o cuartilsegundo y en la medida que esta relaci6n difiera se conformará una mayor o menor asimetrÍa. Por otra parte, como en una distribución normal simétrica, Ios valoresde

rl

16r

tendencia central (media, mediana y moda) coinciden, se puede tomar Ia relaci6n entre la media y la moda para calcular la deformación. En este caso Ia asimetría se expresa por:

Sk = X -

(27)

Mo

en la que:

Sk =

asimetría (de skewness, nombre en inglés).

X =

media aritmética.

Mo =

moda.

Como la diferencia es algebraica, puede resultar de signo positivo(asimé-

trica positiva) o de signo negativo (asimétrica negativa), según que la media sea mayor o menor que la moda, respectivamente.

dia =

58.

Ejemplo: en nuestra distribución de la tabla ll, y con los valores de la mey moda = 53,|a asimetría, substituyendo en la fórmula 27, seríaz

Sk=58

53 -5.

que nos dice que la distribución es asimétrica positiva, esto es, los valores se extienden más sobre la derecha o por encima de la moda, Esto lo podemos comprobar observando las figuras 3, pág. 62 ¡ y 7 , pá9. 66

L0.99.2:

Coeficiente de asimetría de Pearson. La asimetría dada por la

ivamente, de preferencia fórmula 27 estáen térmi cuando se desea comparar la asimetría de dos o más distribuciones, se utiliza el coeficiente de asimetría de Pearson, que es:

S'=

X-Mo O_

-

(28)

rJ

en la que:

Sr

=

coeficiente de asimetría de Pearson.

X

=

media aritmética.

Mo =

moda

L62

O

=

desviación típica.

En nuestra distribución de la tabla

s,=

58-53 t5t

75

=

ll,

sería:

0'32

El valor numérico de comparación de este coeficiente es así:

Si S'es igual que cero, indica simetría. Es el caso de cuando la media

y

fa moda coinciden.

Si S' es menor que cero, indica asimetría negativa. Es el caso de cuando la media es menor que la moda. Si S' es mayor que cero, indica asimetría positiva. Es el caso de cuando Ia media es mayor que Ia moda. Para cerrar este tema, damos a continuación un modelo de cuadro o tabla estadÍstico que sirve para los datos y operaciones de los valores de tendenciacentraly variabilidad, especialmente cuando se usa una distribución de valores agrupadosen intervalos de amplitud constante y se procede conforme al método abreviado. Estecuadro como se verá, es un resumen de las tablas ya vistas y evita calcularlos separadamen-

te.

,J

163

I

NT ERVA LOS

Con los datos consignados en una tabla que contenga las columnas

de la

anterior, podemos calcular:

6¡ »

a) La tendencia central, asÍ: 1) La media: columnas números 2,3, La moda. Columnas 1, 3. La mediana: columnas L,3, y 4¡

y1

b)

»

Los cuartiles y percentiles: columnas

5,

-

y

L, 3 y 4.

c) La variabilidad, así: 1) La desviaci6n media: columnas La desviación típica: columnas 2, 3, 5, 6, 7.

2,3,5,y 6¡ -

,rl

I

164

l

EJERCtCto l0 ca lc

I. 2. 3. 4'

u

le:

con ros datos de Ia distribución que hemos dado en er ejercic io

La amplitud semiintercuartil. Use la fórmula

L6, pág,

,

La desviación media. Use la fórmufa

lB,

La desviación media. Use Ia fórmula

20, pág. 14L .

pág

134

7

'

9. 10.

y

sumando

r. indica en 10,73,

La desviación

típica.

Use la fórmula

22, pág.

La desviación

tÍpica.

Use la fórmula

25, pág. 155.

147

,

Compruebe si en dicha dístribución, restando y sumando una desviación la media aritmética, Ios puntos encontrados déjan

síer 68.,/"Je

tÍpica

l;;;;;;..

a

Verifique Ia exactitud del cálculo de la desviación típic.a, mediante la comprobación de Chartier. proceda como se ind¡ca en tó .é\i-iai.1if.- " Coeficiente de variación. Use la fórmula Haga un cuadro

26, página I5g.

otabla como er que se da en Ia página

la distribución del ejercicio 6.

11.

131

Compruebe si dicha distribución es aproximadamente normal, restando una desviación media a Ia media aritmética. Proceda.oro

entre

B'

pág.54

.

pág ina

5. 6.

6,

L63 , y resuma en él

coeficiente de asimetría de pearsonr use Ia fórmura28, página

16r

.

4

TEMA XI

ll.l:

ll.2: ldeo elementol Ecuoción de lo curvo

Curvo de distribuci,ón.

de lo curvo normol.

lI.2l:

normol. Grólico. 11.22: Propiedodes de lo cu¡vo normol. Il.3: Puntuociones típicos o stondord. ll.3 l: Areos bolo !o curvo no¡mol. Toblo. ll-4: E¡emplos de problemos que se resuelven or los óreos de lo curvo normol . E jercicios.

f{t

t66

11.1:

CURVA DE DISTRIBUCI0N.

Si nos fijamos en Ia distribución de la tabla ll y en las gráficas correspon3, 7 y B), podremos advertir que el fenómeno de que se trata, esto es,

dientes (figs.

puntuaciones alcanzadas por un grupo de alumnos en una prueba de Ciencias Naturales,

es un rasgo que no se halla repartido por igual entre los sujetos de ese grupo. Es fácil ver que entre los punteos 16y 99 hay toda una variedad de puntuaciones. La gráfica misma nos dice que un fenómeno de este tipotiende a formar una curva que seaproxima a la figura de una campana. Esta torma acampanada es Io que se llama curva de distribución y viene determinada porque los valores no se reparten por igual. Cuandoel grupo que sirve de muestra es representativo de la población, esta,curvatiendeasersimétrica notándose que la mayor frecuencia de valores se agrupa en torno a un punto medio y quedando en los extremos los casos menos numerosos. No todos, pero sÍgran parte de los fenómenos que hemos denominadoátípicos, se reparten en forma acampanada. A efecto de estudiar másafondo tasdistribuciones acampanadas se introdujo en Estadística la curva normal o curva ideal de estetipo de fenómeno§'. Vamos a ver/ somera y elementalmente en qué consiste dicha curva.

Ll.2:

IDEA ELEMENTAL DE LA CURVA NORMAL.

Se llama curva normal a la expresión gráfica de una ecuación matemática, que da lugar a una distribución teórica de frecuencias llamada distribuciónnormal. Esta distribución es, entre las teóricas, la que más se presta al estudio de fenómenosempíricos de tipo acampanado y se le ha definido como ¡rla descripción más probable de las frecuencias de ciertos acontecimlentos naturalesrr. Llamar normal a esta curva no indica, en r¡gor/ ninguna normalidad; el ca-

Iificativo es más cuestión de costumbre.

ella, pero es evidente síse comporten así.

yen conforme a

riables que

No todos los fenómenos atípicos se distribuque en psicologíay pedagogíaexistenmuchasva-

Lr..2l Ecuación de la curva normal. Qáfjqa, Al decir que la distribución normal es teórica, se quiere indicar que no es rETni Empírica, sino matemática;y tiene por ecuación la siguiente:

Y = Yo

_22

.e

2

e9)

en la que:

y

=

yo =

la ordenada correspondiente a un cierto valorrrz'r.. la ordenada máxima que corresponde a la media aritmética.

¡ri

167

e=

la base de los logaritmos neperianos. EI número'rerrvale

z=

2.71828.

puntuación típica o valor expresado en términos de la desviación

típica. La puntuación típica, que se denota por ¡lzrr (zeta minúsculd se obtiene mediante la f6rmula:

z==Xi - X

x

frr

en Ia que:

(30)

Xi

=

puntuación directa o valor directo en la variable; p.e.: ción 65 en un test.

X

= = =

media aritmética de la distribución.

r x

la

puntua

desviación típica de ladistribución.

(equis minúscula), puntuación diferencial o difeiénciaalgebraica entre una puntuación directa Xi menos la media aritmética.

La distribución normal tiene, por representación gráfica, normal, la siguiente:

o sea la curva

rt

168

I

L1.22,:

La distribución normaltiene las

propiedades o caracte

1.

Todas las ordenadas son siempre positivas.

2.

Es unimodal.

3.

Es simétrica respecto de su ordenada máxima, o sea, Ia ordenada que corresponde a Ia moda.

4. 5.

La media aritmética es igual a cero

y la desviación típica igual a uno.

Los valores de tendencia central coinciden, o sea que media aritmética =

mediana

= moda.

6.

La suma de todas las frecuencias o área total bajo la curva es iguala la unidad.

7.

Entre dos valores fijos queda siempre la misma área o número de casos.

B.

En el intervalo definido entre una desviación típica por encima y por debajo de la mediá aritmética, queda comprendido el 68"/" de los casos; o sea:

X 11.3:

t Í = 68%

PUNTUACIONES TIPICAS.

Si a un valor Xi cualquiera de una distribución de ftecuencias restamos la media aritmética y dividimos la diferencia entre la desviación típica, el valor obtenido se denomina puntuación típica. A la diferencia entre ese valor Xi y la media aritmética se le llama puntuación diferencial. Es decir, también, que una puntuación típicaesun valor empírico o puntuación directa expresado en términos dé variabilidad oenunidades

típicas. Paraobtenerlapuntuacióntípicadeunvalordirectobastasubstituirenlafórmula 30. (páS. L67 ). La puntuación típica puede ser negativa cuando el valor directo es menor que la media aritmética; igual a cero, o positiva.

,¿

Por ejemplo: en un test un alumno obtuvo la calificación Xi = 80, siendo = 10. La puntuación típica de este alumnose-

la media = 50 y la desviación tfpica ria,:

B0-50 10

30 10

_-

tl

L69

En este ejemplo, la puntuación típica 3 es positiva y nos indica que el asuperior a la media aritmética en 3 desviaciones típicas Iumno es

Dicha puntuaci6n'tz't también puede ser negativa, por ejemplo,

X=50 ,Í

si Xi =20

= 10. Esdecir:

z:

20 - 50

En este ejemplo, z

10 =

-3,

=

-30 10

-3.

nos indica que el alumno es inferior

a la media

aritmética en tres desviaciones típicas. La puntuación típica también se Ilama rrsigma de un sujetorry tiene, entre. otras ventajas, su significado universal y que permite Ia comparación de dosomás va-' lores de una distribución en las mismas unidades, o de dos o más distribuciones'Se interpreta como el número de signas ro desviaciones tÍpicas a que se encuentra una puntuación directa Xi por encima o por debajo de la media aritmética. Veamos un ejemplo sobre lo dicho: al alumno M Ie fueron aplicadas las ptuebas rrArr y rrBrr. En la prueba rrA'r obtuvo 42 puntos y en la prueba "8"32 puntos. Tenemos, pues, las siguienles puntuaciones direclas:

XA = 42¡ Xg = 32. En la prueba "A", la media aritmética es 30 y la desviación típica 12; y Aunque aparentemente el en la prueba rrB't, la media es 20 y la desviación típica alumno es superior en la prueba "At', la comparación solo será rigurosa en términosde la variabilidad, o sea, en puntuaciones típicas. Tenemos entonces, losdatossiguien-

6.

tes:

Prueba 'rA'r Prueba

rrB'l

XtrXi 30 12 20632

42

Obteniendo primero las puntuaciones diferenciales (x) tendremos:

xA = X4 - XA = 42- 30 =

L2.

,-t

170

Por Io que se ve, el alumno M tiene igual puntuación diferencial en ambas pruebas, siendo Superior a la media aritmética en las dos; petot ¿podemos decir que estas puntuaciones significan lo mismo? ¿que es tan superior en la prueba "A'r como en la prueba "B'r?. Para responder, debemos reducir las puntuaciones diferenciales a típicas, y, substituyendo según indica Ia fórmula 30, tendremos:

zA -

A

l2

O

L2

*B

z3= o

L2

-1

- z.

Los resultados anteriores nos dicen que en la prueba "A" el alumno M es superior a la media aritmética en una desviación típica; y que en la prueba 'rB"es superior en dos desviaciones típicas. En resumen, el alumno M es superior en la prueba t'Btt respecto de la prueba I'A".

Tabla. La tabla que damos a conti11.3I: la curva normal. Es de doble entrada, nuación (*) se conoc rrzrl así: en la primera fi Ia y en la primera columna contiene las puntuaciones típicas indicadas por x/Ü, y er el cuerpo de la tabla los porcentajes de casos que corresponden a las puntuaciones típicas. La tabla ha sido construida para dar el número de casos que se hallan entre la media aritmética y el valor tÍpico indicado por la fi la y lacolumna, enunamuestra de I0,000. Los valores del cuerpo de Ia tabla suelen interpretarse como probabilidades o como porcientos. En el primer caso se consideran como decimales, esto es, anteponiéndoles a cada uno el punto decimal. En el segundo caso basta con separar dos cifras de izquierda a derecha. Como Ia distribución normal es absolutamente simétrica, el área comprendida entre Ia media aritmética y la puntuación típica 'z = 1.00 es Ia misma que Ia rrzrr es positiva indicará el comprendida entre la media y la puntuación z = -1.00. Si número de casos que están a una desviación tÍpica por encima de la media; si esnegativa, el número de casos que están a una desviación tÍpica por debajo de la media.

(.)

Nota Ímpoft'ante: La tabla en mención la he tomado del Cu¡so de Estadfstica y Psicometrfadel Docto¡ Mariano Yela. Universidad Central de Madrid. España,

r.T

171

]'ABLAxxxv AREAS BA'O

x

IA

CIJRVA NORMAL ENTRE LA MEDIA YUN VAIOR TIPICO DADO

00

01

02

0.0 0. 1 o.2 0. 3 0.4

0000 0398 0193 11? I 1554

0040 0438 0832 t2r1 1591

0080 0418 08?1 1255 1628

0.5 0.6 0. ? 0.8 0.9

1915 2251 2580 2881 3159

1950 229t 2611 2970 3186

1985 2324 2642 2939 3272

1.0 1. 1 1.2 1.3 7.4

3413 3643 3849 4032 4792

3438 3665 3869 ¿¡49 4207

3461 3686 3888 4066 4222

1.5 1.6 1.1 1.8 1.9

4332 4452 45s4 4647 4173

4345 4463 4564 4649 4179

436't 43'10 4414 @4 613 +582 4656 4664 4'126 4132

2,0 2.1 2.2 2.3 2.4

4112 4821 4a61 ,1893 4978

4118 4A26 4€64 4896 4920

4783 4830 ,1U68 4898 4922

2.5 2.6 2.1 2.8 2.9

4938 4953 4965 4974 4987

4 0 4941 4955 4956 4966 4967 4915 49't6 4 2 4982

0

3.0 4986.5 4986.9 4981.4 s.t 4990.3 4990.6 4991.0 3.2 4993.129 3.3 4995. 166 3.4 4996. 631 3.5 4991.614 6 s.l 3.8 3. I 4.0

4998.409 4998.922 4999.211 4999.519 4999.683

4.5

4999.966

5.0

4999. 99?133

3.

.03 0120 051? 0910 1293 1664

20L9 2351 2673 2961 3238 3485 3?08

3m? 4¡82 4236

4't88 4€34 4a?1

4901 4925

4943 4951 4968 4977

4983

04

0160 055? 0948 1331 1?00

.05

06

.0?

08

1?36

02s9 0636 1026 1406 1112

0279 06f5 1064 7443 1808

0319 0114 1103 1480 Lg4l

2054 2389 2104 2995 3264

2088 2422 2'.r34 3023 3290

2t23 2454 2164 305 1 3315

2151 24a6 2194 30?8 3340

2190 25L1 %28 3106 3365

3508 3'.129 3925 4099 4251

3?49 3944 4265

3554 3??0 3962 4t31 4279

357? 3790 3980 474't 4292

3509 3810 s997 4762 4306

43 4505 4599 4678 4'.144

4406 4515 4608 4686 4750

4418 452s 4616 4693 4156

4929

4803 4É46 4881 4909 4931

4808 4850 €84 4911 4932

4946 4960 4910 4918 4984

4Ct8 4949 4951 4961 4962 4963 49?1 4912 4913 49',19 49?9 4980 4985 4985 4986

438 3

4495 4591 4671 4138

4194 4838 4375 4904 4921 4945 4959 4969 49'.11 4984

4987.8 4988.2 4991,3 4991.6

01 99

0596 0987 1368

3531

4115

4798

4a42 48?8 4906

4429

.09 0359 0753 1141 151? 18?9

2224 2549 2852 3133

3389 3621 3830 4015

411't 4319 4441

11535

4545

4625 4699 4'16r

4633 4106

4a12 4854 4887 4913 49

4988.6 4988.9 4989.3 4989.? 4991.8 4992,1 4992.4 4992.6

4'.t6'.1

481? 4É51

4890 4916 4936

4952 4964 49't4 4981 4986

4990.0 4992.9

Él

!72

Para manejar la tabla de la curva normal, hemos de leer en fi la y columna el valor típico rrzrrdado; y luego, ver en el cuerpo de la tabla el númerodecasos

o porcentaje correspondiente.

Ejemplo: hemos hallado una puntuaciónz= 0.5; buscamos en laprime0.5 y en la primera fi la el valor 0.00; vemos en el cuerpode la

ra columna el valor

tabla el punto donde se cruzan Ios valores 0.5 y 0.00, hallando que es 1915; este valor, expresado en probabilidades es 0.1915 y en porcientos 19.15"/", Sepuede decir, entonces, que entre la media aritmética y la puntuaci6n z = 0.5 estácomprendido el 19

.

l5'/"

de casos.

I.B +

0.05. Buscamos Otro ejemplo: hemos hallado que z = 1.85 = en Ia primera columna el valor 1.8 y en la primera fila el valor 0.05. Elpunto donde se cruzan nos da el valor 4678 que en porcientos es 46.78h¡ es decir, entrela media y la puntuación z = 1.85 queda el 46.18'k de los casos. En los ejemplos anteriores hemos asignado a 'rz" el signo más; pero si fuera negativo, se interpretaría como porciento de casos por debajo de la media hasta el valor rrzI dado.

LI.4: EJEMPLOS

DE PROBLEMAS QUE SE RESUELVEN POR LAS AREAS DE LA CURVA NORMAL.

La aplicación de la tabla XXXV, que da el porciento de casos comprendido entre la mediay una puntuacióntípica dada, procede siempre que se sepaquela variable o fenómeno estudiado se distribuye aproximadamente en forma normal.En tal sentido, los problemas a los que se aplica son, en general, de losdostipossiguien-

.

tes:

1) Dado uno o más puntos de la distribución, averiguar que les corresponden. (Problema directo),

las

2) Dada una o más frecuencias, averiguar los puntos de que les corresponden. (Problema inverso).

frecuencias

la distribución

Además de estos casos generales, que a su vez se subdividen casos, está la aplicación de la curva en el interesante caso de:

en

nueve

3) Distribuir un grupo de sujetos en grupos menores o subgrupos, de acuerdo al rendimiento o capacidad en un rasgo dado.

rJ

t73

Para no salirnos de lo elemental de estos apuntes, vamos a resolver solamente dos subcasos del caso 1; y dos del caso 2, mediante los ejemplos siguientes:

a) Dado un punto, averiguar Ia frecuencia de casos que está por debajoo por encima de dicho punto. Ejemplo: en una muestra que se distribuye normalmente, que tiene media = 40 y desviación típic¿ = 7, averiguar Ia freouencia que está por debajo y por encima de la puntuación directa Xi = 50. Lo primero será transformar la puntuáción50en puntuación típica. Substituyendo en Ia fórmula 30:

50-40

= I0/7 =

L'43.

Ahora debemos ver en Ia tabla qué valor corresponde a Ia puntuazión

z

1.43¡ buscamos 1.4 en la primera columna y 0.03 en la primera fila, pues !.43== 1.4 + 0.03. EI punto donde se üuzan es 4236 = 42,36%, pero 42.36 es el porciento de casos entre la media y Ia puntuación z = L.43. C omo la distribución es

simétrica, a ambos lados de la media queda

el 5o"h de los casos, de modo que hasta

l.43hay 50 * 42.36 = 92.36%. Se puede asegurar entoncesquepordebajo de z = I.43 queda el 92.36% y por encima 10O.O0 - 92.36 7,6,4"/"'queson, = z=

respectivamente, las frecuencias por debajo y por encima del punto dado.

b) Averiguar Ia frecuencia dia¡ 2)

que queda entre dos valores dados.

Pueden suceder estos casos: I) ambos valores están por debajo de Iameambos valores están por encima de la media; y la med¡a queda entre am-

3)

bos valores.

Ejemplo: 1: en una muestra que se distribuye normalmente, con media = 40 y desviación típica = 7, averiguar el número de casos o frecuencias que tienen puntuaciones comprendidas entre X1 = 25 y X, = 35. Transformando las puntuaciones directas en típicas, serán:

r-J

25-40 =L

zz=

7

35-40

=

n5/7

=-2.L7

- -5/7 = -0.77

t74

Vemos que ambas puntuaciones son negativas/ es decir, están por debajo de la media. Hallamos en la tabla los porcientos que corresponden a esas puntuacio-

nes típicas, siendo: para -2.17 el 48,507" y para - 0.71 el 26,l1-h,Ahora bien estos porcentajes son Ios comprendidos entre Ia media aritmética y las puntuaciones 'rzrrdadas. Es natural, entonces, que la frecuencia o porcentaje de casosentreambos puntos sea la diferencia de porcentajes, esto es: 48.50 - 26,lL = 22,39"/",loque significa que entre las puntuaciones 25 y 35 queda 22.39'/" de casos.

Si ambas puntuaciones hubiesen salido positivas/ o sea, por encimade Ia media, se procedería de igual manera/ es decir, haciendo la diferenciade porcentajes. Ejemplo

2:

en una muestra que se distribuye normalmente, con media iguaf

40 y desviación típica igual 7, averiguar la frecuencia o casos que tienenpuntuaciones comprendidas entre XL= 25 y X2= 55. Transformando las puntuaciones directas en típicas, serán:

zL= z2=

25-40 7

55-

40

= -15/7 = -2.L7

= l5/7 =

2,17

Vemos que siendo las puntuaciones una negativa y otra positiva, la media queda entre ambas. Hallamos en la tabla el porciento que les corresponde, siendo para- 2.17 el 48.50"/oy para2.l7 también el 48,50"/". Pero como -2.L7está por debajo de la media y 2.L7 por encima, el porcentaje de casos entre esos puntoses Ia suma de porcentajes, o sea 48.50 + 48.50 = 97.00"/".

c)

Averiguar el punto que está por debajo o por encima de una frecuencia

dada. (lnverso del caso a). Puede

que'sea inferior

al

ocurrir: 1) que la trecuencia dada supere al 50"/" de casos;

y

2)

50"/".

tl

1:

en una nluestra que se distribuye normafmente, averiguar el punto que deja bajo si el 68"/" de casos, siendo la media = 40 y la desviación típica Ejemplo

igual a 7. Primero vemos que

68l" = 50%

+

1B%; buscamos ahora en el cuerpo

L75

de la tabla el área que esté más próxima al lB%= f AOO hallando que es 1808 por exceso. Como t80B está en la intersección de 0.4 (Ia. columna) y 0.07 (1a. fila), diremos que le corresponde el valor típico z = 0.47. Por la fórmula 30 sabemos que: v

i z = -= 0-

;

ii)x= Xi -X;

luego,

x = 2.0- = 0.47 x 7 = 3.29

luego,X¡

=X+ x=40+3t29=43.29

Es decir, que 43.29 es la puntuación que deja bajo sí el6B"h sos; y sobre él queda el 32"/" restante.

de los ca-

Ejemplo 2: en una muestra que se distribuye normalmente, con media = 40 y desviación típica = 7, averiguar la puntuación que deja bajo sí el 33"/.de los casos. Vemos que 33"/" es menor que 50%¡ el punto que buscamos está dado por aquel valor que, con la media, deje comprendido el L7"/" de los casos. Vemos enelcuerpo de la tabla cuál es el valor más próximo a 1700, hallando que es exactamente elde puntuación Entre z = -0.44 y la media queda el l7"hde casos; luego, z 0.44 es superior o deja bajo sí el 33"/" de casos. Por la fórmula 30 sabemos que:

--

z='0.44.

x=2.0--(-0.4qx7=-3.08 x = Xi -X - -3.08 Xi = X*x = 40 + (-3.08) = 36.92 Es decir,

36.92 es la puntuación directa que deja

bajo

síe\33% de los

casos.

d)

Averiguar los puntos que dejan entre

sí una frecuencia dada.

(inverso

del caso b).

Ejemplo: en una muestra que se distribuye normalmente, con media aritmética = 40 y desviación típica = 7, averiguar los puntos que dejan entre sí, a ambos lados de la media, el 5B'h medio de los casos.

-

A cada lado de Ia media quedará 58 ¡ 2 29T" de los casos. Buscamos en el cuerpo de la tabla el área más próxima a 29.00 y nos da el valor 29.L0 porexce so, que le corresponde la puntuac i 6n z = 0 . B 1.

-

=

t-t

L76

Como la distribución es simétrica, tendremos que:

z-I = ,Z =

0.81 0.81

Hallamos ahora las puntuaciones diferenciales

(x), sabiendo que:

xI = -0.81 x 7 = -5.67 0.81 x7 = 5.67 x2= Y las puntuaciones directas:

*1 = 40 + G5.67) = 34.33 *2 = 40 + 5.67 = 45,67 Entre

34.33 y 45.67

queda

el

5B"h medio de los casos.

r!

t77

Ejercicio 11

INSTRUCCI0NES. Utilice la tabla XXXV para resolver los ejercicios siguientes:

1. 2, 3. 4. 5. 6, 7,

z = a la puntuación z = a la puntuación z =

¿Qué valor corresponde a la puntuación

1.00?

¿Qué vafor corresponde

2.58?

¿

Qué valor corresponde

1.96?

¿A qué puntuación típica corresponde el valor 3920?

¿A qué puntuación típica corresponde el valor 4484? ¿A qué puntuación típica corresponde el valor 0120

?

En una muestra que se distribuye normalmente, con media aritmética = 5By des = 16, qué porcentaje de casos quedan por debajo de lapuntuación

viación típica

Xi = 74.

B.

En una muestra que se distribuye normalmente, con media aritmética = 5By des= 1-6, cuál es la puntuación que deja bajo sí el 43"/" de casos.

viación típica

9. 10.

En una muestra que se distribuye normalmente, con media aritmética = 58ydesviación[Ípica = 16, qué porcentaje de casos queda entre las puntuaciones35y 80. En una muestra que se distribuye normalmente, con media aritmética =58 y des16, averiguar las puntuaciones que a ambos lados de la media dejan el 68"/" de casos.

viaci6n típica =

rl

I

TEMA XlI

I2.l:

Vo¡ioble bidimensionol.

12. t I r

:

Concepto

de

co¡relo-

ción. I2.2: Tipos o cloies de correloci,ón. 12.21: Cor¡eloci,ón simple. 12.222 Cor¡eloción y función motemótico. 12.3: El coe{iciente de co¡reloci,ón. 12.4: Cílculo del coeficignte de co¡¡eloeión simple lineol. 12.41: El coeficienie de correloción

en toblo de columnqs. 12.422 El coeficienle de correloci,ón cuondo se uso toblo de doble entrodo. I2.5: Coeficiente de correloci,ón o¡dinol. 12.6: Valo¡ocíón 'del ce ficiente "r" de correlqción. Eiercicios.

tÉ¡

L79

L2.lz

VARIABLE BIDIMENSIONAL.

Qtro de los aspectos importantes del análisis estadÍstico, es el que se refiere a la relación que existe entre dos o más rasgos o fenómenos; o sea, tratar de medir hasta dónde son comunes dos o más variables. Por ejemplo, conocer si hay relación entre el peso y la estatura de las personasi entre el peso y la edad, o entre la inteli-

gencia y el rendimiendo escolar, etc. Cuando en una misma muestra o grupo de sujetos se estudia larelación entre dos rasgos distintivos, se dice que se está estudiando una variable bidimensional. Si los datos los escribimos en una tabla que contenga los valores de ambasvariables y las frecuencias, tendremos una distribución bidimensional de frecuencias. Esta tabla recibe el nombre de tabla de doble entrada, en la que, en un reticulado, seescribenlos datos asÍ: en sentido horizontal (abscisas) los valores de una variable; y en sentido vertical (ordenadas) los valores de la otra variable. En el cuerpo de la tablase escriben las frecuencias de cada par de valores.

Generalmente, cuando se iestudia una distribución bidimensional de frecuenciaS, o simplemente dos variables, Se trata de conocer la conexión o grado de asociación que puede existir entre los fenómenos. Esto se estudia a través de Ia corre-

lación, para obtener un índice numérico que indique el grado de esa asociación.

12.L]-: Concepto de correlación. La correlación pgede conceptuarsecomolatendenciadedosffiiarconcomitantemente.Siloscambiosen

las variables son concomitantes, entonces puede decirse que entre ellas hay correlación. Es natural que a mayor covariación corresponde úayor correlación. Unejemplode fenómenos que varían concomitantemente es este: la estatura de las personas aumenta de acuerdo a la edad cronológica, por lo menos hasta Ia edad de 25 años. Quiere decir, entonces, que hay relación entre los cambios de una variable (edad) y losdela o-

tra.

(estatura)

Aunque inicialmente el estudio de la dependencia de dos variabhs no sp llamó correlación sino regres¡ón, corresponde a Galton la paternidad de lacorrelación. El coeficiente de correlación, o sea el índice numérico que dá la cuantfa de laasociación entre dos variables, debe su desarrollo a los trabajos de Yule' Edgeworthy Pearson.

l-2.2t

TIPOS 0 CLASES DE CORRELACI0N. Hay varios tipos o clases de correlación, según

la asociación que exista

entre las variables. En estos apunles trataremos solamenLe Ia correlación simple neal.

li-

rl

180

L2.21: Correlación simple. En este tipo de correlación se estudian dos variables nada más, de las cuales una es independiente y la otra dependiente. En la correlación simple se distinguen dos modalidades: Ia lineal y la no lineal. La correlación simple lineal o rectilÍnea consiste en que los cambiosde la variable dependiente respecto de Ia independiente, están en relación constante. Puede ser, a su vezl positiva o negativa. La correlación simple Iineal es positiva cuando

al crecer o

decrecer una

variable, la otra también crece o decrece. Por ejemplo, la relación que existeentre la fongitud cje la circunferencia y el diámetro de la misma: si aumenta el diámetro también aumenta la longitud; y si disminuye el diámetro también disminuye la longitud. La correlación simple lineal es negativa cuando al crecer una variable la otra decrece, o viceversa. Por ejemplo, la relación que existe entre la presiónejercida sobre un gas a temperatura constante y el volumen del gas: al aumentar fa presión disminuye el volumen; y si disminuye la presión aumenta el volumen.

12.22t Correlación v función matemática. Tanto en la correlación como en la función matemática se trata de la relación que existe entre dos variables, pero hay una diferencia quedeberesaltarse: mientras que la correlación expresa latendencia de dos fenómenos a variar concomitantemente, la función expresafarelaciónmatemática que liga a las variables. La correlación se usa en las ciencias no exactas porque se desconoce la relación funcional entre los fenómenos. Por la mismaraz6n, en ciencias exactasnose habla de correlación sino de función matemática. Por ejemplo: la relación entreeldiámetro y la longitud de la circunferencia se expresa matemáticamentei pero la relación entre Ia edad y el peso de las personas no se puede expresar con rigor matemático. Ahora bien, como es necesario conocer en alguna forma esa relación entre losfenómenos atípicos, se recurre a un índice numérico que se llama coeficiente de correlación.

72.3:

EL COEFICIENTE DE CORRELACI0N.

El coeficiente de correlación sirve para expresalnuméricamente, la relación o asociación entre dos variables estadísticas. lndica, en general, elgradoenque los valores (medidas) de dos variables tienden a variar coniuntamente en torno de las med ias arit-méticas respectivas. Su valor numérico varía en el intervalo -1 .00 a 1. 00 . El coeficiente se denoia por [a letra rrr'¡ y se escribe r¡y qüe se lee: coeficiente de correlación entre las variables X e Y. Según su valor, puede ser:

r=r= r=

1.00 0.00 1.00

que indica correlación perfecta negativa. que indica correlación nula. que indica correlación perfecta positiva.

rJ

181

En la práctica no existe la correlación perfecta; y solo por remota excepción se encontraría. El valor numérico del coeficiente es,por locomún, decimal, expresando que Ia correfación es imperfecta, ya sea negativa o positiva. Será meno3 imperfecta cuanto más se aproxime a la unidad. En la figura 17 podemos ver el campo numérico de posibles valores del coefic iente:

Valores positivos

Valores negativos

-1.00 -o9 -0.8 -0.7 -0.6

Figura

{.5 -04 -0.3 -O2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.? 0.8 0.9 1.00

17:

Campo numérico de posibles valores del coeficiente de correlac ión.

12.4t

CALCUL0 DEL COEFICIENTE DE CORRELACI0N LINEAL SIMPLE.

El procedimiento más empleado es el del método de Pearson. Para suobtención consideraremos los casos siguientes:

a) b)

Usando tabla de columnas. Usando tabla de doble entrada.

L2,41:

El coeficiente de correlación en tabla de columnas.

La tabla de columnas se usa, generalmente, cuando los datos o medidas en las dos variables están en forma de serie simple, y siempre que nd sean muchos. Se obtiene aplicando la fórmula:

rxy

=

2x.Y r,l.

r.-Jt

(31)

ar. ry

en la que:

rxy =

coeficiente de correlación entre las variables X e Y.

182

2*.y

= suma algebraica de los productos de las desviaciones (x) en la variable X, por las desviaciones (y) en la variable Y, respectode las medias aritméticas respectivas.

0-x

desviaci6n típica o standard de la variable X.

ry

desviación típica o standard de la variable Y.

N

número de casos.

La fórmula

31 puede simplificarse

(también es demostrable matemáticamen-

te) en la siguiente:

2x.v txY

2x4 (

(32\

Zv2t

en la que, en el denominador, está laraíz cuadrada del producto de multiplicar entresí las sumas de los cuadrados de las desviaciones respecto de la media en ambasvariables. Esta fórmula es exactamente Ia 31 y resulta más cómoda. Para el cálculo del coeficiente de correlación hemos de disponer los datos, en una tabla de ocho columnas, así: Columna Columna Columna

es

1: 2: 3:

contiene los individuos de la muestra. contiene los valores de la variable X. contiene los valores de la variable Y .

Con estos datos calculamos la media aritmética de las dos variables, esto formaremos las demás columnas en el orden indicadoa con-

X y Y; y seguidamente

li nuac ión:

(il de los valores de la variable X respecto de Ia media. contiene las desviaciones (y) de los valores de Ia variable Y respecto de la media. contiene los cuadrados de las desviaciones de losvalores de la variable X. conbiene los cuadrados de las desviaciones de los valoresde la variable Y. contiene los productos de multiplicar entre sÍ, las desviaciones (x) por las desviaciones (y).

Columna

4: contiene las desviaciones

Columna

5:

Columna 6: Columna-

7:

Columna B:

rJ

193

l

Ejemplo: calcular el coeficiente de correlación simple lineal de Pearson, entre las puntuaciones de un grupo de 10 alumnos, en las pruebas de ldioma Castellano y Ciencias Naturales. Llamando X = puntuaciones en ldioma Castellano; eY = puntuaciones en Ciencias Naturales, tendremos:

TABLA XXXVI

x (21

ALUMNOS

(l)

Y (s)

x (4)

C.E.A.M. 18 10 1 o.c.A.s.111601010 M.R.A.G. 12 -5 17 L,G.A.R. 19 t4 2 L.A.A,M. 16 15 -1 F.N.A.G. t4 L2 -3 E.A.B.E. 15 11 -2 23 I.A.B.E. 16 6 R.H.B.S. tl 19 o M.E.B.L. 19 20 2 1701ó000t/-9816

y (5)

*2 (6)

-5 2 -t 0 -3 -4 1 4 5

_t_ (7)

x.y

|

25

-5

25 4 1 9 4 36 0 4

4 t 0 9 16 I 16 ?5

-10

(8)

-2 0

I 8 6 o 10

En este ejempfo:

X= Cx2*2 = 2x.y =

L7. 2.90 84. 16.

Y substituyendo en la fórmula 31:

V= @= ZyZ = N-

15.

3.13 98. 10.

ít

184

Y substituyendo en la fírmula 32;

=

0.176

resultado que nos dice que entre las puntuaciones en ldioma Castellano y Ciencias Naturales de ese grupo, hay correlación imperfecta positiva indicada por el coeficiente r= 0

.t7 6.

L2.42:

EI coeficiente de correlación cuando se usa tabla de doble entra-

da. Hemos visto la manera de calcular el coeficiente de correlación utilizando una tabla de columnas. Esa Labla es cómoda cuando los datos no son muchos;porejemplo, no más de 15 o 20. En caso contrario, conviene utilizar una tabla dedobleentrada que igual se aplica a series simples y a distribuciones de frecuencias.

tilizar

Para el caso de muchos valores y repeticiones de los mismos, conviene uIa tabla de doble entrada. Además, las desviaciones de los valores de Ia varia-

ble no se obtienen directamente o sea respecto de las medias verdaderas/

sino que

se

utilizan medias arbitrarias. Esto se hace así, generalmente, para facilitar el cálculo. Para formar una tabla de doble entrada nos basamos en losejescartesianos. Una de las variables se escribe en el eje horizontal y la otra enelejevertical, Siguiendo la notación de los ejes, la variable X se escribe horizonta'lmente y IavariableYverl t ica Imente

.

El cuadrante formado por los ejes X e Y se divideencompartimientosocuadritos; en la parte superior horizontal y en cada cuadrito se escriben cada uno de los valores de la variable X; y en la parte izquierda o vertical los valores de la variableY. Si los valores están sin agrupar, cada cuadrito de la escala Xy de la escaY contendrá un va.lor de cada variable; y si los valores está'n agrupados en intervalos, en cada cuadrito se escribirá un intervalo, esto es, Ios límites. la

Cuando se utiliza el cuadro de doble entrada y desviaciones respectode las medias supuestas/ el coeficiente de correlación se obtiene aplicando Ia fórmula:

,¡

185

2t.x'y'

á t\

r. u'\

N/

)

txY

o3)

en la que,

r= XY 2

coel'iciente de correlación entre las variables X e Y.

t.r'y'=

suma algebraica de los productos de Ias frecuencias por las desviaciones de los valores respecto de la media supuesta, en Iavariable X y en la variable Y.

) f. x' =

suma algebraica de los productos de las frecuencias por las desviaciones de los valores respecto de la media supuestaen Ia variable X.

I f. y' =

suma algebraica de los productos de las frecuencias por las desviaciones de los valores respecto de la media supuesta, en lava-

riabte

Z- f .x'2 =

y

por los cuadrados de las desviaciones respecto de la media supuesta en la va'riable

suma de los productos de las frecuencias

X.

Z t.t'2 N -

suma de los productos de las frecuencias por loscuadrados de las desviaciones respecto de la media supuesta en la variable y. número de

casos o suma de frecuencias.

Ejemplo: calcular el coeficiente de correlación simple lineal de Pearson,

mediante una tabla de doble entrada y conforme la fórmula (33)*, entre las puntuaciones alcanzadas por un grupo de 131 alumnos en las pruebas de Ciencias Naturales e ldioma Castellano, primer curso prevocacional. (t)

La fdrmula 33, que es la más cdmoda para e.l cflculo del coeficiente usando tabla de doble entrada,se deduce matemáticamente de la f6¡mula 31, El lecto¡ interesado en conocer la deduccidn, puede consultarl,a ob¡a "PsÍcometrfa y EstadGtÍca" del Dr, don Mariano Yela.

J.l

186

¡

Llamaremos = puntuaciones en la prueba de Ciencias Naturales e Y=puntuaciones en la prueba de ldioma Castellano. Los datos aparecen en la tabla o cuadro XXXVII siguien[e. Los alumnos están colocados por orilen alfabético, pero substituidos por un número ordinal. Como los pasos para este cálculo son más laboriosos, losdamosacontiñua; ción de los datos. El lector podrá observar que el proceso es idéntico al que se utiliza para el cálculo abreviado de la media y de la desviación tÍpica.

TABLA XXXVI! ALUMNOS X

IO 11

t2 13

l4 16 1? 18 20 27 22 23

26

29 30 31

35 3? 38 39

q

4L

42 43

44

Y

45 54 49 63 42 65 81 55 51 38 50 29 52 66 51 50 64 66 51 80 51 61 41 60 1t 't2 41 4't 64 58 55 68 52 't! 55 12 69 66 66 63 69 80 61 12 63 't4. 63 63 56 ?1 51 62 4? 38 50 15 ,I5 59 ?0 ?6 66 83 s9 53 58 73 54 60 64 60 69 ?8 404¡8121 40 31 52 25 4{! 3? 41 51 s04¿86?0 42 50 ?1 53

AUJMNOS X 45 46 41 48 49 50 51 52 53 54 55 56 s? 58 59 60 61 62 63 64 65 66 6? 68 69 70 ?1 '.tz 13 14 ?5 16 11 18 79 80

Y

ALT'MNOS

63 55 43

54

69 ?0

55

80

61

15 13 66 68

34

51

54

?0

6',t

50

53

't4 43

52

58

41

69

4'.1

41

?3

51

60

11

a2

65

5'I 't2

55 69

64

64

48

57

49

54

4l

61

't4

49 4',1

48

56

59

49

4t

',t8

56

16

4l 5?

53

42

62 42

82 83 84 85

62

59

61

5l

?6 66

64 50

81 88

41

59

38

6

FUENIE: secldD de Ev¡lu¿cióD Esol¡¡

89 90 91 92 93 94 95 96 91 98 99 100 101 t02 103 L04 105 106 10f 108 109 110 111 112 113 114 115 116 11? 118 119 L20 Lzl 122 723 L24 125 726 r2't r28 L29 130 131

X

Y

53 41 41 65 62 59 56 62 12 5? 56 45 51 46 50 52 52 42 73 5? 84 31 46 55 76 ,$ 68 60 52 75 60 4 ?1 80 51 41 61 60 69 ?7 51 59 80

4 33 54 61 36 52 60 s6 56 61 82 40

i3 62 3? 69 10

4 56 52 54

41 50 4? 65 50 60 63 58 55 36 64 58 ',r?

62

64 58

4 4l 61 50 69 ?0

t.d

187

Para calcular el coeficiente de correlación mediante una tabla de'doble en-

trada seguiremos los pasos siguientes: Paso l-: Consiste en un cuadro donde tabulamos las frecuencias de cada par de valores. La tabulación. puede hacerse por puntos o por tarjas. Este diagrama (que es la forma inicial de la tabla de dobleentrada) se hace así: sobre un plano cuadriculado y en la.primera fi la, escribiremos los

valores o intervalos de la variable X, de izquierda a derechay en sentidoascendente;y en la primera columna/ de arriba hacia abajo,y en sentido descendente Iosvaloresointervalos de la variable Y. Para la tabulación o registro de frecuencias localizamos los valoresen ambas escalas y en el cuadrito donde se crucen marcaremos un punto o una rayita; de esta cuenta, cada caso estará referido a dos valores o a los dos intervalos donde quede la puntuación dada. La nube de puntos o diagrama de dispersión de los datos de IatablaXXXV|l Ios vemos en la tabla XXXVlll. Ejemplo: para tabular Ias puntuaciones delprimeralumno, buscamos la puntuación 45 (intervalo 45 - 49) en la escala horizontal y la puntuación 54 (intervalo 50 - 5q en Ia escala vertical. En el cuadrito donde se cruzan estos intervalos marcamos un punto; y así sucesivamente.

-

Paso 2: Cuadro de correlación, Después de tabular los casos de cadapar de valores o intervalos, se substituyen los puntos o rayitas por el número defrecuéncia respectivo. Por ejemplo, (véase tabla XXXIX), en el cuadro donde se cruzan los intervalos 55 - 59 de la variable X y 50 - 54 de la variable Y, hemos escritoel númeto 6, para substituir los seis puntos que aparecen en ese cuadrito en el diagrama de dispersión; o sea, la frecuencia de ese par de intervalos es 6 por que seis alumnosobtuvieron calificaciones comprendidas en dichos intervalos. A partir de estepasosegundo, todas las operaciones se hacen en el cuadro de conelación, que damosen latabla

XXXIX. Paso 3: Fila v columna de frecuencias. tObtenidas las frecuencias para cada par de valores o de intervalos, se han de sumar las frecuencias de cada fila (sentido horizontal) para formar la columna de frecuencias que aparece con el número 1 en la tabla XXXIX; en igual forma se hace sumando las frecuencias de las columnas para formar la fila de frecuencias que aparece con el número 1. Las trecuencias de la columna l constituyen la distribución de Ia variable Y; las de la fi Ia I constituyen la distribución de la variable X. La suma de las frecuencias de la columna y fi la 1 debe ser la misma. Si esta suma no es igual deberán revisarse los registros de frecuencias.

¡..1

188

TABLA XXXVIII

Ciencias Naturales

\X

25 29

30 35 34 39

40 44

45 49

50

54

55 59

60

64

I

75

-79

70

-74

74

oo

75 79

o

o

o

BO

B4

o

o

o

o

¡

o

70

o

B0-84 d

65 69

oo

o

o

o

m

a

C

a

65-69 o

60-64

o

o

o

oo

oo

o

oo

o

oo

o

oo

oo

oo

o

oo

o

oo

o

oo

o

o

oo oo

oo oo oo

oo

o

oo

oo

o

oo

o

S

t

o

55- 59

oo

e oo

I

I

o

oo o

50 -54

oo oo

oo oo

o

o

oo oo oo

oo

oo

o

o

o

o

a n

o

o

o

o

oo

o

o

o

oo

45 49

40-44 35-39

30-34

o

o

oo oo

oo

o

o

o

oo

oo

o

o

o

o

Diagrama de dispersión, nube de puntos o forma inicial de la tabla de doble entrada. Datos de la tabla XXXVll.

rt

189

Paso 4: Desviaciones. Las desviaciones respecto de las medias supuestas en ambas variables, se determinan de manera igual a como se hace para el cálculo de Ia media aritmét¡ca y Ia desviación tÍpica por el método abreviado, o sea: se fija qué valor va a servir de media supuesta. En la variable X hemos puesto esa media en el intervalo 50 - 54. A partir de este intervalo y a Io largo del cuadro, trazamos dos líneas paralelas de arriba hacia abajo. En la variable Y hemos puesto esa mediaen el intervalo 55 - 59. A partir de este intervalo y a Io largo del cuadro, trazamosdos lÍneas paralelas de izquierda a derecha. Fijadas las medias supuestas, escribimos las desviaciones arbitrarias así: en la columna 2 las de la variable Y o sea lasyr;en lafila 2 las de la variable X o sea las xr. Ya sabemos que la desviaci6n del intervalo don de está la media supuesta es cero. Paso 5: Productos de frecuencias por desviaciones. Estos productos se obtienen así: multiplicamos entre sí los valores de las columnas I y 2 para formar la columna 3 =f . y'i y los valores de las fi las 1y 2 para formar la fi la 3 = f.x'. Paso 6: Productos de las frec Estos productos que van en Ia columna 4 (para la variable Y) se obtienen multiplicando entre sí los valores de las columnas 2y 3; y los de la fi la 4, multiplicando entre sí los valores de las'fi las 2 y 3, para la variable X.

re,

Paso 7: Productos cruzados de las desviaciones. Los productoscruzados de las desviaciones entre sÍ, o sea x'. y' se obtienen rmultiplicando las distancias a que cada cuadrito se halla respecto de la fila y columna de las medias supuestas. Por ejemplo: el cuadrito donde se cruzan los intervalos 65-69 de Ia variable X y B0 - B4 de la variable Y, se halla o dista 3 intervalos de Ia columna cero y 5 de la fila cero. EI producto xry' será 3 x 5 = L5 , Este número 15 lo escribiremos en elángulo superior derecho del cuadrito dicho. Otro ejempfo: el cuadrito donde se uuzan los intervalos B0-84 de Ia variable Xy 70-74 de Ia variable Y, dista 6 intervalos de la columna cero y 3 de la fila cero. El producto xry' será 3 x 6 = 18, número que aparece en el ángulo superior derecho del cuadrito dicho.

EI signo de los productos cruzados de las desviaciones, o seax'yr,sedetermina fácilmente recordando los signos de las abscisas y ordenadas del plano cartesiano. Nótese que la fila cero y la columna cero dividen el cuadro de correlación en cuatro partes/ cuyas desviaciones conservan los signos de las coordenadas. Veamos:

el primer cuadrante sabemos que las abscisas y las ordenadas son positivas; luego, el producto es positivo. Vemos también que en ese cuadranteysegún el cuadro de correlación7 (véase columna 2 y fila 2) son también positivas las desviac iones x' y' .

.

a)

En

b)

En

el segundo cuadrante sabemos que las abscisas son negativasy las

r"l

190

ordenadas positivas; luego, el producto es negativo, Vemos también que en dicho cuadrante y según el cuadro de correlación, las desviaciones xr (fila 2) y las yr (columna

2) son negativas y positivas, respectivamente.

c) En el tercer cuadrante sabemos que las abscisas y lasordenadassonnegativas; fuego, el producto es positivo. Vemos también que en dicho cuadrante y según el cuadro de correlación, las desviaciones x' (fi la 2) y las desviaciones (y') (columna 2) son negativas, por lo que el producto es positivo. d) En el cuarto cuadrante sabemos que las abscisas son positivas y las ordenadas negativas; Iuego, el producto es negativo. Vemos también que en dicho cuadrante y según el cuadro de correlación, las desviaciones x' (fila 2) y las yr (columna 2) son positivas y negativas, respectivamente, Paso

B:

Productos cruzados

m

Asiqueha-

yamos escrito los productos cruzados de las desviaci'ones x'y'consusrespectivossignos, obtendremos los productos de las frecuencias por los productos cruzados de las desviaciones, es decir f.x'y'. Para esto, basta multiplicar el producto xryrescrito en el ángulo superior derecho de cada cuadrito, por la frecuencia que aparece en el centro del cuadrito. Estos resultados los anotamos en la columna 5 de la rnanera siguiente:

a) La columna 5 está dividida en dos subcolumnas: una con el signomás (*)Votraconelsignomenos(-); losproductosf.x'y'positivoslosescribiremos en la columna de signo más;

y los productos f.xryr negativos en Ia columna de signo

menos.

b)

Para anotar los productos

fila de los cuadrantes

f.xryl positivos,

hemos de sumarlos en cada

ly lll; y para los negativos en los cuadrantes ll y lV. Veamosal-

gunos ejemplos:

- 84; x' y' = 15; producto f.xryr = I x 15 = 15. - 84; x'y' = 25; producto f.xryr=l-x25 = 25. En la subcolumna 5 de signo más escribiremos la suma ., = 40. lntervalo 75 - 79¡xt yt - 12; producto f.x'y' - 1-xL2= L2, lntervalo 75 - 79¡ x'y' = 24;producto f .x'y' -1x24-- 24, En la subcolumna 5 de signo más escribiremos la suma .. = 36.

lntervalo B0 lntervalo B0

Paso 9: Suma de filas y columnas. Luego de haber hecho todas las operaciones anteriores/ procederemos a sumar los valores de las columnas y de las Filas, de

r.l

191

la manera siguiente: a) la fila 1y la columna 1, cuya suma debe ser igual por tratarse de las frecuencias; b) la fila 2 y Ia columna 2 no deben sumarse pues son lasdesviaciones en ambas variables; c) la fila 3y la columna 3 deben sumarse, porseparado, algebraicamente; d) la fi la 4 y Ia columna 4 deben sumarse también separadamente; e)finalmente, Ias subcolumnas 5/ y hacer por último fa reducción respectiva. Paso 10: Cálculo del coeficiente de correfación de Pearson. EIúltimo paso cons¡ste en substituir en la fórmula 33, los valores hallados según el cuadroo tabla de corre lac ión , En nuestro ejemplo, resolviendo según Ios datos que nos dáelcuadrodeco-

rrclaci'n (tabla XXXIX) tenemos:

Z f. x'y,

=

lf'Y' = I f'Y'2 -

255. lf. x' = 191 ^ lL67 -35. ) f,x'¿= 607. If=N = l3L.

Y substituyendo en la fírmula 33:

255 \131/ z 191r r-35', \131l -

131

.XY_

L.95 +

v=

2,34 G.56)

0.39

(6.78)

'XY ,XY

2

_34

1@

= 2.34 t 5.56 =

r

=

0.42

resultado que nos dice que entre las puntuaciones en Ciencias Naturales e ldioma Castellano, alcanzadas por 131 alumnos en las pruebas de primer año prevocacional, hay correlación positiva, imperfecta, cuyo coeficiente es i = 0.42. En la tabla XXX+X que sigue/ damos el cuadro de correlaciónyadicho,contorme los pasos indicados.

t,f

L92

TABLA XXXIX

Y=

§U)I§H

ld

ioma Castellano

X il C)

m

z. C)

tLn_ z -t C t-

m

(¡)

M

t

x ñ,

il

il

* Pil

{ o

r¡ a
d2

N (N2

G4)

- r)

en Ia que:

P_

coeficienle de correfación ordinal o de rangos.

=- 12 .ZU

suma de fos cuadrados de las diferencias de rangos.

N_

ner

número de casos.

Para el cáfculo del coeficiente de correlación por rangos hemos

de

dispo-

los datos, en una tabla así: Columna Columna Columna Columna Columna

1: 2: 3: 4: 5:

contiene los individuos de la muestra. contiene los rangos de los individuos en una de lasvariables. contiene los rangos de los individuos en la otra variable. contiene las diferencias entre los rangos. contiene los cuadrados de las diferencias entre los rangos.

Como se ve, Ia correlación se basa en asignar los rangos o puestos de orden que corresponde a fos valores

Ejemplo: calcular el coeficiente de correlación ordinalentre las puntuaciones alcanzadas por un grupo de alumnos en las pruebas "A" y "Br', según losdatos si-

guientes:

ALUMNO§

PRUEBA ''A"

PRUEBA "B''

H.A.E.S.

8

12

M. E. D. S. l. J. v. F. J. A. D. C.

6

27

A.G.M.

74 6

77

11

18

D. E. J. F.

11

22

I, L. P. O. O,M. L. L.

16

19

L4

21

R. L. S. B.

11

22

10

19

J.

L,

R.M. C.

rl

t94

Antes de trasladar los datos a la tabla, hemos de asignar a los sujetos los rangos según sus puntuaciones. Ordenando descendentemente las puntuaciones y rangueando, tendremos:

L4 14 11 1. 2.5 2.5 5. 23 22 22 PRUEBA "B": 27 RANGo 1. 2. 3.5 3.5 PRUEBA

"A": 16

RANGo

11 5. 21 5.

11 5. 19 6.5

10 7. 19 6.5

B B, 18 B.

6 6 9.5 9.5 17 L2 9. 10

Con los datos anteriores procederemos a hacer la tabla ya dicha, segúnvemos a continuación,

TABLA XL

ALUMNOS

PRUEBA

"A''

PRUEBA

(2)

(1)

H.A. E. S. M.E.D.S. l. J. v. F. J. A. D. C. J. A. G.M. D.E.J.F. I. L.P.O. o.M.L. L.

"B"

(3)

8 9.5 2.5 9.5 5.

10 1

2

I 8

3.5 6.5 5. 3.5 6,5

5, 1.

2.5

¿ (4)

A2

(5)

2.0 8.5 0.5 0.5 3.0 l. 5 5. 5 2.5 1.5 0.5

4.00 72.25 0.25 0.25 9. 00

2,25 30. 25

6.25

2.25 0.25 I 27. 00

En este ejemplo:

Z¿2 = 127.

N=10.

Y substituyendo en la fírmula 34;

Q= r-

6xL27 10 (100 -

1)=L-

762 990

tq

-1-0.77=0.23

resultado que nos dice, que entre las puntuaciones alcanzadas por

el

grupo de 10 a-

195

lumnos, en las pruebas rrArr

L2.6:

y 'rBI hay correlación

imperfecta positiva.

VAL0RACI0N DEL C0EFICIENTE 'rrI DE C0RRELACt0N. La interpretación def coeficiente de correlación plantea dos problemas, Ios

cuales, aunque no es posible examinarlos en estos apuntes, conviene dejarlos consignad os .

El primero es si el coeficiente 'rrrrexpresa o no que haya efectiva asociación o relación entre las variables. Este probfema y su resolución correspondea Ia Estad

ística muestral.

El segundo, que se deriva del primero, se refiere a la intensidadde Ia correlación. Para este problema hay que considerar el valor de "r" dentro de Ia situación concreta en función de los sujetos, de los instrumentos de medida, de la naturaleza de los fenómenos, etc. También conviene tener presentes algunas recomendaciones a efecto de no dar una interpretación errónea al coeficiente, as¡':

a) Los coeficientes de correlación no torman una escala de intervalos; no se puede decir que r = 0.20 es la mitad de un r= 0,40; ta:npoco es correcto decir que Iadiferencia entrer= 0.60 y r= 0.45 es lamisma queentrer = 0.90 y r=0.75. b)

El coeficienterrr'r no expresa porcentaje; es falso, por ejemplo que r = Cuando se desee conocer el porciento de varia-

0.20 signifi que 20"/. de correlación.

ción común de dos variables, conviene utilizar el cuadradode "r". Así, en nuestroejem-rplo de Ia tabla XXXIX (véase resolución en pág , ), tenemos r = 0 .42; el porcentaje de variación común entre ambas variables será el cuadrado de "r", osea;17.64"/".

c) En el ejemplo dicho, hemos hallado r = 0.42 de correlación entre las puntuaciones en Ciencias Naturales e ldioma Castellano. Esto no quieredecirquelacorrelación entre esasmaterias sea de r = 0.42 y que siempre que se trate de ellas encontraremos el mismo coeficiante. Significa, nada más. que en el grupo de sujetos exa minados se halló r = 0.42. No obstante lo dicho, se puede considerar cierta interpretación del coeficiente de correlación según el criterio de algunos autores. Así, por ejemplo, tomamcs Ia Tabla de Darley, (citado por el Lic. Luis Arturo Lemus en su obra: rrManual de Evaluación del rendimiento escolarrr, pág. 197) y la tabla de Rugg y Gavett (citadapor el Dr, José Zaragozá en su obra: rrEstadística aplicada a la Educaci6n't, pá9. BI), que reproducimos en la página siguiente. Sin descuidar los dos problemas citados al princi pio, se puede interpretar la intensidad de la relación entre las variables de acuerdo a los valores de "r" que dan las tablas dichas.

fr,i

L96

de de de de de

0.80 en adelante ..... 0.50 a 0,80 0.30 a 0.50 0.20 a 0.30 0.00 a 0, 20

(x) Tabla de

Darley. R

muy a lta corre lac ión substanc ial correlac lón

alguna correlación

ligera correlac ión prácticamente ninguna correlación

lnterpretación del coeficiente de correlación,

UGG

Desatend ib le

Baja

Franca

GAVETT

r

0.10 0.14 0,20 0.28 0.30 0.37 0 .40 0.44 0.50 0,60 0.70 0.75

Carece prácticamente de

0, B0

Alto grado de relación

0

significado.

Grado moderado de rela-

ción.

Marcada

.87

0.9 0

0.93 0.95 0.96 0.97 0.98 0.99 1.00

Alta

(

r.*)

TABLA DE

RUGG

Alto grado de dependencia entre las variables.

Y GAVETT. lnterpretación del coeficiente de correlac ión

.

(.)

Tomado de "Manual de Evaluacidn del RendimÍento escolar" por

*)

Tomado de " Estadfstica AplÍcada a Ia Educación"

,

Lic. Luis Arturo Lemus, PÁg. L91,

por Doctor losé Zangozá

A.

Pá9.

81

r,J

]-97

E-ierc ic

io I2

INSTRUCCIONES. Se le dan a continuación los datos correspondientes a las puntuaciones de un grupo de 54 alumnos/ en ras pruebas de Matemáticas y Estu-

dios Sociales.

1.

0btenga el coeficiente de correlación simple Iineal entre las puntuaciones en ambas pruebas, llamando X = Matemáticas e y =Estudios sociales. A-

plique la fórmula 33

2,

hág.

185

)

y los pasos indicados (págs. 187).

Tome a los primeros diez afumnos y sus puntuaciones, para calcularelcoeficiente de correlación ordinal. Utilice Ia fórmula 34 hág, ;-94 ). DATOS

Alumnos 1

X.

L9

9

7

37

L4

9

t4

6 9

11

ó

38 39 40

11

23

7

8

10

4t

6 9 7

24

9

7

25

4 5

6

16 10

B

9

11 IO

t3

L4

26 27

t6

I4 73

45

11 11

2B

8

L4

29

7

6

10 11

46 47 48

t3

9

8

30

B

15

3L

7

6

t2

L2

32 33

16

7 4 7

1B

T3 L2

T3 11

15

t7

9

42 43 44

10

t4

Alumnos

20 2L 22

3 4 5 6 7 8

12 L3

Y.

15

t2

10 11

X.

t2

5

2

9

Alumnos

B

34 35

36

t4

L2 10

9

6 4

7

B

9

49

50 51

52 53 54

Fuente: Sección de Evaluación Escolar

X.

11 10 9l-3 8B 6t4 15 t3 129 510 67 L4 11 10 11 69 t3B 11 L2 t26 6]-4 510 11 9 t3 10

¡Í

APENDICE

I. Fórmulas

emPleadas

La mediana. Distribución de frecuencias de valores agrupados en intervalos de am -

Recorrido o amplitud de la distribución

I

Pág.

46

plitud yariable o constante. Ordenación

A= (Xs - Xi) + r

ascendente. Pág. 104

2. Frecuencias suavizadas, tico. Pá9. 67 f

3

fi-l

=

+ 2fi

+f r+

Media aritmética. Serie simple. Pág. 79

l0

plitud variable o constante. Ordenación 105

- Fi-t

N.

Media aritrnética ponderada. Distribución de frecuencias de valores sin agrupar o agrupados en intervalos. Método largo. Pág. 83

-^= Er.xi N 5.

.i

La mediana. Distribución de frecuencias de valoresagrupadosen intervalos de am -

Md = Li*L 4.

i- I f.I

descendente. Pág.

>Xi

-^=

N_F 2

Md = L.r-+

Método aritmé-

Media aritmética. Método abreviado Pág. 89

.r

-

fi

La moda. Dis[ibución de frecuencias de valores agrupados en intervalos de amplitud constante. Pág. 109

Mo=L., l-1

'i+I fi-r t fi

+

.i +I

X = Xs+C Media aritmética. Método abreviado. Distribución de frecuencias de valores sinagrupar o agrupados en intervalos de am-

plitudvariable. Pág.

Er.a'

X=XS

7

91

N

te. Pá9, ^

=

-

^s

+

L.l-r

k

i+l ki_t i ki + I -i

lación de promedios. Pá9.

lI2

Mo=3Md-2X

94

,>f.d'

f

. t

N

res sin agrupar. Pág.

N+1 2

Cuartiles. Distribución de

frecuencias

agrupa.dos en i.ntervalos de am plitud variable o constante. C)rdenación de valore

La mediana -(lugar que ocupa).Seriesimple y distribución de frecuenciasdevalo-

P=

Mo=

13. La moda. Estimaciónaproximada porre-

Media aritmética. Método abreviado. Dis tribución de lrecuencias de valores agru pados en intervalos de amplitud constan-

?

La moda. Distribución de frecuencias de valores agrupados en intervalos de ampiitud variable. Pág. J 10

99

s

ascendente.

Pág.

i.N 4 o-i = l,r-t +-.a 'Ii

r-¡

117

E

"

r-1

i

APENDICE

I5

Centiles o F€rcentiles. Distribución de frecuencias de valores agrupaáos en intervalos de amplitud variable o constan te. Ordenación ascendente. Pág 120

C.=L. I ]-I 16

I.N 100 -

+

I.

Continuación

22

go. Pág

F,

.

_,

t=

ai

- _ / > r.

fi

V

23

Pá9.13r

.)o *a -

147

1- I

Amplitud o recorrido semiintercuartiL.

a=

Desviación tipica o standard. Distribución de frecuencL¿s devalore. qinagrupar, o agrupados en intervalos de am plitud variable o constante. Método tar-

d

N

Desvlación tÍpica o standard. Serie sim pte Método al¡reviado. Pág. 152

'l

v ,,? zo'

o-

2

2

N

Desviacióno variaciónmedia. Serie sim-

ple. Pág. D. M.

133

24

tldl N

18

tud variable.Método abreviado, Pág. t52

Desviación o variaclón media. Distribu ción de frecuencias de valores sinagrupar, o agrupados enintervalos deamplitud variable o constatrte. Método largo. Pá9. I34

5-r.

25

tdt

Desviación tipica o standard. Distribución de frecuencias de valores agrupados en intervaLos de ampLitud constante Método abreviado Pág. 155

f

Coeficiente de variación Pág

N

.Er. td'l + c(ri-rs) D.M. =

0-

C

I

27

Sk=X 28

pte. Pág.145

r00

-Mo

Cocficiente de asimetrÍa de Pearson. Pá9. 161

X-

S'

29.

59

Asimetría. Pág. Ió1

21. Desviación tÍpica o standard. Serie sim -

0--

r. ¡'2 N

(ri -rs)

Desviación o variación media. Distribu ción de frecuencias de valores: agrupados en intervalos de amplitudconstante. Método abreviado. Pág. 141

|

\¡¡/

N

Desviación o variaclón media. Distribución defrecuenclas de valores agrupados en intervalos de amplitud variable. Método abreviado. Pág. 139

tr. ld'l + c

20

I r. a'2 -t-/>r. o'\'

o

N r9

Desviación tÍpica o standard. Distribución de frecuuncias devalores sinagru par o agrupados en intervalosdeampli-

Ecuación de [a curva normal. yo

i¡

Mo

e-

Pág

1ó5

)"

30.

Puntuación típica o puntuación

xi-x o6

z. Pág.

167

x

31. CoeficÍente

de correlación simple 1ineal. Fórmula para tabla de columnas. Pág. 181

Z*.v

rxY

N.Ox. Oy

32. Coeficiente

de correlación simple lineal. Fórmula simplificada de Pearson paratabla de columnas. Pág. I82

>x.y ^I-,-

( Zx') \,/ V

( f

yz)

33. Coeficlente

de correlación simple lineai. Fórmula para cálculo abreviado utilizando cuadro de doble entrada. Pág. I85

I¡.

*'y'

- fEi-r_) \N/\N/

lr, ,')

34. Coeficiente

de correlación ordinal o por el método de rangos. Fórmula deSpearman.

Pág.193

o_ ,

tÉl

r fa2 N

(ts2

-

r)

RESPUESTAS

A LOS EJERCICIOS DE

ESTADISTICA DESCR IPiIVA PR

EJERCICIO

1. (l)

1

IMERA PARTE: CONCEPTOS FUNDAMENTALES

(página 7)

lncorrecto, porque no es absolutamente necesario; se trata de

un

asunto de metodología.

2. (l)

lncorrecto, porque los fenómenos atípicos se estudian en masas

o

colectivos de datos.

3. (C)

Correcto. En Estadística se requiere siempre un colectivo de datos.

4. (l)

lncorrecto. lgual argumento que en el item 2.

5. (l)

lncorrecto, porque las cantidades distan mucho entre sí; sería como promediar el sueldo de O 100.00 mensuales de un maestro, con el de O 1,500.00 de un alto funcionario.

6. (l)

lncorrecto; los hechos variables se llaman así, precisamente porque varían de un caso a otro.

7. (C) 8. (l)

Correcto.

lncorrecto, porque es necesario reducir los punteos a una base común de comparación.

9. (l)

lncorrecto. La función principal que se asigna

a la

Estadística

es

servir de instrumento de predicción científica.

10. (C)

Correcto.

EJERCICIO 2 (pásina 17l,

1. (f)

lncorrecto; desde el punto de vista estadístico, la raza es un carácter cualitativo.

2. (C)

Correcto; t

3. (C)

la

denominación es para distinguirlas de las cantidades

ípicamente variables.

Correcto; por diversas causas las personas darán medidas diferentes.

r{

v"

4. (l)

lncorrecto. Si en el examen se aplicó una prueba escrita, valorada de cero a cien, 75 puntos pueden ser 75olo'de la prueba, pero no de la asignatu ra.

5. (C)

Correcto; para los números que se refieren a mediciones, se conviene en que cada uno es el punto medio de la distancia entre otros dos, que se hallan, respectivamente. a media unidad por debajo y por encima del número de que se trate.

6. (l)

lncorrecto; lo consecútivo de los números ordinales es distinto concepto de continuidad de las variables.

7. (l)

lncorrecto; la medición es posible con base en el registro estadístico de la conducta de las personas ante reactivos y pruebas válidos y

al

confiables.

8. (C)

Correcto; también se les llama clases (de clasificación) cualitativas, para distinguirlas de las clases numéricas o intervalos.

9. (C)

Correcto; porque la naturaleza de los fenómenos psicopedagógicos

es

intrínseca a la conducta humana.

10. (l)

lncorrecto; los valores continuos se

def

inen en el campo de

los

números reales. Los números naturales son los que sirven para contar, desde 1 en adelante.

EJERCICIO 3 (pásina 26)

1.

) 2. (l) (l

lncorrecto.

lncorrecto; la producción de resultados semejantes en apl¡caciones diferentes se denomina fiabilidad.

3. (C)

Correcto.

4. (C)

Correcto.

5. (C)

el punto de vista

numérico o estad ístico. Sin embargo, científicamente carece de interés un test cuya validez no Correcto, desde

haya sido comprobada.

6. (l)

lncorrecto; prueba o reactivo es una traducción instrumento.

y no un concepto

del

J,!

7. (C)

Correcto.

8. (l)

lncorrecto.

9. (C)

Correcto.

10. (C)

Correcto.

EJERCICIO 4 (pásina 33) 1

.

(C)

Correcto;

la

inferencia

estad

ística constituye

la

más ¡mportante

metodología de la Estadística. 2.

(c)

la población puede ser cualquier totalidad de elementos investigables: población de habitantes, de viviendas, de industrias, de cult¡vos. etc.

3.

()

lncorrecto; las medidas características de las muestras se llaman estadísticos o estadígrafos. Los parámetros son medidas características poblacionales.

(C)

Correcto.

(t)

I

4. 5. 6.

(t)

Correcto;

ncorrecto.

lncorrecto. La depuración es indispensable, pero no asegura contra cualquier clase de errores, por ejemplo los inherentes al sistema decimal, o los que se cometen por estudiar una muestra y no la población, etc.

7'

(c)

Correcto.

8.

(C)

Correcto.

e.

(c)

Correcto.

10.

(l)

lncorrecto; incluso, hay discusión respecto de si es una ciencia, un método, una técnica o simplemente un instrumento.

EJEBCICIO 5 (página 39) 1

(C)

Correcto.

il

2. (l)

lncorrecto.

3. (C)

Correcto.

4. (l)

lncorrecto; el resultado es 42

5. (l)

lncorrecto; d

la

operación indicada corresponde

a la

propiedad

istributiva.

6. (C)

Correcto.

7. (l)

lncorrecto.

8. (C)

Correcto.

9. (l)

lncorrecto.

10. (C)

Correcto.

EJqRC¡ClO 6, parte a) {página 54)

1. (C)

Correcto.

2. (l)

lncorrecto; el número 20 no está ordenado.

3. (C)

Correcto.

4. (C)

Correcto.

5. (l)

lncorrecto.

6. (l)

lncorrecto.

7. (C)

Correcto.

8. (C)

Correcto.

9. (C)

Correcto.

10. (C)

Correcto

4

EJERCICIO 6, parte

i)

bl

(páginas S4l55)

Ordenación ascendente de los datos:

18 23 24 25 25 27 27 27 27 28 28 28 29 29 29 29 29 30 30 30 30 31 31 31 31 32 32 32 32 32 32 32 32 32 33 33 33 33 33 33 33 33 33 34 34 34 34 34 34 34 U 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 35 36 36 36 36 36 36 36 36 36 36 36 37 37 37 37 37 37 37 37 37 37 37 37 37 38 38 38 38 38 38 38 38 38 38 39 39 39 39 39 39 39 39 39 39 39 39 40 40 40 40 40 40 40 40 40 40 40 40 40 41 41 41 41 41 41 41 41 41 41 41 42 42 42 42 42 42 42 42 42 42 42 42 43 43 43 43 43 43 43 43 43 43 44 44 45 45 45 45 45 45 46 46 46 46 46 46 47 47 47 47 47 47 48 48 48 49 49 49 49 50 50 Recorrido de la variable:

)

)

A :(50

-

18)

+ I :33.

La agrupación en clases o intervalos de amplitud constante de 3 unidades, es uno de los varios arreglos que se pueden hacer con los datos. La amplitud teórica sería de 3.85 puntos, pero lo grueso de las medidas no permite ese afinamiento. Llamaremos Arreglo No. 1 al de amplitud 3, y Arreglo No.2 al de amplitud 4, así: Arreglo No.

1

Punteos t

Punteos

18-20 21 -23 24 -26 27 -29 30-32 33-35 36-38 39-41 42-44 45-47 48-50

A¡reglo No. 2

1 1

3 12 17

35

34 36 24

18-21 22-25 26 -29 30-33 34-37 38-41 42-45 46-49 50-53

1

4 12

26 50

46 30 19

18

I

N:190

N:190

2

ri

v iv)

Empleando el primer arreglo, el cuadro queda así:

h:f/N 18 - 20

19

21 -23

22 25 28

24 -26

27 -29

30-32 33-35 36-38 39-41 42-44 45-47 48-50

1

1

3

31

12 17

34

35

37

34 36 24

40 43 46 49

N:

F

0.0053 0.0053 0.0158 0.0632 0.0895 o.1842 0.1 789 0.1 895

1

2 5 17

34 69 103 139 163

18

263 0.0947

9

o.o474

190

190

1.000'l

xxx

0.1

18',1

EJERCICIO 7 (pásina 75)

1.

Polígono de frecuencias e histograma de Pearson (para el primer arreglo); columnas empleadas: límites reales y frecuencias absolutas. f

;l ::l

r.l 17

.5 20.5

23

5

26.5 29.5

32

5 35.5 38.5 41 .5 44.5 o intervalos)

Punteos (límites reales de las clases

47

.5

50.5

il

2.

I

Para las frecuencias suavizadas, empleando el primer arreglo de los detos, se agregarán los intervalos siguientes: 1s - 17 al principio, y s1 - 53 al final, ambos con frecuencia absoluta' observada igua'l a cero. El siguiente cuadro muestra dicha distribución. Punteos

X¡

f

fs

15-17

16 19 22

0

25 28

3

o.25 0.75 1.50 4.15 1 1.00 20.25 30.25 34.75

18-20 21 -23 24-26 27-29 30-32 33-35 36-38 39-41 42 .44 45-47 48-50 51 -53

1 1

'

12 17

31

34

35 34 36 24

32.50 25.50

46 49

18

17.25

52

0

37

40 43

I

9.00 2.25

N:190 epo lígono e

3.

r

histograma está trazado

90.00

con las'

frecuencias

Las frrecuencias absolutas están marcadas con puntos.

i

'rj

16

t2

8

Él

¿

0

145 175 205 '!35 265

295

325

355 385 415 .A.5 475 505

Punteos (límites reales de ios int:rvi¡los o clascr;¡

535

El diagrama acumulativo (o.iiva de Galton) del Arreglo No.'l , mostrando en el eje de ordenadas las frecuencias absolutas acumuladas y su expresión

4

porcentual, es el siguiente: F

oO NO oo

!c oo

Punteos (límites reales de los intervalos)

Para los datos de que se trata, las operaciones y el diagrama de sectores son: (el gráfico se dispone de mayor a menor, y se lee en el sentido del movimiento de las agujas del reloj, a partir de las 12.00 h.)

5.

'

Edad Niñas

Grados

6 años 3,158

olo 16.2 35.6 48.2

Total: 6.552

100.0

360

4

años

1,062

5 años 2,332

58

128 174

t.l

SEGUNDA PABTE: LOS VALORES ESTADTSTTCOS EJERCICIO 8 (página 113) Adve¡tencia: en este Ejercicio operaremos con los dos arreglos de los datos, según aparecen en el item iii), Parte b), Ejercicio 6, de estas respuestas.

1.

Cálculo de la media aritmética, aplicando Fórmula 4. (Referencia: Ejemplo b, Tabla Xl, pp. 871881..

1.1)Con el primer arreglo:

t"'

* :'

-'''ut,,,:

N

37.7 ptos.

190

1.21 Con el segundo arreglo:

x :2.

) fX¡

7,165

:

ptos.

N

190

-:37,7

Cálculo de la media aritmética, aplicando Fórmula], (Referencia: Ejemplo y Tabla XlV, pp. 94/96).

2.1)Con el primer arreglo: a) Tomando Xs

X

:

> fd'

Xs

:

>

Xs

236

:34 +-(3)

+-(i) N

b) Tomando Xs

X

:34

+-

ptos.

190

:40

fd' (i)

N

:37.7

r"f

2

:40

144

(3) 190

:

37.7 ptos.

2.21 Con el segundo arreglo: a) Tomando Xs

:

35.5

» rd' : Í i, +-(i) N b) Tomando

is :

>

x : [ +3.

Cálculo de

la

105

:37.7

:35.5 +-(4)

ptos.

190

39.5

rd' (i)

:

8E

39.5

N

: --(4) 190

mediana, aplicando Fórmula

desarrollado en páginas 1021105l..

37.7 ptos.

$

(Referencia: Ejemplo

3.1) Con el primer arreglo:

Md

:

N n -'i- t

L¡-'¡

+-(i)

:35.5

9E-69 (3)

:37.8

(4)

:

ptos.

34

3.2) Con el segundo arreglo:

Md

4.

:

Cálculo

L¡-1

*

I!-- F,_,, ' ' 2 f¡

(i) :37.5 +

95-93

37.7 Ptos.

46

Fórmula 11. de la moda interpolada, aplicando

(Referencia:

Ejemplo desarrollado en páginas 109/1 10).

4.1) Con el primer arreglo: Advertencia: en este arreglo no está claramente definida la clase modal, o sea, el intervalo donde está la moda, que podría ser cualquiera de los interválos 6o, 7o, 8o, cuyas frecuencias absolutas son muy parecidas. En casos como éste, y siempre que se necesite obtener el valor modal, puede hacerse una estimación del mismo

¡.1

utilizando la "relación empírica de promedios" según Fórmula página

1

13,

12; resolviendo así, se tiene:

Mo:3Md -2X:3(37.8)

-2(37.71 :'113.4 -

75.4:38

p.

4.2) Con el segundo arreglo: a) Fórmula 11:

ri

+r

Mo

:

Mo

:33.b +_(4) 26+46

L¡_1

+_________(i) (fi-1) + (fi+l) 46

b)

:36.1

ptos.

Advertencia: para el cálculo de la moda interpolada, también existe otra fórmula (que damos a continuación porque no figura

en el texto), y que, por razones geométricas, se considera que permite una mejor interpolación que la Fórmula i 1, siendo la

siguiente:

fr-f. Mo :

L¡-1

*

(am)

(11A)

(fm-fa) +(fm-fp)

en la cual:

Mo :

moda, modo, valor modal o promedio típico.

L¡-l :

límite real inferior del intervalo modal.

fm :

frecuencia absoluta del intervalo modal.

fa

:

frecuencia absoluta anterior

a la del intervalo modal

(cuando

los

intervalos son ascendentes)

fp

:

frecuencia absoluta posterior intervalos son ascendentes)

am :

amplitud del intervalo modal.

a la del intervalo modal (cuando tos

r.j

En el segundo arreglo que estamos tratando, se tiene:

Li-l : 33'5; fm : 50;

f

a

:26; f ,:46;

d'm

:4

Substituyendo en la Fórmula 11 A:

Mo

:

50-26 33.5

*

(4) (50-26)

+

:

36.9 ptos.

(50-46)

EJERCICIO 9 (página 128)

1.

Cálculo de los cuartiles primero, sequndo atercero, aplicando Fórmula 14. (Referencia: ejemplos desarrollados en páginas 1181120]. Con el primer arreglo de los datos:

47.5

01 :32.5 +-(3)

-

34

:33.6

puntos

35

95-69

:37.8

02:35.5 +-(3)

puntos

(:Md)

34

Q3

:41.5 +

142.5

-

139

(3)

:41.9

puntos

24

2.

Tabla de percentiles y puntuaciones equ¡va]gps, aplicando Fórmula (Referencia: Tabla

3.

XXll.

Tabla de estructura semejante a la Tabla Galton.

15.

página 123)

XXlll

(página 125l.

y

Ojiva de

ít

Con el primer arreglo, se tiene, respectivamente: Centiles

18-20

23.2

1

10 15

21 -23 24 -26 27 -29

20

32.8

30-32

25*

33.6

30

34.5 35.3

35 40 45 55

60 65

37.8 38.6 39.4 41.0

75*

41.9

80 85 90 95 99

43.1

38.5

39 - 41

41.5 44.5

47.5 50.5

La Oiiva de Galton aparece en Ejercicio 7 de estas resPUestas.

40.2

7A

38

42-44 45-47 48- 50

37.0

50*

35

33 36

36.1

23.5 26.5 29.5 32.5 35.5

Pa

110.5 2 1 352.6 17 12 34 . 1l 69 35 34 103 36 139 24 163 18 ',r81 I 190

20.5

27.6 29.8 31.5

5

Fi

Punteos Li +1

Punteos

',1.0

8.9 17.9

36.3 54.2 73.2

85,8 95.3 100.0

el item

4

44.3

45.8 47.4 49.9

EJERCICIO 10 (página 164)

Advertencia: en este ejercicio operaremos con la distribución del primer ar*gl,c y .lgunos de sus resultados que ya conocemos. 1.

Ampl¡tud semiintercuartil, aplicando Fórmula. 16. (Referencia: eiemplo

en

página 132)

og-or

41.9

u--

-

33.6

:

4.2 ptos.

2 2.

Dsviación media (D.M.), aplicando Fórmula 18. (Referencia: eiemplo y Tabla XXVI en páginas 13611371 Habiéndose calculado

X:37.7

puntos, se tendrá:

rl

tlol

» D.M.

:

s17.2

4.8 ptos.

N 3.

190

Desviación media (D.M.), aplicando Fórmula Tabla XXIX, en páginas 1421143], a

Tomando

Xs :

37

,

puesto

4

(Referencia: ejemplo

que X : 37.7 (véase numeral 1

y.

-

de

prdcedimiento en página 140), el cuadro de cálculo da:

31.7 - 37

2 f [,:'l :3O2; c :-:O.23;

f¡ :

103; fs

:87; i -

3

3

Substituyendo en la Fórmula 20:

D.M.

:

302

+ 0.23(103-87) (3)

:

302

4.

Comprobación

190 917.O4

:4.8

puntos

190

del intervalo del 58o/o centra! de casos. (Referencia:

ejemplo y procedimiento en páginas 1431144l, Siendo

3.68 (3)

190

305.68 : D.M.:-(3) 190

+

X:37.7 y D.M. :4.8,

.

los dos extremos del intervalo son:

:37.7 - 4.8 :32.9 superior :37.7 * 4.8:42.5

Límite inferior Límite

El límite inferior (32.9) está en el intervalo 33-35 de la distribución; límite superior (42.51 está en el intervalo 42-44; el cómputo de casos da:

el

De 32.9 a 35.5 puntos hay (35.5 - 32.9) (35/3) : 30.3 casos 70.0 De 35.5 a 41.5 puntos hay . De 41.5 a 42.5 puntos hay (42.5 - 41.51 l24l3l: 8.0

Sumando: de 32.9 a 42.5 puntos hay Porcentaje de normal

.

.

¡.1

108.3

casos: (108.3:190) (100) :57.Oolo, que es próximo al

58o/o

5

tiplg

De¡yiqeiqr

aplicando Fí¡rmula 22. (Referencia: ejemplo

y

XXXII en páginas 149/1S0). Tomando desviaciones de la forma:

d

:

X - X', el cuadro de cálculo dará:

-t8538 Desviación típica, aplicando Fórmula

XXXIV en páginas 155/156). Tomando

X, : 49, y

desviaciones

Tabla

§

:

5.9 pts.

(Referencia: ejemplo

de la forma d' :

y

Tabla

,.

faqr.

obtuvieron para el cálculo de la media aritmética, según respuesta en item del Ejercicio 8, el cuadro de cálculo da:

)td'2 :8S6; >fd' :-144;

i

: 3;

N

2

:190

Substituyendo en la Fórmula 25:

856

ó-:

3

190

6:3

7.

t

/-Á

h

4.5053 - 0.5776

:rI

4.5053 - (-O.76P

I :.f

Comorobación del intervalo del 6Jo/o_centfa]_de 10.96. página 158). Siendo

X :37.7 yo-:5.9

:3(1.98)

@.

= 5.9 P.

(Referencia: item

los dos extremos del intervalo son:

r.j

Límite inferior :37.7 - 5.9 : 3'l .8 Límite superior :37.7 + 5.9 :43.6

El límite inferior (31.8) está en el intervalo 30-32 de la distribución; límite superior (43.6) está en el intervalo 42-44; el cómputo de casos da:

el

De 31.8 a 32.5 puntos hay (32.5 - 31.8) De 32.5 a 41.5 puntos hay . . De 41.5 a 43.6 puntos hay (43.6 - 41.5)

Sumando: de 3'l .8 a 43.6 puntos hay . Porcentaje de casos : (125.77 respecto del porcentaje normal.

8.

:

de Charlier para la pés"* lSZfiSe).

Prueba

(1713:

3.97 casos

105.00 l24l3l: 16,99

.

125.77

190) (100)

:

66.2o1o, que difiere en 2olo

desviación típica. (Referencia: ejemplo

en

Del cuadro de cálculo de la desviación típica, con Xs :40, tomamos las desviaciones (d') positivas y negativas; a cada d' sumaremos una unidad positiva y el resultado se eleva al cuadrado; cada uno de estos cuadrados se

multiplica por

la

frecuencia absoluta respectiva

y se suman dichos

.-

productos. Esta suma resultará ser:

> f(d' r

1\2

:758

Siendo:

Zt(O'

¡

1¡2

: »fd'2 + 2 »fd' + > f

tomaremos los valores del desarrollo (segundo miembro de la igualdad anterior), ya sea del cuadro de cálculo o de la substitución en la Fórmula de la desviación típica (item 6. Ejercicio 10) y se tiene: 758 758 758

9.

:856 +

-

2(-144l. +190

:856 288 + 190 : 1046 - 288 :758

.Coeficiente de variación, apl¡cando Fórmula 26. (Beferencia: ejemplo en página 159).

5.9

C.V.

:-(100) 377

rJ :

15.6o/o

.Nota: El C.V. no es aconsejable o aplicable cuando la variable carece

de

cero absoluto; en el caso de las puntuaciones escolares no existe dicho cero.

10.

Cuadro de cálculo según modelo en página 163. Este cuadro debe haberlo fiecf'o et estu¿¡ante cuan?lcalcut,ó t'a media y desviación típica, según numerales 2 del Ejercicio 8, y 6 del Ejercicio 10.

11.

Coeficiente de asimetría, aplicando Fórmula

28. (Referencia: ejemplo

en

páginas 16111621

37.7 -

38

-0.3 :-:-V.VJ

:-

\)

5.9

5.9

La distribución es ligeramente asimétrica negativa, lo cual observamos también en la gráfica del item 1, Ejercicio 7, ya que la rama izquierda de la curva se extiende más que la rama derecha.

EJERCICIO 11 (página 177l.

1.

Para

z:1.00,

2.

Para

z

3.

Para

z :1.96,

4.

área

:0.3413 :34.13o1o

:2.58, área:0.4951 :49.51o1o

Para área

:

corresponde

área

:

0.3920,

(se conviene en 49.50)

0.4750 :47.50o1o

el valor más próximo en la Tabla

az:1.24

5.

Para área

:

0.4484, la Tabla de z

:

1.63

6.

Para área

:0.0120, la Tabla de z

:

Q.03

7.

Lo primero es hallar el valor tipificado de X mula 30 (pásina 'l 67), es:

' 741 :

74-58 16

:

:74,

1'oo

es 0.3925, que

que conforme a la Fór-

"t

Entre la media y

z:1.00

hay 34.13o/o de casos (según Tabla); por debajo

de la media hay 50.00o/o de casos. Luego, .por debajo de 74 puntos quedan 50.00 +34.13 :84.'l 3o/o; así, 74 puntos equivalen al percentil g4. La gráfica siguiente ilustra este problema:

34.13o1o de casos entre la media y z : 1.00

58 8.

74:z:1.00

Para que una puntuación X deje bajo sí el 43olo de casos, se necesita que entre dicha puntuación y la media quede el complemento a 50o/o, o sea 7olo. En la Tabla xxxv buscamos el área más próxima aTolo,que resulta ser 0.0714 : 7.14o1o, y que corresponde a z:-O.lB; aquí se pone signo menos, porque el valor X de que se trata es menor que la media. Ahora, procedemos según se ve en el ejemplo 2, página i75, y se tiene:

X

:58 - 0.18(16) :58 - 2.88 :55.12 :

55 pts. aprox.

Luego, por debajo de 55 puntos queda 43olo de los estudiantes. La siguiente gráf ica ilustra este problema:

rl z:-0.18 X :55

58

o

Convirtiendo los punteos directos (35 (Fórmula 30)

z1g5¡

:-

v 80)

en punteos típicos, se tiene

z13g¡

:-

35-58 -1 '44;

80-58 1'38 16

16

Por la Tabla XXXV se ve que: a) entre la media y z:- 1.44, el área es b) entre la media y z : 1 .38, el área es

o.4251 o.4162

c) Luego, entre ambas zeta, el área es:

084.',t3

Entre los punteos 35

y 80 queda 84.13o/o central de estudiantes.

La

siguiente gráfica ilustra este problema:

35

10.

80

58

Para que quede el 68o/o central de casos, entre dos puntuaciones que están una por debajo de la media y otra por encima, por simetría de la curva quedará la mitad de casos (34o/o) entre la media y cada punteo. Por la Tabla XXXV, se ha convenido -para efectos prácticos- que 34olo equivale al área 0.3413, cuya z:1.00 es negativa para el punteo menor que la

media,

y

positiva para

el

punteo mayor que

la

media. Por tanto,

procediendo conforme al ejemplo 2, página 175, se tiene:

X1

:58 -

v ^2-

58

+

1.00(16)

:

1.00(16)

58

-

16

:42

t.i

:58 f 16:74

Por tanto, entre 42, y 74 puntos queda comprendido el 68o/o central los casos o estudiantes.

de

EJERCICIO 12 (Página 197)

1.

Coeficiente de correlación s¡mple lineal, aplicandb Fórmula 33. (Referencia: ejemplo y Tablas XXXVlll y XXXIX en páginas 18511921.

Los punteos de Matemáticas (variable X), van de 4 a 16; y en Estudios Sociales (variable Y), van de 6 a 15; por tanto, no se justifica agruparlos en clases o intervalos. Dichos punteos y sus frecuencias, son: (como referencia)

:4, 5, 6,7,8, 9, 10, 11, 12, 13, 14, f : 3, 4, 6,5, 4,6,6,4,6,4,3, 1,2. X

1

5, 16. N :54

Y : 6, 7, 8, 9, 1O, 11, 12, 13, 14, 15. f :5, 5,7, 8,5, 8, 3, 5, 6,2. N : 54.

Diagrama de dispersión o nube de puntos (para recuento de casos).

,t En el dispersigrama anterior podemos ver: a) la distribución de frecuencias de X en la primera y última filas; b) la distribución de frecuencias de Y en la primera y última columnas; y c) que la suma de frecuencias debe cuadra r.

33. (Xs:10; Ys :11)

Cuadro de cálculo para la Fórmula

x

x

x

o

o

I

u I

§

I

§

o

I

o

I

§

I

I

ó

@

o o

N o

@

o

N

o

u

(d

o

o

N

o)

o

o

o

§

§

N

N

N

o o

ñ

o

I

I

I

{

o)

N

I

¡O

o

o

N

o

o

§

o

! N

N

o

I

o §

NI o il

o

O

I

N

Nl

@

JN

o

o

o

o

N

N

o

o

§

-t @

o

o N

a

O)

§

o

o

-o N

z

{

q

q

o

I

o

I

@

q

I

I

6

o

o

6

N

o

N

il

o I

O-

-l o

JN

o

u

N

{

N

o

I

o

I

NJ

o

O)

o

o

o

@

o

o

I

o

N

ñ u

o o

q

N 6

§

O)

o

N

@

rl N

NJ

a,/ /x

o

o

N

N

o

I

o

o

@

@

§ o

l+

N @(, @N

I

I

I

I

N

o

I

N

o

N o

N

o

N

o

qI

o

o

o

o

N o

@

o o

o N

o

o

o

N

o

o)

§

N

{

N

N

o

@

O

o

o

O

o (!

o

N

N

o

§

@

N

@

N

+x_

l