Descripcion de Datos PDF

Descripción de un conjunto de datos: Métodos numéricos 1 Estadística Descriptiva Tablas y Gráficos Medidas Descripti

Views 99 Downloads 0 File size 1MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Descripción de un conjunto de datos: Métodos numéricos

1

Estadística Descriptiva

Tablas y Gráficos

Medidas Descriptivas

de Frecuencias

1

Estadísticos 

Tendencia central  Indican valores con respecto a los que los datos parecen agruparse. 



Dispersión  Indican la mayor o menor concentración de los datos con respecto a las medidas de tendencia central. 



Varianza, Desvío estándar, coeficiente de variación, rango intercuartílico

Posición  Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. 



Media, mediana, moda

Cuartiles, deciles, percentiles

Forma  Indican como se distribuyen los datos 

Ceficiente de asimetría y Coeficiente de curtosis

3

Relacionando gráficos de distribución de frecuencias con estadísticos

2

Estadísticos de tendencia central Son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. 150

151

152

154 155

Son valores numéricos que tienden a localizar la parte central de un conjunto de datos.

155 155 Media Mediana Modo

157

157 160

162

Media Mediana Modo



Media o promedio aritmético: Es la suma de los valores de una variable dividido por el total de datos.  Media de 2,2,3,7 es x

2 23 7  4 n

x 

x i 1

i

n

Centro de gravedad de los datos 6

3

Media – Propiedades  La suma algebraica de los desvíos de cada observación, respecto de la media, considerando los signos, es cero. ∑ x - x   0 i

 La suma de los desvíos cuadráticos de cada observación respecto de su media, es un mínimo. ∑

x

i

- x

2

 Mínimo

 Es un valor típico o representativo porque su valor puede utilizarse para estimar la suma total en la muestra. Suma Total =

n * x

 Dado que todos los valores entran en el cálculo de la media, ésta se ve afectada por valores extremos.

Media aritmética En tablas de datos sin agrupar

En tablas de datos agrupados

x

f

x

mc

f

3

1

x . fa

2a4

3

2

6

8

4a6

5

9

9

15

6a8

7

10

n

12

4

8 a 10

9

total

28

total

n

x  i1

i

1 22

n

3.1 6.8  9.1512.4 x  8.35 28

mc. f

x  i1

n



3.25.97.109.1 5.90 22

4

Media



0

1

2

3

4

5

6

7

8

9

10

0

1

2

3

4

5

6

7

8

9 10

Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos.

MEDIA PONDERADA La media ponderada nos permite calcular un promedio que toma en cuenta la importancia de cada valor con





respecto al total.

10

5

Mediana 

Es un valor que divide a las observaciones ordenadas en dos grupos con el mismo número de individuos  Mediana de 1,2,4,5,6,6,8 es  Mediana de 1,2,4,5,6,6,8,9 es  Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos.

Altura mediana

Número par de datos: promedio de los valores centrales de la serie ordenada

150 152 154 155 155

157 157 157 157 160

Número impar de datos: valor que está justo en el centro de la serie ordenada 150 151 152 154 155 155 157 157 157 157 160

Me0 = 5,5

Me0 = 6

Me = ( 155 +157 ) / 2 = 156 gr.

Me = 155 gr.

Propiedad  Su valor está afectado por el número de observaciones, pero no por los valores que adopta la variable.

6

Mediana 

Datos sin agrupar Número de observaciones impar: la mediana corresponde al valor central 2, 3, 5, 5, 7 Mn=5  Número de observacionales par: la mediana corresponde al promedio de los dos valores centrales 2, 3, 5, 7 Mn=(3+5)/2=4





X

f

F

2-8

6

6

8-14

10

16

14-20

15

31

20-26

9

40

26-32

8

48

Moda 

 

Es el valor de la variable que más se repite  Moda de 1,2,4,5,6,6,8 es  Moda de 1,2,2,5,6,6,8 es  Moda de 1,2,4,5,6,7,8,9 es Es el único estadístico calculable en variables cualitativas En variables continuas, es el/los valor/es donde la distribución de frecuencia alcanza un máximo, relativo o absoluto.

7

Moda 

X

f

0-5

1

5-10

13

10-15 17 15-20 21 20-25 12 25-30 7

La elección de la Medida de Tendencia Central depende....

Del tipo de variable cuantitativa o cualitativa

Del tipo de distribución simétrica o asimétrica

En general: Variables cuantitativas  Si la distribución es simétrica, puede elegirse la Media, Mediana o el Modo; se recomienda la Media por que posee propiedades útiles, como estimador en Inferencia Estadística.  Si la distribución es asimétrica, se recomienda el uso de la Mediana. Variables Cualitativas  Nominales, solo es factible calcular el Modo.  Ordinales, se recomienda el Modo o la Mediana.

8

Estadísticos de posición 

Se define el fractil de orden k como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada k.



Casos particulares son los cuartiles, deciles, percentiles,...

Estadísticos de posición 

Cuartiles: Dividen a la muestra en 4 grupos con la misma cantidad de datos. Q1 = Valor de la variable correspondiente a la (n+1)/4 observación ordenada. Deja por debajo el 25% de los datos  Q2 = Valor de la variable correspondiente a la 2(n+1)/4 observación ordenada. Deja por debajo el 50% de los datos = mediana  Q3 = Valor de la variable correspondiente a la 3(n+1)/4 observación ordenada. Deja por debajo el 75% de los datos 

9

Estadísticos de posición 

Deciles: Dividen a la muestra en 10 grupos con la misma cantidad de datos 



El D1 deja por debajo al 10% de las observaciones. Por encima queda el 90%

Percentiles: Dividen a la muestra en 100 grupos con la misma cantidad de datos  

La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85%

Estadísticos de posición 

Cuartiles: dividen a la muestra en cuatro grupos con la misma cantidad de datos K .n QK  li  4



 FA

fa

.h

Deciles: dividen a la muestra en diez grupos con la misma cantidad de datos K .n  FA DK  li  10 .h fa



K=1, 2, 3

K=1, ….., 9

Percentiles: dividen a la muestra en cien grupos con la misma cantidad de datos Kn  FA 100 PK  li  .h fa

K=1, ….., 99

20

10

Ejemplo ¿Qué peso no llega a alcanzar el 25% de los individuos?  Primer cuartil = percentil 25 = 60 Kg.





¿Qué peso es superado por el 25% de los individuos? – Tercer cuartil= percentil 75= 80 kg.



¿Entre qué valores se encuentra el 50% de los individuos con un peso “más normal”? – Entre el primer y tercer cuartil = entre 60 y 80 kg.

50%

Gráfico de caja (Box Plot) 

  

Dato atípico 20

15

Q3 10

RIQ



Ordenar los datos de menor a mayor Hallar los 5 números resumen: mín, Q1, mediana, Q3 y máx Los dos cuartiles determinan los bordes de la caja y la mediana, la línea que la atraviesa Calcular el RIQ = Q3 – Q1 Calcular los límites inferior y superior como min y max, respectivamente Prolongar la línea hasta el valor menor y mayor, respectivamente, dentro de los límites

variable



Med Q1

5

0

11

Un experto en estándares de trabajo observa el tiempo que se requiere para preparar una muestra de 10 cartas de negocios, en una oficina y obtiene los siguientes resultados: 7 14 5 9 15 16 5 18 15 Calcula las medidas de posición

23

Diagrama de Caja y Sesgo (Box and Whisker Plot) Un resumen de cinco números .... Xmin

Q1

Q2

Q3

Xmax

X m X m aax x

17 1 5

13

H ora s

11 9

Q 3

M e d ia

7

M ee ddi ai a nn a a M

5

Q 1 3

X m X m i ni n

1

 La longitud de la caja representa el Rango o Amplitud intercuartil (Q3 – Q1). El 50% de las observaciones (ordenadas por su magnitud) se encuentran dentro de la caja.  El box plot incluye y representa valores extremos (alejados o outliers).

12

¿Cómo podemos interpretar nuestros datos a partir del diagrama de caja ? Ubicación de la mediana en la caja  No esta en el centro de la caja entonces la distribución presenta asimetría. • Si se localiza cerca del extremo inferior (Q1), distribución asimétrica positiva, con una cola (sesgo) alargado a la derecha.

• Si se localiza cerca del extremo superior (Q3), distribución asimétrica negativa, con una cola (sesgo) alargado a la izquierda.

 Esta en el centro de la caja entonces la distribución es simétrica ( o aproximadamente simétrica).

Preguntas, dudas, cuestiones......  Las Medidas de Tendencia Central son suficientes para caracterizar un conjunto de datos???  Puedo comparar dos o mas conjuntos de datos solo con el Promedio???  Cuando dos conjuntos de datos, tienen un mismo valor promedio

Podemos suponer que los datos de ambos son iguales???

Podemos suponer que los datos son distintos???

13

Medidas de Dispersión La dispersión de un conjunto de observaciones, se refiere a la magnitud de la variabilidad que presentan las mismas.

 Rango

Xmin

 Amplitud intercuartil  Variancia  Desvío Estándar  Coeficiente de Variación Xmax Media Rango

Grupo 1 150 152 154 155 155 157 157 157 157 160 155,4 gr 10 gr

Grupo 2 148 152 154 155 155 157 157 157 157 162 155,4 gr 14 gr

Grupo 3 140 148 150 155 155 158 160 162 162 164 155,4 gr 24 gr

Estadísticos de dispersión Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. 

Amplitud o Rango:

La diferencia entre las observaciónes extremas. 2,1,4,3,8,4. El rango es  Es muy sensible a los valores extremos.  Su uso sólo es válido para conjuntos de datos pequeños 



Rango intercuartílico (RIQ): 

Es la distancia entre el primer y tercer cuartil. 

Rango intercuartílico = Q3 - Q1 = P75

- P25

Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.  No es tan sensible a valores extremos. 

28

14

Varianza



 x n

Varianza

   



i 1

i

x

n -1



n

2





i 1



fa x i  x



n



2

n -1





fa mc  x



2

i 1

n -1

Es el promedio de las desviaciones (al cuadrado) de cada dato con respecto a la media A mayor variabilidad, mayor varianza Es sensible a valores extremos Sus unidades son las de la variable pero al cuadrado!

29



Desvío estándar o típico

 x n

Desvío estándar 

var ianza 

i 1

i

x



2

n

Tiene las mismas unidades que la variable  A mayor variabilidad, mayor desvío estándar  No confundir con error estándar o típico 

30

15

Variancia y Desvío Estándar La Variancia y el Desvío Estándar miden la dispersión de los valores observados, con respecto a su media. Variancia

S2=



(x i

- x (n - 1)

Desvío Estándar

)2

Media D.E. Var(n-1)

S =

S

Grupo 1

Grupo 2

Grupo 3

155,4 2,9 8,3

155,4 3,7 13,6

155,4 7,5 56,7

2

Unidades S2 = 8,3 (gr)2

S =2,9 gr

Un experto en estándares de trabajo observa el tiempo que se requiere para preparar una muestra de 9 cartas de negocios, en una oficina y obtiene los siguientes resultados: 7 14 5 9 15 16 5 18 15 Calcula las medidas de dispersión



32

16

•Dada la siguiente distribución de salarios, en pesos, observada en una jurisdicción provincial: 1)Calcula el sueldo promedio, moda y mediana. 2)Calcula la desviación estándar S 1250012600

f

6

12600–

12700-

12800-

12900-

13000-

13100-

12700

12800

12900

13000

13100

13200

9

16

12

9

5

3

33



Coeficiente de variación

CV 

  

s  100 x

No tiene unidades Es una medida de variabilidad relativa: Mide que proporción de la media representa el desvío estándar Se utiliza para comparar variabilidad

34

17

Coeficiente de Variación Medida relativa de variabilidad. Es adimensional y permite comparar conjuntos de datos medidos en diferentes unidades

C .V . =

S x

* 100

A modo de ejemplo para la variable altura de dos grupos de niños....... Grupo 1: Media = 48 pulgadas D. Estándar = 6 pulgadas C.V. = 12.5% Grupo 2: Media = 120 cm

D. Estándar = 15 cm

C.V. = 12.5%

Un señor desea invertir en la bolsa y tiene los siguientes datos: Acción A: media = $ 5120 y desviación estándar = $ 330 Acción B: media = $ 5300 y desviación estándar = $ 450 Sabiendo que para los negocios siempre adopta una posición muy conservadora (no asume riesgos) ¿Podrías ayudarlo a tomar una decisión respecto a dónde debe invertir?



36

18

Asimetría 









Una distribución es simétrica si la mitad izquierda de su distribución es la imagen especular de su mitad derecha. En las distribuciones simétricas media y mediana coinciden. Si sólo hay una moda también coincide La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de tendencia central son indicación de asimetría. 37

Asimetría 

Propiedad de los datos que tiene en cuenta la forma de distribución de los mismos 

Posición de la media con respecto a la mediada   



Media > Mediana Media = Mediana Media < Mediana

Asimétrica positiva Simétrica Asimétrica negativa

Coeficiente Pearsoniano S KP 

3( Media  Mediana) Desvío

Valores negativos: asimetría negativa  Valores positivos: asimetría positiva  Valores aproximados a cero: simétrica 

38

19



Coeficiente de curtosis 1 (Q3  Q1 ) K 2 P90  P10   

K=0 K=0.26 K=0.5

platicurtica mesocurtica leptocurtica

39

Estadísticos y gráficos recomendados según el tipo de variable Tipo de variable

Tipo de gráfico

Medida de tend. central

Medida de dispersión

Circular  De barras

modo

-

De barras

modo

-

modo

-

media

desvío std

mediana

RIQ

Histograma

modo

-

Box

media

desvío std

mediana

RIQ

Cualitativa Nominal



Cualitativa ordinal



Cuantitativa Discreta Cuantitativa Continua

De

barras Box Plot

Plot

20