descriptivos

Curso introductorio de Análisis de Datos con STATA – UHU 2017 TEMA 2. ANALISIS ESTADÍSITICO DESCRÍPTIVO Y GRÁFICOS CON

Views 88 Downloads 0 File size 754KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Curso introductorio de Análisis de Datos con STATA – UHU 2017

TEMA 2. ANALISIS ESTADÍSITICO DESCRÍPTIVO Y GRÁFICOS CON STATA El análisis descriptivo de datos es la primera fase del análisis estadístico. Se puede realizar mediante el cálculo de diferentes estadísticos y mediante la presentación gráfica de la información contenida en las varibles. El análisis exploratorio de datos se utiliza en las primeras fases del análisis estadístico y sirven para:     

Evaluar la calidad y consistencia de la información Detectar valores no plausibles o valores extremos (outliers) Investigar la distribución de las variables de interés Investigar el cumplimiento de determinados supuestos estadísticos que se deben cumplir en etapas posteriores del análisis estadístico Resumir información mediante diferentes estadísticos

Tablas de frecuencias y estadísticos descriptivos Cuando se comienza a analizar una nueva variable estamos interesados es saber los valores que puede tomar, el número total de datos y cuántas veces aparecen los diferentes valores. La distribución de frecuencias una variable nos proporciona esta información. Para describir variables de tipo categóricas a través de tablas de frecuencias, el comando más utilizado es el comando: tabulate cat TIPO DE CENTRO DE ESTUDIOS

Freq.

Percent

Cum.

P�BLICO PRIVADO

132 43

75.43 24.57

75.43 100.00

Total

175

100.00

El comando tabulate perimte incluir dos variables, lo que generaría una tabla de doble entrada o tabla de contingencia, que permite analizar la relación entre dos variables categóricas. tabulate centro sexo TIPO DE CENTRO DE ESTUDIOS

sexo HOMBRE

MUJER

Total

P�BLICO PRIVADO

61 16

71 27

132 43

Total

77

98

175

Otras modificaciones del comando, permite realizar todas las tablas de doble entrada posibles entre un grupo de variables, por ejemplo:

José Carmona Márquez y Carmen Díaz Batanero tab2 sex estupadr estumadr habita centro En el comando tabulate que genera tablas de contingencia se pueden incluir las siguientes opciones:       

row: incluye los porcentajes por filas column: incluye los porcentajes por columnas missing: trata los valores perdidos como otra categoría más nolabel: no incluye las etiquetas de los valores expect: calcula las frecuencias esperadas chi2: incluye el estadístico Chi cuadrado, que analiza la relación entre variables V: incluye el estadístico V de Cramer, como medida del tamaño del efecto.

Para variables cuantitativas, se pueden extraer tablas con estadísticos descriptivos con el comando: summarize cuant Variable

Obs

Mean

paga

167

14.44311

Std. Dev.

Min

Max

8

22

4.698891

Para obtener más estadísticos, se añade la opción: summariza cuant, detail paga semanal en euros

1% 5% 10% 25%

Percentiles 8 8 9 10

50%

13

75% 90% 95% 99%

19 22 22 22

Smallest 8 8 8 8

Largest 22 22 22 22

Obs Sum of Wgt.

167 167

Mean Std. Dev.

14.44311 4.698891

Variance Skewness Kurtosis

22.07958 .246649 1.646347

.

Y si se precisan algunos estadísticos concretos: tabstat cuant, stat (n mean sd sk ku p25 p50 p75) variable

N

mean

sd

skewness

kurtosis

p25

p50

p75

paga

167

14.44311

4.698891

.246649

1.646347

10

13

19

Gráficos con STATA Una de las capacidades básicas que ha de tener cualquier aplicación estadística es la de ser capaz de generar gráficos. Tan importante es la capacidad de tratamiento de variables y la de

Curso introductorio de Análisis de Datos con STATA – UHU 2017 generación de estadísticos como la de hacer que se muestren los datos representados mediante una imagen. Se pueden encontrar gráficos unidimensionales (representan los valores y frecuencias de cada variable independientemente de las demás, si las hubiere), gráficos bidimensionales, en los que se muestran distribuciones conjuntas de dos variables, y representaciones multidimensionales, donde se muestran distribuciones multivariantes. Stata es capaz de producir gráficos de tres modos distintos: a) En primer lugar, existe una instrucción que contiene la mayor parte de los gráficos más usuales. Se trata de la instrucción graph. b) En segundo lugar, existen otra serie de instrucciones que son capaces de realizar gráficos más específicos. En este caso, nos encontramos instrucciones como la de dotplot, que realiza histogramas basados en puntos, o stem, que realiza un gráfico de tallo y hoja. c) También Stata dispone de ciertos procedimientos de operaciones estadísticas que se pueden complementar con algún tipo de gráfico. De este modo, instrucciones gráficas como greigen, rvfplot o cluster dendrogram sólo son posibles tras la realización de previos análisis estadísticos como factor, regress y cluster, respectivamente.

La instrucción graph es sin lugar a dudas la más compleja de cuantas contiene el programa Stata.

Ejemplo: Queremos saber el tipo de centro educativo al que pertenece un grupo de estudiantes que han sido encuestados en una investigación sobre hábitos de ocio en adolescentes. Los gráficos de áreas o sectores son representaciones de los datos en un círculo cuyos segmentos representan proporcionalmente la frecuencia de los valores contenidos en una o varias variables. Para obtener un gráfico de sectores en el que, por ejemplo, un sector represente a los hombres y el otro a las mujeres, lo más común es disponer los datos por individuo en una variable categórica, como puede ser el género, habría que escribir la instrucción del siguiente modo: graph pie, over(centro) donde (sexo) es la variable que se quiere representar en el gráfico de sectores.

P?BLICO

PRIVADO

José Carmona Márquez y Carmen Díaz Batanero La instrucción graph pie admite la posibilidad de introducir una variable categórica para la obtención de tantos gráficos como valores tenga ésta. graph pie, over(sexo) by(centro) P?BLICO

PRIVADO

HOMBRE

MUJER

Graphs by TIPO DE CENTRO DE ESTUDIOS

Algunas opciones del comando graph pie:    

missing: no ignora los valores perdidos sort: ordena los trozos según el tamaño plabel (…): hace que aparezca las etiquetas en los trozos format (sum/percent): hace que aparezca porcentajes o frecuencias absolutas

Los gráficos de barras también son útiles para la representación de variables no cuantitativas, pero son más recomendables que los de sectores, el caso de que se tenga un número mayor de categorías en la variable que se quiere representar. Consiste en dibujar un rectángulo para cada variable o valor representado con longitud proporcional a su valor, suma o frecuencia. Para su obtención, se necesitan instrucciones con opciones bastantes distintas a la de los gráficos de sectores. Si se dispone de datos en un archivo en el que cada registro representa un caso, en los gráficos de barra no puede emplearse directamente la opción over como se aplicó en la modalidad de sectores. Para poder hacer algo similar, hay que confeccionar el gráfico en dos pasos:  

en el primero, genera una constante ficticia, equivalente al peso en porcentaje del caso en el segundo se pide la representación del recuento de ésta cruzada con la variable propiamente dicha (que en el ejemplo señalado anteriormente es sexo), debido a que Stata considera el gráfico de barras más como un caso de variable numérica (de intervalo o de razón) que de variable con atributos (nominal u ordinal), esto es: tabulate centro generate casos=100/r(N) graph bar (count) casos, over(centro)

0

50

count of casos 100

150

Curso introductorio de Análisis de Datos con STATA – UHU 2017

P?BLICO

PRIVADO

También en estos gráficos cabe la posibilidad de realizar un control por una segunda variable para realizar un gráfico bidimensional de barras, que es muy útil para representar gráficamente tablas de contingencia. tabulate var1 var2 generate casos2=100/r(N)

0

20

count of casos2 40 60

80

graph bar (count) casos1, over(var2) over(var1) stack

P?BLICO

PRIVADO

HOMBRE

P?BLICO

PRIVADO

MUJER

Especialmente en este gráfico se nota cómo hasta ahora lo que se representan son frecuencias y no porcentajes. Para obtenerlos, o para representar proporciones, en lugar de frecuencias, hay que solicitar la estadística (percent), en lugar de count, que aparecía en los anteriores gráficos. graph bar (percent) casos, over(sexo)

0

20

percent of casos 40

60

José Carmona Márquez y Carmen Díaz Batanero

HOMBRE

MUJER

Una variante ineludible del gráfico de barras es la apilada, en la que en lugar de aparecer paralelas las barras correspondientes a las categorías de la variable, aparecen contiguas en la misma columna. Esta alternativa facilita, en la mayor parte de los casos, la comparación entre categorías. Para obtenerla, es necesario añadir a la instrucción dos opciones: la primera es asyvar, que trata a la variable expresada en over como si fueran valores de distintas variables. Por eso las barras aparecen dibujadas con distintos colores. La segunda opción es stack, que como su propio nombre indica es la que hace que las barras queden apiladas. graph bar (sum) casos2, over(centro) asyvar by(sexo) stack MUJER

40 0

20

sum of casos2

60

HOMBRE

P?BLICO

PRIVADO

Graphs by sexo

Como puede fácilmente apreciarse, por el hecho de acumular el número de casos, las alturas no alcanzan el tope y la de las mujeres, es semejante que la de los hombres. Para igualar las bases de la comparación, es preciso añadir la opción percent, en cuyo caso la escala que representan las frecuencias cambia hasta tener el máximo de 100 y, en consecuencia todas las barras se igualan. graph bar (sum) casos2, over(centro) asyvar by(sexo) stack percent

Curso introductorio de Análisis de Datos con STATA – UHU 2017

MUJER

80 60 40 0

20

percent of sum of casos2

100

HOMBRE

P?BLICO

PRIVADO

Graphs by sexo

Finalmente hay que señalar que todos los gráficos de barra aquí expuestos pueden dibujarse horizontalmente. Para ello, sólo es preciso cambiar la segunda palabra de la instrucción por hbar en lugar de (bar). Por ejemplo, si se desea, dibujar el contenido de p17 en barras horizontales, se debería escribir la siguiente línea: graph hbar (count) casos1, over(centro) asyvar

0

50

count of casos2 P?BLICO

100

150

PRIVADO

Los histogramas son gráficos que se emplean para la representación de variables cuantitativas continuas. Consisten en dividir los valores en una serie de intervalos y representar cada uno de éstos con un área proporcional a su tamaño. En Stata basta con dos palabras para generar un gráfico de este tipo: el comando (histogram) seguido del nombre de la variable que se quiere representar histogram paga

0

.05

Density

.1

.15

José Carmona Márquez y Carmen Díaz Batanero

5

10

15 paga semanal en euros

20

25

Para obtener un número no automático de intervalos en el histograma, existe la opción bin(#), siendo # el número de intervalos que se quiere queden dibujados. Pero también es posible especificar, en lugar del número de intervalos, el ancho que se desea tengan las barras a través de la opción width(#) e incluso el punto de partida con start(#).

0

Density .05

.1

histogram paga, start(7) width(2)

5

10

15 paga semanal en euros

20

25

Existen más opciones adicionales que permiten mejorar la presentación del histograma. Por un lado, frequency hace mostrar las frecuencias, en lugar de los porcentajes. Se puede añadir un titulo, etiquetas y colores deseados. Por el otro, normal sobrescribe en el histograma la curva de Gauss para que pueda compararse la distribución empírica con la distribución normal.

0

10

Frequency 20

30

40

Curso introductorio de Análisis de Datos con STATA – UHU 2017

5

10

15 paga semanal en euros

20

25

histogram paga, by (sexo) MUJER

.1 0

Density

.2

HOMBRE

5

10

15

20

5

10

15

20

paga semanal en euros Graphs by sexo

Los gráficos de caja poseen una peculiar importancia en el análisis exploratorio de datos. Consisten en la representación de los datos en un rectángulo de anchura arbitraria y longitud igual al rango intercuartílico. Esto se logra dibujando uno de los límites del rectángulo en el primer cuartil y el otro en el tercero. Entre el uno y el otro también se dibuja en el rectángulo otra línea que representa la mediana. De cada extremo del rectángulo ha de salir también una línea con longitud nunca superior a vez y media el rango intercuartílico, que llegue hasta el caso que cumpla esa condición. Finalmente, siempre que haya al menos un valor de la variable fuera de esos rangos (casos extremos), ha de expresarse en forma de puntos. La forma de obtener estos gráficos con Stata es similar a la de los otros gráficos ya contemplados. Cambia, en este caso la palabra clave que sigue a la instrucción (graph): graph box [lista de variables]

José Carmona Márquez y Carmen Díaz Batanero

5

10

paga semanal en euros 15 20

25

Así, para obtener la representación de la variable edad, basta con escribir la siguiente instrucción.

0

5

10

15

20

25

Se pueden representar más de una variable en un gráfico de la caja:

ASISTENCIA ANUAL AL FUTBOL ASISTENCIA ANUAL CONCIERTOS, ACTUACIONES, ETC.

Y también se puede representar el gráfico de la caja de una variable, separado por grupos:

5

paga semanal en euros 10 15 20

25

graph box paga, over (sexo)

HOMBRE

MUJER

Curso introductorio de Análisis de Datos con STATA – UHU 2017 Evaluación de la normalidad Una de las aplicaciones del análisis exploratorio de datos, es la evaluación de la normalidad de las variables. Hay varios métodos de evaluar la normalidad, que incluye la elaboración de gráficos o la realización de tests estadísticos. El gráfico de probabilidad-probabilidad (P-P plot o gráfica porcentual) compara una función de distribución acumulada empírica con una función de distribución teórica (e.g., la función de distribución normal estándar). El comando pnorm produces un gráfico P-P estandarizado normal. La forma de interpretar este gráfico es la siguiente: si los puntos se aproximan al comportamiento lineal señalado en el gráfico, se puede considerar que la función empírica de la distribución acumulada es similar a la teórica, y por tanto se comporta “normalmente”. Si los puntos se alejan a la línea recta, la variable se aleja de una distribución normal. En el gráfico P-P que ofrece Stata la distribución acumulada de la variable empírica se ubica sobre el eje x mientras que la distribución acumulada teórica normal sobre el eje y

0.00

Normal F[(paga-m)/s] 0.25 0.50 0.75

1.00

pnorm varname

0.00

0.25

0.50 Empirical P[i] = i/(N+1)

0.75

1.00

Similarmente, la gráfica cuantil-cuantil (Q-Q plot) compara los valores ordenados de una variable con los cuantiles de una distribución teórica especifica (i.e., la distribución normal). Si las dos distribuciones son consistentes, los puntos sobre la gráfica asumen un patrón lineal que pasa a através del origen con una recta de pendiente unitaria. Las gráficas P-P y Q-Q se emplean para determinar visualmente que tan bien se ajustan los datos empíricos al comportamiento de una distribución teórica. qnorm varname

0

5

paga semanal en euros 10 15 20

25

José Carmona Márquez y Carmen Díaz Batanero

0

5

10 15 Inverse Normal

20

25

Otra forma de evaluar la normalidad de los datos es mediante pruebas estadísticas de ajuste. En estas pruebas se asume que la distribución es normal y se estima la probabilidad de que los valores observados se deriven de una distribución normal. Este procedimiento tiene la desventaja de que el resultado dependerá del tamaño de muestra. Test de asimetría y curtosis: Auque utiliza a los coeficientes de asimetría y curtosis, sktest presenta una prueba de normalidad basada en la asimetría y otra sustentada en la curtosis. Finalmente combina las dos pruebas en un estadístico resumen. Para su correcta aplicación se requiere un mínimo de 8 observaciones sktest varname Skewness/Kurtosis tests for Normality Variable

Obs

Pr(Skewness)

paga

167

0.1813

joint Pr(Kurtosis) adj chi2(2) Prob>chi2 0.0000

.

0.0000

Stata tiene incorporadas además las pruebas ShapiroWilk (swilk) y Shapiro-Francia (sfrancia). swilk puede utilizarse cuando 4 ≤ n ≤ 2000 observaciones, y sfrancia si 5 ≤ n ≤ 5000 observaciones Shapiro-Wilk W test for normal data Variable

Obs

W

V

z

Prob>z

paga

167

0.95099

6.255

4.179

0.00001

.

Shapiro-Francia W' test for normal data Variable

Obs

W'

paga

167

0.94967

V' 7.029

z

Prob>z

3.985

0.00003