Curso introductorio de Análisis de Datos con STATA – UHU 2017 TEMA 2. ANALISIS ESTADÍSITICO DESCRÍPTIVO Y GRÁFICOS CON
Views 88 Downloads 0 File size 754KB
Curso introductorio de Análisis de Datos con STATA – UHU 2017
TEMA 2. ANALISIS ESTADÍSITICO DESCRÍPTIVO Y GRÁFICOS CON STATA El análisis descriptivo de datos es la primera fase del análisis estadístico. Se puede realizar mediante el cálculo de diferentes estadísticos y mediante la presentación gráfica de la información contenida en las varibles. El análisis exploratorio de datos se utiliza en las primeras fases del análisis estadístico y sirven para:
Evaluar la calidad y consistencia de la información Detectar valores no plausibles o valores extremos (outliers) Investigar la distribución de las variables de interés Investigar el cumplimiento de determinados supuestos estadísticos que se deben cumplir en etapas posteriores del análisis estadístico Resumir información mediante diferentes estadísticos
Tablas de frecuencias y estadísticos descriptivos Cuando se comienza a analizar una nueva variable estamos interesados es saber los valores que puede tomar, el número total de datos y cuántas veces aparecen los diferentes valores. La distribución de frecuencias una variable nos proporciona esta información. Para describir variables de tipo categóricas a través de tablas de frecuencias, el comando más utilizado es el comando: tabulate cat TIPO DE CENTRO DE ESTUDIOS
Freq.
Percent
Cum.
P�BLICO PRIVADO
132 43
75.43 24.57
75.43 100.00
Total
175
100.00
El comando tabulate perimte incluir dos variables, lo que generaría una tabla de doble entrada o tabla de contingencia, que permite analizar la relación entre dos variables categóricas. tabulate centro sexo TIPO DE CENTRO DE ESTUDIOS
sexo HOMBRE
MUJER
Total
P�BLICO PRIVADO
61 16
71 27
132 43
Total
77
98
175
Otras modificaciones del comando, permite realizar todas las tablas de doble entrada posibles entre un grupo de variables, por ejemplo:
José Carmona Márquez y Carmen Díaz Batanero tab2 sex estupadr estumadr habita centro En el comando tabulate que genera tablas de contingencia se pueden incluir las siguientes opciones:
row: incluye los porcentajes por filas column: incluye los porcentajes por columnas missing: trata los valores perdidos como otra categoría más nolabel: no incluye las etiquetas de los valores expect: calcula las frecuencias esperadas chi2: incluye el estadístico Chi cuadrado, que analiza la relación entre variables V: incluye el estadístico V de Cramer, como medida del tamaño del efecto.
Para variables cuantitativas, se pueden extraer tablas con estadísticos descriptivos con el comando: summarize cuant Variable
Obs
Mean
paga
167
14.44311
Std. Dev.
Min
Max
8
22
4.698891
Para obtener más estadísticos, se añade la opción: summariza cuant, detail paga semanal en euros
1% 5% 10% 25%
Percentiles 8 8 9 10
50%
13
75% 90% 95% 99%
19 22 22 22
Smallest 8 8 8 8
Largest 22 22 22 22
Obs Sum of Wgt.
167 167
Mean Std. Dev.
14.44311 4.698891
Variance Skewness Kurtosis
22.07958 .246649 1.646347
.
Y si se precisan algunos estadísticos concretos: tabstat cuant, stat (n mean sd sk ku p25 p50 p75) variable
N
mean
sd
skewness
kurtosis
p25
p50
p75
paga
167
14.44311
4.698891
.246649
1.646347
10
13
19
Gráficos con STATA Una de las capacidades básicas que ha de tener cualquier aplicación estadística es la de ser capaz de generar gráficos. Tan importante es la capacidad de tratamiento de variables y la de
Curso introductorio de Análisis de Datos con STATA – UHU 2017 generación de estadísticos como la de hacer que se muestren los datos representados mediante una imagen. Se pueden encontrar gráficos unidimensionales (representan los valores y frecuencias de cada variable independientemente de las demás, si las hubiere), gráficos bidimensionales, en los que se muestran distribuciones conjuntas de dos variables, y representaciones multidimensionales, donde se muestran distribuciones multivariantes. Stata es capaz de producir gráficos de tres modos distintos: a) En primer lugar, existe una instrucción que contiene la mayor parte de los gráficos más usuales. Se trata de la instrucción graph. b) En segundo lugar, existen otra serie de instrucciones que son capaces de realizar gráficos más específicos. En este caso, nos encontramos instrucciones como la de dotplot, que realiza histogramas basados en puntos, o stem, que realiza un gráfico de tallo y hoja. c) También Stata dispone de ciertos procedimientos de operaciones estadísticas que se pueden complementar con algún tipo de gráfico. De este modo, instrucciones gráficas como greigen, rvfplot o cluster dendrogram sólo son posibles tras la realización de previos análisis estadísticos como factor, regress y cluster, respectivamente.
La instrucción graph es sin lugar a dudas la más compleja de cuantas contiene el programa Stata.
Ejemplo: Queremos saber el tipo de centro educativo al que pertenece un grupo de estudiantes que han sido encuestados en una investigación sobre hábitos de ocio en adolescentes. Los gráficos de áreas o sectores son representaciones de los datos en un círculo cuyos segmentos representan proporcionalmente la frecuencia de los valores contenidos en una o varias variables. Para obtener un gráfico de sectores en el que, por ejemplo, un sector represente a los hombres y el otro a las mujeres, lo más común es disponer los datos por individuo en una variable categórica, como puede ser el género, habría que escribir la instrucción del siguiente modo: graph pie, over(centro) donde (sexo) es la variable que se quiere representar en el gráfico de sectores.
P?BLICO
PRIVADO
José Carmona Márquez y Carmen Díaz Batanero La instrucción graph pie admite la posibilidad de introducir una variable categórica para la obtención de tantos gráficos como valores tenga ésta. graph pie, over(sexo) by(centro) P?BLICO
PRIVADO
HOMBRE
MUJER
Graphs by TIPO DE CENTRO DE ESTUDIOS
Algunas opciones del comando graph pie:
missing: no ignora los valores perdidos sort: ordena los trozos según el tamaño plabel (…): hace que aparezca las etiquetas en los trozos format (sum/percent): hace que aparezca porcentajes o frecuencias absolutas
Los gráficos de barras también son útiles para la representación de variables no cuantitativas, pero son más recomendables que los de sectores, el caso de que se tenga un número mayor de categorías en la variable que se quiere representar. Consiste en dibujar un rectángulo para cada variable o valor representado con longitud proporcional a su valor, suma o frecuencia. Para su obtención, se necesitan instrucciones con opciones bastantes distintas a la de los gráficos de sectores. Si se dispone de datos en un archivo en el que cada registro representa un caso, en los gráficos de barra no puede emplearse directamente la opción over como se aplicó en la modalidad de sectores. Para poder hacer algo similar, hay que confeccionar el gráfico en dos pasos:
en el primero, genera una constante ficticia, equivalente al peso en porcentaje del caso en el segundo se pide la representación del recuento de ésta cruzada con la variable propiamente dicha (que en el ejemplo señalado anteriormente es sexo), debido a que Stata considera el gráfico de barras más como un caso de variable numérica (de intervalo o de razón) que de variable con atributos (nominal u ordinal), esto es: tabulate centro generate casos=100/r(N) graph bar (count) casos, over(centro)
0
50
count of casos 100
150
Curso introductorio de Análisis de Datos con STATA – UHU 2017
P?BLICO
PRIVADO
También en estos gráficos cabe la posibilidad de realizar un control por una segunda variable para realizar un gráfico bidimensional de barras, que es muy útil para representar gráficamente tablas de contingencia. tabulate var1 var2 generate casos2=100/r(N)
0
20
count of casos2 40 60
80
graph bar (count) casos1, over(var2) over(var1) stack
P?BLICO
PRIVADO
HOMBRE
P?BLICO
PRIVADO
MUJER
Especialmente en este gráfico se nota cómo hasta ahora lo que se representan son frecuencias y no porcentajes. Para obtenerlos, o para representar proporciones, en lugar de frecuencias, hay que solicitar la estadística (percent), en lugar de count, que aparecía en los anteriores gráficos. graph bar (percent) casos, over(sexo)
0
20
percent of casos 40
60
José Carmona Márquez y Carmen Díaz Batanero
HOMBRE
MUJER
Una variante ineludible del gráfico de barras es la apilada, en la que en lugar de aparecer paralelas las barras correspondientes a las categorías de la variable, aparecen contiguas en la misma columna. Esta alternativa facilita, en la mayor parte de los casos, la comparación entre categorías. Para obtenerla, es necesario añadir a la instrucción dos opciones: la primera es asyvar, que trata a la variable expresada en over como si fueran valores de distintas variables. Por eso las barras aparecen dibujadas con distintos colores. La segunda opción es stack, que como su propio nombre indica es la que hace que las barras queden apiladas. graph bar (sum) casos2, over(centro) asyvar by(sexo) stack MUJER
40 0
20
sum of casos2
60
HOMBRE
P?BLICO
PRIVADO
Graphs by sexo
Como puede fácilmente apreciarse, por el hecho de acumular el número de casos, las alturas no alcanzan el tope y la de las mujeres, es semejante que la de los hombres. Para igualar las bases de la comparación, es preciso añadir la opción percent, en cuyo caso la escala que representan las frecuencias cambia hasta tener el máximo de 100 y, en consecuencia todas las barras se igualan. graph bar (sum) casos2, over(centro) asyvar by(sexo) stack percent
Curso introductorio de Análisis de Datos con STATA – UHU 2017
MUJER
80 60 40 0
20
percent of sum of casos2
100
HOMBRE
P?BLICO
PRIVADO
Graphs by sexo
Finalmente hay que señalar que todos los gráficos de barra aquí expuestos pueden dibujarse horizontalmente. Para ello, sólo es preciso cambiar la segunda palabra de la instrucción por hbar en lugar de (bar). Por ejemplo, si se desea, dibujar el contenido de p17 en barras horizontales, se debería escribir la siguiente línea: graph hbar (count) casos1, over(centro) asyvar
0
50
count of casos2 P?BLICO
100
150
PRIVADO
Los histogramas son gráficos que se emplean para la representación de variables cuantitativas continuas. Consisten en dividir los valores en una serie de intervalos y representar cada uno de éstos con un área proporcional a su tamaño. En Stata basta con dos palabras para generar un gráfico de este tipo: el comando (histogram) seguido del nombre de la variable que se quiere representar histogram paga
0
.05
Density
.1
.15
José Carmona Márquez y Carmen Díaz Batanero
5
10
15 paga semanal en euros
20
25
Para obtener un número no automático de intervalos en el histograma, existe la opción bin(#), siendo # el número de intervalos que se quiere queden dibujados. Pero también es posible especificar, en lugar del número de intervalos, el ancho que se desea tengan las barras a través de la opción width(#) e incluso el punto de partida con start(#).
0
Density .05
.1
histogram paga, start(7) width(2)
5
10
15 paga semanal en euros
20
25
Existen más opciones adicionales que permiten mejorar la presentación del histograma. Por un lado, frequency hace mostrar las frecuencias, en lugar de los porcentajes. Se puede añadir un titulo, etiquetas y colores deseados. Por el otro, normal sobrescribe en el histograma la curva de Gauss para que pueda compararse la distribución empírica con la distribución normal.
0
10
Frequency 20
30
40
Curso introductorio de Análisis de Datos con STATA – UHU 2017
5
10
15 paga semanal en euros
20
25
histogram paga, by (sexo) MUJER
.1 0
Density
.2
HOMBRE
5
10
15
20
5
10
15
20
paga semanal en euros Graphs by sexo
Los gráficos de caja poseen una peculiar importancia en el análisis exploratorio de datos. Consisten en la representación de los datos en un rectángulo de anchura arbitraria y longitud igual al rango intercuartílico. Esto se logra dibujando uno de los límites del rectángulo en el primer cuartil y el otro en el tercero. Entre el uno y el otro también se dibuja en el rectángulo otra línea que representa la mediana. De cada extremo del rectángulo ha de salir también una línea con longitud nunca superior a vez y media el rango intercuartílico, que llegue hasta el caso que cumpla esa condición. Finalmente, siempre que haya al menos un valor de la variable fuera de esos rangos (casos extremos), ha de expresarse en forma de puntos. La forma de obtener estos gráficos con Stata es similar a la de los otros gráficos ya contemplados. Cambia, en este caso la palabra clave que sigue a la instrucción (graph): graph box [lista de variables]
José Carmona Márquez y Carmen Díaz Batanero
5
10
paga semanal en euros 15 20
25
Así, para obtener la representación de la variable edad, basta con escribir la siguiente instrucción.
0
5
10
15
20
25
Se pueden representar más de una variable en un gráfico de la caja:
ASISTENCIA ANUAL AL FUTBOL ASISTENCIA ANUAL CONCIERTOS, ACTUACIONES, ETC.
Y también se puede representar el gráfico de la caja de una variable, separado por grupos:
5
paga semanal en euros 10 15 20
25
graph box paga, over (sexo)
HOMBRE
MUJER
Curso introductorio de Análisis de Datos con STATA – UHU 2017 Evaluación de la normalidad Una de las aplicaciones del análisis exploratorio de datos, es la evaluación de la normalidad de las variables. Hay varios métodos de evaluar la normalidad, que incluye la elaboración de gráficos o la realización de tests estadísticos. El gráfico de probabilidad-probabilidad (P-P plot o gráfica porcentual) compara una función de distribución acumulada empírica con una función de distribución teórica (e.g., la función de distribución normal estándar). El comando pnorm produces un gráfico P-P estandarizado normal. La forma de interpretar este gráfico es la siguiente: si los puntos se aproximan al comportamiento lineal señalado en el gráfico, se puede considerar que la función empírica de la distribución acumulada es similar a la teórica, y por tanto se comporta “normalmente”. Si los puntos se alejan a la línea recta, la variable se aleja de una distribución normal. En el gráfico P-P que ofrece Stata la distribución acumulada de la variable empírica se ubica sobre el eje x mientras que la distribución acumulada teórica normal sobre el eje y
0.00
Normal F[(paga-m)/s] 0.25 0.50 0.75
1.00
pnorm varname
0.00
0.25
0.50 Empirical P[i] = i/(N+1)
0.75
1.00
Similarmente, la gráfica cuantil-cuantil (Q-Q plot) compara los valores ordenados de una variable con los cuantiles de una distribución teórica especifica (i.e., la distribución normal). Si las dos distribuciones son consistentes, los puntos sobre la gráfica asumen un patrón lineal que pasa a através del origen con una recta de pendiente unitaria. Las gráficas P-P y Q-Q se emplean para determinar visualmente que tan bien se ajustan los datos empíricos al comportamiento de una distribución teórica. qnorm varname
0
5
paga semanal en euros 10 15 20
25
José Carmona Márquez y Carmen Díaz Batanero
0
5
10 15 Inverse Normal
20
25
Otra forma de evaluar la normalidad de los datos es mediante pruebas estadísticas de ajuste. En estas pruebas se asume que la distribución es normal y se estima la probabilidad de que los valores observados se deriven de una distribución normal. Este procedimiento tiene la desventaja de que el resultado dependerá del tamaño de muestra. Test de asimetría y curtosis: Auque utiliza a los coeficientes de asimetría y curtosis, sktest presenta una prueba de normalidad basada en la asimetría y otra sustentada en la curtosis. Finalmente combina las dos pruebas en un estadístico resumen. Para su correcta aplicación se requiere un mínimo de 8 observaciones sktest varname Skewness/Kurtosis tests for Normality Variable
Obs
Pr(Skewness)
paga
167
0.1813
joint Pr(Kurtosis) adj chi2(2) Prob>chi2 0.0000
.
0.0000
Stata tiene incorporadas además las pruebas ShapiroWilk (swilk) y Shapiro-Francia (sfrancia). swilk puede utilizarse cuando 4 ≤ n ≤ 2000 observaciones, y sfrancia si 5 ≤ n ≤ 5000 observaciones Shapiro-Wilk W test for normal data Variable
Obs
W
V
z
Prob>z
paga
167
0.95099
6.255
4.179
0.00001
.
Shapiro-Francia W' test for normal data Variable
Obs
W'
paga
167
0.94967
V' 7.029
z
Prob>z
3.985
0.00003