Breve Manual de R y R Commander

BREVE MANUAL DE R Y R COMMANDER GILDA GARIBOTTI Este manual est´a dise˜ nado para introducir R en un curso inicial de e

Views 38 Downloads 0 File size 136KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

BREVE MANUAL DE R Y R COMMANDER GILDA GARIBOTTI

Este manual est´a dise˜ nado para introducir R en un curso inicial de estad´ıstica. Esta es una versi´on preliminar y ser´a actualizada frecuentemente en los pr´oximos meses. Los distintos m´etodos estad´ısticos son trabajados sobre un u ´ nico ejemplo que es de f´acil compresi´on para alumnos de cualquier orientaci´on. La idea es que se analice este ejemplo en detalle y se lo utilice para trabajar de manera similar otros ejemplos del pr´actico de la materia. El R es un paquete estad´ıstico de distribuci´on gratuita. La p´agina de web del programa es http://www.cran.r-project.org 1.

Instalar R

El R corre en distintos sistemas operativos, entre otros Linux, Unix, Windows y Mac. Las indicaciones que daremos en esta secci´on y en la secci´on Instalar R Commander se refieren a la instalaci´on en Windows. Para la instalaci´on en otro sistema operativo consultar la p´agina de web de R. Cree un subdirectorio llamado R dentro del directorio Archivo de programa. Entre en la p´agina de web de R http://www.cran.r-project.org Del recuadro titulado Download and Install R seleccione Windows (95 and later) → base → R-2.6.1-win32.exe (Nota: 2.6.1 es la versi´on de R al momento de escribir este manual, en el futuro el nombre del archivo contar´a con otros n´ umeros.) Guarde el archivo R-2.6.1-win32.exe en el directorio Archivos de programa/R/ Para instalar el programa corra el archivo R-2.6.1-win32.exe. Elija el idioma y presione Siguiente a medida que el instalador lo vaya solicitando. Recomendamos no hacer ning´ un cambio en las opciones que el instalador va proponiendo. Por ultimo apriete Finalizar. Para correr el programa hay que hacer click dos veces sobre el icono. 2.

Instalar R Commander

El R Commander es la versi´on con men´ us de R. Baje el paquete R Commander de la p´agina de web de R. De la columna de la izquierda seleccione Packages. Luego, en la parte central de la p´agina bajo el t´ıtulo Available Bundles and Packages elija Rcmdr → Rcmdr 1.3-5.zip. (Nota: La versi´on del paquete cambiar´a en el futuro.) Guarde el archivo Rcmdr 1.3-5.zip en el directorio Archivos de programa/R/. Ponga a correr el R. Del men´ u de R seleccione Paquetes → Instalar paquete(s) a partir de archivos zip locales. Busque el directorio R y seleccione el archivo Rcmdr 1.3-5.zip. Presione Abrir. Tenga en cuenta que la instalaci´on de R Commander es id´entica a la instalaci´on de cualquier otro paquete de R. Date: 4 de febrero de 2008. 1

2

GILDA GARIBOTTI

3.

Bibliograf´ıa recomendada

R Development Core Team, Introducci´on a R. Versi´on en castellano de An introduction to R, traducido por A. Gonz´alez y S. Gonz´alez. E. Paradis, R para principiantes. Versi´on en castellano de R for beginners, traducido por J. Ahumada. (Lo recomiendo especialmente para la parte de gr´aficos.) Estos manuales se pueden bajar de la p´agina de web de R. Seleccione Manuals en la columna de la izquierda y vaya a contributed documentation. Cada paquete de R tiene su documentaci´on que se puede bajar del mismo lugar de donde se baj´o el paquete (Reference manual). 4.

´sicas Instrucciones ba

4.1. Definir el directorio de trabajo. Antes de comenzar a trabajar recomiendo que defina el directorio donde se va a querer trabajar. Supongamos que quiere trabajar en el directorio C:/nombreDirectorio En el prompt de la ventana R Console escriba > setwd("C:/Documents and Settings/pepe/Mis Documentos/acaTrabajoEnRHoy") De este modo, cuando quiera guardar o leer un archivo autom´aticamente R se va a posicionar en ese directorio. Esto no impide que uno elija otro si lo quiere pero evita tener que buscar el directorio correcto cada vez. Si uno no define el directorio de esta manera, autom´aticamente R se posiciona en el directorio donde fue instalado el programa, Archivos de programa/R/, y no es una buena idea guardar otros archivos all´ı. 4.2.

Arrancar el R Commander. Seleccione Paquetes → Cargar paquete → Rcmdr. Aparece la ventana de R Commander. Otra manera de arrancar el R Commander es escribir library(Rcmdr) en el prompt de la venta de R, R Console.

4.3.

Salir. En la ventana de R Commander elija Fichero → Salir → De Commander y R. En caso de no haber entrado en R Commander y querer salir de R seleccione Archivo → Salir y responda no a la pregunta ¿Guardar imagen de ´ area de trabajo?. Tambi´en se puede salir escribiendo q() en el prompt de R Console. 5.

Manejo de datos

Todas las menciones a elegir de men´ us que se dan en esta secci´on, se refieren a la ventana de R Commander. 5.1. Ingreso de datos. Suponga que queremos ingresar los datos del Cuadro 1. Llamaremos prueba1 a este conjunto de datos. En R prueba1 se denomina data.frame. prueba1 consta de dos variables dia y observacion. Tenga en cuenta que el nombre prueba1 es arbitrario. Seleccione Datos → Nuevo conjunto de datos. Aparecer´a una ventana. Borre Datos e ingrese el nombre prueba1 para el conjunto de datos que vamos a crear y presione Aceptar. Aparecer´a el editor de datos. Comience por ingresar los 10 datos de la variable dia en la columna encabezada por var1 y los 10 datos de la variable observacion en la columna de var2. Para cambiarle el nombre a las columnas presione sobre var1. Aparecer´a una ventana donde puede ingresar el nombre de la variable, dia en este caso. Haga lo mismo con

BREVE MANUAL DE R Y R COMMANDER

3

dia observacion dia1 2.3 dia1 2.1 dia1 1.7 dia1 1.8 dia1 1.5 dia2 2.0 dia2 2.3 dia2 2.6 dia2 2.5 dia2 1.9 Cuadro 1. Datos para cargar en R. var2. Usted ten´ıa la opci´on de especificar el tipo de variable, dia es una variable cualitativa (character) y observacion es una variable cuantitativa (numeric). Cierre el editor. 5.2.

Grabado de datos. Para grabar los datos en el formato de R elija Datos → Conjunto de datos activo → Guardar el conjunto de datos activos. Elija el directorio donde quiere guardar los datos y el nombre del archivo, luego presione Guardar. Para grabar datos en otro formato seleccione Datos → Conjunto de datos activo → Exportar el conjunto de datos activo. Recomiendo desactivar las opciones Escribir el nombre de las filas y Entrecomillar valores tipo caracter. Tambi´en recomiendo elegir Comas como Separador de campos, en este caso utilice la extensi´on .csv (comma separated variables) para el nombre del archivo. Los archivos .csv pueden ser le´ıdos entre otros con Excel. Guarde el conjunto de datos que ingresamos en un archivo llamado bbb1.csv. Preserve el nombre de las variables dejando activada la opci´on Escribir los nombres de las variables.

5.3.

Lectura de datos de un archivo. Para leer archivos .rda grabados con R elija Datos → Cargar conjunto de datos busque el archivo y apriete Abrir. Es posible importar archivos de texto como el archivo bbb1.csv que generamos anteriormente adem´as de datos de SPSS, Minitab y STATA. Suponga que queremos leer el archivo bbb1.csv. Seleccione Datos → Importar datos → desde archivo de texto o portapapeles. Elija el nombre que le quiere dar al conjunto de datos. Este se ha perdido al exportar los datos. Si los hubi´esemos guardado en formato .rda el nombre prueba1 se hubiese preservado. Ahora llamemos p1 a los datos. Ingrese este nombre en Introducir el nombre del conjunto de datos. Deje seleccionada la opci´on Nombre de las variables en el fichero porque el archivo contiene el nombre de las variables. Elija Comas en el Separador de campos. Oprima Abrir. 6.

Manejo de Variables

Al ingresar los datos a trav´es del editor, R no interpreta autom´aticamente que la variable dia es una variable categ´orica. Por ejemplo, para poder hacer diagramas de cajas para

4

GILDA GARIBOTTI

cada d´ıa por separado o para poder hacer una prueba de hip´otesis para comparar la media poblacional del d´ıa 1 y la del d´ıa 2 es necesario que R considere la variable d´ıa como una variable categ´orica. La manera m´as simple de hacer esto es escribir en la Ventana de instrucciones p1$dia=as.factor(p1$dia) y presionar Ejecutar. Para que el cambio sea realmente implementado edite los datos antes de realizar cualquier otra operaci´on. Si dia hubiese sido una variable num´erica en vez de tipo caracter se podr´ıa proceder como se explica en la Secci´on 7.1.3. 7.

´ficos Gra

Los datos que se dan en el archivo ejercicio1.txt pertenecen a 78 alumnos de s´eptimo grado de una escuela rural en EEUU. El objetivo del estudio era encontrar la relaci´on entre el auto-concepto de los alumnos y su desenvolvimiento acad´emico. Las variables que se presentan son obs, un identificador del sujeto; nota, promedio de las notas de s´eptimo grado; ci, coeficiente intelectual; sexo, femenino (1) o masculino (2) y concepto, puntaje global en la escala auto-concepto de Piers-Harris para chicos. Los valores de obs no son correlativos porque algunos alumnos abandonaron el estudio. 1. ¿Cu´antas variables contiene este conjunto de datos? ¿Cu´ales son categ´oricas y cu´ales cuantitativas? 2. Haga un gr´afico tallo-hoja de las notas. 3. Describa la forma, centro y dispersi´on de la distribuci´on de las notas. Identifique posibles observaciones at´ıpicas. 4. Grafique un histograma de la distribuci´on del coeficiente intelectual de los alumnos. Considere 10 clases y utilice la escala de densidad. 5. Describa la forma, centro y dispersi´on de la distribuci´on del coeficiente intelectual. Identifique posibles observaciones at´ıpicas. El ci en general est´a centrado en 100. ¿El punto medio para estos alumnos es cercano a 100, claramente superior a 100 o claramente inferior a 100? 6. Compare mediante histogramas la distribuci´on del auto-concepto de varones y mujeres. 7. Utilizando diagramas de cajas compare la distribuci´on de las notas de hombres y mujeres. Describa cuales son las diferencias mas importantes. 7.1. Ayuda para la resoluci´ on. Comience por importar los datos en R Commander. Llamaremos dd al conjunto de datos. 7.1.1. Gr´afico tallo-hoja. Seleccione Gr´ aficas → Gr´ afica de tallos y hojas. En la ventana Gr´ afica de tallos y hojas elija la variable nota. Entre las opciones omitir Eliminar valores at´ ıpicos. Una opci´on del R al hacer el gr´afico de tallo-hoja es omitir las observaciones at´ıpicas. Se recomienda hacer una primera inspecci´on de todos los datos y luego decidir si es necesario omitir las observaciones at´ıpicas para obtener mayor detalle del grupo principal de observaciones. El gr´afico aparece en la Ventana de resultados. 7.1.2. Histograma. Seleccione Gr´ aficas → Histograma. En la ventana Histograma elija la variable ci, N´ umero de clases, 10 y Escala de los ejes, Densidades. El comando que realiz´o el gr´afico es el que aparece en la Ventana de instrucciones Hist(dd$ci, scale="density", breaks=10, col="darkgray")

BREVE MANUAL DE R Y R COMMANDER

5

Para obtener informaci´on sobre la funci´on Hist escriba ?Hist en la Ventana de instrucciones y presione Ejecutar. El cursor tiene que haber quedado en el rengl´on donde escribi´o ?Hist. Otra posibilidad es escribir ?Hist en R Console y apretar la tecla Enter. Para hacer un histograma para hombres y otro para mujeres tiene que definir dos nuevos conjuntos de datos, uno que contiene la informaci´on sobre los hombres y otro que contiene la informaci´on sobre las mujeres. Seleccione Datos → Conjunto de datos activo → Filtrar el conjunto de datos activo. Tenemos la opci´on de elegir que s´olo algunas de las variables est´en en el nuevo conjuntos de datos, en nuestro caso s´olo nos interesa la variable concepto, entonces sacamos la marca de Incluir todas las variables y elegimos concepto. Recomiendo que guarde tambi´en la variable sexo para que pueda verificar que lo que hizo es lo que quer´ıa. Supongamos que comenzamos por definir el conjunto de mujeres. En Expresi´ on de selecci´ on escribimos sexo == 1 y Nombre del nuevo conjunto de datos puede ser mujeres por ejemplo. Edite el conjunto de datos para ver que el conjunto definido es correcto. Note que ahora apretando en el recuadro al lado de Conjunto de datos se pueden seleccionar dos conjuntos de datos, dd y mujeres. Es fundamental que al hacer cualquier gr´afico u operaci´on el conjunto de datos activo sea el correcto. Por u ´ ltimo realice el histograma. De manera an´aloga se obtiene el histograma de los hombres. Tenga en cuenta que para comparar dos gr´aficos cualesquiera, y en particular dos histogramas, es necesario que las escalas de los dos gr´aficos sean las mismas. En este caso, las escalas del eje x coinciden pero las del eje y no. Una manera de resolver esto es especificando el rango de valores del eje y de los gr´aficos, de modo que los dos gr´aficos tengan un rango de valores de igual longitud. En este caso, si tomamos el rango de valores 0 a 0.037, cubrimos el rango de valores necesario para los dos gr´aficos. El rango de valores del eje y se especifica agregando el par´ametro ylim=c(0,0.037) a la funci´on Hist. En la Ventana de instrucciones escriba Hist(mujeres$concepto, scale="density",breaks="Sturges", col="darkgray",ylim=c(0,0.037)) y luego presione Ejecutar. ¿C´omo hacer para ver los dos histogramas simult´aneamente? Hay distintas posibilidades: • Escriba x11() en la Ventana de instrucciones y presione Ejecutar antes de realizar el histograma de los hombres. • Guarde cada gr´afico en un archivo separado. En la Secci´on 7.1.4 se explica como guardar un gr´afico en un archivo. • Haga los dos gr´aficos en la misma p´agina. Para ello, antes de realizar los gr´aficos escriba en la Ventana de instrucciones layout(matrix(1:2, ncol=1)) y presione Ejecutar. Luego, realice los dos gr´aficos de la misma manera descripta anteriormente. Si desea cambiar los nombres del eje x y/o del eje y debe usar la funci´on hist en vez de la funci´on Hist que utiliza R Commander. Esta funci´on se comporta de manera similar a Hist pero tiene m´as opciones. Por ejemplo, en nuestro caso podr´ıamos especificar hist(mujeres$concepto, freq=FALSE,breaks="Sturges",col="darkgray",

6

GILDA GARIBOTTI

ylim=c(0,0.037),xlab="auto-concepto",ylab="densidad", main="Histograma de auto-concepto de mujeres") Vea la ayuda para otras opciones, ?hist. 7.1.3. Gr´afico de cajas. R Commander permite realizar gr´aficos de cajas de una variable para distintos grupos simult´aneamente. Los grupos est´an definidos por los valores de una variable categ´orica. En nuestro caso, R considera la variable sexo como una variable num´erica porque est´a codificada con los valores 1 y 2. Para convertirla a una variable categ´orica, seleccione Datos → Modificar variables del conjunto de datos activo → Convertir variable num´ erica en factor. Elija la variable sexo. Puede dejarle el mismo nombre, sexo. Renombre las categor´ıas usando F en vez de 1 para mujeres y M para hombres, en vez de 2. Entonces elija Asignar nombres a los niveles. En la ventana Nombres de niveles para sexo escriba F y M y presione Aceptar. Ahora est´a en condiciones de hacer el diagrama de cajas. Seleccione Gr´ aficas → Diagrama de caja. Elija la variable nota. Presione Gr´ afica por grupos. Elija la variable que quiere usar para definir los grupos, tiene que ser una variable categ´orica. En nuestro caso sexo. Presione Aceptar. El comando que realiz´o el gr´afico es el que aparece en la Ventana de instrucciones boxplot(nota~sexo, ylab="nota", xlab="sexo", data=dd) Para hacer un gr´afico m´as elegante podemos usar otras opciones de la funci´on boxplot. Para investigar las opciones escriba ?boxplot en la Ventana de instrucciones y presione Ejecutar. Lea las opciones y los ejemplos que aparecen al final del documento. Por ejemplo si queremos colorear las cajas, la de mujeres en rojo y la de hombres en azul tenemos que escribir boxplot(nota~sexo, ylab="nota", xlab="sexo", col=c("red","blue"), data=dd) 7.1.4. Guardar gr´aficos. Una vez que realiz´o el gr´afico y con la ventana del gr´afico activada lo puede guardar de la siguiente manera: Seleccione Gr´ aficas → Guardar gr´ afico en fichero → como PDF/Postscript/EPS. Elija PDF. Busque donde quiere guardar el archivo y dele un nombre. 8.

´ n y desviacio ´n Medidas de posicio

1. Halle la media y la mediana del auto-concepto de las mujeres. ¿Qu´e caracter´ıstica de la distribuci´on explica el hecho que la mediana sea mayor que la media? 2. Halle la desviaci´on est´andar, la desviaci´on respecto de la mediana (MAD) y la varianza muestral del auto-concepto de las mujeres. 3. Halle los percentiles del 20 %, 50 % y 80 % del auto-concepto de todos los chicos que participaron del estudio. 8.1.

Ayuda para la resoluci´ on. Cargue el conjunto de datos de mujeres que cre´o en la Secci´on 7. Para obtener la media y la mediana hay dos opciones. • Seleccione Estad´ ısticos → Res´ umenes → Res´ umenes num´ ericos. Elija la variable concepto. Elija Media y Cuantiles 0.5 para la mediana.

BREVE MANUAL DE R Y R COMMANDER

7

• Otra opci´on es seleccionar Estad´ ısticos → Res´ umenes → Conjunto de datos activo. Obtiene el promedio, el desv´ıo est´andar, los percentiles del 0 % (m´ınimo), 25 %, 50 % (mediana), 75 % y 100 % (m´aximo) y el n´ umero de observaciones de todas las variables. La desviaci´on est´andar se calcula a partir de la opci´on Res´ umenes num´ ericos descripta arriba. El MAD y la varianza muestral se calculan escribiendo mad(dd$concepto) y var(dd$concepto) en la Ventana de instrucciones y presionando Ejecutar. Los percentiles se obtienen escribiendo quantile(dd$concepto,prob=c(0.2,0.5,0.8)) en la Ventana de instrucciones y presionando Ejecutar. 9.

´ n entre auto-concepto y desenvolvimiento acad´ Relacio emico

1. Defina una variable que tome el valor “bajo” si el auto-concepto del chico es inferior al percentil del 20 %, “medio” si est´a entre el percentil del 20 % y el del 80 % y “alto” si es superior al percentil del 80 %. En cada clase incluya el extremo derecho del intervalo y no el izquierdo. 2. Mediante un diagrama de cajas compare la distribuci´on de las notas de los alumnos con auto-concepto bajo, medio y alto. 3. Construya histogramas de las notas para cada grupo de auto-concepto por separado. 4. Calcule la media, la mediana y el desv´ıo est´andar de las notas para cada grupo de auto-concepto por separado. 5. Calcule el MAD de las notas para cada grupo de auto-concepto por separado. 6. Utilice sus resultados para escribir una breve descripci´on de los tres grupos. ¿Los chicos con auto-concepto alto tienen mejores notas que los que tienen auto-concepto bajo? ¿Cu´al de sus descripciones (histogramas, diagrama de cajas, medidas num´ericas) muestra esto? ¿C´omo se comparan los chicos con auto-concepto alto y medio? ¿Cu´al grupo es m´as disperso cuando ignoramos las observaciones at´ıpicas? ¿Cu´al de sus descripciones muestra esto m´as claramente? 9.1.

Ayuda para la resoluci´ on. El percentil del 20 % de la variable concepto es 49 y el del 80 % 67. Por lo tanto la nueva variable que llamaremos ind20 tomar´a el valor “bajo” si el auto-concepto es inferior o igual a 49, “medio” si el auto-concepto est´a entre 49 y 67 incluyendo 67 y no incluyendo 49 y “alto” si es superior a 49. • Comience por definir una variable ind1 que tomar´a el valor T RUE si concepto > 49 y F ALSE si concepto ≤ 49. Seleccione Datos → Modificar variables en el conjunto de datos activo → Calcular una nueva variable. Nombre de la nueva variable: ind1, Expresi´ on a calcular concepto > 49. • De manera an´aloga defina la variable ind2 que toma el valor T RUE si concepto > 67 y F ALSE si concepto ≤ 67. • Luego defina la variable ind3 = ind1 + ind2. Nuevamente utilizando la opci´on Calcular una nueva variable y escribiendo la Expresi´ on a calcular ind1+ ind2.

8

GILDA GARIBOTTI

• Por u ´ ltimo defina la variable ind20. Elija Datos → Modificar variables en el conjunto de datos activo → Recodificar variables. Elija la variable ind3 en Variables a recodificar. Nuevo nombre o prefijo para variables m´ ultiples recodificadas: ind20. Introducir directrices de recodificaci´ on: 0 =”bajo”; 1 =”medio”; 2 =”alto”. Edite el conjunto de datos y verifique que la variable est´a bien definida. Borre las variables ind1 e ind2 y guarde el conjunto de datos ya que la variable ind20 la volver´a a utilizar m´as adelante. Para calcular la media, la mediana y el desv´ıo est´andar de las notas para cada grupo de auto-concepto por separado seleccione Estad´ ısticos → Res´ umenes → Tabla de estad´ ısticas. En Factores elija ind20 y en Variables explicadas nota. Despu´es elija el estad´ıstico que quiera. Para calcular el MAD elija Otro y en la caja que lo acompa˜ na escriba mad. Para la media, la mediana y el desv´ıo est´andar otra opci´on es elegir Res´ umenes num´ ericos y utilizar la opci´on Resumir por grupos. 10.

´ n entre auto-concepto y coeficiente intelectual Relacio

De manera similar a lo realizado en el ejercicio de la Secci´on 9, estudie la relaci´on entre auto-concepto y coeficiente intelectual. En este caso considere s´olo dos grupos de autoconcepto. El grupo de auto-concepto “bajo”, formado por los chicos cuyo auto-concepto es inferior al percentil del 20 % y el grupo de auto-concepto “medio y alto” formado por los restantes chicos. 11.

´ n normal Distribucio

1. Halle la las siguientes probabilidades a) Z ∼ N(0, 1): P (Z < 2.85), P (Z ≥ 2.76), P (Z > −1.66), P (−1.66 ≤ Z < 2.85) b) X ∼ N(266, 256): P (X < 282), P (234 ≤ X ≤ 298). 2. La variable Z tiene distribuci´on normal est´andar. a) Halle el valor de z tal que el evento Z < z tiene probabilidad 0.8. b) Halle el valor de z tal que el evento Z ≥ z tiene probabilidad 0.35. 3. ¿La distribuci´on del coeficiente intelectual de los datos de la Secci´on 7 es aproximadamente normal? Para contestar esta pregunta realice un histograma con 10 clases y superponga la curva normal y realice un gr´afico de percentiles normales. ¿Cu´an bien satisface el coeficiente intelectual la regla del 68-95-99.7 %? Para contestar esta pregunta calcule la media x¯ y el desv´ıo est´andar s del coeficiente. Luego calcule el porcentaje de observaciones que caen entre x¯−s y x¯+s y comp´arelo con 68 %. Haga los mismo para los intervalos que cubren 2 y 3 desv´ıos est´andar a cada lado de la media. 4. Realice un gr´afico de percentiles normales de las notas de los chicos de la Secci´on 7. ¿Las notas tienen distribuci´on aproximadamente normal? Justifique. 11.1.

Ayuda para la resoluci´ on. La funci´on pnorm permite calcular las probabilidades del tipo P (X < x) y P (X > x) para X una variable con distribuci´on normal. Para calcular P (Z < 2.85) escriba en la Ventana de instrucciones pnorm(2.85) y presione Ejecutar. Para calcular P (Z > 2.85) escriba pnorm(2.85, lower.tail=FALSE)

BREVE MANUAL DE R Y R COMMANDER

9

Para calcular P (X < 282) escriba pnorm(282,mean=266,sd=sqrt(256)) Vea la ayuda para ver otras funciones relacionadas con pnorm. Para hallar el valor de z tal que el evento Z < z tiene probabilidad 0.8 debe usar la funci´on qnorm. Escriba en la Ventana de instrucciones qnorm(0.8) Para poder comparar el histograma con la densidad normal es necesario utilizar la escala de densidad al graficar el histograma. Grafique el histograma. Luego calcule la media y el desv´ıo est´andar de la variable ci. Los valores son x¯ = 108.92 y s = 13.17. Para superponer la curva normal al histograma escriba en la Ventana de instrucciones curve(dnorm(x,mean=108.92,sd=13.17), add=TRUE, col="red",lwd=2) Para hacer un gr´afico de percentiles normales seleccione Gr´ aficas → Gr´ afica de comparaci´ on de cuantiles. Elija la variable que desea graficar y presione Aceptar. R grafica adem´as de los puntos y la recta correspondiente al ajuste perfecto a la distribuci´on normal unas lineas punteadas que corresponden a intervalos de confianza puntuales. Para eliminar estas lineas punteadas, en el llamado a la funci´on qq.plot que gener´o R para producir el gr´afico (la que aparece en la Ventana de instrucciones) agr´eguele la opci´on envelope=FALSE y presione Ejecutar. 12.

Inferencia para la media

1. Halle un intervalo de confianza del 90 % para la media del coeficiente intelectual de alumnos de s´eptimo grado de escuelas rurales de la regi´on donde se tom´o la muestra. 2. ¿Qu´e supuestos son requeridos para la validez de los m´etodos utilizados para obtener el intervalo de confianza? ¿Estos supuestos son razonables en este caso? 3. ¿Es verdad que el 90 % de los estudiantes de s´eptimo grado de escuelas rurales de la regi´on tienen un ci que est´a en el intervalo hallado en el inciso 1? 4. Suponga que se hubiesen estudiado 700 alumnos en vez de 78 y que tanto la media como el desv´ıo est´andar observados se hubiesen mantenido iguales. ¿El intervalo de confianza construido a partir de la muestra de 700 alumnos hubiese sido m´as largo, m´as corto o igual al que se obtuvo en el inciso 1? 5. Los investigadores creen que el coeficiente intelectual medio de los chicos de s´eptimo grado de escuelas rurales de la regi´on estudiada es superior al promedio general, que es 100. a) Escriba las hip´otesis nula y alternativa para evaluar la sospecha de los investigadores. b) Realice la prueba de hip´otesis. Halle el p-valor e interprete los resultados en t´erminos del problema. 6. Se desea estudiar si el coeficiente intelectual de alumnos con auto-concepto bajo (inferior al percentil del 20 %) es inferior al de aquellos que tienen auto-concepto “medio y alto”. Ver Secci´on 10. ¿Utilizar´ıa una prueba de hip´otesis bilateral o unilateral? Justifique.Realice una prueba de hip´otesis. Plantee las hip´otesis, obtenga el estad´ıstico del test, los grados de libertad y el p-valor. ¿La diferencia es significativa a nivel 1 %?

10

GILDA GARIBOTTI

7. Construya un intervalo de confianza del 90 % para la diferencia de ci medio de chicos con auto-concepto medio y alto y aquellos de auto-concepto bajo de la poblaci´on estudiada. 8. Enuncie los supuestos requeridos para la validez de los m´etodos utilizados en los incisos 6 y 7. Verifique lo que sea posible. 12.1.

Ayuda para la resoluci´ on. Intervalo de confianza para la media de una poblaci´on. • Seleccione Estad´ ısticos → Medias → Test t para una muestra. • Elija la variable ci, Media poblacional = mu0, Nivel de confianza: 0.90 y presione Aceptar. • El intervalo de confianza aparece en la Ventana de resultados. Prueba de hip´otesis para la media de una poblaci´on. • Seleccione Estad´ ısticos → Medias → Test t para una muestra. • Elija la variable ci, Media poblacional >mu0, Hip´ otesis nula: mu = 100 y presione Aceptar. Prueba de hip´otesis para diferencia de medias poblacionales. • Seleccione Estad´ ısticos → Medias → Test t para muestras independientes. • Grupos: elija la variable que defini´o en la Secci´on 10; Variable explicada: ci. Observe que en Diferencia dice con que diferencia trabajar´a en mi caso “medio y alto” menos “bajo”. De acuerdo a la diferencia que este considerando el programa debe elegir la hip´otesis alternativa. Hip´ otesis alternativa: Diferencia >0; ¿Suponer varianzas iguales? Yes. La decisi´on acerca de si suponer las varianzas iguales o no se puede tomar mirando un diagrama de cajas o realizando una prueba de hip´otesis. Para la prueba de hip´otesis elija Estad´ ısticos → Varianzas → Test F para dos varianzas. Intervalo de confianza para la diferencia de medias. Siga los mismos pasos que para la prueba de hip´otesis pero elija Bilateral en Hip´ otesis alternativa. Tenga en cuenta que diferencia est´a considerando el programa (Diferencia) para la interpretaci´on del intervalo de confianza. 13.

Inferencia para proporciones

1. Si un estudiante obtiene una nota promedio superior a 7 promociona y no debe dar examen final para terminar la primaria. a) Estime mediante un intervalo de confianza del 99 % la proporci´on de estudiantes de s´eptimo grado de escuelas rurales de la regi´on estudiada que promociona. b) ¿Hay suficiente evidencia a nivel 0.05 para decir que m´as del 60 % de los alumnos terminan la primaria sin necesidad de dar examen final? Plantee las hip´otesis, informe el valor del estad´ıstico y el p-valor. c) ¿Qu´e supuestos son necesarios para la validez de la prueba de hip´otesis y el intervalo de confianza? d ) De un intervalo de confianza del 95 % para la diferencia en la proporci´on de individuos con auto-concepto “medio y alto” y “bajo” que no deben rendir examen final. Interprete en t´erminos del problema. e) Los investigadores piensan que los alumnos con auto-concepto medio y alto tienen m´as facilidad para terminar sin necesidad de rendir examen final que aquellos que tienen auto-concepto bajo. ¿Los datos acuerdan con esta

BREVE MANUAL DE R Y R COMMANDER

11

expectativa? Establezca las hip´otesis, halle el test, su p-valor y escriba su conclusi´on. 13.1. Ayuda para la resoluci´ on. Comience por definir una variable que llamaremos promociona que vale “SI” si el alumno obtuvo un promedio superior a 7 y “NO” si debe rendir examen. Intervalo de confianza para una proporci´on. • Seleccione Estad´ ısticos → Proporciones → Test de proporciones para una muestra. • Elija la variable promociona, Proporci´ on de la poblaci´ on = p0, Nivel de confianza: 0.99 y presione Aceptar. Prueba de hip´otesis para una proporci´on. • Seleccione Estad´ ısticos → Proporciones → Test de proporciones para una muestra. • Elija la variable promociona, Proporci´ on de la poblaci´ on >p0, Hip´ otesis nula = .6, Aproximaci´ on normal con correcci´ on para la continuidad y presione Aceptar. Intervalo de confianza para la diferencia de proporciones. • Seleccione Estad´ ısticos → Proporciones → Test de proporciones para dos muestras. • Grupos: elija la variable que defini´o en la Secci´on 10; Variable explicada: promociona. Elija Aproximaci´ on normal con correcci´ on para la continuidad. Tenga en cuenta que diferencia est´a considerando el programa (Diferencia) para la interpretaci´on del intervalo de confianza. Prueba de hip´otesis para la diferencia de proporciones. Siga los mismos pasos que para el intervalo de confianza. Elija la hip´otesis alternativa apropiada teniendo en cuenta la diferencia (Diferencia) que el programa est´a considerando. 14.

´ n lineal Regresio

Los investigadores especulan que hay una asociaci´on positiva entre coeficiente intelectual y las notas, es decir ni˜ nos con coeficiente intelectual alto tienden a tener mejores notas. 1. Grafique los datos. ¿Cu´al es la variable explicativa? 2. Describa la forma, direcci´on y fuerza de la relaci´on entre ci y nota. Identifique observaciones at´ıpicas. 3. Calcule r 2 . Describa su significado en t´erminos del problema. 4. Halle la recta de m´ınimos cuadrados. Interprete la pendiente y la ordenada al origen en t´erminos del problema. 5. ¿Hay evidencia estad´ısticamente significativa de que hay una relaci´on lineal entre coeficiente intelectual y desenvolvimiento acad´emico? Plantee las hip´otesis, calcule el test, el p-valor y escriba la conclusi´on. 6. Halle un intervalo de confianza del 99 % para la pendiente de la recta de regresi´on. ¿Este intervalo muestra que la especulaci´on de los investigadores es v´alida? 7. Calcule los valores predichos para los alumnos estudiados, utilizando la recta de regresi´on. ¿Cu´al es el valor predicho para el alumno 30 (obs = 30)? 8. Prediga, utilizando un intervalo del 95 % la nota de un alumno de la poblaci´on cuyo coeficiente intelectual es 93. Repita el c´alculo para un alumno con ci igual a 140. Discuta estas predicciones. 9. Estime mediante un intervalo de confianza del 99 % la nota media de alumnos de la poblaci´on con ci igual a 120.

12

GILDA GARIBOTTI

10. ¿Cu´ales son los supuestos para la validez de las pruebas de hip´otesis e intervalos de confianza realizados? Haga gr´aficos que le permitan verificarlos y discuta su validez. 14.1.

Ayuda para la resoluci´ on. Gr´afico: Seleccione Gr´ aficas → Diagrama de dispersi´ on →. Elija ci como variable x y nota como variable y. Borre las marcas de las opciones Cajas de dispersi´ on marginales, Linea de m´ ınimos cuadrados y Linea suavizada. Presione Aceptar. r 2 : Elija Estad´ ısticos → Res´ umenes → Matriz de correlaciones. Marque las dos variables de inter´es y presione Aceptar. Recta de regresi´on: Seleccione Estad´ ısticos → Ajuste de modelos → Regresi´ on lineal. Elija un nombre para el modelo, por ejemplo modelo1. La variable respuesta es nota y la variable explicativa es ci. Note que ahora en el recuadro contiguo a Modelo: aparece el nombre del modelo que acabamos de generar. Cada vez que quiera trabajar con ese modelo deber´a hacer aparecer su nombre en este recuadro. Intervalo de confianza para la pendiente: Elija Modelos → Intervalos de confianza. Predicci´on: Seleccione Modelos → A~ nadir las estad´ ısticas de las observaciones a los datos. Elija Valores ajustados. Los valores predichos o ajustados son agregados al conjunto de datos. Intervalos de predicci´on: Genere un nuevo conjunto de datos con una sola variable ci con los valores 93 y 140. Llamemoslo, por ejemplo nuevosDatos1. En la Ventana de instrucciones escriba predict(modelo1,newdata=nuevosDatos1,interval="prediction",level=0.95) y presione Ejecutar. Intervalos de confianza: Como en el caso de intervalos de predicci´on genere un conjunto de datos con los valores de inter´es para la variable ci. Llamemoslo, por ejemplo nuevosDatos2. En la Ventana de instrucciones escriba predict(modelo1,newdata=nuevosDatos2,interval="confidence",level=0.99) y presione Ejecutar. Verificaci´on de los supuestos: Seleccione Modelos → Gr´ aficas → Gr´ aficas b´ asicas de diagn´ ostico. 15.

´lisis de la varianza Ana

Volveremos a estudiar la relaci´on entre auto-concepto y desenvolvimiento acad´emico analizada en la Secci´on 9. 1. Realice un an´alisis de le varianza para comparar las notas medias de alumnos con auto-concepto bajo, medio y alto. Postule las hip´otesis, calcule el estad´ıstico del test y el p-valor. 2. Haga un gr´afico de medias. Utilice los resultados del ANOVA y el gr´afico para escribir un breve reporte de sus conclusiones. 3. Utilice un test de comparaciones m´ ultiples para comparar las medias de los tres grupos. 4. ¿Cu´ales son los supuestos de este modelo? ¿Se verifican? 15.1.

Ayuda para la resoluci´ on. ANOVA: Seleccione Estad´ ısticos → Medias → ANOVA de un factor. Elija la variable que define los grupos, ind20 y la variable nota como variable respuesta.

BREVE MANUAL DE R Y R COMMANDER

13

Gr´afico de medias: Elija Gr´ aficas → Gr´ afica de las medias. Seleccione las mismas variables que en el caso del ANOVA. Comparaciones m´ ultiples: Proceda como en el caso del ANOVA y marque la opci´on Comparaciones dos a dos de las medias. Supuestos: • Homogeneidad de varianzas: Analice los gr´aficos de cajas realizados en la Secci´on 9. Test de Barttlett: Seleccione Estad´ ısticos → Varianzas → Test de Bartlett. • Distribuci´on normal de los residuos: Rcmdr autom´aticamente borra los resultados del ANOVA una vez que los imprime. Para poder analizar los residuales tenemos que volver a correrlo. Busque en la Ventana de instrucciones la sentencia del an´alisis de la varianza .Anova