spss

UNIVERSIDAD DE CORDOBA Departamento de Estadística, Econometría e Investigación Operativa Introducción a SPSS José Mª

Views 146 Downloads 0 File size 556KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD DE CORDOBA

Departamento de Estadística, Econometría e Investigación Operativa

Introducción a SPSS José Mª Caridad y Ocerin DT 2010

DOCUMENTOS DE TRABAJO del Grupo de Investigación PAI SEJ 281 Estadística aplicada y Econometría Editor: José Mª Caridad y Ocerin

SPSS

2

Editor: José M. Caridad y Ocerin Departamento de Estadística, Econometría, Investigación Operativa SEJ 281. PAI Comité Científico: José Mª Caridad y Ocerin, Arturo Gallego Segador, Roberto Espejo Mohedano, José Ángel Roldán Casas, Nuria Ceular Villamandos Primera Edición: Noviembre 2004 D. L.:

CO-1168-2009

SPSS

3

SPSS

4

PROGRAMAS ESTADÍSTICOS EN ORDENADOR: SPSS Desde los años sesenta empezaron a difundirse numerosos paquetes de programas estadísticos y matemáticos. El lenguaje Fortran era el más difundido en ambientes académicos y varios paquetes de rutinas (IMSL, NAG, SSP, etc.) eran utilizados para construir programas estadísticos. Posteriormente fueron los grandes programas de difusión general (BMDP, SAS, SPSS, Minitab y otros) los utilizados por la mayoría de los estadísticos en el mundo. La aparición de los microordenadores en la década de los setenta y su difusión masiva en las dos décadas siguientes, ha desplazado el análisis estadístico desde los sistemas centralizados multiusuario, a estos equipos personales. Las grandes bibliotecas de programas estadísticos se adaptaron rápidamente a estos cambios con versiones que funcionan en equipos IBM o en compatibles y en ordenadores

SPSS

5

Apple, y a la vez aparecieron nuevos paquetes como GLIM, Statgraphics, Statistica, y otros, así como programas especializados en Econometría, Investigación Operativa, o en ramas de la Estadística, como el paquete CoCo de análisis de tablas de contingencia, o el Cademo de optimización de diseño de experimentos y muchos otros. Desde la aparición del sistema operativo Windows la práctica totalidad de los paquetes citados están disponibles bajo este interfaz gráfico y sin problemas para tratar grandes volúmenes de datos, por lo que es de esperar que prácticamente desaparezcan los programas basados en DOS y queden afectados negativamente los paquetes que funcionan con el sistema operativo Unix. No obstante una ventaja de los grandes paquetes es que funcionan prácticamente sin modificación en distintos equipos y bajo diferentes sistemas operativos. Los paquetes SAS y SPSS están formados por una serie de procedimientos que se encadenan formando programas para realizar los análisis estadísticos. El primero es más flexible pues permite usar con comodidad los resultados de un procedimiento para ser tratados por el siguiente. El sistema de ficheros de datos también es potente y útil. No obstante el manejo del paquete puede parecer más complejo que otros, si bien cabe usarlo con un subconjunto de instrucciones bastante reducido. Los sistemas de ventanas y menús desplegables constituyen una alternativa cómoda para usar un programa estadístico. La entrada de datos se realiza o bien con una hoja de cálculo del paquete que se use, o leyéndola de un fichero generado con otro programa (un fichero texto, un fichero dBase, Excel, etc.). Estos datos incorporan bastantes elementos de meta-información, como la escala de medida, los nombres de las variables y categorías, y códigos de datos que faltan. Existen numerosas instrucciones para realizar transformaciones, selección de casos y de variables, y de gran variedad de procedimientos estadísticos. En relación al funcionamiento de los programas estadísticos se distingue entre el uso interactivo y el proceso por lotes, aunque la mayor parte pueden ser utilizados de ambas formas. En el procedimiento interactivo, se seleccionan las instrucciones correspondientes en el sistema de menús, y se ejecutan directamente. En el trabajo por lotes, las instrucciones se introducen en un

SPSS

6

fichero, generalmente de tipo texto, y, al llamar a este fichero, se ejecutan sucesivamente todas las instrucciones contenidas en él. Es un modo práctico, cuando se necesita realizar una serie de cálculos de forma repetitiva. El paquete SPSS es uno de los programas estadísticos mas difundidos. Sus primeras versiones desarrolladas para grandes ordenadores fueron evolucionando y, en la actualidad, su uso más frecuente es en ordenadores personales bajo los distintos tipos de sistemas operativos de Microsoft. Consta de varios módulos que están dedicados a diferentes técnicas estadísticas: BASE, métodos básicos de Estadística y análisis de datos; TABLAS, para tablas de contingencia, TENDENCIAS, con distintos métodos de análisis de series temporales, CATEGORÍAS, dedicado a métodos de análisis de datos categorizados, ANÁLISIS CONJUNTO, para estudios de preferencias, PRUEBAS EXACTAS, de contrastes no paramétricos, ANSWER TREE, para árboles de regresión, AMOS, para modelos estructurales y multiecuacionales, QI, de control de calidad, VALORES PERDIDOS, con técnicas de imputación, NEURAL, con modelos de redes neuronales, y otros módulos que se van añadiendo opcionalmente al paquete básico. Para empezar a trabajar con SPSS es necesario tenerlo instalado en un ordenador personal. En la instalación se personaliza con el número de serie y la clave de acceso. Periódicamente hay que actualizar esta clave, pues su uso está limitado en el tiempo. Para realizar un análisis estadístico, cabe distinguir varios elementos -

El conjunto de datos: k variables, X, Y,...Z son observadas sobre n unidades experimentales o casos dando lugar a una matriz de datos n k.

-

La meta-información, o información sobre los datos, como el nombre de cada variable, el tipo de datos (numérico o no numérico), el tamaño de los datos y número de cifras decimales (en su caso), el nombre ampliado de cada variable o etiqueta, los valores y nombres asociados a cada categoría de las variables no numéricas, los códigos

SPSS

7 empleados para representar los datos que faltan, y la escala de medida (numérica, ordinal o nominal) de cada variable. -

Las técnicas estadísticas a utilizar, incluyendo la posibilidad de transformar datos y de obtener datos mediante simulación.

-

Los resultados analíticos y gráficos, así como su posibilidad de edición, modificación e incorporación a informes.

SPSS aborda cada una de las fases anteriores mediante un sistema de ventanas que pueden visualizarse de forma independiente unas de otras. Con un ejemplo muy simple se van a realizar esta introducción al paquete. Se realiza una encuesta en un colectivo de personas a las que se formulan diversas preguntas: edad, sexo, altura, peso, su nivel de estudios, y si tiene o no trabajo. Algunas de estas variables son numéricas y las variables no numéricas son ordinal (nivel de estudios) o nominales (sexo y trabajo). Las variables no numéricas se codifican con unos códigos a los que se asocia un nombre: para el sexo, 1 representa hombre y 2 mujer; el nivel de estudios se codifica con 1, primarios, 2, secundarios y 3 superior; si el encuestado tiene trabajo, se representa mediante un 1 y con un 2, en caso contrario. En definitiva, se ha descrito parte de la meta-información sobre los datos. El número de variables es k = 6, y van a ser entrevistados n = 22 personas. Al arrancar SPSS se accede a una ventana preparada para introducir los datos y a otra ventana para la meta-información. De una a otra se pasa usando las pestañas situadas en la parte inferior rotuladas Vista de datos (Data Viewer) y Vista de variables (Variable Viewer). A continuación se observa esta primera ventana principal. En la parte superior está la lista de opciones principales de la aplicación: el menú de archivos (Archivo -Files), el de edición (Edición - Edit), el de visualizar (Ver - View), el de manipulación de datos (Datos - Data), el de transformaciones (Transformar - Transform), el de análisis estadísticos (Analizar - Analyze), el de gráficos (Gráficos - Graph), el de utilidades (Utilidades - Utilities), el de manejo de las ventanas de trabajo (Ventana - Windows) y la ayuda (?). Los botones permiten ejecutar algunas órdenes sin entrar en el sistema de menús.

SPSS

8

La ventana de datos está vacía, y, antes de empezar a teclear en ella los datos, es conveniente definir la meta información asociada al problema. Pulsando sobre la pestaña inferior Vista de variables (Variable Viewer), se obtiene la siguiente ventana. En ésta (que ya se ha rellenado), aparecen los nombres de las variables, su formato, escala de medida, los códigos de datos que pueden faltar (se ha usado el 0 para tres variables; en las otras tres se supone que no va a faltar ningún dato), los nombres de las categorías de las variables no numéricas, etc.

Para cambiar algo basta pulsar encima del recuadro correspondiente y

modificar su contenido directamente o mediante la ventana auxiliar que se genera.

SPSS

9

Una vez introducidos los n = 22 datos de las k = 6 variables, se dispone de la siguiente matriz (en este caso se ha usado la coma decimal, en lugar del punto)

SPSS

10

En este momento lo aconsejable es almacenar esta matriz de datos y la meta información introducida en la pantalla anterior en un fichero. Para ello se selecciona en el menú principal la opción Archivos (Files), y en el correspondiente menú desplegable se pulsa en Guardar como (Save as) que muestra una ventana con el directorio donde se va a guardar el fichero. En la ventana siguiente se genera el fichero EJEMPLO.SAV en el directorio SPSS.

A partir de este momento se puede iniciar el análisis de los datos seleccionando en la ventana principal la opción Analizar (Analyze) o Gráficos (Graph). También cabe generar alguna variable auxiliar mediante transformaciones. Por ejemplo, para construir una tabla de frecuencias con cada una de las variables no numéricas, se selecciona la opción Estadísticos descriptivos (Descriptives) como se muestra a continuación

. que abre una ventana en la que se seleccionan las variables a analizar

SPSS

11

En esta ventana se han seleccionado dos variables, que han sido trasladadas al recuadro blanco de la derecha; la tercera variable está ahora seleccionándose, y se traslada al cuadro derecho pulsando en el botón central. Si además de la tabla de frecuencias se desea obtener un diagrama de barras para cada variable, se pulsa en el botón de gráficos (Gráficos -Charts) situado en la parte inferior de la ventana anterior, y aparece la ventana siguiente, en la que se ha seleccionado realizar un gráfico de diagrama de barras con las frecuencias originales (también puede obtenerse usando porcentajes).

Al pulsar el botón de continuación, se vuelve a la ventana inmediatamente anterior, y en ésta, al pulsar el botón Continuar se inicia el proceso de cálculo. Los resultados resultantes de aplicar un procedimiento estadístico o gráfico se muestran en una ventana de salida (Output), como la siguiente:

SPSS

12

La columna de la parte izquierda contiene un índice de los cálculos y gráficos realizados. Se puede eliminar o disminuir de tamaño. La parte de los cálculos muestra los resultados. La primera tabla es un resumen general en la que se especifica que se han leído los 22 casos completos para cada variable (no existían celdas vacías en la tabla de datos originales); la segunda tabla corresponde a las frecuencias absolutas, relativas y acumuladas de la variable Sexo. En el caso que falten datos de una variable, en la columna de porcentajes válidos, se estiman éstos sólo sobre los datos existentes. Los resultados siguientes están contenidos en esta ventana, y se visualizan desplazando el contenido de ésta. Los contenidos de una ventana de salida pueden exportarse, por ejemplo a un procesador de textos. Para ello se pincha encima del elemento a exportar (datos o gráfico) que aparece rodeado de un recuadro. Pulsando entonces Ctrl C, se copia esta información al portapapeles de Windows, y, una vez activada la ventana de la otra aplicación (por ejemplo, el procesador de textos Word), se pega en esta la información del portapapeles pulsando Ctrl V.

SPSS

13

También pueden editarse las tablas y gráficos, en la ventana de salida de SPSS antes de realizar operaciones de copiar-pegar. La tabla de frecuencias siguiente se ha copiado desde SPSS de otra forma, pues conserva el formato gráfico original. En primer lugar se ha marcado en la ventana de salida de SPSS, y al pulsar el botón derecho del ratón, se selecciona la opción Copiar objetc, que pasa al portapapeles la imagen de la tabla. Nive l de e studios

Válidos

Frecuencia 4 12 6 22

Primarios Secundarios Superiores Total

Porcentaje 18,2 54,5 27,3 100,0

Porcentaje válido 18,2 54,5 27,3 100,0

Porcentaje acumulado 18,2 72,7 100,0

Los diagramas de barras se traspasan desde SPSS al documento del procesador de texto marcándolos y con los controles C y V. Para la última variable, en el diagrama de barras siguiente, se representa la tabla de frecuencias

Nivel de estudios 60

50

40

30

Porcentaje

20

10

0 Primarios

Secundarios

Superiores

Niv el de estudios

Para obtener un gráfico de una variable numérica, un histograma o un diagrama en caja, se seleccionan las opciones siguientes en la pantalla principal de SPSS

SPSS

14

Los resultados, una vez mas, aparecen en la ventana de salida Por ejemplo, para la altura, en la ventana de salida, además del histograma (nótese que aunque el número de clases, 7, se ha seleccionado automáticamente, puede modificarse) se obtiene la media, 1.71 metros, y la cuasi-desviación típica, 0.07 metros. Además se ha superpuesto al histograma la función de densidad de una variable Normal con media

= 1.71 (la media aritmética de los datos) y desviación típica

=

0.07 (la cuasi-desviación típica de los datos), aunque en este caso no tenga sentido el dibujar esta curva de Gauss sobre el histograma.

8 2,0

6

14

1,9

1,8

4

Altura en metros

1,7

2

1,6

Desv. típ. = ,07 Media = 1,71 N = 22,00

0

1,5 N=

1,56

1,63

1,69

1,75

1,81

Altura en metros

1,88

1,94

11

11

Hombre

Mujer

SEXO

El gráfico en caja, en este caso obtenido para la variable Peso se muestra al lado del histograma anterior, el cual se obtiene seleccionando en el menú de gráficos la opción Diagrama de caja (Boxplot), y definiendo la variable numérica para la que se va a obtener el gráfico, y, en este caso, una variable no numérica, el sexo, de clasificación.

SPSS

15

El diagrama en caja anterior permite realizar una comparación del peso de las dos sub-muestras asociadas a cada sexo. También cabe realizar un test de comparación de medias, mediante la selección siguiente

y definiendo la variable (peso, en este caso) y los grupos o poblaciones a comparar (las correspondientes a cada sexo):

Los resultados que se obtienen son los siguientes: con el test de Levene de comparación de varianzas (p = 0.28, es decir, hay poca evidencia de heterocedasticidad), los estadísticos T para el test de comparación de medias de los pesos en las dos poblaciones (t = 5.146) en los casos de suponer ambas

SPSS

16

poblaciones de igual varianza o heterocedásticas, sus respectivas probabilidades límite (p < 0.001, indicativo de diferencias claras entre el peso medio de hombres y mujeres), las diferencias entre los pesos medios y sus desviaciones estándar (suponiendo homo o heterocedasticidad, respectivamente), y un intervalo de confianza 1 –

= 0.95 para la diferencia de medias. Es tadísticos de grupo

SEXO Hombre Mujer

Pes o en Kg

N 11 11

Media 79,36 63,55

Desviación típ. 8,925 4,927

Error típ. de la media 2,691 1,485

Prueba de m ue stras indepe ndie ntes Prueba de Levene para la igualdad de varianzas

F Pes o en Kg

Se han asumido varianzas iguales No se han asumido varianzas iguales

1,233

Sig. ,280

Prueba T para la igualdad de medias

t

gl

Sig. (bilateral)

Dif erencia de medias

Error típ. de la dif erencia

95% Intervalo de confianza para la diferencia Inferior Superior

5,146

20

,000

15,82

3,074

9,406

22,230

5,146

15,577

,000

15,82

3,074

9,288

22,349

Para cruzar dos variables no numéricas, obteniendo una tabla de contingencia bidimensional, se usan las opciones siguientes

A partir de estas es preciso proporcionar las variables que se quieren cruzar y los estadísticos asociados a los contrastes de asociación,

SPSS

17

Los resultados aparecen a continuación Tabla de contingencia Trabaja * Nivel de estudios

Trabaja



No

Total

Recuento Frecuencia esperada % de Trabaja Recuento Frecuencia esperada % de Trabaja Recuento Frecuencia esperada % de Trabaja

Primarios 0 2,2 ,0% 4 1,8 40,0% 4 4,0 18,2%

Nivel de es tudios Secundarios Superiores 7 5 6,5 3,3 58,3% 41,7% 5 1 5,5 2,7 50,0% 10,0% 12 6 12,0 6,0 54,5% 27,3%

Total 12 12,0 100,0% 10 10,0 100,0% 22 22,0 100,0%

Los correspondientes contrastes de asociación se realizan con los resultados siguientes Pruebas de chi-cuadrado

Chi-cuadrado de Pearson Razón de verosimilitud A sociación lineal por lineal N de cas os válidos

V alor 6,875a 8,609 5,992

2 2

Sig. as intótica (bilateral) ,032 ,014

1

,014

gl

22

a. 4 casillas (66,7%) tienen una frec uencia esperada inf erior a 5. La f recuencia mínima esperada es 1,82.

SPSS

18

Los estadísticos P y G 2, con sus grados de libertad y probabilidades límite respectivas, permiten realizar el test de asociación entre el nivel de estudios y el tener o no empleo. Gráficamente se representa la tabla de contingencia mediante unos diagramas de barras superpuestos, con barras proporcionales a las frecuencias por filas, o a las distribuciones condicionales por filas (o por columnas). 8 7

6 5

4

3

Niv el de estudios Recuento

2 Primarios 1

Secundarios

0

Superiores Sí

No

Trabaja

Los modelos de regresión se obtienen utilizando los siguientes menús

SPSS

19

en los que se puede apreciar las distintas opciones de modelización. En una ventana intermedia hay que especificar cual es la variable respuesta o dependiente (Y) y cuales son las variables causales o explicativas (X). Por ejemplo para estimar el peso de una persona en función de su altura y del sexo, se estima el modelo siguiente Peso = -53.625 + 82.838Altura – 10.848Sexo + e como se deduce del cuadro siguiente b Re sum en de l m odelo

Modelo 1

R ,913a

R cuadrado ,834

R cuadrado corregida ,816

Error típ. de la estimación 4,598

a. Variables predic toras : (Constante), SEXO, Altura en metros b. Variable dependiente: Peso en Kg Coeficiente sa

Modelo 1

(Constante) A ltura en metros SEXO

Coef icientes no estandarizados B Error típ. -53,625 27,276 82,838 15,085 -10,848 2,160

Coef icientes estandarizad os Beta ,566 -,518

t -1,966 5,491 -5,023

Sig. ,064 ,000 ,000

a. V ariable dependiente: Peso en Kg

En realidad el modelo anterior es de análisis de covarianza, pues la variable Sexo es no numérica y la Altura es numérica (es decir, una covariable). Los estadísticos T y sus probabilidades límite indican que las dos variables explicativas deben mantenerse en el modelo.

SPSS

20

De forma análoga se estiman modelos de análisis de la varianza: en el menú de comparación de medias, la última opción es para especificar un modelo de análisis de la varianza con un solo factor. Para modelos de análisis de la varianza más complejos, se usa la opción siguiente

En el tratamiento previo de datos es frecuente tener que realizar operaciones como las siguientes: -

Generar una variable nueva mediante una transformación; en el menú de transformaciones se selección Calcular variable

y se define la nueva variable, en este caso, y = ln(peso). Las funciones disponibles son numerosas (aritméticas, estadísticas, de manejo de fechas y de cadenas de caracteres, etc.). Unas especialmente interesante son las de generación de números aleatorios correspondientes a distintas distribuciones estadísticas. - La recodificación de una variables se puede hacer generando una nueva variable recodificada, o sobrescribiendo en la propia variable.

SPSS

21

La nueva variable PesoCod es no numérica ordinal. El programa SPSS tiene numerosas opciones, no sólo de análisis estadístico, sino para manipular ficheros de datos, uniéndolos, añadiendo casos o variables, lo que lo hace especialmente útil. Su sistema de ayuda es extenso y claro, aunque las secuencias de menús desplegables no son, a veces, intuitivas. También dispone de un lenguaje de programación propio, usando unos ficheros de macro-instrucciones en los que se almacenan grupos de órdenes que llaman a procedimientos estadísticos que se ejecutan sucesivamente al ejecutar el fichero que los contiene.