Manual SPSS

UNIVERSIDAD DE CHILE MAGISTER EN GESTION Y DIRECCION DE EMPRESAS Métodos Cuantitativos para el Análisis de los Mercados

Views 229 Downloads 4 File size 990KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

UNIVERSIDAD DE CHILE MAGISTER EN GESTION Y DIRECCION DE EMPRESAS

Métodos Cuantitativos para el Análisis de los Mercados de Commodities ESTUDIOS DE CASOS

APLICACIONES

DE

Profesora: Sara Arancibia C. MBA Minería 2013

1

FORMULAS PARA TRIUNFAR LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste en los siguientes cinco puntos: a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa meta que se desea alcanzar y no desviar la atención de ella. b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo. c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre de conseguir éxitos. d) Adquirir una confianza grande en sí mismo; confianza en las propias capacidades y habilidades para lograr el éxito, concediéndole muchísima mayor importancia a las cualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota. e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo negativo que los demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de una meta, trae enormemente las oportunidades, las cuales no se dejan atrapar por los que están sin hacer nada, pero se acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el éxito. Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para desarrollar al máximo el potencial de cada uno. Meyer resume la fórmula básica en la siguiente frase:

“Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y entusiastamente emprendamos, de una manera impresionantemente favorable se transformará en algo placentero y beneficioso para nosotros”

(Eliécer Salesman. “100 Fórmulas para llegar al éxito”)

Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad más importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés dispuesto a hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a tu éxito.

2

Contenido I

Documento introducción Análisis Inicial de los datos

II

Estudio de Caso.

Caracterización del Mundo: Mundo 95 (Tablas, gráficos y estadísticos descriptivos) III

Estudio de Caso.

Seguridad Minera. (Creación de variables y uso de funciones) IV

Estudio de caso

Producción minera (Importación de datos en Excel y Agregación) V

Estudio de caso

Estimación de parámetros poblacionales (Muestreo e intervalos de confianza, distribución de probabilidad) VI

Estudio de caso

Test Market ( Agregación y pruebas de hipótesis) VII

Estudio de caso

Estudio Morfología (Análisis de correlación y regresión simple) VIII

Estudio de caso

Consumo producto (Análisis de regresión lineal y modelos log-log) IX

Estudio de caso

Desempleados (Regresión lineal con damis) X

Estudio de caso

Consumo de agua potable (Análisis de correlación y regresión lineal)

3

I.

Documento introducción :Análisis Inicial de los datos1

Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).

Representaciones gráficas para el análisis de datos La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la incorporación de módulos específicamente diseñados para la inspección gráfica de los datos. El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q. Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de relación se podrá constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos variables de escala es significativa). Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre las observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja. Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categoría o variable. Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen definidos por una variable de definición distinta.

TP

1 PT

Análisis Estadístico Multivariable de Manuel Vivanco

4

Años de escolarización por raza 899

634

20

Número de años de escolarización

718

15

10

691

5

1.366

702

244

693

620

688

596

765

1.476

735

0

Blanca

Negra

Otra

Raza del encuestado

Años de escolarización por raza agrupados por sexo 634 20

961

Número de años de escolarización

Sexo del encuestado Hombre

960

Mujer

718

15

10 1.404

804 244 5

621

620 596

1.448

693

695

688 765

821

735

0

Blanca

Negra

Otra

Raza del encuestado

5

Detección de variables con categorías mal codificadas En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las categorías de la variable un código numérico y luego con recodificar en distinta variable asignar correctamente los códigos.

Análisis de datos ausentes En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista debe ser consciente de que se enfrenta a una información que puede no existir en determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqué de la existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e introducirlos en el computador, fallas del encuestador al completar el cuestionario, negación del encuestado a responder ciertas preguntas calificadas de controvertidas… Razones comunes y muy habituales en todo proceso investigador. El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas. Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información existente en la muestra. Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación respecto al porcentaje de missing que produce dificultades en una muestra determinada. Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede generar distorsión en los resultados. La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos. En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes. 7= No procede, 8= No sabe , 9= No contesta 97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta

6

Se utilizan estos códigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un menú especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.

Detección de outliers Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atípicos. El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la población de la cual se extrae la muestra. Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del análisis. Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante, habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests estadísticos dados los problemas que presentan. La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional respecto del centro medio de las observaciones.

7

II.

Estudio de Caso: Caracterización del Mundo2

Considere el archivo año 1995: Variable país poblac densidad urbana relig espvidaf espvidam alfabet inc_pob mortinf

TP

2

Mundo 95, que contiene las siguientes variables de los países del Mundo en el

pib_cap región

Etiqueta País Población x 1000 Habitantes x Km2 Habitantes en ciudades (%) Religión mayoritaria Esperanza de vida Femenina Esperanza de vida Masculina Alfabetización (%) Aumento de población (% anual) Mortalidad infantil (Muertes por 1000 nacimientos vivos) Producto interno bruto per cápita Región Económica

calorías sida tasa_nat tasa_mor tasasida log_pib logtsida nac_def fertilid log_pob cregrano alfabmas alfabfem clima

Ingesta diaria de calorías Casos de SIDA Tasa de natalidad (por 1.000 habitantes) Tasa de mortalidad (por 1.000 habitantes) Casos de SIDA por 100.000 habitantes Log(10) de PIB_CAP Log(10) de TASASIDA Tasa nacimentos/defunciones Número promedio de hijos Log(10) de POBLAC -Hombres alfabetizados (%) Mujeres alfabetizadas (%) Clima predominante

Etiqueta de Valor

1 = OCDE 2 = Europa Oriental 3 = Asia / Pacífico 4 = Africa 5 = Oriente Medio 6 = América Latina

1 = Desierto 2 = Arido / Desierto 3 = Arido 5 = Tropical 6 = Mediterráneo 7 = Marítimo 8 = Templado

Caso desarrollado por Sara Arancibia

8

9 = Artico / Templado 10 = Artico Usted debe realizar un informe donde compare los países en al menos los siguientes aspectos: Población, densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región, Religión mayoritaria y clima predominante. Para su informe debe considerar al menos los siguientes puntos: (i) Tres gráficos distintos con su interpretación. (ii) Tablas de frecuencia (iii) Tablas de contingencia (iv) Outliers (Valores extremos) (v) Medidas de tendencia central (vi) Medidas de dispersión (vii) Cubos OLAP (viii) Puntuaciones z Solución: Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión Predominante y Clima Predominante de los países Region or economic group Valid

OECD East Europe Pacific/Asia Africa Middle East Latn America Total

Frequency 21 14 17 19 17 21 109

Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0

Valid Percent 19,3 12,8 15,6 17,4 15,6 19,3 100,0

La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La menor frecuencia se observa en Europa del Este con 14 países de un total de 109 países. El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.

9

Frecuencia y porcentaje de países por Religión Predominante Buddhist

Other

7,00 / 6,4%

10,00 / 9,2% Protstnt 16,00 / 14,7%

Catholic Orthodox

41,00 / 37,6%

8,00 / 7,3%

Muslim 27,00 / 24,8%

Se observa que 41 países que representan el 37,6% del total de países considerados tienen como religión predominante a la religión Católica y 27 países a la religión Musulmana representando el 24,8% del total de países considerados. Para generar el gráfico: Graficar/Sectores/Resumen para grupos de casos/Nº de casos/Religión Predominante. En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a mayores del 5%. La tabla de frecuencia para religión predominante muestra complementariamente al gráfico anterior que las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal Predominant religion

Valid

Missing Total

Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal Total

Frequency 4 7 41 1 1 27 8 16 2 1 108 1 109

Percent 3,7 6,4 37,6 ,9 ,9 24,8 7,3 14,7 1,8 ,9 99,1 ,9 100,0

Valid Percent 3,7 6,5 38,0 ,9 ,9 25,0 7,4 14,8 1,9 ,9 100,0

Al cruzar las variables región y religión podemos observar en la tabla de contingencia que la Religión Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en todas las regiones excepto en la Región de Oriente donde la religión predominante es la Musulmana con 15 países de un total de 17 países de la región

10

Predominant religion * Region or economic group Crosstabulation Count

OECD Predominant religion

Animist Buddhist Catholic Hindu Jewish Muslim Orthodox Protstnt Taoist Tribal

Total

10

1 10

21

Region or economic group East Pacific/ Middle Africa Europe Asia East 4 7 5 1 5 1 1 1 5 6 15 6 1 2 1 2 2 1 14 17 18 17

Latn America

20

1

21

Total 4 7 41 1 1 27 8 16 2 1 108

En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente, respecto al total de datos válidos. Predominant climate

Valid

Missing Total

desert arid / desert arid otro tropical mediterranean maritime temperate arctic / temp Total System

Frequency 7 5 6 5 32 10 4 34 4 107 2 109

Percent 6,4 4,6 5,5 4,6 29,4 9,2 3,7 31,2 3,7 98,2 1,8 100,0

Valid Percent 6,5 4,7 5,6 4,7 29,9 9,3 3,7 31,8 3,7 100,0

Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del gráfico correspondiente a la mediana de población por región económica que el 50% de los países del Asia/Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes.

11

Mediana de Población por Región Económica 70000 60000

Med Population in thousands

59400 50000 40000 30000 20000 10000

10400

9600

9100

7900

5500

0 OECD

Pacific/Asia East Europe

Middle East Africa

Latn America

Region or economic group

Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la región Asia/Pacífico con un valor promedio de 802 habitantes por kmP2P, la que es considerablemente superior a la densidad promedio del resto de regiones, las que oscilan entre 127 y 62 habitantes por kmP2P correspondiendo esta última a la región de África

Media de densidad por Región Económica Mean Number of people / sq. kilometer

1000

800

802

600

400

200 108 0 OECD

127 77

88

62 Pacific/Asia

East Europe

Middle East Africa

Latn America

Region or economic group

Para generar el gráfico: Graficar/Barras/Simples/Resumen para grupos de casos/N de casos/ Región Económica.

12

Media de porcentaje de población que vive en ciudades OECD

75

Region or economic group

East Europe

62

Pacific/Asia

45

Africa

29

Middle East

66

Latn America

61

20

30

40

50

60

70

80

Mean People living in cities (%)

En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor porcentaje promedio corresponde a la Región OECD, con un 75% en promedio. Es considerable la diferencia con la región de África donde el promedio de población urbana es del 29%, seguido de Asia/Pacífico con un promedio del 45%. Podemos complementar la información anterior con Cubos OLAP, los que muestran por grupos, los estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para las regiones OECD y África, el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían los datos, en promedio respecto a la media. Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es sorprendente observar que existen países con una densidad de 2,3 habitantes por kmP2P y de 366 personas por kmP2P. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de 263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de población urbana corresponde al 96% y el menor corresponde al 34%. OLAP Cubes Region or economic group: OECD Predominant climate: Total Predominant religion: Total

N Mean Std. Deviation Minimum Maximum Median

Population in thousands 21 33085,10 57148,25 263 260800 10400,00

Number of people / sq. kilometer 21 107,981 107,936 2,3 366,0 80,000

People living in cities (%) 21 74,71 14,89 34 96 77,00

13

OLAP Cubes Region or economic group: Africa Predominant climate: Total Predominant religion: Total

N Mean Std. Deviation Minimum Maximum Median

Population in thousands 18 18415,83 24331,33 959 98100 8900,00

Number of people / sq. kilometer 18 63,700 79,823 2,4 311,0 39,500

People living in cities (%) 18 28,17 14,70 5 47 24,50

Al considerar el cubo correspondiente a la región de África se observa una media de población considerablemente más baja que la media de la Región OECD y que la variabilidad en la variable población del 132% es más baja que si se compara con la región del OECD cuyo coeficiente de variabilidad es del 172,7%. Por otra parte se observa para la población urbana un mínimo de 5% siendo el porcentaje máximo del 47%, valores muy bajos si se compara con la región del OECD. Al igual que la región OECD se observa un valor mínimo de densidad de 2,4 habitantes por km2, en oposición al máximo cuya densidad es de 311 habitantes por km2. Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los valores extremos (outliers) que muestra los cinco valores mayores y menores. Extreme Values

Extreme Values

Region or economic group: OECD Number of people / sq. kilometer Case Number Highest

Lowest

1 2 3 4 5 1 2 3 4 5

70 11 101 42 56 4 49 21 74 71

Region or economic group: Africa Number of people / sq. kilometer COUNTRY Netherlan ds Belgium UK Germany Italy Australia Iceland Canada Norway New Zealand

Value 366,0 329,0 237,0 227,0 188,0 2,3 2,5 2,8 11,0 13,0

Highest

Lowest

1 2 3 4 5 1 2 3 4 5

Case Number 85 18 73 40 103 14 39 22 90 109

COUNTRY Rwanda Burundi Nigeria Gambia Uganda Botswana Gabon Cent. Afri.R Somalia Zambia

Value 311,0 216,0 102,0 86,0 76,0 2,4 4,2 5,0 10,0 11,0

Para generar las tablas: Analizar/Estadísticos Descriptivos/Explorar. En Factor colocar Región económica y etiquetar por país. En Estadísticos seleccionar Valores Atípicos. Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres respectivamente. Es notable la diferencia con África donde se observa que el promedio de esperanza de vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.

14

Media de las variables Esperanza de Vida Femenina y Masculina por Región Económica 90

80

80 76 74

70

72

72 68

67

67

66

63

60

Media esper de Vida

54

Media

50

51

Femenina

40

Masculina OECD

Pacific/Asia East Europe

Middle East Africa

Latn America

Región Económica

Para generar el gráfico: Graficar/Barras/Agrupados. Resumen para variables individuales/Media de las variables Esperanza de vida fem y masculina/eje de categorías Región Económica. La tabla siguiente identifica los países con mayor y menor esperanza de vida Valores Extremos ( Outliers considerando todos los países) Average female life expectancy

Highest

Lowest

Average male life expectancy

Highest

Lowest

1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5

Case Number 94 57 38 21 56 103 1 22 109 97 55 57 26 49 47 103 97 22 85 45

COUNTRY Switzerland Japan France Canada Italy Uganda Afghanistan Cent. Afri.R Zambia Tanzania Israel Japan Costa Rica Iceland Hong Kong Uganda Tanzania Cent. Afri.R Rwanda Haiti

Value 82 82 82 81 ,a 43 44 44 45 45 76 76 76 76 ,b 41 41 41 43 43

a. Only a partial list of cases with the value 81 are shown in the table of upper extremes. b. Only a partial list of cases with the value 75 are shown in the table of upper extremes.

El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que las mayores tasas corresponden a la región de África, las que indican que en promedio nacen 42 por cada

15

1.000 habitantes y mueren en promedio 15 por cada 1.000 habitantes. La menor tasa de natalidad en promedio corresponde a la región del OECD

Tasa de natalidad y mortalidad por región económica 60 15 50 40

42 6 9

30

7

33

20

27

11

10

27

Death rate per 1000

Mean

people 10

13

13

Birth rate per 1000

0

people OECD

Pacific/Asia

East Europe

Middle East

Africa

Latn America

Region or economic group

Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por familia. El diagrama de caja muestra por región económica que las mayores tasas de fertilidad se concentran en la Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región confirma la información entregada por el diagrama de caja.

Diagrama de caja Fertilidad por región económica Fertility: average number of kids

10

8

6

4

2 0 N=

21

13

OECD

16

19

Pacific/Asia East Europe

17

21

Middle East Africa

Latn America

Region or economic group

16

Descriptives Fertility: average number of kids

Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

Region or economic group Pacific/As Africa

OECD

East

Statistic 1,746 1,751 1,800 6,150E-02 ,248 1,3 2,1 ,8 ,495 -,081 -1,192

Statistic 1,889 1,886 1,840 1,772E-02 ,133 1,7 2,2 ,5 ,190 ,530 ,932

Statistic 3,383 3,298 3,065 3,226 1,796 1,4 6,9 5,5 2,795 ,791 -,563

Statistic 6,081 6,088 6,290 1,285 1,134 3,8 8,2 4,4 1,380 -,586 ,119

Middle

Latn

Statistic 4,724 4,721 4,000 2,356 1,535 2,8 6,7 3,9 3,165 ,231 -1,812

Statistic 3,336 3,280 3,080 1,115 1,056 1,8 5,9 4,2 1,655 ,827 ,332

Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central y de dispersión para todas las variables consideradas en este apartado. Descriptives

Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

Average female life

Average male life

Birth rate per 1000

Death rate per 1000

Numbe r of aids cases /

Fertility: average number

People who read

Statistic 69,89 70,67 74,00 115,241 10,74 43 82 39 12,75 -1,048 ,054

Statistic 64,71 65,37 67,00 88,926 9,43 41 76 35 12,75 -1,020 ,171

Statistic 26,154 25,754 25,500 154,112 12,414 10,0 53,0 43,0 21,000 ,416 -1,163

Statistic 9,64 9,31 9,00 18,400 4,29 2 24 22 4,00 1,283 1,754

Statistic 24,8271 16,8072 5,5512 2482,6 49,8252 ,00 326,75 326,75 23,2434 3,498 15,008

Statistic 3,558 3,475 3,065 3,605 1,899 1,3 8,2 6,9 3,170 ,665 -,933

Statistic 77,95 79,74 87,50 532,862 23,08 18 100 82 36,75 -,955 -,250

Si consideramos sólo los países de las regiones OECD y África, observamos cómo cambian las medidas de tendencia central y dispersión ya que en todas las variables, los países de la región de África están con índice muy por debajo de los de la región OECD. Si queremos reconocer qué países en esas regiones tienen los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.

17

Descriptives Region or economic group: OECD Average female Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

Statistic 80,10 80,11 80,00 1,390 1,18 78 82 4 2,00 -,201 -,827

Average male life

Birth rate per 1000

Death rate per

Number of aids

Fertility: average

People who read

Statistic 73,71 73,74 74,00 1,314 1,15 71 76 5 1,50 -,256 ,519

Statistic 12,952 12,944 13,000 2,748 1,658 10,0 16,0 6,0 2,000 ,302 -,512

Statistic 9,63 9,65 10,00 1,633 1,28 7 12 5 2,00 -,169 -,492

Statistic 29,1052 23,6322 15,8713 1131,049 33,6311 3,10 157,94 154,84 24,2397 3,090 11,201

Statistic 1,746 1,751 1,800 6,150E-02 ,248 1,3 2,1 ,8 ,495 -,081 -1,192

Statistic 97,67 98,22 99,00 11,333 3,37 85 100 15 2,00 -3,027 10,370

Descriptives Region or economic group: Africa Average female Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis

Statistic 54,26 54,01 55,00 63,649 7,98 43 70 27 12,00 ,425 -,434

Average male life

Birth rate per 1000

Death rate per

Number of aids

Fertility: average

People who read

Statistic 50,79 50,49 51,00 52,731 7,26 41 66 25 11,00 ,352 -,458

Statistic 42,000 42,389 44,000 41,111 6,412 28,0 49,0 21,0 5,000 -1,256 ,452

Statistic 14,74 14,71 14,00 25,538 5,05 6 24 18 7,00 ,126 -,847

Statistic 75,7491 66,0056 36,3077 7641,570 87,4161 ,13 326,75 326,61 112,6254 1,562 2,587

Statistic 6,081 6,088 6,290 1,285 1,134 3,8 8,2 4,4 1,380 -,586 ,119

Statistic 47,26 47,29 50,00 319,094 17,86 18 76 58 34,00 ,012 -,964

Para generar la tabla: Analizar/Estadísticos Descriptivos/Explorar: esperanza de vida femenina y masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc. Factor: Región. Etiquetar por: país. Estadísticos: Valores Atípicos. Al editar la gráfica se borra lo que no se quiere mostrar. Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos consideramos las puntuaciones z de cada una de ellas, las que nos muestran que:  esperanza de vida femenina en Chile está sobre la media en 0,74 desviaciones estándares.  esperanza de vida masculina en Chile está sobre la media en 0,65 desviaciones estándares.  tasa de natalidad en Chile está bajo la media en 0,23 desviaciones estándares.  tasa de mortalidad en Chile está bajo la media en 0,83 desviaciones estándares.  fertilidad (promedio de hijos por familia) en Chile está bajo la media en 0,55 desviaciones estándares.  tasa sida en Chile está bajo la media en 0,37 desviaciones estándares  alfabetización (% de personas que saben leer) en Chile está sobre la media en 0,64 desviaciones estándares.

18

EJERCICIOS: 1) Seleccione la Región de América Latina y realice un gráfico que muestre la población de los países de esa región. 2)

Segmente por región económica y calcule los cuartiles de esperanza de vida femenina y masculina

3) Crear rangos de “fertilidad” según los valores quintiles ( variable: Número promedio de hijos por familia)

19

III. Estudio de Caso: Seguridad Minera3 Caso: Seguridad Minera El año 1980, el Servicio Nacional de Geología y Minería SERNAGEOMIN fue creado a partir de la unión del Instituto de Investigaciones Geológicas y el Servicio de Minas del Estado, con el objetivo de ser el asesor técnico especializado del Ministerio de Minería en materias geológicas y mineras. Su misión es producir y proveer información y productos geológicos, ejercer la función pública de fiscalización de las condiciones de seguridad minera y medioambiente en la minería y entregar asistencia técnica en materias de constitución de la propiedad minera, con el fin de satisfacer las demandas de las instituciones del Estado, de las empresas públicas y privadas, y de las personas que participan en el sector minero y en el quehacer geológico, contribuyendo al desarrollo del país en un entorno social, económico y ambientalmente sustentable. Una de las principales actividades del SERNAGEOMIN es la fiscalización, en materias de control de riesgos de accidentes, a las empresas y los trabajadores que desarrollan actividades en el sector minero. Esta actividad tiene su base legal en la Ley Orgánica del Servicio D.L. Nº 3.525 y se encuentra enmarcada dentro del Reglamento de Seguridad Minera (D.S. Nº 72 del Ministerio de Minería, año 1985 Suponga que usted debe analizar la información entregada por SERNAGEOMIN relativa a accidentes en minería. Considere el archivo de datos “Estadísticas seguridad minera (Archivo tarea 2).xls” 1- Desde SPSS importar el archivo “Estadísticas seguridad minera (Archivo tarea 2).xls” desde Excel. Calcular una variable que represente el total de accidentes (considerando accidentes fatales más los accidentes C.T.P.). Además considerando las regiones genere la variable zona; Norte, Centro y Sur. Muestre la sintaxis completa del cálculo de ambas variables.

Luego considerando la totalidad de datos en el archivo de datos, genere una tabla donde muestre por zona la suma total de accidentes; fatales, CTP y total de accidentes. Muestre la sintaxis. ¿Qué zona presenta la menor cantidad de accidentes C.T.P? ¿Qué zona presenta la mayor cantidad total de accidentes? ¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes fatales?

2.- Crear un nuevo archivo que considere por año y tipo de empresa ( Mandantes y Contratistas): la media de accidentes fatales, la suma de accidentes fatales, la media del total de accidentes, la suma del total de accidentes, la media del total de accidentes, la suma de días perdidos, la suma de horas hombre. Pegar la sintaxis. 3.- Considere el archivo creado en el punto anterior y calcule la tasa de frecuencia, la tasa de gravedad y la tasa de fatalidad de acuerdo a las siguientes definiciones. (Fuente: Art.12° del D.S N° 40 de la Ley 16.744) Tasa de Frecuencia: Número de lesionados por millón de horas trabajadas por todo el personal en el período considerado. Tasa de frecuencia= (Total de accidentes *1000000)/ Total horas Hombre

TP

3

Caso desarrollado por Sara Arancibia

20

Tasa de Gravedad: Número de días de ausencia al trabajo de los lesionados por millón de horas trabajadas por todo el personal en el período considerado. Tasa de gravedad= (Total de días perdidos *1000000)/ Total horas Hombre Tasa de Fatalidad: Numero de fatales por millón de horas trabajadas por todo el personal en el período considerado Tasa de gravedad= (Total accidentes fatales *1000000)/ Total horas Hombre Pegar la sintaxis de los cálculos y mostrar un gráfico que permita visualizar en qué años la tasa de fatalidad toma un valor extremo o atípico por tipo de empresa (Mandantes, Contratistas). ¿En qué tipo de empresa la mediana es mayor? ¿En qué tipo de empresa se presentan las tasas de fatalidad más altas y dónde se observa más variabilidad? Argumente su respuesta. 4.- Crear un nuevo archivo que considere por región y empresas; la media de accidentes fatales, la suma de accidentes fatales, la suma del total de accidentes, el mínimo del total de accidentes, el máximo del total de accidentes. Pegar la sintaxis. Muestre una tabla identificando la región donde se presentan los cinco valores mayores para las variables; suma total de accidentes y suma de accidentes fatales, por tipo de empresa (Mandantes y contratistas). Comente la tabla. SOLUCION Pregunta 1. SINTAXIS DATASET ACTIVATE Conjunto_de_datos3. COMPUTE totalacc=AccidentesFatales + AccidentesC.T.P. VARIABLE LABELS totalacc 'total de accidentes'. EXECUTE. SE recodifica automáticamente la variable región AUTORECODE VARIABLES=Región /INTO regionrec /PRINT. Región into regionrec Old Value Antofagasta Arica-Parinacota Atacama Coquimbo De Aysén De Los lagos Del Bío Bio

New Value Value Label 1 Antofagasta 2 Arica-Parinacota 3 Atacama 4 Coquimbo 5 De Aysén 6 De Los lagos 7 Del Bío Bio

21

Del Libertador Bernardo O´Higgins Del Maule Magallanes Metropolitana Tarapacá Valparaíso

8 Del Libertador Bernardo 8 O´Higgins 9 Del Maule 10 Magallanes 11 Metropolitana 12 Tarapacá 13 Valparaíso

Para crear zona se recodifica en distinta variable RECODE regionrec (12=1) (11=2) (13=2) (10=3) (1 thru 4=1) (8 thru 9=2) (5 thru 7=3) INTO zona. EXECUTE. En definición de la variable 1 Norte 2 Centro 3 Sur OLAP CUBES AccidentesFatales Accidentes C.T.P totalacc BY zona /CELLS=COUNT SUM SPCT /TITLE='Cubos OLAP'.

¿Qué zona presenta la menor cantidad de accidentes C.T.P? La zona Sur con 2646 accidentes. ¿Qué zona presenta la mayor cantidad total de accidentes? La zona Norte con 21702

22

¿Qué zona presenta mayor cantidad de accidentes fatales y qué porcentaje representan respecto al total de accidentes fatales? La zona Norte con 390 accidentes fatales y representan el 70,7% del total de accidentes fatales

Pregunta 2: SINTAXIS AGGREGATE /OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes1.sav' /BREAK=Años Empresas /AccidentesFatales_mean=MEAN(AccidentesFatales) /AccidentesFatales_sum=SUM(AccidentesFatales) /AccidentesC.T.P_mean=MEAN(AccidentesC.T.P) /AccidentesC.T.P_sum_1=SUM(AccidentesC.T.P) /totalacc_sum=SUM(totalacc) /HorasHombre_sum=SUM(HorasHombre) /DíasPerdidos_sum=SUM(DíasPerdidos) /N_BREAK=N. Pregunta 3 SINTAXIS: DATASET ACTIVATE Conjunto_de_datos7. COMPUTE tfrecuencia=(totalacc_sum * 1000000) / HorasHombre_sum. VARIABLE LABELS tfrecuencia 'tasa de frecuencia'. EXECUTE. COMPUTE gravedad=(DíasPerdidos_sum *1000000) / HorasHombre_sum. VARIABLE LABELS gravedad 'tasa de gravedad'. EXECUTE. COMPUTE tfatalidad=(AccidentesFatales_sum * 1000000) / HorasHombre_sum. VARIABLE LABELS tfatalidad 'tasa de fatalidad'. EXECUTE.

23

Pregunta 4 SINTAXIS DATASET ACTIVATE Conjunto_de_datos5. AGGREGATE /OUTFILE='G:\CURSOS 2011\MBA MINERIA\TAREA 2- MBA Minería 2011\AGRaccidentes2.sav' /BREAK=Región Empresas /AccidentesFatales_mean=MEAN(AccidentesFatales) /AccidentesFatales_sum=SUM(AccidentesFatales) /totalacc_sum=SUM(totalacc) /totalacc_min=MIN(totalacc) /totalacc_max=MAX(totalacc) /N_BREAK=N.

24

25

IV Caso: Producción minera 2009-2010 Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción agregada. Considere el archivo en Excel llamado Producción minera 2009-2010. El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para calcular variables y generar nuevos archivos con agregar. 1)

Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.

2)

Calcule una variable que muestre solo el año y otra que muestre solo el mes

3)

Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando

la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción mensual, la variabilidad, la mínima y máxima producción. 4)

Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con

los datos del archivo. 5)

Genere un gráfico que muestre para cada año la producción promedio mensual de cobre

6)

Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y

máxima producción mensual y la variabilidad de producción de cobre 7)

Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la

producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro.

26

SOLUCION 1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual. Solución: Archivo /abrir/datos

Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010 mensual 2)

Calcule una variable que muestre solo el año y otra que muestre solo el mes.

27

Para calcular el mes Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena: CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar. DATASET ACTIVATE Conjunto_de_datos1. STRING mes (A10). COMPUTE mes=CHAR.SUBSTR(AñoyMes,6). VARIABLE LABELS mes 'mes'. EXECUTE. Para calcular el año Transformar /calcular variable/ variable de destino: año, tipo; cadena, anchura 4/expresión de cadena: CHAR.SUBSTR(AñoyMes,1,4). Pegar/ ejecutar/Aceptar STRING año (A4). COMPUTE año=CHAR.SUBSTR(AñoyMes,1,4). VARIABLE LABELS año 'año'. EXECUTE. Para pasar a formato numérico ir a vista de variables y cambiar formato de cadena a numérico, cambiar además en medida de nominal a escala 3)

Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando

la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción mensual , la variabilidad, la mínimo y máxima producción Datos/ Agregar/variable de segmentación : año/Resúmenes de variables /Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino) /Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino) /Cobretdefino_min 'Mínima prod de cobre'=MIN(Cobretdefino) /Cobretdefino_max 'Máxima prod de cobre'=MAX(Cobretdefino) /Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino) /Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino) /Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino) /Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino) /Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino) /Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino) Activar número de casos: casos Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD

28

4)

Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con

los datos del archivo. Datos/ transponer DATASET ACTIVATE Conjunto_de_datos10. FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd Orokgdefino_sum Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd /NEWNAME=año. Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/ informes Resúmenes de casos./limitar a los primeros 11 casos.

29

5)

Genere un gráfico que muestre para cada año la producción mensual de cobre

Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año

Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de categorías : año

30

6)

Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y

máxima producción mensual y la variabilidad de producción de cobre Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino), eje de categorías : año. Aceptar

31

7)

Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la

producción de oro. Para esto considere la media de producción mensual, la mínima y máxima producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro. Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el nombre AGRPRODMES.sav Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100 El resultado se puede ver en el archivo agregado

32

33

V. Estimación por Intervalos de Parámetros Poblacionales4. (Muestras, intervalos de confianza).

A continuación realizaremos algunos procesos relativos con la identificación de distribuciones de probabilidad y con la estimación de parámetros poblacionales. Abra el archivo Poblaciónestimacióndeparámetros.sav. a) Usando algún gráfico, identifique cuál es la distribución de las personas respecto a sus ingresos en esta población conformada por 1.000 trabajadores.

Gráfico Q-Q normal de ingreso

Histograma 3

100

Normal esperado

2

Frecuencia

80

1

0

-1

60 -2

-3

40

420

450

480

510

540

570

Valor observado 20 Media =500,4162 Desviación típica =24, 05464 N =1.000

0 420,00

450,00

480,00

510,00

540,00

570,00

ingreso

EXAMINE VARIABLES=ingreso /PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Pruebas de normalidad a

ingreso

Kolmogorov-Smirnov Estadístico gl Sig. ,014 1000 ,200*

Shapiro-Wilk Estadístico gl ,999 1000

Sig. ,743

*. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors

4

Caso elaborado por Jaime Pérez-Kallens

34

Dado que la significancia de la prueba K_S es mayor a 0,05 no hay evidencia para rechazar la hipótesis nula de normalidad de la variable y por tanto la variable distribuye normal

b)

Determine el ingreso promedio por trabajador y la dispersión de los ingresos en la población. Descriptivos ingreso

Media Intervalo de confianza para la media al 95%

Límite inferior Límite superior

Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Estadístico 500,4162 498,9235

Error típ. ,76067

501,9089 500,3376 500,5701 578,626 24,05464 423,42 569,35 145,93 33,01 ,028 -,035

,077 ,155

c) Seleccione una muestra aleatoria correspondiente al 20% de la población, muestre la sintaxis. Muestre una tabla de frecuencias para género USE ALL. COMPUTE filter_$=(uniform(1) 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .

36

genero

Válidos

Femenino Masculino Total

Frecuencia 78 122 200

Porcentaje 39,0 61,0 100,0

Porcentaje válido 39,0 61,0 100,0

Porcentaje acumulado 39,0 100,0

d) Con la muestra antes seleccionada estime el ingreso medio por trabajador con un nivel de confianza del 90%. Interprete el intervalo resultante. Además, verifique si la media poblacional está contenida en el intervalo construido. Por último, identifique los principales estadísticos para la construcción del intervalo de confianza.

Descriptivos ingreso

Media Intervalo de confianza para la media al 90% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Límite inferior Límite superior

Estadístico 500,2375 497,3828

Error típ. 1,72747

503,0922 500,7133 501,7956 596,828 24,43005 424,63 569,35 144,72 35,96 -,227 -,020

,172 ,342

A partir de la muestra (200 registros) obtenemos el intervalo de confianza del 90% para la media (497,3828 ; 503,0922) De 100 intervalos similarmente construidos, 90 contendrán el parámetro poblacional (media poblacional)

Se verifica que la media poblacional 500,4162 pertenece al intervalo de confianza antes indicado Intervalo de confianza: Limite inferior

X z

Limite superior X  z

 n





 n

n

= 500,2375-1,645*1,72747=-497,3958

=500,2375+1,645*1,72747=503,07918

24,43005  1,727465 200

37

e) Seleccione una nueva muestra aleatoria, del 20%, y construya otro intervalo de confianza para estimar el ingreso promedio por persona, con un nivel de confianza del 90%; verifique si la media poblacional está contenida dentro del intervalo. Además, compare este intervalo con el anterior y comente. USE ALL. do if $casenum = 1. compute #s_$_1=200. compute #s_$_2=1000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Descriptivos ingreso

Media Intervalo de confianza para la media al 90%

Límite inferior Límite superior

Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Estadístico 502,4214 499,6457

Error típ. 1,67967

505,1972 502,3368 502,6920 564,258 23,75411 440,09 564,09 124,00 32,80 ,010 -,280

,172 ,342

f) Seleccione una nueva muestra aleatoria, del 1% de la población y construya un intervalo de confianza para estimar el ingreso promedio por trabajador con un nivel de confianza del 95%. Compare este resultado con el del punto e) y comente respecto al estadístico que está usando y supuesto con relación a la distribución de la población.

USE ALL. do if $casenum = 1. compute #s_$_1=10. compute #s_$_2=1000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1.

38

compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '10 de los primeros 1000 casos (MUESTRA)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . EXAMINE VARIABLES=ingreso /PLOT BOXPLOT STEMLEAF HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Descriptivos ingreso

Media Intervalo de confianza para la media al 95%

Límite inferior Límite superior

Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

g)

Estadístico 503,4258 488,8971

Error típ. 6,42251

517,9545 504,7263 514,7942 412,486 20,30975 463,21 520,23 57,02 33,61 -1,226 -,038

,687 1,334

Calcule la proporción de hombres en la población. genero

Válidos

Femenino Masculino Total

Frecuencia 400 600 1000

Porcentaje 40,0 60,0 100,0

Porcentaje válido 40,0 60,0 100,0

Porcentaje acumulado 40,0 100,0

La proporción de hombres en la población es del 0,6

39

h) Seleccione una muestra aleatoria, del 20% y estime la proporción de hombres que hay en la población, con un nivel de confianza del 95%. Verifique si la proporción poblacional de hombre, está contenida en el intervalo de confianza que construyó. Resumen del procesamiento de los casos

genero

Válidos N Porcentaje 200 100,0%

Casos Perdidos N Porcentaje 0 ,0%

N

Total Porcentaje 200 100,0%

USE ALL. do if $casenum = 1. compute #s_$_1=200. compute #s_$_2=1000. end if. do if #s_$_2 > 0. compute filter_$ = uniform(1)* #s_$_2 < #s_$_1. compute #s_$_1 = #s_$_1 - filter_$. compute #s_$_2 = #s_$_2 - 1. else. compute filter_$ = 0. end if. VARIABLE LABEL filter_$ '200 de los primeros 1000 casos (MUESTRA)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Descriptivos genero

Media Intervalo de confianza para la media al 95%

Límite inferior Límite superior

Estadístico ,63 ,56

Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis

Error típ. ,034

,69 ,64 1,00 ,236 ,485 0 1 1 1 -,520 -1,747

,172 ,342

El parámetro poblacional está contenido en el intervalo de confianza

40

VI.

Estudio de Caso: Test market5

Objetivos: Aplicar pruebas de hipótesis y agregación

Una compañía produce computadores personales y está considerando la introducción de nuevos colores para el hardware con la esperanza de aumentar las ventas. El mantenimiento de la producción de más de un color de equipo es costoso. Para la introducción de nuevos colores la empresa ha establecido que será rentable si llega a una meta de ventas promedio de 260 unidades por semana. El departamento de marketing introduce y publicita una presentación de los nuevos colores en un experimento de prueba de marketing por 36 semanas Las ventas semanales están dadas en el archivo testmarket.sav Basada en las ventas en testmarket, ¿debería la compañía adoptar la opción de nuevos colores? Los datos tabulados han sido entregados a usted en el archivo “testmarket colores” y se le solicita que responda las siguientes preguntas: Nota: Muestre todas las sintaxis necesarias para responder cada una de las preguntas.

1.

Suponga que se quiere convencer a los ejecutivos que las ventas justifican la introducción de nuevos colores. Es decir se quiere argumentar que el promedio semanal de ventas con la opción de colores es mayor a 260 unidades. Determine si existen diferencias significativas en la media de ventas semanales respecto a 260. Si hay diferencias determine si la media poblacional es superior a 260 y estime un intervalo de confianza para la media poblacional con un 95% de confianza. Interprete. (Debe verificar si se cumplen las condiciones para aplicar test de hipótesis). Solución En primer lugar se debe agregar por semana, sumando la cantidad de ventas de computadores AGGREGATE /OUTFILE='F:\CURSOS 2012\AIE 2012-1\SOLEMNE 2- 2012\Archivos solemne2-2012-1\AGR ventas.sav' /BREAK=Semana /cantidad_sum 'venta semanal'=SUM(cantidad) /N_BREAK=N.

Luego se verifica si se cumple la condición de normalidad o asimetría de ventas semanales.

5

Caso elaborado por Sara Arancibia

41

DATASET ACTIVATE Conjunto_de_datos5. EXAMINE VARIABLES=cantidad_sum /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.

Ho: La variable ventas distribuye normal H1: La variable ventas no distribuye normal Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y por tanto la variable ventas distribuye normal (dado que la significancia es superior a 0,05). Ahora aplicamos una prueba T para una muestra donde las hipótesis correspondientes son Ho: La media de ventas ( µ ) no difiere significativamente de 260 H1: La media de ventas ( µ ) difiere significativamente de 260 T-TEST /TESTVAL=260 /MISSING=ANALYSIS /VARIABLES=cantidad_sum /CRITERIA=CI(.99).

42

Dado que la sig es menor a 0,05 existe evidencia para rechazar la hipótesis nula y por tanto la media poblacional de ventas difiere significativamente de 260. Dado que la diferencia µ-260 está entre dos valores positivos entre 8,7355 y 44,0422 entonces se tiene que µ-260>0 es decir µ>260. Por tanto la media poblacional de las ventas semanales es superior a 260, lo que implica que la compañía debería adoptar la opción de nuevos colores. Además con un 95% de confianza la media poblacional µ está entre 260+8,7365 y 260+44,0422 es decir entre 268,7355 y 304,0422. Es decir de 100 intervalos construidos similarmente aprox en 95 de ellos se encontrará la media poblacional de ventas semanales

NOTA: Otra forma para estimar el intervalo de confianza es pedir directamente el intervalo de confianza en explorar para la media de ventas obteniendo EXAMINE VARIABLES=cantidad_sum /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 99 /MISSING LISTWISE /NOTOTAL.

2. Los directivos han observado que el rojo es el que menos se vende y lo han descartado. a) Se le solicita que determine si existen diferencias significativas entre la venta promedio semanal de los computadores en color gris plateado y rosado con un 95% de confianza. Argumente su respuesta. (Debe verificar si se cumplen las condiciones para aplicar test de hipótesis).

43

b) Determine si existen diferencias significativas entre la venta promedio semanal de los computadores en color gris plateado y blanco con un 95% de confianza. Argumente su respuesta. Solución

En primer lugar se verificará si la variable ventas distribuye normal en cada uno de los grupos de colores que interesan (Gris plateado, rosado y blanco)

EXAMINE VARIABLES=cantidad BY COLOR /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 99 /MISSING LISTWISE /NOTOTAL.

Del test de normalidad Shapiro -Wilk se observa que no hay evidencia para rechazar la hipótesis nula y por tanto la variable ventas distribuye normal en cada grupo (dado que la significancia es superior a 0,05).

a) Ahora aplicamos el test T para muestras independientes donde las hipótesis correspondientes son Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y rosado (Ho: µ1= µ2) H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y rosado (Ho: µ1≠ µ2) En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son: Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y rosado (Ho:

)

H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y rosado (H1: ) DATASET ACTIVATE Conjunto_de_datos2.

44

T-TEST GROUPS=COLOR(1 3) /MISSING=ANALYSIS /VARIABLES=cantidad /CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume varianzas iguales. En consecuencia se analiza la primera fila en el test de igualdad de medias Del test se observa que hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto existen diferencias significativas en la media de ventas entre el gris plateado y rosado. Del intervalo de confianza para la diferencia de medias al 95% de confianza, se observa que la diferencia µ1- µ2 está entre dos valores positivos y por tanto µ1> µ2, es decir la media de ventas del color gris plateado es mayor a la media de ventas del rosado.

b) En la pregunta b) también se aplica el test T para muestras independientes donde las hipótesis correspondientes son Ho: No existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y blanco (Ho: µ1= µ2) H1: Existen diferencias significativas en las medias de ventas entre los grupos de colores gris plateado y blanco (Ho: µ1≠ µ2) En primer lugar se ve el test de Levene de homogeneidad de varianzas donde las hipótesis son: Ho: No existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y blanco (Ho:

)

H1: Existen diferencias significativas en las varianzas de ventas entre los grupos de colores gris plateado y blanco (H1: ) DATASET ACTIVATE Conjunto_de_datos2. T-TEST GROUPS=COLOR(1 4) /MISSING=ANALYSIS

45

/VARIABLES=cantidad /CRITERIA=CI(.95).

Del test de Levene se tiene que no hay evidencia para rechazar la hipótesis nula y por lo tanto se asume varianzas iguales. En consecuencia se analiza la primera fila en el test de igualdad de medias Del test se observa que no hay evidencia para rechazar la hipótesis nula de igualdad de medias y por tanto no existen diferencias significativas en la media de ventas entre el gris plateado y blanco.

46

VII. Estudio de Caso: Estudio Morfología6 Coeficiente de Correlación Considere el archivo “Estudio Morfología.sav”. i. Determine si las variables estatura, peso y coeficiente intelectual están correlacionadas significativamente. Para esto seleccione Analizar/Correlaciones/Bivariadas Variables: ci, estatura y peso Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones significativas]. Correlaciones

Cociente intelectual

ESTATURA

PESO

Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N

Cociente intelectual 1 . 149 ,081 ,325 149 ,001 ,988 148

ESTATURA ,081 ,325 149 1 . 150 ,600** ,000 149

PESO ,001 ,988 148 ,600** ,000 149 1 . 149

**. La correlación es significativa al nivel 0,01 (bilateral).

ii.

Interprete el coeficiente de correlación

b)

Diagrama de Dispersión

La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el Gráfico de Dispersión: Seleccione Gráficos/Dispersión/Dispersión Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R2 e interprete.

6

Caso elaborado por Sara Arancibia y Nelson Rodriguez

47

Gráfico de dispersión simple 110 27

100

93 90

31

80

70

SEXO

60

Mujer

PESO

Hombre 50 Total Population 40

R² = 0,3606

120

140

160

180

200

220

240

260

280

ESTATURA

Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FILTER BY filter_$. EXECUTE .

Gráfico de dispersión simple 110 100 90 80

SEXO

70

Mujer

60

PESO

Hombre 50 Total Population R² = 0,7182

40 140

150

160

170

180

190

200

ESTATURA Se han filtrado los casos 27, 31 y 93

i.

Realice un gráfico de dispersión superpuesto.

48

Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos. Seleccione el par estatura - peso y el par ci - peso

gráfico de dispersión superpuesto 300 31

200

31 100 Cociente intelectual PESO ESTATURA PESO

0 40

50

60

70

80

90

100

110

ii. Realice un gráfico de dispersión matricial. El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).

49

Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas: iii. Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error típico de estimación Resumen del modelo

Modelo 1

R ,847(a)

R cuadrado corregida ,716

R cuadrado ,718

Error típ. de la estimación 6,4593

a Variables predictoras: (Constante), ESTATURA

El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable. El R2 =0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura. Una forma de estimar el error estándar del estimador es basándose en los residuos;

S Y ,X 

e

2

n2

El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la dispersión con respecto a una recta promedio, denominada recta de regresión. ANOVAb Modelo 1

Regresión Residual Total

Suma de cuadrados 15309,683 6008,032 21317,715

Media cuadrática 15309,683 41,722

gl 1 144 145

F 366,941

Sig. ,000a

a. Variables predictoras: (Constante), ESTATURA b. Variable dependiente: PESO

Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: 1 = 0 iv.

Estime la ecuación de regresión Coeficientesa

Modelo 1

(Constante) ESTATURA

Coeficientes no estandarizados B Error típ. -92,138 8,816 ,999 ,052

Coeficientes estandarizad os Beta ,847

t -10,451 19,156

Sig. ,000 ,000

a. Variable dependiente: PESO

Y = -92,13 + 0,999•X donde

v.

Y = Peso X = Estatura

Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación significativa entre el ingreso y el consumo? En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t (asociado a la pendiente de la regresión) y su nivel de significancia.

50

Dado que la sig < 0,01 se rechaza la hipótesis nula H0: 1 = 0. Concluimos entonces que existe una relación significativa entre ingreso y consumo. vi.

Interprete la pendiente de la ecuación de regresión.

La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero debemos determinar si en la población parece existir una relación entre las dos variables o si la relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población, por definición la pendiente de la línea de regresión de la población sería de cero 1=0. En consecuencia, la hipótesis nula que se prueba usualmente es H0: 1=0. La hipótesis nula también puede formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa o inversa). Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es:

t donde s  b1

b1  ( 1 )o sb1

SY , X

X

2

 nX

2

Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la fórmula se simplifica y enuncia como

b t 1 sb1 El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera:

b1  tsb1 Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de variar” en la muestra que sirve de base al intervalo de confianza.

vii. Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión lineal/ Estadísticos/Intervalos de confianza. En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de confianza para b1 al 95%.

51

Coeficientesa Coeficientes no estandarizados Modelo 1

(Constante) ESTATURA

B -92,138 ,999

Error típ. 8,816 ,052

Coeficientes estandarizad os Beta ,847

t -10,451 19,156

Sig. ,000 ,000

Intervalo de confianza para B al 95% Límite superior Límite inferior -109,564 -74,712 ,896 1,102

a. Variable dependiente: PESO

Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102 Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%. Coeficientesa

Coeficientes no estandarizados Modelo 1

(Constante) INGRESO

B 2,129 ,861

Error típ. 7,164 ,049

Coeficient es estandari zados Beta ,984

t ,297 17,596

Sig. ,772 ,000

Intervalo de confianza para B al 95% Límite superior Límite inferior -13,834 18,092 ,752 ,970

a. Variable dependiente: CONSUMO

viii. Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo “Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.

52

Observación: Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos:  Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X.  Independencia de las observaciones  Linealidad en la relación entre las variables. ix. siguientes gráficos:

Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los

1. Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede igualmente servirnos para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. 2.

Los residuos tipificados-gráfico de prob. normal.

53

Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una línea recta diagonal

Gráfico P-P normal de regresión Residuo tipificado

Gráfico de dispersión

Variable dependiente: PESO

Variable dependiente: PESO

1,0 3

2

Regresión Residuo tipificado

Prob acum esperada

,8

,5

,3

0,0 0,0

,3

,5

,8

1

0

-1

-2 -3

1,0

-3

Prob acum observada

-2

-1

0

1

2

3

Regresión Valor pronosticado tipificado

Pruebas de normalidad a

Standardized Residual

Kolmogorov-Smirnov Shapiro-Wilk Estadístico gl Sig. Estadístico gl ,044 146 ,200* ,992 146

Sig. ,601

*. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors

54

VIII

Estudio de Caso: Consumo producto7

El área de Marketing de una empresa necesita conocer un modelo que le permita pronosticar la cantidad promedio consumida de un producto por una familia dependiendo de sus características. Para esto ha recopilado una muestra aleatoria de 70 familias con la cantidad consumida de un producto en Kg, su ingreso en miles de pesos y el tamaño de la familia (número de personas que componen la familia). Considere el archivo “consumo producto.sav”

a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e interprete. b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo (mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la sintaxis. c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde se desprenden sus respuestas. d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la pendiente. e)

Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

f)

Determine la elasticidad ingreso. Argumente su respuesta e interprete

SOLUCION a) Determinar la matriz de correlaciones para todas las posibles variables involucradas en el modelo e interprete. Correlaciones

cantidad

ingreso

tamaño de la familia

Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N

cantidad 1 70 ,693** ,000 70 ,401** ,001 70

ingreso ,693** ,000 70 1 70 ,265* ,027 70

tamaño de la familia ,401** ,001 70 ,265* ,027 70 1 70

**. La correlación es significativa al nivel 0,01 (bilateral). *. La correlación es significante al nivel 0,05 (bilateral).

7

Caso elaborado por Sara Arancibia

55

La matriz de correlaciones nos muestra que todas las variables se correlacionan. La correlación más alta se da entre cantidad consumida e ingreso (0,693) siendo significativa la correlación al nivel del 0,01. Lo mismo ocurre para cantidad y tamaño de la familia pero la correlación es más baja alcanzando una fuerza de asociación de 0,401.

b) Mostrar en un gráfico de dispersión simple para la variable que mas se correlaciona con el consumo (mostrando la recta de ajuste y el R2). ¿Qué puede observar? Si existen atípicos fíltrelos. Mostrar la sintaxis.

Gráfico de dipersión entre cantidad consumida e ingreso 140

70

120

cantidad

100

69

2

80

60 R Sq Linear = 0,48

40

0,0

500,0

1000,0

1500,0

2000,0

ingreso Se observa una fuerte asociación lineal positiva entre las variables cantidad consumida e ingreso. Sin embargo se observa claramente tres valores atípicos. USE ALL. COMPUTE filter_$=(id ~= 2 & id ~= 69 & id ~= 70). VARIABLE LABEL filter_$ 'id ~= 2 & id ~= 60 & id ~= 66 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .

56

c) Determinar la ecuación del ajuste del modelo de regresión lineal simple que permita pronosticar la cantidad consumida del producto. Interprete el coeficiente de determinación. Muestre las tablas de donde se desprenden sus respuestas.

El coeficiente de determinación es R2 =0,849, es decir la variabilidad en la variable cantidad consumida es explicada en un 84,9% por la variable ingreso. Resumen del modelob Modelo 1

R R cuadrado ,921a ,849

R cuadrado corregida ,846

Error típ. de la estimación 7,841

a. Variables predictoras: (Constante), ingreso b. Variable dependiente: cantidad

Coeficientesa

Modelo 1

(Constante) ingreso

Coeficientes no estandarizados B Error típ. 16,897 3,218 ,064 ,003

Coeficientes estandarizad os Beta ,921

t 5,250 19,092

Sig. ,000 ,000

a. Variable dependiente: cantidad

La ecuación de ajuste del modelo es Y= 16,897+0,064X donde Y=cantidad consumida y X= ingreso d) ¿Los coeficientes de la ecuación son estadísticamente significativas? Argumente e interprete la pendiente. . De la tabla anterior se desprende que ambos coeficientes son estadísticamente significativos pues su significancia es menor a 0,05. Ante el aumento de una unidad (mil pesos) en el ingreso, la cantidad consumida aumenta en promedio 0,064 Kg. e)

Determinar, si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad. .

57

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: cantidad 1,0

Prob acum esperada

0,8

0,6

0,4

0,2

0,0 0,0

0,2

0,4

0,6

0,8

1,0

Prob acum observada

Del Grafico se observa que se cumple la hipótesis de normalidad de los residuos.

O puede ser por la prueba de K-S Pruebas de normalidad a

Standardized Residual

Kolmogorov-Smirnov Estadístico gl Sig. ,058 67 ,200*

Estadístico ,980

Shapiro-Wilk gl 67

Sig. ,366

*. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors

Observando al prueba de K-S se observa que no se rechaza la hipótesis de normalidad de los residuos.

58

Gráfico de dispersión

Variable dependiente: cantidad

Regresión Residuo tipificado

2

1

0

-1

-2

-3 -2

-1

0

1

2

3

Regresión Valor pronosticado tipificado

Del gráfico de dispersión se observa que se cumple la hipótesis de homocedasticidad

a) Determine la elasticidad ingreso. Argumente su respuesta e interprete Se crean dos nuevas variables con los logaritmos naturales de la cantidad y el ingreso . Luego se corre una regresión lineal entre ln(cantidad) y ln( ingreso) La pendiente de la ecuación es la elasticidad buscada

59

IX Estudio de caso: Desempleados

Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es “Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes: Variable edad antig

Etiqueta Edad del trabajador Antigüedad en el último empleo (en años) 1 = Sí 0 = No

profesional

El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos. Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente. ¿Qué puede observar del gráfico?

Diagrama de Dispersión entre Semanas Desempleado

Diagrama de Dispersión entre Semanas Desempleado

y Edad de la persona

y Antiguedad en último Empleo

90

90

80

80

70

70

60

60

50

50 40

30 20 10

Rsq = 0,7216

10

20

30

40

50

60

SEMANAS

SEMANAS

40

30 20 10

Rsq = 0,2164 0

edad

10

20

30

40

ANTIG

En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de la antigüedad vs. semanas, no se observa tan claro la linealidad. b)

Determine la matriz de correlaciones. ¿Qué puede observar?

60

Correlations

SEMANAS

edad

ANTIG

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

SEMANAS 1,000 , 50 ,849** ,000 50 ,465** ,001 50

edad ,849** ,000 50 1,000 , 50 ,490** ,000 50

ANTIG ,465** ,001 50 ,490** ,000 50 1,000 , 50

**. Correlation is significant at the 0.01 level (2-tailed).

En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada respectivamente) c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente. ANOVAb

Model 1

Regression Residual Total

Sum of Squares 10999,684 4176,496 15176,180

df 2 47 49

Mean Square 5499,842 88,862

F 61,892

Sig. ,000a

a. Predictors: (Constant), ANTIG, edad b. Dependent Variable: SEMANAS

Coefficientsa

Model 1

(Constant) edad ANTIG

Unstandardized Coefficients B Std. Error -17,428 5,983 1,794 ,192 ,195 ,264

Standardi zed Coefficien ts Beta ,818 ,065

t -2,913 9,318 ,739

Sig. ,005 ,000 ,464

a. Dependent Variable: SEMANAS

El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto existe relación lineal significativa. Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero.

61

d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado. Model Summary

Model 1

R R Square ,849a ,722

Adjusted R Square ,716

Std. Error of the Estimate 9,38

a. Predictors: (Constant), edad ANOVAb

Model 1

Regression Residual Total

Sum of Squares 10951,194 4224,986 15176,180

df 1 48 49

Mean Square 10951,194 88,021

F 124,416

Sig. ,000a

a. Predictors: (Constant), edad b. Dependent Variable: SEMANAS Coefficientsa

Model 1

(Constant) edad

Unstandardized Coefficients B Std. Error -18,179 5,868 1,863 ,167

Standardi zed Coefficien ts Beta

t -3,098 11,154

,849

Sig. ,003 ,000

a. Dependent Variable: SEMANAS

En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2% por la variable EDAD. e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del último modelo.

Model Summary

Model 1

R R Square ,891a ,794

Adjusted R Square ,785

Std. Error of the Estimate 8,16

a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad ANOVAb

Model 1

Regression Residual Total

Sum of Squares 12048,898 3127,282 15176,180

df 2 47 49

Mean Square 6024,449 66,538

F 90,542

Sig. ,000a

a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad b. Dependent Variable: SEMANAS

62

Coefficientsa

Model 1

Unstandardized Coefficients B Std. Error -19,465 5,112 1,975 ,148

(Constant) edad Es profesional ( 1=SI, 0=NO)

-11,512

2,834

Standardi zed Coefficien ts Beta ,900

t -3,808 13,361

Sig. ,000 ,000

-,274

-4,062

,000

a. Dependent Variable: SEMANAS

Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas pues la sig de las pruebas t son menores que 0,05 . Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera profesional. Las ecuaciones son:  para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD  para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad. Tests of Normality a

Standardized Residual

Kolmogorov-Smirnov Statistic df Sig. ,088 50 ,200*

Statistic ,970

Shapiro-Wilk df 50

Sig. ,407

*. This is a lower bound of the true significance. a. Lilliefors Significance Correction

La prueba de normalidad de Shapiro-Wilk indica que se cumple la hipótesis de normalidad. (La prueba de Shapiro-Wilk es usada cuando hay hasta 50 casos. Dado que son 50 los casos analizados, se usa el estadístico Shapairo Wilk).

63

Scatterplot Dependent Variable: SEMANAS Regression Standardized Residual

2

1

0

-1

-2

-3 -2

-1

0

1

2

3

Regression Standardized Predicted Value

Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningún patrón.

64

X. Estudio de caso: Consumo de agua potable8 Considere el archivo “consumo agua potable.sav” correspondiente a una muestra aleatoria de hogares de la región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Considere además el archivo Ingresos hogares correspondientes al ingreso familiar del hogar de los mismos hogares de la muestra considerada para el consumo de agua potable. Prepare un informe para un ejecutivo que necesita la siguiente información respecto al consumo de agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos. a) Crear una variable “gasto” que indique el gasto en agua potable de cada hogar, sabiendo que el gasto depende del límite de sobreconsumo (LSC= 60 m3). El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo (LSC=60m3) Para los metros cúbicos de agua que excede al LSC el valor por m3 es $560. Mostrar la sintaxis correspondiente. b) Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento. c) Crear una variable “rangconsu” que considere los hogares con sobreconsumo (consumo>60), con consumo normal (20