TURISMO I Y ^ José María Raya HOSTELER rt Í Estadística Aplicada rismo PEARSON Prentice Ha ll A Estadística R
Views 183 Downloads 1 File size 9MB
TURISMO
I
Y
^
José María Raya
HOSTELER
rt
Í
Estadística Aplicada rismo PEARSON Prentice Ha ll
A
Estadística RpIicaøa al Turismo
Es!aaTsríca al
aplicada
Turismo
José María Raya Vílchez Escuela Universitaria del Maresme (EUM) Adscrita a la Universidad Pompeu Fabra
PEARSON \
Prenticeall Madrid • México • Santafé de Bogotá • Buenos Aires • C ar acas • Lima • Montevideo • S an Ju an • S an José • S an tiago • Sao Paulo • White Plains
/Dato. de catalogación bibliográfica
K AYA VÍLCHEZ, J. M.' L OTADÍ.STICA APLICADA AL TURISMO PEARSON
EDUCACIÓN. S.A.. Madrid. 2004
ISBN: 84-205-4092-7 Materia: Estadística. teoría. procedimientos y métodos 311 Formato: 195 / 250 mm
Páginas: 112
Todos los derechos reservados. Queda prohibida, salvo excepción prevista en la ley, cualquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con autorización de los titulares de propiedad intelectual. La infracción de los derechos mencionados puede ser constitutiva de delito contra la propiedad intelectual (arts. 270 y sgts. Código Penal). DERECHOS RESERVADOS 2004 por PEARSON EDUCACIÓN, S.A. Ribera del Loira, 28 28042 Madrid (España) RAYA VÍLCHEZ, J. M.° ESTADÍSTICA APLICADA AL TURISMO ISBN: 84-205- 4092-7 Depósito Legal: M-14986-2004 PEARSON PRENTICE HALL es un sello editorial de PEARSON EDUCACIÓN, S.A. Equipo editorial: Editor: David Fayerman Aragón Técnico editorial: Ana Isabel García Borro Equipo de producción: Director: José Antonio Ciares Técnico: José Antonio Hernán Diseño de cubierta: Equipo de diseño de PEARSON EDUCACIÓN, S.A. Composición y diseño: JOSUR, TRATAMIENTO DE TEXTOS, S.L. Impreso por: Top Printer Plus IMPRESO EN ESPAÑA - PRINTED IN SPAIN Este libro ha sido impreso con papel y tintas ecológicos
A los que me acompañan en esta «canción» A Mar, Manel y en especial a Unís (¡som un equip.!) de la EUM. por su confianza. A Jaume, por ser el origen de estas oportunidades. A mis .er. por todo lo que han aportado a este libro, especialmente, a Tania y Elisabet. A Ana por estas «pequeñas cosas.. A mis amigos y amigas, sobre todo a David y a Xevi por su aguante. Mención honorífica para mis padres y a Abel (mi rocker favorito) por... ¡todo! Por último, a Ángel y David de Pearsón Educación y a la comprensión de .quien pudo haber sido. y .donde quiera que estés..
ix
Priílogo Ljaseatacióo
Z.
1.1. La Estadística: sentido y significado
2
1.2. El nuevo profesional turístico
3
1.3. El programa SPSS: breve introducción a su funcionamiento
4
1.4. La agencia EN ALGÚN LUGAR. S A
7
Riiálisis exploratorio de variables unidimerisionales
9
2.1. Población y muestra. Tipos de muestreo
10
2.2. Variables estadísticas. Tipos
11
2.3. Tabulación: frecuencias
12
2.4. Representaciones gráficas
15
2.5. Reducción de datos I: medidas de tendencia central
16
2.6. Reducción de datos H: medidas de posición
23
2.7. Reducción de datos III: medidas de dispersión
25
2.8. Reducción de datos IV: medidas de simetría, apuntamiento y concentración
29
2.9. Ejemplos de estudio
33
2.10. Ejemplo de resolución a partir de SPSS
38
2.11. Ejercicios propuestos
48
Hnálisis exploratorio dc variables bidimensianales
53
3.1. Diagramas } tabulaciones bivariantes
54
3.2. Dependencia funcional y estadística. Covarianza y correlación
55
3.3. La regresión lineal simple
57
3.4. Cálculo de coeficientes e interpretación
58
üi
Estadística aplicada al turismo
3.5.
Medidas de calidad del ajuste
60
3.6.
Introducción a la inferencia estadística
61
3.7.
Hipótesis del modelo lineal. Consecuencias
62
3.8.
Introducción a la regresión lineal múltiple
63
3.9.
Estadística de atributos. Independencia y asociación
64
3.10. Ejemplos de estudio
66
3.11
68
Ejemplo de resolución a partir de SPSS
3.12. Ejercicios propuestos
4.
Introducción al análisis de series temporales
79
83
4.1. Series temporales. Componentes de una serie temporal
84
4.2. Desagregación de los componentes de una serie temporal
85
4.3. Autocorrelación
87
4.4. Ejemplos de estudio
87
4.5. Ejemplos de resolución a partir de SPSS
89
4.6. Ejercicios propuestos
94
Bibliografía
97
Índice analítico
99
Prãl000
on toda seguridad la mayoría del conocimiento que adquirimos, tanto de índole teórica como práctica, presenta como objetivo esencial la ayuda a la hora de tomar decisiones. Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier técnica cuantitativa, en particular la Estadística descriptiva. Y si la Estadística descriptiva resulta tremendamente útil para científicos, ingenieros o economistas. i, por qué no para los profesionales del sector turístico? El presente libro trata a nivel intermedio la mayoría de tópicos que gran parte de textos de dicha temática suelen presentar. A pesar de ello, pretende cuidar especialmente diversos aspectos que ala vez le permiten obtener una entidad diferencial. En primer lugar, intenta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sin menoscabar el rigor matemático propio de la materia. Dicha exposición intentamos sea intuitiva y persuasiva para el lector, de forma que la utilidad y la intuición que da origen a cada concepto anteceda la definición formal del mismo. En segundo lugar, se pretende orientar el texto al sector turístico por varias razones. Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa realmente orientados al sector tratando de forma directa la utilidad que confieren los instrumentos estadísticos a la gestión hotelera, a las agencias de viajes o. evidentemente, a las consultoras turísticas entre otros profesionales del sector. Este hecho se mitiga durante el texto, incluso en forma de casuística real debidamente disfrazada. Por último, y relacionado con los puntos anteriores, el texto se hace acompañar de la implementación y solución de diversos problemas a partir de, probablemente. el paquete estadístico de mayor generalización, utilizado tanto en la esfera pública como en la privada, en la académica y en la empresarial: el programa SPSS. Así, cada capítulo viene acompañado de una sección en la que se practica la obtención de todas las tablas, gráficos y estadísticos vistos en el mismo, a partir de una base de datos con evidente orientación turística, de forma que el lector aprenda a utilizar el paquete en dicho entorno, a interpretar sus salidas y sea capaz. por tanto, de tomar decisiones. Como texto de iniciación a la Estadística es válido en cualquier entorno, pero resulta eminentemente dirigido a estudiantes del campo turístico, ya sean de diplomatura o de ciclos formativos. En particular, la gran mayoría de ejercicios y problemas presentados son fruto de diversos años de docencia de la asignatura Estadística de turismo (o técnicas cuantitativas aplicadas al sector turístico, según el plan) en una escuela universitaria. En el autoconvencimiento de cualquier docente figura que la mejor exposición procede de aquélla experimentada y aprendida de nuestros alumnos, a quienes mostramos nuestro agradecimiento desde este momento. Por supuesto, figura en nuestro deseo que este material sirva de ayuda a futuras promociones de estudiantes. No obstante, no quisiera dejar pasar la oportunidad de recomendar el mismo a los profesionales del sector que puedan encontrarlo de validez para sus tareas. De los lectores del texto esperamos perdonen las deficiencias del mismo a la par que encuentren en él un camino hacia su éxito.
C
CRPTTULO
1
Presentación Sumario 1.1. La Estadística: sentido y significado 1.2. El nuevo profesional turístico 1.3. El programa SPSS: breve introducción a su funcionamiento 1.4. La agencia EN ALGÚN LUGAR, S.A.
E
e
n est capítulo se pretende presentar la Estadística como una de las ciencias de mayor longevidad, como la mayoría de las instrumentales, y cuya vocación desde el
principio es la ayuda en la toma de decisiones. Asimismo, se presentará la concepción turística que esconde el libro, el programa informático que aprenderemos a utilizar en las funciones relacionadas con el objetivo del presente libro y la empresa que iremos conociendo a través del análisis estadístico. 0
•
•
1.1.
La
Estadística: sentido o significado
Nos rodea la Estadística. La política, la economía, el mundo del turismo, la publicidad. las empresas, los países..., todos se sirven de ella, en ocasiones con el fin de distorsionar la realidad para sus propios fines. Con un ejemplo sencillo y parafraseando a Bernard Shaw se observa cómo se puede producir esta distorsión:. si un hombre tiene la cabeza en un horno y los pies en la nevera la estadística reflejaría que su cuerpo está a una temperatura media ideal.. El único medicamento que nos salva de esta posible manipulación y nos ayuda a participar en la argumentación pública basada en cifras y datos, así como en las decisiones turísticas que realice una agencia. un departamento de gobierno o una cadena hotelera, es el conocimiento de los métodos estadísticos y. en particular, de los más básicos presentados en este libro. Pero, ¡,de dónde procede esta ciencia? Muchos de los conceptos que incluimos hoy día dentro de ese amplio término que conocemos como Estadística son tan antiguos como el mismo hombre. Todo lo que hace referencia a la recopilación, recuento, organización y censo de datos se conoce como parte de la actividad humana desde hace más de 5.000 años. No obstante, se trata de una palabra introducida por Achenwall. profesor de la Universidad de Gottingen. en 1748. El término estadística tiene su raíz en la palabra estado. Surge cuando se hace necesario cuantificar conceptos para sus intereses. En la mayoría de los casos esta cuantificación se hará en función de unos fines económicos o militares. El estado quiere conocer el censo de personas, de infraestructuras, de recursos en general, para poder obtener conclusiones de esta información. Durante el siglo xix se desarrolló una ciencia que se limitó a cuestiones más bien descriptivas como el cálculo de medias y medidas de dispersión y no es hasta el siglo xx cuando se produce el gran salto de la misma con la introducción del cálculo de probabilidades que permite realizar el difícil tránsito de la simple descripción de una o varias características de un colectivo de individuos a la predicción del comportamiento de ese colectivo en cuanto a esas características. Resulta siempre complicado definir con precisión y claridad el objeto de cualquier ciencia y más en una ciencia que ya no es una cuestión reservada al estado. sino que está presente en prácticamente cualquier otra ciencia al proponer técnicas para la recogida y el análisis de cualquier tipo de datos. Por otra parte, la definición del objeto de cualquier ciencia siempre está ligada al problema que resuelve. Así, podemos definir el término Estadística de la siguiente forma: es la ciencia que trata, por una parte, de la recogida. organización, resumen. presentación, análisis, generalización y contraste de los resultados de las obser-
Capítulo
I
3
Plesenlaoióo
vaciones de los fenómenos reales y por otra de estudiar las leyes del comportamiento de los fenómenos' que no están sometidos a leyes rígidas (dependen del azar) mediante la Teoría de la Probabilidad con el fin de inferir o inducir leyes generales de comportamiento para una población a partir de una muestra. La primera parte de la definición anterior corresponde a la Estadística descriptiva que es el objeto de este libro. la segunda parte corresponde a la Estadística inductiva o inferencia estadística.
•
•
1.2. El nuevo pofesional turístico'
La importancia del sector tunstico en nuestra economía es bien es ider te .-U und, de las cifras más conocidas del mismo nos ayudan a constatar este hecho. Se trata de un sector que aglutina el I I% del PIB español y el 139 de los puestos de trabajo. No obstante, quizá el aspecto más destacable del sector es el de equilibrador de la balanza de pagos. La economía española, debido a algunas dependencias bien conocidas, presenta tradicionalmente una balanza comercial deficitaria que se compensa algunos años total y otros parcialmente gracias a una actividad turística constantemente superavitaria. No obstante, en los últimos años, el sector, entendido desde un punto de vista tradicional, presenta un claro estancamiento más conceptual y cualitativo que cuantitativo que amenaza principalmente al diplomado en Turismo. El diplomado en Turismo observa cómo, a pesar de ser uno de los titulados con una inserción laboral mayor y más inmediata, lo es a unos sueldos relativamente reducidos y en un entorno de difícil progresión profesional. Adicionalmente, este profesional observa cómo unos perfiles profesionales que de forma natural le corresponderían, como la consultoría en el sector turístico han sido apropiados por diplomados y licenciados en otras especialidades. Todos sabemos que de las crisis se sale reforzado. Resulta evidente que es necesaria una redefinición del concepto de turismo. Es necesario un concepto mucho más amplio y es necesaria una redefinición del profesional que necesita este sector y que, por tanto, es preciso formar. Por lo que respecta a la redefinición del concepto de turismo se hace necesaria una redefinición del término cercana al concepto de ocio. A medida que nos aproximamos a este concepto se nos abre un abanico de actividades de enormes posibilidades que se puede ilustrar con la emergente relevancia que está adquiriendo el turismo residencial y el gran interés mostrado por importantes grupos internacionales por esta actividad en toda la costa mediterránea. En este contexto, desde las principales escuelas de Turismo estamos formando a nuevos profesionales adecuados a estas necesidades. La declaración de Bolonia y el Espacio Europeo de Educación Superior suponen. de hecho, una bonita oportunidad para caminar en este sentido. Se trata de un profesional con una visión más amplia del sector, con la inquietud necesaria para detectar nuevas oportunidades de negocio, con la capacidad de comunicación que se le supone para comercializar productos turísticos y, finalmente, con los conocimientos cuantitativos y de gestión empresarial necesarios para ocupar los perfiles laborales naturalmente suyos y los cargos directivos que le corresponden. Es éste y no cualquier otro el profesional competitivo en dicho sector.
En la vida ordinaria de un hombre coexisten dos tipos de fenómenos: unos son los llamados deterministas. que son aquellos en los que las mismas condiciones producen idénticos resultados como la hora en la que sale o se pone el sol cada día (si alguno tiene dudas sólo necesita ver una bella puesta de sol en el café del mar de Ibiza y observar los horarios expuestos) y otros son los llamados aleatorios o debidos al azar. que aunque nos parezcan realizados en idénticas condiciones. producen resultados distintos como el número premiado en la lotería de Navidad cada año. = Extraído del artículo publicado por el autor en el Dossier económico de Catalumn el 25 de marzo de 2003.
9
4
® - uo,...... — -
w...,,e.....a,........^ ...,...m...,.e....
^ r•'^ Una
como., r.
Vozores air
^ r ^......rna^
••
1.3.
`
Estadística aplicada al Mismo
Aunque este nuevo perfil se está dando a conocer y cumerctalizando a consultoras, agencias de viajes, hoteles y todo el amplio abanico de posibilidades ya expresado con anterioridad y aunque las instituciones públicas y educativas todavía tienen que recorrer un amplio camino con el objetivo de facilitar el acceso a estas nuevas actividades, este libro pretende sentar un precedente en este sentido. En primer lugar, porque se trata de ofrecer esa competencia cuantitativa que creemos necesita el nuevo profesional de turismo y. en segundo lugar, porque el concepto de turismo que se baraja a lo largo del mismo. fácilmente identificable a través de los ejemplos abordados, corresponde a esa nueva concepción entorno al concepto de ocio y tiempo libre. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña en todo momento de ejemplos solucionados mediante el paquete estadístico SPSS. Aunque la mayoría de cálculos estadísticos presentados en el libro se pueden solucionar mediante un software de mayor difusión como es la hoja de cálculo Excel. SPSS presenta varias ventajas. En primer lugar. se trata de un software especialmente diseñado para los cálculos estadísticos. En segundo lugar, su utilización es sumamente sencilla y fácilmente asimilable por el lector al encontrarse en su entorno habitual, por cuanto se trata de un programa de entorno Windows, que funciona a base de un cuadro de diálogos. Por último. se trata de un programa con más posibilidades estadísticas. al que el individuo ya estará más que introducido después de la lectura del libro.
El programa SPSS: breve introducción a su funcionamiento En la, ,i gwe•nte, línea, eie tuarcmu, una breve descripción de su funcionamiento básico para adentramos en los siguientes capítulos en algunas de sus posibilidades estadísticas. La entrada en el programa se efectúa de la forma usual. Si hemos creado un icono directo se realiza un doble clic en el mismo y, en caso contrario. desde el menú inicio como se observa en la Figura 1.1. Una vez en el programa. la primera pantalla que aparece es la que se refleja en la Figura 1.2. En ella se nos pregunta qué deseamos hacer y se nos ofrecen varias opciones: ejecutar el tutori al (la ayuda del programa). introducir datos a mano. ejecutar o crear una con-
Arckwo
5
Presentación
Caoba 1
Edición
Ver
Datos
Trara*arma^
Nuevo Abn Abri base de datos Lea datos de teto
Datos
Guardar Guardar caro_. Edición
Apicar diccionario de datos...
Ver
Datos
Transformar
Insertar caro Anda
Ira caso
Deshaces Modificar venables CtrI.Z
Haca caché de datos-.. QdsP
Presentación mima
Ordenar
CM.X
Ves
LtrI C
e'
Cambia servidor... Dabs usados recientemente Arduos usados recientemente Safi
Ansia
Insertar venable
Mwóa i sfons anión de datos...
Imgtn...
Transformar
Defre fechas..
► ►
Einmar
Opoones...
Ud.F
Transforma
Analiz ar
cams.
Transpones_ Red. acMos
&ega-. Diseño ortogonal
Cuadrarle
e
Segmentar archiva
v Etiquetas de velos _.. Variables
e
Reesouctuar
Ba rra de estado Bans de henane.•das... Fuentes_
Sip e'
Busca...
Datos
S elecaonar _casos... Cb1.T
Pondefer casos
Hm 14.
culta, abrir una base de datos existente (en el recuadro blanco inferior se nos informa de algunas posibilidades) o abrir otro tipo de archivo, normalmente un visor de resultados. Se trata de marcar una de estas posibilidades. En nuestro caso hemos marcado abrir una fuente de datos existente. Obsérvese que tenemos la posibilidad de prohibir que vuelva a aparecer ese cuadro de diálogo. Una vez cargados los datos con los que vamos a trabajar, revisemos la barra de menús básicos del programa que aparecen en la parte superior de la pantalla, justo encima de la barra de herramientas y debajo del título del archivo. En primer lugar. tenemos el menú «Archivo... Este menú nos ofrece la posibilidad de crear un nuevo archivo de datos o de resultados, abrir un fichero de resultados, una base de datos, leer una base de datos en formato «texto... guardar archivos, imprimir. observar una presentación preliminar o salir del programa. además de otras funciones menos utilizadas normalmente. Se trata de un menú clásico de todos los programas del entorno Windows (Figura 1.3). El segundo menú. también común de todos los programas del entorno Windows es el menú «Edición.. En él. observamos las opciones comunes de cortar, copiar, pegar y eliminar variables (Figura 1.4). El siguiente menú es el de «Ver. (Figura 1.5). En él se nos ofrecen las distintas posibilidades de visión que da el programa. Así, si se observa la pestaña que tenemos en la parte inferior izquierda comprobamos que nos hallamos en la vista de datos. Con este menú podemos cambiar a una vista de variables en la que observamos una descripción de las mismas. Además. el menú «Ven. nos marca las barras que tenemos activadas. En nuestro caso. tenemos activada la barra de estado, la cuadrícula y las etiquetas de valor. Procedemos a la descripción del menú «Datos. (Figura 1.6). Dicho menú es el primero verdaderamente propio de un programa de Estadística. Se trata de un menú que nos ofrece distintas posibilidades de manipulación de los datos. Con él podemos insertar una variable, insertar un dato (caso), ir a un dato existente concreto de nuestra base. Igualmente podemos ordenar los casos, por ejemplo de menor a mayor, a partir de una variable o un conjunto de ellas. También podemos transponer nuestra base datos, de forma que las variables pasen a ser filas y las observaciones o datos columnas. Además de reordenar o reestructurar los datos también nos permite fundir la base de datos actual con otra base de datos que tengamos («fundir archivos.). Eso sí. de entre las posibilidades que nos ofrece este menú, especialmente interesantes son las de «segmentar archivo.. y «seleccionar casos.. La primera de estas opciones nos permite dividir la base de datos en la
6
Estarfishca aplicada al turismo
cual estamos en varias bases de datos separadas según los valores de una variable. Así, podemos dividir una base de datos en dos según los individuos sean mayores o menores de 18 años. En cuanto al submenú »seleccionar casos» nos permite quedamos únicamente con los datos que cumplan un determinado criterio. Así, si tenemos una base datos de las ventas que ha conseguido un conjunto de cantantes, podríamos decidir quedarnos únicamente con los individuos que no proceden de ninguna academia o serie de televisión, siempre que tengamos una variable que nos lo especifique. Obsérvese que mientras en la opción anterior se crean dos archivos separados, en ésta los que no cumplen un determinado criterio quedan eliminados. El menú »Transformar» nos vuelve a brindar la posibilidad de manipular nuestros datos. De este menú resaltamos las funciones que nos recodifican una variable, pudiendo cambiar una variable cuantitativa a discreta, una variable numérica a variable de texto y sus contrarias (opciones recodifrcar, categorizar variables, asignar rango a casos y recodificación automática). También podemos crear series temporales y reemplazar los valores perdidos, y las observaciones en blanco, por algún valor adecuado. El menú »Analizar» (Figura 1.7) será uno de los más recurrentes en el curso que les presentamos a continuación. En él se encuentra la mayoría de los cálculos que aprenderemos. Los estadísticos descriptivos recogen la mayoría de aspectos del Capítulo 2, mientras que las opciones »Correlaciones» y »Regresión» recogen la mayoría de los aspectos que serán tratados en el Capítulo 3. Por último, el submenú »series temporales» será fruto de estudio en el Capítulo 4. En este menú aparece la posibilidad poner en práctica técnicas estadísticas más avanzadas de las que veremos en el presente libro. De igual forma, el menú »Gráficos» (Figura 1.8) también será recurrente durante el libro. El programa presenta multitud de posibilidades gráficas. Los diagramas de barras, de líneas, sectores. caja, dispersión y el histograma serán contemplados a lo largo del curso. También se recurrirá a algún gráfico de series temporales. El menú »Utilidades» (Figura 1.9) no ofrece aspectos de tipo descriptivo. En cambio, el menú »Ventana» (Figura 1.10) nos permite movernos de la base de datos al visor de resultados. Dicho visor de resultados es un archivo de extensión ».spo» que va guardando todas las ejecuciones que realizamos. Es decir, en él encontramos todos los grá-
Analizar Gráficos Utilidades Ven
Gráficos Utilidades Venta
Informes
►
Galería
Estadísticos descriptivos
►
Interactivos
Tablas personalizadas
►
Comparar medias
►
Barras...
►
Modelos mixtos
►
Correlaciones
►
Regresión
►
Lpglineal
►
Paleto...
Cla^ihcar
o
Control
Pruebas no
paramétricas
Series temporales
o ►
supervivencia Respuestas múltiples Análisis de valores perdidos
o 1 Sin
titulo • Ed it or de datos SPSS Resultados) Visor SPSS
Sectores... Máximos y mínimos...
Barras de errgr_.
r
tdrdades
Ventana
Dispersión... P.P 0.0
2
Va ri ab le s Intormamon del
archivo
UglKUr conlunroc
Histograma... ►
►
A_reas...
Diagramas de caja...
E scálas
2
Minimizar todas les ventanas
Líneas...
Modelo lineal general
Reducción de datos
Ventana
User Conisntos E r er_utar
Editor fMifi I
li
proceso
de menus
Capítulo
I
7
Preseolacióa
ay..a Eaaea Y.xe.i. rym.m á.e. Una vez en este menú clicamos en los estadísticos que nos interesan. En el caso de los percentiles, una vez activados tras el clic. tenemos que indicar los que nos interesan escribiendo el número en el recuadro pequeño, justo a la derecha de la opción «Percentiles. v cucando «Añadir» para que aparezcan en el recuadro grande. En nuestro caso. hemos añadido el 10 y el 90 (Figura 2.33). El output que nos ofrece SPSS es el de la Figura 2.34. Sin detenernos a comentar toda la salida. únicamente hacer constar que el coeficiente de asimetría que nos ofrece SPSS es el coeficiente de Fischer. Por otra parte. notar que aunque sólo hemos pedido los percentiles 10 y 90 nos ofrece también el 25. el 50 y el 75, ya que estos percentiles coinciden. como sabemos- con el primer. segundo y tercer cuartil.
Estadistrcos EDAD
-sao
N
auaos a eraiacs
Meaja Mediana Moda
Desv tip Vananza Aemetna Er ro r tip de asrmetna Curtosis Error tip de curtosss Rango
Minimo Maximo Percentiles
10 25 50 75 90
85-`_ 7200 5.9 4.8498 23 5203 2336 .306 6.396 604 23. 33 26. 4.330 5.800 7200 9.750 13.570
_ 164 5.00 3' 2.775 7.701 455 306 - 081 604 11 0 11 1.20 300 500 600 8 BO
_ 13' 5 10-00 10 10.443 109-050 776 .306 -.111 .604 40 0 40 120 4.50 10.00 2000 28 00
61 3 59 100
1 .496
246 -376 306 -1 923 604
1 0 1 00
.00 1.00 1.00 1.00
61 3 38 43 37.00 23 13488 181.915 201 .306 -1.228 604 48 17 65 2200 26.50 37.00 52-00 57 00
a Existen vanas modas Se mostrara el menor de los valores fi^rt 134.
J
Eslaáistica aplicada al turismo
46 EJErPLI
1E
1E5111E111
adral Edddn Ve petos Trerv4amer
I
P11111 1
Mahe ,áfvn Gr
E
SPSS
EJEIPLI
•
1
1E1111E111
I
111111
1E
SPSS
3100
WdldK Ventana
W
4200
00!
2200
W
57 03 36 r... .
m_ 1W
24
1 00 :
23
100
58
W
100
J ^
F.sTi Srrele
44
•F
a..--
I 1
N^' ^
a9weda
62
1W WI
Defr,.
Los daos del atta., san
r
WI
r
00
5+.
00
28 00
1 00
33 00
1 00
48 00'
100
4300
W
21 00
Resúnen. pee 71003 da casca Resúmenes neta d3n4aa venables
Agora 2_36.
d) Para realizar el diagrama de caja de la variable Salario por hora, entramos en el menú «Gráficos, Diagrama de cajas». En el siguiente menú pulsaremos en opción «Simple» y en la función «Resúmenes para distintas variables» (Figuras 2.35 y 2.36). Por último, seleccionaremos la variable Salario por hora y aceptaremos (Figura 2.37). La salida de SPSS es la de la Figura 2.38. Se trata del diagrama de caja usual presentado en posición vertical. En él vemos observaciones atípicas situadas aproximadamente entorno a los 26/27€ la hora, que corresponderán con toda seguridad a los gerentes de cada agencia. Además. advertimos
r J., ea. .,^. ,see
•
Pa^ salmo
0
A_ °• Pqa
mero y la mediana. se sitúa el 25 c%c de observaciones más concentrado. e) Por lo que respecta a las preguntas a las que hemos de dar respuesta
Ceffas
i a .aa J
__
en el informe que se nos pide en este apartado, tenemos información suficiente para todas, excepto para la que nos pide si el salario es mayor para los hombres o para las mujeres y cuál de los dos es más estable. Para res-
Espera m casos 'recia.
1 pe°•r"1
Ira
_ _—
una dispersión muy elevada en el 25% de observaciones que oscilan entre el cuartil tercero y el extremo superior. Por el contrario, entre el cuartil pri-
ponder a esta pregunta necesitamos calcular estadísticos descriptivos separados para el colectivo masculino y femenino. Para ello, nos trasladamos
2.31.
al menú «Datos», submenú Segmentar archivos» ( Figura 2.39).
Wdwo Edioón Ve ' patos Transformar Arare Gráficos tildadas Ventana '.'
p:
al
J
eda0
Gafe,. fades.. inserta ve verte* ffi ,.,sede
salan 59( 89t
37 W
4 4'. 5T
E 4 51
saecooree casos. Pondera casos...
J
Capíiulo 2
17
8nálisls erploralorm de varia bles umdimensianales
I I
111111
IE
StSS
•
EJEMtLI IE IESILI[III
I
t11í11
II StSS
En él cucamos las opciones ..Organizar los resultados por grupos)) y «Ordenar el archivo según las variables de agrupación». Nuestra variable de agrupación es Sexo, la seleccionamos y si aceptamos observaremos como nuestro archivo se ha ordenado según ésta variable. Así. tenemos primero las observaciones con valor O (mujeres) s después las observaciones con valor I (hombres). Además, cualquier instrucción que realicemos a partir de este momento. siempre que no desactivemos la opción anterior, será presentada para los grupos de-mujeres y hombres de forma separada (para desactivar esta función: «Datos, Segmentar archivo y Analizar todos los casos. no crear grupos» (Figura 2.40). Así, para obtener la estadística descriptiva de cada grupo, sólo tenemos que pulsar «Analizar. Estadísticos descriptivos. Descriptivos. s obtenemos la Estadisticos descripnvos' salida de SPSS de la Figura 2.41. Una vez en este SALARIOS Miromn Maims punto va podemos realizar el informe. 98 25 SALARIOS Nválido (según lata 25 Nuestra plantilla consta de 25 mujeres y 36 hombres, lo que representa un 59% de hombres a SEXO = 0 (media de la variable Sexo) y un 41% de mujeres. Estadisncos descriptivos' Por otra parte, podemos considerar que nuestra plantilla es relativamente joven, ya que su media N Minim^ Maxim =iv I1A _ 5010 36 265 SALAR Cde edad es de 38,43 años. No obstante. tenemos Nvándo se-_- s:a 36 edades comprendidas entre los 17 y 65 años. Aunque ello. y el hecho de tener la desviación típica mayor variable Edad. nos podría hacer pensar que fiprE 211. tenemos una gran dispersión de edades, se trata únicamente de algunas saciables extremas, ya que si calculamos el coeficiente de variación de la variable Edad 13.488 38,43 — 0.34 éste nos diría que estamos muy cerca de considerar a la media como representativa del conjunto de datos. cosa que no ocurre con el resto de variables. Respecto ala variable Educación, si observamos tanto la estadística descriptiva como su gráfico de sectores. se detecta que la media y la mediana se sitúan en estudios de tipo medio como COU. Bachillerato o FP de grado medio. Las cate gorías más representadas son estudiantes con BUP y con FP o ciclos formativos de grado medio. De todas formas, en nuestra empresa hay tanto personal que únicamente tiene el ciclo inicial de EGB. como personal estudiante de doctorado. Respecto a la variable Experiencia, la media de experiencia del personal de nuestra agencia es superiora los 13 años. Sin embargo. se trata de la variable más dispersa, ya que su coeficiente de variación es el mayor de todas las variables 10.413 — 0.79. A título ilustrativo hay un 10% (percentil 10) de la población con experiencia inferior a 12 años y otro 10% 13.18 (percentil 90) con experiencia superiora 28 años. Por último, nos entretendremos al go más con la variable Salario por hora. El salario hora de la plantilla de nuestra agencia se sitúa entorno a 8.5 € la hora. La dispersión es relativamente elevada, con lo que este dato no es muy ilustrativo, ya que el coeficiente de variación es de 0.56. Así, un 10% de la plantilla trabaja por salarios hora inferiores a 4.3 € mientras que otro 10% de la plantilla lo hace por salarios superiores a 13.57 €. En particular. tenemos personal que cobra un salario por hora superiora los 26.5 € la hora. De hecho. la dispersión más elevada, la encontramos entre el cuartil 3 (9.75) y el extremo superior de los datos. Si diferenciamos entre sexos, observamos que los hombres cobran. en promedio, cantidades superiores a las mujeres. aunque el colectivo de mujeres presenta salarios más estables a tenor de su menor desviación típica y coeficiente de
Esladíshca aplicada al
48
EJEMPLO
RE
RESOLUCIÓN
R
PRR11 1RE
SPSS
•
RE
EJEMPLO
RESOLUCIÓN
R
PRRIIR
RE
MISMO
SPSS
variación. La distribución es asimétrica, en concreto muestra simetría por la derecha, algo que podemos observar tanto en su histograma como en el valor positivo que muestra el coficiente de Fischer. La interpretación de dicho coeficiente es que la mayoría de salarios se concentran a la izquierda de la media. De hecho, todas las distribuciones a excepción de la del Sexo nos muestran este tipo de asimetría. Por último, se trata de una distribución leptocúrtica, al contrario que las distribuciones del resto de variables que son platicúricas.
2.11. Ejercicios propuestos Ejercicios
2.11.4. El grado de ocupación de las zonas turísticas con más
pujos
número de turistas durante el año 2003 se prevé: 2111 Construya una lista de números tal que el valor mínimo sea 2, el máximo 20, el primer cuartil sea 5, el tercero 19 y la mediana 10. 2111 Un estudio sobre el nivel ocupacional en los hoteles reve-
Costa de Alicante
la que 90 millones de pernoctaciones correspondieron a
60
Costa Brava
50
Costa del Sol
50
zaron mayor número de pernoctaciones con 35 millones,
Palma-Calviá
57
seguidos de los franceses con 20 millones y los proce-
Sur de Gran Canaria
70
viajeros extranjeros y 50 millones a viajeros nacionales. Por países, fueron los turistas de Alemania quienes reali-
dentes del Reino Unido con 17 millones. Otras naciones se reparten el resto.
Calcule:
Indique ante qué tipo de variable nos encontramos.
a)
Dibuje un gráfico adecuado para estos datos. 2113 Durante el mes de abril del año 2003 se realizó un estu-
La Inedia de la ocupación prevista de estas zonas.
h)
El coeficiente de variación.
e)
Comente los resultados.
dio sobre el coste del menú en seis restaurantes de la Costa Azul. Paralelamente, se analizó la demanda de los mis-
2.116 Una agencia de viajes de Granada ha vendido durante
mos. Los datos resultantes son:
un año 50.000 billetes de avión y 90.000 de tren. Se sabe que la media aritmética de ventas de billetes de avión de las agencias en dicha población es de 45.000 con una varianza de 2.000 y que las ventas de billetes de tren
A
12
504)
B
26
750
C
20
700
D
13
450
E
30
900
F
17
590
muestran una media de 75.000 con una desviación de 1.500. Calcule en qué tipo de billetes se encuentra más
Determine: a)
La media aritmética de los precios y la demanda.
h)
El coeficiente de variación de ambas variables.
e)
Comente los resultados.
aventajada dicha agencia respecto a su competencia. 2116
Tras realizar un estudio del número de personas que acuden los lunes al campo de golf de un hotel cercano al Montseny, se obtuvieron los siguientes resultados: inedia = 100, mediana = 95,5 y moda = 107,5. a)
Determine si es grande o pequeño el grado de asi-
b)
¿Cuál es el signo de la asimetría de la misma? ¿Cómo
metría de dicha distribución. sería aproximadamente su representación gráfica?
Cap itu lo 2
Pnálisis
exploratorio de
•
PIOPUESTOS
E]EItItIOS
49
taria0les unidimensionales
E)EItItI1S
•
PIIPUESTIS
211.1 La media de edad de nuev e personas es de 40 años. Entra
PIIPIESIIS
E)EItItI1S
21111 Los siguientes datos reflejan el gasto en € realizado por
una de 36. ¿Cuál es la nueva edad media? ¿Puede deter-
26 turistas en Salou durante su estancia en 2003. Los
minar la mediana de esas diez personas?
datos no cuentan lo que forma parte del ,,pack». es decir. viaje. alojamiento y media pensión. Son: 500. 100. 750.
2.118 Dos personas diplomadas en Turismo con diferente gra-
550, 600, 900, 1.200, 750, 540. 890. 950, 900. 1.050.
do de experiencia han recibido dos ofertas de trabajo.
1.020. 670, 800, 1.300. 850, 1.050, 1.100, 1.400. 640.
A la primera le han ofrecido un sueldo de 13.000 € y
580, 700, 980. 570.
a la segunda le han ofrecido 20.500 €. Sabemos que la distribución de sueldos correspondiente a la categoría
a) Calcule el porcentaje de valores de gasto superiores
de la primera persona tiene una media de 14.500 € y
a 700 y el porcentaje de valores de gasto que se si-
una desviación típica de 1.000 €. Por otro lado, la dis-
túen entre 650 y 990.
tribución correspondiente al trabajo que han ofrecido a
b) Encuentre la distribución de frecuencias relativas con
la segunda diplomada tiene una media de 21.000 €. con
clases: 500 -600. 600 -900.900- 1.100, 1.100 -1.400 y
desviación típica de 1.500 €. ¿Cuál de las dos perso-
represéntela en un histograma.
nas ha recibido una mejor oferta en relación a su cate-
c) Encuentre la distribución de frecuencias relativas con
goría?
clases iguales que le parezca adecuada. represente el histo grama y en base al histograma. calcule:
211.1 Para un conjunto de datos la media es 80,5, la media-
e.l) El porcentaje de valores de gasto superiores
na 84. la desviación típica 10.5. el cuartil primero 75,5 y el cuartil tercero 96.
a 850.
c.2) a)
¿Qué porcentaje de las observaciones están por encima de 96? ¿Qué porcentaje es menor o igual
c.3)
a 84? b)
¿Qué porcentaje de datos caería dentro del intervalo (59.5. 101.51 si aplicamos la regla de Chebychev? ¿Qué porcentaje caería dentro de ese intervalo si la distribución fuese normal? ¿Y dentro del intervalo (49. 112)?
El porcentaje de valores de gasto entre 550 y 900. Desde la oficina de turismo de Salou se pretende incentivar al 25% de turistas que más gastaron en sus vacaciones, ofreciéndoles un descuento de un 1O% en cualquier apack» que escojan en la temporada de 2004 (siempre que el destino sea Salou. naturalmente). ¿Cuál ha debido ser el gasto mínimo en 2003 realizado por las familias premiadas?
21112 Los siguientes datos reflejan la distancia en km que diverEjercicios tipo
sos alojamientos de la provincia de Barcelona tienen res-
21110 Las series de datos de la Tabla 2.27 reflejan el número de veces al año que tres familias diferentes han ido de
pecto al centro de la capital: 38, 38. 65. 23, 23, 18, 18. 28.40.28, 65.65.72.50.40, 38 y 18. Todos estos alojamientos son los que presentan un precio más ajustado den-
viaje durante los últimos 24 años:
tro de los que posee una agencia y son utilizados en las temporadas de otoño, invierno y primavera. Se pide:
a)
Tabule los datos.
b)
Dibuje los diagramas de tallo y hojas para cada
a) Dibuje el gráfico que resulta más adecuado para este tipo de datos.
familia. Escoja diferentes agrupaciones. c)
b) ¿Cuál es la distancia media de los alojamientos? ¿Y
Compare las familias. Calcule alguna medida de
la distancia mediana?
centralización y dispersión para ello.
Tabla 2.27.
6
7
F1
6
12
13
3
5
6
13
10
10
6
9
F2
2
3
I
7
0
5
2
6
8
6
10
4
5
6
2
1
6
9
3
4
5
10
3
1
20
24
68
5
3
2
4
5
4
3
6
3
7
3
5
8
7
1
11
1
F3
1
6
Eslalishca aplicada al lulisma
50 IIIIIESTIS
ElE1tItIIS
EJEItItI15
•
c) Calcule los percentiles 10 y 90. Escriba una frase
•
IIIIIESTIS
IIIIIESIIS
EJEItItIIS
de Marbella ha recogido un conjunto de medidas del nivel de ruido del transporte. en decibelios, en un impor-
interpretando el valor obtenido. d) Calcule los tres cuartiles y dibuje el diagrama de caja
tante cruce de su ciudad: 55.9. 56.4, 60.4, 63.3. 67.2.
correspondiente a la distribución de los datos.
54.3, 64.0. 55.8, 60.1. 67.8. 76.3. 59.8, 66.2. 69.3. 55.2.
Coméntelo.
72.7, 58.2. 61.3. 62.6, 70.0, 65.7.
e) ¿Considera que la anterior media es representativa del conjunto de datos? f)
¿Puede considerarse la distribución de datos simé-
a) Agrupe los datos en clases o intervalos. b) Confeccione una tabla con las clases, las marcas de clase y las frecuencias.
trica? ¿Qué tipo de apuntamiento presenta? g) Resuma en unas pocas líneas la información obteni-
e) Realice un histograma. d) Añada al diagrama anterior el polígono de frecuen-
da a partir de los cálculos.
cias. 2.1111 La Tabla 2.28 muestra la distribución de la distancia en
e) ¿Cuál sería el valor que dejaría por debajo al 50'k de la población, al 759 y al 90'k? ¿Cómo se llaman
km que tuvieron que recorrer los espectadores que acu-
estos valores?
dieron a la fase final de la Euroliga de Baloncesto celef)
brada en Barcelona en 2003.
Determine el valor del percentil 10. Explique su significado.
g) Utilice la regla de Chebychev para determinar qué porcentaje de medidas se tendrían que encontrar entre x 2s_ 3s. Compare los valores obtenidos con el [0.
30
número de datos que se encuentran realmente en
1250, 500)
250)
5
dichos intervalos. Comente los resultados.
[500, 750)
10
(750, 1.000)
10
( 1.000, 1.250)
10
( 1.250, 1.500)
10
[ 1.500.
h) Utilice alguna medida de dispersión adicional para mejorar su análisis de la misma. 21111 La Tabla 2.29 muestra la distribución de la renta, en S. de los espectadores que siguieron la gira en todo el mundo .Ziggy Stardust.. de David Bowie. en 1972. Dicha
1.750)
5
(1.750. 2.000)
5
12.000, 2.250)
10
cia para conocer el tipo de público que asiste a estos
(2.250, 2.5001
I0
grandes acontecimientos como el tour ' The rising>. de
gira, una de las más exitosas de todos los tiempos, sirve a las principales agencias mundiales como referen-
Bruce Springsteen. del año 2003 y poner el precio a los paquetes turísticos promocionales. a) Dibuje el histograma de frecuencias y comente su forma. b) Calcule los percentiles 10 y 90. Escriba una frase
Porcenrajell
interpretando los valores obtenidos. e) Tomando como marca de clase el punto medio de cada intervalo, calcule la media y la mediana de los datos. d) ¿Qué medida de centralización encuentra más adecuada. dada la tipología de datos? e) Calcule una medida de dispersión que considere adecuada. f)
Comente qué tipo de asimetría y apuntamiento presentan, a su juicio, los datos.
211.14. Con el objetivo de conocer hasta qué punto aumenta el ruido en su ciudad en temporada alta, el ayuntamiento
(1.000, 2.000)
2
[2.000, 3.000)
3
(3.000, 4.000)
4
[4.000. 5.000)
5
[5.000, 6.000)
5
[6.000, 7.000)
5
[7.000, 10.000)
15
[ 10.000, 15.000)
26
[ 15.000, 25.000)
26
[25.000. 50.000)
8
[50.000, 125.000)
2
Análisis exploratorio de varia0les umdlmenslonales
Capítulo 2
EJEIfI[IIS
PIIPIESTIS
•
(HICIMOS
grama de frecuencias y comente su fora) Dibuje el histo
PIIPIESTIS e)
ma. Constate dicha impresión con los cálculos del coeficiente de asimetría y curtosis.
•
(HICIMOS
PIOPIESTIS
Calcule el coeficiente de variación y comente si la media es una medida representativa.
f) Calcule alguna medida de concentración y comenta
b) Calcule el percentil 10 y 90. Escriba una frase que
los resultados.
comente el sentido de dichos valores. ci Calcule la media y la desviación estándar. Dibuje el diagrama de caja. Comente la dispersión de la variable. dl
Ejercicios
con SPSS
;,Qué medida de centralización considera más adecuada? Justifique su respuesta.
21111. A partir de la base de datos enalgunlugar.sav. Se pide:
el Dibuje la curva de Lo re nz y calcule alguna medida
a) Realice la tabla de frecuencias de las nuevas variables Edad y Hotel así como de la variable Destina-
de concentración. Comente los resultados.
ciones.
21116 La Tabla 2.30 muestra los sueldos en € de los empleados
principio? ¿O si lo hubiera hecho de la variable Pre-
de una agencia turística:
cio Tabla 2.30. 1.200 1350 1.2r10 1.450 800
¿Qué pasaría si hubiera hecho la tabla de fre-
cuencias de la variable Edad tal y como la tenía al nor-lie? ¿Qué debería hacer para solucionar dicho
problema? 800 1100 1.500
1350
1.200
b) Realice las estadísticas descriptivas de las variables más interesantes.
a) Calcule la media y la desviación típica.
e) ¿Qué variable presenta mayor dispersión?
lo Si se decide un aumento lineal para todos los trabaja-
d) Se halla la edad media en el intervalo de mayor fre-
dores. ¿en cuánto aumenta la media? ¿Y la varianza? c) Si se decide un aumento del sueldo de un 15%. ¿en cuánto aumenta la media? ¿Y la varianza? d)
Si se aumenta el sueldo del trabajador que más cobra en 500 €. ¿cómo aumenta la media? ¿Y si se hace esto mismo con el trabajador que menos cobra?
cuencia? e) ¿Cuál es el país más representado en la muestra? fi Califique el número de estrellas de los hoteles de su muestra. g) Utilice el diagrama ,,bozplot» para comentar la dispersión de alguna variable.
CflPÍ1UL0 3
Análisis exploratorio de
^►
variables bidimensionales
3.1. Diagramas y tabulaciones bivariantes 3.2. Dependencia funcional y estadística. Cosarianza y correlación 3.3. La regresión lineal simple 3.4. Cálculo de coeficientes e interpretación 3.5. Medidas de calidad del ajuste 3.6. Introducción a la inferencia estadística 3.7. Hipótesis del modelo lineal. Consecuencias 3.8. Introducción a la regresión lineal simple 3.9. Estadística de atributos. Independencia y asociación 3.10. Ejemplos de estudio 3.11. Ejemplos de resolución a partir de SPSS 3.12. Ejercicios propuestos
E
n el presente capítulo estudiaremos dos características de un mismo elemento de la población (el número de quejas y la valoración que recibe un hotel, el precio y el
número de estrellas de un mismo hotel, el gasto en publicidad y la demanda de servicios turísticos, la longitud y la latitud). Estas características, sin estar ligadas entre sí por una relación matemática, sí presentan una cierta dependencia estadística. De forma general, si una variable X y una variable Y se estudian sobre una misma población y se miden por las mismas unidades estadísticas, se obtienen series estadísticas de las variables X e Y. Considerando simultáneamente las dos series, se suele decir que estamos ante una variable estadística bidimensional.
•
•
3.1.
Oidgrdmds u IdbuldclafleS biVdrÍdllCeS
La información bidimensional se suele presentar en tablas de contingencia y el gráfico más común es el diagrama de dispersión o nube de puntos.
Tablas de doble entrada o de contingencia-
Sea una población estudiada simultáneamente según dos caracteres X e Y, que representa-
remos genéricamente como (x,; y, ; n,,). donde x, e y, son dos valores cualesquiera y n „ es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, que podemos representar tal y como se muestra en la Tabla 3.1. En este caso, n„ nos indica el número de veces que aparece .r, conjuntamente con y,; n 12 nos indica la frecuencia conjunta de .e, con y2, etc. Dada la distribución hidimensional (x, ; y, ; n,,), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la distribución bidimen-
)o — Y, — Y, n , n„ ... n,,
sional de la Tabla 3.2, podemos obtener las distribuciones marginales de la Tabla 3.3. •
... n„ n, .
I
rl
Ceplulo 3
Análisis exploratorio de variables bidimensionales
55
Por tanto: 90
N
i =r
80
= —
,=n
=n
Diagrama de dispersión o nube de puntos Representamos las variables en ejes de coordenadas, una de las dos variables en el
60
eje X, y la otra en el eje Y. Para indicar el número de coincidencias, o bien pone50 150
I 160
I 170 Precio
I 180
1 190
mos símbolos diferentes, o bien indicamos entre paréntesis el número n ,, . o hacemos los puntos del tamaño de su frecuencia absoluta. Según la forma de esta figura podemos encontrar relaciones lineales positivas, negativas, relaciones no lineales y ausencia de relación. A título ilustrativo la Figura 3.1 muestra una relación lineal positiva entre las variables Valor y Precio.
••
32.E
Dependencia funcional d estadística. Couarianza u correlación
El aspecto mas interesante de estudiar conjuntamente el comportamiento de un par de \ ariables de una población es el de captar las posibles relaciones que se pueden dar entre ambas.
Independencia estadística Si ponemos una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como: X/Y , indica que el valor de X viene condicionado por Y. YIX, indica que el valor de Y viene condicionado por X. En general se puede interpretar, por ejemplo, la distribución condicionada de y para x = x, como la distribución de la característica y para los elementos de la población que tienen como característica x el valor x, . y se diferencia de la distribución marginal de y en que ésta última tiene en cuenta la distribución de y en todos los elementos con independencia del valor de x que tengan. Se dice que dos variables
X
e Y son independientes estadísticamente cuando la frecuencia
relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir: n, n
n n, =— —, para todo i, j n n
Si esto no se cumple para todos los valores, se dice que hay dependencia estadística. La dependencia estadística se contrapone a la funcional en tanto en cuanto no expone una relación matemática que se cumple con exactitud para todos los casos. Gráficamente, si la relación fuese funcional, veríamos que las observaciones del diagrama de dispersión trazan una recta, una curva o cualquier otra forma funcional de manera exacta.
Medidas de dependencia lineal: covarianaa u coeficiente de correlación Como ya hemos comentado, en el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamente en el diagrama de dispersión.
Só
^sh ca
ap6cacr
Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta retad n I. cov arianza. Su expresión es: - .Y) lv, -
rt„
Si S „ > O hay dependencia directa y positiva, es decir, a grandes valores de .r corresponden grandes valores de y. Si S „ = O las variables están incorrelacionadas, es decir, no hay relación lineal. Si S„ < O hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden grandes valores de y. Gráficamente, la covarianza indicaría que los datos se ajustan' a una recta con pendiente positiva si .S „ > O, o se ajustan a una recta con pendiente negativa si S„ < O.
Propiedades de la couariafZd I. Si a todos los valores de la variable .r, les sumamos una constante 2.
3.
4.
k y a todos los valores de la variable y les sumamos una constante k', la covarianza no varía. Si a todos los valores de una variable x se les multiplica por una constante k y a todos los valores de la variable y por una constante k', su covarianza queda multiplicada por el producto de las constantes. A partir de las anteriores: si tenemos dos variables a, y con la covarianza S,,, si se realizan transformaciones lineales de las variables de la forma z = ar + b, y r = cy + d, la nueva covarianza se relaciona con la anterior de la forma: S„ = acS„ Otra forma de calcular la covarianza seria:
.r, v nv n Será la que utilizaremos en
XY
la práctica al ser su cálculo más rápido. ^
Nota Cuando las variables x e y son independientes, S„ = O. y por tanto r „ _ O. Es decir, si dos variables son independientes su covarianza vale O y su diagrama de dispersión tendrá forma de circunferencia. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza O. no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes.
El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Ello hace que no sea una medida acotada y que, por tanto, no nos indique la fuerza de la correlación en caso de existir ésta. Así pues, habrá que definir una nueva medida que no esté afectada por los cambios en las unidades de medida. Esta medida será el coefrcien o' de correlación lineal r con la siguiente expresión: r =
S„
S, S,
siendo S, y S, las desviaciones típicas de x e r. Este coeficiente es adimensional y siempre estará entre – l y I. — Si hay relación lineal es positiva, r „ > O y próximo a I. — Si hay relación lineal es negativa, r„ < O y próximo a – I. — Si no hay relación lineal, r„ será próximo a O.
CORRELACIÓN Y CAUSALIDAD
Un coeficiente de correlación elevado entre dos variables indica que dichas variables toman valores relacionados entre sí en los elementos observados, pero no permite concluirla exis-
' Entendemos por ajustar que una recta describiría razonablemente bien la relación entre los datos, pero no describiría a la relación de forma exacta, eso seria dependencia funcional.
Capado 3
57
Análisis exploratorio de variables bidimensionales
tencia de ninguna relación de causalidad de una variable respecto a otra. Un ejemplo ilustrativo es el siguiente: supongamos que tenemos los datos de temperatura y el número de matrimonios. Es muy probable que si calculamos el coeficiente de correlación entre estas dos variables obtengamos un valor muy elevado. Es es 'denle que las altas temperaturas no causan matrimonios y el elevado valor del coeficiente de correlación es muy probable que sea debido a que los matrimonios tienden a producirse en verano debido a la disponibilidad de tiempo libre. Este tipo de correlaciones se denominan espurias y su origen se tiene que buscaren otra variable (como por ejemplo las vacaciones de verano) que presenta una relación de dependencia con las variables observadas.
Ejemplo 3.1.
A partir de los siguientes datos que hacen referencia al precio del billete de ida y s uel-
ta y la valoración del vuelo que han realizado un conjunto de pasajeros que tomaron el vuelo Barcelona-Madrid un mismo día, vamos a calcular la covarianza y el coeficiente de correlación:
Precio
175 180 162 157 180 173 171
Valor
SO 82 57 63 78 65 66 67 62 58
168
165 165
Lo s cálculos que necesitamos son: =
x
169,6
= 67.8
s, =
7,2139
s = 8.7567
175• 80 +180 82± 16257+... 10
169,6 67.8 = 52.32
Ahora se puede calcular el coeficiente de correlación lineal r,,: 52.32
7.2139 . 8.7567 — 0.8282 que nos indica que las variables están relacionadas de forma positiva. l
•
•
3.3.
La regresión lineal simple Como se ha dejado patente anteriormente, cuando se estudian dos características de una
muestra simultáneamente, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal de la regresión es descubrir el modo en que se relacionan. Por ejemplo, con los datos del ejemplo anterior (Tabla 3.4), se puede suponer que la variable Precio influye sobre la variable Valor en el sentido de que precios elevados vienen explicados por valoraciones elevadas (en general). De las dos variables a estudiar, que vamos a denotar con X e Y. vamos a llamar a la X variable independiente, exógena o explicativa, y a la otra, Y. la llamaremos variable dependiente. endógena o explicada.
58
Estanca
Wittlailixismo
En la mayoría de los casos la relación entre las variables es mutua, y es difícil sabe qué variable influye sobre la otra. En el ejemplo anterior, a un viaje poco valorado le supon dremos menor precio y a uno de mayor precio le supondremos un valor más bajo. Es decir se puede admitir que cada variable influye sobre la otra de forma natural y por igual. U ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde s: sabe cuál es la variable Causa y cuál la variable Efecto. Por ejemplo, el gasto en publici dad que hace cada comunidad autónoma en promoción turística y la demanda turística qu finalmente tiene. En este caso, un pequeño gasto en publicidad tenderá a obtener una deman da más baja, y una demanda alta nos indicará que tal vez la comunidad se ha gastado mucho Sin embargo, a la hora de determinar qué variable explica a la otra, está claro que e »gasto en publicidad» explica la «demanda turística» y no al contrario, pues la comunida realiza primero un gasto en publicidad y luego obtiene una demanda turística que ya no deci de arbitrariamente. Por tanto:
X = Gasto en publicidad (variable explicativa o independiente) Y = Demanda turística (variable explicada o dependiente)
El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos variables es la relación LINEAL, es decir:
Y = a + bX Y
•
donde la relación anterior es la ecuación de una recta y donde a y b son números. Este es
0 o
^O
el caso al que nos vamos a limitar.
O 00 O
Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre variables no es exacta (basta con que un dato de X tenga dos datos distintos de Y asociados, como
0
en el ejemplo de los precios y valoraciones de la Tabla 3.4 (donde al precio de 180 X
Y
•
0
0
0
O O 0 0
0
O
O O O
E le
correspondía una valoración de 82 y otra de 78).
Recta de
regresión
Un dibujo de la nube de puntos o diagrama de dispersión de la distribución nos puede indicar si es razonable pensar que puede haber una buena correlación lineal entre las dos variables (Figura 3.2). En los diagramas de arriba se puede observar cómo en el de la izquierda, una línea recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos alejados de ella. Así pues, hacer un análisis de regresión lineal
Ftqlua 3.2.
• • •
sólo estaría justificado en el ejemplo de la izquierda.
3.4.
Cálculo de coeficientes e interpretación
Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos y seguir siendo recta. De todas las rectas posibles, la recta de regresión de Y sobre X es aquella que minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente. Sea y = a + bx una recta arbitraria, para cada dato de X, es decir, para cada x, de la tabla tenemos emparejado un dato de Y llamado y„ pero también tenemos el valor de sustituir la x, en la ecuación de la recta, al que llamaremos y;.
Capítulo 3
w
)nDIisis exploratorio de va ri ables bidlmensionales
x a+ bx, =y;
Cuando se toma el dato x,, el error que vamos a considerar es el que se comete al elegir y; en lugar del verdadero v,. Se denota con e, y vale: e, = y, — Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los errores=. Usando técnicas de optimización se llega a que, de todas las rectas y = a + bx, con a y b números arbitrarios, aquella que minimiza el error elegido al cuadrado es aquella que cumple: sn a=v—s;• x
b=
s;
Así pues, sustituyendo en y = a + bx. la ecuación de la recta de regresión de Y sobre X es: y =
(v
— 5; xl
l
y recolocando los términos se puede escribir de la forma: y—Y=—•(x— x)
Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o explicada, la recta de regresión que se necesita es la que minimiza errores de la X. Se llama recta de regresión de X sobre Y y se calcula fácilmente permutando los puestos de x e tt obteniéndose': sn
x —s = —• (y —v) s; s sn La pendiente de la recta de regresión de Y sobre X es - y la de X sobre Yes —. s s= Dado que las varianzas son positivas por definición, el signo de las pendientes será el mismo que el de la covarianza, y así las rectas serán ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa, respectivamente (ver Apartado anterior).
Interpretación de los coeficientes
La ordenada a se puede interpretar como un valor mínimo o inicial de la variable y. del que se parte sea cual sea el valor de x.
Se toman los errores al cuadrado para evitar obtener como óptimas rectas o estimaciones de a y b en donde la suma de los errores es O pero debido a las compensaciones de estos errores. Existen otras metodologías de obtención de a y b que también evitan dicha problemática como estimación por mínimos errores absolutos, pero la presentada en este libro es la de mayor generalización. debido a la sencillez de su derivación. La recta de regresión de X sobre Y no se calcula a partir de la recta de regresión de Y sobre X. y luego despejando la x.
Estalfislica aplicada al turismo
60
En cambio, la pendiente. b, se puede interpretar como el aumento o disminución, segó el signo, que sufrirá la variable y al aumentar la variable x en una unidad.
Propiedades de la regresión A) b X b' = rt: es decir, el producto de las pendientes de las rectas de regresión de Y sobre X y X sobre Y es igual al coeficiente de correlación al cuadrado. BI La recta de regresión siempre pasa por el punto (y
•
•
3.5.
Medidas de calidad del ajuste
Una nube de puntos que se agrupa en tomo a una recta imaginaria justifica el estudio de la' regresión lineal entre las variables. Normalmente, la variable explicativa no explica (valga la redundancia) al 100% los resultados que se observan en la variable explicada. El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso general y estaríamos hablando de dependencia funcional y no estadística. Vamos a cuantificar la calidad de la explicación de Y por X mediante el coeficiente de determinación o bondad del ajuste. Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de X (independiente), pero sí por la de Y. al estar influenciada por la otra variable. La varianza de Y está generada, de una parte, por los datos de X (es decir, por su varianza), y de otra parte por causas desconocidas. El coeficiente de determinación va a ser el % de varianza de Y que se puede explicar por X. y se le suele llamar bondad del ajuste, porque valora lo cerca que está la nube de puntos de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de puntos a la recta de regresión). Como v, _ }' + e, desarrollando la expresión de la varianza de Y se puede concluir que: s?= 2 + s ,a,
por
.ar
y por tanto, el % de varianza de Y explicada por X es:
s-' — X 100 s;. que resulta ser
"s2 x 100, es decir, el coeficiente de correlación lineal, r, definido en el s 2•
capítulo anterior, elevado al cuadrado y multiplicado por 100. Es fácil notar que este coeficiente está acotado entre O y I. Por ello, al coeficiente de determinación se le llama 12 2 , es decir: R' =
sñ s; •s2
x 100
Por ejemplo, si R 2 = 86% para unas variables X e Y, podemos decir que la calidad del ajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o decreciente. Otro ejemplo, si conocemos el coeficiente de correlación lineal, r = —0,77, entre dos variables X e Y, ya sabemos que la recta de regresión es decreciente (por el signo negativo de r), y calculando R 2 = r 22. 100 = 59,29% tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede calificar de buena).
Capitulo 3.
Análisis exploratorio de variables hidimeosiaoales
61
Análogamente, se puede definir el coeficiente de determinación de la siguiente forma: R- =
SCE – I SCNE SCT
SCT
Donde: a)
SCE: suma de cuadrados explicada. Es la parte de la variación de y que podemos explicar con x • SCE =
b)
SCT: suma de cuadrados total. Es toda la variación de y • SCT = 7(5' – i).
e) SCNE: suma de cuadrados no explicada o suma residual. Es la parte de la variación de y que no podemos explicar con x, con nuestra recta. Esta es la suma de errores al cuadrado. SCNE = ( y – i. )' _ ^e=. De cara ala interpretación, un modelo perfecto es un modelo sin errores (e = O). con lo que el coeficiente de determinación sería igual a la unidad, y un modelo desastroso sería uno donde los errores lo explican todo, es decir. SCT = SCNE. En este modelo la variable explicativa no tiene ningún poder explicativo sobre la explicada, y la recta de regresión tenderá a ser horizontal. El primer objetivo de la regresión era poner de manifiesto una relación existente entre dos variables estadísticas. Una vez se constata, por ejemplo, que hay una relación lineal entre dos variables y se calcula la recta de regresión apropiada, ésta se puede usar para obtener valores de la variable explicada, a partir de valores de la variable explicativa. o sea, para predecir. Por ejemplo, si se comprueba una buena correlación lineal entre las variables X = Gasto en publicidad e Y = Demanda turística, con una recta de regresión (de Y sobre X) igual a: v=0,9+
0,6.r
se puede plantear la siguiente pregunta: ¡ ,qué demanda puede obtener (según los datos) una comunidad autónoma que se gasta 10 millones de € en publicidad? La respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de la recta x = 10, resultando y = 6.9. El coeficiente de correlación (o el de determinación) lineal es el dato que, si es grande (próximo al o-1 si es la r. o próximo a 100`I- si es R'). nos indica que la predicción obtenida es fiable, lo cual es lógico pues R' indicaba la calidad del ajuste de la nube de puntos a la recta. Así pues, la fiabilidad de una predicción obtenida mediante la recta de regresión se puede medir con el coeficiente de determinación R1. En el momento de hacer predicciones hay que tener ciertas precauciones. pues es posible que se obtengan resultados absurdos. Un ejemplo podría se • obtener una demanda de servicios turísticos negativa (imposible en este ejemplo). La limitación de la predicción estriba en que sólo se puede realizar para valores de X que estén situados entre los valores de X de la tabla de datos inicial. Se puede concluir, por tanto, que las predicciones serán mejores cuanto mayor sea el coeficiente de determinación y el número de datos del cual se dispone.
•
3.6.
Introducción a la inferencia estadística
e._am.,c_+t:4e.; .2109,édiFFEM.
Aunque ya ha quedado delimitado el objeto de nuestro libro hacia la Estadística descriptiva, se va a aprovechar el modelo de regresión para introducir el contraste de hipótesis como una breve aproximación a la inferencia estadística.
Estadistica aplicada
62
al turismo
Como se ha comentado con anterioridad. uno de los objetivos del modelo de regresión es la predicción. A la luz de lo visto en los apartados anteriores, dicha predicción se basa en las estimaciones de a y h lá, b). Imaginemos ahora que teníamos una idea previa de la influencia de la variable x en y. Pongamos. a título ilustrativo. que creíamos que al aumentar en una unidad x, y también aumentaría en una unidad; es decir. que h = I. Pongamos que con una muestra de datos obtenemos una estimación de h con valor 1.1 (h = 1.11. ¿Hasta qué punto podemos concluir que nuestra hipótesis era falsa? ¿Podemos afirmar, como mínimo, que x influye en y, es decir. que h m (I:' Empecemos por la primera hipótesis. El objetivo es conocer si b es estadísticamente igual a I. Si el coeficiente estimado hubiera sido 1. no hubiera habido duda. Ahora se trata de saber si 1.1 está muy cerca o muy lejos. En general. para conocerlo utilizamos el siguiente contraste y estadístico que no demostraremos, pero que mostraremos su intuición. La hipótesis a comprobar hipótesis nula) será que h es igual a un determinado valor h . En nomenclatura: H:h=h Se trata de ver si la diferencia entre la estimación de h (h) y el valor de nuestra hipótesis h,, , debidamente relativizado por la desviación estándar del estimador, es suficientemente )estadísticamente) grande como para rechazar dicha hipótesis. A modo de convención, se supone que ese cociente es suficientemente grande cuando excede 1.96'. Así: bI
Ib sh
Si t > 1,96 se rechaza H„ . en caso contrario se acepta`. Evidentemente. nos queda conocer cómo calcular s1,: ^e=
donde
Ss = (
n
•X' )
la varianza residual
s'
n-
2
La interpretación de la desviación estándar del estimador es sencilla. Cuanto mayores son los errores mayor es su dispersión. su varianza y. por tanto, la varianza del estimador. Una varianza del estimador elevada implica una reducida eficiencia del estimador, es decir, que aunque el estimador calculado y promediado para muchas muestras concretas acierte, en una muestra individual puede alejarse de su verdadero valor: el de la relación entre xev.
• •
3.7.
Hipótesis del modelo lineal. Consecuencias
c,rt1■111
El modelo de regresión lineal, tal y como lo hemos presentado, se sustenta en una relación estadística entre dos variables. x e
V.
La base de esa relación estadística es la presencia tan-
Esta convención es lo que el lector que conoce Estadística inferencia) entiende como para un nivel de significación del 959. Observe igualmente la similitud del cociente inherente al contraste con la expresión mostrada en el Apartado 2.7 del capítulo anterior que hacía referencia a la tipificación de una variable. Evidentemente, esto no es casual. En ocasiones se presenta en las salidas de los programas informáticos de estadística como el SPSS junto ala columna del estadístico t otra columna que se suele denominar p-value o prob. Dicha columna, recoge la probabilidad de aceptación de la hipótesis nula (normalmente la hipótesis es que dicho coeficiente estimado es igual a 0). Su interpretación, de acuerdo con lo comentado para el estadístico t. es que únicamente se rechazará la hipótesis nula si dicho estadístico es inferior a 0,05. Este valor se corresponderá, obviamente, con uno del estadístico t superior a 1,96.
CapBWo 3
63
Bnálisis exploralorio de Variables bidimensionales
to de una parte sistemática, como de una parte no sistemática que hemos llamado error, y que es la causante de que la relación no sea funcional. Ese error, que aunque en términos muestrales hemos llamado e pero. poblacionalmente llamaremos u, procede de diversas fuentes: a) b)
Variables que desconocemos e influencian también a y. Variables que aunque conocemos son difíciles de cuantificar: los gustos individuales.
c)
Variables esporádicas: guerras...
d)
Especificaciones incorrectas: la relación entre x e y no tiene por qué ser lineal.
e)
Errores de medida.
f)
Comportamientos personales imprevisibles.
En general, podemos decir que no se puede prever Y con exactitud porque para cada valor de X hay una distribución de Y. Ello hace que para que podamos estimar el modelo y presentarlo tal y como hemos hecho. se hayan tenido que establecer algunos supuestos implícitos sobre este término de error poblacional. Estos son: — La media de estos errores es igual a O. El modelo carecería de lógica si conociéramos que existen errores en nuestras estimaciones y que éstos van sistemáticamente en una dirección, y no se compensan entre ellos. — La varianza de estos errores es constante. A este supuesto se le conoce como homocedasticidad. Es decir. la dispersión de estos errores que cometemos no depende de la variable x. En términos del ejemplo intuitivo de los gastos en publicidad y la demanda de servicios turísticos en las comunidades autónomas que hemos ido citando a lo largo del capítulo. se trata de que los errores que cometamos no sean mayores para las comunidades autónomas que más gastos realicen en publicidad. porque ello indicaría que hay algún aspecto importante que no estamos teniendo en cuenta. — La correlación entre los errores de dos observaciones distintas es nula. A este supuesto se le conoce como no autocorrelación. Es decir, volviendo al ejemplo. el hecho de que en Cataluña se corneta un error positivo no implica que este error ten g a que ser igualmente positivo para las islas Baleares (este supuesto sería de difícil cumplimiento en datos temporales).
•
3.8.
Introducción d id 1egresión lineal múltiple Cuando una variable estadística debe ser explicada por la acción simultánea no de una, sino de dos o más variables, nos encontramos ante un problema de regresión múltiple. La regresión múltiple se fundamenta sobre la misma base que la regresión simple. Es decir. los supuestos sobre el término de perturbación poblacional son los mismos y el método de obtención de las estimaciones también es el de minimizar el cuadrado de los errores. A título ilustrativo, la estimación de b para cuyo cálculo es preciso un pequeño repaso al álgebra matricial. responde a:
b=
(x' x)-'•x'
v
donde (x' x)-' es la inversa del producto de la matriz n ' k correspondiente a las k variables explicativas y las n observaciones, transpuesta por ella misma sin transponer y . donde x' y corresponde al producto de la matriz n • k correspondiente a las k variables explicativas y las n observaciones, transpuesta por el vector n • I. correspondiente a las observaciones de la variable a explicar.
Estadishca aplicada al tulismo
64
^iguiend m el ejempli, n irn:.aivo que nos acompaña durante el capítulo, suponga mos, como es lógico pensar, que la demanda de servicios turísticos que obtiene un CCA no sólo depende del gasto publicitario que hace, sino también de otras variables como la renta per capita de sus habitantes, la situación económica del país o zona que atrae al turista y otros factores como el clima para las CCAA basadas en turismo de sol y playa, de nieve o de factores culturales como si ese año han declarado a una ciudad de esa CCAA capital cultural europea. si se va a realizar un fórum importante o una exposición, etc. Seguramente estos factores también influencian la demanda de servicios turísticos y no
sólo resulta interesante conocer cuál es su influencia sobre ésta, sino también la influencia
de los gastos publicitarios una vez descontado el efecto de estos factores. Esto es lo que obtenemos con la regresión múltiple. En ella cada b, se interpreta como el aumento en la variable a explicar al subir en una unidad la variable explicativa, una vez descontado el efecto de las otras variables explicativas'.
3.9.
Estadística de atributos. Independencia q asociación Antes de acabar el capítulo merece la pena detenerse en aquellos caracteres cualitativos o no susceptibles de medida de una población. Recordemos que estos caracteres son deno-
minados atributos o variables cualitativas y se representan con las primeras letras del abe-
cedario. El número de veces que se repite el valor de un atributo se denomina frecuencia absoluta y se simboliza mediante n , . La frecuencia relativa se simboliza como!. La suma total de frecuencias absolutas será el número total de elementos que componen la muestra. Por último, puesto que los atributos no admiten ordenación cuantitativa, no tiene sentido hablar de frecuencias acumuladas. La estadística de dos atributos es el resultado de observar conjuntamente dos caracteres cualitativos. Los datos se vuelven a disponer en una tabla de doble entrada, al igual que ocurría con las variables cuantitativas como la presentada en el Apartado 3.1, en la que se pueden establecer las frecuencias marginales.
Independencia o asociación Cuando estudiamos dos caracteres cualitativos, nos encontramos con la posibilidad de que exista una «asociación„ entre estos atributos o una «independencia» entre los mismos. Para conocer la posible relación entre dos atributos, se debe emplearla siguiente expresión:
^=1 (VE—VO)' VE
donde VO son las frecuencias observadas o empíricas y VE los valores esperados o frecuencias teóricas para cada celda; se obtienen multiplicando las frecuencias marginales absolutas y dividiendo entre el total de observaciones: n,- n, VE-
N
El análisis pormenorizado de la regresión múltiple excede los objetivos del libro, pero se ha creído conveniente su análisis intuitivo y. sobre todo, su cálculo sencillo a través del programa SPSS. tal y como se verá más adelante. Evidentemente. aunque la base teórica es muy similar, hay diversas propiedades del modelo de regresión simple que no se cumplen en el modelo de regresión múltiple. Sirva a título ilustrativo la siguiente: en el modelo de regresión múltiple el coeficiente de determinación no se corresponde con el coeficiente de correlación al cuadrado.
65
Análisis exploratorio de variables bidimensianales
Caplolo 3
Una vez realizada esta operación, es necesario comparar su resultado con el valor de la distribución x de Pearson en tablas. Los grados de libertadad vienen dados por el producto del número de filas menos uno, por el número de columnas menos uno. El nivel de significación suele ser del 5%. a menos que se indique lo contrario. Se rechazará la hipótesis de independencia si el valor del estadístico supera al valor de tablas, en caso contrario no se podrá rechazar dicha hipótesis y se supondrá independencia. Sin comparar con el valor en tablas, el estadístico ,y 2 no está acotado y es directamente proporcional al número de casos. Un estadístico acotado adecuado para tablas 2 x 2 es el coeficiente d.
^
N
El coeficiente do está acotado entre 0 y I, tomando el valor 0 cuando no existe relación y I cuando se establece entre las variables una relación perfecta. Para tablas más extensas, siempre que tengan la misma dimensión (número de filas = número de columnas) se puede utilizar el coeficiente de contingencia C. Su expresión: C
yl X + N
Su valor mínimo es O mientras que el máximo depende del tamaño de la tabla (por ejemplo, para una tabla 2 X 2 su valor máximo es de 0.707). La interpretación de sus valores es idéntica al caso anterior. Por último, también para tablas extensas y teniendo en cuenta el número de filas (r) y de columnas (e) es la V de Cramer.
mín { (r — 1). (e — 1 ) }
La V de Cramer vuelve a estar acotada entre O y 1 con la interpretación usual. Ejemplo
32.
Hombre
Total
6
26
Una empresa de coches de alquiler de La Coruña pretende estudiarla asociación entre el sexo y la marca de coches que se alquilan con los datos de la Tabla 3.5, correspondientes a julio de 2003. Estadístico x2 :
Fiat
Peugeot
9
Ford
20
Mercedes
10
Is
18
3
li
Volvo
4
I,
Total
61
BMW
Re-¡+,:.a, al
13 16
Los grados de libertad: (6 — I I • (2 — I) = 5. En tablas, al 5% de significación el valor es de 11.07. Al ser el valor del estadístico mayor que el valor en tablas se acepta la hipótesis de asociación.
116 íst i c, ^ =
^
^
^ 1 61 6
=0;7
V
=^ O .I4
= 0.37
Al no tratarse de una tabla 2 X 2 Ia l no es directamente interpretable y sólo nos sirve para calcular la V de Cramer, que es la medida adecuada para la tabla de que disponemos. Como conclusión, a pesar de que aceptamos la presencia de una cierta asociación entre el sexo y la marca de coche escogida para alquiler. dicha asociación no parece ser muy elevada. l
66
Estadíshca aplicada al turismo
3.10. Ejemplos de estudio
Ejemplo de estudio 3.10.1
Vamos a realizar un estudio completo del ejemplo que se describe al comienzo del capítulo a partir de la Tabla 3.6, que reproducimos a con175 180 162 157 180 173 171 168 165 165 Precio tinuación. 80 82 57 63 78 65 66 67 62 58 Valor Aunque en este caso tenemos dos variables muy relacionadas. y no está claramente definido cuál de ellas influye sobre la otra, decidimos estudiar cómo el precio del viaje de los individuos influye sobre la valoración del mismo. Entonces tomamos X = Precio como variable explicativa e Y = Valor como variable explicada. 90 Comenzamos con la nube de puntos, para que nos informe si vale la pena iniciar el estudio de la regresión lineal o no hay motivos para ello (Figura 3.3). 80 Se observa que los puntos siguen una tendencia, aunque uno de ellos, el (157,63) se aleja de dicha tendencia. A este dato se le llama dato atípico. En mues70 tras numerosas un dato atípico no afecta demasiado al resultado, e incluso en ocasiones se elimina de la tabla, aunque no lo haremos en este caso. Así pues, el 60 dibujo revela cierta tendencia de los puntos a agruparse en torno a una recta imaginaria. El coeficiente de determinación, que es el índice numérico que evalua50 rá esa tendencia, nos constatará que hay una buena relación lineal. 150 160 170 180 190 Pasamos al cálculo de los estadísticos necesarios: Precio Tabla 3.6.
s = 169,6 = 67,8
s = 7,2139 s, = 8,7567
175 = 17 80 + 180 • 82 + 162 57 + ... 0
Fgura 3.3.
169,6 67,8 = 52,32
Ahora se puede calcular el coeficiente de correlación lineal r y el de determinación lineal R2: r =
52,32 — 0,8282 7,2139 - 8.7567
y
R2 = (0,8282) 2
•
100 = 68,59
que nos indica que la variable independiente Precio explica el 68.59% de la varianza de las valoraciones. Este mismo coeficiente de determinación se toma como índice de fiabilidad ala hora de hacer predicciones de la variable Valor a partir de datos de la variable Precio. Por ejemplo. según la tabla de datos, ¿qué valoración le debería corresponder a un viaje de precio 178 €? La respuesta viene de la recta de regresión de Valor sobre Precio. La calculamos con los datos que ya tenemos: y — 67,8 =
52,32 (x — 169,6) 52.04
quedando: y = —102,71 + 1,005x Así, un viaje de 178 € (correspondiente a x = 178) tiene, en virtud de la recta de regresión, una valoración y = 76,177, que se obtiene sustituyendo el valor de x. Se toma como fiabilidad de la predicción el índice R'-, calculado con anterioridad. Es decir. se dice que la predicción tiene una fiabilidad del 68,59%.
67
dn)lisis exploratorio de variables bidimensionales
Capiulo I
0E
EJEMPLOS
ES11010
•
EJEMPLOS
bE
ES11010
•
EJEMPLOS
1E
ES11110
Ejemplo de estudio 3.14.2
Supongamos que tenemos la Tabla 3.7 que reproduce el precio por noche de una habitación individual y la puntuación recibida por seis hoteles de Granada durante la celePrecio 36 48 51 54 57 60 bración de un congreso en 2003. Valor 86 90 91 93 94 95 Se pide: a) Los estadísticos individuales necesarios. b) La covarianza y el coeficiente de correlación. c) La recta de regresión de y sobre s. d) Los errores cometidos con cada observación. e) La varianza residual. f) La desviación estándar del estimador. g) El coeficiente de determinación. h) La predicción de la puntuación para un hotel cuyo precio de una habitación individual por noche es de 42 €. i) Contraste la hipótesis de que el precio por noche no influencia a la puntuación que recibe el hotel. Es decir. contraste que b = 0. Solución
= 91,5, s, = 7,74. s, = 2,98
1 -t = 51,
b
)
S
= 36 86
+fi ..
60 • 95
51 ^ 91,5 = 23
r,,
—99 0, = 7.74232.98
De lo que podemos concluir la existencia de un elevada correlación positiva. O sea, a mayor precio, mayor es la consideración del hotel. I
v
-91,5=
-51): v=71,95+ 0,383X 60
Es decir, partiendo de un mínimo de puntuación en tomo a 71,95 puntos, cada € adicional en el precio por noche de una abituación individual del hotel, parece redundar en un aumento en la puntuación que éste recibe de 0,383. d ) e, = 86 — 85,73 = 0,27 e2
)
f
donde ^^ ^ = 71,95 + 0,383 • 36 = 85,73
= —0,33 e, = —0.48 e, = 0,37 e, = 0,22 e6 = 0,07
5 = (0.272+... S6 =
+0,072)=
0,1506
0.1506 0204 0, (3 62 +...+ 60-) -6.512 —
SCT= (86-91,5)2+...+(90-91,5)2=53,5 SCE = (85,73 — 91,5)2 + ... + (94,93 — 91,5) 2 = 52,89 R2 = 52,89 _ 0,99 53,5 ts ue csr, es ajust e pare ce ser muy oue no. ti pre cio ces notes es muy expucauvo ae w punwacsuu, on lo que e mación del precio del hotel podemos ajustar de forma muy precisa el valor de la puntuación del mismo.
Estadística aplicada al turismo
68
EJEMPLOS
lE
1511011
hl 5‘. „-- 71.95 + 0.383 • 42 =
•
EJEMPLOS
OE
ES11111
•
EJEMPLOS
IE
E511111
88,03
O sea, un hotel con precio por noche de 42 € recibiría una puntuación de 88,03.
—0.383-0 = i)
0.0204
18,77
Evidentemente se rechaza dicha hipótesis, ya que parece que el precio de la habitación redunda en la puntuación que recibe el hotel. J
3.11. Ejemplo de resolución a partir de SPSS
Ejemplo SPSS 3.11.1.
A partir de la base de datos Salarios.xls: I. Realice la tabla de contingencia de las variables Sexo con y Nivel educativo. Comente los resultados. 2. Realice el gráfico de dispersión. el análisis de correlaciones y la regresión lineal entre las variables Salario por hora y Años
de experiencia. Comente. asimismo, los resultados.
Resolució n :
1. De cara a realizarla tabla de contingencia de las variables Sexo y Nivel educativo, entramos en el mentí «Analizara, el submenú «Estadísticos descriptivos» y la opción «Tablas de contingencia» (Figura 3.4).
r EtaSstxos desgarros Tablee mundanas Camparen pedas
2 3 4 5 6 7
e 9 10
5 90 8 93 445 5 30 580 325 655 4 30 5 10 7.20 5
'fi
2 3
d 15 16 7
7.00
19
3.75 9 80 580
213
695
18
5.00 2 00 3.00 5.00 700 00 5.03 6. 00 3.00 5.00 3.03 900 2 00 3 00 5.00 00 5.00
6 00 3.00
Erpbn...
taodeto traed general Modelos martes
I
Correlaciones Redes& r
tootied
aastea. Reducoon
de
datos
Escales Pruebes no permetncas seres temporales 5upereirenoe Pe-norestes
r
mentes
Antros de valores perddos...
28W
iUJ
56UU
20.00 40 001 5 00 3 00 4 00 15 00 1300 8 03
00 1 00 1 00 .00 00
44.00 62.00 27.03 38.00 2100 53 03 5100 213 .00
00
.00 .00
Il¡al Frecuentas
r Descreemos •=3:1=1.1 azor.
ar
tar
tar
tar
tar
Cabildo
3
Ooálisis explorelono de variables bidimensiooales
69
EJEMPLO IE IEStIICIÍI I 111T11 IT SPSS
_ . •
e .3os
^ J vo
'rawer , i.aficcs
I
•
E]EMfLI IE IESILILIÍI I 111T11 IE S1SS
aedales secta,
mIEI tI®1
Tablas de rente-venda
var
s.) sabe
2
sem
6
A
7
a
Frecuencsas ---
Cepel del
r
10 11
Cagare
Observadas
Cartre
Esperadas Ayuda
1
r
Mosby la gokos de breas agolpadas
ñ Fla
r
15
r
Sopare tablas
F
r Toreados
13
=
Calmas
5
12
I
I
edad
4
-
eeac
meren
3
-Paced*:
t7
Exactas
r
Estadisecos
Cascas.
Caserna Toar
Residual No tyñcados
r Tprcadscmagdos
Fomuto-_
1 19
580®
5100
---
Tapa oe mnngerUa EDUCACIoN' SEXO SEXO Trd , ____A-ON 0
1
2
3
Rearmo % de EDl1CACOn %de SEXO Recuerdo %Oe EDUCACIÓN %de SEXO Recuerdo % de EDUCACION %de SEXO Recuento %de EDUCACION
-
%da SEXO Recuento
5
% de EDX)CACION %de SEXO Recuento
6
%de EDUCACIÓN %deSEXO Recuento
7
% de EDUCACIÓN %de SEXO %ase no
8
9
%de SExO Recuerdo % de EDUCACIOI
10
%de5E80 Remeto %de EDUCAC,0N
11
'oai
Fi ora 3.1
% de EDl1CAC10N %de SEXO Recuento % 08 EDUCACIÓN
%deSEXO Recuento % de EDUCACIÓN %de SEXO Recomo %de EDUCACIÓN %deSEXO
2 __2% 80%
3 600% 83%
5 100.0% 82%
1
1
100 0% 40% 2 33 3% 80%
100.0% 16% 6 100 0% 98% 14
6 429% 240% 2 100 0% 80% B 57 1% 320% 3 600% 120% 1 200% 40%
25 410% 1000%
4 66.7% 111% 8 571% 222%
6 429% 167% 2 400% 56% 4 80.0% 11.1%
1000% 230% 2 100 0% 33% 14 100 0% 230% 5 100.0% 8.2% 5 1000%
3 100 0% 83% 2 100.0% 56% 1 100.0% 28% 3 100 0% 83%
82% 3 100 0% 49% 2 100 0% 33% 1 1000% 16% 3 100 0% 4 9%
36 590% 1000%
61 1000% 1000%
Una vez aquí seleccionamos las variables correspondientes ■ entramos en la opción «Casillas». En ella. seleccionamos el tipo de frecuencias. A nosotros nos interesa, en este momento. las frecuencias observadas y las frecuencias relativas marginales cuyo cálculo nos ofrece SPSS bajo el nombre de porcentajes fila y porcentajes columna. Clicamos en ambas opciones (Figura 3.5). Una vez aquí. aceptamos nuestras selecciones en los cuadros de diálogo «Tablas de contingencia: mostrar en las casillas y en Tablas de contingencia>, y obtenemos la salida de resultados (Figura 3.6). En la tabla podemos contemplar el número de casos para cada par posible de la combinación entre la variable Sexo y Nivel educativo. La salida también nos ofrece el siguiente cuadro que, únicamente, nos confirma que no se ha perdido ningún caso fruto de alguna ausencia de información en cualquiera de las dos variables (Figura 3.7).
Es lalfishca aplica da al luns mo
70 EJEMILI IE IESILILIÍI
111i11 IE SISS
1
•
IE IESILILIÍI
EJEMILI
1 t11
1
l
11
E
SISSI
-.^ Sal tibio - Editor de datos 91•5S Mdsvc Edam
va Datos T•arctoma Miza
r3Ge ^JJ^
vacos
=^ Pe^^=
0k9,&-v Votan
^
1,
2 3 5 6 7 8 9 2;m
10 11
: Di,orama de
12
670
a-rapessin s.tgte Ee
edicaceo
13
IJ
> tam •, edad
14 15
a 2. Para obtener el gráfico de dispersión entre las variables Salario por hora y Nivel educativo, acudimos la menú «Graficos>,, submenú «Dispersión. (Figura 3.8). Posteriormente, aceptamos la opción «Simple.. (Figura 3.9). Por último, seleccionamos la variable Salario por hora para el eje de ordenadas y la variable Experiencia para el eje de abcisas (Figura 3.10). El resultado parece mostramos una relación positiva entre ambas variables, aunque de carácter débil (Figura 3.11). Con respecto al cálculo del coeficiente de correlación entre ambas variables. SPSS nos lo ofrece en el menú «Analizar. Correlaciones, Bivariadas» (Figura 3.12). En el cuadro de diálogo resultante, seleccionamos las variables para las que queremos el coeficiente de correlación y le pedi mos que nos calcule el coeficiente de correlación de Pe arson. el Dispersion
- usa les
p
edac
a0
50
1
590
2
890
frM0os uidede5 Vetan 1
eso
Dtomes Eoaeovos
U'.
desapwos
Teases pesonahedss coopera made: Modelo kd general
• •
MEREN
4 45
pepeetln
533 5 80 33 6g 4. S 51 1 73 5 5_
toyed
12
6 70
:+ralas de valores pedalos... m UJ 1W 5t1 LeJ
13
500
3100
00
44 00
14 -
900
4000
1 00
62 00
15
715
500
119
2700
16
7.80
3.00
7
3.75
18
980
400 1500
19
580
00 00 00 00 00 1 .00
S ll
vat
Modelos monos
4 5 6 7 8 9 10 11
21 figaa
edut
041dtrea..
3
espe renca
flglli 3.11.
JJJJ^
salarlo
o
30
nceeneamns gar de
ala e J
á 20
I
toe cams reó•te.
athoo Edmn ve Dias Trasformar
salarios experiencia
10
r ^v
^.... . ^
Eeparar
Telta._
10
o
Establece ne•cc v
ICJ
20
-^o
Reaeekce
Planas
30
`ris
Pega
^^ Eei
ÍD
7.00
16
^ J4zpra
^r
•
Gestas Renacido de daos
•
Escales
• •
aneases no pa•nensas saes temporales 1.ttrneme = repuestas
1300
695
8.00
965
13.00
mítpes
• •
3800 23 00 5300 5100 28 00
33 W
71
Bnálisis eJploralorio de variables bidimensiooales
Caplulo 3.
EJEMPLO
lE
O
IESILI[111
OE
PIITII
EJEMPLO
•
SPSS
IE
IES1L1[111
I
Pililo
SE
SPSS
oto
_
salario
I
I
exoerien I
educ
sexo
I
edad
0
. edad •
Coefiurxes de cmdeoón Taub de Kendal
arca
las combase.
Correlación
de Pearson Sig (b il atera l) N Correlación de Pearson Sig (bilateral) N
Expenencia
J
r Sean.-
La
r uriaaa
Bialea
SALARIOS
ee
AWa
r
SALARIOS
—
U i
Pearson
Correlaciones
Pega
_
-cádos...
• a
hora como variable dependiente, ya que lo razonable es explicar el salario que cobra una persona a partir del número de años de experiencia que posee la misma. La variable Experiencia es.
arana...
por tanto, la variable independiente. Además, seleccionamos el
Root... Me Meet..
método de pasos sucesivos y dentro del submenú «Regresión
Eslxeeden po dereda... adrados en dos rata... *eras
lineal: estadísticos» le pedimos las estimaciones y el coeficiente
Escalamient
de bondad de ajuste del modelo o coeficiente de determinación
c
44 CO
(Figura 3.16).
,iejJ n
-_ +ratter Getm tx•dedes
J Dederdeeie •
Acepa
sabe
Blope 1 del Sip ssae
J Hieda
I
Pega
IndepmámleL
of
R^^edardec__e
_LI
el A da
^♦arpeass
I
- Coehcwes
F
r
rx
I-
de repetrm-
EsMnacves
lleves
de mfi.aaa
Mao¢ de covarxrue
u MCP»
Estadísticos
- Residen
r r
de caso
Greecor
YEAR. ne patudo
•^
MONTH. peed 12
in Erra
le BENEF Iron S
Seas a4 sale BENEI T Seas lades le BESE ? redoyde lo. BEI.E
n
Nombres. lunes
Fvet
b) Para obtener la serie primera diferencia de la serie
I_raenoa
Bene(, entrarnos en el menú «Transformar. crear serie tem-
oda.
porab> (Figura 4.6). A continuación. seleccionamos la serie Benef en el recuadro de nuevas variables. así como la función diferencia y el orden I. El cuadro de diálogo se representa en la Figura 4.7. La salida de SPSS nos indica que hemos perdido un dato (la primera obser vación), ya que el primer valor no perdido es la observación 2 (Figura 4.8). En el visor de datos observamos la nueva variable creada (Benef I) (Fi gura 4.9).
Peroárided actual 12
J
FINO ti ssistg Result Variable amor_1
.a..a Crea_ing First :.art Values Replaced Non-Miss Non-Miss Cases Function 2 288.
EStadstica aplicada
92
EJEMPLI
OE
bevel
1
IESILIEIÍI
month_
year_
date_
I
SPSS
EJEMPLO
•
I
sas_1
en_1
1
1608
1978
1 JAN 1978
2
16 19
1978
2 FEB 1978
- 05761
3
1638
1978
3 MAR 1978
- 07402 -.07%7
IESOLIEIÍI
stc_1
sal 1
benef 1
15 91856
1600348'
18252
16 06109
11
16.16660
21340
16.24062
.19
16.41009
26191
16 48976
29
4
16 67
1978
5
17.00
1978
5 MAY 1978
00822
16 8254E1
17052
16.81726
32
6
17.24
1978
6 JUN 1978
03504
17.18991
65009
17.15487
24
-.05331
17 46318
22
ce
7
1746
1978
7 JUL 1978
1
04913
17.51231
8
1755
1978
-.02766
17.73842
- 18742
17 76608
9
17.79
1978
8 AUG 1978 I 9 SEP 1978 I
- 13736
17.94957
-.15757
18 00693
24
lO
18 44
1978
10 OCT 1978 T
11158
18.56581
- 12881
18.45423
64
.02182
18 8/289
-.15089
18.791%
22
02813
19.12727
-.26327
19.09914
20
- 039138
19.34518
06282
19.38506
54 40
11
18.66
1978
11 NOV 1978
12
18 86
1978
12 DEC 1978.
13
19 41
1979
i
1 JAN 1979
.
14
19.81
1979
2 FEB 1979
-.08434
19.62848
18252
19.71282
15
20 32
1979
3 MAR 1979
02220
20.10560
21340
20.08340
51
16
20 76
1979
4 APR 1979
.01889
20 50109
.26191
20 48220
44
17
21. CO
1979
5 MAY 1979
-.05833
20.82948
17052
2088782
24
21.33791
05009
21 31509
39
18
21.39
1979
6 JUN 1979
02282
19
21 67
1979
7 JUL 1979
-03854
21 71831
-.05331
21.75685
28
20
2204
1979
8 AUG 1979
.00289
22.22542
-.18742
2222253
37
21
2254
1979
9 SEP 1979
.00298
22.70057
-.15757
22.69760
50
22
23.02
1979
10 OCT 1979
-02197
23 15%1
- 12881
23.17278
48
23
2356
1979
11 NOV1979
11393
23 70589
-.15089
2359195
53
24
23.80
1979
12 DEC 1979
.14813
24 C6427
-.26327
23.91614
25
24 16372
34
25
24.14
1980
1 JAN 1980
• 08455
24.07918
.06282
26
24.51
1980
2 FEB 1980
-.11534
24.33148
.18252
24 44682
37
27
24.95
19E0
3 MAR 1980
-.06847
24.738ú0
21340
2480707
44
28
25 59
1950
4 APR 1980
09722
25 32709
26191
25 22987
64
29
25.82
1980
5 MAY 1980
.02100
25.65148
17052
25.63348
23
30
26.03
1980
6 JUN 19E0
• 02518
25 97591
.05009
26 00109
20
31
26 32
1980 de mandes
7 JUL 1980 .-'
_ r;., _
-.05331
26 35562
30
SP55
i 6er/el r> YEAR, nd perodc s^ MONTH percd 12 s^ Ene la BENEF bota S Seas ad ser le BENEI .^ Seas lades le BENE s^ Tiendcyck Ice BESO •^ DIFRBENEF.1 ) rbenN.
.^
1.10.
i
_
O procesados esta
i .
1
MIME Pegas
^
Restablecer - Picotee r lu, : ayude
Furm
17--
SPS
-T
Para crear la función retardos de la variable original se accede al mismo menú («Transformar. Crear series temporales»). En él. se selecciona nuevamente la variable original Benef, pero en función se selecciona la función retardos de orden 1. En el recuadro donde tenemos que introducir el para que no nos borre la variable anterior. A la nueva serie la llamaremos, por ejemplo, Ibenef I (Figura 4.10).
I Raa ^ Orden
OE
nombre de la nueva variable creada cambiamos el nombre
I : -. -
Nam6re
P11111
peparado
J Nueves eeiabler
1
I
OE: --
16 01310
09462
1E
4 APR 1978
ny en. dedatos Mate
F luía
IE
PIITII
al turismo
Si aceptamos, obtendremos una salida en el visor de
^
Penodddadadual 12
resultados muy similar a la obtenida al crear la variable Benef I. Se nos indica de nuevo que hemos perdido una observación (Figura 4.11). La nueva variable Ibenef I la podemos observar en el visor de datos (Figura 4.12).
Results of SEASON procedure for variable BENEF Missing Result Values First Last Valid Creating Variable Replaced Non-Miss Non-Miss Cases Function _ LBENEF_1 288 287 LAGSIBENEF,11
li ^
c)
Para conocer la autocorrelación de la serie Benef sim-
plemente se calcula la correlación entre la serie original Benef y el primer retardo Ibenef I calculado en el apartado anterior. Para ello, «Analizar, Correlaciones, Bivariadas» (Figura 4.13).
fapifulo 4
EJEMPLI
Ardv:o
93
Introducción al análisis de series temporales
EdrtM
If
Ver
(Wow I
aI^IsIJ
1
IESILIfIÍI
Trens/nm.e
. I_J
r=
lvtln.
m
P11111
V.4ledts
(iehcos
Jr
r'
c
p
SPSS
•
EJEMPLI
1E
IESILIfIÍI 1
flllll IE
SPSS
vet-ewe
^Ir1^1
2'^
p^^— year_
banal
I
month_
sae 1
err, 1
date
I
s
Ina
1608
1978
1
JAN
1978
2
16
1978 1–
2FEB
1978
3
1638
1978
3
4
1667
1978
4
5
1700
1978
5
6
17 24
1978
6
03504
7.18991
7
17 46
1978
7 JUL 1978
04913
17 512311
8
1755
1978
8 AUG 1978
• 027661
17 73842
9
17 79
1978
9 SEP 1978
13736:
17 94957'
10
18.44
1978
10 OCT 1978
11158
18 565811
1866
1978
11 NOV 1978
02182
18 81289 115089
18 79'
1978
12 DEC 1978
19 031.'
19
MAR 1978 APR 1978 MAY 1978 JUN 1978
09462
16 01318
net
05761
16 00348
• 07402 ^
16 16660'.
2134_
- 07%7
16 41009I
26191
16 82548
1705.
'6 81-.
0500'=
'.7 15-.
1700
0533
'7 4E:
1724
- 1874.
177F:
174€
- 15757
18 03i
- 12881
18 454.
1757 1779
00822
16 %
'624.
16 19 1638
02813
19 12727
26327
13
1941
1979
1979
- 03988
19 34518
06282
14
19.81
1979
2 FEB 1979
08434
19 628481
18252
1971.-.
15
20 32
1979
3
02220
20 10%13
21340
20 08:4
1981
16
20 76
1979
4
01889
20 501091
26191
20 48220
20 32
17
2100
1979
5
- 05833
20 829481
17052
20 887821
20 76
18
21.39
1979
MAR 1979 APR 1979 MAY 1979 JUN 1979
19
2167
1979
JUL 1979
20
2204
1979
AUG 1979
21
22 54
1979
SEP 1979
22 04
22
2302
1979
OCT 1979
2
23
2356
1979
NOV 1979
23 02
24
12
1886
JAN
19 3-c= 19.
21 00 21 39 21 67 54
23.80
1979
DEC 1979
2356
25
24 14
1980
JAN 1980
23 80
26
24.51
1983
1980
24 14
27
24%
1980
1980
24 51
28
25.59
1980
FEB MAR APR
1980
24 95
29
25 82
1980
30
26 03
1983
2559 25 82
31 26 32 1980 =ma. de dra pe AVMs devesle
7 JUL 1980
26 37531 ll a l Ovss iEi d«esadr ese wneedo
1No me a11alaI N I . I _1 OE? Eaaew,ros eeeoar-oe 1 S nel_1
¡ year
mon
beset 16 GB 1619
1978
3
16.38
1978
4
16.67
1978
Retaso topined
1976
1700
1978
6
17 24
1978
Reducodn de datos
7
17 46
1978
8
1755
1978
9
17 79
1978
10
1844
1978
11
1978 1978
19.41
1979
14
1981
1979
155 20 32 1979
sas_1
sal_1
1
stc_1
I
band 1
mend 1
06282
15 91856
18252
16 06109
21340
16 24062'
19
26191
16 48976
29
16 82548
17052
16 81726
32
17 18991
pacaks... •
pruebes no pee sndtrices Sra ten opte$
.05009
17 15487
17512317- 05331 17
17 46318
17 738421
- 18742
17 76608
-.15757
18 08693
Supernuenoe
•
17 94957
Respuestas Restyles
•
18 56581
Aram de vetoes perdidos... u2811 19/0
18.81289
11 UtL 1 JAN
I
16 01318
(scares
1619
19 1272 19 34518
- 03946
2 FEB1979
-.08434
19.62848
18252
19 71282
40
MAR 1979 APR 1979 MAY 1979 JUN 1979 JUL 1979
02220
20 10560
21340
20 08340
51
20 50109
26191
20 48220
05009
21 31509
21 00
- 0533;
21 75685
21 39
3
16
20 76
1979
4
17
21 00
1979
5
21 39
1979
6
21 67
1979
7
01889 - 09833
20 82948
02282
21 33791
- 03851
va
1608
1979
18 19
I
Models, mitos
5
18 %
l
Modelo leed pener d
aas4ce
18.66
t
Ccerpwat matt.
1
12
01968
Tabas
2
13
-
1667
21 71831 I
1941 19 81 2032 3376
J
94
Esladíshca aplicada dl rl)nsmO
EJEMPLO
IESILILIÍI
lE
I
P1
1111
VaieMec ,MDIIiH Va+r.d
Erra la BE IIEF ho f Seo, eg ea la BE i Seas lactas la BE Trerácyck fa BEr a j DIFFIBEHEE 1] [te
slESEIau' i:
- Eaeeoaves de condensan--
Ñ Pesan r Taub de
Cendal
•
EJEMPLO
17
r
Bieldar
Maca
P11111
DE
SPSS
LAGS IBENEF,1)
BENEF Correlation de Pearson Sig (bilateral) N Correlaclon de Pearson Sig (bilateral)
LAGS (BENEF,1) Soeannen
Prueba deegJr.ecíón .._.-
r
I
Correlaciones
BENEF
r
RESOLItIÓI
OE
Pegar
^
^
-
SPSS
acwa
'2J
7
IE
Uridad
1
N
1
1 0001")
288
000 287
0000
1
000 287
287
La correlación es significativa al nivel 0.01 Ibrlaterall
las co rr ela ciones ayLCatrcas
Fqarra 4 1,1.
A continuación. introducimos las series Benef y lbenef I (Figura 4.14). La salida que nos muestra SPSS es la de la Figu-
ra 4.15. Observamos una autocorrelación muy elevada, de orden unitario y totalmente significativa. La variable Benef depende. por tanto, de su pasado anterior más inmediato. La serie depende en gran medida de sí misma. Seguramente el componente que determina de forma más relevante el beneficio neto que la agencia extrae por dicho producto es el contrato que tiene con la emisora de radio. Dichos contratos se suelen ir renovando condiciones muy similares a las del último contrato firmado.
4.6. Ejercicios propuestos
w ta la tendencia y la variación estacional. Calcule igual-
Ejercicios hpo
mente la predicción para los juegos del año 2004 que se 46.1. Se ha analizado la serie temporal correspondiente a los
celebrarán en Mataró.
empleos netos creados por los juegos europeos del deporte y la salud en los últimos cinco años a partir de los datos
4.6.2. Se conoce el precio de las comidas servidas en diversos
trimestrales de los distintos países donde se han cele-
restaurantes de León durante las siguientes estaciones y
brado. La tendencia viene dada por la siguiente recta de
años (en euros):
regresión: T = 342,3 + 6.7t (donde res el número de trimestre desde I a 20). Los coeficientes de variación estacional vienen dados en la Tabla 4.2.
3
0,9
4
1,3
Primavera
18
18,3
18,6
18,4
Verano
27,7
27,5
29,4
30,5
Otoño
21
22,1
21,8
23,7
Invierno
17,5
18,2
19,4
19,7
•
Se pide: Se pide:
a) Descomponga dicha serie temporal en sus compo-
Encuentre los valores predichos de la serie para el pri-
nentes no observados. Calcule la tendencia por los dos
mer año de celebración de los juegos. teniendo en cuen-
métodos que ya conoce (determinista y evolutivo).
l
Capítulo 4
95
Introducción al análisis de series temporales
EJEI[IEIIS
IIIIIESTIS
•
EJEItIEI1S
b) Obtenga el índice de variación estacional.
•
IIIIIESTIS Ejercicio
EJEItI[I1S
IIIIIESTIS
con SPSS
e) Desestacionalice la serie temporal. d) Comente la existencia de autocorrelación en la
4.64 Entre en la \\eb del Instituto de Estadística de su comu-
serie.
nidad autónoma' (por ejemplo la web para Cataluña es www.idescates). Bájese alguna de las series que hacen
e) Represente gráficamente el índice de variación y la
referencia al sector turístico.
serie desestacionalizada.
Se pide: 463Una agencia de viajes de Madrid declara los ingresos que obtiene según la estación del año. durante el período
al
1998-2001 en millones de euros (Tabla 4.41.
b)
La gráfica de la serie. La descomposición temporal de la serie que haya escogido. Calcule la tendencia por los dos métodos que ya conoce (determinista y evolutiva).
Calcule: e)
a) Los componentes de dicha serie temporal. Calcule la
La serie desestacionalizada y comprueba si la serie presenta autocorrelación.
tendencia por el método de las medias móviles.
di
La gráfica de la serie desestacionalizada y del índice de variación estacional.
b) La serie desestacionalizada.
1998 1999 2000
Pnmacera
a sa
2001
a. h
u,v
\ tirano
10.4
10,5
11
Otoño
6,3
6.7
6,9
6.6
Invierno
4.5
4.4
4.8
4.6
' En la Web del
Instituto Nacional de Estadística (www.ine.esl tiene un link a todas ellas.
Bibliogra
FERNÁNDEZ AGUADO.
is K
Carmen. Manual de Estadística descriptiva aplicada al sector turís-
tico. Edito ri al Síntesis, 2001. IGLESIAS. J. A. Técnicas de investigación aplicadas al sector turístico. Editorial Síntesis,
2001. PEÑA.
D. Estadística: modelos y métodos. Alianza editorial, 1991.
— Estadística para ciencias sociales. Alianza editorial, 1995. PÉREZ, C. Técnicas estadísticas con SPSS. Prentice Hall. 2001. SPSS Base 11.0: Manual del usuario. SPSS Gráficos interactivos 10.0. TOMEO PERUCHA. V. y UÑA JUÁREZ. I. Lecciones de Estadística descriptiva: curso teóricopráctico. Thomson-P araninfo, 2003.
Índice
Atributos, 64 o variables cualitativas. 64 Autocorrelación, 87, 92
oaIftico
Frecuencia absoluta. 12 acumulada, 13 relativa. 12 acumulada. 13
C
Coeficiente de contingencia C. 65 de correlación lineal r. 56 de determinación o bondad del ajuste. 60 de Fisher, 29 de Pe arson, 30 Correlaciones. 70 Covarianza. 56 y correlación, 55 Cuarto decil (D,), 24, 25 Curva de concentración o curva de Lorenz, 31, 32
D
Histograma. 15
Índice de Gini. 31 estacional. 90
L Ley normal. 30
Datos, 12 de corte transversal, 12 de panel, 12
temporales, 12 Diagrama de barras, 15 de caja, 26 de dispersión o nube de puntos, 55 de sectores, 15 de tallo y hojas, 16
Mediana: Me, 21, 24 Medidas de apuntamiento, 29, 36, 38 de centralización, 35, 37
Estadística aplicada al turismo
100 de concentración, 29, 30 de curtosis o apuntamiento. 30 de dispersión, 25, 36, 38 desviación media respecto de la mediana. 27 típica, 27 recorrido, 27 intercuartílico. 27 varianza, 27 de posición, 23. 35. 37 cuartiles, 23 deciles, 23 percentiles, 23 de simetría, 29. 36, 38 de tendencia central, 16 media aritmética, 16 aritmética ponderada, 17 geométrica, 20 Moda: Mo, 22 Muestra, 10 Muestreo aleatorio estratificado, 11 por aglomeración. I I simple, 10 sistemático. 11
Regresión lineal, 71 múltiple, 63 simple, 57
S
Series temporales, 84, 89 ciclo, 84, 91 estacional, 84, 91 irregular, 84, 91 tendencia, 84, 91 Suma de cuadrados explicada, 61 no explicada o suma residual, 61 total, 61
T Tablas de doble entrada o de contingencia, 54 Tendencia-ciclo, 91 Teorema de Tchebychev, 29 Tercer cuartil (C3), 24 Tipificación de una variable, 29
N
Nonagésimo percentil (P90), 24, 25
V
,P Pictograma, 15 Polígono de frecuencias, 16 Pri mer cuartil (C 1 ), 24, 25
V de Cramer, 65 Variable cualitativa, 11 cuantitativa, II continua, 12 discreta, 11 dependiente, endógena o explicada, 57 independiente, exógena o explicativa, 57 Variación estacional, 86
R
K Recta de regresión, 58, 66 de Y sobre X, 59
x2 de Pearson, 65
C
TUR ISM O
Y
HOS TELER
Í
Estadística Aplicada al Turismo
A
José María Raya
Con toda seguridad la mayoría del conocimiento que adquirimos, tanto de índole teórica como práctica, presenta como objetivo esencial la ayuda a la hora de tomar decisiones. Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier técnica cuantitativa, en particular, la estadística descriptiva. Y si la estadística descriptiva resulta tremendamente útil para científicos, ingenieros o economistas, ¿por qué no para los profesionales del sector turístico? El presente libro trata a nivel intermedio los tópicos que la mayoría de textos de dicha temática suelen presentar: • En primer lugar, intenta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sin menoscabar el rigor matemático propio de la materia. • En segundo lugar, el texto se orienta al sector turístico por varias razones: Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa realmente orientados al
PEARSON Educación www.pearsoneducacion.co
sector, tratando de forma directa la utilidad que confieren los instrumentos estadísticos a la gestión hotelera, a las agencias de viajes o, evidentemente, a las consultoras turísticas entre otros profesionales del sector. Este hecho se mitiga durante el texto incluso en forma de casuística real debidamente disfrazada. Por último, y relacionado con los puntos anteriores, el texto se acompaña de la implementación y solución de diversos problemas a partir de, probablemente, el paquete estadístico de mayor generalización, utilizado tanto en la esfera pública como en la privada, en la académica como en la empresarial: el programa SPSS. Así, cada capítulo viene acompañado de una sección en la que se practica la obtención de todas las tablas, gráficos y estadísticos vistos en el mismo a partir de una base de datos con evidente orientación turística, de forma que el lector aprenda a utilizar el paquete en dicho entorno, a interpretar sus salidas y sea capaz, por tanto, de tomar decisiones.