Estadistica Aplicada en Turismo

TURISMO I Y ^ José María Raya HOSTELER rt Í Estadística Aplicada rismo PEARSON Prentice Ha ll A Estadística R

Views 183 Downloads 1 File size 9MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

TURISMO

I

Y

^

José María Raya

HOSTELER

rt

Í

Estadística Aplicada rismo PEARSON Prentice Ha ll

A

Estadística RpIicaøa al Turismo

Es!aaTsríca al

aplicada

Turismo

José María Raya Vílchez Escuela Universitaria del Maresme (EUM) Adscrita a la Universidad Pompeu Fabra

PEARSON \

Prenticeall Madrid • México • Santafé de Bogotá • Buenos Aires • C ar acas • Lima • Montevideo • S an Ju an • S an José • S an tiago • Sao Paulo • White Plains

/Dato. de catalogación bibliográfica

K AYA VÍLCHEZ, J. M.' L OTADÍ.STICA APLICADA AL TURISMO PEARSON

EDUCACIÓN. S.A.. Madrid. 2004

ISBN: 84-205-4092-7 Materia: Estadística. teoría. procedimientos y métodos 311 Formato: 195 / 250 mm

Páginas: 112

Todos los derechos reservados. Queda prohibida, salvo excepción prevista en la ley, cualquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con autorización de los titulares de propiedad intelectual. La infracción de los derechos mencionados puede ser constitutiva de delito contra la propiedad intelectual (arts. 270 y sgts. Código Penal). DERECHOS RESERVADOS 2004 por PEARSON EDUCACIÓN, S.A. Ribera del Loira, 28 28042 Madrid (España) RAYA VÍLCHEZ, J. M.° ESTADÍSTICA APLICADA AL TURISMO ISBN: 84-205- 4092-7 Depósito Legal: M-14986-2004 PEARSON PRENTICE HALL es un sello editorial de PEARSON EDUCACIÓN, S.A. Equipo editorial: Editor: David Fayerman Aragón Técnico editorial: Ana Isabel García Borro Equipo de producción: Director: José Antonio Ciares Técnico: José Antonio Hernán Diseño de cubierta: Equipo de diseño de PEARSON EDUCACIÓN, S.A. Composición y diseño: JOSUR, TRATAMIENTO DE TEXTOS, S.L. Impreso por: Top Printer Plus IMPRESO EN ESPAÑA - PRINTED IN SPAIN Este libro ha sido impreso con papel y tintas ecológicos

A los que me acompañan en esta «canción» A Mar, Manel y en especial a Unís (¡som un equip.!) de la EUM. por su confianza. A Jaume, por ser el origen de estas oportunidades. A mis .er. por todo lo que han aportado a este libro, especialmente, a Tania y Elisabet. A Ana por estas «pequeñas cosas.. A mis amigos y amigas, sobre todo a David y a Xevi por su aguante. Mención honorífica para mis padres y a Abel (mi rocker favorito) por... ¡todo! Por último, a Ángel y David de Pearsón Educación y a la comprensión de .quien pudo haber sido. y .donde quiera que estés..

ix

Priílogo Ljaseatacióo

Z.

1.1. La Estadística: sentido y significado

2

1.2. El nuevo profesional turístico

3

1.3. El programa SPSS: breve introducción a su funcionamiento

4

1.4. La agencia EN ALGÚN LUGAR. S A

7

Riiálisis exploratorio de variables unidimerisionales

9

2.1. Población y muestra. Tipos de muestreo

10

2.2. Variables estadísticas. Tipos

11

2.3. Tabulación: frecuencias

12

2.4. Representaciones gráficas

15

2.5. Reducción de datos I: medidas de tendencia central

16

2.6. Reducción de datos H: medidas de posición

23

2.7. Reducción de datos III: medidas de dispersión

25

2.8. Reducción de datos IV: medidas de simetría, apuntamiento y concentración

29

2.9. Ejemplos de estudio

33

2.10. Ejemplo de resolución a partir de SPSS

38

2.11. Ejercicios propuestos

48

Hnálisis exploratorio dc variables bidimensianales

53

3.1. Diagramas } tabulaciones bivariantes

54

3.2. Dependencia funcional y estadística. Covarianza y correlación

55

3.3. La regresión lineal simple

57

3.4. Cálculo de coeficientes e interpretación

58

üi

Estadística aplicada al turismo

3.5.

Medidas de calidad del ajuste

60

3.6.

Introducción a la inferencia estadística

61

3.7.

Hipótesis del modelo lineal. Consecuencias

62

3.8.

Introducción a la regresión lineal múltiple

63

3.9.

Estadística de atributos. Independencia y asociación

64

3.10. Ejemplos de estudio

66

3.11

68

Ejemplo de resolución a partir de SPSS

3.12. Ejercicios propuestos

4.

Introducción al análisis de series temporales

79

83

4.1. Series temporales. Componentes de una serie temporal

84

4.2. Desagregación de los componentes de una serie temporal

85

4.3. Autocorrelación

87

4.4. Ejemplos de estudio

87

4.5. Ejemplos de resolución a partir de SPSS

89

4.6. Ejercicios propuestos

94

Bibliografía

97

Índice analítico

99

Prãl000

on toda seguridad la mayoría del conocimiento que adquirimos, tanto de índole teórica como práctica, presenta como objetivo esencial la ayuda a la hora de tomar decisiones. Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier técnica cuantitativa, en particular la Estadística descriptiva. Y si la Estadística descriptiva resulta tremendamente útil para científicos, ingenieros o economistas. i, por qué no para los profesionales del sector turístico? El presente libro trata a nivel intermedio la mayoría de tópicos que gran parte de textos de dicha temática suelen presentar. A pesar de ello, pretende cuidar especialmente diversos aspectos que ala vez le permiten obtener una entidad diferencial. En primer lugar, intenta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sin menoscabar el rigor matemático propio de la materia. Dicha exposición intentamos sea intuitiva y persuasiva para el lector, de forma que la utilidad y la intuición que da origen a cada concepto anteceda la definición formal del mismo. En segundo lugar, se pretende orientar el texto al sector turístico por varias razones. Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa realmente orientados al sector tratando de forma directa la utilidad que confieren los instrumentos estadísticos a la gestión hotelera, a las agencias de viajes o. evidentemente, a las consultoras turísticas entre otros profesionales del sector. Este hecho se mitiga durante el texto, incluso en forma de casuística real debidamente disfrazada. Por último, y relacionado con los puntos anteriores, el texto se hace acompañar de la implementación y solución de diversos problemas a partir de, probablemente. el paquete estadístico de mayor generalización, utilizado tanto en la esfera pública como en la privada, en la académica y en la empresarial: el programa SPSS. Así, cada capítulo viene acompañado de una sección en la que se practica la obtención de todas las tablas, gráficos y estadísticos vistos en el mismo, a partir de una base de datos con evidente orientación turística, de forma que el lector aprenda a utilizar el paquete en dicho entorno, a interpretar sus salidas y sea capaz. por tanto, de tomar decisiones. Como texto de iniciación a la Estadística es válido en cualquier entorno, pero resulta eminentemente dirigido a estudiantes del campo turístico, ya sean de diplomatura o de ciclos formativos. En particular, la gran mayoría de ejercicios y problemas presentados son fruto de diversos años de docencia de la asignatura Estadística de turismo (o técnicas cuantitativas aplicadas al sector turístico, según el plan) en una escuela universitaria. En el autoconvencimiento de cualquier docente figura que la mejor exposición procede de aquélla experimentada y aprendida de nuestros alumnos, a quienes mostramos nuestro agradecimiento desde este momento. Por supuesto, figura en nuestro deseo que este material sirva de ayuda a futuras promociones de estudiantes. No obstante, no quisiera dejar pasar la oportunidad de recomendar el mismo a los profesionales del sector que puedan encontrarlo de validez para sus tareas. De los lectores del texto esperamos perdonen las deficiencias del mismo a la par que encuentren en él un camino hacia su éxito.

C

CRPTTULO

1

Presentación Sumario 1.1. La Estadística: sentido y significado 1.2. El nuevo profesional turístico 1.3. El programa SPSS: breve introducción a su funcionamiento 1.4. La agencia EN ALGÚN LUGAR, S.A.

E

e

n est capítulo se pretende presentar la Estadística como una de las ciencias de mayor longevidad, como la mayoría de las instrumentales, y cuya vocación desde el

principio es la ayuda en la toma de decisiones. Asimismo, se presentará la concepción turística que esconde el libro, el programa informático que aprenderemos a utilizar en las funciones relacionadas con el objetivo del presente libro y la empresa que iremos conociendo a través del análisis estadístico. 0





1.1.

La

Estadística: sentido o significado

Nos rodea la Estadística. La política, la economía, el mundo del turismo, la publicidad. las empresas, los países..., todos se sirven de ella, en ocasiones con el fin de distorsionar la realidad para sus propios fines. Con un ejemplo sencillo y parafraseando a Bernard Shaw se observa cómo se puede producir esta distorsión:. si un hombre tiene la cabeza en un horno y los pies en la nevera la estadística reflejaría que su cuerpo está a una temperatura media ideal.. El único medicamento que nos salva de esta posible manipulación y nos ayuda a participar en la argumentación pública basada en cifras y datos, así como en las decisiones turísticas que realice una agencia. un departamento de gobierno o una cadena hotelera, es el conocimiento de los métodos estadísticos y. en particular, de los más básicos presentados en este libro. Pero, ¡,de dónde procede esta ciencia? Muchos de los conceptos que incluimos hoy día dentro de ese amplio término que conocemos como Estadística son tan antiguos como el mismo hombre. Todo lo que hace referencia a la recopilación, recuento, organización y censo de datos se conoce como parte de la actividad humana desde hace más de 5.000 años. No obstante, se trata de una palabra introducida por Achenwall. profesor de la Universidad de Gottingen. en 1748. El término estadística tiene su raíz en la palabra estado. Surge cuando se hace necesario cuantificar conceptos para sus intereses. En la mayoría de los casos esta cuantificación se hará en función de unos fines económicos o militares. El estado quiere conocer el censo de personas, de infraestructuras, de recursos en general, para poder obtener conclusiones de esta información. Durante el siglo xix se desarrolló una ciencia que se limitó a cuestiones más bien descriptivas como el cálculo de medias y medidas de dispersión y no es hasta el siglo xx cuando se produce el gran salto de la misma con la introducción del cálculo de probabilidades que permite realizar el difícil tránsito de la simple descripción de una o varias características de un colectivo de individuos a la predicción del comportamiento de ese colectivo en cuanto a esas características. Resulta siempre complicado definir con precisión y claridad el objeto de cualquier ciencia y más en una ciencia que ya no es una cuestión reservada al estado. sino que está presente en prácticamente cualquier otra ciencia al proponer técnicas para la recogida y el análisis de cualquier tipo de datos. Por otra parte, la definición del objeto de cualquier ciencia siempre está ligada al problema que resuelve. Así, podemos definir el término Estadística de la siguiente forma: es la ciencia que trata, por una parte, de la recogida. organización, resumen. presentación, análisis, generalización y contraste de los resultados de las obser-

Capítulo

I

3

Plesenlaoióo

vaciones de los fenómenos reales y por otra de estudiar las leyes del comportamiento de los fenómenos' que no están sometidos a leyes rígidas (dependen del azar) mediante la Teoría de la Probabilidad con el fin de inferir o inducir leyes generales de comportamiento para una población a partir de una muestra. La primera parte de la definición anterior corresponde a la Estadística descriptiva que es el objeto de este libro. la segunda parte corresponde a la Estadística inductiva o inferencia estadística.





1.2. El nuevo pofesional turístico'

La importancia del sector tunstico en nuestra economía es bien es ider te .-U und, de las cifras más conocidas del mismo nos ayudan a constatar este hecho. Se trata de un sector que aglutina el I I% del PIB español y el 139 de los puestos de trabajo. No obstante, quizá el aspecto más destacable del sector es el de equilibrador de la balanza de pagos. La economía española, debido a algunas dependencias bien conocidas, presenta tradicionalmente una balanza comercial deficitaria que se compensa algunos años total y otros parcialmente gracias a una actividad turística constantemente superavitaria. No obstante, en los últimos años, el sector, entendido desde un punto de vista tradicional, presenta un claro estancamiento más conceptual y cualitativo que cuantitativo que amenaza principalmente al diplomado en Turismo. El diplomado en Turismo observa cómo, a pesar de ser uno de los titulados con una inserción laboral mayor y más inmediata, lo es a unos sueldos relativamente reducidos y en un entorno de difícil progresión profesional. Adicionalmente, este profesional observa cómo unos perfiles profesionales que de forma natural le corresponderían, como la consultoría en el sector turístico han sido apropiados por diplomados y licenciados en otras especialidades. Todos sabemos que de las crisis se sale reforzado. Resulta evidente que es necesaria una redefinición del concepto de turismo. Es necesario un concepto mucho más amplio y es necesaria una redefinición del profesional que necesita este sector y que, por tanto, es preciso formar. Por lo que respecta a la redefinición del concepto de turismo se hace necesaria una redefinición del término cercana al concepto de ocio. A medida que nos aproximamos a este concepto se nos abre un abanico de actividades de enormes posibilidades que se puede ilustrar con la emergente relevancia que está adquiriendo el turismo residencial y el gran interés mostrado por importantes grupos internacionales por esta actividad en toda la costa mediterránea. En este contexto, desde las principales escuelas de Turismo estamos formando a nuevos profesionales adecuados a estas necesidades. La declaración de Bolonia y el Espacio Europeo de Educación Superior suponen. de hecho, una bonita oportunidad para caminar en este sentido. Se trata de un profesional con una visión más amplia del sector, con la inquietud necesaria para detectar nuevas oportunidades de negocio, con la capacidad de comunicación que se le supone para comercializar productos turísticos y, finalmente, con los conocimientos cuantitativos y de gestión empresarial necesarios para ocupar los perfiles laborales naturalmente suyos y los cargos directivos que le corresponden. Es éste y no cualquier otro el profesional competitivo en dicho sector.

En la vida ordinaria de un hombre coexisten dos tipos de fenómenos: unos son los llamados deterministas. que son aquellos en los que las mismas condiciones producen idénticos resultados como la hora en la que sale o se pone el sol cada día (si alguno tiene dudas sólo necesita ver una bella puesta de sol en el café del mar de Ibiza y observar los horarios expuestos) y otros son los llamados aleatorios o debidos al azar. que aunque nos parezcan realizados en idénticas condiciones. producen resultados distintos como el número premiado en la lotería de Navidad cada año. = Extraído del artículo publicado por el autor en el Dossier económico de Catalumn el 25 de marzo de 2003.

9

4

® - uo,...... — -

w...,,e.....a,........^ ...,...m...,.e....

^ r•'^ Una

como., r.

Vozores air

^ r ^......rna^

••

1.3.

`

Estadística aplicada al Mismo

Aunque este nuevo perfil se está dando a conocer y cumerctalizando a consultoras, agencias de viajes, hoteles y todo el amplio abanico de posibilidades ya expresado con anterioridad y aunque las instituciones públicas y educativas todavía tienen que recorrer un amplio camino con el objetivo de facilitar el acceso a estas nuevas actividades, este libro pretende sentar un precedente en este sentido. En primer lugar, porque se trata de ofrecer esa competencia cuantitativa que creemos necesita el nuevo profesional de turismo y. en segundo lugar, porque el concepto de turismo que se baraja a lo largo del mismo. fácilmente identificable a través de los ejemplos abordados, corresponde a esa nueva concepción entorno al concepto de ocio y tiempo libre. Para mostrar la facilidad con la que se pueden realizar los gráficos y cálculos estadísticos en la actualidad, el libro se acompaña en todo momento de ejemplos solucionados mediante el paquete estadístico SPSS. Aunque la mayoría de cálculos estadísticos presentados en el libro se pueden solucionar mediante un software de mayor difusión como es la hoja de cálculo Excel. SPSS presenta varias ventajas. En primer lugar. se trata de un software especialmente diseñado para los cálculos estadísticos. En segundo lugar, su utilización es sumamente sencilla y fácilmente asimilable por el lector al encontrarse en su entorno habitual, por cuanto se trata de un programa de entorno Windows, que funciona a base de un cuadro de diálogos. Por último. se trata de un programa con más posibilidades estadísticas. al que el individuo ya estará más que introducido después de la lectura del libro.

El programa SPSS: breve introducción a su funcionamiento En la, ,i gwe•nte, línea, eie tuarcmu, una breve descripción de su funcionamiento básico para adentramos en los siguientes capítulos en algunas de sus posibilidades estadísticas. La entrada en el programa se efectúa de la forma usual. Si hemos creado un icono directo se realiza un doble clic en el mismo y, en caso contrario. desde el menú inicio como se observa en la Figura 1.1. Una vez en el programa. la primera pantalla que aparece es la que se refleja en la Figura 1.2. En ella se nos pregunta qué deseamos hacer y se nos ofrecen varias opciones: ejecutar el tutori al (la ayuda del programa). introducir datos a mano. ejecutar o crear una con-

Arckwo

5

Presentación

Caoba 1

Edición

Ver

Datos

Trara*arma^

Nuevo Abn Abri base de datos Lea datos de teto

Datos

Guardar Guardar caro_. Edición

Apicar diccionario de datos...

Ver

Datos

Transformar

Insertar caro Anda

Ira caso

Deshaces Modificar venables CtrI.Z

Haca caché de datos-.. QdsP

Presentación mima

Ordenar

CM.X

Ves

LtrI C

e'

Cambia servidor... Dabs usados recientemente Arduos usados recientemente Safi

Ansia

Insertar venable

Mwóa i sfons anión de datos...

Imgtn...

Transformar

Defre fechas..

► ►

Einmar

Opoones...

Ud.F

Transforma

Analiz ar

cams.

Transpones_ Red. acMos

&ega-. Diseño ortogonal

Cuadrarle

e

Segmentar archiva

v Etiquetas de velos _.. Variables

e

Reesouctuar

Ba rra de estado Bans de henane.•das... Fuentes_

Sip e'

Busca...

Datos

S elecaonar _casos... Cb1.T

Pondefer casos

Hm 14.

culta, abrir una base de datos existente (en el recuadro blanco inferior se nos informa de algunas posibilidades) o abrir otro tipo de archivo, normalmente un visor de resultados. Se trata de marcar una de estas posibilidades. En nuestro caso hemos marcado abrir una fuente de datos existente. Obsérvese que tenemos la posibilidad de prohibir que vuelva a aparecer ese cuadro de diálogo. Una vez cargados los datos con los que vamos a trabajar, revisemos la barra de menús básicos del programa que aparecen en la parte superior de la pantalla, justo encima de la barra de herramientas y debajo del título del archivo. En primer lugar. tenemos el menú «Archivo... Este menú nos ofrece la posibilidad de crear un nuevo archivo de datos o de resultados, abrir un fichero de resultados, una base de datos, leer una base de datos en formato «texto... guardar archivos, imprimir. observar una presentación preliminar o salir del programa. además de otras funciones menos utilizadas normalmente. Se trata de un menú clásico de todos los programas del entorno Windows (Figura 1.3). El segundo menú. también común de todos los programas del entorno Windows es el menú «Edición.. En él. observamos las opciones comunes de cortar, copiar, pegar y eliminar variables (Figura 1.4). El siguiente menú es el de «Ver. (Figura 1.5). En él se nos ofrecen las distintas posibilidades de visión que da el programa. Así, si se observa la pestaña que tenemos en la parte inferior izquierda comprobamos que nos hallamos en la vista de datos. Con este menú podemos cambiar a una vista de variables en la que observamos una descripción de las mismas. Además. el menú «Ven. nos marca las barras que tenemos activadas. En nuestro caso. tenemos activada la barra de estado, la cuadrícula y las etiquetas de valor. Procedemos a la descripción del menú «Datos. (Figura 1.6). Dicho menú es el primero verdaderamente propio de un programa de Estadística. Se trata de un menú que nos ofrece distintas posibilidades de manipulación de los datos. Con él podemos insertar una variable, insertar un dato (caso), ir a un dato existente concreto de nuestra base. Igualmente podemos ordenar los casos, por ejemplo de menor a mayor, a partir de una variable o un conjunto de ellas. También podemos transponer nuestra base datos, de forma que las variables pasen a ser filas y las observaciones o datos columnas. Además de reordenar o reestructurar los datos también nos permite fundir la base de datos actual con otra base de datos que tengamos («fundir archivos.). Eso sí. de entre las posibilidades que nos ofrece este menú, especialmente interesantes son las de «segmentar archivo.. y «seleccionar casos.. La primera de estas opciones nos permite dividir la base de datos en la

6

Estarfishca aplicada al turismo

cual estamos en varias bases de datos separadas según los valores de una variable. Así, podemos dividir una base de datos en dos según los individuos sean mayores o menores de 18 años. En cuanto al submenú »seleccionar casos» nos permite quedamos únicamente con los datos que cumplan un determinado criterio. Así, si tenemos una base datos de las ventas que ha conseguido un conjunto de cantantes, podríamos decidir quedarnos únicamente con los individuos que no proceden de ninguna academia o serie de televisión, siempre que tengamos una variable que nos lo especifique. Obsérvese que mientras en la opción anterior se crean dos archivos separados, en ésta los que no cumplen un determinado criterio quedan eliminados. El menú »Transformar» nos vuelve a brindar la posibilidad de manipular nuestros datos. De este menú resaltamos las funciones que nos recodifican una variable, pudiendo cambiar una variable cuantitativa a discreta, una variable numérica a variable de texto y sus contrarias (opciones recodifrcar, categorizar variables, asignar rango a casos y recodificación automática). También podemos crear series temporales y reemplazar los valores perdidos, y las observaciones en blanco, por algún valor adecuado. El menú »Analizar» (Figura 1.7) será uno de los más recurrentes en el curso que les presentamos a continuación. En él se encuentra la mayoría de los cálculos que aprenderemos. Los estadísticos descriptivos recogen la mayoría de aspectos del Capítulo 2, mientras que las opciones »Correlaciones» y »Regresión» recogen la mayoría de los aspectos que serán tratados en el Capítulo 3. Por último, el submenú »series temporales» será fruto de estudio en el Capítulo 4. En este menú aparece la posibilidad poner en práctica técnicas estadísticas más avanzadas de las que veremos en el presente libro. De igual forma, el menú »Gráficos» (Figura 1.8) también será recurrente durante el libro. El programa presenta multitud de posibilidades gráficas. Los diagramas de barras, de líneas, sectores. caja, dispersión y el histograma serán contemplados a lo largo del curso. También se recurrirá a algún gráfico de series temporales. El menú »Utilidades» (Figura 1.9) no ofrece aspectos de tipo descriptivo. En cambio, el menú »Ventana» (Figura 1.10) nos permite movernos de la base de datos al visor de resultados. Dicho visor de resultados es un archivo de extensión ».spo» que va guardando todas las ejecuciones que realizamos. Es decir, en él encontramos todos los grá-

Analizar Gráficos Utilidades Ven

Gráficos Utilidades Venta

Informes



Galería

Estadísticos descriptivos



Interactivos

Tablas personalizadas



Comparar medias



Barras...



Modelos mixtos



Correlaciones



Regresión



Lpglineal



Paleto...

Cla^ihcar

o

Control

Pruebas no

paramétricas

Series temporales

o ►

supervivencia Respuestas múltiples Análisis de valores perdidos

o 1 Sin

titulo • Ed it or de datos SPSS Resultados) Visor SPSS

Sectores... Máximos y mínimos...

Barras de errgr_.

r

tdrdades

Ventana

Dispersión... P.P 0.0

2

Va ri ab le s Intormamon del

archivo

UglKUr conlunroc

Histograma... ►



A_reas...

Diagramas de caja...

E scálas

2

Minimizar todas les ventanas

Líneas...

Modelo lineal general

Reducción de datos

Ventana

User Conisntos E r er_utar

Editor fMifi I

li

proceso

de menus

Capítulo

I

7

Preseolacióa

ay..a Eaaea Y.xe.i. rym.m á.e. Una vez en este menú clicamos en los estadísticos que nos interesan. En el caso de los percentiles, una vez activados tras el clic. tenemos que indicar los que nos interesan escribiendo el número en el recuadro pequeño, justo a la derecha de la opción «Percentiles. v cucando «Añadir» para que aparezcan en el recuadro grande. En nuestro caso. hemos añadido el 10 y el 90 (Figura 2.33). El output que nos ofrece SPSS es el de la Figura 2.34. Sin detenernos a comentar toda la salida. únicamente hacer constar que el coeficiente de asimetría que nos ofrece SPSS es el coeficiente de Fischer. Por otra parte. notar que aunque sólo hemos pedido los percentiles 10 y 90 nos ofrece también el 25. el 50 y el 75, ya que estos percentiles coinciden. como sabemos- con el primer. segundo y tercer cuartil.

Estadistrcos EDAD

-sao

N

auaos a eraiacs

Meaja Mediana Moda

Desv tip Vananza Aemetna Er ro r tip de asrmetna Curtosis Error tip de curtosss Rango

Minimo Maximo Percentiles

10 25 50 75 90

85-`_ 7200 5.9 4.8498 23 5203 2336 .306 6.396 604 23. 33 26. 4.330 5.800 7200 9.750 13.570

_ 164 5.00 3' 2.775 7.701 455 306 - 081 604 11 0 11 1.20 300 500 600 8 BO

_ 13' 5 10-00 10 10.443 109-050 776 .306 -.111 .604 40 0 40 120 4.50 10.00 2000 28 00

61 3 59 100

1 .496

246 -376 306 -1 923 604

1 0 1 00

.00 1.00 1.00 1.00

61 3 38 43 37.00 23 13488 181.915 201 .306 -1.228 604 48 17 65 2200 26.50 37.00 52-00 57 00

a Existen vanas modas Se mostrara el menor de los valores fi^rt 134.

J

Eslaáistica aplicada al turismo

46 EJErPLI

1E

1E5111E111

adral Edddn Ve petos Trerv4amer

I

P11111 1

Mahe ,áfvn Gr

E

SPSS

EJEIPLI



1

1E1111E111

I

111111

1E

SPSS

3100

WdldK Ventana

W

4200

00!

2200

W

57 03 36 r... .

m_ 1W

24

1 00 :

23

100

58

W

100

J ^

F.sTi Srrele

44

•F

a..--

I 1

N^' ^

a9weda

62

1W WI

Defr,.

Los daos del atta., san

r

WI

r

00

5+.

00

28 00

1 00

33 00

1 00

48 00'

100

4300

W

21 00

Resúnen. pee 71003 da casca Resúmenes neta d3n4aa venables

Agora 2_36.

d) Para realizar el diagrama de caja de la variable Salario por hora, entramos en el menú «Gráficos, Diagrama de cajas». En el siguiente menú pulsaremos en opción «Simple» y en la función «Resúmenes para distintas variables» (Figuras 2.35 y 2.36). Por último, seleccionaremos la variable Salario por hora y aceptaremos (Figura 2.37). La salida de SPSS es la de la Figura 2.38. Se trata del diagrama de caja usual presentado en posición vertical. En él vemos observaciones atípicas situadas aproximadamente entorno a los 26/27€ la hora, que corresponderán con toda seguridad a los gerentes de cada agencia. Además. advertimos

r J., ea. .,^. ,see



Pa^ salmo

0

A_ °• Pqa

mero y la mediana. se sitúa el 25 c%c de observaciones más concentrado. e) Por lo que respecta a las preguntas a las que hemos de dar respuesta

Ceffas

i a .aa J

__

en el informe que se nos pide en este apartado, tenemos información suficiente para todas, excepto para la que nos pide si el salario es mayor para los hombres o para las mujeres y cuál de los dos es más estable. Para res-

Espera m casos 'recia.

1 pe°•r"1

Ira

_ _—

una dispersión muy elevada en el 25% de observaciones que oscilan entre el cuartil tercero y el extremo superior. Por el contrario, entre el cuartil pri-

ponder a esta pregunta necesitamos calcular estadísticos descriptivos separados para el colectivo masculino y femenino. Para ello, nos trasladamos

2.31.

al menú «Datos», submenú Segmentar archivos» ( Figura 2.39).

Wdwo Edioón Ve ' patos Transformar Arare Gráficos tildadas Ventana '.'

p:

al

J

eda0

Gafe,. fades.. inserta ve verte* ffi ,.,sede

salan 59( 89t

37 W

4 4'. 5T

E 4 51

saecooree casos. Pondera casos...

J

Capíiulo 2

17

8nálisls erploralorm de varia bles umdimensianales

I I

111111

IE

StSS



EJEMtLI IE IESILI[III

I

t11í11

II StSS

En él cucamos las opciones ..Organizar los resultados por grupos)) y «Ordenar el archivo según las variables de agrupación». Nuestra variable de agrupación es Sexo, la seleccionamos y si aceptamos observaremos como nuestro archivo se ha ordenado según ésta variable. Así. tenemos primero las observaciones con valor O (mujeres) s después las observaciones con valor I (hombres). Además, cualquier instrucción que realicemos a partir de este momento. siempre que no desactivemos la opción anterior, será presentada para los grupos de-mujeres y hombres de forma separada (para desactivar esta función: «Datos, Segmentar archivo y Analizar todos los casos. no crear grupos» (Figura 2.40). Así, para obtener la estadística descriptiva de cada grupo, sólo tenemos que pulsar «Analizar. Estadísticos descriptivos. Descriptivos. s obtenemos la Estadisticos descripnvos' salida de SPSS de la Figura 2.41. Una vez en este SALARIOS Miromn Maims punto va podemos realizar el informe. 98 25 SALARIOS Nválido (según lata 25 Nuestra plantilla consta de 25 mujeres y 36 hombres, lo que representa un 59% de hombres a SEXO = 0 (media de la variable Sexo) y un 41% de mujeres. Estadisncos descriptivos' Por otra parte, podemos considerar que nuestra plantilla es relativamente joven, ya que su media N Minim^ Maxim =iv I1A _ 5010 36 265 SALAR Cde edad es de 38,43 años. No obstante. tenemos Nvándo se-_- s:a 36 edades comprendidas entre los 17 y 65 años. Aunque ello. y el hecho de tener la desviación típica mayor variable Edad. nos podría hacer pensar que fiprE 211. tenemos una gran dispersión de edades, se trata únicamente de algunas saciables extremas, ya que si calculamos el coeficiente de variación de la variable Edad 13.488 38,43 — 0.34 éste nos diría que estamos muy cerca de considerar a la media como representativa del conjunto de datos. cosa que no ocurre con el resto de variables. Respecto ala variable Educación, si observamos tanto la estadística descriptiva como su gráfico de sectores. se detecta que la media y la mediana se sitúan en estudios de tipo medio como COU. Bachillerato o FP de grado medio. Las cate gorías más representadas son estudiantes con BUP y con FP o ciclos formativos de grado medio. De todas formas, en nuestra empresa hay tanto personal que únicamente tiene el ciclo inicial de EGB. como personal estudiante de doctorado. Respecto a la variable Experiencia, la media de experiencia del personal de nuestra agencia es superiora los 13 años. Sin embargo. se trata de la variable más dispersa, ya que su coeficiente de variación es el mayor de todas las variables 10.413 — 0.79. A título ilustrativo hay un 10% (percentil 10) de la población con experiencia inferior a 12 años y otro 10% 13.18 (percentil 90) con experiencia superiora 28 años. Por último, nos entretendremos al go más con la variable Salario por hora. El salario hora de la plantilla de nuestra agencia se sitúa entorno a 8.5 € la hora. La dispersión es relativamente elevada, con lo que este dato no es muy ilustrativo, ya que el coeficiente de variación es de 0.56. Así, un 10% de la plantilla trabaja por salarios hora inferiores a 4.3 € mientras que otro 10% de la plantilla lo hace por salarios superiores a 13.57 €. En particular. tenemos personal que cobra un salario por hora superiora los 26.5 € la hora. De hecho. la dispersión más elevada, la encontramos entre el cuartil 3 (9.75) y el extremo superior de los datos. Si diferenciamos entre sexos, observamos que los hombres cobran. en promedio, cantidades superiores a las mujeres. aunque el colectivo de mujeres presenta salarios más estables a tenor de su menor desviación típica y coeficiente de

Esladíshca aplicada al

48

EJEMPLO

RE

RESOLUCIÓN

R

PRR11 1RE

SPSS



RE

EJEMPLO

RESOLUCIÓN

R

PRRIIR

RE

MISMO

SPSS

variación. La distribución es asimétrica, en concreto muestra simetría por la derecha, algo que podemos observar tanto en su histograma como en el valor positivo que muestra el coficiente de Fischer. La interpretación de dicho coeficiente es que la mayoría de salarios se concentran a la izquierda de la media. De hecho, todas las distribuciones a excepción de la del Sexo nos muestran este tipo de asimetría. Por último, se trata de una distribución leptocúrtica, al contrario que las distribuciones del resto de variables que son platicúricas.

2.11. Ejercicios propuestos Ejercicios

2.11.4. El grado de ocupación de las zonas turísticas con más

pujos

número de turistas durante el año 2003 se prevé: 2111 Construya una lista de números tal que el valor mínimo sea 2, el máximo 20, el primer cuartil sea 5, el tercero 19 y la mediana 10. 2111 Un estudio sobre el nivel ocupacional en los hoteles reve-

Costa de Alicante

la que 90 millones de pernoctaciones correspondieron a

60

Costa Brava

50

Costa del Sol

50

zaron mayor número de pernoctaciones con 35 millones,

Palma-Calviá

57

seguidos de los franceses con 20 millones y los proce-

Sur de Gran Canaria

70

viajeros extranjeros y 50 millones a viajeros nacionales. Por países, fueron los turistas de Alemania quienes reali-

dentes del Reino Unido con 17 millones. Otras naciones se reparten el resto.

Calcule:

Indique ante qué tipo de variable nos encontramos.

a)

Dibuje un gráfico adecuado para estos datos. 2113 Durante el mes de abril del año 2003 se realizó un estu-

La Inedia de la ocupación prevista de estas zonas.

h)

El coeficiente de variación.

e)

Comente los resultados.

dio sobre el coste del menú en seis restaurantes de la Costa Azul. Paralelamente, se analizó la demanda de los mis-

2.116 Una agencia de viajes de Granada ha vendido durante

mos. Los datos resultantes son:

un año 50.000 billetes de avión y 90.000 de tren. Se sabe que la media aritmética de ventas de billetes de avión de las agencias en dicha población es de 45.000 con una varianza de 2.000 y que las ventas de billetes de tren

A

12

504)

B

26

750

C

20

700

D

13

450

E

30

900

F

17

590

muestran una media de 75.000 con una desviación de 1.500. Calcule en qué tipo de billetes se encuentra más

Determine: a)

La media aritmética de los precios y la demanda.

h)

El coeficiente de variación de ambas variables.

e)

Comente los resultados.

aventajada dicha agencia respecto a su competencia. 2116

Tras realizar un estudio del número de personas que acuden los lunes al campo de golf de un hotel cercano al Montseny, se obtuvieron los siguientes resultados: inedia = 100, mediana = 95,5 y moda = 107,5. a)

Determine si es grande o pequeño el grado de asi-

b)

¿Cuál es el signo de la asimetría de la misma? ¿Cómo

metría de dicha distribución. sería aproximadamente su representación gráfica?

Cap itu lo 2

Pnálisis

exploratorio de



PIOPUESTOS

E]EItItIOS

49

taria0les unidimensionales

E)EItItI1S



PIIPUESTIS

211.1 La media de edad de nuev e personas es de 40 años. Entra

PIIPIESIIS

E)EItItI1S

21111 Los siguientes datos reflejan el gasto en € realizado por

una de 36. ¿Cuál es la nueva edad media? ¿Puede deter-

26 turistas en Salou durante su estancia en 2003. Los

minar la mediana de esas diez personas?

datos no cuentan lo que forma parte del ,,pack». es decir. viaje. alojamiento y media pensión. Son: 500. 100. 750.

2.118 Dos personas diplomadas en Turismo con diferente gra-

550, 600, 900, 1.200, 750, 540. 890. 950, 900. 1.050.

do de experiencia han recibido dos ofertas de trabajo.

1.020. 670, 800, 1.300. 850, 1.050, 1.100, 1.400. 640.

A la primera le han ofrecido un sueldo de 13.000 € y

580, 700, 980. 570.

a la segunda le han ofrecido 20.500 €. Sabemos que la distribución de sueldos correspondiente a la categoría

a) Calcule el porcentaje de valores de gasto superiores

de la primera persona tiene una media de 14.500 € y

a 700 y el porcentaje de valores de gasto que se si-

una desviación típica de 1.000 €. Por otro lado, la dis-

túen entre 650 y 990.

tribución correspondiente al trabajo que han ofrecido a

b) Encuentre la distribución de frecuencias relativas con

la segunda diplomada tiene una media de 21.000 €. con

clases: 500 -600. 600 -900.900- 1.100, 1.100 -1.400 y

desviación típica de 1.500 €. ¿Cuál de las dos perso-

represéntela en un histograma.

nas ha recibido una mejor oferta en relación a su cate-

c) Encuentre la distribución de frecuencias relativas con

goría?

clases iguales que le parezca adecuada. represente el histo grama y en base al histograma. calcule:

211.1 Para un conjunto de datos la media es 80,5, la media-

e.l) El porcentaje de valores de gasto superiores

na 84. la desviación típica 10.5. el cuartil primero 75,5 y el cuartil tercero 96.

a 850.

c.2) a)

¿Qué porcentaje de las observaciones están por encima de 96? ¿Qué porcentaje es menor o igual

c.3)

a 84? b)

¿Qué porcentaje de datos caería dentro del intervalo (59.5. 101.51 si aplicamos la regla de Chebychev? ¿Qué porcentaje caería dentro de ese intervalo si la distribución fuese normal? ¿Y dentro del intervalo (49. 112)?

El porcentaje de valores de gasto entre 550 y 900. Desde la oficina de turismo de Salou se pretende incentivar al 25% de turistas que más gastaron en sus vacaciones, ofreciéndoles un descuento de un 1O% en cualquier apack» que escojan en la temporada de 2004 (siempre que el destino sea Salou. naturalmente). ¿Cuál ha debido ser el gasto mínimo en 2003 realizado por las familias premiadas?

21112 Los siguientes datos reflejan la distancia en km que diverEjercicios tipo

sos alojamientos de la provincia de Barcelona tienen res-

21110 Las series de datos de la Tabla 2.27 reflejan el número de veces al año que tres familias diferentes han ido de

pecto al centro de la capital: 38, 38. 65. 23, 23, 18, 18. 28.40.28, 65.65.72.50.40, 38 y 18. Todos estos alojamientos son los que presentan un precio más ajustado den-

viaje durante los últimos 24 años:

tro de los que posee una agencia y son utilizados en las temporadas de otoño, invierno y primavera. Se pide:

a)

Tabule los datos.

b)

Dibuje los diagramas de tallo y hojas para cada

a) Dibuje el gráfico que resulta más adecuado para este tipo de datos.

familia. Escoja diferentes agrupaciones. c)

b) ¿Cuál es la distancia media de los alojamientos? ¿Y

Compare las familias. Calcule alguna medida de

la distancia mediana?

centralización y dispersión para ello.

Tabla 2.27.

6

7

F1

6

12

13

3

5

6

13

10

10

6

9

F2

2

3

I

7

0

5

2

6

8

6

10

4

5

6

2

1

6

9

3

4

5

10

3

1

20

24

68

5

3

2

4

5

4

3

6

3

7

3

5

8

7

1

11

1

F3

1

6

Eslalishca aplicada al lulisma

50 IIIIIESTIS

ElE1tItIIS

EJEItItI15



c) Calcule los percentiles 10 y 90. Escriba una frase



IIIIIESTIS

IIIIIESIIS

EJEItItIIS

de Marbella ha recogido un conjunto de medidas del nivel de ruido del transporte. en decibelios, en un impor-

interpretando el valor obtenido. d) Calcule los tres cuartiles y dibuje el diagrama de caja

tante cruce de su ciudad: 55.9. 56.4, 60.4, 63.3. 67.2.

correspondiente a la distribución de los datos.

54.3, 64.0. 55.8, 60.1. 67.8. 76.3. 59.8, 66.2. 69.3. 55.2.

Coméntelo.

72.7, 58.2. 61.3. 62.6, 70.0, 65.7.

e) ¿Considera que la anterior media es representativa del conjunto de datos? f)

¿Puede considerarse la distribución de datos simé-

a) Agrupe los datos en clases o intervalos. b) Confeccione una tabla con las clases, las marcas de clase y las frecuencias.

trica? ¿Qué tipo de apuntamiento presenta? g) Resuma en unas pocas líneas la información obteni-

e) Realice un histograma. d) Añada al diagrama anterior el polígono de frecuen-

da a partir de los cálculos.

cias. 2.1111 La Tabla 2.28 muestra la distribución de la distancia en

e) ¿Cuál sería el valor que dejaría por debajo al 50'k de la población, al 759 y al 90'k? ¿Cómo se llaman

km que tuvieron que recorrer los espectadores que acu-

estos valores?

dieron a la fase final de la Euroliga de Baloncesto celef)

brada en Barcelona en 2003.

Determine el valor del percentil 10. Explique su significado.

g) Utilice la regla de Chebychev para determinar qué porcentaje de medidas se tendrían que encontrar entre x 2s_ 3s. Compare los valores obtenidos con el [0.

30

número de datos que se encuentran realmente en

1250, 500)

250)

5

dichos intervalos. Comente los resultados.

[500, 750)

10

(750, 1.000)

10

( 1.000, 1.250)

10

( 1.250, 1.500)

10

[ 1.500.

h) Utilice alguna medida de dispersión adicional para mejorar su análisis de la misma. 21111 La Tabla 2.29 muestra la distribución de la renta, en S. de los espectadores que siguieron la gira en todo el mundo .Ziggy Stardust.. de David Bowie. en 1972. Dicha

1.750)

5

(1.750. 2.000)

5

12.000, 2.250)

10

cia para conocer el tipo de público que asiste a estos

(2.250, 2.5001

I0

grandes acontecimientos como el tour ' The rising>. de

gira, una de las más exitosas de todos los tiempos, sirve a las principales agencias mundiales como referen-

Bruce Springsteen. del año 2003 y poner el precio a los paquetes turísticos promocionales. a) Dibuje el histograma de frecuencias y comente su forma. b) Calcule los percentiles 10 y 90. Escriba una frase

Porcenrajell

interpretando los valores obtenidos. e) Tomando como marca de clase el punto medio de cada intervalo, calcule la media y la mediana de los datos. d) ¿Qué medida de centralización encuentra más adecuada. dada la tipología de datos? e) Calcule una medida de dispersión que considere adecuada. f)

Comente qué tipo de asimetría y apuntamiento presentan, a su juicio, los datos.

211.14. Con el objetivo de conocer hasta qué punto aumenta el ruido en su ciudad en temporada alta, el ayuntamiento

(1.000, 2.000)

2

[2.000, 3.000)

3

(3.000, 4.000)

4

[4.000. 5.000)

5

[5.000, 6.000)

5

[6.000, 7.000)

5

[7.000, 10.000)

15

[ 10.000, 15.000)

26

[ 15.000, 25.000)

26

[25.000. 50.000)

8

[50.000, 125.000)

2

Análisis exploratorio de varia0les umdlmenslonales

Capítulo 2

EJEIfI[IIS

PIIPIESTIS



(HICIMOS

grama de frecuencias y comente su fora) Dibuje el histo

PIIPIESTIS e)

ma. Constate dicha impresión con los cálculos del coeficiente de asimetría y curtosis.



(HICIMOS

PIOPIESTIS

Calcule el coeficiente de variación y comente si la media es una medida representativa.

f) Calcule alguna medida de concentración y comenta

b) Calcule el percentil 10 y 90. Escriba una frase que

los resultados.

comente el sentido de dichos valores. ci Calcule la media y la desviación estándar. Dibuje el diagrama de caja. Comente la dispersión de la variable. dl

Ejercicios

con SPSS

;,Qué medida de centralización considera más adecuada? Justifique su respuesta.

21111. A partir de la base de datos enalgunlugar.sav. Se pide:

el Dibuje la curva de Lo re nz y calcule alguna medida

a) Realice la tabla de frecuencias de las nuevas variables Edad y Hotel así como de la variable Destina-

de concentración. Comente los resultados.

ciones.

21116 La Tabla 2.30 muestra los sueldos en € de los empleados

principio? ¿O si lo hubiera hecho de la variable Pre-

de una agencia turística:

cio Tabla 2.30. 1.200 1350 1.2r10 1.450 800

¿Qué pasaría si hubiera hecho la tabla de fre-

cuencias de la variable Edad tal y como la tenía al nor-lie? ¿Qué debería hacer para solucionar dicho

problema? 800 1100 1.500

1350

1.200

b) Realice las estadísticas descriptivas de las variables más interesantes.

a) Calcule la media y la desviación típica.

e) ¿Qué variable presenta mayor dispersión?

lo Si se decide un aumento lineal para todos los trabaja-

d) Se halla la edad media en el intervalo de mayor fre-

dores. ¿en cuánto aumenta la media? ¿Y la varianza? c) Si se decide un aumento del sueldo de un 15%. ¿en cuánto aumenta la media? ¿Y la varianza? d)

Si se aumenta el sueldo del trabajador que más cobra en 500 €. ¿cómo aumenta la media? ¿Y si se hace esto mismo con el trabajador que menos cobra?

cuencia? e) ¿Cuál es el país más representado en la muestra? fi Califique el número de estrellas de los hoteles de su muestra. g) Utilice el diagrama ,,bozplot» para comentar la dispersión de alguna variable.

CflPÍ1UL0 3

Análisis exploratorio de

^►

variables bidimensionales

3.1. Diagramas y tabulaciones bivariantes 3.2. Dependencia funcional y estadística. Cosarianza y correlación 3.3. La regresión lineal simple 3.4. Cálculo de coeficientes e interpretación 3.5. Medidas de calidad del ajuste 3.6. Introducción a la inferencia estadística 3.7. Hipótesis del modelo lineal. Consecuencias 3.8. Introducción a la regresión lineal simple 3.9. Estadística de atributos. Independencia y asociación 3.10. Ejemplos de estudio 3.11. Ejemplos de resolución a partir de SPSS 3.12. Ejercicios propuestos

E

n el presente capítulo estudiaremos dos características de un mismo elemento de la población (el número de quejas y la valoración que recibe un hotel, el precio y el

número de estrellas de un mismo hotel, el gasto en publicidad y la demanda de servicios turísticos, la longitud y la latitud). Estas características, sin estar ligadas entre sí por una relación matemática, sí presentan una cierta dependencia estadística. De forma general, si una variable X y una variable Y se estudian sobre una misma población y se miden por las mismas unidades estadísticas, se obtienen series estadísticas de las variables X e Y. Considerando simultáneamente las dos series, se suele decir que estamos ante una variable estadística bidimensional.





3.1.

Oidgrdmds u IdbuldclafleS biVdrÍdllCeS

La información bidimensional se suele presentar en tablas de contingencia y el gráfico más común es el diagrama de dispersión o nube de puntos.

Tablas de doble entrada o de contingencia-

Sea una población estudiada simultáneamente según dos caracteres X e Y, que representa-

remos genéricamente como (x,; y, ; n,,). donde x, e y, son dos valores cualesquiera y n „ es la frecuencia absoluta conjunta del valor i-ésimo de X con el j-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, que podemos representar tal y como se muestra en la Tabla 3.1. En este caso, n„ nos indica el número de veces que aparece .r, conjuntamente con y,; n 12 nos indica la frecuencia conjunta de .e, con y2, etc. Dada la distribución hidimensional (x, ; y, ; n,,), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la distribución bidimen-

)o — Y, — Y, n , n„ ... n,,

sional de la Tabla 3.2, podemos obtener las distribuciones marginales de la Tabla 3.3. •

... n„ n, .

I

rl

Ceplulo 3

Análisis exploratorio de variables bidimensionales

55

Por tanto: 90

N

i =r

80

= —

,=n

=n

Diagrama de dispersión o nube de puntos Representamos las variables en ejes de coordenadas, una de las dos variables en el

60

eje X, y la otra en el eje Y. Para indicar el número de coincidencias, o bien pone50 150

I 160

I 170 Precio

I 180

1 190

mos símbolos diferentes, o bien indicamos entre paréntesis el número n ,, . o hacemos los puntos del tamaño de su frecuencia absoluta. Según la forma de esta figura podemos encontrar relaciones lineales positivas, negativas, relaciones no lineales y ausencia de relación. A título ilustrativo la Figura 3.1 muestra una relación lineal positiva entre las variables Valor y Precio.

••

32.E

Dependencia funcional d estadística. Couarianza u correlación

El aspecto mas interesante de estudiar conjuntamente el comportamiento de un par de \ ariables de una población es el de captar las posibles relaciones que se pueden dar entre ambas.

Independencia estadística Si ponemos una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como: X/Y , indica que el valor de X viene condicionado por Y. YIX, indica que el valor de Y viene condicionado por X. En general se puede interpretar, por ejemplo, la distribución condicionada de y para x = x, como la distribución de la característica y para los elementos de la población que tienen como característica x el valor x, . y se diferencia de la distribución marginal de y en que ésta última tiene en cuenta la distribución de y en todos los elementos con independencia del valor de x que tengan. Se dice que dos variables

X

e Y son independientes estadísticamente cuando la frecuencia

relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir: n, n

n n, =— —, para todo i, j n n

Si esto no se cumple para todos los valores, se dice que hay dependencia estadística. La dependencia estadística se contrapone a la funcional en tanto en cuanto no expone una relación matemática que se cumple con exactitud para todos los casos. Gráficamente, si la relación fuese funcional, veríamos que las observaciones del diagrama de dispersión trazan una recta, una curva o cualquier otra forma funcional de manera exacta.

Medidas de dependencia lineal: covarianaa u coeficiente de correlación Como ya hemos comentado, en el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamente en el diagrama de dispersión.



^sh ca

ap6cacr

Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta retad n I. cov arianza. Su expresión es: - .Y) lv, -

rt„

Si S „ > O hay dependencia directa y positiva, es decir, a grandes valores de .r corresponden grandes valores de y. Si S „ = O las variables están incorrelacionadas, es decir, no hay relación lineal. Si S„ < O hay dependencia inversa o negativa, es decir, a grandes valores de x corresponden grandes valores de y. Gráficamente, la covarianza indicaría que los datos se ajustan' a una recta con pendiente positiva si .S „ > O, o se ajustan a una recta con pendiente negativa si S„ < O.

Propiedades de la couariafZd I. Si a todos los valores de la variable .r, les sumamos una constante 2.

3.

4.

k y a todos los valores de la variable y les sumamos una constante k', la covarianza no varía. Si a todos los valores de una variable x se les multiplica por una constante k y a todos los valores de la variable y por una constante k', su covarianza queda multiplicada por el producto de las constantes. A partir de las anteriores: si tenemos dos variables a, y con la covarianza S,,, si se realizan transformaciones lineales de las variables de la forma z = ar + b, y r = cy + d, la nueva covarianza se relaciona con la anterior de la forma: S„ = acS„ Otra forma de calcular la covarianza seria:

.r, v nv n Será la que utilizaremos en

XY

la práctica al ser su cálculo más rápido. ^

Nota Cuando las variables x e y son independientes, S„ = O. y por tanto r „ _ O. Es decir, si dos variables son independientes su covarianza vale O y su diagrama de dispersión tendrá forma de circunferencia. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza O. no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes.

El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Ello hace que no sea una medida acotada y que, por tanto, no nos indique la fuerza de la correlación en caso de existir ésta. Así pues, habrá que definir una nueva medida que no esté afectada por los cambios en las unidades de medida. Esta medida será el coefrcien o' de correlación lineal r con la siguiente expresión: r =

S„

S, S,

siendo S, y S, las desviaciones típicas de x e r. Este coeficiente es adimensional y siempre estará entre – l y I. — Si hay relación lineal es positiva, r „ > O y próximo a I. — Si hay relación lineal es negativa, r„ < O y próximo a – I. — Si no hay relación lineal, r„ será próximo a O.

CORRELACIÓN Y CAUSALIDAD

Un coeficiente de correlación elevado entre dos variables indica que dichas variables toman valores relacionados entre sí en los elementos observados, pero no permite concluirla exis-

' Entendemos por ajustar que una recta describiría razonablemente bien la relación entre los datos, pero no describiría a la relación de forma exacta, eso seria dependencia funcional.

Capado 3

57

Análisis exploratorio de variables bidimensionales

tencia de ninguna relación de causalidad de una variable respecto a otra. Un ejemplo ilustrativo es el siguiente: supongamos que tenemos los datos de temperatura y el número de matrimonios. Es muy probable que si calculamos el coeficiente de correlación entre estas dos variables obtengamos un valor muy elevado. Es es 'denle que las altas temperaturas no causan matrimonios y el elevado valor del coeficiente de correlación es muy probable que sea debido a que los matrimonios tienden a producirse en verano debido a la disponibilidad de tiempo libre. Este tipo de correlaciones se denominan espurias y su origen se tiene que buscaren otra variable (como por ejemplo las vacaciones de verano) que presenta una relación de dependencia con las variables observadas.

Ejemplo 3.1.

A partir de los siguientes datos que hacen referencia al precio del billete de ida y s uel-

ta y la valoración del vuelo que han realizado un conjunto de pasajeros que tomaron el vuelo Barcelona-Madrid un mismo día, vamos a calcular la covarianza y el coeficiente de correlación:

Precio

175 180 162 157 180 173 171

Valor

SO 82 57 63 78 65 66 67 62 58

168

165 165

Lo s cálculos que necesitamos son: =

x

169,6

= 67.8

s, =

7,2139

s = 8.7567

175• 80 +180 82± 16257+... 10

169,6 67.8 = 52.32

Ahora se puede calcular el coeficiente de correlación lineal r,,: 52.32

7.2139 . 8.7567 — 0.8282 que nos indica que las variables están relacionadas de forma positiva. l





3.3.

La regresión lineal simple Como se ha dejado patente anteriormente, cuando se estudian dos características de una

muestra simultáneamente, se puede considerar que una de ellas influye sobre la otra de alguna manera. El objetivo principal de la regresión es descubrir el modo en que se relacionan. Por ejemplo, con los datos del ejemplo anterior (Tabla 3.4), se puede suponer que la variable Precio influye sobre la variable Valor en el sentido de que precios elevados vienen explicados por valoraciones elevadas (en general). De las dos variables a estudiar, que vamos a denotar con X e Y. vamos a llamar a la X variable independiente, exógena o explicativa, y a la otra, Y. la llamaremos variable dependiente. endógena o explicada.

58

Estanca

Wittlailixismo

En la mayoría de los casos la relación entre las variables es mutua, y es difícil sabe qué variable influye sobre la otra. En el ejemplo anterior, a un viaje poco valorado le supon dremos menor precio y a uno de mayor precio le supondremos un valor más bajo. Es decir se puede admitir que cada variable influye sobre la otra de forma natural y por igual. U ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde s: sabe cuál es la variable Causa y cuál la variable Efecto. Por ejemplo, el gasto en publici dad que hace cada comunidad autónoma en promoción turística y la demanda turística qu finalmente tiene. En este caso, un pequeño gasto en publicidad tenderá a obtener una deman da más baja, y una demanda alta nos indicará que tal vez la comunidad se ha gastado mucho Sin embargo, a la hora de determinar qué variable explica a la otra, está claro que e »gasto en publicidad» explica la «demanda turística» y no al contrario, pues la comunida realiza primero un gasto en publicidad y luego obtiene una demanda turística que ya no deci de arbitrariamente. Por tanto:

X = Gasto en publicidad (variable explicativa o independiente) Y = Demanda turística (variable explicada o dependiente)

El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos variables es la relación LINEAL, es decir:

Y = a + bX Y



donde la relación anterior es la ecuación de una recta y donde a y b son números. Este es

0 o

^O

el caso al que nos vamos a limitar.

O 00 O

Cualquier ejemplo de distribución bidimensional nos muestra que la relación entre variables no es exacta (basta con que un dato de X tenga dos datos distintos de Y asociados, como

0

en el ejemplo de los precios y valoraciones de la Tabla 3.4 (donde al precio de 180 X

Y



0

0

0

O O 0 0

0

O

O O O

E le

correspondía una valoración de 82 y otra de 78).

Recta de

regresión

Un dibujo de la nube de puntos o diagrama de dispersión de la distribución nos puede indicar si es razonable pensar que puede haber una buena correlación lineal entre las dos variables (Figura 3.2). En los diagramas de arriba se puede observar cómo en el de la izquierda, una línea recta inclinada puede aproximarse a casi todos los puntos, mientras que en el otro, cualquier recta deja a muchos puntos alejados de ella. Así pues, hacer un análisis de regresión lineal

Ftqlua 3.2.

• • •

sólo estaría justificado en el ejemplo de la izquierda.

3.4.

Cálculo de coeficientes e interpretación

Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos los puntos y seguir siendo recta. De todas las rectas posibles, la recta de regresión de Y sobre X es aquella que minimiza un cierto error, considerando a X como variable explicativa o independiente y a Y como la explicada o dependiente. Sea y = a + bx una recta arbitraria, para cada dato de X, es decir, para cada x, de la tabla tenemos emparejado un dato de Y llamado y„ pero también tenemos el valor de sustituir la x, en la ecuación de la recta, al que llamaremos y;.

Capítulo 3

w

)nDIisis exploratorio de va ri ables bidlmensionales

x a+ bx, =y;

Cuando se toma el dato x,, el error que vamos a considerar es el que se comete al elegir y; en lugar del verdadero v,. Se denota con e, y vale: e, = y, — Esos errores pueden ser positivos o negativos, y lo que se hace es escoger la recta que minimice la suma de los cuadrados de todos esos errores, que es la misma que la que minimiza la varianza de los errores=. Usando técnicas de optimización se llega a que, de todas las rectas y = a + bx, con a y b números arbitrarios, aquella que minimiza el error elegido al cuadrado es aquella que cumple: sn a=v—s;• x

b=

s;

Así pues, sustituyendo en y = a + bx. la ecuación de la recta de regresión de Y sobre X es: y =

(v

— 5; xl

l

y recolocando los términos se puede escribir de la forma: y—Y=—•(x— x)

Si se hubiese tomado Y como variable independiente o explicativa, y X como dependiente o explicada, la recta de regresión que se necesita es la que minimiza errores de la X. Se llama recta de regresión de X sobre Y y se calcula fácilmente permutando los puestos de x e tt obteniéndose': sn

x —s = —• (y —v) s; s sn La pendiente de la recta de regresión de Y sobre X es - y la de X sobre Yes —. s s= Dado que las varianzas son positivas por definición, el signo de las pendientes será el mismo que el de la covarianza, y así las rectas serán ambas crecientes o decrecientes, dependiendo de si la covarianza es positiva o negativa, respectivamente (ver Apartado anterior).

Interpretación de los coeficientes

La ordenada a se puede interpretar como un valor mínimo o inicial de la variable y. del que se parte sea cual sea el valor de x.

Se toman los errores al cuadrado para evitar obtener como óptimas rectas o estimaciones de a y b en donde la suma de los errores es O pero debido a las compensaciones de estos errores. Existen otras metodologías de obtención de a y b que también evitan dicha problemática como estimación por mínimos errores absolutos, pero la presentada en este libro es la de mayor generalización. debido a la sencillez de su derivación. La recta de regresión de X sobre Y no se calcula a partir de la recta de regresión de Y sobre X. y luego despejando la x.

Estalfislica aplicada al turismo

60

En cambio, la pendiente. b, se puede interpretar como el aumento o disminución, segó el signo, que sufrirá la variable y al aumentar la variable x en una unidad.

Propiedades de la regresión A) b X b' = rt: es decir, el producto de las pendientes de las rectas de regresión de Y sobre X y X sobre Y es igual al coeficiente de correlación al cuadrado. BI La recta de regresión siempre pasa por el punto (y





3.5.

Medidas de calidad del ajuste

Una nube de puntos que se agrupa en tomo a una recta imaginaria justifica el estudio de la' regresión lineal entre las variables. Normalmente, la variable explicativa no explica (valga la redundancia) al 100% los resultados que se observan en la variable explicada. El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso general y estaríamos hablando de dependencia funcional y no estadística. Vamos a cuantificar la calidad de la explicación de Y por X mediante el coeficiente de determinación o bondad del ajuste. Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de X (independiente), pero sí por la de Y. al estar influenciada por la otra variable. La varianza de Y está generada, de una parte, por los datos de X (es decir, por su varianza), y de otra parte por causas desconocidas. El coeficiente de determinación va a ser el % de varianza de Y que se puede explicar por X. y se le suele llamar bondad del ajuste, porque valora lo cerca que está la nube de puntos de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de puntos a la recta de regresión). Como v, _ }' + e, desarrollando la expresión de la varianza de Y se puede concluir que: s?= 2 + s ,a,

por

.ar

y por tanto, el % de varianza de Y explicada por X es:

s-' — X 100 s;. que resulta ser

"s2 x 100, es decir, el coeficiente de correlación lineal, r, definido en el s 2•

capítulo anterior, elevado al cuadrado y multiplicado por 100. Es fácil notar que este coeficiente está acotado entre O y I. Por ello, al coeficiente de determinación se le llama 12 2 , es decir: R' =

sñ s; •s2

x 100

Por ejemplo, si R 2 = 86% para unas variables X e Y, podemos decir que la calidad del ajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o decreciente. Otro ejemplo, si conocemos el coeficiente de correlación lineal, r = —0,77, entre dos variables X e Y, ya sabemos que la recta de regresión es decreciente (por el signo negativo de r), y calculando R 2 = r 22. 100 = 59,29% tenemos una calidad de ajuste media (no es muy pobre, pero tampoco se puede calificar de buena).

Capitulo 3.

Análisis exploratorio de variables hidimeosiaoales

61

Análogamente, se puede definir el coeficiente de determinación de la siguiente forma: R- =

SCE – I SCNE SCT

SCT

Donde: a)

SCE: suma de cuadrados explicada. Es la parte de la variación de y que podemos explicar con x • SCE =

b)

SCT: suma de cuadrados total. Es toda la variación de y • SCT = 7(5' – i).

e) SCNE: suma de cuadrados no explicada o suma residual. Es la parte de la variación de y que no podemos explicar con x, con nuestra recta. Esta es la suma de errores al cuadrado. SCNE = ( y – i. )' _ ^e=. De cara ala interpretación, un modelo perfecto es un modelo sin errores (e = O). con lo que el coeficiente de determinación sería igual a la unidad, y un modelo desastroso sería uno donde los errores lo explican todo, es decir. SCT = SCNE. En este modelo la variable explicativa no tiene ningún poder explicativo sobre la explicada, y la recta de regresión tenderá a ser horizontal. El primer objetivo de la regresión era poner de manifiesto una relación existente entre dos variables estadísticas. Una vez se constata, por ejemplo, que hay una relación lineal entre dos variables y se calcula la recta de regresión apropiada, ésta se puede usar para obtener valores de la variable explicada, a partir de valores de la variable explicativa. o sea, para predecir. Por ejemplo, si se comprueba una buena correlación lineal entre las variables X = Gasto en publicidad e Y = Demanda turística, con una recta de regresión (de Y sobre X) igual a: v=0,9+

0,6.r

se puede plantear la siguiente pregunta: ¡ ,qué demanda puede obtener (según los datos) una comunidad autónoma que se gasta 10 millones de € en publicidad? La respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de la recta x = 10, resultando y = 6.9. El coeficiente de correlación (o el de determinación) lineal es el dato que, si es grande (próximo al o-1 si es la r. o próximo a 100`I- si es R'). nos indica que la predicción obtenida es fiable, lo cual es lógico pues R' indicaba la calidad del ajuste de la nube de puntos a la recta. Así pues, la fiabilidad de una predicción obtenida mediante la recta de regresión se puede medir con el coeficiente de determinación R1. En el momento de hacer predicciones hay que tener ciertas precauciones. pues es posible que se obtengan resultados absurdos. Un ejemplo podría se • obtener una demanda de servicios turísticos negativa (imposible en este ejemplo). La limitación de la predicción estriba en que sólo se puede realizar para valores de X que estén situados entre los valores de X de la tabla de datos inicial. Se puede concluir, por tanto, que las predicciones serán mejores cuanto mayor sea el coeficiente de determinación y el número de datos del cual se dispone.



3.6.

Introducción a la inferencia estadística

e._am.,c_+t:4e.; .2109,édiFFEM.

Aunque ya ha quedado delimitado el objeto de nuestro libro hacia la Estadística descriptiva, se va a aprovechar el modelo de regresión para introducir el contraste de hipótesis como una breve aproximación a la inferencia estadística.

Estadistica aplicada

62

al turismo

Como se ha comentado con anterioridad. uno de los objetivos del modelo de regresión es la predicción. A la luz de lo visto en los apartados anteriores, dicha predicción se basa en las estimaciones de a y h lá, b). Imaginemos ahora que teníamos una idea previa de la influencia de la variable x en y. Pongamos. a título ilustrativo. que creíamos que al aumentar en una unidad x, y también aumentaría en una unidad; es decir. que h = I. Pongamos que con una muestra de datos obtenemos una estimación de h con valor 1.1 (h = 1.11. ¿Hasta qué punto podemos concluir que nuestra hipótesis era falsa? ¿Podemos afirmar, como mínimo, que x influye en y, es decir. que h m (I:' Empecemos por la primera hipótesis. El objetivo es conocer si b es estadísticamente igual a I. Si el coeficiente estimado hubiera sido 1. no hubiera habido duda. Ahora se trata de saber si 1.1 está muy cerca o muy lejos. En general. para conocerlo utilizamos el siguiente contraste y estadístico que no demostraremos, pero que mostraremos su intuición. La hipótesis a comprobar hipótesis nula) será que h es igual a un determinado valor h . En nomenclatura: H:h=h Se trata de ver si la diferencia entre la estimación de h (h) y el valor de nuestra hipótesis h,, , debidamente relativizado por la desviación estándar del estimador, es suficientemente )estadísticamente) grande como para rechazar dicha hipótesis. A modo de convención, se supone que ese cociente es suficientemente grande cuando excede 1.96'. Así: bI

Ib sh

Si t > 1,96 se rechaza H„ . en caso contrario se acepta`. Evidentemente. nos queda conocer cómo calcular s1,: ^e=

donde

Ss = (

n

•X' )

la varianza residual

s'

n-

2

La interpretación de la desviación estándar del estimador es sencilla. Cuanto mayores son los errores mayor es su dispersión. su varianza y. por tanto, la varianza del estimador. Una varianza del estimador elevada implica una reducida eficiencia del estimador, es decir, que aunque el estimador calculado y promediado para muchas muestras concretas acierte, en una muestra individual puede alejarse de su verdadero valor: el de la relación entre xev.

• •

3.7.

Hipótesis del modelo lineal. Consecuencias

c,rt1■111

El modelo de regresión lineal, tal y como lo hemos presentado, se sustenta en una relación estadística entre dos variables. x e

V.

La base de esa relación estadística es la presencia tan-

Esta convención es lo que el lector que conoce Estadística inferencia) entiende como para un nivel de significación del 959. Observe igualmente la similitud del cociente inherente al contraste con la expresión mostrada en el Apartado 2.7 del capítulo anterior que hacía referencia a la tipificación de una variable. Evidentemente, esto no es casual. En ocasiones se presenta en las salidas de los programas informáticos de estadística como el SPSS junto ala columna del estadístico t otra columna que se suele denominar p-value o prob. Dicha columna, recoge la probabilidad de aceptación de la hipótesis nula (normalmente la hipótesis es que dicho coeficiente estimado es igual a 0). Su interpretación, de acuerdo con lo comentado para el estadístico t. es que únicamente se rechazará la hipótesis nula si dicho estadístico es inferior a 0,05. Este valor se corresponderá, obviamente, con uno del estadístico t superior a 1,96.

CapBWo 3

63

Bnálisis exploralorio de Variables bidimensionales

to de una parte sistemática, como de una parte no sistemática que hemos llamado error, y que es la causante de que la relación no sea funcional. Ese error, que aunque en términos muestrales hemos llamado e pero. poblacionalmente llamaremos u, procede de diversas fuentes: a) b)

Variables que desconocemos e influencian también a y. Variables que aunque conocemos son difíciles de cuantificar: los gustos individuales.

c)

Variables esporádicas: guerras...

d)

Especificaciones incorrectas: la relación entre x e y no tiene por qué ser lineal.

e)

Errores de medida.

f)

Comportamientos personales imprevisibles.

En general, podemos decir que no se puede prever Y con exactitud porque para cada valor de X hay una distribución de Y. Ello hace que para que podamos estimar el modelo y presentarlo tal y como hemos hecho. se hayan tenido que establecer algunos supuestos implícitos sobre este término de error poblacional. Estos son: — La media de estos errores es igual a O. El modelo carecería de lógica si conociéramos que existen errores en nuestras estimaciones y que éstos van sistemáticamente en una dirección, y no se compensan entre ellos. — La varianza de estos errores es constante. A este supuesto se le conoce como homocedasticidad. Es decir. la dispersión de estos errores que cometemos no depende de la variable x. En términos del ejemplo intuitivo de los gastos en publicidad y la demanda de servicios turísticos en las comunidades autónomas que hemos ido citando a lo largo del capítulo. se trata de que los errores que cometamos no sean mayores para las comunidades autónomas que más gastos realicen en publicidad. porque ello indicaría que hay algún aspecto importante que no estamos teniendo en cuenta. — La correlación entre los errores de dos observaciones distintas es nula. A este supuesto se le conoce como no autocorrelación. Es decir, volviendo al ejemplo. el hecho de que en Cataluña se corneta un error positivo no implica que este error ten g a que ser igualmente positivo para las islas Baleares (este supuesto sería de difícil cumplimiento en datos temporales).



3.8.

Introducción d id 1egresión lineal múltiple Cuando una variable estadística debe ser explicada por la acción simultánea no de una, sino de dos o más variables, nos encontramos ante un problema de regresión múltiple. La regresión múltiple se fundamenta sobre la misma base que la regresión simple. Es decir. los supuestos sobre el término de perturbación poblacional son los mismos y el método de obtención de las estimaciones también es el de minimizar el cuadrado de los errores. A título ilustrativo, la estimación de b para cuyo cálculo es preciso un pequeño repaso al álgebra matricial. responde a:

b=

(x' x)-'•x'

v

donde (x' x)-' es la inversa del producto de la matriz n ' k correspondiente a las k variables explicativas y las n observaciones, transpuesta por ella misma sin transponer y . donde x' y corresponde al producto de la matriz n • k correspondiente a las k variables explicativas y las n observaciones, transpuesta por el vector n • I. correspondiente a las observaciones de la variable a explicar.

Estadishca aplicada al tulismo

64

^iguiend m el ejempli, n irn:.aivo que nos acompaña durante el capítulo, suponga mos, como es lógico pensar, que la demanda de servicios turísticos que obtiene un CCA no sólo depende del gasto publicitario que hace, sino también de otras variables como la renta per capita de sus habitantes, la situación económica del país o zona que atrae al turista y otros factores como el clima para las CCAA basadas en turismo de sol y playa, de nieve o de factores culturales como si ese año han declarado a una ciudad de esa CCAA capital cultural europea. si se va a realizar un fórum importante o una exposición, etc. Seguramente estos factores también influencian la demanda de servicios turísticos y no

sólo resulta interesante conocer cuál es su influencia sobre ésta, sino también la influencia

de los gastos publicitarios una vez descontado el efecto de estos factores. Esto es lo que obtenemos con la regresión múltiple. En ella cada b, se interpreta como el aumento en la variable a explicar al subir en una unidad la variable explicativa, una vez descontado el efecto de las otras variables explicativas'.

3.9.

Estadística de atributos. Independencia q asociación Antes de acabar el capítulo merece la pena detenerse en aquellos caracteres cualitativos o no susceptibles de medida de una población. Recordemos que estos caracteres son deno-

minados atributos o variables cualitativas y se representan con las primeras letras del abe-

cedario. El número de veces que se repite el valor de un atributo se denomina frecuencia absoluta y se simboliza mediante n , . La frecuencia relativa se simboliza como!. La suma total de frecuencias absolutas será el número total de elementos que componen la muestra. Por último, puesto que los atributos no admiten ordenación cuantitativa, no tiene sentido hablar de frecuencias acumuladas. La estadística de dos atributos es el resultado de observar conjuntamente dos caracteres cualitativos. Los datos se vuelven a disponer en una tabla de doble entrada, al igual que ocurría con las variables cuantitativas como la presentada en el Apartado 3.1, en la que se pueden establecer las frecuencias marginales.

Independencia o asociación Cuando estudiamos dos caracteres cualitativos, nos encontramos con la posibilidad de que exista una «asociación„ entre estos atributos o una «independencia» entre los mismos. Para conocer la posible relación entre dos atributos, se debe emplearla siguiente expresión:

^=1 (VE—VO)' VE

donde VO son las frecuencias observadas o empíricas y VE los valores esperados o frecuencias teóricas para cada celda; se obtienen multiplicando las frecuencias marginales absolutas y dividiendo entre el total de observaciones: n,- n, VE-

N

El análisis pormenorizado de la regresión múltiple excede los objetivos del libro, pero se ha creído conveniente su análisis intuitivo y. sobre todo, su cálculo sencillo a través del programa SPSS. tal y como se verá más adelante. Evidentemente. aunque la base teórica es muy similar, hay diversas propiedades del modelo de regresión simple que no se cumplen en el modelo de regresión múltiple. Sirva a título ilustrativo la siguiente: en el modelo de regresión múltiple el coeficiente de determinación no se corresponde con el coeficiente de correlación al cuadrado.

65

Análisis exploratorio de variables bidimensianales

Caplolo 3

Una vez realizada esta operación, es necesario comparar su resultado con el valor de la distribución x de Pearson en tablas. Los grados de libertadad vienen dados por el producto del número de filas menos uno, por el número de columnas menos uno. El nivel de significación suele ser del 5%. a menos que se indique lo contrario. Se rechazará la hipótesis de independencia si el valor del estadístico supera al valor de tablas, en caso contrario no se podrá rechazar dicha hipótesis y se supondrá independencia. Sin comparar con el valor en tablas, el estadístico ,y 2 no está acotado y es directamente proporcional al número de casos. Un estadístico acotado adecuado para tablas 2 x 2 es el coeficiente d.

^

N

El coeficiente do está acotado entre 0 y I, tomando el valor 0 cuando no existe relación y I cuando se establece entre las variables una relación perfecta. Para tablas más extensas, siempre que tengan la misma dimensión (número de filas = número de columnas) se puede utilizar el coeficiente de contingencia C. Su expresión: C

yl X + N

Su valor mínimo es O mientras que el máximo depende del tamaño de la tabla (por ejemplo, para una tabla 2 X 2 su valor máximo es de 0.707). La interpretación de sus valores es idéntica al caso anterior. Por último, también para tablas extensas y teniendo en cuenta el número de filas (r) y de columnas (e) es la V de Cramer.

mín { (r — 1). (e — 1 ) }

La V de Cramer vuelve a estar acotada entre O y 1 con la interpretación usual. Ejemplo

32.

Hombre

Total

6

26

Una empresa de coches de alquiler de La Coruña pretende estudiarla asociación entre el sexo y la marca de coches que se alquilan con los datos de la Tabla 3.5, correspondientes a julio de 2003. Estadístico x2 :

Fiat



Peugeot

9

Ford

20

Mercedes

10

Is

18

3

li

Volvo

4

I,

Total

61

BMW

Re-¡+,:.a, al

13 16

Los grados de libertad: (6 — I I • (2 — I) = 5. En tablas, al 5% de significación el valor es de 11.07. Al ser el valor del estadístico mayor que el valor en tablas se acepta la hipótesis de asociación.

116 íst i c, ^ =

^

^

^ 1 61 6

=0;7

V

=^ O .I4

= 0.37

Al no tratarse de una tabla 2 X 2 Ia l no es directamente interpretable y sólo nos sirve para calcular la V de Cramer, que es la medida adecuada para la tabla de que disponemos. Como conclusión, a pesar de que aceptamos la presencia de una cierta asociación entre el sexo y la marca de coche escogida para alquiler. dicha asociación no parece ser muy elevada. l



66

Estadíshca aplicada al turismo

3.10. Ejemplos de estudio

Ejemplo de estudio 3.10.1

Vamos a realizar un estudio completo del ejemplo que se describe al comienzo del capítulo a partir de la Tabla 3.6, que reproducimos a con175 180 162 157 180 173 171 168 165 165 Precio tinuación. 80 82 57 63 78 65 66 67 62 58 Valor Aunque en este caso tenemos dos variables muy relacionadas. y no está claramente definido cuál de ellas influye sobre la otra, decidimos estudiar cómo el precio del viaje de los individuos influye sobre la valoración del mismo. Entonces tomamos X = Precio como variable explicativa e Y = Valor como variable explicada. 90 Comenzamos con la nube de puntos, para que nos informe si vale la pena iniciar el estudio de la regresión lineal o no hay motivos para ello (Figura 3.3). 80 Se observa que los puntos siguen una tendencia, aunque uno de ellos, el (157,63) se aleja de dicha tendencia. A este dato se le llama dato atípico. En mues70 tras numerosas un dato atípico no afecta demasiado al resultado, e incluso en ocasiones se elimina de la tabla, aunque no lo haremos en este caso. Así pues, el 60 dibujo revela cierta tendencia de los puntos a agruparse en torno a una recta imaginaria. El coeficiente de determinación, que es el índice numérico que evalua50 rá esa tendencia, nos constatará que hay una buena relación lineal. 150 160 170 180 190 Pasamos al cálculo de los estadísticos necesarios: Precio Tabla 3.6.

s = 169,6 = 67,8

s = 7,2139 s, = 8,7567

175 = 17 80 + 180 • 82 + 162 57 + ... 0

Fgura 3.3.

169,6 67,8 = 52,32

Ahora se puede calcular el coeficiente de correlación lineal r y el de determinación lineal R2: r =

52,32 — 0,8282 7,2139 - 8.7567

y

R2 = (0,8282) 2



100 = 68,59

que nos indica que la variable independiente Precio explica el 68.59% de la varianza de las valoraciones. Este mismo coeficiente de determinación se toma como índice de fiabilidad ala hora de hacer predicciones de la variable Valor a partir de datos de la variable Precio. Por ejemplo. según la tabla de datos, ¿qué valoración le debería corresponder a un viaje de precio 178 €? La respuesta viene de la recta de regresión de Valor sobre Precio. La calculamos con los datos que ya tenemos: y — 67,8 =

52,32 (x — 169,6) 52.04

quedando: y = —102,71 + 1,005x Así, un viaje de 178 € (correspondiente a x = 178) tiene, en virtud de la recta de regresión, una valoración y = 76,177, que se obtiene sustituyendo el valor de x. Se toma como fiabilidad de la predicción el índice R'-, calculado con anterioridad. Es decir. se dice que la predicción tiene una fiabilidad del 68,59%.



67

dn)lisis exploratorio de variables bidimensionales

Capiulo I

0E

EJEMPLOS

ES11010



EJEMPLOS

bE

ES11010



EJEMPLOS

1E

ES11110

Ejemplo de estudio 3.14.2

Supongamos que tenemos la Tabla 3.7 que reproduce el precio por noche de una habitación individual y la puntuación recibida por seis hoteles de Granada durante la celePrecio 36 48 51 54 57 60 bración de un congreso en 2003. Valor 86 90 91 93 94 95 Se pide: a) Los estadísticos individuales necesarios. b) La covarianza y el coeficiente de correlación. c) La recta de regresión de y sobre s. d) Los errores cometidos con cada observación. e) La varianza residual. f) La desviación estándar del estimador. g) El coeficiente de determinación. h) La predicción de la puntuación para un hotel cuyo precio de una habitación individual por noche es de 42 €. i) Contraste la hipótesis de que el precio por noche no influencia a la puntuación que recibe el hotel. Es decir. contraste que b = 0. Solución

= 91,5, s, = 7,74. s, = 2,98

1 -t = 51,

b

)

S

= 36 86

+fi ..

60 • 95

51 ^ 91,5 = 23

r,,

—99 0, = 7.74232.98

De lo que podemos concluir la existencia de un elevada correlación positiva. O sea, a mayor precio, mayor es la consideración del hotel. I

v

-91,5=

-51): v=71,95+ 0,383X 60

Es decir, partiendo de un mínimo de puntuación en tomo a 71,95 puntos, cada € adicional en el precio por noche de una abituación individual del hotel, parece redundar en un aumento en la puntuación que éste recibe de 0,383. d ) e, = 86 — 85,73 = 0,27 e2

)

f

donde ^^ ^ = 71,95 + 0,383 • 36 = 85,73

= —0,33 e, = —0.48 e, = 0,37 e, = 0,22 e6 = 0,07

5 = (0.272+... S6 =



+0,072)=

0,1506

0.1506 0204 0, (3 62 +...+ 60-) -6.512 —

SCT= (86-91,5)2+...+(90-91,5)2=53,5 SCE = (85,73 — 91,5)2 + ... + (94,93 — 91,5) 2 = 52,89 R2 = 52,89 _ 0,99 53,5 ts ue csr, es ajust e pare ce ser muy oue no. ti pre cio ces notes es muy expucauvo ae w punwacsuu, on lo que e mación del precio del hotel podemos ajustar de forma muy precisa el valor de la puntuación del mismo.

Estadística aplicada al turismo

68

EJEMPLOS

lE

1511011

hl 5‘. „-- 71.95 + 0.383 • 42 =



EJEMPLOS

OE

ES11111



EJEMPLOS

IE

E511111

88,03

O sea, un hotel con precio por noche de 42 € recibiría una puntuación de 88,03.

—0.383-0 = i)

0.0204

18,77

Evidentemente se rechaza dicha hipótesis, ya que parece que el precio de la habitación redunda en la puntuación que recibe el hotel. J

3.11. Ejemplo de resolución a partir de SPSS

Ejemplo SPSS 3.11.1.

A partir de la base de datos Salarios.xls: I. Realice la tabla de contingencia de las variables Sexo con y Nivel educativo. Comente los resultados. 2. Realice el gráfico de dispersión. el análisis de correlaciones y la regresión lineal entre las variables Salario por hora y Años

de experiencia. Comente. asimismo, los resultados.

Resolució n :

1. De cara a realizarla tabla de contingencia de las variables Sexo y Nivel educativo, entramos en el mentí «Analizara, el submenú «Estadísticos descriptivos» y la opción «Tablas de contingencia» (Figura 3.4).

r EtaSstxos desgarros Tablee mundanas Camparen pedas

2 3 4 5 6 7

e 9 10

5 90 8 93 445 5 30 580 325 655 4 30 5 10 7.20 5

'fi

2 3

d 15 16 7

7.00

19

3.75 9 80 580

213

695

18

5.00 2 00 3.00 5.00 700 00 5.03 6. 00 3.00 5.00 3.03 900 2 00 3 00 5.00 00 5.00

6 00 3.00

Erpbn...

taodeto traed general Modelos martes

I

Correlaciones Redes& r

tootied

aastea. Reducoon

de

datos

Escales Pruebes no permetncas seres temporales 5upereirenoe Pe-norestes

r

mentes

Antros de valores perddos...

28W

iUJ

56UU

20.00 40 001 5 00 3 00 4 00 15 00 1300 8 03

00 1 00 1 00 .00 00

44.00 62.00 27.03 38.00 2100 53 03 5100 213 .00

00

.00 .00

Il¡al Frecuentas

r Descreemos •=3:1=1.1 azor.

ar

tar

tar

tar

tar

Cabildo

3

Ooálisis explorelono de variables bidimensiooales

69

EJEMPLO IE IEStIICIÍI I 111T11 IT SPSS

_ . •

e .3os

^ J vo

'rawer , i.aficcs

I



E]EMfLI IE IESILILIÍI I 111T11 IE S1SS

aedales secta,

mIEI tI®1

Tablas de rente-venda

var

s.) sabe

2

sem

6

A

7

a

Frecuencsas ---

Cepel del

r

10 11

Cagare

Observadas

Cartre

Esperadas Ayuda

1

r

Mosby la gokos de breas agolpadas

ñ Fla

r

15

r

Sopare tablas

F

r Toreados

13

=

Calmas

5

12

I

I

edad

4

-

eeac

meren

3



-Paced*:

t7

Exactas

r

Estadisecos

Cascas.

Caserna Toar

Residual No tyñcados

r Tprcadscmagdos

Fomuto-_

1 19

580®

5100

---

Tapa oe mnngerUa EDUCACIoN' SEXO SEXO Trd , ____A-ON 0

1

2

3

Rearmo % de EDl1CACOn %de SEXO Recuerdo %Oe EDUCACIÓN %de SEXO Recuerdo % de EDUCACION %de SEXO Recuento %de EDUCACION

-

%da SEXO Recuento

5

% de EDX)CACION %de SEXO Recuento

6

%de EDUCACIÓN %deSEXO Recuento

7

% de EDUCACIÓN %de SEXO %ase no

8

9

%de SExO Recuerdo % de EDUCACIOI

10

%de5E80 Remeto %de EDUCAC,0N

11

'oai

Fi ora 3.1

% de EDl1CAC10N %de SEXO Recuento % 08 EDUCACIÓN

%deSEXO Recuento % de EDUCACIÓN %de SEXO Recomo %de EDUCACIÓN %deSEXO

2 __2% 80%

3 600% 83%

5 100.0% 82%

1

1

100 0% 40% 2 33 3% 80%

100.0% 16% 6 100 0% 98% 14

6 429% 240% 2 100 0% 80% B 57 1% 320% 3 600% 120% 1 200% 40%

25 410% 1000%

4 66.7% 111% 8 571% 222%

6 429% 167% 2 400% 56% 4 80.0% 11.1%

1000% 230% 2 100 0% 33% 14 100 0% 230% 5 100.0% 8.2% 5 1000%

3 100 0% 83% 2 100.0% 56% 1 100.0% 28% 3 100 0% 83%

82% 3 100 0% 49% 2 100 0% 33% 1 1000% 16% 3 100 0% 4 9%

36 590% 1000%

61 1000% 1000%

Una vez aquí seleccionamos las variables correspondientes ■ entramos en la opción «Casillas». En ella. seleccionamos el tipo de frecuencias. A nosotros nos interesa, en este momento. las frecuencias observadas y las frecuencias relativas marginales cuyo cálculo nos ofrece SPSS bajo el nombre de porcentajes fila y porcentajes columna. Clicamos en ambas opciones (Figura 3.5). Una vez aquí. aceptamos nuestras selecciones en los cuadros de diálogo «Tablas de contingencia: mostrar en las casillas y en Tablas de contingencia>, y obtenemos la salida de resultados (Figura 3.6). En la tabla podemos contemplar el número de casos para cada par posible de la combinación entre la variable Sexo y Nivel educativo. La salida también nos ofrece el siguiente cuadro que, únicamente, nos confirma que no se ha perdido ningún caso fruto de alguna ausencia de información en cualquiera de las dos variables (Figura 3.7).



Es lalfishca aplica da al luns mo

70 EJEMILI IE IESILILIÍI

111i11 IE SISS

1



IE IESILILIÍI

EJEMILI

1 t11

1

l

11

E

SISSI

-.^ Sal tibio - Editor de datos 91•5S Mdsvc Edam

va Datos T•arctoma Miza

r3Ge ^JJ^

vacos

=^ Pe^^=

0k9,&-v Votan

^

1,

2 3 5 6 7 8 9 2;m

10 11

: Di,orama de

12

670

a-rapessin s.tgte Ee

edicaceo

13

IJ

> tam •, edad

14 15

a 2. Para obtener el gráfico de dispersión entre las variables Salario por hora y Nivel educativo, acudimos la menú «Graficos>,, submenú «Dispersión. (Figura 3.8). Posteriormente, aceptamos la opción «Simple.. (Figura 3.9). Por último, seleccionamos la variable Salario por hora para el eje de ordenadas y la variable Experiencia para el eje de abcisas (Figura 3.10). El resultado parece mostramos una relación positiva entre ambas variables, aunque de carácter débil (Figura 3.11). Con respecto al cálculo del coeficiente de correlación entre ambas variables. SPSS nos lo ofrece en el menú «Analizar. Correlaciones, Bivariadas» (Figura 3.12). En el cuadro de diálogo resultante, seleccionamos las variables para las que queremos el coeficiente de correlación y le pedi mos que nos calcule el coeficiente de correlación de Pe arson. el Dispersion

- usa les

p

edac

a0

50

1

590

2

890

frM0os uidede5 Vetan 1

eso

Dtomes Eoaeovos

U'.

desapwos

Teases pesonahedss coopera made: Modelo kd general

• •

MEREN

4 45

pepeetln

533 5 80 33 6g 4. S 51 1 73 5 5_

toyed

12

6 70

:+ralas de valores pedalos... m UJ 1W 5t1 LeJ

13

500

3100

00

44 00

14 -

900

4000

1 00

62 00

15

715

500

119

2700

16

7.80

3.00

7

3.75

18

980

400 1500

19

580

00 00 00 00 00 1 .00

S ll

vat

Modelos monos

4 5 6 7 8 9 10 11

21 figaa

edut

041dtrea..

3

espe renca

flglli 3.11.

JJJJ^

salarlo

o

30

nceeneamns gar de

ala e J

á 20

I

toe cams reó•te.

athoo Edmn ve Dias Trasformar

salarios experiencia

10

r ^v

^.... . ^

Eeparar

Telta._

10

o

Establece ne•cc v

ICJ

20

-^o

Reaeekce

Planas

30

`ris

Pega

^^ Eei

ÍD

7.00

16

^ J4zpra

^r



Gestas Renacido de daos



Escales

• •

aneases no pa•nensas saes temporales 1.ttrneme = repuestas

1300

695

8.00

965

13.00

mítpes

• •

3800 23 00 5300 5100 28 00

33 W

71

Bnálisis eJploralorio de variables bidimensiooales

Caplulo 3.

EJEMPLO

lE

O

IESILI[111

OE

PIITII

EJEMPLO



SPSS

IE

IES1L1[111

I

Pililo

SE

SPSS

oto

_

salario

I

I

exoerien I

educ

sexo

I

edad

0

. edad •

Coefiurxes de cmdeoón Taub de Kendal

arca

las combase.

Correlación

de Pearson Sig (b il atera l) N Correlación de Pearson Sig (bilateral) N

Expenencia

J

r Sean.-

La

r uriaaa

Bialea

SALARIOS

ee

AWa

r

SALARIOS



U i

Pearson

Correlaciones

Pega

_

-cádos...

• a

hora como variable dependiente, ya que lo razonable es explicar el salario que cobra una persona a partir del número de años de experiencia que posee la misma. La variable Experiencia es.

arana...

por tanto, la variable independiente. Además, seleccionamos el

Root... Me Meet..

método de pasos sucesivos y dentro del submenú «Regresión

Eslxeeden po dereda... adrados en dos rata... *eras

lineal: estadísticos» le pedimos las estimaciones y el coeficiente

Escalamient

de bondad de ajuste del modelo o coeficiente de determinación

c

44 CO

(Figura 3.16).

,iejJ n

-_ +ratter Getm tx•dedes

J Dederdeeie •

Acepa

sabe

Blope 1 del Sip ssae

J Hieda

I

Pega

IndepmámleL

of

R^^edardec__e

_LI

el A da

^♦arpeass

I

- Coehcwes

F

r

rx

I-

de repetrm-

EsMnacves

lleves

de mfi.aaa

Mao¢ de covarxrue

u MCP»

Estadísticos

- Residen

r r

de caso

Greecor




YEAR. ne patudo

•^

MONTH. peed 12

in Erra

le BENEF Iron S

Seas a4 sale BENEI T Seas lades le BESE ? redoyde lo. BEI.E

n

Nombres. lunes

Fvet

b) Para obtener la serie primera diferencia de la serie

I_raenoa

Bene(, entrarnos en el menú «Transformar. crear serie tem-

oda.

porab> (Figura 4.6). A continuación. seleccionamos la serie Benef en el recuadro de nuevas variables. así como la función diferencia y el orden I. El cuadro de diálogo se representa en la Figura 4.7. La salida de SPSS nos indica que hemos perdido un dato (la primera obser vación), ya que el primer valor no perdido es la observación 2 (Figura 4.8). En el visor de datos observamos la nueva variable creada (Benef I) (Fi gura 4.9).

Peroárided actual 12

J

FINO ti ssistg Result Variable amor_1

.a..a Crea_ing First :.art Values Replaced Non-Miss Non-Miss Cases Function 2 288.

EStadstica aplicada

92

EJEMPLI

OE

bevel

1

IESILIEIÍI

month_

year_

date_

I

SPSS

EJEMPLO



I

sas_1

en_1

1

1608

1978

1 JAN 1978

2

16 19

1978

2 FEB 1978

- 05761

3

1638

1978

3 MAR 1978

- 07402 -.07%7

IESOLIEIÍI

stc_1

sal 1

benef 1

15 91856

1600348'

18252

16 06109

11

16.16660

21340

16.24062

.19

16.41009

26191

16 48976

29

4

16 67

1978

5

17.00

1978

5 MAY 1978

00822

16 8254E1

17052

16.81726

32

6

17.24

1978

6 JUN 1978

03504

17.18991

65009

17.15487

24

-.05331

17 46318

22

ce

7

1746

1978

7 JUL 1978

1

04913

17.51231

8

1755

1978

-.02766

17.73842

- 18742

17 76608

9

17.79

1978

8 AUG 1978 I 9 SEP 1978 I

- 13736

17.94957

-.15757

18 00693

24

lO

18 44

1978

10 OCT 1978 T

11158

18.56581

- 12881

18.45423

64

.02182

18 8/289

-.15089

18.791%

22

02813

19.12727

-.26327

19.09914

20

- 039138

19.34518

06282

19.38506

54 40

11

18.66

1978

11 NOV 1978

12

18 86

1978

12 DEC 1978.

13

19 41

1979

i

1 JAN 1979

.

14

19.81

1979

2 FEB 1979

-.08434

19.62848

18252

19.71282

15

20 32

1979

3 MAR 1979

02220

20.10560

21340

20.08340

51

16

20 76

1979

4 APR 1979

.01889

20 50109

.26191

20 48220

44

17

21. CO

1979

5 MAY 1979

-.05833

20.82948

17052

2088782

24

21.33791

05009

21 31509

39

18

21.39

1979

6 JUN 1979

02282

19

21 67

1979

7 JUL 1979

-03854

21 71831

-.05331

21.75685

28

20

2204

1979

8 AUG 1979

.00289

22.22542

-.18742

2222253

37

21

2254

1979

9 SEP 1979

.00298

22.70057

-.15757

22.69760

50

22

23.02

1979

10 OCT 1979

-02197

23 15%1

- 12881

23.17278

48

23

2356

1979

11 NOV1979

11393

23 70589

-.15089

2359195

53

24

23.80

1979

12 DEC 1979

.14813

24 C6427

-.26327

23.91614

25

24 16372

34

25

24.14

1980

1 JAN 1980

• 08455

24.07918

.06282

26

24.51

1980

2 FEB 1980

-.11534

24.33148

.18252

24 44682

37

27

24.95

19E0

3 MAR 1980

-.06847

24.738ú0

21340

2480707

44

28

25 59

1950

4 APR 1980

09722

25 32709

26191

25 22987

64

29

25.82

1980

5 MAY 1980

.02100

25.65148

17052

25.63348

23

30

26.03

1980

6 JUN 19E0

• 02518

25 97591

.05009

26 00109

20

31

26 32

1980 de mandes

7 JUL 1980 .-'

_ r;., _

-.05331

26 35562

30

SP55

i 6er/el r> YEAR, nd perodc s^ MONTH percd 12 s^ Ene la BENEF bota S Seas ad ser le BENEI .^ Seas lades le BENE s^ Tiendcyck Ice BESO •^ DIFRBENEF.1 ) rbenN.

.^

1.10.

i

_

O procesados esta

i .

1

MIME Pegas

^

Restablecer - Picotee r lu, : ayude

Furm

17--

SPS

-T

Para crear la función retardos de la variable original se accede al mismo menú («Transformar. Crear series temporales»). En él. se selecciona nuevamente la variable original Benef, pero en función se selecciona la función retardos de orden 1. En el recuadro donde tenemos que introducir el para que no nos borre la variable anterior. A la nueva serie la llamaremos, por ejemplo, Ibenef I (Figura 4.10).

I Raa ^ Orden

OE

nombre de la nueva variable creada cambiamos el nombre

I : -. -

Nam6re

P11111

peparado

J Nueves eeiabler

1

I

OE: --

16 01310

09462

1E

4 APR 1978

ny en. dedatos Mate

F luía

IE

PIITII

al turismo

Si aceptamos, obtendremos una salida en el visor de

^

Penodddadadual 12

resultados muy similar a la obtenida al crear la variable Benef I. Se nos indica de nuevo que hemos perdido una observación (Figura 4.11). La nueva variable Ibenef I la podemos observar en el visor de datos (Figura 4.12).

Results of SEASON procedure for variable BENEF Missing Result Values First Last Valid Creating Variable Replaced Non-Miss Non-Miss Cases Function _ LBENEF_1 288 287 LAGSIBENEF,11

li ^

c)

Para conocer la autocorrelación de la serie Benef sim-

plemente se calcula la correlación entre la serie original Benef y el primer retardo Ibenef I calculado en el apartado anterior. Para ello, «Analizar, Correlaciones, Bivariadas» (Figura 4.13).

fapifulo 4

EJEMPLI

Ardv:o

93

Introducción al análisis de series temporales

EdrtM

If

Ver

(Wow I

aI^IsIJ

1

IESILIfIÍI

Trens/nm.e

. I_J

r=

lvtln.

m

P11111

V.4ledts

(iehcos

Jr

r'

c

p

SPSS



EJEMPLI

1E

IESILIfIÍI 1

flllll IE

SPSS

vet-ewe

^Ir1^1

2'^

p^^— year_

banal

I

month_

sae 1

err, 1

date

I

s

Ina

1608

1978

1

JAN

1978

2

16

1978 1–

2FEB

1978

3

1638

1978

3

4

1667

1978

4

5

1700

1978

5

6

17 24

1978

6

03504

7.18991

7

17 46

1978

7 JUL 1978

04913

17 512311

8

1755

1978

8 AUG 1978

• 027661

17 73842

9

17 79

1978

9 SEP 1978

13736:

17 94957'

10

18.44

1978

10 OCT 1978

11158

18 565811

1866

1978

11 NOV 1978

02182

18 81289 115089

18 79'

1978

12 DEC 1978

19 031.'

19

MAR 1978 APR 1978 MAY 1978 JUN 1978

09462

16 01318

net

05761

16 00348

• 07402 ^

16 16660'.

2134_

- 07%7

16 41009I

26191

16 82548

1705.

'6 81-.

0500'=

'.7 15-.

1700

0533

'7 4E:

1724

- 1874.

177F:

174€

- 15757

18 03i

- 12881

18 454.

1757 1779

00822

16 %

'624.

16 19 1638

02813

19 12727

26327

13

1941

1979

1979

- 03988

19 34518

06282

14

19.81

1979

2 FEB 1979

08434

19 628481

18252

1971.-.

15

20 32

1979

3

02220

20 10%13

21340

20 08:4

1981

16

20 76

1979

4

01889

20 501091

26191

20 48220

20 32

17

2100

1979

5

- 05833

20 829481

17052

20 887821

20 76

18

21.39

1979

MAR 1979 APR 1979 MAY 1979 JUN 1979

19

2167

1979

JUL 1979

20

2204

1979

AUG 1979

21

22 54

1979

SEP 1979

22 04

22

2302

1979

OCT 1979

2

23

2356

1979

NOV 1979

23 02

24

12

1886

JAN

19 3-c= 19.

21 00 21 39 21 67 54

23.80

1979

DEC 1979

2356

25

24 14

1980

JAN 1980

23 80

26

24.51

1983

1980

24 14

27

24%

1980

1980

24 51

28

25.59

1980

FEB MAR APR

1980

24 95

29

25 82

1980

30

26 03

1983

2559 25 82

31 26 32 1980 =ma. de dra pe AVMs devesle

7 JUL 1980

26 37531 ll a l Ovss iEi d«esadr ese wneedo

1No me a11alaI N I . I _1 OE? Eaaew,ros eeeoar-oe 1 S nel_1

¡ year

mon

beset 16 GB 1619

1978

3

16.38

1978

4

16.67

1978

Retaso topined

1976

1700

1978

6

17 24

1978

Reducodn de datos

7

17 46

1978

8

1755

1978

9

17 79

1978

10

1844

1978

11

1978 1978

19.41

1979

14

1981

1979

155 20 32 1979

sas_1

sal_1

1

stc_1

I

band 1

mend 1

06282

15 91856

18252

16 06109

21340

16 24062'

19

26191

16 48976

29

16 82548

17052

16 81726

32

17 18991

pacaks... •

pruebes no pee sndtrices Sra ten opte$

.05009

17 15487

17512317- 05331 17

17 46318

17 738421

- 18742

17 76608

-.15757

18 08693

Supernuenoe



17 94957

Respuestas Restyles



18 56581

Aram de vetoes perdidos... u2811 19/0

18.81289

11 UtL 1 JAN

I

16 01318

(scares

1619

19 1272 19 34518

- 03946

2 FEB1979

-.08434

19.62848

18252

19 71282

40

MAR 1979 APR 1979 MAY 1979 JUN 1979 JUL 1979

02220

20 10560

21340

20 08340

51

20 50109

26191

20 48220

05009

21 31509

21 00

- 0533;

21 75685

21 39

3

16

20 76

1979

4

17

21 00

1979

5

21 39

1979

6

21 67

1979

7

01889 - 09833

20 82948

02282

21 33791

- 03851

va

1608

1979

18 19

I

Models, mitos

5

18 %

l

Modelo leed pener d

aas4ce

18.66

t

Ccerpwat matt.

1

12

01968

Tabas

2

13

-

1667

21 71831 I

1941 19 81 2032 3376

J

94

Esladíshca aplicada dl rl)nsmO

EJEMPLO

IESILILIÍI

lE

I

P1

1111

VaieMec ,MDIIiH Va+r.d

Erra la BE IIEF ho f Seo, eg ea la BE i Seas lactas la BE Trerácyck fa BEr a j DIFFIBEHEE 1] [te

slESEIau' i:

- Eaeeoaves de condensan--

Ñ Pesan r Taub de

Cendal



EJEMPLO

17

r

Bieldar

Maca

P11111

DE

SPSS

LAGS IBENEF,1)

BENEF Correlation de Pearson Sig (bilateral) N Correlaclon de Pearson Sig (bilateral)

LAGS (BENEF,1) Soeannen

Prueba deegJr.ecíón .._.-

r

I

Correlaciones

BENEF

r

RESOLItIÓI

OE

Pegar

^

^

-

SPSS

acwa

'2J

7

IE

Uridad

1

N

1

1 0001")

288

000 287

0000

1

000 287

287

La correlación es significativa al nivel 0.01 Ibrlaterall

las co rr ela ciones ayLCatrcas

Fqarra 4 1,1.

A continuación. introducimos las series Benef y lbenef I (Figura 4.14). La salida que nos muestra SPSS es la de la Figu-

ra 4.15. Observamos una autocorrelación muy elevada, de orden unitario y totalmente significativa. La variable Benef depende. por tanto, de su pasado anterior más inmediato. La serie depende en gran medida de sí misma. Seguramente el componente que determina de forma más relevante el beneficio neto que la agencia extrae por dicho producto es el contrato que tiene con la emisora de radio. Dichos contratos se suelen ir renovando condiciones muy similares a las del último contrato firmado.

4.6. Ejercicios propuestos

w ta la tendencia y la variación estacional. Calcule igual-

Ejercicios hpo

mente la predicción para los juegos del año 2004 que se 46.1. Se ha analizado la serie temporal correspondiente a los

celebrarán en Mataró.

empleos netos creados por los juegos europeos del deporte y la salud en los últimos cinco años a partir de los datos

4.6.2. Se conoce el precio de las comidas servidas en diversos

trimestrales de los distintos países donde se han cele-

restaurantes de León durante las siguientes estaciones y

brado. La tendencia viene dada por la siguiente recta de

años (en euros):

regresión: T = 342,3 + 6.7t (donde res el número de trimestre desde I a 20). Los coeficientes de variación estacional vienen dados en la Tabla 4.2.

3

0,9

4

1,3

Primavera

18

18,3

18,6

18,4

Verano

27,7

27,5

29,4

30,5

Otoño

21

22,1

21,8

23,7

Invierno

17,5

18,2

19,4

19,7



Se pide: Se pide:

a) Descomponga dicha serie temporal en sus compo-

Encuentre los valores predichos de la serie para el pri-

nentes no observados. Calcule la tendencia por los dos

mer año de celebración de los juegos. teniendo en cuen-

métodos que ya conoce (determinista y evolutivo).

l

Capítulo 4

95

Introducción al análisis de series temporales

EJEI[IEIIS

IIIIIESTIS



EJEItIEI1S

b) Obtenga el índice de variación estacional.



IIIIIESTIS Ejercicio

EJEItI[I1S

IIIIIESTIS

con SPSS

e) Desestacionalice la serie temporal. d) Comente la existencia de autocorrelación en la

4.64 Entre en la \\eb del Instituto de Estadística de su comu-

serie.

nidad autónoma' (por ejemplo la web para Cataluña es www.idescates). Bájese alguna de las series que hacen

e) Represente gráficamente el índice de variación y la

referencia al sector turístico.

serie desestacionalizada.

Se pide: 463Una agencia de viajes de Madrid declara los ingresos que obtiene según la estación del año. durante el período

al

1998-2001 en millones de euros (Tabla 4.41.

b)

La gráfica de la serie. La descomposición temporal de la serie que haya escogido. Calcule la tendencia por los dos métodos que ya conoce (determinista y evolutiva).

Calcule: e)

a) Los componentes de dicha serie temporal. Calcule la

La serie desestacionalizada y comprueba si la serie presenta autocorrelación.

tendencia por el método de las medias móviles.

di

La gráfica de la serie desestacionalizada y del índice de variación estacional.

b) La serie desestacionalizada.

1998 1999 2000

Pnmacera

a sa

2001

a. h

u,v

\ tirano

10.4

10,5

11

Otoño

6,3

6.7

6,9

6.6

Invierno

4.5

4.4

4.8

4.6

' En la Web del

Instituto Nacional de Estadística (www.ine.esl tiene un link a todas ellas.

Bibliogra

FERNÁNDEZ AGUADO.

is K

Carmen. Manual de Estadística descriptiva aplicada al sector turís-

tico. Edito ri al Síntesis, 2001. IGLESIAS. J. A. Técnicas de investigación aplicadas al sector turístico. Editorial Síntesis,

2001. PEÑA.

D. Estadística: modelos y métodos. Alianza editorial, 1991.

— Estadística para ciencias sociales. Alianza editorial, 1995. PÉREZ, C. Técnicas estadísticas con SPSS. Prentice Hall. 2001. SPSS Base 11.0: Manual del usuario. SPSS Gráficos interactivos 10.0. TOMEO PERUCHA. V. y UÑA JUÁREZ. I. Lecciones de Estadística descriptiva: curso teóricopráctico. Thomson-P araninfo, 2003.



Índice

Atributos, 64 o variables cualitativas. 64 Autocorrelación, 87, 92



oaIftico

Frecuencia absoluta. 12 acumulada, 13 relativa. 12 acumulada. 13

C

Coeficiente de contingencia C. 65 de correlación lineal r. 56 de determinación o bondad del ajuste. 60 de Fisher, 29 de Pe arson, 30 Correlaciones. 70 Covarianza. 56 y correlación, 55 Cuarto decil (D,), 24, 25 Curva de concentración o curva de Lorenz, 31, 32



D

Histograma. 15

Índice de Gini. 31 estacional. 90

L Ley normal. 30

Datos, 12 de corte transversal, 12 de panel, 12

temporales, 12 Diagrama de barras, 15 de caja, 26 de dispersión o nube de puntos, 55 de sectores, 15 de tallo y hojas, 16

Mediana: Me, 21, 24 Medidas de apuntamiento, 29, 36, 38 de centralización, 35, 37

Estadística aplicada al turismo

100 de concentración, 29, 30 de curtosis o apuntamiento. 30 de dispersión, 25, 36, 38 desviación media respecto de la mediana. 27 típica, 27 recorrido, 27 intercuartílico. 27 varianza, 27 de posición, 23. 35. 37 cuartiles, 23 deciles, 23 percentiles, 23 de simetría, 29. 36, 38 de tendencia central, 16 media aritmética, 16 aritmética ponderada, 17 geométrica, 20 Moda: Mo, 22 Muestra, 10 Muestreo aleatorio estratificado, 11 por aglomeración. I I simple, 10 sistemático. 11

Regresión lineal, 71 múltiple, 63 simple, 57

S

Series temporales, 84, 89 ciclo, 84, 91 estacional, 84, 91 irregular, 84, 91 tendencia, 84, 91 Suma de cuadrados explicada, 61 no explicada o suma residual, 61 total, 61

T Tablas de doble entrada o de contingencia, 54 Tendencia-ciclo, 91 Teorema de Tchebychev, 29 Tercer cuartil (C3), 24 Tipificación de una variable, 29

N

Nonagésimo percentil (P90), 24, 25

V

,P Pictograma, 15 Polígono de frecuencias, 16 Pri mer cuartil (C 1 ), 24, 25

V de Cramer, 65 Variable cualitativa, 11 cuantitativa, II continua, 12 discreta, 11 dependiente, endógena o explicada, 57 independiente, exógena o explicativa, 57 Variación estacional, 86

R

K Recta de regresión, 58, 66 de Y sobre X, 59

x2 de Pearson, 65

C

TUR ISM O

Y

HOS TELER

Í

Estadística Aplicada al Turismo

A

José María Raya

Con toda seguridad la mayoría del conocimiento que adquirimos, tanto de índole teórica como práctica, presenta como objetivo esencial la ayuda a la hora de tomar decisiones. Esta finalidad es especialmente evidente cuando tomamos en consideración cualquier técnica cuantitativa, en particular, la estadística descriptiva. Y si la estadística descriptiva resulta tremendamente útil para científicos, ingenieros o economistas, ¿por qué no para los profesionales del sector turístico? El presente libro trata a nivel intermedio los tópicos que la mayoría de textos de dicha temática suelen presentar: • En primer lugar, intenta ofrecer una exposición clara y sencilla de los principales conceptos estadísticos sin menoscabar el rigor matemático propio de la materia. • En segundo lugar, el texto se orienta al sector turístico por varias razones: Resulta especialmente motivadora la escasa presencia de textos de índole cuantitativa realmente orientados al

PEARSON Educación www.pearsoneducacion.co

sector, tratando de forma directa la utilidad que confieren los instrumentos estadísticos a la gestión hotelera, a las agencias de viajes o, evidentemente, a las consultoras turísticas entre otros profesionales del sector. Este hecho se mitiga durante el texto incluso en forma de casuística real debidamente disfrazada. Por último, y relacionado con los puntos anteriores, el texto se acompaña de la implementación y solución de diversos problemas a partir de, probablemente, el paquete estadístico de mayor generalización, utilizado tanto en la esfera pública como en la privada, en la académica como en la empresarial: el programa SPSS. Así, cada capítulo viene acompañado de una sección en la que se practica la obtención de todas las tablas, gráficos y estadísticos vistos en el mismo a partir de una base de datos con evidente orientación turística, de forma que el lector aprenda a utilizar el paquete en dicho entorno, a interpretar sus salidas y sea capaz, por tanto, de tomar decisiones.