Citation preview

Una práctica con Cluster Analysis Ernesto Torres Anguiano Mucho se ha escuchado a lo largo del tiempo sobre el análisis cluster, distintos métodos y formas de aplicarlo.

sus

Pero, ¿Cómo empezó todo? Desde siempre; El hombre siempre se ha caracterizado por tratar de buscar, identificar y clasificar de distintas maneras a los distintos animales, elementos, eventos o fenómenos con los que convive en el universo. Hay muchos ejemplos de esto; Desde que en los antiguos tiempos se calificaban/clasificaban a las personas de acuerdo a sus creencias (paganos o fieles a la ley), o en la forma en que hoy en día las amas de casa catalogan de acuerdo a su percepción a las distintas marcas de leche que hay en el mercado (Nutritivas, Caras, Baratas, Para Grandes, Para Niños, etc.). Esas agrupaciones que se pretenden identificar, deben buscar que en el interior de cada grupo o clasificación existan elementos que sean muy parecidos entre si, y que difieran lo más posible en relación a los elementos de otro grupo; y parte de éstas clasificaciones las podemos encontrar hoy dentro de un conjunto de técnicas que conocemos como cluster análisis. Dentro de nuestro ramo, podríamos mencionar algunas aplicaciones que tenemos de éste análisis, tales como: Segmentación y Posicionamiento, Estudio de Perfiles, Comportamiento del consumidor, Selección de mercados de prueba, Detección de problemas o Desarrollo de Nuevos Productos. En esencia, el análisis cluster (También conocido en otras ramas como taxonomía numérica, análisis tipológico, o clasificación automáticai) es un método de análisis que clasifica objetos o elementos, en grupos bien definidos llamados conglomerados/clusters; Donde cada uno de ellos (Clusters) debe tener a elementos que sean muy similares entre si (A lo que conocemos como Homogeneidad) y estos deben ser diferentes a los objetos de los otros grupos (Heterogeneidad) con respecto a algún criterio de selección predeterminado. Es decir, revela agrupaciones naturales dentro de un conjunto de datos que son muy útiles para obtener un conocimiento más profundo sobre los elementos o individuos que existen en una población determinada; y en base a esto poder tomar decisiones, establecer estrategias y planes de acción que nos ayuden a plantear objetivos o, en el caso de estar ya planteados, alcanzarlos o superarlos. El cluster análisis tiene distintos métodos de realización, destacando por su uso los Métodos Jerárquicos o Exploratorios (Que se caracterizan por la Anidación de acuerdo a la importancia de similaridad de los elementos) y Métodos No

1

Jerárquicos (Que desarrollan los conglomerados cuando el investigador ha definido de manera anticipada su número). A lo largo de la realización de un análisis cluster debemos tomar distintas decisiones para poder realizarlo de una manera adecuada, decisiones como lo son la selección de variables que incluiremos o el número de clusters/conglomerados que queremos conservar en el análisis; Decisiones que analizaremos mediante la aplicación de el siguiente caso. Supongamos que un Museo realiza encuestas a un grupo de niños al terminar el recorrido; dicha encuesta ésta diseñada con distintas preguntas generales y algunas que pueden ayudarnos a identificar grupos y diseñar estrategias que vayan acorde con los niños que están más interesados en asistir a un museo. Algunas de las preguntas que encontramos en ésta encuesta son las siguientes: Sexo Edad A ¿Es divertido ir al museo?* divertid B ¿Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden adentro? * pidocomp * C ¿Puedo aprender en la escuela lo mismo que en el museo? aprendom D ¿Prefiero ir al museo en excursiones con la escuela? * excur E ¿Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie F ¿No me interesa en lo mas mínimo asistir al museo? * nomeint ¿Te gustó tu visita al museo? (Si/No) gustovis * De Totalmente en desacuerdo a Totalmente de acuerdo en escala de 7 puntos.

Suponiendo que las preguntas de la sección denominada como “Opiniones generales que tengo en relación al museo” son con las que el equipo pretende agrupar a los 25 niños que respondieron la encuesta, se tendrían que hacer primero 2 consideraciones: 1. Que para identificar los grupos de niños, las preguntas que se elijan deben de estar en la misma escala de medición. (En caso de que esto no sea posible, se deben de estandarizar los valores) 2. Justificar la aplicación del cluster análisis, lo cual podemos hacer demostrando que existe fuerte asociación entre las variables que van a configurarlo.

2

Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25 niños: caso sexo

edad divertid pidocomp aprendom excur quitatie nomeint gustovis

1

1

9

6

7

3

3

4

2

1

2

1

10

2

1

4

4

3

5

0

3

0

9

7

6

3

4

2

1

1

4

0

9

4

4

6

5

6

3

1

5

0

9

1

2

4

2

3

6

0

6

0

10

6

6

4

3

4

3

1

7

0

10

5

6

4

3

3

3

1

8

0

10

7

7

4

4

3

1

1

9

1

9

2

3

3

3

4

6

0

10

1

9

3

3

6

6

5

4

0

11

0

10

1

2

3

3

3

5

1

12

0

9

5

5

4

4

4

2

1

13

0

9

2

1

4

5

2

4

1

14

0

9

4

4

7

6

6

4

1

15

0

8

6

4

4

2

5

1

1

16

0

9

3

4

7

6

5

4

0

17

1

9

4

7

5

2

4

2

0

18

0

9

3

2

3

6

7

4

1

19

0

9

4

3

7

7

6

2

1

20

1

9

2

2

2

4

3

7

0

21

0

9

5

6

5

4

4

3

1

22

1

9

5

7

5

4

3

3

1

23

1

9

4

2

7

7

7

1

1

24

1

10

3

3

5

7

4

4

0

25

1

10

1

2

3

3

2

4

0

Y a partir de ésta base de datos nosotros empezaríamos a trabajar para poder identificar a niños que tienen características similares en relación a sus opiniones de un museo. Nuestro siguiente paso es escoger las variables que podríamos nosotros utilizar para identificar a los grupos (recordamos que estas variables deben de estar en la misma escala de medición, o en su defecto, deben tener estandarizados los valores). Entonces tenemos que para esta agrupación podemos utilizar las siguientes preguntas: A ¿Es divertido ir al museo?* divertid B ¿Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden adentro? * pidocomp * C ¿Puedo aprender en la escuela lo mismo que en el museo? aprendom D ¿Prefiero ir al museo en excursiones con la escuela? * excur E ¿Ir al museo en mi tiempo libre me quita tiempo para jugar? * quitatie F ¿No me interesa en lo mas mínimo asistir al museo? * nomeint

3

(Medidas en escalas de 7 puntos – de Totalmente en desacuerdo a Totalmente de Acuerdo) Ya que hemos elegido a las variables que consideramos que podemos utilizar para nuestro análisis, debemos demostrar su aplicabilidad mediante la demostración de la existencia de una fuerte asociación entre las variables que van a configurarlo, lo cual podemos hacer con el siguiente análisis de correlación. Tabla de Correlaciones Bivariadas

Es divertido ir al museo Es divertido ir al museo

Correlación de Pearson

Cuando voy al museo le pido a mis papas que me compren algo de los materiales que venden adentro

Correlación de Pearson

Puedo aprender en la escuela lo mismo que en el museo

Prefiero ir al museo en excursiones con la escuela Ir al museo en mi tiempo libre me quita tiempo para jugar No me interesa en lo mas mínimo asistir al museo

Sig. (bilateral) N

Pido a mis papas que me compren algo dentro del museo

Puedo aprender en la escuela lo mismo que en el museo

Prefiero ir al museo en excursiones con la escuela

Ir al museo en mi tiempo libre me quita tiempo para jugar

**

No me interesa en lo mas mínimo asistir al museo **

.818**

**

.000 25

Correlación de Pearson

.099

.034

Sig. (bilateral) N

.638

.870

25

25

Correlación de Pearson

-.066

-.318

Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N

.755 25 .099 .636 25 -.816** .000 25

.121 25 -.111 .599 25 -.591** .002 25

**

**

.631** .001 25 .616** .001 25 -.296 .152 25

**

.577** .003 25 -.071 .735 25

-.218 .295 25

**. La correlación es significativa al nivel 0,01 (bilateral).

Entonces podemos identificar la existencia de fuertes correlaciones entre distintas variables (tanto positivas como negativas), mismas que nos dan la pauta para continuar con la aplicación de nuestro análisis. Si no se observaran fuertes correlaciones entre las variables que serán parte del Análisis Cluster se puede concluir que no tiene sentido realizarlo. Ya que hemos demostrado la existencia de fuertes correlaciones entre las variables que sujetaremos a la formación de grupos, debemos de seleccionar el procedimiento por el cual vamos nosotros a llevar a cabo dicha agrupación. De los dos métodos que hemos descrito con anterioridad es recomendable siempre empezar por los métodos Jerárquicos (También conocidos cómo exploratorios), ya que éstos nos presentan distintos diagramas (como el Dendrograma o la Gráfica de Témpanos) que nos ayudan a estudiar/decidir en cuántos clusters podemos dividir a los elementos. 4

Una vez que hemos realizado la agrupación por un método Jerárquico, podemos realizarla también por un método no jerárquico para validar o confirmar de alguna forma los datos obtenidos en un principio. (De ahí que los métodos no jerárquicos se conozcan también como métodos confirmatorios) Así pues, mediante la ayuda de un paquete estadístico procedemos a elaborar el análisis jerárquico que incluya a las 6 variables antes mencionadas. Donde un paso muy importante es la selección de la distancia por la cual se calculará el grado de similaridad de los elementos. (una de las distancias más utilizadas es la distancia euclidiana cuadrada). Ésta distancia es muy importante porque es la que empieza a agrupar a los elementos más similares entre sí (de ahí el nombre de jerárquico) y los gráfica en una gráfica llamada dendrograma que por motivos prácticos, la mayoría de las veces reescala las distancias reales entre los elementos a valores entre 0 y 25. El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos podríamos utilizar, en éste caso de nuestro análisis, el dendrograma se muestra así: * *

H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine

C A S E Label Num

Poca distancia entre los casos de cada cluster

20 21 18 19 25 23 24 22 2 5 9 10 3 4 6 1 8 7 11 15 13 16 14 17 12

0 5 10 15 20 25 +---------+---------+---------+---------+---------+                         

                                                            

5

Mucha distancia entre los clusters (3) En ésta gráfica podemos notar la existencia de distintos grupos de alumnos (clusters), donde nuestra principal tarea en éstos momentos es poder definir con cuantos grupos quedarnos, opciones que podrían ir desde los dos hasta que cada alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar en cuenta la practicidad del manejo de la información, y que tampoco podemos considerar como un cluster o conglomerado a 1 sólo elemento. Así que de manera gráfica podemos optar por la opción de tres clusters, donde existe poca distancia entre los elementos de cada cluster (la observamos por las líneas horizontales) y mucha distancia entre los distintos clusters (la observamos de la misma manera), donde cada conglomerado estaría conformado por los siguientes niños/elementos: Conglomerado 1: Niños 20,21,18,19,25,23, 24 y 22 (8 niños) Conglomerado 2: Niños 2,5,9,10,3,4,6,1,8 y 7 (10 niños) Conglomerado 3: Niños 11,15,13,16,14,17 y 12 (7 niños) Es muy importante que al ejecutar un análisis cluster indiquemos al paquete que nos guarde el conglomerado de pertenencia de cada elemento (en el rango de opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de esta manera tener ya el conglomerado de pertenencia de cada elemento en nuestra base de datos y poder estudiar las características de cada conglomerado. También podemos justificar nuestra decisión de 3 conglomerados mediante la creación de una tabla que (esto sólo se puede hacer cuando de manera previa le hemos indicado al paquete que nos guarde la información de pertenencia de cada caso) nos muestre cuantos elementos estarían en cada conglomerado entre las opciones que mostramos como probables en un inicio.

1 2 3 4 5 6 7

2 clusters Casos 18 7

3 clusters Casos 10 7 8

4 clusters Casos 10 7 7 1

5 clusters Casos 9 1 7 7 1

6 clusters Casos 9 1 7 5 1 2

7 clusters Casos 7 2 1 7 5 1 2

De ésta manera podemos analizar que si tuviéramos 2 clusters, uno tendría 18 casos y el otro 7, pero si tuviéramos 4 clusters tendríamos uno con 10 niños, otro con 7, otro con 7 y otro con 1, de modo que la opción mas “viable” o “equilibrada” sería la que tomamos de manera visual de 3 clusters; No debemos olvidar que 6

además de prácticos y homogéneos, los clusters deben aportar información razonable y fácil de comprender a la investigación.

Una vez que hemos determinado el número de los clusters, podemos proceder a estudiarlos y compararlos; una buena opción podría ser desarrollar gráficas que nos apoyen en su estudio, y de acuerdo a las características de los clusters podríamos también otorgarles un nombre con el cual podamos identificarlos más fácilmente. Totalm ente de Acue rdo

7 6 5 4 3

Totalm e nte 2 en desacue rdo

Interesados

No m e inte res a e n lo m ás m ínim o ir al m No useo me interesa en

Ir al m us eo en m i tiemIrpo libre m tiempo al museo en mi e quita tie m po para jugar

Pre fie ro ir al m use o Prefiero ir al museo en excurs ione s con la e scuela

Cuando voy al m useo le pido am papas Cuando voyis al museo l que m e com pren algo adentro

ir al m us eo

Es divertido Es divertido ir al museo

Apre ndo en la Puedo aprender en l escue la lo m ism o que e n el m use o

Lúdicos

1 0

Desinteresados

De acuerdo a esto, desarrollamos una gráfica donde mostramos los promedios obtenidos por cada conglomerado en las diferentes preguntas, donde encontramos cosas interesantes para nuestra investigación: Cluster 1: Formado por 8 alumnos, nos muestra valores altos en las preguntas de diversión y de consumo, además nos presenta un muy bajo promedio en la pregunta de “no me interesa en lo más mínimo ir al museo”, es decir, se encuentran muy interesados en ir al museo, se divierten mucho ahí, y además les piden a sus papas que les compren cosas dentro, entonces de una forma simple podríamos identificar a éste cluster como Interesado. Cluster 2: Formado por 10 alumnos, nos muestra valores muy altos en las preguntas de “Aprendo lo mismo en la escuela que en el museo”, “prefiero ir al museo en excursiones con la escuela” e “Ir al museo en mi tiempo libre me quita tiempo para jugar”, nos dan a entender que es un segmento que gusta de ir al 7

museo en el tiempo de la escuela y no en el tiempo libre (Quizá para perder tiempo de clases), lo cual nos permitiría identificar a éste cluster como un grupo lúdico. Cluster 3: Formado por 7 alumnos, nos muestra valores muy bajos en la mayoría de los reactivos, pero también nos muestra un promedio muy alto en la pregunta “No me interesa en lo más mínimo ir al museo”, y al ser un segmento completamente apático, podríamos identificarlo como un segmento completamente Desinteresado. Una vez definidas las etiquetas de cada cluster, podemos también continuar en la investigación de las características de cada grupo, tales como el sexo o si es que gustaron de su visita al museo. Distribución del sexo por cluster Cluster Total Base Sexo

N % Femenino Masculino

n % n %

25 100.0% 15 60.0% 10 40.0%

1(Interesado) 10 100.0% 7 70.0% 3 30.0%

2 (Desinteresado) 7 100.0% 3 42.9% 4 57.1%

3 (Lúdico) 8 100.0% 5 62.5% 3 37.5%

Enero 2005

Sexo por Segmento Cluster Analysis 8

7 6

# Casos

Donde al estudiar las características de cada cluster en cuanto al sexo, podemos observar que las mujeres forman parte en su mayoría del segmento que se encuentra interesado (70%) y en segundo lugar con el segmento lúdico (62.5%); mientras que los hombres forman parte en mayor número del segmento que no se encuentra interesado con nada que tenga que ver con un museo.

5 4

4 3

3

3

Femenino Masc ulino

2 Interesados

Desinteres ados

Lúdicos

8

También podemos estudiar la opinión de cada cluster en relación a su visita al museo, es decir, si gustaron de ella o no, a lo que podemos ver lo siguiente: Recuento

Total

Donde obviamente la mayoría de los niños interesados gustaron de la visita al museo (9), sólo dos casos del segmento desinteresado lo hicieron, y en lo que respecta a los niños catalogados como lúdicos 5 gustaron de su visita al museo.

Total 10 7 8 25

Gusto de la visita al museo por segmento Cluster Analysis 10 9 8

# Casos

Cluster

Interesados Desinteresados Lúdicos

¿Te gustó tu visita al museo? No Si 1 9 5 2 3 5 9 16

6 5

5

4 3 2

0

2

No

1 Interesados

Si Desinteresados

Lúdicos

Ya hemos estudiado las características principales de cada cluster, y ya podemos decir que los conocemos, ahora en cuanto a manera de “justificación” de las agrupaciones podemos también hacerlo mediante la demostración de que existen diferencias significativas entre cada uno de los clusters. Éstas diferencias resultan ser obvias desde cierto punto de vista, y son utilizadas solo para propósitos meramente descriptivos, ya que uno de los objetivos del análisis de conglomerados es precisamente maximizar las diferencias entre los grupos de casos.

9

Las diferencias significativas entre éstos grupos de casos las mostramos en la siguiente tabla.

ANOVA

Es divertido ir al museo

Cuando voy al museo le pido a mis papas que me compren algo de lo venden adentro

Puedo aprender en la escuela lo mismo que en el museo

Suma de cuadrados

gl

Media cuadrática

F

Sig.

Inter-grupos

67.886

2

33.943

61.642

.000

Intra-grupos

12.114

22

.551

Total

80.000

24

Inter-grupos

82.328

2

41.164

54.449

.000

Intra-grupos

16.632

22

.756

Total

98.960

24

Inter-grupos

29.911

2

14.956

14.736

.000

Intra-grupos

22.329

22

1.015

52.240

24

Inter-grupos

45.726

2

22.863

32.844

.000

Intra-grupos

15.314

22

.696

Total

61.040

24

Inter-grupos

35.083

2

17.541

23.030

.000

Intra-grupos

16.757

22

.762

Total

51.840

24

Inter-grupos

41.931

2

20.966

19.357

.000

Intra-grupos

23.829

22

1.083

Total

65.760

24

Total Prefiero ir al museo en excursiones con la escuela

Ir al museo en mi tiempo libre me quita tiempo para jugar

No me interesa en lo mas mínimo asistir al museo

En ésta tabla podemos también identificar cuáles son las variables que contribuyen más al proceso de agrupamiento, esto podemos hacerlo mediante los valores F, entonces podemos concluir que las variables que contribuyen más al agrupamiento son: Es divertido ir al museo, y Cuando voy al museo le pido a mis papas que me compren algo adentro. En relación a los métodos no jerárquicos o confirmatorios (Como el método de KMedias), es necesario indicar con anticipación el número de clusters en los que se quiere dividir la base (Además, no debemos olvidar que cada una de las variables implicadas en el análisis deben estar en la misma escala de medición, o en caso de no serlo, estar estandarizadas); por esto es necesario realizar una fase previa 10

de un análisis jerárquico que nos oriente y permita identificar de manera visual en cuantos grupos se pueden dividir la base.

Cuando contamos con una base base de datos extensa, resulta hasta cierto punto difícil poder interpretar el dendrograma (debido a su extensión), así que podríamos realizar el análisis de K-medias pidiéndole a la máquina soluciones múltiples (podríamos hacerlo con éste ejercicio, con una solución de 3 a 7 clusters), pidiéndole también a la máquina que nos guarden los conglomerados de pertenencia para cada individuo. Posteriormente, podríamos crear una tabla idéntica a la que mostramos anteriormente en la cual nos indiquen cuantos casos existirían para cada cluster, y así tomar la decisión de cuantos clusters conservar. Invitamos al lector a realizar la práctica mediante los conglomerados jerárquicos y no jerárquicos con ésta base de datos para comparar los resultados. Otra forma mediante la que podríamos comprobar/validar nuestra clasificaciones es de manera gráfica, para esto realizamos un diagrama de dispersión por medio de un análisis discriminante.

Funciones Discriminantes Canónicas

Cluster Centroides de grupo Lúdicos Desinteresados Interesados

11

Poca distancia entre los casos de cada

a Resultados de la clasificación Grupo de pertenencia pronosticado Interesados

Desintere sados

Lúdicos

Total

10

0

0

10

Desinteresados

0

7

0

7

Lúdicos

0

0

8

8

100.0

.0

.0

100.0

Desinteresados

.0

100.0

.0

100.0

Lúdicos

.0

.0

100.0

100.0

Average Linkage (Between Groups)

Original

Recuento

%

Interesados

Interesados

a. Clasificados correctamente el 100.0% de los casos agrupados originales.

En dicho diagrama de dispersión y en la tabla que muestra los resultados de clasificación podemos observar que tenemos una muy buena clasificación (Esta clasificación tan alta no se logra siempre, varía muchas veces tanto del número de casos como de la forma en que se distribuyen, en ésta ocasión tuvimos la fortuna de que los casos muestren una agrupación natural perfectamente delimitada), donde de manera gráfica podemos observar que los tres grupos se diferencian muy bien, encontrándose cada uno en regiones muy independientes. Una de las principales aplicaciones de éste análisis es el poder identificar a los grupos dentro de una población y poder orientar estrategias a cada uno de llos para que nosotros podamos alcanzar los objetivos más fácilmente y de la manera más óptima, así que si usted fuera de las personas del museo, y estuviera planeando invitar a distintos niños a una nueva exposición,… ¿A quiénes les mandaría la carta de invitación?

12

i

César López, Técnicas Estadísticas con SPSS, 2001