Trabajo Final Resumen Vanessa Arias

1 MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA. CURSO: ANÁLISIS DE DATOS. TECNICAS APLICADAS A DATOS DE PROXIMIDAD Resum

Views 31 Downloads 3 File size 821KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

1 MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA. CURSO: ANÁLISIS DE DATOS. TECNICAS APLICADAS A DATOS DE PROXIMIDAD Resumen del texto: Multidimensional Scaling Using Majorization: SMACOF in R Trabajo Final Profesor José Fernando Vera

INTRODUCCIÓN: El siguiente trabajo muestra un resumen de las metodologías de los problemas de escalamiento multidimensional, teniendo en cuenta los algoritmos de mayorizacion. Se describen las principales estrategias para resolver problemas del MDS a través de SMACOF. Se toma como referencia el texto “Multidimensional Scaling Using Majorization: SMACOF in R” (Jan de Leew) SMACOF EN R ¿Qué es el escalamiento multidimensional? Son los métodos para descubrir estructuras ocultas en datos multidimensionales. ¿Dónde se aplica? Las principales áreas de aplicación son: 

Ciencias Sociales



Marketing



Bioetría



Ecología

En relación con la introducción al tema d escalamiento multidimensional se encuentra en los textos de kuskal y Deseo (1978) y para en relación con temas más avanzados se encuentran en Borg Groenen (2005) Cox y Cox (2001).

El escalado clásico del MDS. Está basado en distancias euclidianas, y las técnicas del MDS, se integran en las siguientes taxonomías: 

MDS de via 1 VS multidirección., como por ejemplo las medidas de diferentes repeticiones.



MDS de segundo modo VS multimodo, las diferencias de K son cualitativamente diferentes.

El MDS métrico y MDS no métrico, ambas determinan la función objetivo de perdida. La “suma de cuadrados” denomina el mismo estrés Se minimiza el estrés con SMACOF. Extensiones del enfoque de SMACOF respecto a: 

Restricciones de la configuración

Análisis de datos, técnicas aplicadas a datos de proximidad

Máster en estadística aplicada

2 

Diferencias individuales



Matrices angulares y superficies cuadráticas.

Los inventores del MDS son Torgerson (1958) y Shepard (1962) las soluciones en MDS cayeron cerca de variedades cuadráticas como círculos, elípses y parábolas.

Teoria básica de la mayorización: 

¿Qué es mayorizacion?

Es una “receta” para construir algoritmos de optimización, ayda a optimizar o generalizar las fnciones objetivas. Esta teoría fue introducida por Deleeuw (1977) y Deleeuw y Heiser (1980),

Definiciones de Majorización: Desde el punto de vista formal, la mayorizacion requiere de lassiguientes definiciones. ( ) una función para ser minimizada, la principal mayorizacion se sugiere concotrar una

Sea

simple y manejable función

(

) que se centra en (

Donde

)

( )

( )

(1)

es un valor fijo llamado “punto de apoyo”

La función sustituta para la superficie Sea ( )

(

)m conduce a la cadena de la desigualdad

de Sandwich: ( )

(

)

(

)

( )

(2)

El procedimiento iterativo consiste en las siguientes pasos: 

Elija el valor numérico de



Actualización de



Parar si

( )

( (

( ))

)

si y solo si

(

) ( ) y y := x(t)

Se procede con el paso 2.

Eeste procedimiento puede ser utilizado para espacios multidimensionales y se puede prolongar la desigualdad del Sandwich y se sostiene en el segundo paso, se puede utilizar para minimizar la función objetivo correspondiente.

Análisis de datos, técnicas aplicadas a datos de proximidad

Máster en estadística aplicada

3

Metodología básica de SMACOF SMACOF para matrices de disimilaridad, los datos de entrada de MDS son matrices nxn , la cual no es negativa y es hueca, es decir con diagonal cero.

El problema lo podemos resolver localizando

puntos bajo dimensional el espacio

euclidiano, las distancias entre los puntos aproximados dadas las dsimilaidades

( )

√∑

(

)

.

(3)

S=1 , … , p es el número de dimensiones en el espacio euclidiano. Ahora bien, se define el estrés como:

( )



( ))

(

( )

W es una matriz nxn, es simétrica, no negativa y hueca. Se utiliza para imponer estructuras de valor faltantes. si se conoce si no se conoce a

Otros tipos de estructura con la restricción ( )





( )

: ∑

( )

( )

( )

( )

La siguiente expresión ∑

( )

Se entiende como la suma ponderada de la fila y columna centradas las matrices Para la representación de p(x) se define la matriz

(7) donde

Análisis de datos, técnicas aplicadas a datos de proximidad

Máster en estadística aplicada

4 Ahora bien, la descomposición del estrés se convierte en: ( )

( )

( )

Definiendo el punto de apoyo de Y, la cual es una matriz de configuraciones nxp

(9) Con

La desigualdad de Cauchy-Schuartz implica que la majorizacion del estrés se defina como:

(10)

Smacof con restricciones en las configuraciones Básicamente, el paquete smacof permite al usuario implementar restricciones de configuración arbitrarias especificando una función de actualización correspondiente para X Se define la restricción lineal más simple de la forma predictora nxq ( )

, en este caso Z es una matriz

En este caso el estrés se define igual que 4 La trasnformacion de Guttman es

( ).

La ecuación 10 se reescribe como

(11) Este segundo término denota la falta de ajuste de la configuración y se convierte en cero si no hay restricciones

Configuración del problema de proyección (12)

Análisis de datos, técnicas aplicadas a datos de proximidad

Máster en estadística aplicada

5 Proyectando a

( )

en la variedad de configuraciones restringidas (13)

Con

Smacof para diferencias individuales Extensión natural del conjunto clásico del MDS. El enfoque clásico para el calculo de MDS es INSCAL (calculo de diferencias individuales Carrollo y Chang 1970) Solución de matrices

en una diagonal de bloque estructura:

(14) Las distancias se denotan

, luego

se define como la Supermatriz de configuración

(15) ( ) se puede escribir como

(16) La distancia euclidiana ponderada se puede expresar

(17) Z es la matriz n × p de coordenadas del llamado espacio de estímulo grupal o espacio común. Si

para todos k, obtenemos el llamado modelo de identidad.

Problema de proyección de configuración: (18) Análisis de datos, técnicas aplicadas a datos de proximidad

Máster en estadística aplicada

6

Smacof para matrices de disimilaridad rectangular El estrés puede ser representado como:

(20) Basado en la descomposición posición de X, V se puede dividir en:

(21) Y B(x) como:

(22) Matriz de soporte de Y

(23)

Análisis de datos, técnicas aplicadas a datos de proximidad

Máster en estadística aplicada