1 MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA. CURSO: ANÁLISIS DE DATOS. TECNICAS APLICADAS A DATOS DE PROXIMIDAD Resum
Views 31 Downloads 3 File size 821KB
1 MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA. CURSO: ANÁLISIS DE DATOS. TECNICAS APLICADAS A DATOS DE PROXIMIDAD Resumen del texto: Multidimensional Scaling Using Majorization: SMACOF in R Trabajo Final Profesor José Fernando Vera
INTRODUCCIÓN: El siguiente trabajo muestra un resumen de las metodologías de los problemas de escalamiento multidimensional, teniendo en cuenta los algoritmos de mayorizacion. Se describen las principales estrategias para resolver problemas del MDS a través de SMACOF. Se toma como referencia el texto “Multidimensional Scaling Using Majorization: SMACOF in R” (Jan de Leew) SMACOF EN R ¿Qué es el escalamiento multidimensional? Son los métodos para descubrir estructuras ocultas en datos multidimensionales. ¿Dónde se aplica? Las principales áreas de aplicación son:
Ciencias Sociales
Marketing
Bioetría
Ecología
En relación con la introducción al tema d escalamiento multidimensional se encuentra en los textos de kuskal y Deseo (1978) y para en relación con temas más avanzados se encuentran en Borg Groenen (2005) Cox y Cox (2001).
El escalado clásico del MDS. Está basado en distancias euclidianas, y las técnicas del MDS, se integran en las siguientes taxonomías:
MDS de via 1 VS multidirección., como por ejemplo las medidas de diferentes repeticiones.
MDS de segundo modo VS multimodo, las diferencias de K son cualitativamente diferentes.
El MDS métrico y MDS no métrico, ambas determinan la función objetivo de perdida. La “suma de cuadrados” denomina el mismo estrés Se minimiza el estrés con SMACOF. Extensiones del enfoque de SMACOF respecto a:
Restricciones de la configuración
Análisis de datos, técnicas aplicadas a datos de proximidad
Máster en estadística aplicada
2
Diferencias individuales
Matrices angulares y superficies cuadráticas.
Los inventores del MDS son Torgerson (1958) y Shepard (1962) las soluciones en MDS cayeron cerca de variedades cuadráticas como círculos, elípses y parábolas.
Teoria básica de la mayorización:
¿Qué es mayorizacion?
Es una “receta” para construir algoritmos de optimización, ayda a optimizar o generalizar las fnciones objetivas. Esta teoría fue introducida por Deleeuw (1977) y Deleeuw y Heiser (1980),
Definiciones de Majorización: Desde el punto de vista formal, la mayorizacion requiere de lassiguientes definiciones. ( ) una función para ser minimizada, la principal mayorizacion se sugiere concotrar una
Sea
simple y manejable función
(
) que se centra en (
Donde
)
( )
( )
(1)
es un valor fijo llamado “punto de apoyo”
La función sustituta para la superficie Sea ( )
(
)m conduce a la cadena de la desigualdad
de Sandwich: ( )
(
)
(
)
( )
(2)
El procedimiento iterativo consiste en las siguientes pasos:
Elija el valor numérico de
Actualización de
Parar si
( )
( (
( ))
)
si y solo si
(
) ( ) y y := x(t)
Se procede con el paso 2.
Eeste procedimiento puede ser utilizado para espacios multidimensionales y se puede prolongar la desigualdad del Sandwich y se sostiene en el segundo paso, se puede utilizar para minimizar la función objetivo correspondiente.
Análisis de datos, técnicas aplicadas a datos de proximidad
Máster en estadística aplicada
3
Metodología básica de SMACOF SMACOF para matrices de disimilaridad, los datos de entrada de MDS son matrices nxn , la cual no es negativa y es hueca, es decir con diagonal cero.
El problema lo podemos resolver localizando
puntos bajo dimensional el espacio
euclidiano, las distancias entre los puntos aproximados dadas las dsimilaidades
( )
√∑
(
)
.
(3)
S=1 , … , p es el número de dimensiones en el espacio euclidiano. Ahora bien, se define el estrés como:
( )
∑
( ))
(
( )
W es una matriz nxn, es simétrica, no negativa y hueca. Se utiliza para imponer estructuras de valor faltantes. si se conoce si no se conoce a
Otros tipos de estructura con la restricción ( )
∑
∑
( )
: ∑
( )
( )
( )
( )
La siguiente expresión ∑
( )
Se entiende como la suma ponderada de la fila y columna centradas las matrices Para la representación de p(x) se define la matriz
(7) donde
Análisis de datos, técnicas aplicadas a datos de proximidad
Máster en estadística aplicada
4 Ahora bien, la descomposición del estrés se convierte en: ( )
( )
( )
Definiendo el punto de apoyo de Y, la cual es una matriz de configuraciones nxp
(9) Con
La desigualdad de Cauchy-Schuartz implica que la majorizacion del estrés se defina como:
(10)
Smacof con restricciones en las configuraciones Básicamente, el paquete smacof permite al usuario implementar restricciones de configuración arbitrarias especificando una función de actualización correspondiente para X Se define la restricción lineal más simple de la forma predictora nxq ( )
, en este caso Z es una matriz
En este caso el estrés se define igual que 4 La trasnformacion de Guttman es
( ).
La ecuación 10 se reescribe como
(11) Este segundo término denota la falta de ajuste de la configuración y se convierte en cero si no hay restricciones
Configuración del problema de proyección (12)
Análisis de datos, técnicas aplicadas a datos de proximidad
Máster en estadística aplicada
5 Proyectando a
( )
en la variedad de configuraciones restringidas (13)
Con
Smacof para diferencias individuales Extensión natural del conjunto clásico del MDS. El enfoque clásico para el calculo de MDS es INSCAL (calculo de diferencias individuales Carrollo y Chang 1970) Solución de matrices
en una diagonal de bloque estructura:
(14) Las distancias se denotan
, luego
se define como la Supermatriz de configuración
(15) ( ) se puede escribir como
(16) La distancia euclidiana ponderada se puede expresar
(17) Z es la matriz n × p de coordenadas del llamado espacio de estímulo grupal o espacio común. Si
para todos k, obtenemos el llamado modelo de identidad.
Problema de proyección de configuración: (18) Análisis de datos, técnicas aplicadas a datos de proximidad
Máster en estadística aplicada
6
Smacof para matrices de disimilaridad rectangular El estrés puede ser representado como:
(20) Basado en la descomposición posición de X, V se puede dividir en:
(21) Y B(x) como:
(22) Matriz de soporte de Y
(23)
Análisis de datos, técnicas aplicadas a datos de proximidad
Máster en estadística aplicada