Componentes Principales Word de Teoria

Componentes Principales Word de TeoriaDescripción completa

Views 105 Downloads 0 File size 9MB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

Uni

ANALISIS DE COMPONENTES PRINCIPALES Con SPSS Dr. Edgar Eloy Carpio Vargas

Contenido ANALISIS DE COMPONENTES PRINCIPALES..................................................................2 1.

Introducción............................................................................................................ 2

2.

Utilidad.................................................................................................................. 3

3.

Aplicaciones:........................................................................................................... 3

4.

Ejemplo inicial........................................................................................................ 3

5.

Definiciones básicas................................................................................................ 10

6.

Fases:.................................................................................................................. 11

7.

Planteamiento del problema..................................................................................... 14

OBTENCION DE LA COMPONENTES PRINCIPALES....................................................16 Calculo de los componentes......................................................................................... 17

1

ANALISIS DE COMPONENTES PRINCIPALES 1.

Introducción. El análisis de componentes principales (ACP) es una técnica multivariante de síntesis, simplificación o reducción de la dimensionalidad. Su objetivo es explicar la mayor parte de la variabilidad total de un conjunto de variables cuantitativas con el menor número de componentes o factores comunes posibles. A diferencia del análisis factorial que tiene como objetivo simplificar las numerosas y complejas relaciones que se pueden encontrar en un conjunto de variables cuantitativas observadas. Para ello trata de encontrar dimensiones o factores que ponen en relación a las aparentemente no relacionadas variables. El ACP se clasifica entre los métodos de simplificación o reducción de dimensiones, es decir, reducir p variables a un pequeño subconjunto r < p. No es necesario establecer jerarquías previas variables dependientes o independientes, ni suponer normalidad de los datos. Los nuevos componentes principales o factores se caracterizan por estar incorrelacionadas entre sí y son una combinación lineal de las variables originales e independientes entre sí. Esta técnica se circunscribe dentro de la estadística descriptiva. La extracción de componentes principales se efectúa sobre variables tipificadas para evitar problemas derivados de escala, aunque también se puede aplicar sobre variables expresadas en desviaciones respecto a la media. La técnica de componentes principales es debida a Hotelling (1933). Su utilidad es doble: 1. Permite representar óptimamente en un espacio de dimensión pequeña observaciones de un espacio general p-dimensional 2. Permite transformar las variables originales, en general las correlacionadas, en nuevas variables incorrelacionadas, facilitando la interpretación de los datos. Un aspecto clave en ACP es la interpretación de los factores, ya que ésta no viene dada a priori, sino que será deducida tras observar la relación de los factores con las variables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones). Esto no siempre es fácil, y será de vital importancia el conocimiento que el experto tenga sobre la materia de investigación. Si tomamos demasiadas variables sobre un conjunto de objetos, por ejemplo 20 variables, 20 =180 tendremos que considerar posibles coeficientes de correlación; si son 40 2 variables dicho número aumenta hasta 780. Evidentemente, en este caso es difícil visualizar relaciones entre las variables. Otro problema que se presenta es la fuerte correlación que muchas veces se presenta entre las variables, lo normal es que estén relacionadas o que midan lo mismo bajo distintos puntos de vista. Por ejemplo, en estudios médicos, la presión sanguínea a la salida del corazón y a la salida de los pulmones están fuertemente relacionadas.

( )

Es posible interpretar la posible relación entre las variables, pero también las similitudes entre los individuos. Dos individuos próximos tendrán características similares, mientras que dos individuos alejados tendrán características diferentes. Se pueden buscar también grupos de puntos cercanos con características similares. Imaginemos n individuos bajo una sola variable, es fácil describir a estos individuos sobre una recta, ahora si fuesen dos variables representaríamos a dichos individuos sobre un plano. Incluso si las variables fueran tres, podemos recurrir a una nube de puntos. Estas 2

representaciones graficas permiten observar geométricamente la estructura interna de la nube de puntos, pero, ¿Qué ocurre si el número de variables es igual o superior a 4?, la respuesta es que la gráfica es imposible. 2.

3.

Utilidad 

Permite representar óptimamente en un espacio de dimensión pequeña, observaciones de un espacio p-dimensional. Es un 1er paso para identificar variables generadoras de los datos.



Permite transformar las variables originales, en general correladas, en nuevas variables incorreladas facilitando la interpretación de los datos.

Aplicaciones: Para identificar personas mediante una base de datos de imágenes 3D de los rostros. Se identifican las proteínas responsables del movimiento de la espina dorsal basándose en los ángulos de éstas Para encontrar nuevas estructuras en los datos climáticos sobre huracanes que permitan prevenir sus efectos. Para encontrar estructuras genéticas relacionadas con el cáncer Para encontrar estructuras espaciales de la actividad de los medicamentos mediante imágenes Disponemos de 1420 observaciones de datos de contaminación atmosférica en la provincia de Madrid. Se midió el ozono, el dióxido nitroso y el monóxido de carbono en diferentes meses y años. Su representación gráfica es la siguiente:

4.

Ejemplo inicial Suponiendo que se desea conocer los factores de riesgo relacionados con la enfermedad coronaria. Por conocimiento previo se sabe que los factores relacionados con esta enfermedad son: la presión arterial, la edad, peso, la obesidad, el tiempo que ha sido hipertenso, el pulso, y el estrés. Para realizar la investigación se seleccionaron al azar 20 pacientes hipertensos en los que se midieron las siguientes variables: X1: Presión arterial media (mm Hg) 3

X2: Edad (años) X3: Peso (kg) X4: Superficie corporal (m2) pulso X5: Duración de la Hipertensión (años) X6: Pulso (pulsaciones/minuto) X7: Medida del stress Los datos obtenidos se muestran a continuación: Id. Presión Edad Peso Superficie Duración Pulso Stress 1 105 47 85,4 1,75 5,1 63 33 2 115 49 94,2 2,10 3,8 70 14 3 116 49 95,3 1,98 8,2 72 10 4 117 50 94,7 2,01 5,8 73 99 5 112 51 89,4 1,89 7,0 72 95 6 121 48 99,5 2,25 9,3 71 10 7 121 49 99,8 2,25 2,5 69 42 8 110 47 90,9 1,90 6,2 66 8 9 110 49 89,2 1,83 7,1 69 62 10 114 48 92,7 2,07 5,6 64 35 11 114 47 94,4 2,07 5,3 74 90 12 115 49 94,1 1,98 5,6 71 21 13 114 50 91,6 2,05 10,2 68 47 14 106 45 87,1 1,92 5,6 67 80 15 125 52 101,3 2,19 10,0 76 98 16 114 46 94,5 1,98 7,4 69 95 17 106 46 87,0 1,87 3,6 62 18 18 113 46 94,5 1,90 4,3 70 12 19 110 48 90,5 1,88 9,0 71 99 20 122 56 95,7 2,09 7,0 75 99

La dimensión inicial lo componen las 7 variables. ¿Será posible describir el conjunto de datos utilizando un número menor de dimensiones, aprovechando las interrelaciones entre las variables? ¿Sera posible definir un índice general que cuantifique la situación de riesgo? 1) Consideráramos inicialmente la representación gráfica de dos variables (edad y presión) en un diagrama de dispersión,

4

Figura Nro. 01. Diagrama de dispersión para la edad y la presión arterial Es posible observar la posible relación entre las variables, pero también las similitudes entre los individuos. Dos individuos próximos tendrán características similares, mientras que dos individuos alejados tendrán características diferentes. Se pueden buscar también grupos de puntos cercanos con características similares. Ahora consideramos tres variables, aún es posible representarlas en tres dimensiones como se muestra en la figura 2. Las representaciones tridimensionales sobre el papel son difíciles de interpretar ya que no se tiene una referencia visual clara. La interpretación puede realizarse mediante un programa de ordenador que permita el movimiento de la figura para ver las posiciones relativas de los puntos.

Figura Nro. 02. Representación tridimensional de las variables presión, edad y peso. Si hacemos una rotación,

5

Figura Nro 3. Rotación de la representación tridimensional que muestra que los puntos se encuentran aproximadamente en un plano. Observaremos que los puntos están prácticamente sobre un plano. Esto se pone de manifiesto en la figura siguiente en la que se ha conseguido un punto de vista desde que los puntos parecen estar sobre una línea recta. Este hecho pone de manifiesto que no es posible describir el conjunto de datos con tres dimensiones, sino solamente dos. La solución es buscar un sistema de referencia para el plano (subespacio) más cercano a la nube de puntos de forma que, al proyectarlos todos sobre dicho plano, la pérdida de información sea mínima. La pérdida de información puede entenderse en términos de variabilidad del conjunto de puntos o en términos de la similitud entre las interdistancias entre los puntos, calculadas en el espacio original y las calculadas en la proyección del subespacio. El subespacio quedará definido mediante un sistema de referencia para el mismo, es decir, mediante dos vectores perpendiculares dentro del subespacio. El primero lo situaremos en la dirección en la que más varían los datos, el segundo, perpendicular al primero recogiendo la mayor parte de la variabilidad restante y así sucesivamente. Los vectores del sistema de referencia definen nuevas variables, que son combinaciones lineales de las variables de partida y se denominan componentes principales. De esta forma, podemos reducir la dimensión seleccionando solamente las primeras componentes. La reducción de la dimensión se deriva del hecho de que las variables están relacionadas entre sí y, por tanto, tienen información común, de alguna manera, la información común a todas ellas se extrae en las componentes principales.

6

Figura Nro. 4. Espacio de las componentes con las tres primeras variables La representación de las dos primeras componentes, para los datos anteriores y con sólo tres variables aparece en la figura siguiente. Las dos primeras componentes absorben el 99% de la variabilidad de los datos. Sobre el diagrama de dispersión es posible interpretar las distancias entre los puntos en términos de similitud, buscar conjuntos de individuos similares, etc, con la garantía de que la pérdida de información sea mínima y de que hemos recogido las fuentes de variabilidad más importantes en el conjunto de datos. La figura siguiente muestra las dos primeras componentes principales para el conjunto de las 7 variables. Las componentes se denotan con x e y. Se han superpuesto sobre el gráfico vectores que representan a las variables originales y que interpretaremos más tarde. También se han suprimido las escalas ya que, en este contexto son menos importantes.

Figura Nro. 5. Espacio de las componentes con todas las variables. En este caso, las dos primeras componentes recogen aproximadamente el 77% de la variabilidad, más aún recogen las fuentes de variabilidad más importantes de los datos. 7

Si prescindimos, por el momento, de los vectores que representan a las variables, podemos interpretar las distancias entre puntos y buscar grupos, tal y como hacíamos en el diagrama de dispersión inicial. Como las componentes son variables compuestas calculadas a partir de las originales, solamente queda por determinar cuál es la información que han recogido las componentes, es decir, que variables explican la similitud de los individuos en el subespacio de representación final. La interpretación se hace a partir de las correlaciones entre las variables observadas y las componentes. Dichas correlaciones se muestran en la tabla siguiente. (Las componentes se denominan factores en la tabla).

Figura Nro. 6. Correlaciones entre las componentes principales y las variables observadas Observamos que la primera componente está altamente correlacionada con las variables: presión, edad, peso, supcorp y pulso y la segunda componente con: Duración y Stress. Es decir, la primera componente muestra, fundamentalmente aspectos relacionados con el aumento de la presión arterial y de las variables determinantes del riesgo de la enfermedad coronaria, por tanto, la primera componente sería un índice del riesgo de enfermedad de forma que, los individuos que se sitúen a la derecha en la proyección sobre el eje del gráfico serán los que tienen riesgo más alto de enfermedad y los que se sitúan a la izquierda, riesgo más bajo. Sobre el gráfico habíamos superpuesto también vectores que representaban a cada una de las variables originales. Los vectores representan la dirección de mejor ajuste para cada una de las variables, en el sentido de que, si proyectamos los puntos que representan a los individuos sobre uno de los vectores, las puntuaciones obtenidas estarían más correlacionadas con la variable original que las proyecciones en cualquier otra dirección. El coseno del ángulo que forma cada vector con el eje, mide aproximadamente la correlación con el mismo y los cosenos de los ángulos entre dos vectores aproximan la correlación entre las variables a las que representan, es decir, a menor ángulo menor correlación. La representación con las variables añadidas se denomina representación biplot. A las correlaciones al cuadrado entre la variable y el eje se le denomina también contribución relativa del factor al elemento, y mide la parte de la variabilidad de la variable que explica cada uno de los ejes. Las variables con contribuciones altas en uno de los ejes y bajas en los demás son las que han de interpretarse para cada eje ya que son características exclusivas del mismo. 8

Como las componentes son incorreladas, tienen información independiente por lo que la suma de las correlaciones al cuadrado es 1. La parte explicada por un plano, se calcula simplemente sumando la parte explicada (contribución) por los ejes que lo componen, a esta cantidad se la denomina también “calidad de la representación”. La calidad de representación puede interpretarse también como la correlación al cuadrado entre los valores de la variable original y las proyecciones de los puntos sobre la dirección que representa a la variable. De la misma manera que hemos hecho para las variables es posible definir calidades de representación para los individuos. Veamos una interpretación diferente de la misma más adecuada para el estudio de los individuos. La figura siguiente muestra la proyección de uno de los puntos de la nube en un espacio bidimensional. Supongamos que se trata de la proyección de uno de los vectores que representa a una variable.

Si observamos el espacio tridimensional que aparece en la figura, la variable representada y el eje horizontal forman un ángulo de casi 90° por lo que pueden considerarse independientes; sin embargo, en la proyección sobre el espacio bidimensional, el ángulo es muy pequeño, hecho que se podría traducir en una fuerte relación. Esto es debido a que la calidad de la representación del vector sobre el plano es baja. La figura siguiente muestra la situación esquematizada. El coseno al cuadrado del ángulo se puede tomar como medida de la relación entre la variable y el eje.

A esta medida la denominaremos CALIDAD DE LA REPRESENTACION sobre el eje factorial. (CLRil ).

9

del punto i

Esta cantidad puede calcularse también a partir del producto escalar entre el vector i y un vector cualquiera en la dirección del eje. La calidad de la representación es una medida relativa, ya que la suma de las calidades de la representación de cada elemento sobre todos los ejes factoriales es 1. El gráfico siguiente muestra una representación sobre tres ejes factoriales, donde se especifican los cosenos de los ángulos con los tres ejes que, como es sabido, su suma de cuadrados es la unidad.

La calidad de la representación con respecto a un plano se mide de la misma manera, es decir, como el coseno al cuadrado del ángulo que forman el vector y el plano. Este coseno al cuadrado es la suma de los cosenos al cuadrado de los ángulos con los ejes que forman el plano.

Por tanto, la calidad de la representación del elemento es una medida aditiva que puede calcularse para la proyección en cualquier plano factorial, sin más que sumar las calidades de representación con respecto a los ejes factoriales que lo forman.

5.

Definiciones básicas DATOS: Disponemos de una matriz Xnxp que contiene las medidas de p variables tomadas sobre n individuos. Para simplificar el resto de la exposición supondremos, sin pérdida de generalidad, que las columnas de X tienen media cero, es decir que se le ha restado la media. Todas las variables tienen el mismo papel, es decir, el conjunto no se divide en variables dependientes e independientes como en el caso de la regresión. DEFINICION: El Análisis de Componentes principales consiste en encontrar transformaciones ortogonales de las variables originales para conseguir un nuevo conjunto de variables incorreladas, denominadas Componentes Principales, que se obtienen en orden decreciente de importancia. 10

6.

Fases: 1. PREPARACIÓN DE LOS DATOS PARA EL ANÁLISIS Elección de las variables predictoras: Se seleccionan aquellas que resultan interesantes para el objetivo del estudio. Se suelen emplear todas. Estandarización de las variables: Para evitar la influencia de las unidades de medida en la ponderación de los componentes Eliminación de datos anómalos: Para evitar que se enmascaren relaciones existentes o se encuentren algunas inexistentes. 2. EXTRACCIÓN DE LAS COMPONENTES Criterios de selección del número de componentes principales 1er Componente: Se define como la combinación lineal de las variables originales que tienen V máxima: z1= xa1 con a1’a1=1. Al maximizarla su solución es a1 igual al vector propio de S y si λ1 es su valor propio, V(z1)= λ1. Por tanto, a1 (vector de coeficientes) es el vector propio de S asociado al mayor valor propio 2ª Componente: Se calcula max V(z1)+ V(z2), si z2 = xa2 y ||a1 ||=||a2 || =1. También a2 es un vector propio de S tal que λ2, su valor propio asociado es el 2º mayor de S. Se comprueba fácilmente que a1 y a2 están incorrelados. Generalización: Análogamente se puede calcular el espacio de dimensión r definido por los vectores propios asociados a los r mayores valores propios de S (Z=XA con A’A=I). Calcular los C.P. Equivale a aplicar una transformación ortogonal a X para obtener las nuevas, Z, incorreladas entre sí. Selección del número de factores. 1. Realizar un gráfico de valores propios frente a vectores propios. Seleccionar componentes hasta que los restantes tengan aproximadamente el mismo λi. 2. Seleccionar componentes hasta que se cubra una proporción determinada de varianza (80 o 90%). Se debe emplear con cuidado. 3. Desechar aquellos λi menores que la unidad (regla arbitraria). PROPIEDADES Conservan la variabilidad inicial. 11

La proporción de variabilidad explicada por un componente es

λh

∑ λi

.

Cov(zi; x1,..., xp)= λi ai. ρ (Zi , X j )=

λ i aij

√λ S i

=a ij 2 j

√ λi Sj

Las r C.P. proporcionan la predicción lineal óptima con r variables, del conjunto de variables X. Si estandarizamos los C.P. Se obtiene la estandarización multivariante de los datos originales. ANÁLISIS NORMADO Las C.P. se obtienen maxima la varianza de la proyección, cuando una v. tiene una varianza mucho mayor que las demás el 1er componente coincidirá aprox. con ésta v. Para evitar esto, conviene estandarizar las v. antes de calcular los componentes ⇒ los C.P. normados se obtienen calculando los vectores propios de R. Si las diferencias entre v. son informativas no debemos estandarizar. En caso de duda conviene realizar ambos análisis y quedarse con el más informativo. 3. INTERPRETACIÓN DE LOS RESULTADOS Numéricos y gráficos Cuando existe una alta correlación positiva entre todas las v., el 1er C.P. puede interpretarse como un factor global de tamaño, y los siguientes de forma (medias ponderadas de grupos contrapuestos por el signo). La interpretación mejora con las proyecciones de las observaciones sobre los planos definidos por las parejas de componentes más importantes. Si existen relaciones fuertes pero no lineales este análisis puede dar una información muy parcial.

Se minimizan los cuadrados de las distancias (d) al eje x’ El eje y´ se calcula ortogonal al x’ 4. VALIDACIÓN DE LOS RESULTADOS 12

Negativa: Introducción de modificaciones Positivo: Conclusión del análisis La validación de los componentes principales se realiza con un análisis de componentes de la varianza.

OTRAS ACTUACIONES 1. Antes de obtenerlos conviene asegurarse de que no hay atípicos que distorsionen la matriz S. 2. Pueden verse como un conjunto nuevo de variables y estudiarse sus distribuciones (e investigar relaciones no lineales) 3. Las C.P. generalizados constituyen componentes con v. adicionales (x 2 y xixj) que pueden detectar relaciones no lineales mediante λi próximos a 0. El inconveniente es que aumenta la dimensión. 7.

Planteamiento del problema. Supongamos que se dispone de p-variables en n elementos de una población dispuestos en una matriz X de dimensiones n×p, donde las columnas contienen las variables y las filas los elementos.

13

Supondremos en este capítulo que previamente hemos restado a cada variable su media, de manera que las variables de la matriz X tienen media cero y su matriz de covarianzas vendrá 1 X´X . dada por n El problema que se desea resolver es encontrar un espacio de dimensión más reducida que represente adecuadamente los datos. Puede abordarse desde tres perspectivas equivalentes. a) Enfoque descriptivo. Se desea encontrar un subespacio de dimensión menor que p tal que al proyectar sobre él los puntos conserven su estructura con la menor distorsión posible. Consideremos primero un subespacio de dimensión uno, una recta. Se desea que las proyecciones de los puntos sobre esta recta mantengan, lo más posible, sus posiciones relativas. Consideremos ahora el caso de dos dimensiones (p = 2). La Figura 5.1 indica el diagrama de dispersión y una recta que, intuitivamente, proporciona un buen resumen de los datos, ya que la recta pasa cerca de todos los puntos y las distancias entre ellos se mantienen aproximadamente en su proyección sobre la recta. La condición de que la recta pase cerca de la mayoría de los puntos puede concretarse exigiendo que las distancias entre los puntos originales y sus proyecciones sobre la recta sean lo más pequeñas posibles. En consecuencia, si consideramos un punto xi y una dirección a1 = (a11, ..., a1p)´, definida por un vector a1 de norma unidad, la proyección del punto xi sobre esta dirección es el escalar: z i=a11 x i 1+…+a1 p x ip =a´1 X i

(5.1)

y el vector que representa esta proyección será z i a 1 . Llamando ri a la distancia entre el punto xi, y su proyección sobre la dirección a1, este criterio implica: n

n

i=1

i=1

2

minimizar ∑ r 2i =∑|X i−z i a 1|

Donde |u| es la norma euclidea o modulo del vector u.

Figura 5.1 recta que minimiza las distancias ortogonales de los puntos a ella

14

La Figura 5.1 muestra que al proyectar cada punto sobre la recta se forma un triángulo rectángulo donde la hipotenusa es la distancia del punto al origen, ( X ´i X i )1 /2 , y los catetos la proyección del punto sobre la recta (zi) y la distancia entre el punto y su proyección (ri). Por el teorema de Pitágoras, podemos escribir: X ´i X i=z 2i +r 2i y sumando esta expresión para todos los puntos, se obtiene: n

n

n

i=1

i=1

i=1

∑ X ´i X i =∑ z 2i +∑ r 2i n

Como el primer miembro es constante, minimizar

∑ r 2i

, la suma de las distancias a la

i=1

n

recta de todos los puntos, es equivalente a maximizar

∑ z2i

, la suma al cuadrado de

i=1

los valores de las proyecciones. Como las proyecciones zi son, por (5.1) variables de media cero, maximizar la suma de sus cuadrados equivale a maximizar su varianza, y obtenemos el criterio de encontrar la dirección de proyección que maximice la varianza de los datos proyectados. Este resultado es intuitivo: la recta de la Figura 5.1 parece adecuada porque conserva lo más posible la variabilidad original de los puntos. El lector puede convencerse considerando una dirección de proyección perpendicular a la de la recta en esta figura: los puntos tendrían muy poca variabilidad y perderíamos la información sobre sus distancias en el espacio. Si en lugar de buscar la dirección que pasa cerca de los puntos buscamos la dirección tal que los puntos proyectados sobre ella conserven lo más posible sus distancias relativas llegamos al mismo criterio. En efecto, si llamamos d^ 2ij =X ´i X j a los cuadrados de las distancias originales entre los puntos y d^ 2ij =(z i− z j)2 a las distancias entre los puntos proyectados sobre una recta, deseamos que 2 2 d ij −d^ ij ( ¿¿) ∑¿ j

D=∑ ¿ i

sea mínima. Como la suma de las distancias originales es fija, minimizar D requiere ^2 maximizar ∑ ∑ dij , las distancias entre los puntos proyectados. Se demuestra en el i

j

Apéndice 5.1 que la dirección es la misma que proporciona una variable escalar de varianza máxima. b) Enfoque estadístico. Representar puntos p dimensionales con la mínima perdida de información en un espacio de dimensión uno es equivalente a sustituir las p variables originales por una nueva variable, z1, que resuma óptimamente la información. Esto supone que la nueva variable debe tener globalmente máxima correlación con las originales o, en otros términos, debe permitir prever las variables originales con la máxima precisión. Esto no será posible si la nueva variable toma un valor semejante en todos los elementos, y, se demuestra que la condición para que podamos prever con la 15

mínima perdida de información los datos observados, es utilizar la variable de máxima variabilidad. Volviendo a la Figura 5.1, se observa que la variable escalar obtenida al proyectar los puntos sobre la recta sirve para prever bien el conjunto de los datos. La recta indicada en la figura no es la línea de regresión de ninguna de las variables con respecto a la otra, que se obtienen minimizando las distancias verticales u horizontales, sino la que minimiza las distancias ortogonales o entre los puntos y la recta y se encuentra entre ambas rectas de regresión. Este enfoque puede extenderse para obtener el mejor subespacio resumen de los datos de dimensión 2. Para ello, calcularemos el plano que mejor aproxima a los puntos. El problema se reduce a encontrar una nueva dirección definida por un vector unitario, a 2, que, sin pérdida de generalidad, puede tomarse ortogonal a a 1, y que verifique la condición de que la proyección de un punto sobre este eje maximice las distancias entre los puntos proyectados. Estadísticamente esto equivale a encontrar una segunda variable z2, incorrelada con la anterior, y que tenga varianza máxima. En general, la componente zr(r < p) tendrá varianza máxima entre todas las combinaciones lineales de las p variables originales, con la condición de estar incorrelada con las z1, .. ., zr−1 previamente obtenidas. c) Enfoque geométrico. El problema puede abordarse desde un punto de vista geométrico con el mismo resultado final. Si consideramos la nube de puntos de la Figura 5.1 vemos que los puntos se sitúan siguiendo una elipse y podemos describirlos por su proyección en la dirección del eje mayor de la elipse. Puede demostrarse que este eje es la recta que minimiza las distancias ortogonales, con lo que volvemos al problema que ya hemos resuelto. En varias dimensiones tendremos elipsoides, y la mejor aproximación a los datos es la proporcionada por su proyección sobre el eje mayor del elipsoide. Intuitivamente la mejor aproximación en dos dimensiones es la proyección sobre el plano de los dos ejes mayores del elipsoide y así sucesivamente. Considerar los ejes del elipsoide como nuevas variables originales supone pasar de variables correladas a variables ortogonales o incorreladas como veremos a continuación. 8.

Obtención de la componentes principales La obtención de las CP puede realizarse por varios métodos alternativos: 1.- Buscando aquella combinación lineal de las variables que maximiza la variabilidad. (Hottelling). 2.- Buscando el subespacio de mejor ajuste por el método de los mínimos cuadrados. (Minimizando la suma de cuadrados de las distancias de cada punto al subespacio). (Pearson). 3.- Minimizando la discrepancia entre las distancias euclídeas entre los puntos calculadas en el espacio original y en el subespacio de baja dimensión. (Coordenadas principales, Gower). 4.- Mediante regresiones alternadas (métodos Biplot)

16

Calculo de los componentes En el análisis de componentes principales se dispone de una muestra de tamaño n acerca de p variables X1, X2,…, Xp (tipificadas, expresadas en desviaciones respecto a la media) inicialmente correlacionadas, para posteriormente obtener a partir de ellas un número k ≤ p variables incorrelacionadas Z1, Z2,…, Zp que sean combinación lineal de las variables iniciales y que expliquen la mayor parte de su variabilidad. En principio, podemos obtener tantas componentes como variables originales. X denotará el vector de variables originales e Y el de componentes. Calculo del primer componente principal. El primer componente principal se define como la combinación lineal de las variables originales que tiene varianza máxima. Los valores en este primer componente de los n individuos se representarán por un vector z1, dado por Z 1 i=u11 X 1i +u12 X 2 i+ … .+u1 p X pi

Para un conjunto de n observaciones, esta ecuación puede matricialmente expresarse como:

[ ][

][ ]

Z 11 X 11 X 21 . .. X p 1 u 11 Z12 = X 12 X 22 . .. X p 2 = u12 … … … Z1n X 1 n X 2n . .. X pn u1 p En notación abreviada:

Z 1= X u 1 Tanto si las Xj están tipificadas, como si están expresadas en desviaciones respecto a su media muestral, la media de Z1 es cero, esto es, E [ Z 1 ]=E ( X u 1) =E ( X ) ui=0 . Su varianza será: n

∑ Z 21i V ( Z 1 )=

i=1

n

[

]

1 ´ 1 ´ ´ ´ 1 ´ = z 1 z 1= u1 X X u1=u 1 X ´ X u1=u1 V u 1 n n n

Si las variables están expresadas en desviaciones respecto a la media, la expresión 1 X ´ X (matriz de inercia) es la matriz de varianzas covarianzas muestral a la que n 1 X ´ X es la matriz de denominaremos V (caso más general) y para variables tipificadas n correlaciones R. La primera componente z1 se obtiene de forma que su varianza sea máxima y sujeta a la restricción de que la suma de los pesos u1i al cuadrado sea igual a la unidad, es decir, la variable de los pesos ponderados ( u11 , u12 , … , u1 p )´ se toma normalizada. p

Se trata de hallar Z1 maximizando V(Z1)= u1´Vu1, sujeta a la restricción

∑ u21 i=u ´1 u1=1 j=1

Introduciremos esta restricción mediante el multiplicador de Lagrange: ´

´

L¿ u 1 V u1−λ (u1 u 1−1) y maximizaremos esta expresión de la forma habitual derivando respecto a los componentes de u1 e igualando a cero. 17

∂L =2 V u1−2 λ u1=0 → ( V −λI ) u1=0 ∂u 1 Se trata de un sistema homogéneo en u 1, que solo tiene solución si el determinante de la matriz de coeficientes es nulo, es decir |V − λI|=0 . Pero la expresión |V − λI|=0 es equivakente a decir que λ es un valor propio de la matriz V. En general la ecuación |V − λI|=0 mayor a menor λ1 > λ 2> … ¿ λn .

tiene n raíces

λ1 , λ2 , … λn que puede ordenarlas de

En la ecuación (V − λI )u i=0 podemos multiplicar por tiene u´1 (V − λI )u i=0 →u ´1 V ui=λ , entonces, V(Z1)= λ

´

u1

a la derecha, con lo que se

Por lo tanto, para maximizar V(Z1) ha de tomar el mayor valor propio Tomando

λ

de la matriz V.

λ1

como el mayor valor propio de V y tomando u1 como su vector propio u asociado normalizado ¿ ), ya que tenemos definido el vector de ponderaciones que se ¿ ¿ aplica a las variables iniciales para obtener la primera componente principal definida como: Z 1= X u 1

Ejemplo. Ilustración del cálculo de la primera componente principal. Los paquetes estadísticos (Minitab, SPSS, Statgraphics, etc.) proporcionan directamente los componentes principales. La matriz de varianzas y covarianzas en logaritmos, es:

[

0.35 0.15 −0.19 V = 0.15 0.13 −0.03 −0.19−0.03 0.16

]

Los valores propios son las raíces de la ecuación:

|V − λI|=¿

|[

] [ ]|

0.35 0.15 −0.19 λ 0 0 2 3 0.15 0.13 −0.03 − 0 λ 0 =0.000382−0.0628 λ+0.64 λ −λ =0 −0.19−0.030.16 00 λ

Las raíces de este polinomio, λ1=0.521, λ2=0.113, λ3=6.51×10−3. El vector propio asociado a λ1 nos da los pesos de la primera componente principal. Para calcularlo, resolvemos el sistema. V u 1=λ1 u1 que conduce a:

18

y el sistema es compatible indeterminado. Para encontrar una de las infinitas soluciones tomemos la primera variable como parámetro, x, y resolvamos el sistema en función de x. La solución es,

{a 11=x , a12=0.42 x , a13=−0.562 x } El valor de x se obtiene ahora imponiendo que el vector tenga norma unidad, con lo que resulta:

[ ]

−0.817 a1= −0.349 0.459

y el primer componente es Z 1=−0.817 X 1−0.349 X 2 +0.459 X 3 donde X1, X2 y X3 son las variables en logaritmos. Por ejemplo, el valor de esta nueva variable, la primera componente principal, para la primera observación (la primera acción) es, z 1=−0.817 xlog ( 3.4 )−0.349 xlog ( 89.7 )+ 0.459 xlog ( 30.2 )=−1.0049 El primer componente principal puede aproximadamente escribirse Z 1 ≅−0.82 X 1+ 0.35( X 3 −X 2 )+ 0.11 X 3 y utilizando la definición de las variables originales: Z 1 ≅−0.82 log ⁡( d / p)+0.35 log( p /d)+0.11 log ⁡( pN /b) es decir, Z 1 ≅−1.17 log ⁡( d / p)+0.11 log ⁡( pN /b) que indica que este primer componente depende básicamente de la variable X1, la rentabilidad por dividendos. Llamando z1 = log Z1 este primer componente puede escribirse también como z 1=

p1.27 N d 1.16 B

0.09

( )

que es, aproximadamente, de nuevo la variable x1, el cociente entre el precio de la acción y los dividendos recibidos. Esta variable es la que explica mejor la variabilidad conjunta de las acciones. Ejemplo Los datos de EPF de la encuesta de presupuestos familiares en España presentan los gastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como una provincia) en nueve epígrafes: X1 = alimentación, X2 = vestido y calzado, X3 = vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 = transportes, X7 = enseñanza y cultura, X8 = turismo y ocio, X 9 = otros gastos. La matriz de covarianzas resume la variabilidad de estas 9 variables en los 51 elementos observados.

19

Como las distribuciones de los gastos son muy asimétricas, las variables se han expresado en logaritmos. El vector propio asociado al mayor valor propio, 0.348, define la siguiente variable, primer componente principal: z 1=0.12 x 1 +0.18 x 2+ 0.30 x 3 +0.31 x 4 +0.46 x 5+ 0.34 x 6+ 0.50 x7 +0.31 x 8 +0.31 x 9

Se observa que z1 es una suma ponderada de todos los gastos, con mayor peso, de los gastos en enseñanza y cultura (x7) y sanitarios (x5). El menor peso lo tiene el gasto en alimentación (x1). Si calculamos los valores de z1 para las provincias españolas y las ordenamos por esta nueva variable las provincias quedan prácticamente ordenadas por su renta. La primera componente principal tiene, pues, en este caso, una explicación inmediata: redescubre la renta de cada provincia. Cálculo de la segunda componente principal. Al igual que las restantes, se expresa como una combinación lineal de las variables originales: Z 2 i=u 21 X 1 i+ u22 X 2i +… .+u 2 p X pi

Para un conjunto de n observaciones esta ecuación puede matricialmente expresarse como:

[ ][

][ ]

Z21 X 11 X 21 . .. X p 1 u21 Z22 = X 12 X 22 . .. X p 2 = u22 … … … Z2n X 1 n X 2n . .. X pn u2 p En notación abreviada:

Z 2= X u 2

Tanto si las Xj están tipificadas, como si están expresadas en desviaciones respecto a su media muestral, la media de Z2 es cero, esto es, E [ Z 2 ] =E ( X u 2) =E ( X ) u2=0 . Su varianza será: n

∑ Z 22i

V ( Z 2 )= i=1 n

[

]

1 1 1 = z ´2 z2 = u´2 X ´ X u2 =u´2 X ´ X u2=u ´2 V u2 n n n

La segunda componente z2 se obtiene de forma que su varianza sea máxima y sujeta a la restricción de que la suma de los pesos u2i al cuadrado sea igual a la unidad, es decir, la variable de los pesos ponderados ( u21 , u22 , … ,u 2 p )´ se toma normalizada. Por otra parte como Z1 y Z2 han de estar incorrelacionadas se tiene que: ´

´

´

´

´

0=E( Z2 Z 1 )=E(u 2 X ´ X u1 )=u2 E( X X )u 1=u2 V u1 También sabemos que V u 1=λ u1 (ya que u1 es el vector propio de V asociado a su mayor valor propio λ1 ). Si multiplicamos por u2´ a la derecha, obtenemos: ´

´

´

0=u2 V u1= λ1 u 2 u1=u 2 u1=0 20

Con lo que u1 y u2 son ortogonales. Se trata de hallar Z2 maximizando V(Z2)= u2´Vu2, sujeta a la restricción ´ u2 V u2 =0

u´2 u 2=1

y

Introduciremos esta restricción mediante el multiplicador de Lagrange: L¿ u ´2 V u2−2 μ(u´2 V u 1)− λ(u´2 u2−1) y maximizaremos esta expresión de la forma habitual derivando respecto a los componentes de u1 e igualando a cero. ∂L =2 V u2−2 μV u1 −2 λu 2=0 ∂u 2 Dividido por dos y premultiplicando por u1´ tenemos: u´1 V u2 −μ u ´1 V u1−λ u´1 u2=0 Como V u 1=λ1 u1 (ya que u1 es el vector propio de V asociado a su mayor valor propio λ1 ), entonces u´1 V =λ1 u´1 , podemos escribir la igualdad como: ´

´

λ u1 u2=μV [ Z 1 ]−u1 u2=0 pero: ´

u1 u 2=0 → μV [ Z1 ]=0→ μ=0 De donde: ∂L =2 V u2−2 λ u2=0→(V −λI )u2=0 ∂u 2 Se trata de un sistema homogéneo en u 2 que solo tiene solución si el determinante de la matriz de los coeficientes es nulo, es decir |V − λI|=0 . Pero la expresión |V − λI|=0 es equivalente a decir que λ es un valor propio de la matriz V. En general la ecuación |V − λI|=0 mayor a menor λ1 > λ 2> … ¿ λn .

tiene n raíces

λ1 , λ2 , … λn que puede ordenarlas de

En la ecuación (V − λI )u 2=0 podemos multiplicar por u´2 tiene u´2 (V − λI )u2=0 →u ´2 V u2=λ , entonces, V(Z2)= λ

a la derecha, con lo que se

Por lo tanto, para maximizar V(Z2) ha de tomar el mayor valor propio λ (el mayor ya lo había tomado al obtener la primera componente principal) Tomando

λ2

de la matriz V.

como el segundo mayor valor propio de V y tomando u2 como su vector u propio asociado normalizado ¿ ) , ya que tenemos definido el vector de ponderaciones ¿ ¿ que se aplica a las variables iniciales para obtener la segunda componente principal definida como: Z 2= X u 2 De forma similar, la componente principal h-esima se define como: Z h =X uh 21

Donde uh es el vector propio de V asociado a su h-esimo mayor valor propio. Suele denominarse también a uh eje factorial h-esimo. Ejemplo. El segundo componente principal para las variables de gastos de la EPF definidas en el Ejemplo 5.2 es el asociado al segundo valor propio mayor, que es 0,032. El vector propio asociado a este valor propio define la nueva variable:

Esta variable es aproximadamente la diferencia entre dos medias ponderadas de los gastos. La primera, da sobre todo peso a otros gastos (x9), y transporte (x6). En otros gastos están incluidas las transferencias fuera de la provincia a miembros de la familia mayores de 14 años que no residan en ella, podemos conjeturar que esta variable separa las provincias que reciben transferencias de las que las envían. Es también significativo que estas provincias tienen altos gastos en transporte. La primera media ponderada puede considerarse un indicador de cómo esta provincia envía recursos a otras. La segunda media da mayor peso a las variables enseñanza y cultura (x7) y gastos sanitarios (x5).

Figura 5.2. Proyeccion de los datos de la EPF sobre el plano definido por las dos primeras componentes principales. Este segundo componente va a separar a provincias que envian recursos a otras (alto valor de x9) y que tienen tambi´en altos gastos de transporte, respecto a las que transfieren relativamente poco y tienen altos gastos de educaci´on y sanidad. Las provincias con valores m´as altos de este componente son Zamora, Le´on, Lugo, Toledo, Huesca, L´erida, Segovia, Soria y Palencia. Estas provincias no han tenido tradicionalmente universidad, por lo que tienen que enviar los estudiantes fuera y tienen bajos costes de educaci´on. Por el contrario, las provincias con valores bajos de este componente z2 incluyen a Madrid y Barcelona, centros receptores netos de estudiantes de otras provincias, as´ı como a Salamanca, Zaragoza y Tenerife. La Tabla 5.1 presenta la ordenaci´on de las provincias seg´un el primer y segundo componente. La Figura 5.2 representa cada provincia en el plano de las dos primeras componentes principales. Cada punto aparece representado por sus coordenadas 22

respecto a los ejes definidos por las componentes principales y puede interpretarse como la proyecci´on de los puntos, que est´an en un espacio de dimensi´on 9, tantos como variables, sobre el plano que mejor mantiene sus distancias relativas, que es el definido por las dos primeras componentes. Tabla 5.1. Ordenación de las provincias de la EPF, seg´un los dos primeros componentes

Ejemplo. Generalización. Los restantes valores propios de la matriz de covarianzas de los datos de la EPF son 0.027, 0.0175, 0.0126, 0.0107, 0.010, 0.0059, y 0.00526. A partir del tercero son muy pequeños. El tercer componente principal es z3 = 0.12x1 + 0.05x2 + 0.34x3 + 0.11x4 − 0.85x5 + 0.04x6− 0.30x7 + 0.20x8 + 0.003x9 = (0.12x1 + 0.05x2 + 0.34x3 + 0.11x4 + 0.04x6 + 0.20x8)− (0.85x5 + 0.30x7) y puede de nuevo interpretarse como la diferencia entre dos medias ponderadas. La primera da sobre todo peso a las variables 3, vivienda, 8, turismo y ocio, 1, alimentación y 4, mobiliario doméstico. La segunda a la 5, gastos sanitarios, y a la 7, enseñanza y cultura. Separa provincias con bajos costes en sanidad y altos en vivienda y ocio de las que tengan la estructura opuesta. La Figura 5.3 representa las observaciones proyectadas sobre el plano de 23

las componentes primera y tercera. Se observa que la tercera dimensión es independiente de la primera (riqueza o renta) y separa provincias con altos gastos en sanidad, como Salamanca y Palencia, de otras con gastos relativamente bajos en esta magnitud y mayor en vivienda y ocio.

Figura 5.3. Representaci´on de los datos de la EPF em el plano definido por los componentes primero y tercero. Ejemplo. La Tabla 5.2 presenta la matriz de varianzas y covarianzas entre nueve indicadores economicos medidos en distintas empresas.

Los valores propios de esta matriz se presentan en la Tabla 5.3. Su suma es 1441.8, pr ´acticamente igual, salvo por errores de redondeo, a la suma de las varianzas de las variables, que es 1442. Ya veremos que esta concordancia ocurre siempre. Los vectores propios de los tres primeros componentes se indican en la Tabla 5.4. Se observa que el primer componente principal es una media ponderada de las primeras seis variables. El segundo contrapone la primera, la segunda y la cuarta a la tercera y la sexta. El tercer componente contrapone las tres primeras al resto de las variables. Estos resultados son consistentes con la matriz de la Tabla 5.2. El rasgo m´as caracter´ıstico de esta tabla es la distinta magnitud de las seis primeras variables respecto al resto. Esto lo recoge el primer componente principal. El segundo rasgo es la presencia de covarianzas negativas en las filas de las dos primeras variables y esto se recoge en el segundo componente. 24

El tercero incorpora por un lado las tres ´ultimas variables y, por otro, contrapone las tres primeras variables frente al resto.

Tabla 5.3. Autovalores de la matriz Tabla 5.2

VARIANZAS DE LAS COMPONENTES En el proceso de obtención de las componentes principales presentado en el apartado anterior hemos visto que la varianza de la componente h-ésima es: V ( Z h ) =u´h Vuh =λh Es decir, la varianza de cada componente es igual al valor propio de la matriz V al que va asociada. Si, como es lógico, la medida de la variabilidad de las variables originales es la suma de sus varianzas, dicha variabilidad será: p

∑ V ( X h) =traza(V ) h=1

ya que las varianzas de las variables son los términos que aparecen en la diagonal de la matriz de varianzas covarianzas V. Ahora bien, como V es una matriz real simétrica, por la teoría de diagonalización de matrices, existe una matriz ortogonal P (P -1=P’) tal que P’VP=D, siendo D diagonal con los valores propios de V ordenados de mayor a menor en la diagonal principal. Por lo tanto: p

traza ( P ´ VP )=traza ( D )=∑ λh h=1

Pero: traza ( P ´ VP )=traza ( VPP ´ )=traza ( V . I )=traza(V ) Con lo que ya podemos escribir:

25

Z V (¿¿ h) p

p

h=1

h=1

V ( X h ) =traza ( V )=traza ( P ´ VP )=traza ( D )=∑ λh=¿ ∑ ¿ p

∑¿ h=1

Hemos comprobado, además, que la suma de las varianzas de las variables (inercia total de la nube de puntos) es igual a la suma de las varianzas de las componentes principales e igual a la suma de los valores propios de la matriz de varianzas covarianzas muestral V. La proporción de la variabilidad total recogida por la componente principal h-ésima (porcentaje de inercia explicada por la componente principal h-ésima) vendrá dada por: λh p

=

∑ λh

λh traza(V )

h=1

Si las variables están tipificadas, V = R y traza(V) = traza(R) = p, con lo que la proporción de la componente h-ésima en la variabilidad total será λh/p. También se define el porcentaje de inercia explicada por las k primeras componentes principales (o ejes factoriales) como: k

k

∑ λh h=1 p

∑ λh

∑ λh =

h=1

traza(V )

h=1

ESTRUCTURA FACTORIAL DE LAS COMPONENTES PRINCIPALES Se denomina estructura factorial de las componentes principales a la matriz de correlaciones entre las componentes Zh y las variables originales Xj. Consideramos los vectores muestrales relativos a Zh y Xj respectivamente:

[][]

X j1 X j2 X j = . Z h= . . X jn

Xh1 Xh2 . . . X hn

La covarianza muestral entre Zh y Xj viene dada por: 1 ´ Cov ( X j , Z h )= X j Z h n El vector Xj se puede expresar en función de la matriz X utilizando el vector de orden p, al que denominamos por δ, que tiene un 1 en la posición j-ésima y 0 en las posiciones

26

restantes. La forma de expresar Xj en función de la matriz X a través del vector p es la siguiente:

Teniendo en cuenta que Zh = Xuh podemos escribir:

Por lo tanto, podemos escribir la correlación existente entre la variable X j y la componente Zh de la siguiente forma:

Si las variables originales están tipificadas, la correlación entre las variable Xj y la componente Zh es la siguiente:

PUNTUACIONES O MEDICIÓN DE LAS COMPONENTES El análisis en componentes principales es en muchas ocasiones un paso previo a otros análisis, en los que se sustituye el conjunto de variables originales por las componentes obtenidas. Por ejemplo, en el caso de estimación de modelos afectados de multicolinealidad o correlación serial (autocorrelación). Por ello, es necesario conocer los valores que toman las componentes en cada observación. Una vez calculados los coeficientes uhj (componentes del vector propio normalizado asociado al valor propio h-ésimo de la matriz V = X’X/n relativo a la componente principal Zh), se pueden obtener las puntuaciones Z hj, es decir, los valores de las componentes correspondientes a cada observación, a partir de la siguiente relación: Z hi =u h 1 X 1 i +uh 2 X 2 i+ … uhp X pi h=1 … p i=1 … n Si las componentes se dividen por su desviación típica se obtienen las componentes tipificadas. Por lo tanto, si llamamos Yh a la componente Zh tipificada tenemos:

27

La matriz formada por los coeficientes chi suele denominarse matriz de coeficientes de puntuaciones de los factores (factor score coefficient matrix). CONTRASTES SOBRE EL NÚMERO DE COMPONENTES PRINCIPALES A RETENER En general, el objetivo de la aplicación de las componentes principales es reducir las dimensiones de las variables originales, pasando de p variables originales a m

´λ= j=1 p

Si se utilizan variables tipificadas, entonces, como ya se ha visto, se verifica que p

∑ λ h= p

, con lo que para variables tipificadas se retiene aquellas componentes tales que

j=1

λh >1. Contraste sobre las raíces características no retenidas

28

Se puede considerar que, las p-m últimas raíces características poblacionales son iguales a 0. Si las raíces muestrales que observamos correspondientes a estas componentes no son exactamente igual a 0, se debe a los problemas del azar. Por ello, bajo el supuesto de que las variables originales siguen una distribución normal multivariante, se pueden formular las siguientes hipótesis relativas a las raíces características poblacionales: H 0 : λm +1=λm +2=…=λ p=0

El estadístico que se considera para contrastar esta hipótesis es el siguiente:

(

Q¿ = n−

)(

p

2 p+11 ( p−m) ln ´λ p−m− ∑ ln λ j 6 j=m+1

)

Bajo la hipótesis nula H0, el estadístico anterior se distribuye como una chicuadrado con (pm+2)(p-m+l)/2 grados de libertad. Este contraste se deriva del contraste de esfericidad de Barlett para la existencia o no de una relación significativa entre las variables analizadas que se utiliza en la validación del modelo de análisis multivariante de la varianza. Para ver la mecánica de la aplicación de este contraste, supongamos que inicialmente se han retenido m raíces características (por ejemplo, las que superan la unidad al aplicar el criterio de la media aritmética. En el caso de que se rechace la hipótesis nula H0, implica que una o más de las raíces características no retenidas es significativa. La decisión a tomar en ese caso sería retener una nueva componente, y aplicar de nuevo el contraste a las restantes raíces características. Este proceso continuaría hasta que no se rechace la hipótesis nula. Prueba de Anderson Si los valores propios, a partir del valor m+1, son iguales, no hay ejes principales a partir del eje m+1, en el sentido de que no hay direcciones de máxima variabilidad. La variabilidad en las últimas (n-m) dimensiones es esférica. Para decidir este hecho se debe testearse la hipótesis siguiente: H 0 : λm +1=λm +2=…=λ p=0 Si esta hipótesis es cierta, el estadístico:

2

χ =( n−1 )

p



j=m +1

ln λ j+ ( p−m ) (n−1)ln

(

p



j=m+1

ln λ j

( p−m )

)

sigue una distribucion chi-cuadrado con (p-m)(p-m+1)/2-1 grados de libertad, siempre y cuando el número de individuos n sea grande. Si para un m fijado, χ2 es significativo, debe rechazarse la hipótesis H0. λl, ..., λn representan los valores propios calculados sobre la matriz de covarianzas muestral. Esta prueba sólo es válida si las variables Xl, ..., Xn son normales con distribución conjunta normal. Prueba de Lebart y Fenelón Tanto esta prueba como las dos siguientes obedecen a una concepción más empírica que racional del problema. La formulación matemática de lo que pretenden demostrar está pobremente justificada en términos de inferencia estadística.

29

La idea general es la siguiente: a partir de una cierta dimensión (número de componentes a retener), la restante variabilidad explicada es debida a causas aleatorias (ruidos) que perturban la información contenida en la tabla de datos inicial. En esencia, este "ruido" es debido a fluctuaciones del muestreo (desviaciones de la normalidad, errores de medida, gradientes de dependencia entre los individuos, etc.). Asimilando el ruido a variables independientes, la significación de la dimensión m queda resuelta cuando la varianza explicada supera claramente a la varianza explicada por el ruido. La varianza explicada por las primeras m componentes viene expresada por Vm = λl + ...+ λm. La prueba de Lebart y Fenelon consiste en realizar k análisis sobre n variables independientes para un tamaño muestral n. Ordenando las varianzas explicadas en cada análisis tenemos que V im