Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones El algoritmo EM y ap
Views 66 Downloads 1 File size 291KB
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
El algoritmo EM y aplicaciones Jos´e Alberto Hern´andez email: [email protected]
Julio, 2006
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Contenido
I
Introducci´on: M´axima verosimilitud
I
Mixturas de distribuciones de probabilidad
I
Algoritmo EM
I
Caracterizaci´on de tr´afico y retardo en Internet
I
Mixturas de distribuciones Weibull
I
Conclusiones
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
La fuente
I
Dempster et. al.: Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 39(1):1–38. 1977.
I
Seg´ un Google scholar: 7310 citas.
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
M´axima verosimilitud I
Definici´on del problema de estimaci´on de los par´ametros de una distribuci´on.
I
Sea X = {x1 , x2 , . . . , xN } una muestra que pensamos que se distribuye seg´ un una distribuci´on de probabilidad p(x|Θ) con par´ametros Θ.
Estimaci´on Encontrar los par´ametros Θ∗ o´ptimos, es decir, que m´as se ajustan a la muestra. I
I I
La funci´on de Q verosimilitud de los par´ametros dada la muestra es: L(Θ|X ) = N i=1 p(xi |Θ). Entonces: Θ∗ = arg m´axΘ L(Θ|X ).
Se consigue derivando e igualando a cero: J. A. Hern´ andez
∂ ∂Θ
log L(Θ|X ) = 0.
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Ejemplo: Distribuci´on exponencial
I I I
Dist. exponencial: p(x|λ) = λe −λx ,
Θ=λ
Data la muestra x = {x1 , . . . , xN } Q −λxi L(λ|x) = N i=1 λe log L(λ|x) =
N X i=1
N X log λe −λxi = N log λ − λ xi i=1
N
1 X ∂ xi = 0 log L(λ|X ) = N − ∂λ λ
⇒
ˆ MV = λ
i=1
J. A. Hern´ andez
El algoritmo EM y aplicaciones
N 1 X xi N i=1
!−1
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Mixturas de distribuciones (1)
I
I
Qu´e ocurre si la muestra x proviene de una combinaci´on de multiples distribuciones, en lugar de una sola? Mixtura Combinaci´on ponderada de distribuciones de probabilidad. p(x|Θ) =
M X
qj pj (x|θj ),
Θ = {qj , θj }
j=1
J. A. Hern´ andez
X j
El algoritmo EM y aplicaciones
qj = 1
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Mixturas de distribuciones (2)
Example: data sample histogram 0.4
PDF
0.3
0.2
0.1
0 −5
0
5 x
J. A. Hern´ andez
El algoritmo EM y aplicaciones
10
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Mixturas de distribuciones (2)
Example: Single gaussian match 0.4
PDF
0.3
0.2
0.1
0 −5
0
5 x
J. A. Hern´ andez
El algoritmo EM y aplicaciones
10
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Mixturas de distribuciones (2)
Example: mixture of M=2 gaussians 0.4 q1=0.7, µ1=0, σ1=1 q1=0.3, µ1=2, σ2=3
PDF
0.3
Mixture Histogram
0.2
0.1
0 −5
0
5 x
J. A. Hern´ andez
El algoritmo EM y aplicaciones
10
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Mixturas de distribuciones (3)
I
Aplicando m´axima verosimilitud: M M N N X X Y X qj pj (xi |θj ) = qj pj (xi |θj ) log log L(Θ|x) = log i=1
j=1
i=1
∂ log L(Θ|x) = 0 ∂Θ No se puede resolver anal´ıticamente!!
J. A. Hern´ andez
El algoritmo EM y aplicaciones
j=1
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Soluci´on: Algoritmo EM Definici´on El algoritmo EM (Expectation Maximisation) es un m´etodo general para encontrar el estimador de m´axima verosimilitud de los par´ametros de una distribuci´on de probabilidad, especialmente u ´til cuando parte de la informaci´on est´a oculta. I
Supondremos un conjunto de datos Z = (X , Y ), donde los datos X son visibles, pero los datos Y est´an ocultos. p(z|Θ) = p(x, y |Θ) = p(x|y , Θ)p(y |Θ)
I
C´omo calculamos L(Θ|Z ) = L(Θ|X , Y ) si no conocemos Y ? J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Soluci´on: Algoritmo EM (2)
I
No conocemos la Y de L(Θ|X , Y ), as´ı que la supondremos como variable aleatoria y calculamos una media:
g
Q(Θ, Θ ) = I
Z
log L(Θ|X , y )p(y |X , Θg )dy = E [log p(x, y |Θ)|X , Θg ] y
Θg son unos par´ametros propuestos.
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
EM en dos pasos: I
Para encontrar los par´ametros o´ptimos Θ∗ a partir de L(Θ|X , Y ), hay que proceder en dos pasos: I
Paso E (Expectation): Calcular la esperanza de la verosimilitud con respecto a la informaci´on conocida y unos par´ametros propuestos Θ(t) cualesquiera: Q(Θ, Θ(t) ) = E [log p(x, y |Θ)|X , Θ(t) ]
I
Paso M (Maximization): Maximizar Q con respecto a los par´ametros: Θ(t+1) = arg m´ax Q(Θ, Θ(t) ) Θ
I
Repetir E y M de forma iterativa hasta alcanzar convergencia. J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Mixturas: Aplicaci´on de EM I I
I
P Recordamos: p(x|Θ) = M j=1 qj p(x|θj ) Introducimos etiquetas ocultas: yi asociados a los valores conocidos de la muestra xi tales que: p(yi = j|xi , Θ) representa la probabilidad de que xi pertenezca a la componente j de la mixtura. Evidentemente: I I
I
p(xi |yi = j, Θ) = p(xi |θj ) p(yi = j|Θ) = qj
Con esta nueva formulaci´on: M M X X p(x|Θ) = p(x, y = j|Θ) = p(x|y = j, Θ)p(y = j|Θ) j=1
=
M X
j=1
qj p(x|θj )
j=1
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Desarrollando EM: I
p(x, y |Θ) = qy p(x|θy ) I I
I
I
E-step: Q(Θ, Θ(t) ) = E [log L(Θ|x, y )|x, Θ(t) ] M-step: Θ(t+1) = arg m´axΘ Q(Θ, Θ(t) )
Expandiendo el paso E: PM PN (t) Q(Θ, Θ(t) ) = i=1 log p(xi |θj ) p(yi = j|xi , Θ ) + j=1 PM PN (t) + j=1 i=1 log qj p(yi = j|xi , Θ ) Maximizando (paso M):
∂Q(Θ, Θ(t) ) =0 ∂qj J. A. Hern´ andez
∂Q(Θ, Θ(t) ) =0 ∂θj El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Caracterizaci´on de tr´afico y retardos (1)
I
< 1990s: Se utilizaban modelos Poissonianos para modelar el tr´afico en Internet, muy al estilo de los modelos de telefon´ıa.
I
Principios 1990s: Experimentos con medidas de tr´afico reales muestran que los modelos Poissonianos no son adecuados, debido al car´acter “rafagoso” del tr´afico.
I
Mediados 1990s: Se empiezan a utilizar modelos de “caja negra”, tales como: fBm, fARIMA, etc.
I
Mediados-finales 1990s: Aparecen los modelos estructurales.
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Caracterizaci´on de tr´afico y retardos (2) I
I
Leland et. al.1 son los primeros en introducir los conceptos de auto-semejanza y dependencia a largo plazo en el tr´afico. Sus resultados emp´ıricos con medidas de tr´afico Ethernet tambi´en son observados en otros escenarios: tr´afico WAN 2 , tr´afico de v´ıdeo VBR3 y el web4 .
1
Leland, W. E. et al: “On the self-similar nature of Ethernet traffic (extended version)”, in IEEE/ACM Trans. Networking, 1994 2 Paxson, V. et al: ”Wide Area traffic: the failure of Poisson modeling”, in IEEE/ACM Trans. Networking, 1995 3 Beran, J. et al: ”Long-range dependence in variable-bit-rate video traffic”, in IEEE Trans. Communications, 1995 4 Crovella, M. E. et al: ”Self-similarity in world wide web traffic: evidence and possible causes”, in IEEE/ACM Trans. Networking, 1997 J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Caracterizaci´on de tr´afico y retardos (3) I
I
I
I
Es necesario utilizar modelos que presenten las caracter´ısticas observadas en los experimentos. Por ejemplo: fBM5 , fARIMA6 , etc. Cuando se introduce tr´afico fBm o fARIMA en un router, la distribuci´on de la cola es de cola pesada, y puede ser aproximada por una distribuci´on de probabilidad Weibull7 . Tal resultado se ha comprobado emp´ıricamente en un router de backbone8 ... ... y tambi´en en un escenario extremo-extremo.
5
Norros, I.: ”On the use of fractional Brownian motion in the theory of connectionless networks”, in IEEE JSAC, 1995 6 L´ opez-Ardao, J. C. et al: ”On the use of self-similar processes in network simulation”, in ACM TOMACS, 2000 7 Norros, I.: ”A storage model with self-similar input”, in Queueing Systems, 1994 8
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
La distribuci´on Weibull
The Weibull distribution 0.01 r=4 fixed
p(x|r,s)
0.008 0.006
I
0.004 0.002 0
0
1
2
3
4
5 x
6
7
8
9
10
0.02
x s r )
I
r est´a relacionado con el m´aximo.
I
s est´a relacionado con la ca´ıda de la cola.
s=4 fixed 0.015 p(x|r,s)
p(x|r , s) = sx s−1 r s exp(−
0.01
0.005
0
0
1
2
3
4
5 x
6
7
8
9
J. A. Hern´ andez
10
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
EM para mixturas de Weibulls
I
I
Expandiendo el paso E: PM PN (t) Q(Θ, Θ(t) ) = j=1 i=1 log p(xi |θj ) p(yi = j|xi , Θ ) + PM PN (t) + j=1 i=1 log qj p(yi = j|xi , Θ ) Maximizando (paso M): ∂Q(Θ, Θ(t) ) = 0, ∂qj
∂Q(Θ,Θ(t) ) ∂rj
J. A. Hern´ andez
= 0,
∂Q(Θ, Θ(t) ) =0 ∂sj
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Aplicaci´on a mixturas de distribuciones Weibull
1. Obteniendo par´ametros: P p(yi = j|xi , Θ) qj = N1 N 1/sj PN i=1sj x p(y i =j|xi ,Θ) rj = Pi=1N i p(yi =j|xi ,Θ) i=1 P N i=1 p(yi =j|xi ,Θ)
sj =
PN
i=1
sj i sj r j
x
−1 log
xi rj
2. Actualizando las etiquetas oculta p(yi = j|xi , Θ) =
qj p(xi |θj ) PM k=1 qk p(xi |θk )
p(yi =j|xi ,Θ)
Cuadro: Resumen de EM para mixturas de distribuciones Weibull.
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Resultados
Animaci´on MATLAB
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Conclusiones (1)
I
Una mixtura de distribuciones Weibull caracterizan bastante bien el retardo extremo-extremo en los paquetes.
I
Los par´ametros de la mixtura se pueden obtener f´acilmente mediante el algoritmo EM.
I
Adem´as, los par´ametros de la mixtura son representativos de caracter´ısticas importantes de la red: retardo medio (par´ametro r ), comportamiento de la cola (par´ametro s).
I
Mediante el estudio de la evoluci´on de los par´ametros en el tiempo se pueden detectar anomal´ıas en la red: cambios de routing, sobrecarga, etc.
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Conclusiones (2)
I
EM se utiliza en muchos otros problemas: I I I
I
HMM (Hidden Markov Models) Clustering, Pattern Recognition etc.
Problema: “Curse of dimensionality”.
J. A. Hern´ andez
El algoritmo EM y aplicaciones
Introducci´ on Algoritmo EM Soluci´ on EM para mixturas Caracterizaci´ on de retardos Conclusiones
Preguntas
Gracias por su atenci´on
J. A. Hern´ andez
El algoritmo EM y aplicaciones