4 Clustering.nc (1)
-
Upload
anibal-madueno -
Category
Documents
-
view
214 -
download
0
Transcript of 4 Clustering.nc (1)
-
8/3/2019 4 Clustering.nc (1)
1/76
Intelligent Databases and Information Systems research group
Department of Computer Science and Artificial IntelligenceE.T.S Ingeniera Informtica Universidad de Granada (Spain)
Mtodos de agrupamiento
Clustering Fernando Berzal
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
2/76
1
Analizador Numrico
Ejecutamos nc.bat:
Pinchamos sobre el botn Inicio y buscamos el ficherode configuracin necesario para acceder a nuestrosdatos (p.ej. Iris.cfg).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
3/76
2
Analizador Numrico
Ahora podemos utilizar distintas tcnicas deaprendizaje sobre nuestro conjunto de datos:
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
4/76
3
Analizador Numrico
Empezamos viendo algunas caractersticas delconjunto de datos (Datos > Estadsticas):
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
5/76
4
Analizador Numrico
Tambin podemos ver grficamente la distribucin delas muestras (Datos > Representacin 2D):
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
6/76
5
Analizador Numrico
Cuando nuestro conjunto de patrones viene dado porun conjunto de imgenes (como es el caso de Galaxyo Igaliko) podemos acceder a la representacin visualde cada dimensin (Datos > Estadsticas >Verimagen):
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
7/76
6
Mtodos de agrupamiento
ObjetivoAgrupar objetos similares entre s que sean distintos alos objetos de otros agrupamientos [clusters].
Aprendizaje no supervisadoNo existen clases predefinidas
Los resultados obtenidos dependern de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar
objetos.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
8/76
7
Mtodos de agrupamiento
Encontrar agrupamientos de tal forma que los objetosde un grupo sean similares entre s y diferentes de losobjetos de otros grupos:
Maximizardistancia
inter-clusterMinimizardistancia
intra-cluster
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
9/76
8
Usualmente, se expresan en trminos de distancias:
d(i,j) > d(i,k)
nos indica que el objeto i es ms parecido a k que a j
La definicin de la mtrica de similitud/distanciaser distinta en funcin del tipo de dato y
de la interpretacin semntica que nosotros hagamos.
En otras palabras, la similitud entre objetos essubjetiva.
Medidas de similitud
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
10/76
9
Medidas de similitud
Cuntosagrupamientos?
Cuatro?
Dos?
Seis?
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
11/76
10
Algoritmos de agrupamiento
Con nmero de clases desconocido Mtodo adaptativo Algoritmo de mxima distancia (Batchelor & Wilkins)
Con nmero de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA
Mtodos basados en grafos Algoritmo basado en la matriz de similitud
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
12/76
11
Algoritmo adaptativo
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
13/76
12
Algoritmo adaptativo
Caractersticas principales
Ventajas
til cuando no se conoce de antemano el nmero declases del problema (nmero de clusters desconocido). Simplicidad y eficiencia.
Desventajas Dependencia del orden de presentacin (comportamiento
sesgado por el orden de presentacin de los patrones). Presupone agrupamientos compactos separados
claramente de los dems (puede no funcionaradecuadamente en presencia de ruido).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
14/76
13
Algoritmo adaptativo
Funcionamiento
Inicializacin Se forma un agrupamiento con el primer patrn del
conjunto de datos.
Mientras queden patrones por asignar El patrn se asigna a un cluster si la distancia del patrn
al centroide del cluster no supera un umbral . En caso contrario, se crea un nuevo agrupamiento
si la distancia del patrn al cluster ms cercano est porencima de .
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
15/76
14
Algoritmo adaptativo
Funcionamiento
Este algoritmo incluye una clase de rechazo:Algunas observaciones no son clasificadas.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
16/76
15
Algoritmo adaptativo
Ejemplo
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
17/76
16
Algoritmo adaptativo
Ejemplo
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
18/76
17
Algoritmo adaptativo
Ejemplo
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
19/76
18
Algoritmo adaptativo
Parmetros
Umbral de distancia Umbral de distancia utilizado para crear nuevos
agrupamientos.
Fraccin Fraccin del umbral de distancia que determina total
confianza (utilizada para determinar si un patrn se leasigna a un cluster o no).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
20/76
19
Algoritmo adaptativo
ResultadosGalaxia en espiral
El parmetro fundamental a la hora de conseguir un buen resultado esel umbral . Cuanto mayor sea este umbral, menos agrupamientos se
formarn. El parmetro influye menos.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
21/76
20
Algoritmo adaptativo
Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quepermiten obtener un porcentaje de clasificacin mayor(bondad estimada del clasificadorque aparece cuando
pulsamos el botnClasificador asociado).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
22/76
21
Batchelor & Wilkins
Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quereducen la dispersin media (esto es, la distancia mediade un patrn al centroide de su cluster) sin afectar
demasiado a la bondad del clasificador asociado niincrementar en exceso el nmero de agrupamientos.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
23/76
22
Batchelor & Wilkins
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
24/76
23
Batchelor & Wilkins
Caractersticas principales
Ventajas
til cuando no se conoce de antemano el nmero declases del problema (nmero de clusters desconocido). Un nico parmetro.
Desventajas Sensibilidad al valor del parmetro.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
25/76
24
Batchelor & Wilkins
Funcionamiento
Primer agrupamiento:Patrn escogido al azar.
Segundo agrupamiento:Patrn ms alejado del primer agrupamiento .
Mientras se creen nuevos agrupamientos, obtener elpatrn ms alejado de los agrupamientos existentes(mximo de las distancias mnimas de los patrones a los
agrupamientos). Si la distancia del patrn escogido alconjunto de agrupamientos es mayor que una fraccin fde la distancia media entre los agrupamientos, crear unagrupamiento con el patrn seleccionado.
Asignar cada patrn a su agrupamiento ms cercano.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
26/76
25
Batchelor & Wilkins
Ejemplo (f=0.5)
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
27/76
26
Batchelor & Wilkins
Ejemplo (f=0.5)
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
28/76
27
Batchelor & Wilkins
Ejemplo (f=0.5)
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
29/76
28
Batchelor & Wilkins
Ejemplo (f=0.5)
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
30/76
29
Batchelor & Wilkins
Parmetros
Fraccin f Fraccin de la distancia media entre los agrupamientos
existentes (utilizada para determinar si se crea o no unnuevo agrupamiento).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
31/76
30
Batchelor & Wilkins
ResultadosGalaxia en espiral
Conforme aumenta el valor de f, disminuye el nmero de agrupamientos
hasta llega un momento en el que nos quedamos slo con 2 clusters.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
32/76
31
Batchelor & Wilkins
Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quepermiten obtener un porcentaje de clasificacin mayor ala vez que minimizan el nmero de clusters (idealmente,
slo tres agrupamientos deberan ser necesarios).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
33/76
32
k-Means
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
34/76
33
k-Means
Caractersticas principales
El mtodo de las K Medias (MacQueen, 1967)
Ventajas Sencillo y eficiente. Un nico parmetro.
Desventajas Sesgado por el orden de presentacin de los patrones
(el resultado depende de la configuracin inicial de losagrupamientos).
Necesidad de conocer el nmero de clusters k:Su comportamiento depende enormemente del valor
elegido para el parmetro k.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
35/76
34
k-Means
Funcionamiento
Cada cluster tiene asociado un centroide(centro geomtrico del cluster).
Los puntos se asignan al cluster cuyo centroide est mscerca (utilizando cualquier mtrica de distancia).
Iterativamente, se van actualizando los centroides enfuncin de las asignaciones de puntos a clusters, hastaque los centroides dejen de cambiar.
BASE TERICA: Algoritmo basado en la minimizacin de ladistancia interna (suma de las distancias de los patronesasignados a un agrupamiento a su centroide). Enrealidad, se minimiza la suma de las distancias alcuadrado de cada patrn al centroide de su cluster.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
36/76
35
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 6
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
37/76
36
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 6
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
38/76
37
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
39/76
38
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
40/76
39
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
ptimo local
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Solucin ptima
Puntos originales
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
41/76
40
k-Means
Clusters dedistinto tamao
Clusters dedistinta densidad
Clustersno convexos
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
42/76
41
k-Means
Variantes
GRASP [Greedy Randomized Adaptive Search Procedure]para evitar ptimos locales.
k-Modes(Huang1998) utiliza modas en vez de medias(para poder trabajar con atributos de tipo categrico).
k-Medoids utiliza medianas en vez de medias para
limitar la influencia de los outliers
vg. PAM (Partitioning Around Medoids, 1987)CLARA (Clustering LARge Applications, 1990)
CLARANS (CLARA + Randomized Search, 1994)
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
43/76
42
k-Means
Parmetros
K Nmero deseado de agrupamientos.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
44/76
43
GRASP
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
45/76
44
GRASP
Caractersticas principales
Greedy Randomized Adaptive Search Procedure
Ventajas Sencillo y eficiente. Evita caer en ptimos locales.
Desventajas Necesidad de conocer el nmero de clusters k:
Su comportamiento depende enormemente del valorelegido para el parmetro k.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
46/76
45
GRASP
Funcionamiento
Se repite el siguiente procesoun nmero determinado de iteraciones
Se busca una posible solucin (centroides escogidosaleatoriamente de entre aquellos patrones que estnms lejos de los centroides ya escogidos).
Se aplica una tcnica de optimizacin local (k-Means)para obtener un conjunto de agrupamientos.
Opcionalmente, se puede alterar aleatoriamente elresultado obtenido [mutacin] y repetir la bsquedade un ptimo local con la solucin mutada.
De todas las soluciones obtenidas, nos quedamos con lamejor (aquella que minimiza la suma de las distancias alcuadrado de cada patrn al centroide de su cluster).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
47/76
46
GRASP
Parmetros
K Nmero deseado de agrupamientos.
Iteraciones Nmero de iteraciones.
Longitud de ciclo Nmero de mutaciones por iteracin.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
48/76
47
GRASP
Resultados: TITANIC (K=5, sin mutacin)
5 particiones del conjunto de datos J: Suma de las distancias al cuadrado. %TRA: Acierto sobre el conjunto de entrenamiento. %TST: Acierto sobre el conjunto de prueba.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
49/76
48
GRASP
Resultados: TITANIC
Distribucin de J
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
50/76
49
Algoritmo secuencial
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
51/76
50
Algoritmo secuencial
Caractersticas principales
Ventajas Flexibilidad: Su comportamiento puede ajustarse
gracias a su amplio conjunto de parmetros. Eficiencia: Clculos muy sencillos, basta con recorrer
una vez el conjunto de datos.
Desventajas Utilizacin: Los valores adecuados para los parmetros
son difciles de establecer a priori, por lo que se sueleemplear un proceso de prueba y error.
Sesgado por los primeros patrones: Los resultadosobtenidos dependen del orden de presentacin de lospatrones.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
52/76
51
Algoritmo secuencial
Funcionamiento
Similar al K-Means, si bien introduce algunas novedades
El parmetro K se considera un valor mximo (puededevolver un nmero de agrupamientos menor).
Partiendo de un nico agrupamiento, se van creandonuevos agrupamientos conforme se procesan nuevos
patrones secuencialmente (algoritmo incremental).
Los patrones se procesan secuencialmente por lotes.Al final de cada lote, se evalan los agrupamientosobtenidos y se reduce su nmero.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
53/76
52
Algoritmo secuencial
Funcionamiento: Creacin de agrupamientos
Se selecciona arbitrariamente el centro del primeragrupamiento.
Posteriormente, se procesan secuencialmente los demspatrones: Se calcula la distancia del patrn actual al
agrupamiento ms cercano (a su centroide).
Si sta es menor o igual a R se asigna el patrn a suagrupamiento ms cercano. En caso contrario, se crea un nuevo agrupamiento con
el patrn actual.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
54/76
53
Algoritmo secuencial
Funcionamiento: Mezcla de agrupamientos
Cada M patrones, se mezclan agrupamientos1. Mezcla por cercana (se mezclan dos agrupamientos si la
distancia entre ellos es menor que C).2. Mezcla por tamao: Si, tras la mezcla por cercana,
quedan ms agrupamientos que los deseados por elusuario (K), se mezclan los agrupamientos de menos delT% de M miembros con sus clusters ms cercanos.
3. Mezcla forzada: Si an quedan demasiadosagrupamientos, se mezclan los agrupamientos mscercanos hasta obtener el nmero deseado K.El proceso de mezcla nos asegura que al final obtenemos el nmerodeseado de agrupamientos y no ms (como suele suceder en elmtodo adaptativo o en el algoritmo de Batchelor y Wilkins).
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
55/76
54
Algoritmo secuencial
Parmetros
K Nmero deseado de agrupamientos.
R Umbral de distancia para crear agrupamientos.C Umbral de distancia para mezclar agrupamientos.M Longitud del lote
(patrones procesados entre procesos de mezcla)T Umbral para la eliminacin de agrupamientos
(% sobre M)
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
56/76
55
Algoritmo ISODATA
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
57/76
56
Algoritmo ISODATA
Caractersticas principales
Iterative Self-Organizing Data Analysis Techniques
Ventajas Flexibilidad: Su comportamiento puede ajustarse
gracias a su amplio conjunto de parmetros. No est sesgado por el orden de presentacin de los
patrones.
Desventajas Utilizacin: Los valores adecuados para los parmetros
son difciles de establecer a priori, por lo que se sueleemplear un proceso de prueba y error.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
58/76
57
Algoritmo ISODATA
Funcionamiento
Similar al K-Means,si bien incorpora heursticas con tres objetivos:
Eliminar agrupamientos poco numerosos.
Mezclar agrupamientos cercanos.
Dividir agrupamientos dispersos.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
59/76
58
Algoritmo ISODATA
Funcionamiento
Inicialmente se seleccionan los centros de A agrupamientos.
En cada iteracin Se asigna cada patrn al cluster ms cercano. Se eliminan los agrupamientos de menos de N patrones. Si el nmero de agrupamientos es pequeo ( K/2), se
dividen los agrupamientos ms dispersos. En las iteraciones pares o cuando el nmero de
agrupamientos es elevado (>2K), mezclamos un mximode L pares de agrupamientos cercanos.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
60/76
59
Algoritmo ISODATA
ParmetrosK Nmero deseado
de agrupamientosA Nmero inicial
de agrupamientosN Umbral del nmerode patrones para laeliminacin deagrupamientos
s Umbral de desviacin tpicapara la divisin de un agrupamientoc Umbral de distancia
para la unin de agrupamientosL Mximo nmero de mezclas en una iteracin
I Mximo nmero de iteraciones permitidas
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
61/76
60
Mtodos basados en grafos
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
62/76
61
Mtodos basados en grafos
Caractersticas principalesp.ej. Agrupamiento basado en la matriz de similitud
Ventajas
A diferencia de los mtodos heursticos,no dependen del orden en que se presentan los patrones.
Desventajas
Su coste computacional los hace inviablesen muchas ocasiones.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
63/76
62
Mtodos basados en grafos
Matriz de similitudMatriz cuadrada que representa la similitudentre cualquier pareja de patrones.
Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) umbral
Agrupamiento basado en la matriz de similitud:
Se selecciona la fila i que contenga ms unos. Se crea un agrupamiento con los patrones j tales que Sij=1 Se aaden al agrupamiento todos aquellos patrones k
tales que Sjk= 1, donde j es un patrn ya incluido enel nuevo agrupamiento, hasta que no se puedan
aadir ms patrones a dicho agrupamiento.
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
64/76
63
Mtodos basados en grafos
Matriz de similitud
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
65/76
64
Mtodos basados en grafos
Matriz de similitud:Variacin del umbral
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
66/76
65
Mtodos basados en grafos
Parmetros
Umbral de distanciautilizado para la construccin de la matriz de similitud
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
67/76
66
Mtodos basados en grafos
Resultados
Galaxia en espiral
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
68/76
67
Mtodos basados en grafos
Resultados
Galaxia en espiral
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
69/76
68
Mtodos basados en grafos
Resultados
Galaxia en espiral
Se mejora en precisinpero se pierde una clase
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
70/76
69
Mtodos basados en grafos
Alternativa: Clustering jerrquico divisivo
rbol generador minimal
V lid i
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
71/76
70
Validacin
Cmo se puede evaluarla calidad de los clusters obtenidos?
Depende de lo que estemos buscando
Hay situaciones en las que nos interesa: Evitar descubrir clusters donde slo hay ruido. Comparar dos conjuntos de clusters alternativos. Comparar dos tcnicas de agrupamiento
V lid i
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
72/76
71
Validacin
Criterios externos(aportando informacin adicional)
p.ej. entropa/pureza (como en clasificacin)
Criterios internos(a partir de los propios datos),
p.ej. SSE(Sum of Squared Error)
para comparar clusters para estimar el nmero de clusters K
Otras medidas:cohesin, separacin, coeficientes de silueta
V lid i
http://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
73/76
72
Validacin
Matriz de similitudOrdenamos los datos en la matriz de similitud conrespecto a los clusters en los que quedan los datos einspeccionamos visualmente
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
y
Points
Points
20 40 60 80 100
10
20
30
40
50
60
70
80
90
100Similarity
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
V lid i
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
74/76
73
Validacin
0 0.2 0.4 0.6 0.8 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
y
Points
Points
20 40 60 80 100
10
20
30
40
50
60
70
80
90
100Similarity
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Matriz de similitudClusters en datos aleatorios(DBSCAN y k-Means)
Points
Points
20 40 60 80 100
10
20
30
40
50
60
70
80
90
100Similarity
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
V lid i
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
75/76
74
Validacin
Matriz de similitudDBSCAN
1
2
3
5
6
4
7
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
500 1000 1500 2000 2500 3000
500
1000
1500
2000
2500
3000
C dit
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html -
8/3/2019 4 Clustering.nc (1)
76/76
Crditos
Francisco J. Cortijo Bon: Apuntes de Reconocimientode Formas, Universidad de Granada, 1999
Jiawei Han: Data Mining: Concepts and Techniques,captulo 7, 2006
Pang-Ning Tan (Michigan State University), MichaelSteinbach & Vipin Kumar (University of Minnesota):Introduction to Data Mining, captulos 8 y 9, 2006
http://elvex.ugr.es/software/nc/an.html