4 Clustering.nc (1)

8/3/2019 4 Clustering.nc (1)

1/76

Intelligent Databases and Information Systems research group

Department of Computer Science and Artificial IntelligenceE.T.S Ingeniera Informtica Universidad de Granada (Spain)

Mtodos de agrupamiento

Clustering Fernando Berzal
http://elvex.ugr.es/software/nc/an.html


2/76

1

Analizador Numrico

Ejecutamos nc.bat:

Pinchamos sobre el botn Inicio y buscamos el ficherode configuracin necesario para acceder a nuestrosdatos (p.ej. Iris.cfg).


3/76

2

Analizador Numrico

Ahora podemos utilizar distintas tcnicas deaprendizaje sobre nuestro conjunto de datos:


4/76

3

Analizador Numrico

Empezamos viendo algunas caractersticas delconjunto de datos (Datos > Estadsticas):


5/76

4

Analizador Numrico

Tambin podemos ver grficamente la distribucin delas muestras (Datos > Representacin 2D):


6/76

5

Analizador Numrico

Cuando nuestro conjunto de patrones viene dado porun conjunto de imgenes (como es el caso de Galaxyo Igaliko) podemos acceder a la representacin visualde cada dimensin (Datos > Estadsticas >Verimagen):


7/76

6


ObjetivoAgrupar objetos similares entre s que sean distintos alos objetos de otros agrupamientos [clusters].

Aprendizaje no supervisadoNo existen clases predefinidas

Los resultados obtenidos dependern de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar

objetos.


8/76

7


Encontrar agrupamientos de tal forma que los objetosde un grupo sean similares entre s y diferentes de losobjetos de otros grupos:

Maximizardistancia

inter-clusterMinimizardistancia

intra-cluster


9/76

8

Usualmente, se expresan en trminos de distancias:

d(i,j) > d(i,k)

nos indica que el objeto i es ms parecido a k que a j

La definicin de la mtrica de similitud/distanciaser distinta en funcin del tipo de dato y

de la interpretacin semntica que nosotros hagamos.

En otras palabras, la similitud entre objetos essubjetiva.

Medidas de similitud


10/76

9

Medidas de similitud

Cuntosagrupamientos?

Cuatro?

Dos?

Seis?


11/76

10

Algoritmos de agrupamiento

Con nmero de clases desconocido Mtodo adaptativo Algoritmo de mxima distancia (Batchelor & Wilkins)

Con nmero de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA

Mtodos basados en grafos Algoritmo basado en la matriz de similitud


12/76

11

Algoritmo adaptativo


13/76

12


Caractersticas principales

Ventajas

til cuando no se conoce de antemano el nmero declases del problema (nmero de clusters desconocido). Simplicidad y eficiencia.

Desventajas Dependencia del orden de presentacin (comportamiento

sesgado por el orden de presentacin de los patrones). Presupone agrupamientos compactos separados

claramente de los dems (puede no funcionaradecuadamente en presencia de ruido).


14/76

13


Funcionamiento

Inicializacin Se forma un agrupamiento con el primer patrn del

conjunto de datos.

Mientras queden patrones por asignar El patrn se asigna a un cluster si la distancia del patrn

al centroide del cluster no supera un umbral . En caso contrario, se crea un nuevo agrupamiento

si la distancia del patrn al cluster ms cercano est porencima de .


15/76

14


Funcionamiento

Este algoritmo incluye una clase de rechazo:Algunas observaciones no son clasificadas.


16/76

15


Ejemplo


17/76

16


Ejemplo


18/76

17


Ejemplo


19/76

18


Parmetros

Umbral de distancia Umbral de distancia utilizado para crear nuevos

agrupamientos.

Fraccin Fraccin del umbral de distancia que determina total

confianza (utilizada para determinar si un patrn se leasigna a un cluster o no).


20/76

19


ResultadosGalaxia en espiral

El parmetro fundamental a la hora de conseguir un buen resultado esel umbral . Cuanto mayor sea este umbral, menos agrupamientos se

formarn. El parmetro influye menos.


21/76

20


Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quepermiten obtener un porcentaje de clasificacin mayor(bondad estimada del clasificadorque aparece cuando

pulsamos el botnClasificador asociado).


22/76

21

Batchelor & Wilkins

Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quereducen la dispersin media (esto es, la distancia mediade un patrn al centroide de su cluster) sin afectar

demasiado a la bondad del clasificador asociado niincrementar en exceso el nmero de agrupamientos.


23/76

22

Batchelor & Wilkins


24/76

23

Batchelor & Wilkins


Ventajas

til cuando no se conoce de antemano el nmero declases del problema (nmero de clusters desconocido). Un nico parmetro.

Desventajas Sensibilidad al valor del parmetro.


25/76

24

Batchelor & Wilkins

Funcionamiento

Primer agrupamiento:Patrn escogido al azar.

Segundo agrupamiento:Patrn ms alejado del primer agrupamiento .

Mientras se creen nuevos agrupamientos, obtener elpatrn ms alejado de los agrupamientos existentes(mximo de las distancias mnimas de los patrones a los

agrupamientos). Si la distancia del patrn escogido alconjunto de agrupamientos es mayor que una fraccin fde la distancia media entre los agrupamientos, crear unagrupamiento con el patrn seleccionado.

Asignar cada patrn a su agrupamiento ms cercano.


26/76

25

Batchelor & Wilkins

Ejemplo (f=0.5)


27/76

26

Batchelor & Wilkins

Ejemplo (f=0.5)


28/76

27

Batchelor & Wilkins

Ejemplo (f=0.5)


29/76

28

Batchelor & Wilkins

Ejemplo (f=0.5)


30/76

29

Batchelor & Wilkins

Parmetros

Fraccin f Fraccin de la distancia media entre los agrupamientos

existentes (utilizada para determinar si se crea o no unnuevo agrupamiento).


31/76

30

Batchelor & Wilkins

ResultadosGalaxia en espiral

Conforme aumenta el valor de f, disminuye el nmero de agrupamientos

hasta llega un momento en el que nos quedamos slo con 2 clusters.


32/76

31

Batchelor & Wilkins

Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quepermiten obtener un porcentaje de clasificacin mayor ala vez que minimizan el nmero de clusters (idealmente,

slo tres agrupamientos deberan ser necesarios).


33/76

32

k-Means


34/76

33

k-Means


El mtodo de las K Medias (MacQueen, 1967)

Ventajas Sencillo y eficiente. Un nico parmetro.

Desventajas Sesgado por el orden de presentacin de los patrones

(el resultado depende de la configuracin inicial de losagrupamientos).

Necesidad de conocer el nmero de clusters k:Su comportamiento depende enormemente del valor

elegido para el parmetro k.


35/76

34

k-Means

Funcionamiento

Cada cluster tiene asociado un centroide(centro geomtrico del cluster).

Los puntos se asignan al cluster cuyo centroide est mscerca (utilizando cualquier mtrica de distancia).

Iterativamente, se van actualizando los centroides enfuncin de las asignaciones de puntos a clusters, hastaque los centroides dejen de cambiar.

BASE TERICA: Algoritmo basado en la minimizacin de ladistancia interna (suma de las distancias de los patronesasignados a un agrupamiento a su centroide). Enrealidad, se minimiza la suma de las distancias alcuadrado de cada patrn al centroide de su cluster.


36/76

35

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 6
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


37/76

36

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 6
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


38/76

37

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


39/76

38

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


40/76

39

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

ptimo local

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Solucin ptima

Puntos originales
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


41/76

40

k-Means

Clusters dedistinto tamao

Clusters dedistinta densidad

Clustersno convexos


42/76

41

k-Means

Variantes

GRASP [Greedy Randomized Adaptive Search Procedure]para evitar ptimos locales.

k-Modes(Huang1998) utiliza modas en vez de medias(para poder trabajar con atributos de tipo categrico).

k-Medoids utiliza medianas en vez de medias para

limitar la influencia de los outliers

vg. PAM (Partitioning Around Medoids, 1987)CLARA (Clustering LARge Applications, 1990)

CLARANS (CLARA + Randomized Search, 1994)


43/76

42

k-Means

Parmetros

K Nmero deseado de agrupamientos.


44/76

43

GRASP


45/76

44

GRASP


Greedy Randomized Adaptive Search Procedure

Ventajas Sencillo y eficiente. Evita caer en ptimos locales.

Desventajas Necesidad de conocer el nmero de clusters k:

Su comportamiento depende enormemente del valorelegido para el parmetro k.


46/76

45

GRASP

Funcionamiento

Se repite el siguiente procesoun nmero determinado de iteraciones

Se busca una posible solucin (centroides escogidosaleatoriamente de entre aquellos patrones que estnms lejos de los centroides ya escogidos).

Se aplica una tcnica de optimizacin local (k-Means)para obtener un conjunto de agrupamientos.

Opcionalmente, se puede alterar aleatoriamente elresultado obtenido [mutacin] y repetir la bsquedade un ptimo local con la solucin mutada.

De todas las soluciones obtenidas, nos quedamos con lamejor (aquella que minimiza la suma de las distancias alcuadrado de cada patrn al centroide de su cluster).


47/76

46

GRASP

Parmetros


Iteraciones Nmero de iteraciones.

Longitud de ciclo Nmero de mutaciones por iteracin.


48/76

47

GRASP

Resultados: TITANIC (K=5, sin mutacin)

5 particiones del conjunto de datos J: Suma de las distancias al cuadrado. %TRA: Acierto sobre el conjunto de entrenamiento. %TST: Acierto sobre el conjunto de prueba.


49/76

48

GRASP

Resultados: TITANIC

Distribucin de J


50/76

49

Algoritmo secuencial


51/76

50



Ventajas Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parmetros. Eficiencia: Clculos muy sencillos, basta con recorrer

una vez el conjunto de datos.

Desventajas Utilizacin: Los valores adecuados para los parmetros

son difciles de establecer a priori, por lo que se sueleemplear un proceso de prueba y error.

Sesgado por los primeros patrones: Los resultadosobtenidos dependen del orden de presentacin de lospatrones.


52/76

51


Funcionamiento

Similar al K-Means, si bien introduce algunas novedades

El parmetro K se considera un valor mximo (puededevolver un nmero de agrupamientos menor).

Partiendo de un nico agrupamiento, se van creandonuevos agrupamientos conforme se procesan nuevos

patrones secuencialmente (algoritmo incremental).

Los patrones se procesan secuencialmente por lotes.Al final de cada lote, se evalan los agrupamientosobtenidos y se reduce su nmero.


53/76

52


Funcionamiento: Creacin de agrupamientos

Se selecciona arbitrariamente el centro del primeragrupamiento.

Posteriormente, se procesan secuencialmente los demspatrones: Se calcula la distancia del patrn actual al

agrupamiento ms cercano (a su centroide).

Si sta es menor o igual a R se asigna el patrn a suagrupamiento ms cercano. En caso contrario, se crea un nuevo agrupamiento con

el patrn actual.


54/76

53


Funcionamiento: Mezcla de agrupamientos

Cada M patrones, se mezclan agrupamientos1. Mezcla por cercana (se mezclan dos agrupamientos si la

distancia entre ellos es menor que C).2. Mezcla por tamao: Si, tras la mezcla por cercana,

quedan ms agrupamientos que los deseados por elusuario (K), se mezclan los agrupamientos de menos delT% de M miembros con sus clusters ms cercanos.

3. Mezcla forzada: Si an quedan demasiadosagrupamientos, se mezclan los agrupamientos mscercanos hasta obtener el nmero deseado K.El proceso de mezcla nos asegura que al final obtenemos el nmerodeseado de agrupamientos y no ms (como suele suceder en elmtodo adaptativo o en el algoritmo de Batchelor y Wilkins).


55/76

54


Parmetros


R Umbral de distancia para crear agrupamientos.C Umbral de distancia para mezclar agrupamientos.M Longitud del lote

(patrones procesados entre procesos de mezcla)T Umbral para la eliminacin de agrupamientos

(% sobre M)


56/76

55

Algoritmo ISODATA


57/76

56

Algoritmo ISODATA


Iterative Self-Organizing Data Analysis Techniques

Ventajas Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parmetros. No est sesgado por el orden de presentacin de los

patrones.

Desventajas Utilizacin: Los valores adecuados para los parmetros

son difciles de establecer a priori, por lo que se sueleemplear un proceso de prueba y error.


58/76

57

Algoritmo ISODATA

Funcionamiento

Similar al K-Means,si bien incorpora heursticas con tres objetivos:

Eliminar agrupamientos poco numerosos.

Mezclar agrupamientos cercanos.

Dividir agrupamientos dispersos.


59/76

58

Algoritmo ISODATA

Funcionamiento

Inicialmente se seleccionan los centros de A agrupamientos.

En cada iteracin Se asigna cada patrn al cluster ms cercano. Se eliminan los agrupamientos de menos de N patrones. Si el nmero de agrupamientos es pequeo ( K/2), se

dividen los agrupamientos ms dispersos. En las iteraciones pares o cuando el nmero de

agrupamientos es elevado (>2K), mezclamos un mximode L pares de agrupamientos cercanos.


60/76

59

Algoritmo ISODATA

ParmetrosK Nmero deseado

de agrupamientosA Nmero inicial

de agrupamientosN Umbral del nmerode patrones para laeliminacin deagrupamientos

s Umbral de desviacin tpicapara la divisin de un agrupamientoc Umbral de distancia

para la unin de agrupamientosL Mximo nmero de mezclas en una iteracin

I Mximo nmero de iteraciones permitidas


61/76

60

Mtodos basados en grafos


62/76

61


Caractersticas principalesp.ej. Agrupamiento basado en la matriz de similitud

Ventajas

A diferencia de los mtodos heursticos,no dependen del orden en que se presentan los patrones.

Desventajas

Su coste computacional los hace inviablesen muchas ocasiones.


63/76

62


Matriz de similitudMatriz cuadrada que representa la similitudentre cualquier pareja de patrones.

Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) umbral

Agrupamiento basado en la matriz de similitud:

Se selecciona la fila i que contenga ms unos. Se crea un agrupamiento con los patrones j tales que Sij=1 Se aaden al agrupamiento todos aquellos patrones k

tales que Sjk= 1, donde j es un patrn ya incluido enel nuevo agrupamiento, hasta que no se puedan

aadir ms patrones a dicho agrupamiento.


64/76

63


Matriz de similitud


65/76

64


Matriz de similitud:Variacin del umbral


66/76

65


Parmetros

Umbral de distanciautilizado para la construccin de la matriz de similitud


67/76

66


Resultados

Galaxia en espiral


68/76

67


Resultados

Galaxia en espiral


69/76

68


Resultados

Galaxia en espiral

Se mejora en precisinpero se pierde una clase


70/76

69


Alternativa: Clustering jerrquico divisivo

rbol generador minimal

V lid i


71/76

70

Validacin

Cmo se puede evaluarla calidad de los clusters obtenidos?

Depende de lo que estemos buscando

Hay situaciones en las que nos interesa: Evitar descubrir clusters donde slo hay ruido. Comparar dos conjuntos de clusters alternativos. Comparar dos tcnicas de agrupamiento

V lid i


72/76

71

Validacin

Criterios externos(aportando informacin adicional)

p.ej. entropa/pureza (como en clasificacin)

Criterios internos(a partir de los propios datos),

p.ej. SSE(Sum of Squared Error)

para comparar clusters para estimar el nmero de clusters K

Otras medidas:cohesin, separacin, coeficientes de silueta

V lid i


73/76

72

Validacin

Matriz de similitudOrdenamos los datos en la matriz de similitud conrespecto a los clusters en los que quedan los datos einspeccionamos visualmente

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Points

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

V lid i
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


74/76

73

Validacin

0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

y

Points

Points

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Matriz de similitudClusters en datos aleatorios(DBSCAN y k-Means)

Points

Points

20 40 60 80 100

10

20

30

40

50

60

70

80

90

100Similarity

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

V lid i
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


75/76

74

Validacin

Matriz de similitudDBSCAN

1

2

3

5

6

4

7

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

500 1000 1500 2000 2500 3000

500

1000

1500

2000

2500

3000

C dit
http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html


76/76

Crditos

Francisco J. Cortijo Bon: Apuntes de Reconocimientode Formas, Universidad de Granada, 1999

Jiawei Han: Data Mining: Concepts and Techniques,captulo 7, 2006

Pang-Ning Tan (Michigan State University), MichaelSteinbach & Vipin Kumar (University of Minnesota):Introduction to Data Mining, captulos 8 y 9, 2006

4 Clustering.nc (1)

Documents

Transcript of 4 Clustering.nc (1)