4 Clustering.nc (1)

download 4 Clustering.nc (1)

of 76

Transcript of 4 Clustering.nc (1)

  • 8/3/2019 4 Clustering.nc (1)

    1/76

    Intelligent Databases and Information Systems research group

    Department of Computer Science and Artificial IntelligenceE.T.S Ingeniera Informtica Universidad de Granada (Spain)

    Mtodos de agrupamiento

    Clustering Fernando Berzal

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    2/76

    1

    Analizador Numrico

    Ejecutamos nc.bat:

    Pinchamos sobre el botn Inicio y buscamos el ficherode configuracin necesario para acceder a nuestrosdatos (p.ej. Iris.cfg).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    3/76

    2

    Analizador Numrico

    Ahora podemos utilizar distintas tcnicas deaprendizaje sobre nuestro conjunto de datos:

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    4/76

    3

    Analizador Numrico

    Empezamos viendo algunas caractersticas delconjunto de datos (Datos > Estadsticas):

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    5/76

    4

    Analizador Numrico

    Tambin podemos ver grficamente la distribucin delas muestras (Datos > Representacin 2D):

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    6/76

    5

    Analizador Numrico

    Cuando nuestro conjunto de patrones viene dado porun conjunto de imgenes (como es el caso de Galaxyo Igaliko) podemos acceder a la representacin visualde cada dimensin (Datos > Estadsticas >Verimagen):

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    7/76

    6

    Mtodos de agrupamiento

    ObjetivoAgrupar objetos similares entre s que sean distintos alos objetos de otros agrupamientos [clusters].

    Aprendizaje no supervisadoNo existen clases predefinidas

    Los resultados obtenidos dependern de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar

    objetos.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    8/76

    7

    Mtodos de agrupamiento

    Encontrar agrupamientos de tal forma que los objetosde un grupo sean similares entre s y diferentes de losobjetos de otros grupos:

    Maximizardistancia

    inter-clusterMinimizardistancia

    intra-cluster

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    9/76

    8

    Usualmente, se expresan en trminos de distancias:

    d(i,j) > d(i,k)

    nos indica que el objeto i es ms parecido a k que a j

    La definicin de la mtrica de similitud/distanciaser distinta en funcin del tipo de dato y

    de la interpretacin semntica que nosotros hagamos.

    En otras palabras, la similitud entre objetos essubjetiva.

    Medidas de similitud

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    10/76

    9

    Medidas de similitud

    Cuntosagrupamientos?

    Cuatro?

    Dos?

    Seis?

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    11/76

    10

    Algoritmos de agrupamiento

    Con nmero de clases desconocido Mtodo adaptativo Algoritmo de mxima distancia (Batchelor & Wilkins)

    Con nmero de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA

    Mtodos basados en grafos Algoritmo basado en la matriz de similitud

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    12/76

    11

    Algoritmo adaptativo

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    13/76

    12

    Algoritmo adaptativo

    Caractersticas principales

    Ventajas

    til cuando no se conoce de antemano el nmero declases del problema (nmero de clusters desconocido). Simplicidad y eficiencia.

    Desventajas Dependencia del orden de presentacin (comportamiento

    sesgado por el orden de presentacin de los patrones). Presupone agrupamientos compactos separados

    claramente de los dems (puede no funcionaradecuadamente en presencia de ruido).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    14/76

    13

    Algoritmo adaptativo

    Funcionamiento

    Inicializacin Se forma un agrupamiento con el primer patrn del

    conjunto de datos.

    Mientras queden patrones por asignar El patrn se asigna a un cluster si la distancia del patrn

    al centroide del cluster no supera un umbral . En caso contrario, se crea un nuevo agrupamiento

    si la distancia del patrn al cluster ms cercano est porencima de .

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    15/76

    14

    Algoritmo adaptativo

    Funcionamiento

    Este algoritmo incluye una clase de rechazo:Algunas observaciones no son clasificadas.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    16/76

    15

    Algoritmo adaptativo

    Ejemplo

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    17/76

    16

    Algoritmo adaptativo

    Ejemplo

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    18/76

    17

    Algoritmo adaptativo

    Ejemplo

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    19/76

    18

    Algoritmo adaptativo

    Parmetros

    Umbral de distancia Umbral de distancia utilizado para crear nuevos

    agrupamientos.

    Fraccin Fraccin del umbral de distancia que determina total

    confianza (utilizada para determinar si un patrn se leasigna a un cluster o no).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    20/76

    19

    Algoritmo adaptativo

    ResultadosGalaxia en espiral

    El parmetro fundamental a la hora de conseguir un buen resultado esel umbral . Cuanto mayor sea este umbral, menos agrupamientos se

    formarn. El parmetro influye menos.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    21/76

    20

    Algoritmo adaptativo

    Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quepermiten obtener un porcentaje de clasificacin mayor(bondad estimada del clasificadorque aparece cuando

    pulsamos el botnClasificador asociado).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    22/76

    21

    Batchelor & Wilkins

    Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quereducen la dispersin media (esto es, la distancia mediade un patrn al centroide de su cluster) sin afectar

    demasiado a la bondad del clasificador asociado niincrementar en exceso el nmero de agrupamientos.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    23/76

    22

    Batchelor & Wilkins

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    24/76

    23

    Batchelor & Wilkins

    Caractersticas principales

    Ventajas

    til cuando no se conoce de antemano el nmero declases del problema (nmero de clusters desconocido). Un nico parmetro.

    Desventajas Sensibilidad al valor del parmetro.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    25/76

    24

    Batchelor & Wilkins

    Funcionamiento

    Primer agrupamiento:Patrn escogido al azar.

    Segundo agrupamiento:Patrn ms alejado del primer agrupamiento .

    Mientras se creen nuevos agrupamientos, obtener elpatrn ms alejado de los agrupamientos existentes(mximo de las distancias mnimas de los patrones a los

    agrupamientos). Si la distancia del patrn escogido alconjunto de agrupamientos es mayor que una fraccin fde la distancia media entre los agrupamientos, crear unagrupamiento con el patrn seleccionado.

    Asignar cada patrn a su agrupamiento ms cercano.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    26/76

    25

    Batchelor & Wilkins

    Ejemplo (f=0.5)

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    27/76

    26

    Batchelor & Wilkins

    Ejemplo (f=0.5)

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    28/76

    27

    Batchelor & Wilkins

    Ejemplo (f=0.5)

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    29/76

    28

    Batchelor & Wilkins

    Ejemplo (f=0.5)

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    30/76

    29

    Batchelor & Wilkins

    Parmetros

    Fraccin f Fraccin de la distancia media entre los agrupamientos

    existentes (utilizada para determinar si se crea o no unnuevo agrupamiento).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    31/76

    30

    Batchelor & Wilkins

    ResultadosGalaxia en espiral

    Conforme aumenta el valor de f, disminuye el nmero de agrupamientos

    hasta llega un momento en el que nos quedamos slo con 2 clusters.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    32/76

    31

    Batchelor & Wilkins

    Ejercicios: IrisEncontrar los valores de los parmetros del algoritmo quepermiten obtener un porcentaje de clasificacin mayor ala vez que minimizan el nmero de clusters (idealmente,

    slo tres agrupamientos deberan ser necesarios).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    33/76

    32

    k-Means

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    34/76

    33

    k-Means

    Caractersticas principales

    El mtodo de las K Medias (MacQueen, 1967)

    Ventajas Sencillo y eficiente. Un nico parmetro.

    Desventajas Sesgado por el orden de presentacin de los patrones

    (el resultado depende de la configuracin inicial de losagrupamientos).

    Necesidad de conocer el nmero de clusters k:Su comportamiento depende enormemente del valor

    elegido para el parmetro k.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    35/76

    34

    k-Means

    Funcionamiento

    Cada cluster tiene asociado un centroide(centro geomtrico del cluster).

    Los puntos se asignan al cluster cuyo centroide est mscerca (utilizando cualquier mtrica de distancia).

    Iterativamente, se van actualizando los centroides enfuncin de las asignaciones de puntos a clusters, hastaque los centroides dejen de cambiar.

    BASE TERICA: Algoritmo basado en la minimizacin de ladistancia interna (suma de las distancias de los patronesasignados a un agrupamiento a su centroide). Enrealidad, se minimiza la suma de las distancias alcuadrado de cada patrn al centroide de su cluster.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    36/76

    35

    k-Means

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 1

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 2

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 3

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 4

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 5

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 6

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    37/76

    36

    k-Means

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 1

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 2

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 3

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 4

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 5

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 6

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    38/76

    37

    k-Means

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 1

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 2

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 3

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 4

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 5

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    39/76

    38

    k-Means

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 1

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 2

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 3

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 4

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Iteration 5

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    40/76

    39

    k-Means

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    ptimo local

    -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    x

    y

    Solucin ptima

    Puntos originales

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    41/76

    40

    k-Means

    Clusters dedistinto tamao

    Clusters dedistinta densidad

    Clustersno convexos

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    42/76

    41

    k-Means

    Variantes

    GRASP [Greedy Randomized Adaptive Search Procedure]para evitar ptimos locales.

    k-Modes(Huang1998) utiliza modas en vez de medias(para poder trabajar con atributos de tipo categrico).

    k-Medoids utiliza medianas en vez de medias para

    limitar la influencia de los outliers

    vg. PAM (Partitioning Around Medoids, 1987)CLARA (Clustering LARge Applications, 1990)

    CLARANS (CLARA + Randomized Search, 1994)

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    43/76

    42

    k-Means

    Parmetros

    K Nmero deseado de agrupamientos.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    44/76

    43

    GRASP

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    45/76

    44

    GRASP

    Caractersticas principales

    Greedy Randomized Adaptive Search Procedure

    Ventajas Sencillo y eficiente. Evita caer en ptimos locales.

    Desventajas Necesidad de conocer el nmero de clusters k:

    Su comportamiento depende enormemente del valorelegido para el parmetro k.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    46/76

    45

    GRASP

    Funcionamiento

    Se repite el siguiente procesoun nmero determinado de iteraciones

    Se busca una posible solucin (centroides escogidosaleatoriamente de entre aquellos patrones que estnms lejos de los centroides ya escogidos).

    Se aplica una tcnica de optimizacin local (k-Means)para obtener un conjunto de agrupamientos.

    Opcionalmente, se puede alterar aleatoriamente elresultado obtenido [mutacin] y repetir la bsquedade un ptimo local con la solucin mutada.

    De todas las soluciones obtenidas, nos quedamos con lamejor (aquella que minimiza la suma de las distancias alcuadrado de cada patrn al centroide de su cluster).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    47/76

    46

    GRASP

    Parmetros

    K Nmero deseado de agrupamientos.

    Iteraciones Nmero de iteraciones.

    Longitud de ciclo Nmero de mutaciones por iteracin.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    48/76

    47

    GRASP

    Resultados: TITANIC (K=5, sin mutacin)

    5 particiones del conjunto de datos J: Suma de las distancias al cuadrado. %TRA: Acierto sobre el conjunto de entrenamiento. %TST: Acierto sobre el conjunto de prueba.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    49/76

    48

    GRASP

    Resultados: TITANIC

    Distribucin de J

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    50/76

    49

    Algoritmo secuencial

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    51/76

    50

    Algoritmo secuencial

    Caractersticas principales

    Ventajas Flexibilidad: Su comportamiento puede ajustarse

    gracias a su amplio conjunto de parmetros. Eficiencia: Clculos muy sencillos, basta con recorrer

    una vez el conjunto de datos.

    Desventajas Utilizacin: Los valores adecuados para los parmetros

    son difciles de establecer a priori, por lo que se sueleemplear un proceso de prueba y error.

    Sesgado por los primeros patrones: Los resultadosobtenidos dependen del orden de presentacin de lospatrones.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    52/76

    51

    Algoritmo secuencial

    Funcionamiento

    Similar al K-Means, si bien introduce algunas novedades

    El parmetro K se considera un valor mximo (puededevolver un nmero de agrupamientos menor).

    Partiendo de un nico agrupamiento, se van creandonuevos agrupamientos conforme se procesan nuevos

    patrones secuencialmente (algoritmo incremental).

    Los patrones se procesan secuencialmente por lotes.Al final de cada lote, se evalan los agrupamientosobtenidos y se reduce su nmero.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    53/76

    52

    Algoritmo secuencial

    Funcionamiento: Creacin de agrupamientos

    Se selecciona arbitrariamente el centro del primeragrupamiento.

    Posteriormente, se procesan secuencialmente los demspatrones: Se calcula la distancia del patrn actual al

    agrupamiento ms cercano (a su centroide).

    Si sta es menor o igual a R se asigna el patrn a suagrupamiento ms cercano. En caso contrario, se crea un nuevo agrupamiento con

    el patrn actual.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    54/76

    53

    Algoritmo secuencial

    Funcionamiento: Mezcla de agrupamientos

    Cada M patrones, se mezclan agrupamientos1. Mezcla por cercana (se mezclan dos agrupamientos si la

    distancia entre ellos es menor que C).2. Mezcla por tamao: Si, tras la mezcla por cercana,

    quedan ms agrupamientos que los deseados por elusuario (K), se mezclan los agrupamientos de menos delT% de M miembros con sus clusters ms cercanos.

    3. Mezcla forzada: Si an quedan demasiadosagrupamientos, se mezclan los agrupamientos mscercanos hasta obtener el nmero deseado K.El proceso de mezcla nos asegura que al final obtenemos el nmerodeseado de agrupamientos y no ms (como suele suceder en elmtodo adaptativo o en el algoritmo de Batchelor y Wilkins).

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    55/76

    54

    Algoritmo secuencial

    Parmetros

    K Nmero deseado de agrupamientos.

    R Umbral de distancia para crear agrupamientos.C Umbral de distancia para mezclar agrupamientos.M Longitud del lote

    (patrones procesados entre procesos de mezcla)T Umbral para la eliminacin de agrupamientos

    (% sobre M)

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    56/76

    55

    Algoritmo ISODATA

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    57/76

    56

    Algoritmo ISODATA

    Caractersticas principales

    Iterative Self-Organizing Data Analysis Techniques

    Ventajas Flexibilidad: Su comportamiento puede ajustarse

    gracias a su amplio conjunto de parmetros. No est sesgado por el orden de presentacin de los

    patrones.

    Desventajas Utilizacin: Los valores adecuados para los parmetros

    son difciles de establecer a priori, por lo que se sueleemplear un proceso de prueba y error.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    58/76

    57

    Algoritmo ISODATA

    Funcionamiento

    Similar al K-Means,si bien incorpora heursticas con tres objetivos:

    Eliminar agrupamientos poco numerosos.

    Mezclar agrupamientos cercanos.

    Dividir agrupamientos dispersos.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    59/76

    58

    Algoritmo ISODATA

    Funcionamiento

    Inicialmente se seleccionan los centros de A agrupamientos.

    En cada iteracin Se asigna cada patrn al cluster ms cercano. Se eliminan los agrupamientos de menos de N patrones. Si el nmero de agrupamientos es pequeo ( K/2), se

    dividen los agrupamientos ms dispersos. En las iteraciones pares o cuando el nmero de

    agrupamientos es elevado (>2K), mezclamos un mximode L pares de agrupamientos cercanos.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    60/76

    59

    Algoritmo ISODATA

    ParmetrosK Nmero deseado

    de agrupamientosA Nmero inicial

    de agrupamientosN Umbral del nmerode patrones para laeliminacin deagrupamientos

    s Umbral de desviacin tpicapara la divisin de un agrupamientoc Umbral de distancia

    para la unin de agrupamientosL Mximo nmero de mezclas en una iteracin

    I Mximo nmero de iteraciones permitidas

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    61/76

    60

    Mtodos basados en grafos

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    62/76

    61

    Mtodos basados en grafos

    Caractersticas principalesp.ej. Agrupamiento basado en la matriz de similitud

    Ventajas

    A diferencia de los mtodos heursticos,no dependen del orden en que se presentan los patrones.

    Desventajas

    Su coste computacional los hace inviablesen muchas ocasiones.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    63/76

    62

    Mtodos basados en grafos

    Matriz de similitudMatriz cuadrada que representa la similitudentre cualquier pareja de patrones.

    Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) umbral

    Agrupamiento basado en la matriz de similitud:

    Se selecciona la fila i que contenga ms unos. Se crea un agrupamiento con los patrones j tales que Sij=1 Se aaden al agrupamiento todos aquellos patrones k

    tales que Sjk= 1, donde j es un patrn ya incluido enel nuevo agrupamiento, hasta que no se puedan

    aadir ms patrones a dicho agrupamiento.

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    64/76

    63

    Mtodos basados en grafos

    Matriz de similitud

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    65/76

    64

    Mtodos basados en grafos

    Matriz de similitud:Variacin del umbral

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    66/76

    65

    Mtodos basados en grafos

    Parmetros

    Umbral de distanciautilizado para la construccin de la matriz de similitud

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    67/76

    66

    Mtodos basados en grafos

    Resultados

    Galaxia en espiral

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    68/76

    67

    Mtodos basados en grafos

    Resultados

    Galaxia en espiral

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    69/76

    68

    Mtodos basados en grafos

    Resultados

    Galaxia en espiral

    Se mejora en precisinpero se pierde una clase

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    70/76

    69

    Mtodos basados en grafos

    Alternativa: Clustering jerrquico divisivo

    rbol generador minimal

    V lid i

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    71/76

    70

    Validacin

    Cmo se puede evaluarla calidad de los clusters obtenidos?

    Depende de lo que estemos buscando

    Hay situaciones en las que nos interesa: Evitar descubrir clusters donde slo hay ruido. Comparar dos conjuntos de clusters alternativos. Comparar dos tcnicas de agrupamiento

    V lid i

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    72/76

    71

    Validacin

    Criterios externos(aportando informacin adicional)

    p.ej. entropa/pureza (como en clasificacin)

    Criterios internos(a partir de los propios datos),

    p.ej. SSE(Sum of Squared Error)

    para comparar clusters para estimar el nmero de clusters K

    Otras medidas:cohesin, separacin, coeficientes de silueta

    V lid i

    http://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    73/76

    72

    Validacin

    Matriz de similitudOrdenamos los datos en la matriz de similitud conrespecto a los clusters en los que quedan los datos einspeccionamos visualmente

    0 0.2 0.4 0.6 0.8 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    x

    y

    Points

    Points

    20 40 60 80 100

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100Similarity

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    V lid i

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    74/76

    73

    Validacin

    0 0.2 0.4 0.6 0.8 10

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    x

    y

    Points

    Points

    20 40 60 80 100

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100Similarity

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    Matriz de similitudClusters en datos aleatorios(DBSCAN y k-Means)

    Points

    Points

    20 40 60 80 100

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100Similarity

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    V lid i

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    75/76

    74

    Validacin

    Matriz de similitudDBSCAN

    1

    2

    3

    5

    6

    4

    7

    0

    0.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    500 1000 1500 2000 2500 3000

    500

    1000

    1500

    2000

    2500

    3000

    C dit

    http://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.htmlhttp://elvex.ugr.es/software/nc/an.html
  • 8/3/2019 4 Clustering.nc (1)

    76/76

    Crditos

    Francisco J. Cortijo Bon: Apuntes de Reconocimientode Formas, Universidad de Granada, 1999

    Jiawei Han: Data Mining: Concepts and Techniques,captulo 7, 2006

    Pang-Ning Tan (Michigan State University), MichaelSteinbach & Vipin Kumar (University of Minnesota):Introduction to Data Mining, captulos 8 y 9, 2006

    http://elvex.ugr.es/software/nc/an.html