José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la...

84
Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering Aprendizaje estadístico José Luis Ruiz Reina Franciso J. Martín Mateos Dpto. Ciencias de la Computación e Inteligencia Artificial Ampliación de Inteligencia Artificial, 2012-2013

Transcript of José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la...

Page 1: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje estadístico

José Luis Ruiz ReinaFranciso J. Martín Mateos

Dpto. Ciencias de la Computación e Inteligencia Artificial

Ampliación de Inteligencia Artificial, 2012-2013

Page 2: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Contenido

• Preliminares sobre teoría de la probabilidad

• Regla de Bayes

• Aprendizaje estadístico, MAP y ML

• Clasificadores bayesianos

• Clustering

Page 3: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Variables aleatorias

• Variables aleatorias: una “parte” del mundo cuyo estadopodemos desconocer

• Ejemplo: la variable aleatoria Caries describe el hecho deque un paciente pueda o no tener caries, y la variableDolor el hecho de que pueda o no sentir dolor.

• Ejemplo: las variables aleatorias Tirada1 y Tirada2describen el resultado de dos tiradas consecutivas de undado.

• Nuestra descripción del mundo vendrá dada por unconjunto de variables aleatorias

Page 4: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Variables aleatorias

• Una variable aleatoria puede tomar diferentes valores desu dominio

• Los posibles valores de Caries y de Dolor son true y false• Los posibles valores de Tirada1 y Tirada2 son 1, . . . ,6.• Notación: variables aleatorias en mayúsculas y sus valores

en minúsculas

• Tipos de variables aleatorias:• Booleanas (notación: caries y ¬caries son equivalentes a

Caries = true y Caries = false, respectivamente)• Discretas (incluyen a las booleanas)• Continuas

Page 5: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Proposiciones

• Usando las conectivas proposicionales y las variablesaleatorias, podemos expresar proposiciones

• Ejemplos:• caries ∧ ¬dolor• Caries = true ∨ Tiempo = nublado• Tirada1 = 5 ∧ (Tirada2 = 4 ∨ Tirada2 = 5 ∨ Tirada2 = 6)

• Asignaremos probabilidades a las proposiciones paraexpresar nuestro grado de creencia en las mismas

Page 6: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Probabilidad (incondicional): idea intuitiva

• Dada una proposición a, su probabilidad (incondicional o apriori), notada P(a), cuantifica el grado de creencia en queocurra a, en ausencia de cualquier otra información oevidencia

• Ejemplo: P(caries) = 0,1, P(caries,¬dolor) = 0,05• Notación: P(caries,¬dolor) es equivalente a

P(caries ∧ ¬dolor)

• Aproximación frecuentista: número de casos favorables(en los que se cumple a) entre el número de casos totales

Page 7: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Probabilidad: definición axiomática

• Una función de probabilidad es una función definida en elconjunto de proposiciones (respecto de un conjunto dadode variables aleatorias), verificando las siguientespropiedades:

• 0 ≤ P(a) ≤ 1, para toda proposición a• P(true) = 1 y P(false) = 0 donde true y false representan a

cualquier proposición tautológica o insatisfactible,respectivamente

• P(a ∨ b) = P(a) + P(b)− P(a ∧ b), para cualquier par deproposiciones a y b

• El cálculo de probabilidades se construye sobre los tresaxiomas anteriores. Por ejemplo:

• P(¬a) = 1− P(a)• P(a ∨ b) = P(a) + P(b), si a y b son disjuntos.•

∑ni=1 P(D = di) = 1, siendo D una v.a. y di , i = 1, . . . ,n sus

posibles valores

Page 8: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Distribuciones de probabilidad

• La distribución de probabilidad de una variable aleatoriaindica las probabilidades de que la variable pueda tomarcada uno de sus valores

• Ejemplo: si Tiempo es una v.a. con valores lluvia, sol ,nubes y nieve, su distribución de probabilidad podría ser:

• P(Tiempo = sol) = 0,7, P(Tiempo = lluvia) = 0,2,P(Tiempo = nubes) = 0,08, P(Tiempo = nieve) = 0,02

• Notación: usaremos P (en negrita), para expresar demanera compacta una distribución de probabilidad (fijadoun orden entre sus valores)

• Ejemplo: P(Tiempo) = 〈0,7;0,2;0,08;0,02〉

Page 9: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Distribución conjunta

• Distribución de probabilidad conjunta: probabilidad decada combinación de valores de dos o más variablesaleatorias

• Notación P(X ,Y , . . .): manera compacta de denotar a unatabla con esas probabilidades

• Ejemplo: P(Caries,Dolor ,Hueco)

dolor dolor ¬dolor ¬dolor

hueco ¬hueco hueco ¬hueco

caries 0.108 0.012 0.072 0.008¬caries 0.016 0.064 0.144 0.576

Page 10: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Cálculo de probabilidades a partir de distribuciónconjunta

• Regla de marginalización:• P(Y ) =

z P(Y , z) (regla de marginalización)

• Notación:• Y es un vector de variables aleatorias, simbolizando

cualquier combinación de valores de esas variables• z representa una combinación de valores concretos para

un conjunto Z de variables aleatorias (las restantes de ladistribución conjunta)

• Hay un sumando P(Y , z) para cada posible z , y cadasumando es una entrada de la distribución conjunta

Page 11: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Cálculo de probabilidades a partir de distribuciónconjunta

• Ejemplo:• P(caries) = P(caries, dolor , hueco) + P(caries, dolor ,¬hueco) +

P(caries,¬dolor , hueco) + P(caries,¬dolor ,¬hueco) =

0,108 + 0,012 + 0,072 + 0,008 = 0,2

• En teoría, con la distribución conjunta de todas lasvariables aleatorias podemos calcular la probabilidad decualquier proposición.

• Problemas:• Rara vez se conocen directamente las probabilidades de

todos las combinaciones de valores.• Tamaño exponencial (enorme si hay muchas variables)

• Soluciones:• Las probabilidades condicionales suelen expresar mejor

nuestro conocimiento del dominio.• Las independencias (condicionales) reducen el tamaño

(factoriza las tablas)

Page 12: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Probabilidad condicional

• Probabilidad condicional (o a posteriori) asociada a a dadob (a y b proposiciones):

• Grado de creencia sobre a, dado que todo lo que sabemos

es que b ocurre, notada P(a|b)• Ejemplo: P(caries|dolor) = 0,8 significa que una vez

sabido que un paciente tiene dolor de muelas (y sólamente

sabemos eso), nuestra creencia es que el paciente tendrácaries con probabilidad 0,8

Page 13: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Probabilidad condicional

• Relación entre probabilidad condicional e incondicional:

P(a|b) = P(a ∧ b)

P(b)

• Variante: P(a ∧ b) = P(a|b)P(b) (regla del producto)• O, análogamente, P(a ∧ b) = P(b|a)P(a)

• Notación P(X |Y ) para expresar la tabla de probabilidadescondicionales

• Forma compacta de la regla del producto:P(X ,Y ) = P(X |Y )P(Y )

• O con varias variables:P(X1,X2, . . . ,Xn) =

P(X1|X2, . . . ,Xn) · P(X2|X3, . . . ,Xn) · · ·P(Xn−1|Xn) · P(Xn)

Page 14: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Probabilidad condicional vs implicación lógica

• La probabilidad condicional formaliza el hecho de que losgrados de creencia se actualizan a medida que se vanconociendo nuevas evidencias en el mundo incierto

• La probabilidad condicional no es lo mismo que unaimplicación lógica con incertidumbre

• P(a|b) = 0,8 no es lo mismo que decir que “siempre que b

sea verdad, entonces P(a) = 0,8”• Ya que P(a|b) refleja que b es la única evidencia conocida

Page 15: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Inferencia probabilística

• Por inferencia probabilística entendemos el cálculo de laprobabilidad de una proposición dada condicionada por laobservación de determinadas evidencias

• Es decir, cálculos del tipo P(a|b) donde a es la proposiciónque se consulta y b es la proposición que se ha observado

• El conocimiento base vendrá dado por una distribucióncompleta (representada de alguna manera eficiente, apartir de probabilidades condicionales)

Page 16: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Normalización

• En principio, podemos calcular probabilidades

condicionales a partir de la definición.

• Por ejemplo, probabilidad de tener caries, observado quehay dolor :

P(caries|dolor) =P(caries ∧ dolor)

P(dolor)=

=0,108 + 0,012

0,108 + 0,012 + 0,016 + 0,064= 0,6

Page 17: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Normalización• Alternativa: podríamos evitar calcular explícitamente

P(dolor)

• 1P(dolor) puede verse como una constante α que normaliza

la distribución P(Caries, dolor) haciendo que sume 1:P(Caries|dolor) = αP(Caries, dolor) =

= α[P(Caries, dolor , hueco) + P(Caries, dolor ,¬hueco)] =

= α[〈0,108; 0,016〉+ 〈0,012; 0,064〉] = α〈0,12; 0,08〉 = 〈0,6; 0,4〉

• Es decir, calculamos P(caries, dolor) y P(¬caries, dolor) ya posteriori multiplicamos ambos por la constante α quehaga que ambos sumen 1; de esa manera tenemosP(caries|dolor) y P(¬caries|dolor)

• En general, P(X |Y ) = αP(X ,Y ), donde α es unaconstante que hace que en esa expresión lasprobabilidades obtenidas para los distintos valores de X

sumen 1 (es lo que se denomina normalización).

Page 18: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Formulación de la regla de Bayes• De P(a ∧ b) = P(a|b)P(b) = P(b|a)P(a) podemos deducir

la siguiente fórmula, conocida como regla de Bayes

P(b|a) = P(a|b)P(b)

P(a)

• Regla de Bayes para variables aleatorias:

P(Y |X ) =P(X |Y )P(Y )

P(X )

• recuérdese que esta notación representa un conjunto deecuaciones, una para cada valor específico de las variables

• Versión con normalización:P(Y |X ) = α · P(X |Y )P(Y )

• Generalización, en presencia de un conjunto z deobservaciones:

P(Y |X , z) = α · P(X |Y , z)P(Y |z)

Page 19: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplo de uso de la regla de Bayes• Sabemos que la probabilidad de que un paciente de

meningitis tenga el cuello hinchado es 0.5 (relación causal)• También sabemos la probabilidad (incondicional) de tener

meningitis ( 150000 ) y de tener el cuello hinchado (0.05)

• Estas probabilidades provienen del conocimiento y laexperiencia

• La regla de Bayes nos permite diagnosticar la probabilidadde tener meningitis una vez que se ha observado que elpaciente tiene el cuello hinchado

P(m|h) = P(h|m)P(m)

P(h)=

0,5× 150000

0,05= 0,0002

• Alternativamente, podríamos haberlo hecho normalizando• P(M|h) = α〈P(h|m)P(m);P(h|¬m)P(¬m)〉• Respecto de lo anterior, esto evita P(h) pero obliga a saber

P(h|¬m)

Page 20: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Relaciones causa-efecto y la regla de Bayes

• Modelando probabilísticamente una relación entre unaCausa y un Efecto:

• La regla de Bayes nos da una manera de obtener laprobabilidad de Causa, dado que se ha observado Efecto:

P(Causa|Efecto) = α · P(Efecto|Causa)P(Efecto)

• Nos permite diagnosticar en función de nuestroconocimiento de relaciones causales y de probabilidades a

priori

• ¿Por qué calcular el diagnóstico en función delconocimiento causal y no al revés?

• Porque es más fácil y robusto disponer de probabilidadescausales que de probabilidades de diagnóstico (lo que sesuele conocer es P(Efecto|Causa) y el valor que hatomado Efecto).

Page 21: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplos

• Supongamos que una persona entra a comer en unrestaurante en función de que el restaurante tenga o no enel exterior fotos de los platos. Se sabe que:

• La cuarta parte de los restaurantes de la ciudad son malos• De los restaurantes malos, el 75 % tienen fotos de los

platos en la puerta• De los buenos, sólo un tercio exponen fotos de los platos

en el exterior.

• ¿Cuál es la probabilidad de que si entro a comer en unrestaurante con fotos en la puerta, el restaurante seamalo?

Page 22: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplos

• Aplicamos la regla de Bayes:• Variables aleatorias: M (restaurante malo) y F (con fotos en

la puerta)• P(M|f ) = αP(f |M)P(M) =

α〈P(f |m)P(m);P(f |¬m)P(¬m)〉 =α〈0,75 · 0,25;0,33 · 0,75〉 = α〈0,1875;0,25〉 = 〈0,43;0,57〉

• Luego el restaurante será malo con probabilidad 0.43

• Nota: la evidencia de tener fotos en la puerta haactualizado (incrementado en este caso), mi grado decreencia en que el restaurante sea malo (de 0.25 a priori,pasa a 0.43).

• Inferencia bayesiana: actualizar probabilidades a medidaque se añaden evidencias.

Page 23: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplos

• Consideremos la siguiente información sobre el cáncer demama:

• Un 1 % de las mujeres de más de 40 años que se hacen unchequeo tienen cáncer de mama

• Un 80 % de las que tienen cáncer de mama se detectancon una mamografía

• El 9.6 % de las que no tienen cáncer de mama, al realizarseuna mamografía se le diagnostica cáncer erróneamente

Page 24: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplos

• ¿Cuál es la probabilidad de tener cáncer si la mamografíaasí lo diagnostica?

• Variables aleatorias: C (tener cáncer de mama) y M

(mamografía positiva)• P(C|m) = αP(m|C)P(C) =

α〈P(m|c)P(c);P(m|¬c)P(¬c)〉 = α〈0,8·0,01;0,096·0,99〉 =α〈0,008;0,09504〉 = 〈0,0776;0,9223〉

• Luego el 7.8 % de las mujeres diagnosticadaspositivamente con mamografía tendrán realmente cáncerde mama

Page 25: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Independencia probabilística

• En muchos casos prácticos, algunas de las variables deun problema son independientes entre sí

• Ejemplo: P(Tiempo = nublado|dolor , caries,hueco) =P(Tiempo = nublado)

• Si la variable Tiempo (con 4 posibles valores) formara partede una descripción en la que están Caries, Hueco y Dolor :

• No necesitaríamos una tabla con 32 entradas para describirla distribución conjunta, sino dos tablas independientes (8+4entradas)

• Esto reduce la complejidad de la representación

Page 26: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Independencia probabilística

• Intuitivamente, dos variables aleatorias sonindependientes si conocer el valor que toma una de ellasno nos actualiza (ni al alza ni a la baja) nuestro grado decreencia sobre el valor que tome la otra.

• El asumir que dos variables son independientes estábasado normalmente en el conocimiento previo del dominioque se modela

Page 27: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Independencia probabilística

• Formalmente, dos variables aleatorias X e Y sonindependientes si P(X |Y ) = P(X ) (equivalentemente,P(Y |X ) = P(Y ) ó P(X ,Y ) = P(X ) · P(Y ))

• En general, dos proposiciones a y b son independientes siP(a|b) = P(a)

• Asumir independencia entre ciertas variables ayuda a quela representación del mundo sea más manejable

• Reduce la exponencialidad (factorización del problema)

Page 28: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Independencia condicional

• En nuestro ejemplo Dolor y Hueco no son independientes

• Ambas dependen de Caries

• Pero son independientes una vez conocido el valor deCaries

• Es decir: P(Dolor |Hueco,Caries) = P(Dolor |Caries) oequivalentementeP(Hueco|Dolor ,Caries) = P(Hueco|Caries)

• También equivalente: P(Hueco,Dolor |Caries) =P(Hueco|Caries)P(Dolor |Caries)

Page 29: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Independencia condicional

• Intuitivamente: X es condicionalmente independiente de Y

dado un conjunto de variables Z si nuestro grado decreencia en que X tome un valor dado, sabiendo el valorque toman las variables de Z, no se vería actualizado (nial alza ni a la baja), si además supiéramos el valor quetoma Y

• En el ejemplo: sabiendo si se tiene Caries o no, el conocersi se tiene Dolor o no, no va a aportar nada nuevo anuestro grado de creencia en que se tenga Hueco.

• Formalmente, dos v.a. X e Y son independientes dado unconjunto de v.a. Z si P(X ,Y |Z) = P(X |Z)P(Y |Z)

• O equivalentemente P(X |Y ,Z) = P(X |Z) óP(Y |X ,Z) = P(Y |Z)

Page 30: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Independencia condicional

• La independencia condicional entre algunas variables esesencial para un almacenamiento eficiente de lasdistribuciones conjuntas. Por ejemplo

P(Dolor ,Hueco,Caries) =

P(Dolor ,Hueco|Caries)P(Caries) =

= P(Dolor |Caries)P(Hueco|Caries)P(Caries)

• En lugar de tener una tabla con 7 números independientessólo necesitamos 5 números independientes (en trestablas)

Page 31: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Regla de Bayes e independencia condicional

• Con los datos anteriores, ¿cuál es la probabilidad de tenercáncer si tras dos mamografías consecutivas en ambas sediagnostica cáncer?

• Variables aleatorias: M1 (primera mamografía positiva), M2

(segunda mamografía positiva) y C (tener cáncer de mama)• Obviamente, no podemos asumir independencia

incondicional entre M1 y M2• Pero es plausible asumir independencia condicional de M1

y M2 dada C• Por tanto, P(C|m1,m2) = αP(m1,m2|C)P(C) =

αP(m1|C)P(m2|C)P(C) =α〈P(m1|c)P(m2|c)P(c);P(m2|¬c)P(m2|¬c)P(¬c)〉 =α〈0,8 · 0,8 · 0,01;0,096 · 0,096 · 0,99〉 = 〈0,412;0,588〉

• Luego aproximadamente el 41 % de las mujeresdoblemente diagnosticadas positivamente con mamografíatendrán realmente cáncer de mama

Page 32: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Visión estadística del aprendizaje

• Volvemos en este tema a tratar cuestiones relacionadascon el aprendizaje a partir de observaciones

• El problema se plantea con un conjunto de entrenamientod y con un conjunto de hipótesis H, candidatas a seraprendidas

• En este caso, nos moveremos en un dominio descrito porvariables aleatorias

• El conjunto de datos d representa una serie de evidenciasobservadas (instancias concretas de algunas de las v.a. D)

• Las hipótesis de H son modelos probabilísticos de cómofunciona el dominio (por ejemplo, distintas distribuciones deprobabilidad)

Page 33: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplos de hipótesis y observaciones• Una urna con N bolas de colores, desconocemos la

proporción de cada color:• Observaciones: una serie de extracciones, de cada una

anotamos el color• Hipótesis candidatas: cada una de las posibles

distribuciones de proporción de colores de las bolas.• Red bayesiana que describe un dominio médico,

conocemos su estructura pero desconocemos las tablas• Observaciones: valores de las variables aleatorias para

una serie de pacientes concretos• Hipótesis candidatas: cada una de los posibles conjuntos

de tablas de probabilidad de la red• Una población cuyas alturas sabemos que siguen una

distribución de Gauss (pero no sabemos la media ni ladesviación típica)

• Observaciones: datos sobre alturas de algunas personasde la población

• Hipótesis candidatas: todos los posibles pares (µ, σ)(media y desviación típica).

Page 34: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Visión estadística del aprendizaje

• Las decisiones sobre qué aprender se tomarán,esencialmente, calculando probabilidades condicionadas

• No necesariamente se descarta una hipótesis que seainconsistente con d , sino que busca la hipótesis más

probable, dadas las observaciones de d

• Por ejemplo, se buscan hipótesis que maximizan P(h|d),para h ∈ H

• Por tanto, será esencial el uso del teorema de Bayes (dehecho, este tipo de aprendiaje se denomina llamado“aprendizaje bayesiano”)

• Además, incorpora el conocimiento a priori del que sedispone:

• Probabilidades de la forma P(d |h) y P(h), esencialmente

Page 35: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

El marco general del aprendizaje bayesiano

• Sea H un conjunto de hipótesis, D una v.a. que representalos datos observables.

• La información de entrada es:• Los datos observados, d• La probabilidades a priori de las hipótesis, P(h)• La verosimilitud de los datos bajo las hipótesis, P(d |h)

• El aprendizaje bayesiano consiste en calcular laprobabilidad de cada hipótesis de H (dados los datos) ypredecir valores desconocidos a partir de esasprobabilidades

• Por el teorema de Bayes, P(h|d) se calcula de la siguientemanera:

P(h|d) = αP(d |h)P(h)

• Donde α es la constante que normaliza P(d |h)P(h) paratodos los h ∈ H (es decir, para que sumen 1)

Page 36: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Un ejemplo (Russel & Norvig)

• Un fabricante de caramelos fabrica grandes bolsas decinco tipos, cada una con una proporción diferente entrelimón y naranja:

• h1: 100% de naranja• h2: 75% de naranja y 25% de limón• h3: 50% de naranja y 50% de limón• h4: 25% de naranja y 75% de limón• h5: 100% de limón

• Cada tipo de bolsa h1, h2, h3, h4 y h5 las hace el fabricantecon probabilidad 0,1, 0,2, 0,4, 0,2 y 0,1, resp.

• Tomamos una bolsa y vamos abriendo algunos caramelosy anotando su sabor ¿Podemos predecir el sabor delsiguiente caramelo que saquemos de la bolsa?

• Lo planteamos como un problema de aprendizajebayesiano

Page 37: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Un ejemplo (Russel & Norvig)

• En este caso, las hipótesis son las cinco composicionesposibles de la bolsa

• Los datos son los distintos sabores de los caramelosabiertos

• Las probabilidades a priori P(hi) de cada hipótesis vienendadas por el fabricante: 0.1, 0.2, 0.4, 0.2 y 0.1, resp.

• La verosimilitud de los datos, P(d |h), se puede calcularteniendo en cuenta que cada vez que se abre un carameloes un evento independiente e idénticamente distribuido(i.i.d.) de los anteriores. Por tanto P(d |hi) =

j P(dj |hi)

• Por ejemplo, si los datos son de 10 caramelos extraidos,todos ellos de limón, P(d |h3) = 0,510

• Veamos algunos ejemplos de cómo se calcula P(hi |d)para distintos casos de d .

Page 38: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplo para d = 〈l , l〉

• Supongamos que las observaciones que tenemos son dosextracciones, ambas de caramelos de limón.

Hipótesis P(hi ) P(d |hi ) P(d |hi)P(hi ) P(hi |d) = αP(d |hi)P(hi )

h1 0,1 0 0 0h2 0,2 (0,25)2 0,0125 ∼ 0,04h3 0,4 (0,5)2 0,1 ∼ 0,31h4 0,2 (0,75)2 0,1125 ∼ 0,35h5 0,1 (1)2 0,1 ∼ 0,3

• La hipótesis más probable dados los datos es h4

Page 39: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplo para d = 〈l , l , l〉

• Supongamos ahora tres extracciones, todas salen delimón.

Hipótesis P(hi ) P(d |hi ) P(d |hi)P(hi ) P(hi |d) = αP(d |hi)P(hi )

h1 0,1 0 0 0h2 0,2 (0,25)3 0,003125 ∼ 0,01h3 0,4 (0,5)3 0,05 ∼ 0,21h4 0,2 (0,75)3 0,084375 ∼ 0,36h5 0,1 (1)3 0,1 ∼ 0,42

• La hipótesis más probable dados los datos es h5

Page 40: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplo para d = 〈l , l , l , l〉

• Un último ejemplo: cuatro extracciones, y todas salen delimón.

Hipótesis P(hi ) P(d |hi ) P(d |hi)P(hi ) P(hi |d) = αP(d |hi)P(hi )

h1 0,1 0 0 0h2 0,2 (0,25)4 0,00078125 ∼ 0,004h3 0,4 (0,5)4 0,025 ∼ 0,13h4 0,2 (0,75)4 0,06328125 ∼ 0,336h5 0,1 (1)4 0,1 ∼ 0,53

• La hipótesis más probable dados los datos es h5

Page 41: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Inferencia a partir de lo aprendido

• Dada una v.a. X sobre la que se consulta, la informaciónaprendida será la distribución de probabilidad P(X |d), queservirá de base para predecir el valor de X

• Se puede calcular de la siguiente forma (suponiendo quecada hipótesis determina completamente la distribución deprobabilidad de X )

P(X |d) =∑

h∈H

P(X |d ,hi)P(hi |d) =∑

h∈H

P(X |hi)P(hi |d)

• Observación: nótese que el principio de la navaja deOccam tiene cabida en este marco general del aprendizajebayesiano:

• Simplemente, la probabilidades a priori de las hipótesismás complejas serían menores

Page 42: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Inferencia en el ejemplo de los caramelos

• Supongamos que d = 〈l , l〉 en el ejemplo anterior y que Xes la variable aleatoria correspondiente a la siguienteextracción ¿Cuál es la probabillidad de que salga otra vezde limón?

• P(X = l |d) =∑5

i=1 P(X = l |hi)P(hi |d) =0×0+0,04×0,25+0,31×0,5+0,35×0,75+0,3×1 = 0,725

• De manera análoga, si d = 〈l , l , l〉, entoncesP(X = l |d) = 0,7975

• Igualmente, si d = 〈l , l , l , l〉, entonces P(X = l |d) = 0,848

Page 43: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aumentando el número de observaciones

• En el ejemplo, supongamos que la bolsa realmente es deltipo 5 (todos de limón), pero que no lo sabemos

• Las gráficas siguientes muestran cómo evolucionarían loscálculos anteriores a medida que vamos obteniendo másobservaciones:

0.2

0.4

0.6

0.8

1

0

0.2

0.4

0.6

0.8

1

0

Numero de datos en d

Prob

abili

dade

s a

post

erio

ri d

e ca

da h

ipot

esis

P(h1|d)

P(h2|d)

P(h3|d)

P(h4|d)

P(h5|d)

Numero de datos en d

Prob

abili

dad

de q

ue e

l pro

xim

o se

a de

lim

on

Page 44: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Observaciones

• A medida que los datos aumentan,la hipótesis verdadera eventualmente domina a las otras

• Aunque la mejor manera de predecir el comportamiento deuna v.a. X es calculando P(X |d) como se ha visto, estotiene un precio:

• El espacio de hipótesis puede ser muy grande, por lo queel cálculo de P(X |d) según la fórmula anterior puede serimposible en la práctica

• Pero algunas simplificaciones nos permitirán trabajar en lapráctica

Page 45: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Primera simplificación: hipótesis MAP

• En lugar de hacer predicciones teniendo en cuenta todaslas hipótesis ponderadas cada una con P(h|d), lashacemos en base solamente a la hipótesis más probable aposteriori (notada como hMAP):

hMAP = argmaxh∈H

P(h|d) = argmaxh∈H

P(d |h)P(h)

• Esta última igualdad, por el teorema de Bayes

• En nuestro ejemplo, a partir del tercer caramelo extraídohMAP es h5

• Y por tanto nuestra predicción sería, con probabilidad 1,que el siguiente caramelo es de limón

• MAP no es la predicción óptima, pero a medida que setienen más datos, la predicción bayesiana y la predicciónMAP tienden a coincidir, ya que esta domina a las demás:P(X |d) ≈ P(X |hMAP)

Page 46: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Simplificando aún más: hipótesis ML

• Se busca la hipótesis MAP, pero suponiendo que todas lashipótesis son igualmente probables a priori:

• Esta hipótesis se denomina de máxima verosimilitud,notada hML (maximum likelihood en inglés):

hML = argmaxh∈H

P(d |h)

• Puede ser una buena aproximación al aprendizajebayesiano y a MAP, pero sólo cuando se maneja unconjunto de datos grande

• Tanto MAP como ML suelen ser más fácilescomputacionalmente que el aprendizaje bayesiano puro,ya que se tratan de problemas de optimización, en lugarde la realización de sumas (o integrales) enormes

Page 47: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje de redes bayesianas (con datoscompletos)

• Vamos a aplicar el aprendizaje tipo ML para aprender lastablas de probabilidad condicional de una red bayesiana:

• Hemos modelado nuestro dominio de conocimiento con unconjunto de variables aleatorias, en una red bayesiana dela cual desconocemos las tablas de probabilidad pero de laque sí conocemos su estructura

• Supondremos que tenemos un conjunto de datosobservados, y que cada dato es una observación completade valores concretos para cada v.a.

• Es un ejemplo de aprendizaje de parámetros: conocemosel modelo probabilístico, salvo los parámetros(probabilidades de las tablas) de los que depende

Page 48: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Un ejemplo (el más simple)

• Tenemos una bolsa de caramelos de naranja y limón enproporciones desconocidas. Supongamos que abrimos N

caramelos y que hemos observado que n son de naranja yl de limón. Queremos aprender la proporción decaramelos de naranja y limón de la bolsa

• La respuesta va a ser obvia, pero vamos a deducirla comohipótesis ML

• La situación se describe por esta simple red bayesiana, dela cual desconocemos el valor del parámetro θ:

Sabor

P(S=naranja)

θ

Page 49: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Un ejemplo (el más simple)

• Aplicaremos aprendizaje ML, en el que:• El conjunto de hipótesis es {θ : θ ∈ [0,1]} (infinito)• Todas las hipótesis son igualmente probables a priori

(suposición bastante razonable)• El conjunto de datos es el el dado por el sabor de los

caramelos que se han abierto

• Puesto que las observaciones son i.i.d., la verosimilitud delos datos es P(d |hθ) =

j P(dj |hθ) = θn · (1− θ)l

• Se trata de encontrar el valor de θ que maximiza dichaprobabilidad

Page 50: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Un ejemplo (el más simple)• Para maximizar, es habitual tomar el logaritmo de la

verosimilitud, ya que suele facilitar la tarea y no afecta alresultado; se denomina log-verosimilitud y se representamediante la letra L. En este caso:

L(d |hθ) =∑

j

log(P(dj |hθ)) = n · logθ + l · log(1− θ)

• Para encontrar el máximo, derivamos respecto de θ eigualamos a 0, obteniendo

dL

dθ=

n

θ− l

1− θ= 0⇒ θ =

n

n + l=

n

N

• Luego la hipótesis ML se obtiene cuando θ = nN

• Lo cual era obvio, pero este ejemplo ha ilustrado el quesuele ser el procedimiento general en estos casos:calcular verosimilitud, tomar logaritmo y encontrar elparámetro que hace la derivada igual a 0

Page 51: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Otro ejemplo

• Supongamos que un fabricante de caramelos de limón yde naranja fabrica bolsas de proporción desconocida.Además, cada caramelo tiene un envoltorio rojo o verde,envoltorio que depende probabilísticamente del sabor(pero tampoco conocemos dichas probabilidades)

• Supongamos que henos desenvuelto N caramelos de loscuales n son de naranja y l de limón. De los de naranja, rn

eran rojos y vn verdes. De los de limón rl eran rojos y vl

verdes

Page 52: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Otro ejemplo

• La situación se puede modelar con esta red bayesiana, dela cual desconocemos θ, θ1, θ2:

Sabor

Envoltorio

P(S=naranja)

θ

θ1

θ2

S

limon

P(E=r | S)

naranja

• En este caso, el conjunto de hipótesis es{〈θ, θ1, θ2〉 : θ, θ1, θ2 ∈ [0, 1]}

Page 53: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Otro ejemplo

• La verosimilitud de los datos es:

P(d |hθ,θ1,θ2) = θn · (1− θ)l · θrn

1 · (1− θ1)vn · θrl

2 · (1− θ2)vl

• Como antes, tomando logaritmos, derivando parcialmenterespecto de θ, θ1 y θ2 e igualando a 0, se obtiene lossiguientes valores para los parámetros:

θ =n

n + l, θ1 =

rn

n, θ2 =

rl

l

• Nuevamente, resultados bastante obvios• Por ejemplo, para estimar la probabilidad de que un

caramelo de limón tenga el envoltorio rojo, calculamos lafracción de caramelos con envoltorio rojo de entre todos losde limón

Page 54: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje paramétrico en redes bayesianas

• Los resultados del ejemplo anterior se extienden demanera natural a cualquier red bayesiana de la cualconocemos sus estructura pero desconocemos sus tablasde probabilidad

• Y además disponemos de un conjunto D de observacionescompletas

• Por ejemplo, si en una red los padres de X son Y1, . . . ,Yk ,para obtener la hipótesis ML para la entrada de la tabla deprobabilidad correspondiente aP(X = v |Y1 = a1, . . . ,Yk = ak ), simplemente calculamosla fracción de datos observados con valor de X = v deentre los que cumplen Y1 = a1, . . . ,Yk = ak

• Nótese que cada parámetro se aprende por separado y demanera local

Page 55: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje paramétrico en modelos continuos

• La misma aproximación ML se puede seguir para elaprendizaje de modelos probabilísticos continuos.

• Un ejemplo sencillo:• Supongamos que tenemos una serie de datos

d = 〈x1, x2, . . . , xn〉, con pesos de una serie de personas deun mismo pais, tomados de manera i.i.d.

• Esos datos pueden ser considerados valores que toma unavariable aleatoria continua Peso

• Asumiremos como conocido que Peso sigue unadistribución normal o de Gauss (cuya función de densidadnotaremos Nµ,σ). Esto es:

Nµ,σ(x) =1√2πσ

e−

(x−µ)2

2σ2

• Pero no conocemos ni la media µ ni la desviación típica σ

Page 56: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje paramétrico en modelos continuos

• El problema anterior se puede plantear como un problemade aprendizaje ML en el que el espacio de hipótesis vienedado por {(µ, σ) : µ, σ ∈ R}

• Los valores de µ y σ que aprenderemos serán aquellospara los cuales se maximice la verosimilitud de los datosobservados

• En este caso, la verosimilitud es:

P(d |hµ,σ) =N∏

i=1

Nµ,σ(xi) =N∏

i=1

1√2πσ

e−

(xi−µ)2

2σ2

Page 57: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje paramétrico en modelos continuos

• Como en los casos anteriores, tomando logaritmos,derivando parcialmente respecto de µ, y σ e igualando a 0,se obtiene los siguientes valores para los parámetros:

µ =

∑Ni=1 xi

Nσ =

∑Ni=1(xi − µ)2

N

• Nuevamente, los resultados esperados• Lo que se ha obtenido es que la hipótesis ML es aquella

que considera que los datos se han generado por unadistribución normal cuya media y desviación típica son lasde la muestra

Page 58: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificadores bayesianos

• Volvamos un momento a problemas de clasificación deinstancias definidas mediantes valores de atributos

• Como en el tema de aprendizaje de árboles de decisión yde reglas (primer cuatrimestre)

• Supongamos un conjunto de atributos A1, . . . ,An cuyosvalores determinan un valor en un conjunto finito V deposibles “clasificaciones”

• Tenemos un conjunto de entrenamiento D con una seriede tuplas de valores concretos para los atributos, junto consu clasificación

• Queremos aprender un clasificador tal que clasifiquenuevas instancias 〈a1, . . . , an〉

Page 59: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificadores bayesianos• Podemos diseñar un modelo probabilístico para un

problema de clasificación de este tipo, tomando losatributos y la clasificación como variables aleatorias

• El valor de clasificación asignado a una nueva instancia〈a1, . . . , an〉, notado vMAP vendrá dado por

argmaxvj∈V

P(vj |a1, . . . , an)

• Aplicando el teorema de Bayes podemos escribir

vMAP = argmaxvj∈V

P(a1, . . . , an|vj)P(vj)

• Y ahora, simplemente estimar las probabilidades de lafórmula anterior a partir del conjunto de entrenamiento

• Problema: necesitaríamos una gran cantidad de datospara estimar adecuadamente las probabilidadesP(a1, . . . , an|vj)

Page 60: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificadores Naive Bayes

• Podemos simplificar el aprendizaje suponiendo que losatributos son (mútuamente) condicionalmenteindependientes dado el valor de clasificación (de ahí lo de“naive”)

• La situación se representa entonces por la red:

V

A A A1 n2

• En ese caso, tomamos como valor de clasificación:

vNB = argmaxvj∈V

P(vj)∏

i

P(ai |vj)

Page 61: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificadores Naive Bayes

• Par el proceso de aprendizaje, sólo tenemos que estimarlas probabilidades P(vj) y P(ai |vj) (que son muchasmenos que en el caso general)

• Y además ya hemos visto cómo se obtienen estimacionesML de estas probabilidades, simplemente mediantecálculo de sus frecuencias en el conjunto deentrenamiento

• Nótese que a diferencia de otros métodos (como ID3) nohay una búsqueda en el espacio de hipótesis:simplemente contamos frecuencias

Page 62: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificador Naive Bayes: en ejemplo

• Vamos a aplicar el clasificador a un ejemplo ya conocido,usado en tema de árboles de decisión:

EJ. CIELO TEMPERATURA HUMEDAD VIENTO JUGARTENIS

D1 SOLEADO ALTA ALTA DÉBIL -D2 SOLEADO ALTA ALTA FUERTE -D3 NUBLADO ALTA ALTA DÉBIL +D4 LLUVIA SUAVE ALTA DÉBIL +D5 LLUVIA BAJA NORMAL DÉBIL +D6 LLUVIA BAJA NORMAL FUERTE -D7 NUBLADO BAJA NORMAL FUERTE +D8 SOLEADO SUAVE ALTA DÉBIL -D9 SOLEADO BAJA NORMAL DÉBIL +D10 LLUVIA SUAVE NORMAL DÉBIL +D11 SOLEADO SUAVE NORMAL FUERTE +D12 NUBLADO SUAVE ALTA FUERTE +D13 NUBLADO ALTA NORMAL DÉBIL +D14 LLUVIA SUAVE ALTA FUERTE -

Page 63: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificador Naive Bayes: en ejemplo

• Supongamos que queremos predecir si un día soleado, detemperatura suave, humedad alta y viento fuerte es buenopara jugar al tenis

• Según el clasificador Naive Bayes:

vNB = argmaxvj∈{+,−}

P(vj)P(soleado|vj)P(suave|vj)P(alta|vj)P(fuerte|vj)

• Así que necesitamos estimar todas estas probabilidades,lo que hacemos simplemente calculando frecuencias en latabla anterior:

• p(+) = 9/14, p(−) = 5/14, p(soleado|+) = 2/9,p(soleado|−) = 3/5, p(suave|+) = 4/9, p(suave|−) = 2/5,p(alta|+) = 2/9, p(alta|−) = 4/5, p(fuerte|+) = 3/9 yp(fuerte|−) = 3/5

Page 64: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clasificador Naive Bayes: en ejemplo

• Por tanto, las dos probabilidades a posteriori son:• P(+)P(soleado|+)P(suave|+)P(alta|+)P(fuerte|+) =

0,0053• P(−)P(soleado|−)P(suave|−)P(alta|−)P(fuerte|−) =

0,0206

• Así que el clasificador devuelve la clasificación con mayorprobabilidad a posteriori, en este caso la respuesta es −(no es un día bueno para jugar al tenis)

Page 65: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Detalles técnicos sobre las estimaciones

• Tal y como estamos calculando las estimaciones, existe elriesgo de que algunas de ellas sean excesivamente bajas

• Si realmente alguna de las probabilidades es baja ytenemos pocos ejemplos en el conjunto de entrenamiento,lo más seguro es que la estimación de esa probabilidadsea 0

• Esto plantea dos problemas:• La inexactitud de la propia estimación• Afecta enormemente a la clasificación que se calcule, ya

que se multiplican las probabilidades estimadas y por tantosi una de ellas es 0, anula a las demás

Page 66: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Detalles técnicos sobre las estimaciones

• Para evitarlo, y en lugar de la estimación directa, se sueleusar lo que se denomina m-estimación:

n′ + m · pn + m

• n es el número total de observaciones correspondiente auna clasificación

• n′ es el número de observaciones, de esas, que tienencomo valor de atributo el correspondiente al que se estáestimando

• p es una estimación a priori de la probabilidad que sequiere calcular. En ausencia de otra información, podría serp = 1/k , donde k es el número de valores del atributo

• m es una constante (llamada tamaño de muestreo

equivalente) que determina el peso de p en la fórmulaanterior

Page 67: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Naive Bayes: aplicaciones y comparativa

• A pesar de su aparente sencillez, los clasificadores NaiveBayes tienen un rendimiento comparable al de los árbolesde decisión, las reglas o las redes neuronales

• Algunas aplicaciones interesantes:• Clasificación de textos• Filtros anti-spam• Perfiles de usuarios web

Page 68: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clustering

• Como última aplicación del aprendizaje estadístico,trataremos técnicas de agrupamiento o clustering

• Se trata de dividir un conjunto de datos de entrada ensubconjuntos (clusters), de tal manera que los elementosde cada subconjunto compartan cierto patrón ocaracterísticas a priori desconocidas

• En nuestro caso, los datos serán números o vectores denúmeros y el número de clusters nos vendrá dado

• Aprendizaje no supervisado: no tenemos informaciónsobre qué cluster corresponde a cada dato.

• Aplicaciones de clustering:• Minería de datos• Procesamiento de imágenes digitales• Bioinformática

Page 69: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Dos ejemplos

• Color quantization:• Una imagen digital almacenada con 24 bits/pixel (aprox. 16

millones de colores) se tiene que mostrar sobre unapantalla que sólo tiene 8 bits/pixel (256 colores)

• ¿Cuál es la mejor correspondencia entre los colores de laimagen original y los colores que pueden ser mostrados enla pantalla?

• Mezcla de distribuciones:• Tenemos una serie de datos con el peso de personas de

un pais; no tenemos información sobre si el peso viene deun varón o de una mujer, pero sabemos que la distribuciónde pesos es de tipo normal, y que en los hombres esdistinta que en las mujeres

• Atendiendo a los datos, ¿podemos aprender de qué dosdistribuciones de probabilidad vienen?

Page 70: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Clustering basado en distancia

• Idea: dado el número k de grupos o clusters, buscar k

puntos o centros representantes de cada cluster, demanera que cada dato se considera en el clustercorrespondiente al centro que tiene a menor “distancia”

• El concepto de distancia será específico en cadaproblema:

• Expresará la medidad de similitud• La distancia más usada es la euclídea

Page 71: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Algunas distancias usadas en clustering

• Dados dos puntos x = (x1, . . . , xn) e y = (y1, . . . , yn),podemos medir la distancia entre ellos d(x , y) de muchasformas. Por ejemplo:

• Euclídea:√∑

i(xi − yi)2

• Manhattan:∑

i |xi − yi |• Máximo: maxi |xi − yi |• Hamming: número de componentes distintos

Page 72: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Un algoritmo clásico: k -medias

• Entrada: un número k de clusters, un conjunto de datos{xi}Ni=1 y una función de distancia

• Salida: un conjunto de k centros m1, . . . ,mk

K-MEDIAS(k,DATOS,distancia)1. Inicializar m_i (i=1,...,k) (aleatoriamente o con algún

criterio heurístico)2. REPETIR (hasta que los m_i no cambien):

2.1 PARA j=1,...,N, HACER:Calcular el cluster correspondiente a x_j, escogiendo,de entre todos los m_i, el m_h tal quedistancia(x_j,m_h) sea mínima

2.2 PARA i=1,...,k HACER:Asignar a m_i la media aritmética de los datosasignados al cluster i-ésimo

3. Devolver m_1,...,m_n

Page 73: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Idea gráfica intuitiva en el algoritmo de k -medias

■■■

■ ■

Iteracion 1

Iteracion 3

Iteracion 0

Iteracion 2

Page 74: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Ejemplo en el algoritmo k -medias

• Datos sobre pesos de la población: 51, 43, 62, 64, 45, 42,46, 45, 45, 62, 47, 52, 64, 51, 65, 48, 49, 46, 64, 51, 52,62, 49, 48, 62, 43, 40, 48, 64, 51, 63, 43, 65, 66, 65, 46,39, 62, 64, 52, 63, 64, 48, 64, 48, 51, 48, 64, 42, 48, 41

• El algoritmo, aplicado con k = 2 y distancia euclídea,encuentra dos centros m1 = 63,63 y m2 = 46,81 en tresiteraciones

• 19 datos pertenecen al primer cluster y 32 al segundocluster

Page 75: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Diversas cuestiones sobre el algoritmo k -medias

• Búsqueda local:• Puede verse como un algoritmo de búsqueda local, en el

que se trata de encontrar los centros mi que optimizanΣjΣibijd(xj ,mi)

2, donde bij vale 1 si xj tiene a mi como elcentro más cercano, 0 en otro caso

• Como todo algoritmo de búsqueda local, no tienegarantizado encontrar el óptimo global

• Inicialización: aleatoria o con alguna técnica heurística(por ejemplo, partir los datos aleatoriamente en k clustersy empezar con los centros de esos clusters)

• En la práctica, los centros con los que se inicie elalgoritmo tienen un gran impacto en la calidad de losresultados que se obtengan

Page 76: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Otro ejemplo en el algoritmo k -medias

• El archivo iris.arff del sistema WEKA contiene 150datos sobre longitudes y anchura de sépalo y pétalo deplantas del genero iris, clasificadas en tres tipos (setosa,versicolor y virgínica)

• Ejemplo de instancia de iris.arff:5.1,3.5,1.4,0.2,Iris-setosa

• Podemos aplicar k -medias, con k = 3 y distancia euclídea,ignorando el último atributo (como si no se conociera):

• En 6 iteraciones se estabiliza• De los tres clusters obtenidos, el primero incluye

justamente a las 50 instancias que originalmente estabanclasificadas como iris setosa

• El segundo cluster incluye a 47 versicolor y a 3 virgínicas• El tercero incluye 14 versicolor y 36 virgínicas• No ha sido capaz de discriminar correctamente entre

versicolor y virgínica

Page 77: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Una visión probabilística del clustering

• La aproximación del algoritmo k -medias al problema delclustering puede ser demasiado rígida, ya que asume quecada instancia pertenece de manera categórica a un únicocluster

• Visión probabilística:• Cada instancia tiene una probabilidad de pertenecer a

cada cluster• La pertenencia a cada cluster se rige por una distribución

de probabilidad distinta• Es lo que se conoce como una mezcla de distribuciones

• Aprendizaje ML: asumiendo que los datos han sidogenerados mediante una mezcla de distribuciones,encontrar el modelo probabilístico en el que los datosobservados alcancen la mayor probabilidad

• Para simplificar, supondremos que los datos son númerosreales. Es fácil generalizar estas técnicas a espacios dedimensión n

Page 78: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje de mezcla de distribuciones normales

• Supongamos una serie de datos D = {x1, . . . , xn} de unav.a. X que cuya distribución es una mezcla de kdistribuciones normales (o componentes). Es decir:

• Cada instancia xj ha sido generada escogiendo primerouna de las k componentes y luego generando una muestrarespecto de esa componente

• Es decir, si C es una variable aleatoria que indica lacomponente (con valores i = 1, . . . , k), se tiene:

P(X = x) =k∑

i=1

P(X = x ,C = i) =k∑

i=1

P(X = x |C = i)P(C = i)

• Asumiremos que P(X |C = i) sigue una distribución normalde media µi y desviación típica σi (i = 1, . . . , k)

• El problema es que no conocemos ni la distribución deprobabilidad de C (las probabilidades wi = P(C = i)) ni losparámetros µi y σi , i = 1, . . . , k

Page 79: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Aprendizaje de mezcla de distribuciones normales• ¿Podemos aplicar aprendizaje ML a este

problema?¿Podemos encontrar valores de wi , µi y σi

(i = 1, . . . , k ) que maximizan la probabilidad de los datosde D?

• Si conociéramos a qué componente pertenece cada xj

(j = 1, . . . ,N), podríamos estimar (ML) los parámetros:• Como ya hemos visto, las estimaciones ML de µi y σi

serían las medias y desviación típica de los datos de cadacomponente, y las de wi serían las proporciones de datosen cada componente

• Si conociéramos los wi , µi y σi , entonces podríamoscalcular si cada dato pertenece o no a cada una de lascomponente (o mejor dicho, la probabilidad de quepertenezca, aplicando el teorema de Bayes):

• P(C = i|X = xj) = αP(X = xj |C = i)P(C = i) = αNµi ,σi(xj)wi

donde Nµi ,σies la función de distribución normal

• Idea: alternar los pasos anteriores, en un algoritmo tipo EM

Page 80: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Algoritmo EM para clustering

• Inicializar los parámetros wi , µi y σi (i = 1, . . . , k ).

• Paso E: Calcular los valores esperadospij = P(C = i |X = xj) de pertenencia de cada xj a cadaclase, con los valores actuales de los parámetros

• Paso M: Realizar una nueva estimación de máximaverosimilitud de los parámetros wi , µi y σi , tomando los pij

como un “peso” de la pertenencia de cada datos xj a lacomponente i-ésima

• Repetir los dos pasos anteriores hasta satisfacer algúncriterio de convergencia

Page 81: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Pasos E y M en detalle

• Paso E. Para i = 1, . . . , k , j = 1, . . . ,N, hacer:

pij ←wiNµi ,σi

(xj)∑k

h=1 whNµh,σh(xj)

• Paso M. Para i = 1, . . . , k , hacer:

µi ←∑N

j=1 pijxj

Ni

σi ←

∑Nj=1 pij(xj − µi)2

Ni

wi ←Ni

N

donde Ni = ΣNj=1pij

Page 82: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Algunas consideraciones sobre el algoritmo EM

• Como en el caso de las redes bayesianas, se aplica EM aun problema de aprendizaje en el que hay variablesocultas

• En este caso, la componente de cada ejemplo

• Es posible demostrar que en cada iteración, los nuevosparámetros wi , µi y σi incrementan la log-verosimilitud delos datos respecto de la iteración anterior

• El criterio de parada del algoritmo suele estar basado en lacomprobación de que la log-verosimilitud se estabiliza

• No asegura un óptimo global, aunque sí converge hacia unóptimo local

• Es bastante usual repetir el proceso varias veces, condistintos valores inicales para los parámetros, tomandocomo resultado el de la ejecución que mejorlog-verosimilitud consiga

Page 83: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

EM aplicado a iris

• Usando WEKA, aplicamos el algoritmo EM al conjunto dedatos de iris.arff (versión multivariante)

• Para k = 3• Ignorando el último atributo, en el que aparece la clase de

cada ejemplo• Es razonable pensar que los datos de longitud y anchura

de sépalo y pétalo siguen distribuciones normalesmultivariantes, distintas según el tipo de iris

• Resultado:• Respecto de los datos originales, el algoritmo es capaz de

descubrir, sin errores, los 50 ejemplo de la clase“versicolor” y los 50 ejemplos de la clase “setosa”

• Sin embargo, aún incluye erróneamente, 14 de los 50ejemplos de la clase “virginica” dentro de la clase“versicolor”

Page 84: José Luis Ruiz Reina Franciso J. Martín Mateosque un paciente pueda o no tener caries, y la variable Dolor el hecho de que pueda o no sentir dolor. • Ejemplo: las variables aleatorias

Probabilidad Regla de Bayes Independencia Aprendizaje Estadístico Clasificadores bayesianos Clustering

Bibliografía

• Russell, S. y Norvig, P. Artificial Intelligence (A modernapproach) (Third edition) (Prentice Hall, 2003)

• Cap. 13: “Quantifying uncertainty”• Cap. 20: “Learning Probabilistic Models”

• Mitchell, T.M. Machine Learning (McGraw-Hill, 1997)• Cap. 6: “Bayesian Learning”