Ranking binaire, agrégation multiclasses

33
Intro Ranking binaire Ranking multi-classes Conclusion Ranking binaire et agr´ egation pour le cas multi-classes Sylvain Robbiano 4 novembre 2011 Sylvain Robbiano Ranking binaire et agr´ egation pour le cas multi-classes

description

Sylvain Robianno, Telecom Paris

Transcript of Ranking binaire, agrégation multiclasses

Page 1: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion References

Ranking binaire et agregation pour le casmulti-classes

Sylvain Robbiano

4 novembre 2011

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 2: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations

Base de donnees UCI : Cardiotocography

Environ 1000 individus

20 caracteristiques

Un label (Normal ; Suspect ; Pathologique)

Apprendre de facon automatique a ordonner les patients

Utilisation de fonction de scoring (s : X → R)

x′2 x′7 x′n−1 x′1 x′4 . . .P S P P N . . .

Nombreux domaines d’application :

finance (credit-scoring), medecine (diagnostic medical),

recherche de documents (moteurs de recherche), automobile,etc.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 3: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations

t ∈ R 7→ (P {s(X) > t | Y = 0} ,P {s(X) > t | Y = 1}) .

ROCF0,F1(s, α) = 1− Fs,1 ◦ F−1s,0 (1− α)

Figure: Courbe ROC

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 4: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations

Optimalite

Pour tout s ∈ S,∀α ∈ [0, 1] ROCF0,F1(s, α) ≤ ROCF0,F1(Φ10, α).Donc

S∗F0,F1= {s ∈ S telles que : ∀(x, x′) ∈ X 2 :

ΦF1,F0(x) < ΦF1,F0(x′)⇒ s(x) < s(x′)}

AUC

Definition, AUCF0,F1(s) =∫α∈[0,1] ROCF0,F1(s, α)dα

AUCF0,F1(s) = P{

s(X) < s(X′)|Y = 0,Y′ = 1}

+1

2P{s(X) = s(X ′)|Y = 0, Y ′ = 1

}.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 5: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations

Notations

X l’espace des caracteristiques (souvent ⊂ Rd)

Y l’ensemble des classes

µ loi marginale de X

ηi(x) = P (Y = i|X = x)

η(x) = E[Y |X = x] la fonction de regression

En binaire

Y = {0, 1}p = P{Y = 1}η1(x) = η(x)

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 6: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations

1 Introduction

2 Ranking binaire

3 Ranking multi-classes

4 Conclusion

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 7: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

RLSrank et SVMrank

f(x) =∑n

i=1 βik(x, xi)

SVMrank

arg minf∈H

n1∑i=1

n0∑j=1

I{f(xi)− f(xj) < 0}+ λ‖f‖2k

RLSrank

arg minf∈H

n1∑i=1

n0∑j=1

(1− (f(xi)− f(xj)))2 + λ‖f‖2k

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 8: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

RankBoost

Entree. D = {(xi, yi)}, w1(i, j) = 1/(n1n0) .

Pour t=1,..,T

1 Trouver le classifieur ht qui maximise le score enfonction des wt

rt = maxht∈H

n1∑i=1

n0∑j=1

wt(i, j)(ht(xi)− ht(xj))

2 Choix du poids du classifieur αt = 12 ln 1+rt

1−rt

3 MAJ des poidswt+1(i, j) ∝ wt(i, j) exp(αt(ht(xi)− ht(xj)))

Sortie. H(x) =∑T

t=1 αtht(x).

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 9: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Utilisation des rangs

Idee

Trouver s ∈ S qui minimise

Wn(s) =1

n1

n∑i=1

I{Yi = 1}φ(Rank(s(Xi))

n+ 1

)

φ(u) = u (AUC)

φ(u) = uI{u ≥ u0} ([CV07])

φ(u) = up ([Rud06])

φ(u) = c((n+ 1)u)I{u ≥ k/(n+ 1)} (DCG)

Proposition ([CV09a])

Sous de bonnes conditions Wn(s) converge versE[φ(Fs(s(X))|Y = 1]

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 10: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Methodes plug-in

Idee

Estimer directement η(x) = P{Y = 1|X = x} et s’en servircomme fonction de scoring.

Inconvenient

Difficultes liees a la dimension des donnees.

Resultat theorique

Sous de bonnes conditions l’estimateur plug-in atteint la vitesseminimax [CR11].

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 11: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Arbres d’ordonnancement

Arbre binaire oriente T , deracine l’espace d’entree X

Chaque noeud est scinde endeux selon une regle departitionnement portee par lesbranches de T , de sorte amaximiser l’AUC

La fonction de score sT est constante par morceaux, caracteriseepar la partition ordonnee de X definie par les feuilles de T

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 12: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Approximation affine par morceaux de la courbe ROC optimale

Procedure d’approximation adaptative et iterative de la courbe ROC∗

par une fonction affine par morceaux, ROC∗.

Initialisation : X

ROC∗

: diagonale principale del’espace ROC

Premiere iteration : X = C+ ∪ C−

ROC∗

: ligne brisee a 2segments d’AUC maximale

Iterations sur les nouveaux

segments de ROC∗

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 13: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Approximation affine par morceaux de la courbe ROC optimale

Procedure d’approximation adaptative et iterative de la courbe ROC∗

par une fonction affine par morceaux, ROC∗.

Initialisation : X

ROC∗

: diagonale principale del’espace ROC

Premiere iteration : X = C+ ∪ C−

ROC∗

: ligne brisee a 2segments d’AUC maximale

Iterations sur les nouveaux

segments de ROC∗

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 14: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Approximation affine par morceaux de la courbe ROC optimale

Procedure d’approximation adaptative et iterative de la courbe ROC∗

par une fonction affine par morceaux, ROC∗.

Initialisation : X

ROC∗

: diagonale principale del’espace ROC

Premiere iteration : X = C+ ∪ C−

ROC∗

: ligne brisee a 2segments d’AUC maximale

Iterations sur les nouveaux

segments de ROC∗

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 15: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Un probleme de classification binaire ponderee

Iteration : introduction d’un point dans la courbe ROC∗

Le noeud C est scinde en deux C = C+ ∪ C−...

...de sorte a maximiser l’AUC.

On obtient la courbe ROC∗ de s : x→ 2 · I{x ∈ C+} − 1...

...associee a C+ = {x ∈ X : η(x) ≥ p}, ou p = PC{Y = 1},...

...qui est solution du probleme de classification binaireponderee :

minC+⊂C 2p(1− p) · P{X /∈ C+, Y = +1}+ 2p(1− p) · P{X ∈ C+, Y =−1}

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 16: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank

Conclusion sur TreeRank

Convergence asymptotique en norme L1 et L∞ souscertaines hypotheses de regularite sur la courbe ROC∗

([CV09b])

Un empilement de problemes de classification

Le probleme d’ordonnancement binaire peut etre vu comme uncontinuum de problemes de classification binaire ponderee, quiconsiste a estimer la collection Cη = {x ∈ X : η(x) ≥ u}u∈(0,1) desensembles de niveaux de la probabilite a posteriori.

N’importe quel algorithme de classification...

...arbres de classification, SVM...

...selon les contraintes du probleme pose :

Flexibilite, interpretabilite du modele, temps de calcul, etc.

http ://treerank.sourceforge.net/Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 17: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Y = {1, 2, 3}.Fi la fonction de repartition de X sachant que la classe Y = i.

φi(x) = Fi(dx)/µ(dx) la densite conditionnelle de X|Y = i.

Φi,j = φi/φj

S = {s : X → R}S∗i,j l’ensemble des fonctions optimales pour la tache i contrej.

Fs,k designe la fonction de repartition de s(X) sachant queY = k.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 18: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Definition

S∗ = ∩k>lSk,l

Hypothese

( MLR ) Pour tout (k, l) ∈ {1, 2}2, pour tout (x, x′) ∈ X 2, on a :Φk+1,k(x) < Φk+1,k(x

′)⇒ Φl+1,l(x) ≤ Φl+1,l(x′).

Proposition

S∗ est non vide ssi l’hypothese MLR est verifiee. En particulier,η ∈ S∗.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 19: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Surface ROC

Cs,t(x) =

3∑k=1

k · I{tk−1 < s(x) ≤ tk}

ou −∞ = t0 < t1 ≤ t2 < t3 =∞.

Definition

M(t) = (Fs,1(t1), Fs,2(t2)− Fs,2(t1), 1− Fs,3(t2)) ,

ou t1 ≤ t2

∀(α, γ) ∈ [0, 1]2, ROC(s, α, γ) =(

Fs,2 ◦ F−1s,3 (1− γ)− Fs,2 ◦ F−1

s,1 (α))

+

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 20: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 21: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Proprietes de la surface ROC

Pour toutes distributions F1(dx), F2(dx) et F3(dx) sur X et pourtoute fonction de scoring s ∈ S, on a les proprietes suivantes.

Intersections avec une face de l’espace ROC.

Invariance. pour toute fonction strictement croissante T ,

ROC(T ◦ s, α, γ) = ROC(s, α, γ).

Concavite. Si l’hypothese (MLR) est verifiee, la surfaceROC∗ est concave.

Differentiabilite.

∂αROC(s, α, γ) = −fs,2

fs,1

(F−1s,1 (α)

)quand fs,1(F−1

s,1 (α)) > 0,

∂γROC(s, α, γ) = −fs,2

fs,3

(F−1s,3 (1− γ)

)quand fs,3(F−1

s,3 (1− γ)) > 0.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 22: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Volume sous la surface ROC

Proposition

VUS(s) = P {s(X1) < s(X2) < s(X3)|Y1 = 1,Y2 = 2,Y3 = 3}

+1

2P {s(X1) = s(X2) < s(X3)|Y1 = 1, Y2 = 2, Y3 = 3}

+1

2P {s(X1) < s(X2) = s(X3)|Y1 = 1, Y2 = 2, Y3 = 3}

+1

6P {s(X1) = s(X2) = s(X3)|Y1 = 1, Y2 = 2, Y3 = 3} ,

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 23: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Critere pour le ranking

Proposition

Si l’hypothese (MLR) est verifiee alors ∀(α, γ) ∈ [0, 1]2 on a

ROC(s, α, γ) ≤ ROC∗(α, γ).

Proposition

Si il existe s∗ telle que pour toute s ∈ S, on ait : ∀(α, γ) ∈ [0, 1]2

ROC(s, α, γ) ≤ ROC(s∗, α, γ).

Alors S∗ est non vide et s∗ est dans S∗.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 24: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Borne ponctuelle pour la surface ROC

R(i)s,α = {x ∈ X |s(x) > Q(i)(s, α)}

ou Q(i)(s, α) est le quantile d’ordre α de Fs,i.

Theoreme

Supposons que l’hypothese MLR soit verifiee et que s∗ et s ont deslois continues. On a : ∀(α, γ) ∈ [0, 1]2

ROC∗(α, γ)− ROC(s, α, γ)

≤ 1

p2E[|η1(x)−Q(1)(η1, α)|I

R∗(1)α ∆R

(1)s,α

]

+1

p2E[|η3(X)−Q(3)(η3, 1− γ)|I

R∗(3)1−γ∆R

(3)s,1−γ

]

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 25: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Deficit de VUS

Theoreme

Supposons que l’hypothese MLR soit verifiee. Alors, pour toutefonction s ∈ S, on a

VUS∗ −VUS(s) ≤(AUC∗F1,F2

−AUCF1,F2(s))

+(AUC∗F2,F3

−AUCF2,F3(s)).

Theoreme

Sous l’hypothese MLR, on a :

VUS∗ −VUS(η) ≤ p1 + p3

p1p2p3E[|η(X)− η(X)|]

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 26: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

AUCF0,F1(s) = P{

s(X) < s(X′)|Y = 0,Y′ = 1}

+1

2P{s(X) = s(X ′)|Y = 0, Y ′ = 1

}.

τ de Kendall

τ (V,W ) = P{(V − V ′

)·(W −W ′

)> 0}

+1

2P{V 6= V ′, W = W ′

}+

1

2P{V = V ′, W 6= W ′

}.

Proposition

|AUCF1,F2(s1)−AUCF1,F2(s2)| ≤ 1− τν (s1, s2)

4p(1− p)=

dτν (s1, s2)

2p(1− p).

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 27: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Agregation via le τ de Kendall pour l’ordonnancementmulti-classes

Entree. Echantillons de donnees D et D′, unalgorithme d’ordonnancement A, sous ensemble S1 defonctions de scoring.

1 Apprentissage des fonctions de scoring pourchaque paire.

2 Agregation des regles de scoring. Calculer s(x) dansS1 ⊂ S

K−1∑k=1

τµ

(s, s(k)

)= max

s∈S1

K−1∑k=1

τµ

(s, s(k)

),

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 28: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Resultat theorique

Proposition

Sous de bonnes conditions,

dτν (s∗, s) ≤ C ·(AUC∗F1,F2

−AUCF1,F2(s))a/(1+a)

,

Proposition

Sous de bonnes conditions, si sn(x)(resp s′n(x)) estAUC-consistante pour la tache 1 contre 2 (resp 2 contre 3) alorsla procedure d’agregation est VUS-consistante.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 29: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

s∗ s∗1,2 s∗2,3 η1 η2 η3

0.2 0.2 0.2 0.7692 0.2000 0.03080.4 0.4 0.2 0.6250 0.3250 0.05000.6 0.8 0.6 0.3968 0.4127 0.19050.8 0.8 0.8 0.3731 0.3881 0.23881 1 1 0.3030 0.3939 0.30301.25 1.25 1 0.2581 0.4194 0.32261.66 1.66 1.66 0.1682 0.3645 0.46732.5 2.5 2.5 0.0952 0.3095 0.59525 2.5 5 0.0597 0.1940 0.7463

a.Echantillon simule.

b.Ensembles de

niveaux optimaux.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 30: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Table: Comparaison des VUS : VUS∗ = 0.3855

Method VUS(σ)

TreeRank 1v2 0.3681 (±0.0060)TreeRank 2v3 0.3611 (±0.0056)TreeRank 1v3 0.3774 (±0.0037)TreeRank Agg 0.3818 (±0.0027)RankBoostVUS 0.3681 (±0.0013)RankBoost Agg 0.3687 (±0.0013)SVMrank lin 0.3557 (±0.0008)SVMrank gauss 0.3734 (±0.0008)RLScore lin 0.3554 (±0.0005)RLScore gauss 0.3742 (±0.0007)

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 31: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations

Table: Comparaison des VUS test - ”Cardiotocography”

Method VUS test

TreeRank 1v2 0.2357TreeRank 2v3 0.3314TreeRank 1v3 0.6932TreeRank Agg 0.8141RankBoostVUS 0.8346RankBoost Agg 0.8959SVMrank lin 0.7202SVMrank gauss 0.7856RLScore lin 0.7652RLScore gauss 0.7829

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 32: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion References

Tour d’horizon du cas binaire

Ranking multi-classes : hypothese MLR et surface ROC

Procedure d’agregation et comparaison empirique avec l’etatde l’art

Algorithme de ranking multi-classes ayant pour objectif le VUS

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Page 33: Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion References

[CR11] S. Clemencon and S. Robbiano. Minimax learning ratesfor bipartite ranking and plug-in rules. In Procedings ofICML, 2011.

[CV07] S. Clemencon and N. Vayatis. Ranking the bestinstances. Journal of Machine Learning Research,8 :2671–2699, 2007.

[CV09a] S. Clemencon and N. Vayatis. Empirical performancemaximization based on linear rank statistics. In NIPS,volume 3559 of Lecture Notes in Computer Science,pages 1–15. Springer, 2009.

[CV09b] S. Clemencon and N. Vayatis. Tree-based rankingmethods. IEEE Transactions on Information Theory,55(9) :4316–4336, 2009.

[Rud06] C. Rudin. Ranking with a P-Norm Push. In Proceedingsof COLT, 2006.

Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes