Ranking binaire, agrégation multiclasses
Embed Size (px)
description
Transcript of Ranking binaire, agrégation multiclasses

Intro Ranking binaire Ranking multi-classes Conclusion References
Ranking binaire et agregation pour le casmulti-classes
Sylvain Robbiano
4 novembre 2011
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations
Base de donnees UCI : Cardiotocography
Environ 1000 individus
20 caracteristiques
Un label (Normal ; Suspect ; Pathologique)
Apprendre de facon automatique a ordonner les patients
Utilisation de fonction de scoring (s : X → R)
x′2 x′7 x′n−1 x′1 x′4 . . .P S P P N . . .
Nombreux domaines d’application :
finance (credit-scoring), medecine (diagnostic medical),
recherche de documents (moteurs de recherche), automobile,etc.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations
t ∈ R 7→ (P {s(X) > t | Y = 0} ,P {s(X) > t | Y = 1}) .
ROCF0,F1(s, α) = 1− Fs,1 ◦ F−1s,0 (1− α)
Figure: Courbe ROC
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations
Optimalite
Pour tout s ∈ S,∀α ∈ [0, 1] ROCF0,F1(s, α) ≤ ROCF0,F1(Φ10, α).Donc
S∗F0,F1= {s ∈ S telles que : ∀(x, x′) ∈ X 2 :
ΦF1,F0(x) < ΦF1,F0(x′)⇒ s(x) < s(x′)}
AUC
Definition, AUCF0,F1(s) =∫α∈[0,1] ROCF0,F1(s, α)dα
AUCF0,F1(s) = P{
s(X) < s(X′)|Y = 0,Y′ = 1}
+1
2P{s(X) = s(X ′)|Y = 0, Y ′ = 1
}.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations
Notations
X l’espace des caracteristiques (souvent ⊂ Rd)
Y l’ensemble des classes
µ loi marginale de X
ηi(x) = P (Y = i|X = x)
η(x) = E[Y |X = x] la fonction de regression
En binaire
Y = {0, 1}p = P{Y = 1}η1(x) = η(x)
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesExemple illustratif Notations
1 Introduction
2 Ranking binaire
3 Ranking multi-classes
4 Conclusion
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
RLSrank et SVMrank
f(x) =∑n
i=1 βik(x, xi)
SVMrank
arg minf∈H
n1∑i=1
n0∑j=1
I{f(xi)− f(xj) < 0}+ λ‖f‖2k
RLSrank
arg minf∈H
n1∑i=1
n0∑j=1
(1− (f(xi)− f(xj)))2 + λ‖f‖2k
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
RankBoost
Entree. D = {(xi, yi)}, w1(i, j) = 1/(n1n0) .
Pour t=1,..,T
1 Trouver le classifieur ht qui maximise le score enfonction des wt
rt = maxht∈H
n1∑i=1
n0∑j=1
wt(i, j)(ht(xi)− ht(xj))
2 Choix du poids du classifieur αt = 12 ln 1+rt
1−rt
3 MAJ des poidswt+1(i, j) ∝ wt(i, j) exp(αt(ht(xi)− ht(xj)))
Sortie. H(x) =∑T
t=1 αtht(x).
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Utilisation des rangs
Idee
Trouver s ∈ S qui minimise
Wn(s) =1
n1
n∑i=1
I{Yi = 1}φ(Rank(s(Xi))
n+ 1
)
φ(u) = u (AUC)
φ(u) = uI{u ≥ u0} ([CV07])
φ(u) = up ([Rud06])
φ(u) = c((n+ 1)u)I{u ≥ k/(n+ 1)} (DCG)
Proposition ([CV09a])
Sous de bonnes conditions Wn(s) converge versE[φ(Fs(s(X))|Y = 1]
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Methodes plug-in
Idee
Estimer directement η(x) = P{Y = 1|X = x} et s’en servircomme fonction de scoring.
Inconvenient
Difficultes liees a la dimension des donnees.
Resultat theorique
Sous de bonnes conditions l’estimateur plug-in atteint la vitesseminimax [CR11].
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Arbres d’ordonnancement
Arbre binaire oriente T , deracine l’espace d’entree X
Chaque noeud est scinde endeux selon une regle departitionnement portee par lesbranches de T , de sorte amaximiser l’AUC
La fonction de score sT est constante par morceaux, caracteriseepar la partition ordonnee de X definie par les feuilles de T
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Approximation affine par morceaux de la courbe ROC optimale
Procedure d’approximation adaptative et iterative de la courbe ROC∗
par une fonction affine par morceaux, ROC∗.
Initialisation : X
ROC∗
: diagonale principale del’espace ROC
Premiere iteration : X = C+ ∪ C−
ROC∗
: ligne brisee a 2segments d’AUC maximale
Iterations sur les nouveaux
segments de ROC∗
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Approximation affine par morceaux de la courbe ROC optimale
Procedure d’approximation adaptative et iterative de la courbe ROC∗
par une fonction affine par morceaux, ROC∗.
Initialisation : X
ROC∗
: diagonale principale del’espace ROC
Premiere iteration : X = C+ ∪ C−
ROC∗
: ligne brisee a 2segments d’AUC maximale
Iterations sur les nouveaux
segments de ROC∗
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Approximation affine par morceaux de la courbe ROC optimale
Procedure d’approximation adaptative et iterative de la courbe ROC∗
par une fonction affine par morceaux, ROC∗.
Initialisation : X
ROC∗
: diagonale principale del’espace ROC
Premiere iteration : X = C+ ∪ C−
ROC∗
: ligne brisee a 2segments d’AUC maximale
Iterations sur les nouveaux
segments de ROC∗
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Un probleme de classification binaire ponderee
Iteration : introduction d’un point dans la courbe ROC∗
Le noeud C est scinde en deux C = C+ ∪ C−...
...de sorte a maximiser l’AUC.
On obtient la courbe ROC∗ de s : x→ 2 · I{x ∈ C+} − 1...
...associee a C+ = {x ∈ X : η(x) ≥ p}, ou p = PC{Y = 1},...
...qui est solution du probleme de classification binaireponderee :
minC+⊂C 2p(1− p) · P{X /∈ C+, Y = +1}+ 2p(1− p) · P{X ∈ C+, Y =−1}
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesOptimisation de l’AUC La methode TreeRank
Conclusion sur TreeRank
Convergence asymptotique en norme L1 et L∞ souscertaines hypotheses de regularite sur la courbe ROC∗
([CV09b])
Un empilement de problemes de classification
Le probleme d’ordonnancement binaire peut etre vu comme uncontinuum de problemes de classification binaire ponderee, quiconsiste a estimer la collection Cη = {x ∈ X : η(x) ≥ u}u∈(0,1) desensembles de niveaux de la probabilite a posteriori.
N’importe quel algorithme de classification...
...arbres de classification, SVM...
...selon les contraintes du probleme pose :
Flexibilite, interpretabilite du modele, temps de calcul, etc.
http ://treerank.sourceforge.net/Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Y = {1, 2, 3}.Fi la fonction de repartition de X sachant que la classe Y = i.
φi(x) = Fi(dx)/µ(dx) la densite conditionnelle de X|Y = i.
Φi,j = φi/φj
S = {s : X → R}S∗i,j l’ensemble des fonctions optimales pour la tache i contrej.
Fs,k designe la fonction de repartition de s(X) sachant queY = k.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Definition
S∗ = ∩k>lSk,l
Hypothese
( MLR ) Pour tout (k, l) ∈ {1, 2}2, pour tout (x, x′) ∈ X 2, on a :Φk+1,k(x) < Φk+1,k(x
′)⇒ Φl+1,l(x) ≤ Φl+1,l(x′).
Proposition
S∗ est non vide ssi l’hypothese MLR est verifiee. En particulier,η ∈ S∗.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Surface ROC
Cs,t(x) =
3∑k=1
k · I{tk−1 < s(x) ≤ tk}
ou −∞ = t0 < t1 ≤ t2 < t3 =∞.
Definition
M(t) = (Fs,1(t1), Fs,2(t2)− Fs,2(t1), 1− Fs,3(t2)) ,
ou t1 ≤ t2
∀(α, γ) ∈ [0, 1]2, ROC(s, α, γ) =(
Fs,2 ◦ F−1s,3 (1− γ)− Fs,2 ◦ F−1
s,1 (α))
+
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Proprietes de la surface ROC
Pour toutes distributions F1(dx), F2(dx) et F3(dx) sur X et pourtoute fonction de scoring s ∈ S, on a les proprietes suivantes.
Intersections avec une face de l’espace ROC.
Invariance. pour toute fonction strictement croissante T ,
ROC(T ◦ s, α, γ) = ROC(s, α, γ).
Concavite. Si l’hypothese (MLR) est verifiee, la surfaceROC∗ est concave.
Differentiabilite.
∂
∂αROC(s, α, γ) = −fs,2
fs,1
(F−1s,1 (α)
)quand fs,1(F−1
s,1 (α)) > 0,
∂
∂γROC(s, α, γ) = −fs,2
fs,3
(F−1s,3 (1− γ)
)quand fs,3(F−1
s,3 (1− γ)) > 0.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Volume sous la surface ROC
Proposition
VUS(s) = P {s(X1) < s(X2) < s(X3)|Y1 = 1,Y2 = 2,Y3 = 3}
+1
2P {s(X1) = s(X2) < s(X3)|Y1 = 1, Y2 = 2, Y3 = 3}
+1
2P {s(X1) < s(X2) = s(X3)|Y1 = 1, Y2 = 2, Y3 = 3}
+1
6P {s(X1) = s(X2) = s(X3)|Y1 = 1, Y2 = 2, Y3 = 3} ,
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Critere pour le ranking
Proposition
Si l’hypothese (MLR) est verifiee alors ∀(α, γ) ∈ [0, 1]2 on a
ROC(s, α, γ) ≤ ROC∗(α, γ).
Proposition
Si il existe s∗ telle que pour toute s ∈ S, on ait : ∀(α, γ) ∈ [0, 1]2
ROC(s, α, γ) ≤ ROC(s∗, α, γ).
Alors S∗ est non vide et s∗ est dans S∗.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Borne ponctuelle pour la surface ROC
R(i)s,α = {x ∈ X |s(x) > Q(i)(s, α)}
ou Q(i)(s, α) est le quantile d’ordre α de Fs,i.
Theoreme
Supposons que l’hypothese MLR soit verifiee et que s∗ et s ont deslois continues. On a : ∀(α, γ) ∈ [0, 1]2
ROC∗(α, γ)− ROC(s, α, γ)
≤ 1
p2E[|η1(x)−Q(1)(η1, α)|I
R∗(1)α ∆R
(1)s,α
]
+1
p2E[|η3(X)−Q(3)(η3, 1− γ)|I
R∗(3)1−γ∆R
(3)s,1−γ
]
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Deficit de VUS
Theoreme
Supposons que l’hypothese MLR soit verifiee. Alors, pour toutefonction s ∈ S, on a
VUS∗ −VUS(s) ≤(AUC∗F1,F2
−AUCF1,F2(s))
+(AUC∗F2,F3
−AUCF2,F3(s)).
Theoreme
Sous l’hypothese MLR, on a :
VUS∗ −VUS(η) ≤ p1 + p3
p1p2p3E[|η(X)− η(X)|]
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
AUCF0,F1(s) = P{
s(X) < s(X′)|Y = 0,Y′ = 1}
+1
2P{s(X) = s(X ′)|Y = 0, Y ′ = 1
}.
τ de Kendall
τ (V,W ) = P{(V − V ′
)·(W −W ′
)> 0}
+1
2P{V 6= V ′, W = W ′
}+
1
2P{V = V ′, W 6= W ′
}.
Proposition
|AUCF1,F2(s1)−AUCF1,F2(s2)| ≤ 1− τν (s1, s2)
4p(1− p)=
dτν (s1, s2)
2p(1− p).
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Agregation via le τ de Kendall pour l’ordonnancementmulti-classes
Entree. Echantillons de donnees D et D′, unalgorithme d’ordonnancement A, sous ensemble S1 defonctions de scoring.
1 Apprentissage des fonctions de scoring pourchaque paire.
2 Agregation des regles de scoring. Calculer s(x) dansS1 ⊂ S
K−1∑k=1
τµ
(s, s(k)
)= max
s∈S1
K−1∑k=1
τµ
(s, s(k)
),
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Resultat theorique
Proposition
Sous de bonnes conditions,
dτν (s∗, s) ≤ C ·(AUC∗F1,F2
−AUCF1,F2(s))a/(1+a)
,
Proposition
Sous de bonnes conditions, si sn(x)(resp s′n(x)) estAUC-consistante pour la tache 1 contre 2 (resp 2 contre 3) alorsla procedure d’agregation est VUS-consistante.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
s∗ s∗1,2 s∗2,3 η1 η2 η3
0.2 0.2 0.2 0.7692 0.2000 0.03080.4 0.4 0.2 0.6250 0.3250 0.05000.6 0.8 0.6 0.3968 0.4127 0.19050.8 0.8 0.8 0.3731 0.3881 0.23881 1 1 0.3030 0.3939 0.30301.25 1.25 1 0.2581 0.4194 0.32261.66 1.66 1.66 0.1682 0.3645 0.46732.5 2.5 2.5 0.0952 0.3095 0.59525 2.5 5 0.0597 0.1940 0.7463
a.Echantillon simule.
b.Ensembles de
niveaux optimaux.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Table: Comparaison des VUS : VUS∗ = 0.3855
Method VUS(σ)
TreeRank 1v2 0.3681 (±0.0060)TreeRank 2v3 0.3611 (±0.0056)TreeRank 1v3 0.3774 (±0.0037)TreeRank Agg 0.3818 (±0.0027)RankBoostVUS 0.3681 (±0.0013)RankBoost Agg 0.3687 (±0.0013)SVMrank lin 0.3557 (±0.0008)SVMrank gauss 0.3734 (±0.0008)RLScore lin 0.3554 (±0.0005)RLScore gauss 0.3742 (±0.0007)
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion ReferencesNotations Optimalite Agregation Simulations
Table: Comparaison des VUS test - ”Cardiotocography”
Method VUS test
TreeRank 1v2 0.2357TreeRank 2v3 0.3314TreeRank 1v3 0.6932TreeRank Agg 0.8141RankBoostVUS 0.8346RankBoost Agg 0.8959SVMrank lin 0.7202SVMrank gauss 0.7856RLScore lin 0.7652RLScore gauss 0.7829
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion References
Tour d’horizon du cas binaire
Ranking multi-classes : hypothese MLR et surface ROC
Procedure d’agregation et comparaison empirique avec l’etatde l’art
Algorithme de ranking multi-classes ayant pour objectif le VUS
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes

Intro Ranking binaire Ranking multi-classes Conclusion References
[CR11] S. Clemencon and S. Robbiano. Minimax learning ratesfor bipartite ranking and plug-in rules. In Procedings ofICML, 2011.
[CV07] S. Clemencon and N. Vayatis. Ranking the bestinstances. Journal of Machine Learning Research,8 :2671–2699, 2007.
[CV09a] S. Clemencon and N. Vayatis. Empirical performancemaximization based on linear rank statistics. In NIPS,volume 3559 of Lecture Notes in Computer Science,pages 1–15. Springer, 2009.
[CV09b] S. Clemencon and N. Vayatis. Tree-based rankingmethods. IEEE Transactions on Information Theory,55(9) :4316–4336, 2009.
[Rud06] C. Rudin. Ranking with a P-Norm Push. In Proceedingsof COLT, 2006.
Sylvain Robbiano Ranking binaire et agregation pour le cas multi-classes