BESLISSINGSBOMEN
description
Transcript of BESLISSINGSBOMEN
BESLISSINGSBOMEN
Jan TalmonMedische InformaticaUniversiteit Maastricht
Opzet presentatie Algemene opmerkingen over
classificatie algoritmen Principes van classificatie bomen Issues
Keuze attributen, Splits, Stop criterium, Pruning, Missing values
Voor- en nadelen Toepassingen
Algemene opmerkingen Een classificatie algoritme maakt
een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte
X Yi
Algemene opmerkingen De uitkomstruimte is nominaal of
ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties
niet, licht, matig, ernstig, zeer ernstig
Algemene opmerkingen Parametrisch versus niet-
parametrisch One shot versus sequentieel Classificatiebomen zijn
Niet-parametrisch en sequentieel
Algemene opmerkingen Definities:
Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren
Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)
Opzet presentatie Algemene opmerkingen over
classificatie algoritmen Principes van classificatie bomen Issues
Keuze attributen, Splits, Stop criterium, Pruning, Missing values
Voor- en nadelen Toepassingen
Principes Een leerset deel je op in twee of
meer subsets Hiervoor wordt één attribuut
gebruikt Herhaal dit proces voor elke
subgroep die niet uit cases van slechts een uitkomst categorie bestaat.
Principes
P1
P2
P1>
P2>
Opzet presentatie Algemene opmerkingen over
classificatie algoritmen Principes van classificatie bomen Issues
Keuze attributen, Splits, Stop criterium, Pruning, Missing values
Voor- en nadelen Toepassingen
Issue: Keuze attributen We hebben een maat nodig die de
kwaliteit van een split aangeeft Entropie
Gemiddelde onzekerheid over de klassificatie van een case
ii
i ppE ln
Issue: Keuze attributen Door een split neemt de entropie af Voor elke subgroep j hebben we entropie Ej
Totale entropie na split=ES = pjxEj
We kiezen attribuut met minimale Es
Of met maximale entropie reductie H=E - Es
Issue: Splits Binair versus multiple splits Binair
Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden
P1
Issue: Splits Multiple
Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde
P1
Issue: Splits Multiple
Verwijder de potientele split die de entropie het minst doet toenemen
P1
P1
Issue: Splits Multiple
Bij nominale attributen kunnen we combinaties van attribuut waarden nemen
Gebruik weer entropie reductie als maat
Issue: Stop criterium We kunnen doorgaan tot dat elke
subgroep slechts cases bevat van een categorie
Slechte voorspellende waarde Ons model is aangepast aan de
leerset Wanneer stoppen we???
Issue: Stop criterium De entropie reductie is – onder
bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het
aantal subgroepen minus 1 Men kan dus de kans uitrekenen
dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft
Issue: Stop criterium Stop als deze kans > 0.05 Stop als deze kans voor een pad in
de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen
wanneer we stoppen met het weghalen van splits (minimale kans)
Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)
Issue: Pruning Pruning is het weghalen van
subtakken in de boom om een goede voorspellende waarde te houden
Pruning vereist een test-set Eindknopen met een slechte
voorspellende waarde op deze testset worden verwijderd
Deze testset is eigenlijk een leerset!!
Issue: Missing values Niet altijd zijn alle gegevens van
een case bekend. Zorg dat voor elke knoop een of
meer alternatieve attributen zijn die een “soortgelijke” split opleveren
P1>
M=5,k=20
M=15,k=2
A B
Issue missing values Splits een knoop in de boom Beschouw de splitsing nu als een
classificatie en probeer deze met de overige attributen te voorspellen.
a=10,b=13
A=15,b=4
P2>
Opzet presentatie Algemene opmerkingen over
classificatie algoritmen Principes van classificatie bomen Issues
Keuze attributen, Splits, Stop criterium, Pruning, Missing values
Voor- en nadelen Toepassingen
Voordelen Niet parametrisch Ordening is belangrijk, niet de maat Lokaal Snel Flexibel
Interactief Inzichtelijk
Nadelen Matige theoretische onderbouwing Grote leersets nodig
Elke split maakt de leerset voor de volgende laag kleiner
Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie
Geen vooruitziende blik Bouw geen boom maar een bos
Uitdagingen Gebruik domeinkennis Bv. sommig onderzoek doe je voor
ander, duurder onderzoek Hoe maak je kosten-effectieve
klassificatiebomen Incrementeel leren/leren van
fouten
Opzet presentatie Algemene opmerkingen over
classificatie algoritmen Principes van classificatie bomen Issues
Keuze attributen, Splits, Stop criterium, Pruning, Missing values
Voor- en nadelen Toepassingen
Toepassingen ECG analyse Voorspellen van de uitkomst van
endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van
medicatie bij epilepsie
Literatuur Quinlan: ID3 (1986), C4.5 Breiman: Classification And
Regression Trees (CART) Talmon: NPPA in: Pattern
Recognition Letters (1986)