BESLISSINGSBOMEN

BESLISSINGSBOMEN

Jan TalmonMedische InformaticaUniversiteit Maastricht

Opzet presentatie Algemene opmerkingen over

classificatie algoritmen Principes van classificatie bomen Issues

Keuze attributen, Splits, Stop criterium, Pruning, Missing values

Voor- en nadelen Toepassingen

Algemene opmerkingen Een classificatie algoritme maakt

een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte

X Yi

Algemene opmerkingen De uitkomstruimte is nominaal of

ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties

niet, licht, matig, ernstig, zeer ernstig

Algemene opmerkingen Parametrisch versus niet-

parametrisch One shot versus sequentieel Classificatiebomen zijn

Niet-parametrisch en sequentieel

Algemene opmerkingen Definities:

Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren

Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)

Principes Een leerset deel je op in twee of

meer subsets Hiervoor wordt één attribuut

gebruikt Herhaal dit proces voor elke

subgroep die niet uit cases van slechts een uitkomst categorie bestaat.

Principes

P1

P2

P1>

P2>

Issue: Keuze attributen We hebben een maat nodig die de

kwaliteit van een split aangeeft Entropie

Gemiddelde onzekerheid over de klassificatie van een case

ii

i ppE ln

Issue: Keuze attributen Door een split neemt de entropie af Voor elke subgroep j hebben we entropie Ej

Totale entropie na split=ES = pjxEj

We kiezen attribuut met minimale Es

Of met maximale entropie reductie H=E - Es

Issue: Splits Binair versus multiple splits Binair

Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden

P1

Issue: Splits Multiple

Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde

P1


Verwijder de potientele split die de entropie het minst doet toenemen

P1

P1


Bij nominale attributen kunnen we combinaties van attribuut waarden nemen

Gebruik weer entropie reductie als maat

Issue: Stop criterium We kunnen doorgaan tot dat elke

subgroep slechts cases bevat van een categorie

Slechte voorspellende waarde Ons model is aangepast aan de

leerset Wanneer stoppen we???

Issue: Stop criterium De entropie reductie is – onder

bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het

aantal subgroepen minus 1 Men kan dus de kans uitrekenen

dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft

Issue: Stop criterium Stop als deze kans > 0.05 Stop als deze kans voor een pad in

de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen

wanneer we stoppen met het weghalen van splits (minimale kans)

Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)

Issue: Pruning Pruning is het weghalen van

subtakken in de boom om een goede voorspellende waarde te houden

Pruning vereist een test-set Eindknopen met een slechte

voorspellende waarde op deze testset worden verwijderd

Deze testset is eigenlijk een leerset!!

Issue: Missing values Niet altijd zijn alle gegevens van

een case bekend. Zorg dat voor elke knoop een of

meer alternatieve attributen zijn die een “soortgelijke” split opleveren

P1>

M=5,k=20

M=15,k=2

A B

Issue missing values Splits een knoop in de boom Beschouw de splitsing nu als een

classificatie en probeer deze met de overige attributen te voorspellen.

a=10,b=13

A=15,b=4

P2>

Voordelen Niet parametrisch Ordening is belangrijk, niet de maat Lokaal Snel Flexibel

Interactief Inzichtelijk

Nadelen Matige theoretische onderbouwing Grote leersets nodig

Elke split maakt de leerset voor de volgende laag kleiner

Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie

Geen vooruitziende blik Bouw geen boom maar een bos

Uitdagingen Gebruik domeinkennis Bv. sommig onderzoek doe je voor

ander, duurder onderzoek Hoe maak je kosten-effectieve

klassificatiebomen Incrementeel leren/leren van

fouten

Toepassingen ECG analyse Voorspellen van de uitkomst van

endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van

medicatie bij epilepsie

Literatuur Quinlan: ID3 (1986), C4.5 Breiman: Classification And

Regression Trees (CART) Talmon: NPPA in: Pattern

Recognition Letters (1986)

BESLISSINGSBOMEN

Documents

Transcript of BESLISSINGSBOMEN