BESLISSINGSBOMEN

29
BESLISSINGSBOMEN Jan Talmon Medische Informatica Universiteit Maastricht

description

BESLISSINGSBOMEN. Jan Talmon Medische Informatica Universiteit Maastricht. Opzet presentatie. Algemene opmerkingen over classificatie algoritmen Principes van classificatie bomen Issues Keuze attributen, Splits , Stop criterium , Pruning , Missing values Voor- en nadelen - PowerPoint PPT Presentation

Transcript of BESLISSINGSBOMEN

Page 1: BESLISSINGSBOMEN

BESLISSINGSBOMEN

Jan TalmonMedische InformaticaUniversiteit Maastricht

Page 2: BESLISSINGSBOMEN

Opzet presentatie Algemene opmerkingen over

classificatie algoritmen Principes van classificatie bomen Issues

Keuze attributen, Splits, Stop criterium, Pruning, Missing values

Voor- en nadelen Toepassingen

Page 3: BESLISSINGSBOMEN

Algemene opmerkingen Een classificatie algoritme maakt

een afbeelding van een n-dimensionale meetvector op een 1-dimensionale uitkomstruimte

X Yi

Page 4: BESLISSINGSBOMEN

Algemene opmerkingen De uitkomstruimte is nominaal of

ordinaal met een beperkt aantal uitkomsten. Ziekte categorieen Gradaties

niet, licht, matig, ernstig, zeer ernstig

Page 5: BESLISSINGSBOMEN

Algemene opmerkingen Parametrisch versus niet-

parametrisch One shot versus sequentieel Classificatiebomen zijn

Niet-parametrisch en sequentieel

Page 6: BESLISSINGSBOMEN

Algemene opmerkingen Definities:

Leerset: de verzameling cases die gebruikt wordt om een algoritme te leren

Attribuut: een kenmerk waarmee de cases gekarakteriseerd worden (leeftijd, geslacht, bloeddruk, etc)

Page 7: BESLISSINGSBOMEN

Opzet presentatie Algemene opmerkingen over

classificatie algoritmen Principes van classificatie bomen Issues

Keuze attributen, Splits, Stop criterium, Pruning, Missing values

Voor- en nadelen Toepassingen

Page 8: BESLISSINGSBOMEN

Principes Een leerset deel je op in twee of

meer subsets Hiervoor wordt één attribuut

gebruikt Herhaal dit proces voor elke

subgroep die niet uit cases van slechts een uitkomst categorie bestaat.

Page 9: BESLISSINGSBOMEN

Principes

P1

P2

P1>

P2>

Page 10: BESLISSINGSBOMEN

Opzet presentatie Algemene opmerkingen over

classificatie algoritmen Principes van classificatie bomen Issues

Keuze attributen, Splits, Stop criterium, Pruning, Missing values

Voor- en nadelen Toepassingen

Page 11: BESLISSINGSBOMEN

Issue: Keuze attributen We hebben een maat nodig die de

kwaliteit van een split aangeeft Entropie

Gemiddelde onzekerheid over de klassificatie van een case

ii

i ppE ln

Page 12: BESLISSINGSBOMEN

Issue: Keuze attributen Door een split neemt de entropie af Voor elke subgroep j hebben we entropie Ej

Totale entropie na split=ES = pjxEj

We kiezen attribuut met minimale Es

Of met maximale entropie reductie H=E - Es

Page 13: BESLISSINGSBOMEN

Issue: Splits Binair versus multiple splits Binair

Past niet goed bij klassifikatieproblemen met meer dan twee uitkomstwaarden

P1

Page 14: BESLISSINGSBOMEN

Issue: Splits Multiple

Veel splits zorgen voor een grote entropie reductie, maar hebben slechte voorspellende waarde

P1

Page 15: BESLISSINGSBOMEN

Issue: Splits Multiple

Verwijder de potientele split die de entropie het minst doet toenemen

P1

P1

Page 16: BESLISSINGSBOMEN

Issue: Splits Multiple

Bij nominale attributen kunnen we combinaties van attribuut waarden nemen

Gebruik weer entropie reductie als maat

Page 17: BESLISSINGSBOMEN

Issue: Stop criterium We kunnen doorgaan tot dat elke

subgroep slechts cases bevat van een categorie

Slechte voorspellende waarde Ons model is aangepast aan de

leerset Wanneer stoppen we???

Page 18: BESLISSINGSBOMEN

Issue: Stop criterium De entropie reductie is – onder

bepaalde voorwaarden – chi-kwadraat verdeeld. Het aantal vrijheidsgraden is het

aantal subgroepen minus 1 Men kan dus de kans uitrekenen

dat een bepaalde entropie reductie optreedt terwijl het attribuut geen voorspellende waarde heeft

Page 19: BESLISSINGSBOMEN

Issue: Stop criterium Stop als deze kans > 0.05 Stop als deze kans voor een pad in

de boom groter wordt dan 0.05 Gebruik deze kans ook om te bepalen

wanneer we stoppen met het weghalen van splits (minimale kans)

Gebruik deze kans ook voor de keuze van het beste attribuut (minimale kans)

Page 20: BESLISSINGSBOMEN

Issue: Pruning Pruning is het weghalen van

subtakken in de boom om een goede voorspellende waarde te houden

Pruning vereist een test-set Eindknopen met een slechte

voorspellende waarde op deze testset worden verwijderd

Deze testset is eigenlijk een leerset!!

Page 21: BESLISSINGSBOMEN

Issue: Missing values Niet altijd zijn alle gegevens van

een case bekend. Zorg dat voor elke knoop een of

meer alternatieve attributen zijn die een “soortgelijke” split opleveren

Page 22: BESLISSINGSBOMEN

P1>

M=5,k=20

M=15,k=2

A B

Issue missing values Splits een knoop in de boom Beschouw de splitsing nu als een

classificatie en probeer deze met de overige attributen te voorspellen.

a=10,b=13

A=15,b=4

P2>

Page 23: BESLISSINGSBOMEN

Opzet presentatie Algemene opmerkingen over

classificatie algoritmen Principes van classificatie bomen Issues

Keuze attributen, Splits, Stop criterium, Pruning, Missing values

Voor- en nadelen Toepassingen

Page 24: BESLISSINGSBOMEN

Voordelen Niet parametrisch Ordening is belangrijk, niet de maat Lokaal Snel Flexibel

Interactief Inzichtelijk

Page 25: BESLISSINGSBOMEN

Nadelen Matige theoretische onderbouwing Grote leersets nodig

Elke split maakt de leerset voor de volgende laag kleiner

Geen interactie tussen variablen Transformaties: +, -, x, / Combinatorische explosie

Geen vooruitziende blik Bouw geen boom maar een bos

Page 26: BESLISSINGSBOMEN

Uitdagingen Gebruik domeinkennis Bv. sommig onderzoek doe je voor

ander, duurder onderzoek Hoe maak je kosten-effectieve

klassificatiebomen Incrementeel leren/leren van

fouten

Page 27: BESLISSINGSBOMEN

Opzet presentatie Algemene opmerkingen over

classificatie algoritmen Principes van classificatie bomen Issues

Keuze attributen, Splits, Stop criterium, Pruning, Missing values

Voor- en nadelen Toepassingen

Page 28: BESLISSINGSBOMEN

Toepassingen ECG analyse Voorspellen van de uitkomst van

endoscopisch onderzoek Beoordeling vaatlab gegevens Criteria voor het aanpassen van

medicatie bij epilepsie

Page 29: BESLISSINGSBOMEN

Literatuur Quinlan: ID3 (1986), C4.5 Breiman: Classification And

Regression Trees (CART) Talmon: NPPA in: Pattern

Recognition Letters (1986)