Dm uitwerkingen wc2

2
Datamining 2007 antwoordmodel werkcollege-opgaven, week 2 N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordt verwacht dat zij normale Nederlandse zinnen gebruiken. 1. Wat is het verschil tussen associatie-regels en classificatie-regels? Associatieregels kunnen elk attribuut voorspellen, classificatieregels alleen de class. Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver- schillende associatieregels verschillende onderliggende regelmatigheden beschrijven. (1 punt) 2. Geef twee methoden voor het behandelen van missende attribuutwaar- den in decision trees. behandel ”missing value” als een zelfstandige attribuutwaarde kies de populairste tak voor een instantie met missende waarde verdeel de instantie met missende waarde over de verschillende takken, waarbij elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak. (goed>=2: 1 punt; 0<goed<2: 1/2 punt) 3. Vind je decision tables een goed methode om kennis in op te slaan voor datamining? Motiveer je antwoord. Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of data? (1 punt) 4. Bij instance learning bestaat het model van de data uit de (onveran- derde) data zelf. Waarin zit de intelligentie van deze methode? Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking is de intelligentie van instance learning. (1 punt) 5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default, except, if, then en else), en een if-then-else-regel die precies dezelfde informatie uitdrukt. (1/2 punt per regel) Voorbeeld: Default: limonade except if alcohol > 1% then bier except if alcohol > 11% then wijn except if alcohol > 16% then sterke drank 1

Transcript of Dm uitwerkingen wc2

Page 1: Dm uitwerkingen wc2

Datamining 2007 antwoordmodel werkcollege-opgaven, week 2N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordtverwacht dat zij normale Nederlandse zinnen gebruiken.

1. Wat is het verschil tussen associatie-regels en classificatie-regels?Associatieregels kunnen elk attribuut voorspellen, classificatieregels alleen de class.Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver-schillende associatieregels verschillende onderliggende regelmatigheden beschrijven.(1 punt)

2. Geef twee methoden voor het behandelen van missende attribuutwaar-den in decision trees.

• behandel ”missing value” als een zelfstandige attribuutwaarde

• kies de populairste tak voor een instantie met missende waarde

• verdeel de instantie met missende waarde over de verschillende takken, waarbijelk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak.(goed>=2: 1 punt; 0<goed<2: 1/2 punt)

3. Vind je decision tables een goed methode om kennis in op te slaan voordatamining? Motiveer je antwoord.

Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis ofdata? (1 punt)

4. Bij instance learning bestaat het model van de data uit de (onveran-derde) data zelf. Waarin zit de intelligentie van deze methode?

Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en erwordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijkingis de intelligentie van instance learning. (1 punt)

5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default,except, if, then en else), en een if-then-else-regel die precies dezelfdeinformatie uitdrukt. (1/2 punt per regel)

Voorbeeld:

Default: limonadeexcept if alcohol > 1%

then bierexcept if alcohol > 11%

then wijnexcept if alcohol > 16%

then sterke drank

1

Page 2: Dm uitwerkingen wc2

if alcohol > 16%then sterke drankelse if alcohol > 11%

then wijnelse if alcohol > 1%

then bierelse limonade

6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re-gressieboom en een modelboom voor hetzelfde probleem (figuur 3.7 ben c). Leg uit waarom de modelboom nauwkeuriger is.

De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijlde modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardesdus nog verder kunnen specificeren. De modelboom combineert de voordelen vanregressievergelijkingen en -bomen. (1 punt)

7. De plaatjes in het boek bij instance learning (editie 2, figuren 3.8c en3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus-tering eigenlijk hetzelfde doen? Motiveer je antwoord.

Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clusteringclasses onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veelop elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties denieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowelinstance learning als bij clustering. (1 punt)

8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont-dekt.

Swanson haalde kernwoorden met een significante frequentie uit artikelen over mi-graine en herhaalde voor elk kernwoord het proces van documenten zoeken enkernwoorden identificeren. Zo kwam hij via ”spreading depression” bij magne-siumtekort. (1 punt)

9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald.Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkhedendie bij deze taak zouden kunnen optreden

• referenties: hoe weet je dat ”him” naar ”a man” verwijst• ambiguiteit: is ”another American” een derde gegijzelde, of verwijst het naar

een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeldwordt (en zijn er dus maar 2 gegijzelden).

• slaat ”in Iraq” op de verwanten, de man of beiden?• wanneer zijn de 48 uur ingegaan?

(goed>=2: 1 punt; 0<goed<2: 1/2 punt)

10. Wat is de voornaamste boodschap van het artikel? Bent u het hier meeeens? Waarom?

Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moetworden over de implementatie. (1/2 punt) Eigen mening (1/2 punt).

2