Dm uitwerkingen wc4

3

Click here to load reader

Transcript of Dm uitwerkingen wc4

Page 1: Dm uitwerkingen wc4

DM2007 model theorie-opgaven week 4

1. Wat zijn de twee verschillen tussen perceptronleerregel en de leerregel gebruikt bij Winnow?

• de gewichten in perceptronleerregel worden vernieuwd door optellen of aftrekken, bijWinnow door vermenigvuldigen of delen. (1/2 punt)

• bij Winnow wordt de klasse bepaald door gebruik van een (aanpasbare) parametertheta, bij perceptron wordt de klasse bepaald door te kijken naar het teken (positief ofnegatief)(1/2 punt)

2. Bij instance learning kan de beste klasse worden bepaald door de testinstantie te vergelijken met alletrainingsinstanties. Waarom zijn kD-bomen efficienter voor het kiezen van de beste klasse voor eentestinstantie?

kD-bomen vinden een initiele nearest-neighbor gebaseerd op de leaf node waarin de nieuweinstantie valt. Vervolgens wordt er omhoog in de boom gekeken of er punten kunnen zijn diedichterbij liggen dan het initiele punt. Het aantal vergelijkingen dat gedaan moet wordenis (meestal) veel kleiner dan zonder boom, waarbij de nieuwe instantie met elke opgeslageninstatie vergeleken moet worden. (1 punt)

3. Uit de weerdata (Tabel 1.2 op bladzijde 11 van het boek) kan de itemset outlook=sunny; humid-ity=high; play=no worden afgeleid. Hoeveel associatieregels kunnen maximaal uit zo’n itemsetworden gehaald? En hoeveel van deze regels hebben in dit geval een accuraatheid van 100%?

Er kunnen 7 associatieregels afgeleid worden (zie voorbeeld op blz. 115 in tweede editie)(1/2 punt)Zoals te zien in de tabel hebben 2 regels 100% accuraatheid (1/2 punt)

regel accuraatheidif outlook = sunny and humidity = high then play = no 3/3if outlook = sunny and play = no then humidity = high 3/3if humidity = high and play = no then outlook = sunny 3/4if outlook = sunny then humidity = high and play = no 3/5if humidity = high then outlook = sunny and play = no 3/7if play = no then outlook = sunny and humidity = high 3/5if - then outlook = sunny and humidity = high and play = no 3/14

4. Leid de beste dekkingsregel (covering rule) af voor de aanbeveling ”soft” volgens de contactlensdata(Tabel 1.1 op bladzijde 6 van de tweede editie van het boek). Laat alle stappen van de afleiding zien engeef bij elke stap aan wat de dekking en selectie is van de afgeleide voorwaarden. Indien er meerdere”beste” beste dekkingsregels zijn dan hoeft u daar maar 1 van af te leiden. zie tabel op volgendebladzijde (1 punt)

5. Reken uit hoeveel entropy(1,4) bedraagt. Geef niet alleen een getal als antwoord maar laat allestappen van de berekening zien. (1 punt)

Er had moeten staan: bereken info[1,4] .info[1,4] = entropy(1/5,4/5)entropy(1/5,4/5) = -1/5 * log(1/5) - 4/5 * log(4/5) = 0.464 + 0.258 = 0.722 bits

Page 2: Dm uitwerkingen wc4

if ? then recommendation = soft- age = young 2/8- age = pre-pres. 2/8- age = pres. 1/8- spec. pres. = myope 2/12- spec. pres. = hyperm. 3/12- astig. = no 5/12- astig. = yes 0/12- tear pr. = reduced 0/12- tear pr. = normal 5/12if astig. = no and ? then recommendation = soft- age = young 2/4- age = pre-pres. 2/4- age = pres. 1/4- spec. pres. = myope 2/6- spec. pres. = hyperm. 3/6- tear pr. = reduced 0/6- tear pr. = normal 5/6if astig. = no and tear pr. = normal and ? then recommendation = soft- age = young 2/2- age = pre-pres. 2/2- age = pres. 1/2- spec. pres. = myope 2/3- spec. pres. = hyperm. 3/3if astig. = no and tear pr. = normal and spec. pres. = hyperm. then recommendation = soft

Page 3: Dm uitwerkingen wc4

6. Bij een clusteringprobleem met zes datapunten en drie clusters als doel, start k-means in de volgendesituatie (o: datapunten 1-6; x: clustercentra A-C; afstanden C4 = A3 > B4 = B3). Hoe liggen declustercentra nadat het algoritme is toegepast? (1/2 punt) Is die eindsituatie optimaal?

Gezien het aantal clusters en de ligging van de datapunten is deze eindsituatie optimaal.(1/2 punt)

7. Leg het concept Lift uit aan de hand van een voorbeeld uit Tabel ”Performance of the Profiling Mod-ule” op bladzijde 69.

Lift is het relatieve verschil dat extra kennis heeft op de correctheid bij de uitvoering van eentaak, in vergelijking met de aprioricorrectheid (correctheid zonder extra kennis). (1 punt)

Bijvoorbeeld, de apriorikan op een kind in de leeftijd 2 tot en met 11 is 0.2482. In de se-lectie van het profilingsysteem is deze kans 0.8421. De lift veroorzaakt door het systeem is0.8421/0.2482=3.39.

8. Het ADS-systeem krijgt via PVRs alleen te zien waarnaar gekeken wordt en niet wie er kijkt. Hoekomt het systeem desondanks aan modellen gebaseerd op leeftijd en geslacht van de kijker?

De training set bevat de samenstellingen van de huishoudens (leeftijden, geslachten) en doordit te combineren met het kijkgedrag kunnen modellen geleerd worden die aan de hand vanhet kijkgedrag een schatting doen van de samenstelling van het huishouden. (1 punt)

9. De Profiling Module deelt verschillende huishoudens in in clusters. Als je die clusters vergelijktmet de vormen genoemd in sectie 4.8 van het Dataminingboek, zijn ze dan exclusief, overlappend ofprobabilistisch?

Probabilistisch; er wordt met een percentage aangeduid hoe groot de kans is dat een huishoudentot een bepaald cluster hoort. (1 punt)

10. Aan het einde van de sectie ”Departure from Traditional Role” doen de auteurs vier voorstellen overhoe om te gaan met de verzamelde informatie. Wat vindt u van deze voorstellen? Licht uw antwoordtoe.

eigen mening (1 punt)