Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

18
Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee? Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005

description

Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?. Jan van Bruggen Ellen Rusman Bas Giesbers Oktober 2005. Learning networks (1). Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?. Activiteiten binnen ‘positioning’. - PowerPoint PPT Presentation

Transcript of Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Page 1: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Latente semantische analyse (LSA) en

erkenning van EVC’s: wat kunnen we ermee?

Jan van Bruggen

Ellen Rusman

Bas Giesbers

Oktober 2005

Page 2: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Learning networks (1)

Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?

Page 3: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Activiteiten binnen ‘positioning’1. Ontwikkelt richtlijnen rondom het gebruik van Latente

semantische Analyse (LSA) voor positionering

2. Specificeert, ontwikkelt en test een prototype ‘positioner’

3. Vergelijkt huidige praktijken van het erkennen van EVC’s met betrouwbaarheid en validiteit van computergebaseerde positionering

Page 4: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Gebruik van LSA:Nu vooral: Information retrieval grote, algemene corpora

Ook gebruik binnen onderwijssettings: Beoordeling van essays en terugkoppeling Matchen van studenten met instructie-tekst Hulp bij maken van samenvattingen

Binnen positioning: Relatief kleine, specifieke corpora Inhoudelijk ‘voorgeselecteerd’

Page 5: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Techniek: documentvectoren als basis

7 6 543210 0 1 2 3 4 5 6 7

C h i m p a n s ee

A

B

Gorilla

C

D

Page 6: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Latente Semantische Analyse

Gebaseerd op singuliere waarde ontbinding Sterke gelijkenis met principale componenten

analyse Symmetrische matrix M Eigenwaarden en eigenvectoren M = U Λ U’ Λ is diagonaalmatrix met geordende

eigenwaarden Reproductie: verwijder kleinste eigenwaarden

in Λ en kolomen en rijen in U en U’

Page 7: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Singuliere waardenontbinding (SVD)

Asymmetrische matrix (data-matrix) D = L S R’ S is diagonaal met geordende singuliere waarden Aantal S > 0 is gelijk aantal dimensies van de

matrix LSA: reproductie van matrix op basis van een

model met minder dimensies

ΣS2 = Σd2

Page 8: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Een voorbeeld: 8 * 8 matrix

P 1 2 3 2 4 1 2 1G 1 1 1 0 2 1 1 1A 2 1 2 1 3 2 3 0S 0 2 2 1 3 0 0 2H 2 3 1 1 5 0 1 1S 0 0 3 1 1 2 2 1Y 1 2 2 2 1 2 1 2K 1 1 2 0 5 0 2 0

Page 9: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

SVD in Excel

Singular Values13 4.7 3.6 2.4 1.2 0 0 0

Left matrix U-0.5 -0.1 0.0 -0.2 0.6 0.6 0.1 0.0-0.2 0.0 0.0 0.2 -0.7 0.6 0.1 0.0-0.4 -0.2 -0.5 0.4 0.0 -0.2 0.4 0.4

-0.3 0.1 0.5 -0.4 -0.2 -0.2 0.4 0.4-0.4 0.5 0.2 0.4 0.0 -0.2 0.1 -0.6-0.2 -0.6 -0.2 -0.4 -0.2 -0.2 0.1 -0.6-0.3 -0.5 0.5 0.4 0.0 -0.1 -0.6 0.2-0.4 0.4 -0.4 -0.4 -0.1 -0.1 -0.6 0.2

Right matrix V-0.2 0.1 -0.2 0.7 -0.1 0.7 0.0 0.0-0.3 0.2 0.5 0.3 0.1 -0.3 0.5 0.4-0.4 -0.4 0.0 -0.5 0.1 0.4 0.4 0.1-0.2 -0.3 0.3 0.1 0.8 0.0 -0.4 -0.2-0.7 0.6 -0.2 -0.2 -0.1 -0.1 -0.1 -0.4

-0.2 -0.6 -0.1 0.3 -0.3 -0.3 0.2 -0.5-0.3 -0.3 -0.5 0.1 0.0 -0.3 -0.3 0.6-0.2 -0.2 0.6 -0.1 -0.5 0.1 -0.5 0.2

Page 10: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Onze context

Datamatrix is Term*Document matrix met woordfrequenties in de cellen.

Heel veel cellen bevatten nullen Voor een ijle matrijs (sparse matrix) geldt:

Gemiddelde dicht bij nul Geringe variantie Cumulatieve waarden van S2 zijn een goede

benadering van de variantie (ΣS2 = Σd2)

Page 11: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Probleem

Positioning vergt discrimineren tussen documenten Hoge correlaties in homogene verzameling Lage correlaties tussen homogene verzamelingen

Stoppen en zo ja wat of hoeveel? Vind objectief criterium om aantal SW te bepalen:

Meer is niet beter ! Literatuur: 300 of meer; hoogste correlatie Maximale discriminatie Proportie verklaarde variantie Betrouwbaarheid SW > 1

Page 12: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Experiment met aapcorpus

Constructie corpus: Stoppen: 0, 30, 50 Stemmen

Bepalen query-set: Gorilla Orang oetan

Analyse

Page 13: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Analyses Correlatie:

Binnen Q-set (gorilla, orang oetan): hoog

Homogene set

Q met N-set: laag Heterogene set

Correlaties kennen een optimum verschil:

Correlaties Q-set hoog EN Correlaties N-set laag

Als aantal sv toeneemt, dalen correlaties door toename ruis

Page 14: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Resultaten (1)Query Gorilla niet genormaliseerd geen stoplijst

0.00

0.20

0.40

0.60

0.80

1.00

1.20

5 20 35 50 65 80 95 110

125

140

155

170

185

200

215

230

245

260

Aantal singuliere waarden

corr

elat

ies

en p

rop

. va

rian

tie

QSET

NSET

DISC

Prop Var.

Page 15: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Resultaten (2)Query gorilla niet genormaliseerd Stop 30

0.00

0.20

0.40

0.60

0.80

1.00

1.20

5 20 35 50 65 80 95 110

125

140

155

170

185

200

215

230

245

260

275

Aantal singuliere waarden

Co

rela

ties

en

pro

p.

vari

anti

e

QSET

NSET

Disc

Prop. Var.

Page 16: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Resultaten (3)

Query Gorilla niet genormaliseerd Stop 50

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

1.10

1.20

5 20 35 50 65 80 95 110

125

140

155

170

185

200

215

230

245

260

275

Aantal singuliere waarden

Co

rrel

atie

s en

pro

p.

vari

anti

e

QSET

NSET

Disc

Prop. Var.

Page 17: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Conclusies

De correlaties voor de Q-set zijn hoog Zonder stoppen zijn ze dat ook voor de N-set Dus: discrimineren lukt alleen onder stopping

condities Correlaties dalen met het toenemen van het

aantal SW

Page 18: Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?

Discussie

Waar zitten de gaten? Vind objectief criterium om aantal SW te bepalen:

Literatuur: 300 of meer Maximale discriminatie Proportie verklaarde variantie Betrouwbaarheid SW > 1