Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?
description
Transcript of Latente semantische analyse (LSA) en erkenning van EVC’s: wat kunnen we ermee?
Latente semantische analyse (LSA) en
erkenning van EVC’s: wat kunnen we ermee?
Jan van Bruggen
Ellen Rusman
Bas Giesbers
Oktober 2005
Learning networks (1)
Hoe weten lerenden met welke leereenheid ze beginnen óf verder gaan binnen het leernetwerk?
Activiteiten binnen ‘positioning’1. Ontwikkelt richtlijnen rondom het gebruik van Latente
semantische Analyse (LSA) voor positionering
2. Specificeert, ontwikkelt en test een prototype ‘positioner’
3. Vergelijkt huidige praktijken van het erkennen van EVC’s met betrouwbaarheid en validiteit van computergebaseerde positionering
Gebruik van LSA:Nu vooral: Information retrieval grote, algemene corpora
Ook gebruik binnen onderwijssettings: Beoordeling van essays en terugkoppeling Matchen van studenten met instructie-tekst Hulp bij maken van samenvattingen
Binnen positioning: Relatief kleine, specifieke corpora Inhoudelijk ‘voorgeselecteerd’
Techniek: documentvectoren als basis
7 6 543210 0 1 2 3 4 5 6 7
C h i m p a n s ee
A
B
Gorilla
C
D
Latente Semantische Analyse
Gebaseerd op singuliere waarde ontbinding Sterke gelijkenis met principale componenten
analyse Symmetrische matrix M Eigenwaarden en eigenvectoren M = U Λ U’ Λ is diagonaalmatrix met geordende
eigenwaarden Reproductie: verwijder kleinste eigenwaarden
in Λ en kolomen en rijen in U en U’
Singuliere waardenontbinding (SVD)
Asymmetrische matrix (data-matrix) D = L S R’ S is diagonaal met geordende singuliere waarden Aantal S > 0 is gelijk aantal dimensies van de
matrix LSA: reproductie van matrix op basis van een
model met minder dimensies
ΣS2 = Σd2
Een voorbeeld: 8 * 8 matrix
P 1 2 3 2 4 1 2 1G 1 1 1 0 2 1 1 1A 2 1 2 1 3 2 3 0S 0 2 2 1 3 0 0 2H 2 3 1 1 5 0 1 1S 0 0 3 1 1 2 2 1Y 1 2 2 2 1 2 1 2K 1 1 2 0 5 0 2 0
SVD in Excel
Singular Values13 4.7 3.6 2.4 1.2 0 0 0
Left matrix U-0.5 -0.1 0.0 -0.2 0.6 0.6 0.1 0.0-0.2 0.0 0.0 0.2 -0.7 0.6 0.1 0.0-0.4 -0.2 -0.5 0.4 0.0 -0.2 0.4 0.4
-0.3 0.1 0.5 -0.4 -0.2 -0.2 0.4 0.4-0.4 0.5 0.2 0.4 0.0 -0.2 0.1 -0.6-0.2 -0.6 -0.2 -0.4 -0.2 -0.2 0.1 -0.6-0.3 -0.5 0.5 0.4 0.0 -0.1 -0.6 0.2-0.4 0.4 -0.4 -0.4 -0.1 -0.1 -0.6 0.2
Right matrix V-0.2 0.1 -0.2 0.7 -0.1 0.7 0.0 0.0-0.3 0.2 0.5 0.3 0.1 -0.3 0.5 0.4-0.4 -0.4 0.0 -0.5 0.1 0.4 0.4 0.1-0.2 -0.3 0.3 0.1 0.8 0.0 -0.4 -0.2-0.7 0.6 -0.2 -0.2 -0.1 -0.1 -0.1 -0.4
-0.2 -0.6 -0.1 0.3 -0.3 -0.3 0.2 -0.5-0.3 -0.3 -0.5 0.1 0.0 -0.3 -0.3 0.6-0.2 -0.2 0.6 -0.1 -0.5 0.1 -0.5 0.2
Onze context
Datamatrix is Term*Document matrix met woordfrequenties in de cellen.
Heel veel cellen bevatten nullen Voor een ijle matrijs (sparse matrix) geldt:
Gemiddelde dicht bij nul Geringe variantie Cumulatieve waarden van S2 zijn een goede
benadering van de variantie (ΣS2 = Σd2)
Probleem
Positioning vergt discrimineren tussen documenten Hoge correlaties in homogene verzameling Lage correlaties tussen homogene verzamelingen
Stoppen en zo ja wat of hoeveel? Vind objectief criterium om aantal SW te bepalen:
Meer is niet beter ! Literatuur: 300 of meer; hoogste correlatie Maximale discriminatie Proportie verklaarde variantie Betrouwbaarheid SW > 1
Experiment met aapcorpus
Constructie corpus: Stoppen: 0, 30, 50 Stemmen
Bepalen query-set: Gorilla Orang oetan
Analyse
Analyses Correlatie:
Binnen Q-set (gorilla, orang oetan): hoog
Homogene set
Q met N-set: laag Heterogene set
Correlaties kennen een optimum verschil:
Correlaties Q-set hoog EN Correlaties N-set laag
Als aantal sv toeneemt, dalen correlaties door toename ruis
Resultaten (1)Query Gorilla niet genormaliseerd geen stoplijst
0.00
0.20
0.40
0.60
0.80
1.00
1.20
5 20 35 50 65 80 95 110
125
140
155
170
185
200
215
230
245
260
Aantal singuliere waarden
corr
elat
ies
en p
rop
. va
rian
tie
QSET
NSET
DISC
Prop Var.
Resultaten (2)Query gorilla niet genormaliseerd Stop 30
0.00
0.20
0.40
0.60
0.80
1.00
1.20
5 20 35 50 65 80 95 110
125
140
155
170
185
200
215
230
245
260
275
Aantal singuliere waarden
Co
rela
ties
en
pro
p.
vari
anti
e
QSET
NSET
Disc
Prop. Var.
Resultaten (3)
Query Gorilla niet genormaliseerd Stop 50
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
5 20 35 50 65 80 95 110
125
140
155
170
185
200
215
230
245
260
275
Aantal singuliere waarden
Co
rrel
atie
s en
pro
p.
vari
anti
e
QSET
NSET
Disc
Prop. Var.
Conclusies
De correlaties voor de Q-set zijn hoog Zonder stoppen zijn ze dat ook voor de N-set Dus: discrimineren lukt alleen onder stopping
condities Correlaties dalen met het toenemen van het
aantal SW
Discussie
Waar zitten de gaten? Vind objectief criterium om aantal SW te bepalen:
Literatuur: 300 of meer Maximale discriminatie Proportie verklaarde variantie Betrouwbaarheid SW > 1