SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn...

8
HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT SEMANTISCHE ANALYSE VAN TEKST MARIEKE VAN ERP

Transcript of SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn...

Page 1: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT

SEMANTISCHE ANALYSE VAN TEKST

MARIEKE VAN ERP

Page 2: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

Taalvariatie maakt teksten interessant en laat zien hoe mensen zich door de tijd heen uitdrukten. Maar taalvariatie maakt taalinterpretatie ook moeilijk. Om in de KB kranten alle artikelen over ‘branden’ te krijgen, moet je waarschijnlijk ook op ‘vuur’ zoeken, en misschien ook wel op alle spellingvariaties en verouderde synoniemen. Aan de andere kant kan hetzelfde woord ook meerdere betekenissen hebben zoals ‘paard’ (gaat het over het dier, het turnstel of het schaakstuk?). Door middel van taaltechnologie kunnen we de computer ‘leren’ om te gaan met taalvariatie.

Taaltechnologie

HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT

Waarom semantische analyse?

Page 3: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

101Taaltechnologie

Taaltechnologie is het onderzoeksveld dat zich bezighoudt met het interpreteren van taal door computers. In het veld werken informatici en taalkundigen samen om software te ontwikkelen die in tekst woordsoorten kan herkennen, de grammaticale structuur van een tekst kan analyseren, namen kan herkennen, en teksten kan vertalen. Recent is daar ook de samenwerking met Semantic Web onderzoekers bij gekomen om achtergrondkennis bij het proces te betrekken.

Toepassingen: - Zoekmachines - SIRI/Alexa/Cortana - Spellingcorrectie - Autocomplete - Business analytics

Informatica Linguistiek

Semantic Web

Page 4: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

Adder

Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen niet voor alle diersoorten exemplaren verzameld zijn op ieder punt in de tijd, maar krantenberichten maken vaak melding van voorkomens van bepaalde dieren.

HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT

Als je alleen op trefwoord ‘adder’ zoekt krijg je ook artkelen terug met melding ‘addertje onder het gras’ en ‘adderringslang’ (uit de taxonomische familie Natricidae en niet Viperidae waar de adders onder vallen)

Page 5: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT

Beroepen

‘Computer’ betekende vroeger iemand d ie berekeningen uitvoerde, nu verwijst het naar machine. Schrijvers, auteurs en dichters vallen in eenzelfde b e r o e p s g r o e p , e v e n a l s docenten, leraren en leraressen.

Gebouwen

G e b o u w e n e n a d r e s s e n veranderen regelmatig van naam. De Singel in Amsterdam, h e e f t b v k o r t s t o n d i g Koningsgracht geheten in de 17e eeuw. Gebouwen worden soms genoemd bij hun naam, soms bi j hun adres. Om informatie te vinden zul je ook op de verschillende referenties moeten kunnen zoeken.

VoorbeeldenAdder

Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen niet voor alle diersoorten exemplaren verzameld zijn op ieder punt in de tijd, maar krantenberichten kunnen wel m e l d i n g m a k e n v a n voorkomens van bepaalde dieren.

Page 6: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

Semantic AnalysisDe taalanalyse tool die in CLARIAH WP3 ontwikkeld wordt zal bestaan uit generieke en domeinspecifieke m o d u l e s d i e verantwoordelijk zijn voor verschi l lende a s p e c t e n v a n tekstinterpretatie.

HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT

Topic Detection

Entity/Concept Detection

Entity/Concept Typing

Entity/Concept Linking

Domain Vocabularies

Page 7: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

HISTORISCHE KRANTEN ALS BIG DATA II: CONCEPTEN OP DRIFT

01

Page 8: SEMANTISCHE ANALYSE VAN TEKST - kb.nl · Informatica Linguistiek Semantic Web. Adder Biologen zijn geïnteresseerd in geografische spreiding van diersoorten door de tijd. Er zullen

BEDANKT VOOR UW AANDACHT www.clariah.nl