De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de...

24
De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor Nederlandse Lexicologie. Klaar? In! Kant-en-klare bouwstenen voor de CLARIN-infrastructuur Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL

Transcript of De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de...

Page 1: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor Nederlandse Lexicologie.

Klaar? In!

Kant-en-klare bouwstenen voor

de CLARIN-infrastructuur

Remco van Veenendaal, 26 mei 2009, kick-off CLARIN-NL

Page 2: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

2

Infrastructuur

Data

Tools

Spelregels

Page 3: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

3

Infrastructuur

Page 4: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

4

Infrastructuur

• Bouwblokken uit DAM-LR– Metadata (IMDI)– Unieke ids (Handle)– Authenticatie (LDAP)– Autorisatie (Shibboleth)– Vertrouwd (PKI-certificaat)– IMDI-portal imdi.inl.nl

• Uitbreiding/aanpassing naar CLARIN• Bijv. OAI-PMH (workshop vanochtend)

Page 5: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

5

Infrastructuur

• Verbeterde technische infrastructuur (2008)– Bare metal virtualisatie met behulp van VMware ESX – Servers

• Red Hat Enterprise Linux• Windows Server 2003, Exchange en ISA Server

– MySQL en Microsoft SQL server. • Telewerken via Windows Terminal Server 2008 en

RSA tokens• Cisco switches, HP NAS en NetApp SAN• Onsite en offsite backup• Procedures volgens ITIL

Page 6: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

6

Data

Page 7: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

7

Data

• Woordenboeken (online via GTB)– Oudnederlands woordenboek (500-1200)– Vroegmiddelnederlands woordenboek (13e eeuw)– Middelnederlands woordenboek (1200-1500; te

verschijnen)– Woordenboek der Nederlandsche Taal (1500-1976)

• Algemeen Nederlands Woordenboek (eigentijds Nederlands; te verschijnen)

Page 8: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

8

Data

• Corpora– Corpus Gesproken Nederlands (900u spraak)– STEVIN

• JASMIN-CGN (115u spraak) • AUTONOMATA-namencorpus (5k uitgesproken namen)• D-Coi (54m woorden)• COREA-coreferentiecorpus (150k woorden)

– ANW-corpus (100m woorden; te verschijnen)– PAROLE distributable corpus (3m woorden)– CHOREC-spraakcorpus (130u spraak)– …

Page 9: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

9

Data

• Lexica– e-Lex (200k lemma’s, 640k woordvormen)– Bilinguale bestanden (Ar, Dn, Ind)– RBN (45k trefwoorden; 90k verbindingen)– RBBN (4k woorden)– Woordenlijst Nederlandse Taal ’05 (100k lemma's

volgens spelling ’05)– STEVIN

• DuELME (5k mwe)

Page 10: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

10

Data

• En…– Sofeer woordenboek– STEVIN

• Cornetto (lex-sem database met 92k lemma’s; 118k woordbetekenissen)

– Gedigitaliseerde Bijbelteksten • Statenvertaling, Leuvense Bijbel, Lutherse Bijbel,

Delftse Bijbel, …

– Modern Grammar of Dutch• Incl. tools voor conversie en internetschil

Page 11: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

11

Tools

Page 12: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

12

Tools

• Tagger-lemmatiser (online i.s.m. UvT)• Sofeer spellingcontrole• STEVIN

– COREA-coreferentiewebservice – DuELME-webapplicatie– AUTONOMATA-g2p-toolkit

• IMPACT– OCR & technologie t.b.v. digitalisering gedrukt cult. erfgoed

• GTB-software, ANW-software, etc.• Corex (voor CGN en D-Coi; offline en online)• …

Page 13: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

13

Spelregels

Page 14: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

14

Spelregels

• Kennisdeling IPR en licenties– Ook met Work Package 7 CLARIN (IPR and

Business Models)

Page 15: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

15

Wat is er bijna klaar?

Page 16: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

16

Bijna klaar

• STEVIN– DAESO (corpus en software voor semantiek)– DPC (parallelle corpora Nl-En en Nl-Fr)– Lassy (syntactisch geannoteerd tekstcorpus)– Midas (software voor robuuste spraakherkenning)– N-best (benchmark voor Nederlandstalige spraakherkenning) – Autonomata Too (demo POI spraakherkenningservice)– DAISY (software voor samenvattingen)– DISCO (spraakherkenning in CALL voor tweedetaalleerders)– DuOMAn (media analyse - opinie)– PaCo-MT (hybride machinevertaling Nl-En-Nl, Nl-Fr-Nl)– SoNaR (tekstcorpus 500m woorden)

• …

Page 17: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

17

Maar …

Page 18: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

18

Uitdaging

• Binnen CLARIN en CLARIN-NL zoveel mogelijk resources en tools integreren in de CLARIN-infrastructuur– Toegankelijk via single sign-on– Data zo uniform mogelijk raadpleegbaar en doorzoekbaar– Data uploadbaar en bewerkbaar– Tools zoveel mogelijk modulair en koppelbaar– Workflows zoveel mogelijk herhaalbaar

• Afschriften van bewerkingen

– Gebruikersvriendelijkheid (!)

Page 19: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

19

Zoek binnen de resultaten

voorkomens van Poldernederlands (einde = aainde)

Vraag: onderzoek het

Poldernederlands

Voorkomens van Poldernederlands in

spraakcorpora

Zoek in metadata naar Nederlandse

spraakcorpora met

orthografische en fonologische transcriptie

Page 20: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

20

Spraakcorpus

Corpus beschikbaar

binnen CLARIN

Unieke ids

Metadata

Validatie

Uploaden

Page 21: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

21

Teksten

Tekstcorpus voorzien van

diverse automatische annotaties en frequentielijst beschikbaar

binnen CLARIN

Frequentietool

Tagger-lemmatiser

Parser

Validatie

Metadata

Samenvatter

Corefwebservice

Uploaden

Unieke ids

Page 22: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

22

Waar droomt u van?

Page 23: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

23

Conclusie

• Veel mooie bouwstenen beschikbaar– Resources, tools, infrastructuur, kennis– Juist ook voor het Nederlands

• Uitdaging is deze bruikbaar te integreren in de CLARIN-infrastructuur

Page 24: De TST-Centrale is een initiatief van de Nederlandse Taalunie, wordt gefinancierd door de Nederlandse Taalunie en is ondergebracht bij het Instituut voor.

24

Vragen?