Orientatie Alfa-informatica Computer-taalkunde

29
Orientatie Alfa- informatica Computer-taalkunde Gosse Bouma www.let.rug.nl/~gosse/ orient/

description

Orientatie Alfa-informatica Computer-taalkunde. Gosse Bouma www.let.rug.nl/~gosse/orient/. Overzicht. Taaltechnologie Toepassingen, Computer-taalkunde, Woorden en reguliere expressies Wat je ook doet, de semantiek gooit roet… Corpustaalkunde, Zoeken en tellen in teksten Corpus Internet. - PowerPoint PPT Presentation

Transcript of Orientatie Alfa-informatica Computer-taalkunde

Page 1: Orientatie Alfa-informatica Computer-taalkunde

Orientatie Alfa-informaticaComputer-taalkunde

Gosse Boumawww.let.rug.nl/~gosse/orient/

Page 2: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 2

Overzicht

Taaltechnologie– Toepassingen,– Computer-taalkunde,– Woorden en reguliere expressies– Wat je ook doet, de semantiek gooit roet…

Corpustaalkunde, – Zoeken en tellen in teksten– Corpus Internet

Page 3: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 3

Taaltechnologie?

ICT-toepassingen waar kennis van taal een rol speelt:– spellingcorrectie– tekst naar spraak (demo Fluent Dutch)– automatisch vertalen (demo Alta Vista)– dialoogsystemen (intelligente voice response) (NS

reisinformatie)– rapporten genereren (weerbericht, beursnieuws)

Page 4: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 4

Meer toepassingen

Spraakherkenning (Philips FreeSpeech, Lernhout & Hauspie,...),Intelligente Information Retrieval (concepten, morfologie, multilinguaal, multimediaal),Document (email) classificatie,Samenvatten.

Page 5: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 5

Wat is computer-taalkunde?

Taalkundig onderzoek met behulp van de computer:– taaltechnologie,– testen van taalkundige theorieën, – automatisch leren van taalkundige kennis.

Page 6: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 6

Spellingcorrectie

Fouten vinden is tamelijk eenvoudigCorrecties voorstellen is lastiger:– onmiddelijk onmiddellijk– pselling spelling– pijnzen pijnzin, peinzen– slaolm slalom, slaolie, slakom– kompjoeter computer– N.B. MS Office accepteert pijnzen en slaolm!

Page 7: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 7

Woorden

(Bijna) iedere toepassing maakt gebruik van een woordenboekSommige toepassingen bestaan vrijwel alleen uit een woordenboek:– spellingcorrectie– afbreken– tekst naar spraak– spraakherkenning– vertaalhulp

Page 8: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 8

Hoeveel woorden zijn er?

Groene Boekje : 125KWords-L (public domain woordenlijst voor spellingcorrectie en afbreken): 250KCelex (lexicale database) : 325KVan Dale:…

Page 9: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 9

Geen woordenlijst is volledig.

Voorbeeld: – Eindhoven corpus– 1 mln woorden.– 40% hiervan ontbreekt in Celex

Toepassingen die alleen gebruik maken van een woordenlijst gaan dus vaak de fout in:– false alarms (spellingcorrectie)– afbreekfouten

Page 10: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 10

Afbreken

Op basis van lettergreepstructuur:– af-bre-ken, niet afbr-eke-n

Maak het begin van de lettergreep zo lang mogelijk:– ha-mer, niet ham-er– al-fa-bet, niet alf-ab-et

Met inachtneming van morfeemgrenzen:– lamp-licht, niet lam-plicht– fietslamp-je vs. slagboom-pje

Page 11: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 11

Afbreekalgoritme:

Verdeel een woord in samenstellende delen (morfemen),Verdeel de delen in lettergrepen,Zorg ervoor dat het begin van de lettergreep zo lang mogelijk is.

Page 12: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 12

‘Stemming’

herleiden van een woord tot een stam– fietsen, fietste, gefietst --> fiets, – lopen, gelopen, liep --> loop– varken --> varken

nuttig voor veel toepassingen – information retrieval,– zinsontleden, ….

Demo : Xerox

Page 13: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 13

Woordsoorten

Benoemen van woorden op woordsoort (zelfst nw, ww, bijv nw, vz, lidw, …) herleiden van een woord tot een stam– fietsen --> fiets, – leven --> leef– varken --> varken

nuttig voor veel toepassingen – zinsontleden, – automatisch vertalen,– information retrieval

Page 14: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 14

Part-of-Speech tagging

fiets -> zelfst. nw? werkwoord?fietsen -> zelfst. nw? werkwoord (infinitief, ott mv?)De fietsen staan in de schuur.We fietsen naar school.Maak gebruik van de woorden in de context om de juiste categorie te bepalen.Demo: ilk.kub.nl

Page 15: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 15

Eindige Automaten

De eenvoudigste machines om taal (reeksen symbolen) te verwerken zin eindige automaten.Een automaat bestaat uit– een aantal toestanden– transities– een begintoestand– één of meer eindtoestanden

Page 16: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 16

Eindige Automaten

3

4

0

1

2

A

B

C

C

D

Page 17: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 17

Reguliere expressies

Handige manier om automaten te definiëren.A* = nul of meer A’sA+ = één of meer A’s[A, B] = een A gevolgd door een B{A, B} = een A of een B[A, B^] = een A optioneel gevolgd door een Betc….

Page 18: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 18

Reg Ex voor woordsoorten

Bijvoeglijke naamwoorden: o.a. woorden die eindigen op -e [? *, e]maar zelfst. nw eindigen vaak op -je!

[?*, e] & ~ [? *, j, e] [? * , e] - [?*, j, e] [?*, ? - j, e]

Page 19: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 19

Opdracht 1

www.let.rug.nl/~gosse/orient/Probeer de reguliere expressie demo op het webBedenk een reg ex voor bijv. nw’en,Test op een willekeurige verz. Voorbeelden

Page 20: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 20

Wat je ook doet, de semantiek gooit roet

Makkelijk ?– Spellingcontrole,– Afbreken,– OCR,– Tekst naar spraak,– Information Retrieval,– Voice Response,– Part of Speech tagging,– Samenvatten,– Rapporten genereren.

Moeilijk?– Grammaticale controle

(d/t fouten)– Dicteersystemen (grote

woordenschat)– Volledige syntactische en

semantische analyse – Automatisch vertalen

Page 21: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 21

Corpustaalkunde

Corpora (verzamelingen tekst) bevatten veel nuttige informatie over het gebruik van taal,Tekst is elektronisch beschikbaar op CD of via Internet,Corpustaalkunde probeert taalkundige kennis te vinden in corpora,Bijna alle taaltechnologie maakt gebruik van corpora.

Page 22: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 22

Onderzoeksmethode 1:“Literatuuronderzoek”

Verzin een vraag,Lees boeken en artikelen over het onderwerp,(doe wat denkwerk,)Doe verslag van je bevindingen

Page 23: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 23

Onderzoeksmethode 2:“Data-gestuurd, Experimenteel”

Verzin een vraag,verzamel data, bedenk een experimenttel, experimenteer, vergelijk,(doe wat denkwerk),Doe verslag van je bevindingen

Corpusonderzoek is een manier om deze methode binnen de letteren te hanteren.

Page 24: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 24

Corpora

Veel vragen over taal kun je alleen/beter beantwoorden door te kijken naar echt taalgebruik.Corpus: een verzameling tekst of gesproken taalB.v. British National Corpus:– 100 mln woorden,– Allerlei tekstsoorten, stijlen, auteurs– Voorzien van woordsoort

Page 25: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 25

Voorbeeld: “X laat zich”

From: gj@cogsci…To: [email protected], …Subject: Vraag

Gegeven voorbeelden als

“de deur laat zich openen met een sleutel”“de auto laat zich starten door contact te maken”

Heeft een van jullie dan het gevoel “vrije wil” (bewust of onbewust) aan de sleutel/ de auto toe te kennen?

Page 26: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 26

“Laat zich” in Eindhoven corpus

het laat zich verstaan dat het afzoeken van….Dat het gevaarvolle avontuur slaagt , laat zich voorspellen Het bedenken van een dergelijke naieve gewapende overval laat zich moeilijk

verenigen met…..de cassette laat zich net zo gemakkelijk inbrengen en uitnemenDe combinatie van schone stad en industriestad laat zich moeilijk rijmen Uit de aantekeningen laat zich reconstrueren hoe onze schrijfster…Hij slaat zich verwoed op een knie

Ongeveer 25 resultaten (2 false positives), met persoon/abstractum/dat-zin/apparaat als onderwerp

Page 27: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 27

Zoeken op het Web

Het web is niet zonder meer geschikt voor corpusonderzoek,Maar bevat wel veel data (ook voor minder courante talen)WebCorp: www.webcorp.org.ukNetkwic: www.let.rug.nl/vannoord_bin/netkwicSearch-engine die tekstfragmenten als resultaat oplevert.

Page 28: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 28

Corpus Internet

Nederlands Corpus Internet is naar schatting meer dan 100 mln woorden groot. (Oostendorp & VdWouden, ts. Ned. Taalkunde, 1998)Is alweer een Nederlands woord, en weeral Vlaams?Is “best wel” gebonden aan bepaalde registers?(nieuwe woorden, tussenklanken,…)

Page 29: Orientatie Alfa-informatica Computer-taalkunde

Natuurlijke Taalverwerking 29

Opdracht 2: Corpus internet

Bekijk de vragen over spelling en betekenis bij de Taaladviesdienst (Onze Taal)Zoek voor een probleemwoord op het Web naar de verhouding tussen goede en foute spelling,Zoek op het Web naar voorbeelden van woorden met een moeilijke betekenis.