Trends in Computerlinguïstiek

24
1 Trends in Computerlinguïstiek Walter Daelemans Universiteit Antwerpen, CNTS http://www.cnts.ua.ac.be/~walter Formerly at Tilburg University (ILK) http : //ilk . uvt .nl [email protected] Computers in de taalkunde Verzamelen en analyseren van gegevens awk, perl, geannoteerde corpora, concordantieprogramma’s, … Modelleren van taalkundige theorieën Theorie --- Computermodel --- Simulatie Systemen maken die taal produceren, begrijpen, manipuleren, … Om te begrijpen hoe het werkt bij mensen Vanuit socio-economisch belang (taal- en spraaktechnologie)

Transcript of Trends in Computerlinguïstiek

1

Trends in Computerlinguïstiek

Walter DaelemansUniversiteit Antwerpen, CNTS

http://www.cnts.ua.ac.be/~walterFormerly at

Tilburg University (ILK)http://ilk.uvt.nl

[email protected]

Computers in de taalkunde

Verzamelen en analyseren van gegevens– awk, perl, geannoteerde corpora,

concordantieprogramma’s, … Modelleren van taalkundige theorieën

– Theorie --- Computermodel --- Simulatie Systemen maken die taal produceren, begrijpen,

manipuleren, …– Om te begrijpen hoe het werkt bij mensen– Vanuit socio-economisch belang (taal- en

spraaktechnologie)

2

Sociaal en economisch belang

Vertaal-explosie– EU: 700 miljoen euro (15% administratief budget)

in 1999– Geen uniek Europees probleem: Zuid-Afrika 11

officiële talen Informatie-explosie (o.a. internet)

– 2002: 5 exabytes nieuwe opgeslagen informatie(1018 bytes; 37000 keer Library of Congress; ~alle woorden ooit uitgesproken door mensen)

– Verdubbeling elke 2-3 jaar

Toepassingen

Gesproken Dialoogsystemen Automatisch vertalen Automatisch samenvatten Intelligente tekstverwerking Indexeren en terugvinden van spraak, beeld

en tekst op inhoud

3

Ambiguïteit

Het fundamentele probleem vande computerlinguïstiek

Ambiguïteit

Lexicaal - MorfologischBrussel wil vrachtwagens zwaarder belasten.Fremdzugehen -- external train marriages

SyntactischDe prins heeft zijn huwelijk met Verhofstadt besproken.

WereldkennisTom had geen werk. Hij nam de krant.Tom werd lastig gevallen door een vlieg. Hij nam de krant.

EllipsisAlcohol is voor vrouwen schadelijker dan mannen

4

Representaties en context-gevoelige transformaties

De vermoeide slager ramde een taxi

segmentatie

(de vermoeide slager) (ramde) (een taxi)

desambiguering

(de vermoeide slager)onderwerp (ramde)actie (een taxi)voorwerp

Shallow Parsing: POS Tagging

The/Det woman/NN will/MD give/VBMary/NNP a/Det book/NN

5

Shallow Parsing: Chunking

[The/Det woman/NN]NP [will/MD give/VB]VP[Mary/NNP]NP [a/Det book/NN]NP

Shallow parsing: Sense Tagging

[The/Det woman/NN]NP-PERSON [will/MDgive/VB]VP [Mary/NNP]NP-PERSON [a/Detbook/NN]NP-MATERIAL-OBJECT

6

Shallow Parsing: RelationFinding

person person material-object

Taaldata

Kennis(Competence)Input Representatie Output Representatie

(Acquisition)

Verwerking(Performance)

7

Inductieve & DeductieveModelbouw

Deductief (UG / nativisme / formeel-linguistisch)– Regels, logica– Deductie, inferentie– Handgemaakte kennisbronnen

Inductief (Data / empiricisme / corpustaalkunde)– Waarschijnlijkheden, regels, patronen, gewichten– Statistiek en patroonherkenning– Training

Computertaalkunde publicaties

8

Verklaring?

Beschikbaarheid van bronnen– BROWN, LOB, Penn Treebank, Celex,

Wordnet, ... Verwerkings- en opslagcapaciteit Toepasbaarheidsdruk (in research

sponsoring)Laatste 10 jaar: meer aandacht voor

zelflerende systemen naast statistiek

Computerlinguïstiek in 2005

Pragmatische benadering

9

Vertaalhulpmiddelen in plaats vanautomatisch vertalen

Text Mining in plaats van tekstbegrip

“Klassieke model” van AV

Brontaaltekst Doeltaaltekst

Interlingua

Analyse GeneratieTransfer

DirectExample-based Statistical

Knowledge-based

10

VertaalhulpmiddelenVertaalgeheugen: decomputer ‘onthoudt’ allevoordien vertaalde zinnen

SpellingcorrectieVertaalwoordenboekThesaurus

“State of the Art” Automatische Vertaling

HONG KONG - De Hongkongse justitie heeft voor een wereldprimeurgezorgd door vanmorgen een man vast te zetten die illegaal filmsverspreidde via het internet. Chan Nai-ming (38) werd op 24 oktoberschuldig bevonden van inbraak op de auteurswet omdat hij driehollywoodfilms zonder auteursrechtelijke toestemming onlineverspreidde via de BitTorrent technologie.

HONG KONG - the hongkongse justice has ensured a world first byfixing a man who illegally spread films by means of the Internetvanmorgen. Chan Nai-ming (38) were been on 24 October guilty ofburgling on the author law because he spread three hollywoodfilmswithout copyright authorisation online by means of the BitTorrenttechnology.

HONG KONG - le hongkongse Justice s'est occupé d'une premièregrande en un homme déposant ce matin qui a diffusé illégalement lesfilms via l'internet. Chan Nai-ming (38) a été trouvé le 24 octobrecoupable de cambriolage sur la loi d'auteur parce qu'il a diffusé troishollywoodfilms sans autorisation des droits d'auteur en ligne via leBitTorrent technologie.

Systran: Dutch to English to Dutch

11

Vertaalkwaliteit ~ inspanning Human Language Technology (HLT) allows people to communicate

with computers and to use computers in a natural manner in theirown language.

SYSTRAN E-F: La technologie humaine de langage (HLT) permet àdes personnes de communiquer avec des ordinateurs et d'utiliserdes ordinateurs d'une façon normale en leur propre langage.

SYSTRAN E-S : La tecnología humana del lenguaje (HLT) permiteque la gente se comunique con los ordenadores y que utilice losordenadores de una manera natural en su propio lenguaje.

Hoe bereiken we volledigtaalbegrip?

Een fundamentele oplossing voor probleem vantekstbegrip veronderstelt een oplossing voor– Representatie en gebruik van kennis / betekenis– Verwerving van kennis vergelijkbaar met menselijk niveau

Niet voor morgen, dus ...

12

Pragmatische aanpak, bijv:‘Question Answering’

Geef antwoord op een vraag(in tegenstelling tot information retrieval: vind

documenten die relevant zijn voor de vraag) Wie heeft de telefoon uitgevonden?

– Alexander Graham Bell Wanneer werd de telefoon uitgevonden?

– 1876

PhD project Sabine Buchholz, Tilburg University

QA Systeem: Shapaqa Analyseer de vraag

Wanneer werd de telefoon uitgevonden?– Welke informatie is gegeven?

Werkwoord uitgevonden Voorwerp telefoon

– Welke informatie hebben we nodig? Een temporele frase verbonden met het werkwoord

Document retrieval op WWW met de gegeven informatie Analyse van zinnen waar alle gegeven informatie in de juiste

grammaticale relaties voorkomt Tel de antwoorden die voorkomen in de gevraagde grammaticale

relatie (temporele frase)

13

Shapaqa: voorbeeld (Engelssysteem)

When was the telephone invented? Google: invented “the telephone”

– levert 835 paginas op– 53 geanalyseerde zinnen met de twee gegeven relaties en

met een temporele frase

is through his interest in Deafness and fascination withacoustics that the telephone was invented in 1876 , withthe intent of helping Deaf and hard of hearing

The telephone was invented by Alexander Graham Bell in1876

When Alexander Graham Bell invented the telephone in 1876, he hoped that these same electrical signals could

Shapaqa: frequentievolgorde Wanneer werd de telefoon uitgevonden? WWW resultaten bevatten fouten en de parser maakt fouten, maar

door het grote aantal antwoorden is het resultaat toch juist– 17:1876– 3:1874– 2: ago– 2: later– 1: Bell– …

14

Who shot Kennedy ?

4 x OSWALD

* www.anusha.com/jfk.htm situation in which Oswald shot Kennedy on November 22 , 1963 . * www.mcb.ucdavis.edu/people/hemang/spooky.html Lee Harvey Oswald shot Kennedy from a warehouse and ran . * www.gallica.co.uk/monarch.htm November 1963 U.S. President Kennedy was shot by Lee Harvey Oswald . * astrospeak.indiatimes.com/mystic_corner.htm Lee Harvey Oswald shot Kennedy from a warehouse and fled .

2 x BISHOP

* www.powells.com/biblio/0-200/000637901X.html The day Kennedy was shot by Jim Bishop . * www.powells.com/biblio/49200-49400/0517431009.html The day Kennedy was shot by by Jim Bishop .

1 x BULLET

* www.lustlysex.com/index_m.htm President John F. Kennedy was shot by a Republican bullet .

1 x MAN

* www.ncas.org/condon/text/appndx-p.htm KENNEDY ASSASSINATION Kennedy was shot by a man who was not .

Hoe moet het verder?(Het optimistische standpunt)

15

Deep Blue effect

Exponentiële groei in rekenkracht enopslagmogelijkheden van de hardware

Meer is beter bij inductieve benaderingen Er zit nog rek in de inductieve aanpak (beter

begrip welke methodes werken) Semantiek en wereldkennis zitten impliciet in

taalgebruik: grote (meertalige) corpora enlexicale databanken

Moravec 1998

16

WWW als corpus Februari 2000 (Altavista), aantal woorden:

Er is robuuste taaltechnologie om dezeteksten op te schonen en te verrijken.

Computerrekenkracht

Wet van Moore: rekenkracht verdubbelt elke18 maanden

Geheugen is geen probleem:2010: 1 Tbyte = $40 (nu: $4000)10 Tbyte glazen disk (grootte CD)

Parallelle machines

17

Tussenconclusies Op dit moment begrijpt de computer geen

taal Beperkte praktische toepassingen zijn al

mogelijk (en zullen nog beter worden) dooreen pragmatische aanpak

Echt begrip van tekst veronderstelt– een oplossing van het AI probleem of– een deep blue effect

Generalisation ≠ Abstraction

+ abstraction

- abstraction

+ generalisation - generalisation

Rule InductionConnectionism

Inductive Logic ProgrammingStatistics

Handcrafting

Table LookupMemory-Based Learning

…(Fill in your most hated

linguist here)

18

This “rule of nearest neighbor” has considerableelementary intuitive appeal and probably corresponds topractice in many situations. For example, it is possible thatmuch medical diagnosis is influenced by the doctor'srecollection of the subsequent history of an earlier patientwhose symptoms resemble in some way those of the currentpatient. (Fix and Hodges, 1952, p.43)

MBL: Use memory traces of experiences as a basis foranalogical reasoning, rather than using rules or otherabstractions extracted from experience and replacing theexperiences.

-etje

-kje

Coda last syl

Nucleus last syl

Rule Induction

19

?

-etje

-kje

Coda last syl

Nucleus last syl

MBL

Cognitive Architectures ofInflectional Morphology

Dual Route (Pinker, Clahsen, Marcus …)

– Rules for regular cases (over)generalization default behaviour

– Associative memory for exceptions irregularization / family effects

Single Route (R&M, MacWhinney, Plunkett, Elman, …)

– Frequency-based regularity

Dual Route

PatternAssociator Rule

Input Features

Suffix-class

MemoryFailure

20

The default status of -s

Similar item missing Fnöhk-s Surname, product name Mann-s Borrowings Kiosk-s Acronyms BMW-s Lexicalized phrases Vergissmeinnicht-s Onomatopoeia, truncated roots, derived nouns, ...

21

Data & Representation Symbolic features

– segmental information (syllable structure)– gender

~25,000 nouns from CELEX

22

23

MVDM matrices

24

Discussion Three “classes” of plurals: ((-en -)(-e -er))(s)

the former 4 suffixes seem “regular”, can be accuratelylearned using information from phonology and gender

-s is learned reasonably well but information is lacking Hypothesis: more “features” are needed (syntactic, semantic,

meta-linguistic, …) to enrich the “lexical similarity space”

No difference in accuracy and speed of learning withand without Umlaut

Overall generalization accuracy very high: 95% Schema-based learning (Köpcke).

*,*,*,*,i,r,M e