Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

60
Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie

Transcript of Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Page 1: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Taaltheorie en Taalverwerking

Bachelor Kunstmatige Intelligentie

Page 2: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Vorm van deze cursus:

Elke week:

• Hoorcollege• Huiswerk• Werkcollege• Oefenopdrachten

Page 3: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Vorm van deze cursus:

Elke week:

• Hoorcollege (Remko Scha)• Huiswerk (Prolog-opdrachten)• Werkcollege (Tikitu de Jager)• Oefenopdrachten

Page 4: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Vorm van deze cursus:

Elke week:

• Hoorcollege (Remko Scha)• Huiswerk (Prolog-opdrachten)• Werkcollege (Tikitu de Jager)• Oefenopdrachten

Ingangseis:

Enige vaardigheid in Prolog programmeren

Page 5: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Vorm van deze cursus:

Elke week:

• Hoorcollege (Remko Scha)• Huiswerk (Prolog-opdrachten)• Werkcollege (Wouter Josemans)• Oefenopdrachten

Ingangseis:

Enige vaardigheid in Prolog programmeren Niet: Andere vakken.Ook niet: tentamen Prolog

Page 6: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Jurafsky & Martin: Speech and Language Processing

eerste editie (online: blackboard course documents) of tweede editie (te koop)

[Ook een klein stukje uit: Russell & Norvig: Artificial Intelligence: a Modern Approach.]

Page 7: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Taaltheorie & Taalverwerking=

Inleiding Computerlinguïstiek=

Inleiding Taaltechnologie

Page 8: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Taalverwerking

Cognitie Toepassingen

Page 9: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Cognitie Toepassingen:

Machine TranslationInformation RetrievalQuestion Answering

Taalverwerking

Page 10: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Taaltheorie (Linguïstiek)

Page 11: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Linguïstiek: Taal-analyse op verschillende niveau's:

Fonetiek/Fonologie: Geluid

Morfologie: Woord-structuur

Lexicon: Woorden

Syntax: Zins-structuur

Discourse: Text

Page 12: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Syntax: Structuur

Semantiek: Betekenis

Pragmatiek: Gebruik

Linguïstiek: Taal-analyse in verschillende dimensies:

Page 13: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Onze focus: de interpretatie van tekst.[Derdejaars-college Zeevat: Discourse]

Linguïstiek & A.I.

Page 14: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Onze focus: de interpretatie van tekst.[Derdejaars-college Zeevat: Discourse]

Daarom eerst: de interpretatie van zinnen.[Tweedejaars-college Scha: Natuurlijke-Taal Interfaces]

Linguïstiek & A.I.

Page 15: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Onze focus: de interpretatie van tekst.[Derdejaars-college Zeevat: Discourse]

Daarom eerst: de interpretatie van zinnen.[Tweedejaars-college Scha: Natuurlijke-Taal Interfaces]

Daarom eerst: de structuur van zinnen.[Dit college.]

Linguïstiek & A.I.

Page 16: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Inhoud van deze cursus:

"Taaltheorie en Taalverwerking"

=

Formele Linguïstiek & Computerlinguïstiek

Page 17: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Inhoud van deze cursus:

Blok a: Structuur van woorden en zinnen (morfologie en syntax):

• Formele Talen en Automaten

• Formele Grammatica's

• Analyse-algoritmes t.b.v. zulke grammatica's

Page 18: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Inhoud van deze cursus:

Blok b:

• Semantiek (Betekenis)

• Discourse (Tekst & Dialoog)

• Toepassingen (b.v.: Machine Translation)

Page 19: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Formele Linguïstiek

Basics Computerlinguïstiek

Logica Machine Learning

Advanced Computerlinguïstiek

Page 20: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.
Page 21: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Week 1: Formele talen en automaten.

Deel 1: Reguliere Expressies & Eindige-Toestands-Automaten.

Page 22: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Theorie der Formele Talen en Automaten.

Wiskunde over verzamelingen strings.

Uitgevonden door: Noam ChomskyKlassiek overzichtsboek: Hopcroft & Ullman

Prettig leerboek: Peter Linz

Page 23: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Theorie der Formele Talen en Automaten.

String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet".

Page 24: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Theorie der Formele Talen en Automaten.

String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet".

Taal: Verzameling strings.

Page 25: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Theorie der Formele Talen en Automaten.

String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet".

Taal: Verzameling strings.

Grammatica: Definitie van een taal.

Page 26: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Theorie der Formele Talen en Automaten.

String: Sequentie van discrete symbolen, afkomstig uit een gegeven "alphabet".

Taal: Verzameling strings.

Grammatica: Definitie van een taal.Automaat: "Implementatie" van een grammatica.

Page 27: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Grammatica's en automaten heb je in soorten:meer of minder "krachtige".

We beginnen nu met de eenvoudigste.

Page 28: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Grammatica's en automaten heb je in soorten:meer en minder "krachtige".

We beginnen nu met de eenvoudigste:

Reguliere Expressies & Finite State Automata

Page 29: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Grammatica's en automaten heb je in soorten:meer en minder "krachtige".

We beginnen nu met de eenvoudigste:

Reguliere Expressies & Finite State Automata

[Volgende week: hiërarchie van verschillendesoorten grammatica's en automaten.]

Page 30: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Formele talen.

Neem aan: alphabet: a...z en Talen b.v.:

{ab, ad, da, }{ab}{, ab, abab, ababab, abababab, .....}{ab, aabb, aaabbb, aaaabbbb, ...}

Page 31: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Reguliere expressies:

Strings: ab --> {ab}

Disjunctie:(ab | bc) -->{ab, bc}

Kleene Star: (ab)* --> {, ab, abab, ababab,

abababab, ...}Concatenatie:

(ab)*c -->{c, abc, ababc, abababc, ...}

Page 32: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Reguliere expressies

(a | b)*c -->

Page 33: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Reguliere expressies

(a | b)*c -->{c, ac, bc, aac, abc, bac, bbc, ...}

Page 34: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Reguliere expressies

(a | b)*c -->{c, ac, bc, aac, abc, bac, bbc, ...}

(a*c) | (b*c) -->{c, ac, aac,aaac, ..., bc, bb, bbbc, ...}

Page 35: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Reguliere expressies in Perl e.d.:

Heel veel "syntactic sugar":

• negatie• optionaliteit• minstens één• [0-9], [a-z]• wildcard• etc.

Page 36: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Finite State Automata

• Ook wel genoemd: Finite State Machines, Finite Automata, Eindige-Toestands-Automaten, Eindige Automaten

• Ander formalisme, equivalent aan Reguliere Expressies

Page 37: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

FSAs als Grafen

Page 38: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

FSAs als Grafen

J & M: "Schapentaal":

baa(a)*!

Page 39: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

FSAs als Grafen

J & M: "Schapentaal": baa(a)*!

Page 40: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Sheep FSA

We can say the following things about this machineIt has 5 states

At least b,a, and ! are in its alphabet

q0 is the start state

q4 is an accept state

It has 5 transitions

Page 41: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

But note

• There are other machines that correspond to this language

Page 42: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

More Formally: Defining an FSA

We specify an FSA by enumerating the following things:

The set of states: Q

A finite alphabet: A

A start state q0

A set F of accepting/final states F Q

A transition function (q,i) that maps QxA to Q

Page 43: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Transition function can be represented by a state-transition table:

Page 44: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Recognition

• Recognition is the process of determining if a string is accepted by a machine

• It is the process of determining if a string is in the language defined by the machine

Page 45: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Recognition

• Start in the start state

• Examine the current input

• Consult the table

• Go to a new state and update the tape pointer.

Page 46: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

D-Recognize

Page 47: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

• FSAs can be viewed from two perspectives:– Acceptors that can tell you if a string is in the

language– Generators to produce all and only the strings

in the language

Page 48: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Dollars and Cents

Page 49: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Non-Determinism

Page 50: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Non-Determinism

Epsilon transitions do not examine or advance the tape during recognition

Page 51: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Equivalence

• Non-deterministic machines can be converted to deterministic ones

• That means that they have the same power; non-deterministic machines are not more powerful than deterministic ones

Page 52: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Going from Regular Expressions to FSA

All regular expression operators can be implemented by combinations of concatenation, disjunction, and closure

Page 53: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

So if we could just show how to turn closure/union/concat from regexps to FSAs, this would give an idea of how FSA compilation works.

Take any regular expression and build an automaton

Intuition: inductionBase case: build an automaton for single symbol (say ‘a’)Inductive step: Show how to imitate the 3 regexp operations in

automata

Page 54: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Disjunction

Accept a string in either of two languages

Page 55: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Concatenation

Accept a string consisting of a string from language L1 followed by a string from language L2.

Page 56: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Closure

Verbind de eindtoestanden met de begintoestand met een epsilon-arc.

Page 57: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Opgaven

Wekelijks per email verzenden aan [email protected] met cc aan [email protected]

Vermeld in de subject-heading: "TTTV".

Gezamenlijke inzending door groepjes van twee personen wordt toegestaan en zelfs aangemoedigd.

Page 58: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

Eindcijfer

Eindcijfer is het gemiddelde van het gemiddelde cijfer van alle opdrachten en het cijfer van het tentamen, met dien verstande dat beide voldoende moeten zijn.

Er is een tussentoets in week 8.

Page 59: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.

http://iaaa.nl/TTTV/

Page 60: Taaltheorie en Taalverwerking Bachelor Kunstmatige Intelligentie.