Camus in kaart (concept)

37
CAMUS IN KAART Kieke Eltje Emilie Swager (4099427) Begeleiders: Henriëtte de Swart, Martijn van der Klis, Bert le Bruyn Tweede beoordelaar: Johannes Korbmacher Datum: 21 april 2017 Bachelor Kunstmatige Intelligentie, Universiteit Utrecht Bacheloreindwerkstuk 7,5 ECTS

Transcript of Camus in kaart (concept)

Page 1: Camus in kaart (concept)

CAMUSINKAART

KiekeEltjeEmilieSwager(4099427)Begeleiders:HenriëttedeSwart,MartijnvanderKlis,BertleBruynTweedebeoordelaar:JohannesKorbmacherDatum:21april2017BachelorKunstmatigeIntelligentie,UniversiteitUtrechtBacheloreindwerkstuk7,5ECTS

Page 2: Camus in kaart (concept)

2

1 Inhoudsopgave1 Inhoudsopgave............................................................................................................2

2 Inleiding........................................................................................................................3

3 Achtergrondvanhetonderzoek....................................................................................53.1 Eerderonderzoek............................................................................................................53.2 Literatuur........................................................................................................................63.3 Onderzoeksvragen...........................................................................................................73.4 Hypotheses.....................................................................................................................83.5 RelatiemetKunstmatigeIntelligentie..............................................................................9

4 Hetonderzoek............................................................................................................104.1 Methode.......................................................................................................................104.2 Uitvoering.....................................................................................................................154.3 Aandachtspuntenuitvoering.........................................................................................204.4 Resultaten.....................................................................................................................234.5 Conclusie.......................................................................................................................314.6 Discussie.......................................................................................................................324.7 Vervolgonderzoek.........................................................................................................34

5 Logboek......................................................................................................................35

6 Bibliografie.................................................................................................................366.1Primaireliteratuur...........................................................................................................366.2Secundaireliteratuur.......................................................................................................36

Page 3: Camus in kaart (concept)

3

2 InleidingAujourd'hui,j'aiterminémarecherche.Vandaag,hebikmijnonderzoekafgerond.HeutehabeichmeineUntersuchungabgeschlossen.Today,Ihavecompletedmyresearch.Hoy,hecompletadomiinvestigación.Alsafsluitingvanmijnbachelorenalsopmaatnaardepraktijkisditwerkstukuiteindelijkmijnbacheloreindwerkstukgeworden.Inhetbeginwashetvoormijbestlastigomeenkeuzetemakenvooreenonderwerp.DestudieKunstmatigeIntelligentieiszeerbreedopgebouwd,meteengrotespreidingvangebiedenwaarinvakkenwordenaangeboden.Hetleekmehierdoorverstandigeerstvoormezelfeenrichtingtebepalenwaarinikmijnscriptiewildegaanschrijven,zodatdekeuzevooreenonderwerpwatmeerbeperktwerd.IkhebgemerktdattijdensmijnstudieKunstmatigeIntelligentiemijninteressevooralisgegroeidinhetgebiedvantaal.Ikhebmijnvrijekeuzevakkeningedeeldmetvakkenuithettaalgebiedenditismijgoedbevallen.Omdezeredenbeslootikmijtefocussenoponderwerpenbinnenditgebied.Hierbinnenbenikverderbreedgeïnteresseerdenhebikgeensterkevoorkeurvoorbepaaldeonderwerpen.Zoweldesyntaxalsdesemantiekinteresserenmijzeer.Bovendienhebikvoormijngevoelvanbeideonderwerpennietheelveelmeerdandebasisbehandeld,waardoorikvinddatiknognieteenduidelijkevoorkeurkanuitspreken.OpBlackboardhebikdelijstmetmogelijkebegeleidersenonderwerpengeraadpleegd.Opdezelijststondprof.dr.HenriëttedeSwartmethetonderwerpcomputertaalkunde.IkhebeenmailgestuurdnaarmevrouwdeSwart,waarnaikeenenthousiastemailterugkreegmeteenkorteuitlegoverhetbestaandeonderzoekwaarikdeelvanuitzoukunnenmaken.Wehebbeneenmomentafgesprokenombijeentekomen,samenmetbegeleidersdr.BertLeBruynenMartijnvanderKlis.Tijdensdezebijeenkomstisvoormijglobaalmeerduidelijkgewordenoverhetbestaandeonderzoekenwatdemogelijkhedenvoormijzoudenzijnomverderonderzoekintegaandoen.Nadeafspraakwasikenthousiastgewordenomaandittaalonderzoekmeetewerkenenditonderzoektekoppelenaanmijnbacheloreindwerkstuk.IkkonbijdragenaanhethoofdonderzoekdoordePerfectindeliteratuurteonderzoeken,inhetNederlands,Frans,Duits,EngelsenSpaans.DePerfectwordtindezevijftalenopdezelfdemaniergevormd,namelijkmeteenhulpwerkwoord(‘zijn’of‘hebben’)eneenvoltooiddeelwoord.DePerfectinhetNederlandsisdeVoltooidTegenwoordigeTijd(VTT)enzieterbijvoorbeeldalsvolgtuit:Jijhebteenboekgelezen.Hethulpwerkwoordishier‘hebt’enhetvoltooiddeelwoord‘gelezen’.DeVTTkanookgevormdwordenmet‘zijn’alshulpwerkwoord.Bijvoorbeeld:Wijzijngeschrokkenvanhetalarm.‘Geschrokken’ishetvoltooiddeelwoordvanschrikken.TuasluunlivreiseenvoorbeeldvaneenPerfectinhetFrans,dePasséComposé.Hieris‘as’hethulpwerkwoord,eenvervoegingvanavoir.‘Lu’ishetvoltooiddeelwoordvanlire,wat‘lezen’betekent.MijnbegeleiderssteldenvoorditonderzoektedoenaandehandvanhetboekL’ÉtrangervandeFransefilosoof,journalistenschrijverAlbertCamus.DitvoorstelkwamdoordatDeSwartenMolendijk(2002)aleerderopgevallenisdatL’Étrangereenspecialemaniervanschrijvenheeft.CamusmaaktinzijnromannamelijkveelgebruikvandePasséComposé,terwijlinFranseromansoverhetalgemeengebruikwordtgemaaktvandePasséSimple.HiervanwijktCamusdusafendoordevelevoorkomensvandePasséComposé,isditboekinteressantvoorditonderzoek.Bijeerdereonderzoekenzijnongeveer500voorkomensvandePerfectgeanalyseerd.Hetisdebedoelingrondditaantaluittekomenomde

Page 4: Camus in kaart (concept)

4

onderzoekenvergelijkbaartehouden.DoorhetgroteaantalvoorkomensvandePasséComposéinL’Étrangerkanditaantalsnelverkregenworden.OmdathetonderzoekzichrichtopdePerfectindeliteratuur,hebbenwetemakenmetgedrukteboeken.Dedataishetmakkelijkstverwerkbaaralsdetekstvandeboekendigitaalstaan.OmdittebereikenisOCR(OpticalCharacterRecognition)deoverwogenoptie.Ditiseenhulpprogrammaomgedruktetekstdigitaalenbewerkbaartemaken.Hoeditprogrammawerkt,isterugtelezenbijdeMethode.Binnenhethoofdonderzoekisnooiteerdergebruikgemaaktvandezeoptieenhetisdanookafwachtenofditmakkelijktoepasbaaris.Alsdezeoptiegeschiktblijkt,biedtdateenopeningnaarveelmogelijkevervolgonderzoeken.Alsdetekstendigitaalstaan,moetendecontextenbepaaldworden.Decontextenzijndewerkwoordenindeovereenkomendefragmentendieweiniederetaalanalyseren.Omonzecontextenteverkrijgen,moeteneerstdePerfectsuitdeFransetekstgeëxtraheerdworden.Ditgebeurtineersteinstantieautomatisch,maardefoutiefgeselecteerdePerfectsdienenhandmatigaangepastteworden.VervolgenskunnendeFransePerfectsgekoppeldwordenaandewerkwoordsvormenindevertalingen.Dezemoetenhandmatiggeselecteerdworden.Alsdezegeselecteerdzijn,kunnendewerkwoordstijdenwordentoegekend.AanhetNederlandsenEngelswordendewerkwoordstijdenautomatischtoegekend,maarbijhetDuitsenSpaansmoetdithandmatiggebeuren.DeNederlandseenEngelsecontextenmoetenwelgecontroleerden,indiennodig,handmatigaangepastworden.Alsaanallecontexteneenwerkwoordstijdistoegekend,kandedataverwerktworden.Vandedatawordensemantischekaartengemaakt.DezesemantischekaartenzijninhetboekIndefinitePronounsvanHaspelmath(1997)voorheteerstgeïntroduceerd.Ditzijnkaartenwaaroppuntentezienzijndiedewerkwoordstijdenvanallecontextenvisualiseren.Opdezekaartenwordtdeverdelingvandewerkwoordstijdenduidelijkwaardoorderesultatengoedteanalyserenzijn.HetgeheleprocesisperstapbeschrevenonderhetkopjeMethodeenhoeditindepraktijktewerkisgegaan,isbeschrevenonderhetkopjeUitvoering.Mijnonderzoekiseenuniekdeelonderzoekbinnenhethoofdonderzoek.VoorheteerstwordendegedragingenvandePerfectbinnendeliteratuuronderzocht.HetisinteressantomteondervindenofdePerfectzichanderszalgedragenbinnenditgebied,vergelekenmetdegedragingendiereedszijngevondenbinnendeformeleeninformelegesprokentaal.Hetisdusookvoorheteerstdatdatawordtverwerktvanuitgedruktetekst.Dezedatamoetnoggedigitaliseerdworden.HetwaseerstonzekerofditzougaanlukkenenhetwasdevraagofOCReenoplossingzoubieden.Inditverslagistelezenhoedatprocesisverlopen.Bovendienisdeopzetvanmijnonderzoekonderscheidendvergelekenmeteerdereonderzoeken.InmijnonderzoekisFransdeenigebrontaalwaaruitdePerfectszijngeëxtraheerd.VervolgenshebikgeanalyseerdhoedezePerfectszichindeanderetalengedragen.BijeerdereonderzoekenhebbendePerfectsverschillendebrontalenenzijndegedragingenvandezePerfectsvanuithunbrontaalvergelekenmetdeoverigetalen.DeverbindingmetdeKunstmatigeIntelligentieisinditonderzoekoptweemanierenterugtevinden.Allereerstindemanierwaaropdedataisverwerkt.Bijvoorbeeldde(bestaande)algoritmenwaarmeeonderanderedetekstenparallelzijngezet,dePerfectvormenzijngeëxtraheerdendewerkwoordstijdenzijntoegekend.MaardebelangrijkstebijdragevandeKunstmatigeIntelligentiewatbetreftdedataverwerking,isdemethodedieisgebruiktomdesemantischekaartentevormen.Desemantischekaartenzijnvangrotewaardevoorditonderzoek,waardoordeKunstmatigeIntelligentieeenonmisbaaronderdeelis.Eveneensiseenverbindingtezienaandehandvanhetuiteindelijkeresultaatvanhetonderzoek.DebedoelingvanhetonderzoekisommeerduidelijkheidtekrijgenoverdegedragingenvandePerfect.Alshiermeerduidelijkheidoverkomt,kanditwordenteruggekoppeldinbijvoorbeeldmachinetranslation(computervertaling).MetbehulpvanderesultatenvanditonderzoekkandenarratievePerfectbeterwordenvertaaldinverschillendetalen,waardoordezevertalingennatuurlijkeraanzullenvoelen.

Page 5: Camus in kaart (concept)

5

3 Achtergrondvanhetonderzoek

3.1 EerderonderzoekMijnonderzoekiseenuitbreidingvanhetreedsopgezettehoofdonderzoekTimeinTranslation.BinnenditonderzoekwordtgekekennaardegedragingenvandePerfectbinnenentussenverschillendetalen.HetisnamelijkgeblekendatinverschillendetalendePerfectzichoponderscheidendemanierenkangedragen.DePerfectwordtopverschillendemanierengebruikt,zowelopzinsniveaualsingesprekken.HierbijkanhetmomentwaardePerfectzichinbevindtookverschillen.DePerfectkangebruiktwordenalsoverhetverledenwordtgesproken,maarookalshetoverhethedengaat.Hierzijnaleerdereonderzoekennaargedaan,maardezewarenvaakmeervankwalitatieveaard.IndevolgendeparagrafenwordendeeerdereonderzoekenvanTimeinTranslationbeschreven.Debedoelingvanditonderzoekisom,doormiddelvaneencombinatievaneenkwalitatiefenkwantitatiefonderzoek,duidelijktemakenwatdebetekenisvaneenPerfectpreciesinhoudtenhoedezebetekenistotstandkomt.HopelijkzaltijdensditdeelonderzoeksteedsmeerduidelijkwordenoverdebetekenisvandePerfectenhetontstaanhiervan.HetTimeinTranslationprojectisbegonnenmethetonderzoekenvandegedragingenvandePerfectinhetformeletaalgebruikbinnenhetEuropeesParlement.VergaderingenvanhetEuropeesParlementwordeninalleEuropesetalengedigitaliseerd.DezegedigitaliseerdevergaderingenzijnopgeslageninhetEUROPARLcorpus(Tiedemann,2012),welkegetagdengelemmatiseerdis.Ditbetekentdatvanallewoordendewoordsoortenzijnaangegeven,envooriederwoordhetlemmaisaangegeven.Doordatdezeinformatiealwastoegevoegdaandedata,washetgemakkelijkombijvoorbeelddePerfectvormenteextraheren.Debedoelingvaneenvertalingisdatdebetekenisgelijkblijft.Detijdvandewerkwoordenkanwelvariërenpertaal.Ditishetgeenwatinteressantisvoorditonderzoek.BijhetEUROPARLonderzoekisnaarvorengekomendathetgebruikvandePerfectzichvoornamelijkinhetverledenbevindt.Ditlagindelijnderverwachting,metdegedachtedattijdensdevergaderingenvanhetEuropeesParlementvoornamelijkwordtgesprokenoverzakeninhetverleden.Ditzijnnamelijkdesituatiesinhetverledenwaarbijvoorbeeldproblemenwaren,dieaangekaartwordenzodatdezeproblemenopgelostkunnenworden.Alsvervolgopditonderzoekhebbentweemedestudenten,AnneenVincent,onderzoekgedaanbinnenhetinformeletaalgebruik.Dithebbenzegedaanaandehandvandeondertitelingvanfilms.VanveelfilmsisdeondertitelinginverschillendetalentevindeninhetOpenSubtitlescorpus(Lison&Tiedemann,2016),waarindezealparallelgezetzijn.AnneenVincenthebbentijdenshunonderzoekuitvijffilmsallePerfectsgeëxtraheerd,ongeachtuitwelketaaldePerfectkwam.DetaalwaardePerfectuitgeëxtraheerdis,isdebrontaal.VervolgenszijndezePerfectsopdezelfdemanieralsinhetEUROPARLonderzoekgekoppeldmetdewerkwoordenuitdeanderetalen.Vandezedatazijnsemantischekaartengemaakt,endezezijnvergelekenmetdesemantischekaartenvanEUROPARLonderzoek.DeverwachtingvanAnneenVincentwasdatdePerfectindeinformelegesprokentaalvanfilmszichmeerinhethedenendetoekomstzougedragen.UitdesemantischekaartenwasaftelezendatdePerfectzichvaakvertaaldeindetegenwoordigetijdofdetoekomendetijd,dushunhypthesebleektekloppen.Mijnonderzoekzalzichrichtenopdegeschreventaalvaneenvertellendverhaal.Wewillengraagonderzoekenwelkewerkwoordstijdenindeverschillendevertalingenwordengebruiktenomteproberenhetgebruikvandiewerkwoordstijdenteverklaren.

Page 6: Camus in kaart (concept)

6

3.2 LiteratuurMijnhypothesesvoormijnonderzoeksvragenhebikgrotendeelsgebaseerdopbestaandeliteratuur.Deliteratuurdieikhiervoorhebgeraadpleegd,staathieronderbeschreven.ArtikelenNishiyamaenKoenig(2010)latenziendatdeEngelsePerfectopverschillendemanierengeïnterpreteerdkanworden.Bijvoorbeeldinzin(1),metbijbehorendeinterpretaties(2a)en(2b).

1) Kenhasbeensick.2) a.Kenisstillsick.

b.Kenisnotsickanymore.Zin(1)kanzichdus,zoalsdeinterpretatiesin(2a)en(2b)latenzien,respectievelijkinhethedenofinhetverledenbevinden.Opwelkemanierjezin(1)moetinterpreteren,isslechtstebepalenaandehandvandecontextofdooreenzinsdeeldieerachterstaatenmeerduidelijkheidgeeftoverdetijdvandePerfect.InditartikelwordendeverschillendemanierenwaaropeenPerfectzichkangedragenuitgelegd.Reichenbach(1947)heefteenboekgeschrevenwaarinonderanderedeEngelsePresentPerfectisonderzocht.HierinheefthijeenReichenbachiaansestructuurontwikkeld.Aandehandvan(3a)en(3b)zalikkortuitleggenhoedezestructuurisopgebouwd.

3) a.Saralefttheparty. (SimplePast)b.Sarahaslefttheparty. (PresentPerfect)

Inzowel(3a)als(3b)heeftdegebeurtenis(E),hetvertrekkenvanSara,plaatsgevondenvoorhetmomentvanspreken(S).In(3b)wordteengebeurtenisinhetverledenbeschreven,waarbijhetmomentvansprekenvanbelangis.DezinverteltonsdatSaraweggingvanhetfeestenopditmomentnietmeerophetfeestis.OmhetverschiltussendePresentPerfectendeSimplePastduidelijktemaken,isnaast(E)en(S)nogeenderdenotieinhetlevengeroepen.Ditisdereferentietijd(R).In(3a)wordteenhandelingbeschreven,waarbijhetnietduidelijkwordtwanneerhetresultaatvandehandelingplaatsvindt.Hierdoorvallendegebeurtenis(E)endereferentietijd(R)samen,aangegevenmet(,).Beidenotiesvindenplaatsvóórhetmomentvanspreken(S),aangegevenmet(-).DitwordtweergegevenalsE,R-S.In(3b)valtdereferentietijd(R)samenmethetmomentvanspreken(S).Degebeurtenis(E)vindtplaatsvóórdezetweenoties,waardoordestructuurvoordePresentPerfectE-R,Sis.DitwordtdeReichenbachiaansestructuurgenoemd.InhetartikelvanDeSwart(2007)wordtdePerfectonderzochtinhetEngels,Frans,NederlandsenDuits.DeSwartargumenteertdatdebelangrijksteverschillentussentalennietliggenophetniveauvandezinssemantiek,maarophetniveauvanhetgroteregeheelenindekenmerkenvanhetgebruikopdatniveau.ErwordtgestelddatbovengenoemdeviertalenallemaaleenPerfectzijnvanhettypedatReichenbachheeftbeschreven,metdeE-R,Sstructuur.DeSwartanalyseertdePerfectindeviertalenwaarbijdefocusligtopdetemporelestructuurendeaspectueleeigenschappen.Hierbijisnaarvorengekomendattalenverschillenophetgebiedvanmogelijkerelatiestussendetijdvandebesprokengebeurtenis(E)enanderetijdenofgebeurtenissenindezinofdeteksteromheendiemet(E)temakenhebben.DeEngelsePresentPerfectblokkeertalleswateentemporelerelatieaangaatmetdetijdvandegebeurtenis(E).HierdoorkandePerfectnietgebruiktwordenalseenspecifieketijdsbepalingindezinstaat.Bijvoorbeeldinonderstaandezin(4).

4) *Sarahasleftthepartyatsixo’clock.Ditisdezelfdezinals(3b),maarnumeteentoevoegingvaneenspecifieketijdsbepaling.Doordatdezetijdsbepalingervoorzorgtdatdegebeurtenis(E)opeenbepaaldtijdstipwordtgeplaatst,isdeonwelgevormdgeworden.Ditisinovereenstemmingmethetfeitdatspecifieketijdsbepalingeninvloedzoudenmoetenhebbenopdereferentietijd(R),ennietop(E).Aangezien(R)samenvaltmet

Page 7: Camus in kaart (concept)

7

(S),gaatdePresentPerfectalleensamenmetaanwijzendetemporelebijwoorden,zoalsbijvoorbeeld‘gister’,‘vanmiddag’of‘onlangs’.OokisdeEngelsePresentPerfectgeengeschiktewerkwoordstijdvoorhetvertellenvanverhalen,omdathetbijverhalennodigistekunnenwisselentussengebeurtenissen.DeNederlandsePerfect,deVoltooidTegenwoordigeTijd(VTT),kanwelwordengebruiktineenzinmeteenspecifieketijdsbepaling.Ziedewelgevormdezin(5).

5) Saraisomdrieuurvertrokken. Daarentegenkan,netzoalsinhetEngels,deVTTnietgebruiktwordenbijhetvertellenvanverhalen.DePerfectvormenvanhetFrans,dePasséComposé,envanhetDuits,dePerfekt,zijnmakkelijkeringebruik.DezevormenhebbenminderrestrictiesdandeEngelseenNederlandse.DePerfectsinhetFransenDuitskunnenzonderproblemengecombineerdwordenmetspecifieketijdsaanduidingenenkunnengebruiktwordenopeenvertellendemaniervantaalgebruik.HetartikelvanNishiyamaenKoenig(2010)maaktduidelijkdathetPerfectzichopverschillendemanierenkangedragen.HetPerfectkanzichinhethedenofhetverledenbevinden.InhetboekvanReichenbach(1947)isduidelijkgewordenhoedeEngelsePresentPerfectzichonderscheidtvandeSimplePast.HieriseenbelangrijkestructuuruitvoortgekomenenhetheeftervoorgezorgddatdePresentPerfectzichheeftneergezetalseentypischePerfect.EenbelangrijkeconclusievanhetartikelvandeSwart(2007)isdatdeFranseenDuitsePerfectweltegebruikenzijnbijhetvertellenvaneenverhaalendatdeEngelseenNederlandsePerfectdoorbepaalderestrictieshiernietgeschiktvoorzijn.

3.3 OnderzoeksvragenDebronvanmijndataishetboekL’ÉtrangervanAlbertCamus.Ditiseenboekwaarineenverhaalverteldwordt.HoezaldePerfectvanuithetFranseverhaalzichgedragenindevertalingenvanhetNederlands,Duits,EngelsenSpaans?Dedatazalgeanalyseerdwordenaandehandvansemantischekaarten.Alsclusteringontstaatindezekaarten,danishetmogelijkhierietszinnigsovertezeggen.Zalclusteringookontstaanindesemantischekaartenvanmijnonderzoek?Dedatadieikzalgaananalyserenkomtuitdeliteratuur.Hetgaathierdusomgedrukteboeken.Debenodigdedatastaatdusnognietdigitaal,terwijlditwelnoodzakelijkisomhettekunnenverwerken.Mijnvraaginrelatietotdedataverwerkingisdus:inhoeverreishetmogelijkgedruktetekstenteanalyseren?EerderonderzoekisgedaanbinnenhetEUROPARLcorpusenhetOpenSubtitlescorpus.Beidecorporabevattengesprokentekst,terwijlmijnonderzoekzichrichtopgeschreventaal.Zaleenverschilmerkbaarzijnwatbetreftdevariatievanhetgebruikvanverschillendewerkwoordstijden?

Page 8: Camus in kaart (concept)

8

3.4 HypothesesAangezienikonderzoekdoenaardePerfectvorminhetboekL’Étranger,wateenvertellendboekis,hebikbepaaldeverwachtingenoverdegedragingenvandePerfectindevertalingen.GebaseerdopdeconclusievandeSwart(2007)datalleendeFranseenDuitsePerfectsamengaanmethetvertellendtaalgebruik,verwachtikdatdePasséComposéuithetFransinhetDuitszalwordenvertaaldmeteenPerfekt.InhetNederlandszaldePasséComposézichverdelentussendeVTTendeOVT.Alsereenspecifieketijdsbepalingbijstaat,zalhetinhetNederlandsvertaaldwordenmeteenVTT.Ophetmomentdatereenaanwijzendtemporeelbijwoord,zoals‘gister’,bijdePasséComposéstaat,zaldezeinhetNederlandsenEngelsvertaaldwordenmetrespectievelijkeenVTTeneenPresentPerfect.Indienzo’nbijwoordontbreekt,zalhetwordenvertaaldmetrespectievelijkeenOVTeneenSimplePast.OverhetSpaansdurfikgeenuitspraaktedoen,omdatikdaargeenrelevanteliteratuurinhetEngelsofNederlandsvoorhebkunnenvinden.InlijnmetmijnverwachtingdatdeFransePasséComposévoornamelijkmeteenPerfektvertaaldzalwordeninhetDuits,inhetEngelsmeteenSimplePasteninhetNederlandsmeteenOnvoltooidVerledenTijd,verwachtikdatiniedergevaldezedriewerkwoordstijdeneenclusteringzullengaanvormen.Hieromheenishetookmogelijkdaternogandereclusterszullenvormen.ZoalsbeargumenteerdinhetartikelvandeSwart(2007)gaatdeNederlandsePerfect,deVTT,welsamenmeteenaanwijzendtemporeelbijwoord.HierdoorverwachtikdatdePasséComposé,dieindezinstaatmetzo’nbijwoord,inhetNederlandsvertaaldzalwordenmeteenVTT.DaardoorverwachtikdatindeNederlandsesemantischekaartdeVoltooidTegenwoordigTijd(VTT)ookeenclusterzalvormen,omdatineenvertellendverhaalzekergebruikzalwordengemaaktvanaanwijzendetemporelebijwoorden,zoals‘gister’of‘vorigjaar’.Deboekenmoetengedigitaliseerdwordenvoordatikdedatakangaananalyseren.Tegenwoordigzijnveelmogelijkhedenbeschikbaaromgedrukteteksttedigitaliserenenbewerkbaartemaken.EenhulpmiddeldathiervoorzoukunnenwerkenisOCR.Opinternetzijnveelversiesbeschikbaarvandithulpmiddel,dushetzalevenuitzoekenzijnwatdebestwerkendeversieis.IkhebzelfnognooiteerdergebruikgemaaktvanOCR,dusikkannietmetzekerheidzeggenhoegemakkelijkhetzalwerkenvoorditonderzoek.Mijnverwachtingisdatdetechnologiezichinmiddelsopzodanigniveaubevindt,dathetmijzallukkenomeenprogrammatevindendieervoorzorgtdatdeboekengedigitaliseerdwordenendetekstenbewerkbaar.Eenaspectwathierinzalmeespelen,isdekwaliteitvandeboekendieingescandmoetenworden.Alsdeinktvandetekstvervaagdis,ofalshetlettertypeonleesbaarisvoorOCR,danzalditmoeilijkhedenopleveren.EerdereonderzoekenindegesprokentaalzijngedaanbinnenhethetEUROPARLcorpusenOpenSubtitlescorpus.Inbeidegevallengaathetomdialogen.Mijnonderzoekwordtgedaanbinnengeschreventekst,waarbijeenverhaalwordtverteld.Ikverwachteenmerkbaarverschilinhetaantalverschillendesoortenwerkwoordstijden.Hetlijktmijaannemelijkdatineengeschreventeksterbewusterwordtgekozenvooreenbepaaldtaalgebruik,waardoormeervandezelfdewerkwoordstijdengebruiktzullenworden.Bijdialogenzalermeervariatiezijnvanwerkwoordstijden,omdatminderbewustwordtnagedachtoverdekeuzevaneenbepaaldewerkwoordstijd.

Page 9: Camus in kaart (concept)

9

3.5 RelatiemetKunstmatigeIntelligentieGedurendeditonderzoekhebikgemerktdathetvolgenvandestudieKunstmatigeIntelligentievangrotewaardeisgeweest.Dekennisenvaardighedendieikdeafgelopendriejaarhebopgedaan,hebiknunamelijkperfectkunnencombineren.Hierdoorwasikinstaatditonderzoeknaarbehorenuittevoeren.Tijdensmijnstudiehebikonderanderevakkengevolgdbinnendetaalkunde,waardoorikdenodigekennisvandebasisbegrippenhebvergaardenmeerweetoverdemanierwaaroponderzoekwordtgedaanbinnenditvakgebied.Tevenshebikmetverscheidenecomputerprogramma’slerenwerkenenweetikhoealgoritmesinelkaarstekenenwatdemogelijketoepassingendaarvanzijn.Bijditonderzoekishetvangrootbelangdekennisoverdetaalkundetekunnenverwerkenmetdenodigekennisvanuitdecomputerwereld.DezecombinatiekanbehaaldwordentijdensdestudieKunstmatigeIntelligentie,waardoorstudentenvandezestudieuiterstgeschikteonderzoekerszijnvoordittypeonderzoek.

Page 10: Camus in kaart (concept)

10

4 HetonderzoekIndithoofdstukwordteerstonderhetkopjeMethodebeschrevenwatdeaanpakvanhetonderzoekwasenwathierallemaalvoornodigisgeweest.DezeaanpakkomtgrotendeelsovereenmetdievanhethoofdonderzoekbinnendeEUROPARL.DezestappenzijnookbeschreveninhetartikelvanVanderKlis,LeBruynenDeSwart(2017).Alleenhetverkrijgenvandetekstenisopeenanderemaniergegaan.NadeMethodewordtonderhetkopjeUitvoeringbeschrevenhoedezeaanpakinpraktijkisverlopen.Depuntendieextraaandachtbehoeven,zijnbeschrevenonderhetkopjeAandachtspuntenuitvoering.Deuitvoeringvanhetonderzoekheeftgezorgdvoorresultaten,dieonderhetkopjeResultatenopeenrijtjezijngezetindevormvansemantischekaartenentabellen.Eveneenszijnderesultatendescriptiefbeschreven.Aandehandvanderesultatenzijnalsantwoordopdeonderzoekvragenconclusiesgetrokken.DezeconclusieszijnterugtelezenonderhetkopjeConclusie.BijdeDiscussiewordtbesprokenwelkezakenbeteronderzochtkunnenwordenenwordendeconclusiesnogeenskritischbesproken.

4.1 MethodeOnderditkopjewordtdeaanpakvanhetonderzoekuiteengesteld.Peronderdeelwordtuitgelegdwathetpreciesinhoudtenhoehetgebruiktdientteworden.DeboekenVoorditonderzoekisgekozenvooreenboekvandeFranseschrijverAlbertCamus.DeSwartenMolendijk(2002)hebbeneerderalonderzoekgedaannaardevoorkomensvandePerfectsinhetboekL’ÉtrangervanCamus.ToenisgeblekendateengrootaantalPerfectswordtgebruiktinhetorgineel,vandaardekeuzemijnonderzoekaandehandvanditboektedoen,samenmetdevertalingeninhetNederlands,Duits,EngelsenSpaans.Detitelsvandegebruiktevertalingenzijnrespectievelijk‘DeVreemdeling’,‘DerFremde’,‘TheOutsider’en‘ElExtranjero’.ScannerVoorhetdigitaliserenvandeboekenishetkopiërenvandeboekendeeerstestap.Hierbijishetnodigomeenscannertotjebeschikkingtehebbendieookeenkopieeroptieheeft.Voorhetkopiërenishethandigalshetcontrastendescherpteintestellenzijn.OmdatboekenmeestalnietinA4formaatwordenuitgebrachtenditwelhetformaatiswaardekopieënopwordenuitgeprint,ishethandigalshetapparaatookkanuitvergroten.DoormiddelvanuitvergrotenkanjeervoorzorgendatdetekstvanhetboekwordtuitgeprintophetgeheleoppervlaktevanhetA4-papier.Hetisdebedoelingdatdetekstzogrootmogelijkis,zodatOCRdetekstbeterkanverwerken.OCRiseenhulpmiddeldatonderhetvolgendekopjewordtbeschreven.Nadatdegewenstetekstisgekopieerd,moetdezeingescandworden.Ditdoejedoordegekopieerdetekstindejuistevolgordeindescannerteleggenenhetvervolgenstescannen.Deinstellingenentevolgenstappenhiervoorverschillenperscanapparaat.Vaakkaneene-mailadreswordeningevoerd,waardegescandedocumentenalseenPDF-bestandnaartoewordengestuurd.HetishandigomeenPDF-bestandtehebbenvanhetgekopieerdeboek,omdatindevolgendestapOCRprogramma’svaakdevoorkeurgevenaanhetverwerkenvaneenPDF-bestand.OCROpticalCharacterRecognitioniseenhulpmiddelwaarbijgeschreventekstwordtomgezetintekens.Dezetekenswordenmeteenprogrammaopgeslagen,waardoorzebewerkbaarzijnopdecomputer.Opinternetzijnheelveelverschillendeprogramma’svoordithulpmiddelbeschikbaar,zowelbetaaldealsgratisversies.Dezeprogramma’swerkenvaakviadewebsite,maarerzijnookprogramma’sdiejeapartmoetdownloaden.Omhetprogrammatelatenwerken,moetjeeenPDF-

Page 11: Camus in kaart (concept)

11

bestanduploaden,waarnadegedrukteteksthierinverwerktzalworden.Tijdensdeverwerkingwordtdegedruktetekstomgezetintekensdiejelaterkuntbewerken,bijvoorbeeldineentekstverwerkingsprogrammazoalsWord.DeNederlandse,Franse,DuitseenEngelsetekstenzijnverwerktopeenWindowscomputermethetprogrammaa9t9FreeOCRSoftware.Rechtsonderkanjebij‘OCRLanguage’detaalkiezenwaarinhetgewenstebestandverwerktmoetworden.VervolgenskanjeeenPDF-bestandimporterendoorlinksonderopdeknop‘OpenPDF’teklikken.Jekiesthetgewenstebestandenkliktop‘StartOCR’,waarnadezewordtverwerktdoorhetprogramma.Alsdetekstverwerktis,kanjehetopslaanalseentekstbestandofalseenWord-bestand,doorrechtsonderdegewenstemaniertekiezen.

Afbeelding1:Beginscherma9t9FreeOCRSoftware

DeSpaansetekstisverwerktopeenMacBookmetbehulpvanhetprogrammavanwww.onlineocr.net.Eennadeelvandezewebsitewasdathetgrotebestandennietinéénkeerkonverwerken,waardoorditingedeeltesmoest.Hetkosttehierdoormeermoeiteomdeverwerktetekstenweerbijelkaartekrijgen,maarhetwerktewelendaargaathetuiteindeijkom.VooreenMacBookhebiknieteenbeterwerkendprogrammakunnenvinden.A9t9isnietbeschikbaarvooreenMacBook,vandaardegedwongenkeuzeomeenanderprogrammategebruiken.AlsalletekstengedigitaliseerdzijnendezepertaalineenWord-bestandzijngezet,kunnendezeindevolgendestapparallelgezetworden.TekstenparallelzettenVoordatdetekstenuitdevijfWord-bestandenverwerktkunnenworden,moetendezeallemaalparallelgezetworden.Hetparallelzetteniseenprocesdatuitdriestappenbestaat.Allereerstwordendetekstengetokeniseerdophetniveauvanhoofdstukken,alinea’s,zinnenenwoorden.HiervoorisvandesoftwareUplug(Tiedemann,2003)demodulepre/<taalafkorting>/basicgebruikt.Bijvoorbeeldpre/nl/basicwasdegebruiktemodulevoorhetNederlands.DezemodulekanplattetekstomzettennaareenXML-formaat,waarinhoofdstukken,alinea’s,zinnenenwoordendeelementenzijn.Vooriederetaalwordenregelsgebruiktomheteindevanzinnenenwoordentebepalen.Eenpuntisbijnaaltijdeenzins-enwoordeinde,maarnietalsdezepuntwordtgebruiktals

Page 12: Camus in kaart (concept)

12

deelvaneenafkorting.Ditiseenvoorbeeldvaneenuitzonderingwaarrekeningmeegehoudenwordtdoordemodule.Nadatdetekstengetokeniseerdzijn,kunnendedocumentengealigneerdwordenopzinsniveaumetdemodulealign/hun.Dealigneermodulemaaktgebruikvandesoftwarehunalign(Vargaetal.,2005).Ditalignerenzorgtvoorbestandenwaarinpertaalpaarwordtaangegevenwelkezinnenvertalingenvanelkaarvormen.AlslaatstestapwordtermetTreeTagger(Schmid,2013)part-of-speechtags,datzijnwoordkenmerkenzoals‘zelfstandignaamwoord’,enlemmata,datzijndevormenvandewoordenzoalszeinhetwoordenboekstaan,aandegetokeniseerdeteksttoegevoegd.DezeinformatiewordtgebruiktbijhetextraherenvandePerfects.VervolgenswordtgebruikgemaaktvaneenkleinPython-script(treetagger-xml,2017)omderesultatenvanTreeTaggertekoppelenaandeeerdergetokeniseerdebestandenvanUplug.HetkoppelenvanderesultatenvandeTreeTaggeraandegetokeniseerdebestandenvanUplugzouUplugzelfookmoetenkunnen(modulepre/<taalafkorting>/all-treetagger),maarophetmomentvanschrijvenblijktdezenietnaarbehorentefunctioneren.HierdoorisgekozenomgebruiktemakenvaneenPython-scriptdiedezestapkanuitvoeren.Ophetmomentdataldezestappenzijnuitgevoerd,iserpertaaleenbestandmetgetokeniseerdetekstmetpart-of-speechtagsenlemmata,enpertaalpaareenbestandmetdaarinaangegevenwelkezinnenvertalingenvanelkaarvormen.Dezebestandenkunnengebruiktwordenindevolgendestap,hetextraherenvanPerfectsmetbehulpvandePerfectExtractor.PerfectExtractorMetdezetoepassingkunnendePerfectsuiteengewenstetekstwordenherkend.HierdoorkunnendefragmentendieeenPerfectbevattenlosvanelkaarbekekenworden,waardoordezemakkelijkeronderzochtenvergelekenkunnenwordenmetdewerkwoordsvormenvanovereenkomendecontextenindeanderetalen.HoedePerfectExtractorprecieswerkt,isterugtelezeninhetbacheloreindwerkstukvanVerkleijenWimmers(2016).VoorhetNederlands,Duits,Frans,EngelsenSpaanszijnalgoritmesbeschikbaaromdezePerfectsteextraheren.DezealgoritmeszijneerderontwikkeldvoorhetonderzoeknaarPerfectsinEUROPARL.DecodevanditalgoritmeisteverkrijgenviadewebsitevanTimeAlign.VPSelectVPSelectiseenprogrammawaarmeehandmatigwerkwoordsvormengeselecteerdkunnenworden.InmijnonderzoekishetselecterenvandePerfectsinhetFransautomatischgegaan,doordatdePerfectExtractordePerfectsaluitdeFranseteksthadgehaald.AlsvooreenbepaaldetaalgeenalgoritmebestaatomdePerfectseruittehalen,dankanVPSelectgebruiktwordenomdePerfectsteselecteren.OphetmomentdateencontextfoutiefwasgemarkeerdalsPerfect,danisdithandmatigaangepastmetVPSelect.TijdenshetannoterenkwamikerachterdatinhetFransvijfcontextenfoutiefalsPerfectwarengemarkeerd.Dezecontextenhebiktijdenshetannoterenaangegevendooreenvakjeaantevinken,dieaangeeftdathetgeengemarkeerdisindebrontaalgeenPerfectis.DitzalduidelijkerwordenbeschrevenbijdeUitvoering.Doordatvoordezeoptieeenfilterbeschikbaaris,kanjeallecontextendiezijnopgeslagenmetdezeoptielatergemakkelijkterugvinden.Decontextendiefoutiefgemarkeerdwarenzijnhandmatigverbeterd.Doordatmijnonderzoekuitgaatvanuitéénbrontaal,hetFrans,warenallefoutievePerfectsverbeterdenbeniklaterbijhetannoterenvandeanderetalengeenfoutievePerfectmeertegengekomen.TimeAlignTimeAlignishetprogrammadatovereenkomendefragmentenuitdebrontaalenvertalingennaastelkaarlaatzien,zodatdegemarkeerdecontextenuitdebrontaal(original)gekoppeldkunnen

Page 13: Camus in kaart (concept)

13

wordenaandewerkwoordsvormenindevertalingen(translated).InvoorgaandestappeniservoorgezorgddatallePerfectsinhetFransgemarkeerdwaren.HierdoorkonikmetTimeAlignindevertalingendewerkwoordsvormenselecterendiedaarmeeovereenkwamen.Zieafbeelding2vooreenvoorbeeld.HoeikgebruikhebgemaaktvanTimeAlign,isuitgebreidbeschrevenonderhetkopjeUitvoering,bijAnnoteren.

Afbeelding2:VoorbeeldTimeAlignfragment(FR-NL)

WerkwoordstijdentoevoegenAlsdewerkwoordsvormengelijkzijngesteldaandecontextenvandebrontaal,ishetnodigdetijdvandegeselecteerdewerkwoordsvormentetaggen.VoorhetFranswasditnietnodig,wantditwasinallegevallendePasséComposé.VoorhetEngelsenhetNederlandswerdditautomatischgedaanmetbehulpvaneenalgoritme,dieookeerderalontwikkeldisvoorhetEUROPARLonderzoek.DoordatervoorhetDuitsenhetSpaansnoggeenalgoritmesbeschikbaarzijn,moestendezetijdenhandmatigtoegekendworden.Erzijnhiernoggeengoedealgoritmesvoorgeschrevenomdatindezetalenambiguevormenvoorkomen.InhetSpaanskantomamosdewij-vormzijnvandepresente(tegenwoordigetijd)–wijdrinken-,maarookdewij-vormvandepretéritoperfectosimple(verledentijd)–wijdronken.Ditis(nog)nietteonderscheidenmetbehulpvaneenalgoritme,maarvaakishetwelmogelijktebepalenwelkevormhetisaandehandvancontextofdoorwoordenzoals‘ayer’,wat‘gister’inhetSpaansbetekent.Danishetduidelijkdatjemeteenverledentijdtemakenhebt.IndeUitvoeringisbeschrevenhoehethandmatigtoevoegenvandewerkwoordstijdenisgedaan.TimeMappingDePasséComposéinhetFranswordtgekoppeldaandegemarkeerdewerkwoordsvormenvanhetNederlands,Duits,SpaansenEngels.Hierdoorontstaateen5-tupel,waarinwordtaangegevenwelketijddegemarkeerdecontextheeft.Het5-tupelheefteenvastevolgordevandetalen,namelijk<Nederlands,Frans,Duits,Engels,Spaans>.Een5-tupelkaneralsvolgtuitzien:<Voltooid_Tegenwoordige_Tijd,Passé_Composé,Präteritum,Simple_Past,Pretérito_Perfecto_Compuesto>.OmdatinmijnonderzoekenkelvanuitdePerfectinhetFransgekekenwordt,zalbijalle5-tuplesaltijdPassé_Composéopdetweedeplekstaan.Detijdenvandeanderetalenzullenwelvariërenenindezevariatiezijnwegeïnteresseerd.De5-tupelswordenverwerktmetbehulpvanMDS(Multidimensionalscaling),opdezelfdemanieralsdatWälchlienCysouw(2012)dathebbengedaaninhunonderzoek.Vande5-tupelsishetmogelijkeenmatrixtevormenmetdaarindeafstandentussendetupels.Dezeafstandisgedefinieerddoortweetupelstevergelijken.Alsdeledenvandebeidetupelsprecieshetzelfdezijn,hebbenzeafstand0.Alséénwerkwoordstijdbinnendetweetupelsafwijkt,dangeeftditeenafstand1,gedeelddoorhetaantalledenvandetupel,vijfinhetgevalvanmijnonderzoek.Hierdoorisdeafstanddan1/5.DeafstandenindematrixwordenvervolgensverwerktmetbehulpvanMDS.

Page 14: Camus in kaart (concept)

14

Hiervoorisgebruikgemaaktvanhetscikit-learnpackage(Pedregoseetal.,2011).DitiseenPythonpackagevoormachinelearning.Deresultatenzijngevisualiseerdmethetnvd3package(2017).Doordatdewerkwoordstijdenhuneigenlabelhebben,isduidelijktezienhoeeenwerkwoordstijdzichgedraagt.Deovereenkomendewerkwoordstijdenhebbeninelketaaldezelfdekleur,waardoordekaartenookmakkelijknaastelkaartevergelijkenzijn.OpdewebsitevanTimeAlignzijndesemantischekaartenvanhetEUROPARLonderzoekterugtevinden.Inafbeelding3iseenvoorbeeldtezienvaneensemantischekaart.HierinzijnalledatapuntenvanhetNederlandsindimensie1en2tezien.Alsjejemuisopeendatapuntlaatstaan,krijgjetezienwelke5-tupelopdatpuntgeplaatstis.Onderinkanjemetdeblauweknoppenkiezenvanwelketaaljeeenkaartwiltzien.Ookzijnhierdedimensiesvandex-aseny-asintestellen.AlsdegewensteinstellingenzijngekozenenjekliktvervolgensopdegroeneGo!knop,danwordtmetdegekozeninstellingeneennieuwesemantischekaartgevormd.Bijdelageredimensieswordenzoveelmogelijkpuntenalopdejuisteplekgeplaatst.Alsjehogerindedimensiesgaat,danwordterminderverklaardoverdedata.Dedatawordtzoveelmogelijk‘uitelkaargetrokken’bijdimensies1en2,ditgebeurtminderbijdimensies3en4.

Alsjemetjemuisopeendatapuntklikt,wordjedoorgestuurdnaareenvolgendscherm.Hetschermdatjedantezienkrijgt,iseenvoorbeeldvantezieninafbeelding4.Hierstaatbovenaandecontextindebrontaal,metdaaronderdeviervertalingen.Bijdebrontaalisinhetgrijsaangegevenuitwelkbestandhetframentafkomstigis.Bijdevertalingenisinhetblauwaangegevenwelkewerkwoordstijdistoegekendaandecontext.

Afbeelding3:VoorbeeldsemantischekaartEUROPARL

Page 15: Camus in kaart (concept)

15

InhetkortVoorhetonderzoekhebjeallereersteentekstnodigwaarvanjehetgebruikvandePerfectswiltanalyseren.Alsdezetekstgedruktis,ishetnodigdezetedigitaliserenmetbehulpvanOCR.Alsalletekstengedigitaliseerdzijnenparallelzijngezet,kunjevervolgenshierdePerfectsautomatischuithalenmetdePerfectExtractor.DePerfectsdienietherkendkondenwordendoordePerfectExtractorkunnenhandmatiggeselecteerdwordenmetVPSelect.DegeëxtraheerdePerfectsmoetenvervolgensgekoppeldwordenaandeovereenkomendewerkwoordenindevertalingen.HetselecterenvandezewerkwoordengebeurtmetTimeAlign.VoorhetNederlandsenhetEngelswordendezegeselecteerdewerkwoordenautomatischeenwerkwoordstijdtoegekend,voorhetSpaansenhetDuitsmoetdithandmatiggedaanworden.Alsaanallewerkwoordendewerkwoordstijdenzijntoegevoegd,kunnendesemantischekaartengemaaktworden.DitisdelaatstestapenwordtgedaanmetTimeMapping.

4.2 UitvoeringOnderhetvorigekopjehebikopeenrijtjegezetwelke(hulp)programma’sallemaalnodigzijnvoorhetuitvoerenvanhetonderzoekenhoedezeprogramma’swerken.Onderditkopjezalikvertellenhoedeuitvoeringvanhetonderzoekbijmijindepraktijkisverlopen.DeboekenMijnbegeleidershaddenhetFranseorgineelendeEngelse,NederlandseenDuitsevertalingenalklaarstaanindeboekenkast.DeSpaansevertalinghebikbesteldviaeenSpaansewebsitevoorboeken.TekstdigitaliserenNetzoalsinvoorgaandeonderzoekenwashetdebedoelingomongeveer500contextentekunnenvergelijkenindeverschillendevertalingen.Contextenzijnhetgeenwatwewillenonderzoeken,dePerfectsinditgeval.InoverleghebbenmijnbegeleidersenikeerstbeslotendatwedeeerstetweehoofdstukkenvanL’étrangervanAlbertCamuszoudengaanonderzoeken,metdebijbehorendevertalingeninhetNederlands,Duits,EngelsenSpaans.Terwijlikbezigwasmethetinscannenvande

Afbeelding4:VoorbeeldinformatievandatapuntEUROPARL

Page 16: Camus in kaart (concept)

16

NederlandseenEngelsevertaling,hebbenwebeslotendathetbeterzouzijnalswedriehoofdstukkenzoudenonderzoeken,omzekertezijndatwegenoegcontextenzoudenhebben.Inhetbeginwashetevenuitproberenwatdebestemanierwasomdetekstenvanuitdeboekjesdigitaaltekrijgen.EerstbenikbegonnenmethethandmatigovertypenvandeSpaansevertaling.Ditbleekergveeltijdtekosten,dusdeeerderoverwogenoptieomdeboekjesintescannenmetOCR(OpticalCharacterRecognition)bleekhetproberenwaard.VoordatgebruikkanwordengemaaktvanOCRmoetdegedruktetekstgekopieerdeningescandworden.Hetbegintmethetzoekennaardejuisteinstellingenvoorhetkopieerapparaatomdetekstenuitdeboekjestekopiëren.HetisdebedoelingomdetekstzogrootmogelijkopeenA4-formaattekrijgen,methetcontrastzohoogmogelijkendetekstzoscherpmogelijk.Alsdejuisteinstellingenzijngevonden,kunnenallepagina’stotenmethoofdstukdriegekopieerdworden.Nadatallesgekopieerdis,kunnendestapeltjesgekopieerdevertalingenpertaalingescandwordenendezepertaalineenPDF-bestandopslaan.DezePDF-bestandenhebikvervolgensdoorOCRlatenomzetteninbewerkbaretekst.HierbijisdekansheelkleindatdebewerkbaretekstfoutlooswordtomgezetdoorOCR.IndegescandebestandenishetnamelijkniettevoorkomendaterprintstrepenindetekstzittenwaardoorOCRdezinnenwaardezestrepenindebuurtstaannietkanomzetten.Ookwordenvlekjesindetekstsomsgedetecteerdalseenkommaofapostrof.HierdoorishetnodigomdetekstdieomgezetisdoorOCRtecontrolerenenhandmatigteverbeteren,daarwaardetekstnietovereenkomtmetdetekstuithetboek.DeNederlandse,Franse,DuitseenEngelsevertalingenzijnomgezetmethetprogrammaa9t9.DeSpaansevertalingisomgezetviaeenwebsite.Hetprobleemmetdezewebsitewasdatjeniettegrotebestandeninéénkeerkonuploaden,waardoorikhetPDF-bestandeerstmoestsplittenviaeenPDFsplitprogramma(2017)envervolgensdezepagina’sperstukhebomgezetmetOCR.DelossetekstenhebiksamengevoegdinéénWordbestand,waarnaikdeteksthandmatigkonverbeteren.Voorhetparallelzettenvandetekstenwashetbelangrijkomdealinea’sgelijktehouden.Dealinea’szijnindeboekenvandevertalingenoverhetalgemeenhetzelfdegelaten,dushetishandigomdealinea’sintevoegenindeWord-bestandenaandehandvandeboeken.TekstenparallelzettenDeFransetekstendeviervertalingenzijnparallelgezetvolgensdestappenbeschrevenindeMethode.PerfectsextraherenUitdeFransetekstzijnallePerfectsgeëxtraheerdmetbehulpvandePerfectExtractor.HierbijwordtdeopbouwvandeingevoerdetekstgeanalyseerddoordePerfectExtractor.ErwordtgezochtnaarkenmerkenvaneenPerfect.HetherkennenvandezekenmerkenisgeïntergreerdinhetalgoritmevandePerfectExtractor.Alsdekenmerkenwordenherkend,danwordtditgemarkeerdalseenPerfect.MetallegeëxtraheerdePerfectvormenkanerverdergewerktworden.AnnoterenHetannoterengaatmetbehulpvanTimeAlign.Ditiseenoverzichtelijkopgesteldprogramma,waarmeejeineenaantalstappenallePerfectcontextenvandebrontaalgelijkkuntstellenaandeovereenkomendewerkwoordsvormenineenanderetaal.TijdenshetannoterenkrijgjetelkenseenwillekeurigeFransecontexttezien,metdaarnaastdezinuitdevertalingdieparallelisgezetmetdeFransetekst.Inafbeelding5iseenvoorbeeldtezienvaneengemarkeerdeFransecontext,metdaarnaastdeNederlandsetekstwaarindeovereenkomendecontextnoggeselecteerdmoetworden.

Page 17: Camus in kaart (concept)

17

Afbeelding5:ongeannoteerdecontext(FR-NL)

Nahetanalyserenvandevertaling,moetbeslotenwordenwelkwerkwoord,ofwelkewerkwoorden,overeenkomenmetdegemarkeerdecontextindebrontaal.Alsditduidelijkis,kanditaangegevenwordendoorindevertalingophetwerkwoord,ofmeerderewerkwoorden,teklikkenmetdemuis.Devolgordevanhetselecterenmaakthiergeenverschil.Dooropeenwoordteklikkenzalhetgeselecteerdewoordgroengemarkeerdworden,netzoalsdegemarkeerdewoordenindebrontaal.Zieafbeelding6vooreenvoorbeeldvaneenvollediggeannoteerdecontextindeNederlandsevertaling.

Afbeelding6:Geannoteerdecontext(FR-NL)

Nadatdecorrectecontextisgeannoteerdindevertaling,dienjedezetebevestigendooropdeblauwe‘Submit’knopteklikken.Dooropdezeknopteklikken,wordtjeantwoordverwerktenopgeslagenindedatabase.HiernazetTimeAlignautomatischdevolgendewillekeurigecontextklaaromteannoteren.HetkanvoorkomendatdePerfectExtractoreenfoutievePerfectheeftgemarkeerd.Bijvoorbeeldalseenvormvanhethulpwerkwoord‘avoir’isgeselecteerd,maarhierbijgeenofeenfoutiefvoltooiddeelwoordisgeselecteerd.HetgeheelisdaneencombinatievanwoordendiegeenPasséComposévormen.Inditgevalmoetjehetbovenstevakjeaanvinken.‘Theselectedwordsintheoriginalfragmentdonotformapresentperfect’.HiermeegeefjeaandatdegemarkeerdecontextindebrontaalnieteencorrectePerfectweergeeft.HetisnietnodigomindevertalingdewoordenteselecterendiedevertalingzoudenzijnvandeeventueelcorrectePerfect,maarditmagwel.Alsjevervolgensopdeblauwe‘Submit’knopklikt,zalditverwerktwordenenopgeslagenindedatabase.Decontextendieopdezemanierzijnopgeslagen,zijnlatergemakkelijkterugtevindenmetbehulpvaneenfilter.Meteenfilterkunnenallecontextendiezijnopgeslagenmetbovengenoemdeoptie

Page 18: Camus in kaart (concept)

18

wordenweergegevenineenlijst.DefragmentenwaarbijweleenPerfectindezinstaat,maardieviadeautomatischehandelingnietcorrectgeselecteerdwaren,kunnenvervolgenshandmatigwordenaangepastmetVPSelect.Ditmarkerengebeurtopdezelfdemanier,dooropdecorrectewoordenteklikken.Opditmomentkunjeookdeovereenkomendewoordenindevertalingselecteren,alsdatnognietwasgedaan.NudecorrectePerfectisgeselecteerdmetbijbehorendevertaling,ishetbelangrijkomdebovensteoptieuittevinken,zodatdezecontextalsnogwordtmeegenomenindeanalyse.Allecontextenwaarbijdebovensteoptieisaangevinkt,wordennamelijknietmeegenomeninderesultaten.HetkanookvoorkomendatinhetfragmenthelemaalgeenPerfectvoorkomt.Danmoetjeniksselecterenindevertalingendebovensteoptieaanvinken.Vervolgensklikjeopdeblauwe‘Submit’knop.Hierdoorzalditfragmentnietwordenmeegenomeninderesultaten.Ookkanhetvoorkomendatdecontextnietopdejuistemaniervertaaldwordt.Bijvoorbeeldalsdezeheelvrijwordtvertaald,waarbijdeletterlijkebetekeniswegvalt.Voordezegevalleniserookeenoptieomditaantegeven.Ditisdeondersteoptiediestelt:‘Thisisacorrecttranslationoftheoriginalfragment’.Dezeoptiestaatstandaardaangevinkt,omdatoverhetalgemeenwéleencorrectevertalingvandePerfectindevertalingstaat.Alsditniethetgevalis,iserdemogelijkheidomdezeoptieuittevinken.Alsjetemakenhebtmeteenvrijevertaling,dienjehetonderstevakjeuittevinken.Inditgevalkanjeweldewoordenindevertalingselecterendiedevrijevertalingaangeven.Vervolgensklikjeopdeblauwe‘Submit’knop.Hierdoorzaldecontextverwerktenopgeslagenwordenenzaldezegemakkelijkterugtevindenzijnmetbehulpvanhetfilter.Inhetgevalvaneenvrijevertalingkanlaterbeoordeeldwordeninhoeverredegeselecteerdewoordentevrijvertaaldzijn.Alsdebetekenisvoldoendeovereenkomtmetdebetekenisvandebrontaal,kanbeslotenwordenomdecontextalsnogmeetenemenindeanalyse.Alsditbeslotenwordt,dienjedeoptieweeraantevinken.Anderswordtdecontextnietmeegenomenbijhetverwerkenvandedata.HetkanookvoorkomendatindevertalinghelemaalgeenvertalingstaatvandePerfectuitdebrontaal,dusookgeenvrijevertalingervan.Ditkankomendoordatdevertalereenfoutheeftgemaakt,ofdoordathethunalignalgoritmeeenfoutheeftgemaaktbijhetaligneren.Inafbeelding7staateenvoorbeeldvaneenfragmentwaarbijhetnietmogelijkisomindevertalingwoordenteselecterendieenigzinsovereenkomenmetdecontextuitdebrontaal.Inditgevaldienjewederomhetonderstevakjeuittevinken.Aangezienergeenjuistevertalingis,kanjevanzelfsprekendgeenwoordenselecterenindevertaling,dusdezezalzondermarkeringblijven.Vervolgensklikjeopdeblauwe‘Submit’knop.Inhetvoorbeeldvanafbeelding7staatdevolgendeFransezin:‘Ilnem’apasrépondu’.Ditzouvertaaldkunnenwordenmetzoietsals:‘Hijheeftmijnietgeantwoord’.IndeNederlandsevertalingvanhetfragmentinafbeelding7staat:‘Toenvroegikhemwatdehondhemhadgedaan’.Dezevertalingenkomentotaalnietovereen.Omdezeredendienjegeenwoordenteselecterenendeondersteoptieuittevinken,zoalstezieninhetvoorbeeld.

Afbeelding7:Juistevertalingontbreekt(FR-NL)

Page 19: Camus in kaart (concept)

19

WerkwoordstijdenhandmatigtoevoegenInhetFranswasdewerkwoordstijdvanallecontextendePasséComposé.AandeEngelseendeNederlandsecontextenwerdendewerkwoordstijdenautomatischtoegevoegd.VoorhetDuitsenhetSpaanswashetnodigdewerkwoordstijdenhandmatigtoetevoegen.VoorhetDuitskoneenwerkwoordstijdgekozenwordenuitdevolgendezeswerkwoordsvormen:Präsens,Perfekt,Präteritum,Plusquamperfekt,FuturIenFuturII.VoorhetSpaanswasditrijtjenogwatlanger,erkonnamelijkgekozenwordenuitvijftienverschillendevormen:presente,pasadoreciente,participio,pretéritoperfectocompuesto(Perfect),pretéritoperfectosimple(SimplePast),pretéritopluscuamperfecto,pretéritoimperfecto,condicionalsimple,condicionalcompuesto,futurosimple,futurocompuesto,futuroimperfecto,futuroperfecto,infinitivosimple,infinitivocompuesto.VooralbijhetSpaanswashetbelangrijkomhettoevoegenvandetijdenaandachtigtedoen.InhetSpaanshebjenamelijkwerkwoordsvormendieambiguzijn.Bijvoorbeelddewerkwoordsvorm‘tomamos’,zoalsbovenstaandookgenoemdbijhetkopjeMethode.Hierbijishetbelangrijkdatdezinwaarhetwerkwoordinstaatofdecontextgoedgeanalyseerdwordenenaandehanddaarvantebepalenwelketijdtoegekendmoetwordenaanhetwerkwoord.Inafbeelding8iseendeelvanhetExcel-bestandtezienwaarindewerkwoordstijdenhandmatigtoegevoegdmoestenworden.InkolomCzijndewerkwoordstijdennuhandmatigtoegevoegd,maardezekolomwaseerstleeg.Alsmeerinformatienodigwasomtekunnenbepalenwatdewerkwoordstijdvaneencontextwas,bijvoorbeeldinhetgevalvaneenambiguwerkwoord,dankandezeinformatiewellichtverkregenwordenuitdezindieinkolomOstaat.Ditisdezinwaardecontextuitafkomstigis.

Afbeelding8:DeelvanExcel-bestandmetSpaansecontexten

AandeNederlandseenEngelsecontextenwerdautomatischeenwerkwoordstijdtoegekend.Dezemoestenwelhandmatiggecontroleerdworden.DeredenhiervooristerugtelezenonderhetvolgendekopjeAandachtspuntenuitvoering.HethandmatigcontrolerenvandezewerkwoordstijdengingopdezelfdemanieralshettoekennenvandewerkwoordstijdenvoordeSpaanseenDuitsecontexten.

Page 20: Camus in kaart (concept)

20

ResultatenverwerkenAlsalledatageannoteerdisendezemetdejuistewerkwoordstijdzijngetagd,ishettijdomditteverwerken.De5-tupelsmetdewerkwoordstijdenwordenverwerktzoalsisbeschrevenonderhetkopjeMethode.VervolgenszijndesemantischekaartengemaaktmetbehulpvanTimeMapping.DezesemantischekaartenzijnterugtevindenopdeTimeAlignwebsite.

4.3 AandachtspuntenuitvoeringTijdensdeuitvoeringvandenodigestappenomtoteenresultaattekunnenkomen,zijnmijeenaantalzakenopgevallendiehetonderzoekhebbenvertraagd.Omeventuelevervolgonderzoekenvoorspoedigertelatenverlopen,zalhetnuttigzijnombewusttezijnvanonderstaandepunten.WerkwoordstijdenhandmatigverbeterenNadatdesemantischekaartengevormdwaren,werdalsnelduidelijkdaterveelminder5-tupelszichtbaarwarenindesemantischekaarten,ongeveer150minderdangehoopt.IneerdereonderzoekenzijndecontextenwaarbijdeoptieisaangevinktdathetgeencorrectevertalingvandePerfectis,nietmeegenomenbijhetvormenvandesemantischekaarten.Deeerstegedachtewasdusdatdevervallencontextendegenewarenwaarbijdieoptiewasaangegeven.NaverderonderzoekhiernaarbleekdatbijhetNederlandsachttiencontextenwarenaangevinktmetdezeoptie.BijhetDuitswarenditdrie,bijhetEngelszesenbijhetSpaanszestiencontexten.Totaalzijndit43contexten,eenstukminderdandeverwachte150contexten.Hetbleekdusomietsanderstegaan.HetlagnamelijkaandeautomatischetoekenningvandewerkwoordstijdeninhetNederlandsenhetEngels.Doordatiktijdenshetannoterenwoordenhebgeselecteerddiewelonderdeeluitmaaktevandevertaling,maardienietverwerktkondenwordendoorhetalgoritme,zijnveelcontextengeenwerkwoordstijdtoegekend.Enkelevoorbeeldenhiervanzijn‘binnenreed’,‘stakenover’en‘namafscheid’.DitzijnrespectievelijkdeOnvoltooidVerledenTijdvan‘binnenrijden’,‘oversteken’en‘afscheidnemen’.Doordatdezevormeneenonregelmatigheidbevatte,hierbovenonderstreeptaangegeven,kondendezenietherkendwordendoorhetalgoritmeenwerdendezedewerkwoordstijd‘other’toegekend.Hierdoorzijndezecontextennietmeegenomenbijhetvormenvandesemantischekaarten,hoeweldezewelcorrectzijn.Hetzouzondezijnalsdezecorrectevormennietmeegenomenzoudenwordenbijhetverwerkenvandedata,daaromwashetnodigdezecontextenhandmatigeenwerkwoordstijdtoetekennen.Ookwerdduidelijkdatalserweleenwerkwoordstijdautomatischwastoegekend,dezenietaltijdcorrectwas.BijvoorbeeldinhetNederlandswareneenaantalcontextenalseenOTTgetagd,dieeigenlijkeenOVTwaren.AllecontextendieOTTwarentoegekend,moestendusperstuknagegaanwordenofdezetoekenningwelcorrectwas.Zieafbeelding9vooreenvoorbeeldwaardeOTTfoutiefistoegekend.

Page 21: Camus in kaart (concept)

21

Afbeelding9:Voorbeeldfoutieftoegekendewerkwoordstijd

AnnoterenmeteentouchscreenAlsjeannoteertopeenapparaatmeteentouchscreen,ishetnodigmetietsmeerbeleidtewerktegaan.Erzitnamelijkeenkleinverschilinwelkehandelingjemoetuitvoerenvoorhetverwerkenvaneenbepaaldecontext.Alsdeovereenkomendecontextindevertalinguitéénwerkwoordbestaat,bijvoorbeeld‘(zij)zag’,enjeselecteert‘zag’,danmoetjetweemaalopdeblauwe‘Submit’knopklikken.Alsjeeenovereenkomendecontextindevertalingselecteertdieuittweewerkwoordenbestaat,bijvoorbeeld‘(mijnbaas)heeftgedacht’,danhoefjemaaréénkeeropde‘Submit’knopteklikken.OphetmomentdatjetweekeeropdeSubmitknopklikt,terwijljedaarvooraltweewerkwoordenhebtgeselecteerd,zalTimeAligneenfoutmeldinggeven.Inafbeelding10iseenvoorbeeldtezienvanzo’nfoutmelding.Ditgeeftaandatdecontextalingeleverdisenjedezenietopnieuwkuntbehandelen.Alshetwarehebjegeprobeerdjeannotatietweekeerachterelkaarinteleveren.Ditzorgtverdernietvoorproblemenwatbetrefthetverwerkenvandewerkwoorden,dezewordennamelijkbijdeeerstedrukopdeknopopdegangbaremanierverwerkt.Detweededrukopde‘Submit’knopzorgtvoordefoutmelding.Alsdefoutmeldinginbeeldkomt,moetjeteruggaannaardevorigepagina.Dankomjeterugbijhetfragmentdatjealslaatstehebtgeannoteerd.Hiernakanjeklikkenopdeoranje‘Gotoanotherfragment’knop,omverdertegaanmethetannoterenvandevolgendecontext.

Page 22: Camus in kaart (concept)

22

Afbeelding10:Foutmeldingtijdensannoterenmettouchscreen

Page 23: Camus in kaart (concept)

23

4.4 ResultatenNualledataisverwerkt,kunnenderesultatenopeenrijtjewordengezet.MetbehulpvanTimeMappingzijndesemantischekaartengevormd,diezorgenvooreenvisuelerepresentatievanderesultaten.Hieronderispertaaleensemantischekaarttezien.Pertaalzijnookdeaantallenvandegevondenwerkwoordstijdeninoplopendevolgordeweergegevenintabellen.Deaantallenvandezevenmeestvoorkomende5-tupelszijninookeentabelweergegeven,metdaarnaeenvoorbeeldvanelke5-tupel.Alslaatstezijnderesultatendescriptiefopgesteld.SemantischekaartenZoalsbeschrevenonderdekopjesMethodeenUitvoeringzijndesemantischekaartengevormdmethetalgoritmevanTimeMapping.Inafbeelding11totenmet15zijndevijfkaartenvanhetNederlands,Frans,Duits,EngelsenSpaanstezien.Allenhebbenopdex-asdimensie1enopdey-asdimensie2.Declusterszijnaangegevenmetgekleurdeovalen.DegroeneovalenrepresenterendeclustersvandeOVT,Präteritum,SimplePastenPretéritoPerfectoSimpleendeblauweovalenomvattendeVTT,PasséComposé,Perfekt,PresentPerfectenPretéritoPerfectoCompuesto.Degroottevandeclusterszegtnietéénopéénietsoverdefrequentievandedatapunten,wantdoordatovereenkomende5-tupelsafstand0hebben,verenigenzijzichalseenkleingroepjerondeenpunt.Hierkandefrequentiedushoogzijn,maardeafstand0,waardoordespreidingvanhetclusterbeperktblijft.

Afbeelding11:SemantischekaartNederlands

Page 24: Camus in kaart (concept)

24

Afbeelding12:SemantischekaartFrans

Afbeelding13:SemantischekaartDuits

Page 25: Camus in kaart (concept)

25

Afbeelding14:SemantischekaartEngels

Afbeelding15:SemantischekaartSpaans

Page 26: Camus in kaart (concept)

26

TabellenIntabel1totenmet4zijndeaantallenvandegebruiktewerkwoordstijdenvanhetNederlands,Duits,EngelsenSpaanscontexteninoplopendevolgordeweergegeven.DetabelvanhetFransisweggelaten,omdatalle356contextendePasséComposézijn.Intabel5zijnhetaantalvoorkomensvandezevenmeestvoorkomende5-tupelsinoplopendevolgordetezien.Inafbeelding16totenmet22isvanelkmeestvoorkomende5-tupeleenvoorbeeldtezien.Werkwoordstijd AantalOVT 307VTT 41VVT 5INF 2OTT 1

Tabel1:WerkwoordstijdenNederlandsecontexten

Werkwoordstijd AantalPerfekt 337Präteritum 17Plusquamperfekt 1Präsens 1

Tabel2:WerkwoordstijdenDuitsecontexten

Werkwoordstijd AantalSimplePast 337PresentPerfect 11PresentParticiple 6SimplePresent 2

Tabel3:WerkwoordstijdenEngelsecontexten

Werkwoordstijd AantalPretéritoperfectosimple 336Pretéritoperfectocompuesto 19Pretéritoimperfecto 1

Tabel4:WerkwoordstijdenSpaansecontexten

5-tupel<NL,FR,DU,EN,SP> Aantal

<OVT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoSimple> 284

<VTT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoSimple> 21

<OVT,PasséComposé,Präteritum,SimplePast,PretéritoPerfectoSimple> 15

<VTT,PasséComposé,Perfekt,PresentPerfect,PretéritoPerfectoCompuesto> 9

<VTT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoCompuesto> 7

<OVT,PasséComposé,Perfekt,PresentParticiple,PretéritoPerfectoSimple> 6

<VVT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoSimple> 4

Tabel5:Zevenmeestvoorkomende5-tupels

Page 27: Camus in kaart (concept)

27

Voorbeeldenvanelk5-tupelHieronderisvanelksoort5-tupeluitbovenstaandetabeleenvoorbeeldtezien.

Afbeelding16:5-tupel<OVT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoSimple>

Afbeelding17:Voorbeeld5-tupel<VTT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoSimple>

Page 28: Camus in kaart (concept)

28

Afbeelding18:Voorbeeld5-tupel<OVT,PasséComposé,Präteritum,SimplePast,PretéritoPerfectoSimple>

Afbeelding19:Voorbeeld5-tupel<VTT,PasséComposé,Perfekt,PresentPerfect,PretéritoPerfectoCompuesto>

Page 29: Camus in kaart (concept)

29

Afbeelding20:Voorbeeld5-tupel<VTT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoCompuesto>

Afbeelding21:Voorbeeld5-tupel<OVT,PasséComposé,Perfekt,PresentParticiple,PretéritoPerfectoSimple>

Page 30: Camus in kaart (concept)

30

DescriptiefresultaatEenduidelijkresultaatdatnaarvorenkomtisdatdePerfectvanuithetFransalleeninhetDuitsgrotendeelsmeteenPerfektwordtvertaald.HierstaattegenoverdatdezeinhetNederlands,EngelsenSpaansvoornamelijkwordtvertaaldmetrespectievelijkeenOVT,SimplePastenPretéritoPerfectoSimple.InhetNederlandswordteendeelmetdeVTTvertaald,namelijk41vande356contexten.InhetSpaans(PretéritoPerfectoCompuesto)zijndit19contexteneninhetEngels(PresentPerfect)11contexten.InhetDuitswordennietallePerfectsmeteenPerfektvertaald,maar17contextenwordenmeteenPräteritumvertaald.DePerfectwordtnauwelijksmeteenPresentvertaald.InhetNederlandsenDuitsisdit1context,inhetEngels2eninhetSpaans0.Detijdenvandemeestvoorkomende5-tupelisvoorhetFransenDuitsdePerfect,envoorhetNederlands,EngelsenSpaansdeSimplePast.Ditwasookteverwachtenaandehandvandegegevenspertaal.De5-tupeldiedaarnakomtverschiltinééntaal,hetNederlandsisindeze5-tupelnamelijkookdePerfect.

Afbeelding22:Voorbeeld5-tupel<VVT,PasséComposé,Perfekt,SimplePast,PretéritoPerfectoSimple>

Page 31: Camus in kaart (concept)

31

4.5 ConclusieDeeersteonderzoeksvraagishoedePerfectuithetFranszichzalgedragenindevertalingen.Geziendeduidelijkeresultatendieuitditonderzoeknaarvorenzijngekomen,blijktdatdePerfectvanuithetFranszichoverhetalgemeenalseenPerfectgedraagtinhetDuits,maarnietindeanderetalen.InhetNederlands,EngelsenSpaansgedraagtdePerfectzichmeeralseenSimplePast.VerderverdeeltdePerfectzichinhetNederlandsookgedeeltelijkoverdePerfect.Ditzaltemakenhebbenmethetgebruikvantijdsbijwoorden,zoals‘gister’.InhetSpaansenEngelswordteennogkleinerdeelookalseenPerfectvertaald.Ditkomthelemaalovereenmetdehypothese,waarinwerdvoorspelddatdePerfectinhetDuitseenPerfectzoublijven,maarinhetNederlandsenEngelsniet.BovendienwerdverwachtdatinhetNederlandsookeendeelmetdeVTTwerdvertaald,watookhetgevalblijkt.OverhetSpaansisgeenhypotheseopgesteld,omdathierovernietgenoegrelevanteinformatieverkrijgbaarwas.NuisgeblekendathetSpaanszichhetzelfdegedraagtalshetNederlandsenEngels,dusditnemenwemeeindeconclusieoverdegedragingenvandePerfect.Devolgendeonderzoeksvraaggingovereventueleclusteringindesemantischekaarten.Inhetverlengdevandevorigeonderzoeksvraag,hadikverwachtdatdeclusterszoudenontstaan.VoorhetDuitseenclusterrondhetPerfect,indeNederlandseenEngelsekaartenronddeSimplePast.Dezevoorspellingkloptook.Erzijnheleduidelijkclusterstezienopdesemantischekaartenvandezetalenronddezewerkwoordstijden.TevenshadikverwachtdatindeNederlandsesemantischekaarteenclustertezienzouzijnronddePerfect,doordatdeaanwijzendetemporelebijwoordenervoorzoudenzorgendatdezeinhetNederlandszovertaaldzouworden.Dezevoorspellingisookuitgekomen,wantindesemantischekaartiseenduidelijkblauwclustertezien.Devraagoferclusteringzalonstaanindesemantischekaartenvanmijonderzoekwordtbeantwoordmeteenovertuigende‘ja!’.AanhetbeginvanhetonderzoekwashetnogonduidelijkhoemakkelijkOCRingebruikzouzijn.Hetwasdevraagofhetmogelijkzouzijnomlangestukkengedruktetekstuiteenboektekunnenanalyseren.Natuurlijkkunjeeenkleindeelgedruktetekstanalyserenzonderdathetdigitaalstaat,maarvoorditonderzoekwashetjuistdebedoelingomveelcontextenteverzamelen.HetisgeblekendathetgebruikvanOCRvoorweinigproblemenzorgdeenduseenzeerbruikbareoptieisomgedruktetekstendigitaaltekrijgen.Hetantwoordopdevraaginhoeverrehetmogelijkisomgedruktetekstenteanalyseren,isdatditzekerheelgoedmogelijkis.AlslaatstewashetdevraagofeenverschilindegedragingenvandePerfectmerkbaarzouzijntussendegesprokentaalendegeschreventaal.Mijnvoorspellinghiervoorwasdatikmeervariatieinhetaantalwerkwoordstijdenverwachttebijdegesprokentaal.Ditomdatbijgesprokentaalminderbewustwordtgekozenvoorbepaaldewoorden,terwijlditbijgeschreventaalheelbewustgaat.Dezevoorspellinglijktooktekloppen.Bijeerderonderzoekingesprokentaalwordtgebruikgemaaktvanmeersoortenwerkwoordstijden,namelijktussende4en9verschillende.Bijmijnonderzoekligtditaantaltussende3en5werkwoordstijden.Erlijktdusinderdaadmeervariatieinwerkwoordstijdenbijgesprokentaal.

Page 32: Camus in kaart (concept)

32

4.6 DiscussieKeuzetoekenningwerkwoordstijdSomswashetlastigtekiezenwelkewerkwoordstijdhetbestepaste.Bijvoorbeeldbijcombinatiesvanwerkwoorden.Eenvoorbeeldhiervanistezieninafbeelding23.Hetwerkwoordwaarhetomgaatis‘parler’en‘hablar’.IndeSpaansevertalingiseenwoordtoegevoegd,namelijkeenvormvan‘seguir’,watzoietsals‘voortgaan’betekent.DitdeelvandeSpaansezinstaatnietindebrontaalenzorgtervoordatdewerkwoordensameneencontinuïteitaangeven.Voorditonderzoekhebbenwebeslotenomdewerkwoordstijdvanhethoofdwerkwoord,‘siguió’inditgeval,leidendtelatenzijn.Ditkomtdoordatwedecontinuïteitnognietnadergespecifieerdhebbenenhetnodigisbeternatedenkenhoeditsoortsituatiesbenoemdmoetenworden.Ineenvervolgonderzoekkanervoorgekozenwordenomdittebenoemenmeteenanderesoortwerkwoordstijd.

WehebbensoortgelijkegevallenvancombinatiesvanwerkwoordengezieninhetNederlands.Wederomisindevertalingeenextrawerkwoordistoegevoegd,welkedefunctievanhethoofdwerkwoorddraagt.Ziehetvoorbeeldinafbeelding24.

Afbeelding23:Voorbeeldmoeilijkekeuzewerkwoordstijd(FR-SP)

Afbeelding24:Voorbeeldmoeilijkekeuzewerkwoordstijd(FR-NL)

Page 33: Camus in kaart (concept)

33

PassievevormenHebbendepassievecontexteninvloedopderesultaten?Ditiseenvraagwaareenantwoordopgevondenkanworden,alsdepassievevormenapartbehandeldworden.HetzoukunnendathetblijktdaterminderPerfectvormenzijndandatderesultatennulatenzien.Misschienishetmogelijkeenalgoritmeteschrijvendiedepassievevormenkanextraheren.Zieafbeelding25vooreenvoorbeeldvaneenpassievevorm,diealswerkwoordstijddeVVTistoegekend,terwijlditeenOVTzoumoetenzijn.DitiseenvoorbeeldvoorhetNederlands,maarzulkegevallenkomenvoorinalletalen.Omdezeredenzullenalletalenhieropgecontroleerdmoetenworden.Zolangergeenalgoritmevoorgeschrevenis,isdedataeenstukbewerkelijker.Hierdoorbeniknietinstaatgeweestditteverwerkenbinnenmijnonderzoek.Desondankszouhetinteressantzijnomerachtertekomenwelkeinvloeddepassievevormenhebbenopderesultaten.

WerkwoordstijdenDuitsInhetDuitswordtdePerfectgrotendeelsmetdePerfektvertaald.TochwordteennietverwaarloosbaargedeeltemethetPräteritumvertaald.Inwelkegevallenwordtdezetijdgebruiktenwaarom?Ditiseenvraagwaarikinditonderzoekhelaasgeenantwoordopkangevenenwaarbijvervolgonderzoekenaandachtaanbesteedmoetworden.Kijkendnaarde17contextendieinditonderzoekmeteenPräteritumzijnvertaald,ishetmijnietgelukteenduidelijkredenteontdekkenwaaromdevertalerbijbepaaldecontextenervoorheeftgekozenomtevertalenmeteenPräteritum.VerbeteringsemantischekaartenPreciesdezelfde5-tupelshebbenafstand0enliggendusopdezelfdeplekindesemantischekaart.Alsjeheelveelovereenkomende5-tupelshebt,vormendezeeenkluitjerondhetzelfdepunt.Ikdenkdathetmogelijkzoumoetenzijnomdefrequentievande5-tupelsopvallenderweertegeven.Bijvoorbeelddooréénpunttemakenvanovereenkomende5-tupels,diegroterwordtnaarmateermeer5-tupelszichopdatpuntbevinden.Alsjeopdatpuntklikt,zoueengenummerdscrolllijstjekunnenverschijnenwaarinjeeen5-tupelkuntselecteren.Alsjeeen5-tupelselecteert,wordjeop

Afbeelding25:Voorbeeldpassiefwerkwoord

Page 34: Camus in kaart (concept)

34

dezelfdemanieralsnudoorgelinktnaardevertalingen.Hetscrolllijstjeisgenummerdzodatjegemakkelijkerkuntonthoudenwelke5-tupelsjealeerdergeselecteerdhebt.Alsjeterugkliktenweerdoorhetlijstjegaatscrollen,kunjemakkelijkereenander5-tupelselecterenalsjeonthoudtwelknummer5-tupeljealbekekenhebt.Ditiseenideevoorhetweergevenvandesemantischekaarten,maarditdientverderuitgewerkttewordenzodathetoptimaalkanwerken.Ookzouergewerktkunnenwordenmeteenheatmap.Ditwerktvergelijkbaarmeteenkaartwaarintemperaturenwordenaangegeven.Hiermeezoueenrodekleurkunnenaangevendatdefrequentievande5-tupelshoogiseneenblauwekleurgeefteenlagerefrequentieaan.VerschilgesprokenengeschreventaalIkkannietmetzekerheidzeggenofmijnverklaring,datgesprokentaalminderbewustwordtgekozen,ookklopt.Dezeverklaringisnognietafteleidenuitdezeresultaten.Hiervoorzoumeeronderzoekgedaanmoetenwordenbinnenzoweldegesprokenalsdegeschreventaal.Pasalsmeerdatavoorhandenis,kangeprobeerdwordeneenuitspraakhierovertedoeneneenverklaringtevinden.InvloedtijdsbepalingenOmnogdieperintegaanopdedatavanditonderzoek,kunnendecontextendieinhetNederlandszijnvertaaldmeteenVTTonderdeloepwordengelegd.KloptdeliteratuurenwordtinhetNederlandsinderdaadalleenmeteenVTTvertaaldindienereentemporeelaanwijzendbijwoordindezinstaat?Ofontbrekendezebijwoordensomsook?Omhiereenduidelijkeuitspraakovertekunnendoen,ishetnodigallecontextendiealseenVTTvertaaldzijnteonderzoeken.Helaaspasteditnietbinnendetijdvanmijnonderzoek,maarditiszekereenonderdeelwaarineeneventueelvervolgonderzoeknaargekekenkanworden.

4.7 VervolgonderzoekVerschillentussenEngelsevertalingenInmijnonderzoekhebikgebruikgemaaktvandeEngelsevertalingvanJosephLaredo(1982).Nuisin2012eennieuweEngelsevertalingvanSandraSmithgepubliceerd.Enkeleverschillenzijnoptemerkentussendezetweevertalingen.Eenverschilwordtbijvoorbeeldindeeerstezinalduidelijk.Dezeisnamelijkinbeidevertalingenopeenanderemaniervertaald.Deeerstezinuithetorgineel:‘Aujourd’hui,mamanestmorte.’DitisdoorLaredovertaaldals:‘Motherdiedtoday’.DoorSmithisditopeenpersoonlijkeremaniervertaald,namelijkdoor:‘Mymotherdiedtoday.’Ditisnatuurlijkslechtsteenkleinverschil,maardezemaniervanschrijvenisindegehelevertalingdoorgezet.MijnvraagvooreeneventueelvervolgonderzoekisnuofdezeanderemaniervanvertaleninvloedheeftopdebetekenisvandePerfects.TalenontbrekendeperfectVooreenvervolgonderzoekzouhetinteressantkunnenzijnomtekijkennaartalenwaaringeenPerfectbestaat.TalenzoalshetPools,RussischenChineeshebbengeenPerfect.InwelkevormisdePerfectterugtevindenindezetalen?MijnonderzoekkangemakkelijkuitgebreidwordendoordevertalingenindezetalenvandeeerstedriehoofdstukkenvanL’Étrangerteanalyserenopdezelfdemanierendezeresultatensamentevoegenentevergelijken.

Page 35: Camus in kaart (concept)

35

5 LogboekDatum Gedaan Tijd16jan2017 ArtikelenAnonymousEACL(2017)enbegindeSwart(2007)gelezen 5uur21jan2017 Spaansevertalingovergetypt 3uur26jan2017 NederlandseenEngelsevertalingeningescand 1,5uur3feb2017 Engelsevertalinghandmatigverbeterd 3uur5feb2017 Nederlandsevertalinghandmatigverbeterd 3,5uur6feb2017 Spaansevertalingingescand+OCR 3uur9feb2017 Spaansevertalinghandmatigverbeterd 5uur11feb2017 Beginopzetdocument 3uur13feb2017 MethodeuitgewerktenartikeldeSwart(2007)verdergelezen 6uur14feb2017 BesprekingmetHenriëtte,MartijnenBert 1uur18feb2017 Annoterenuitgeprobeerd 0,5uur25feb2017 Nederlandsecontextengeannoteerd 3uur2maart2017 VervolgNederlandsecontextenannoteren 1uur6maart2017 Engelsecontextengeannoteerd 2uur6maart2017 BeginSpaansecontextenannoteren 0,25uur8maart2017 VervolgSpaansecontextenannoteren 2,75uur14maart2017 BeginDuitsecontextenannoteren 0,25uur17maart2017 VervolgDuitsecontextenannoteren 2,25uur21maart2017 Duitsewerkwoordstijdenhandmatigtoevoegen 3uur21maart2017 BegonnenmetSpaansewerkwoordstijdentoevoegen 0,5uur23maart2017 ArtikelNishiyamaenKoeniggelezen 3uur29maart2017 VervolgSpaansewerkwoordstijdenhandmatigtoegevoegen 1,5uur30maart2017 VervolgSpaansewerkwoordstijdenhandmatigtoegevoegen 1uur30maart2017 Methodebeschreven 5uur31maart2017 MethodeenUitvoering 8uur1april2017 MethodeenUitvoering 9uur2april2017 MethodeenUitvoeringensemantischekaartengeanalyseerd 8uur3april2017 NederlandseenEngelsewerkwoordstijdenhandmatigverbeterd 10uur3april2017 BesprekingmetHenriëtteenBert 2uur4april2017 InleidingenLiteratuur 10uur5april2017 InleidingenLiteratuur 12uur6april2017 MethodeenUitvoering 9uur7april2017 MethodeenUitvoering 8uur9april2017 AandachtspuntenenopdeTimeAlignwebsitedataaangepast 6uur10april2017 AllestotResultatenbijgewerkteneersteconceptopgestuurd 8uur11april2017 Resultaten 8uur12april2017 Methode,Uitvoering,ResultatenenConclusie 8uur12april2017 BesprekingmetMartijn 1uur13april2017 Inleiding,MethodeenReferenties 6uur14april2017 ConclusieenDiscussie 7uur15april2017 Methode 5uur17april2017 Geheleverslaggecontroleerdenopmaakaangepast.Conceptversie

ingeleverd9uur

21april2017 Feedbackverwerkteneindversieingeleverd 4uur

Page 36: Camus in kaart (concept)

36

6 Bibliografie

6.1 PrimaireliteratuurCamus,A.,(1942).L’étranger[Devreemdeling].Parijs:Gallimard. Camus,A.,(1949).Devreemdeling(A.Morriën,Vert.).Epe:Hooiberg.(Orginelewerkgepubliceerd1942) Camus,A.,(2010).DerFremde(U.Aumüller,Vert.).Reinbek:Rowohlt.(Orginelewerkgepubliceerd1942) Camus,A.,(1982).Theoutsider(J.Laredo,Vert.).London:HamishHamilton.(Orginelewerkgepubliceerd1942) Camus,A.,(2012).Elextranjero(J.Á.Valente,Vert.).Madrid:AlianzaEditorial.(Orginelewerkgepubliceerd1942)

6.2 SecundaireliteratuurArtikelenNishiyama,A.,&Koenig,J.(2010).WhatisaPerfectState?Language,86(3),611-646.DeSwart,H.(2007).Across-linguisticdiscourseanalysisoftheperfect.Journalofpragmatics,39(12),2273-2307.DeSwart,H.,&Molendijk,A.(2002).Lepassécomposénarratif:uneanalysediscursivedel’étrangerdeCamus.Laca(2002),193-211.VanderKlis,M.,LeBruyn,B.,&DeSwart,H.(2017).MappingthePerfectviaTranslationMining.EACL2017,497.Wälchli,B.&Cysouw,M.(2012).Lexicaltypologythroughsimilaritysemantics:Towardasemanticmapofmotionverbs.Linguistics,50(3),671-710.Tiedemann,J.(2003).Recyclingtranslations:Extractionoflexicaldatafromparallelcorporaandtheirapplicationinnaturallanguageprocessing(Doctoraldissertation,ActaUniversitatisUpsaliensis).Varga,D.,Németh,L.,Halácsy,P.,Kornai,A.,Trón,V.&Nagy,V.(2005).Parallelcorporaformediumdensitylanguages.ProceedingsoftheRANLP2005,590-596.Schmid,H.(2013).Probabilisticpart-of-speechtaggingusingdecisiontrees.Newmethodsinlanguageprocessing,154.Verkleij,A.&Wimmers,V.(2016).Filmperspectiefopdepresentperfect(Bacheloreindwerkstuk,UniversiteitUtrecht)Tiedemann,J.(2012).ParallelData,ToolsandInterfacesinOPUS.LREC,2012,2214-2218.Lison,P.,&Tiedemann,J.(2016).Opensubtitles2016:Extractinglargeparallelcorporafrommovieandtvsubtitles.Proceedingsofthe10thInternationalConferenceonLanguageResourcesandEvaluation.

Page 37: Camus in kaart (concept)

37

InternetwebsitesWebsiteTimeAlignonderzoek-timealign.pythonanywhere.com

OnlineOCRprogramma-www.onlineocr.net

PDF-bestandensplitten-www.splitpdf.com

Python-scripttreetagger-xml-github.com/mhkuu/treetagger-xml

Scikit-learnpackage-scikit-learn.org/stable/index.html

VisualisatieMDS-nvd3.org/

Spaansebestelwebsitevoorboeken–www.casadellibro.com

Grammaticaenvervoegenwerkwoorden-www.lingolia.com/en/

VerschilinEngelsevertaling-www.theguardian.com/books/2012/dec/09/outsider-albert-camus-smith-review