Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1...

65
Nederlandse Gesproken Corpora: een Inventarisatie Drs. R.J. Piepenbrock CELEX - Centrum voor Lexicale Informatie Max Planck Instituut voor Psycholingu¨ ıstiek Postbus 310 6500 AH Nijmegen Telefoon: +31-(0)24-3615797 Fax: +31-(0)24-3521213 E-mail: [email protected] Homepage: http://www.kun.nl/celex/ 7 juni 1999 Versie 1.5 1

Transcript of Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1...

Page 1: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Nederlandse Gesproken Corpora: een Inventarisatie

Drs. R.J. PiepenbrockCELEX - Centrum voor Lexicale InformatieMax Planck Instituut voor Psycholinguıstiek

Postbus 3106500 AH Nijmegen

Telefoon: +31-(0)24-3615797Fax: +31-(0)24-3521213

E-mail: [email protected]: http://www.kun.nl/celex/

7 juni 1999

Versie 1.5

1

Page 2: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Inhoudsopgave

1 Inleiding 3

2 Het Historische Perspectief 42.1 Corpora van de Eerste Generatie (-1980) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1 Corpus De Vriendt-De Man . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.2 Eindhoven Corpus (Corpus Uit den Boogaart) . . . . . . . . . . . . . . . . . . . . . . 62.1.3 Corpus De Jong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 De Eerste Elektronische Gesproken Corpora 93.1 Corpora van de Tweede Generatie (1980-1990) . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1.1 De CHILDES kindertaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.1.2 De ESF migrantentaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.1.3 Nederlandse dialoogcorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.2 Andere Gesproken Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4 Recente Ontwikkelingen: Gesproken Corpora en Standaardisatie 234.1 Corpora van de Derde Generatie (1990-) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 De Opkomst van Internationale Standaards . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.2.1 SGML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244.2.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254.2.3 TEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284.2.4 EAGLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.3 Het Ontstaan van Internationale Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.1 De EUROM1 databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3.2 Het European Corpus Initiative (ECI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3.3 Het Multilingual Parallel Corpus (MLCC) . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.4 Het International Corpus of English . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.5 Het British National Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.6 Het POLYPHONE Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3.7 Het Oxford Text Archive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.3.8 Het Project Gutenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.4 Moderne Nederlandstalige Gesproken Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.4.1 Het ANNO Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.4.2 Het COGEN Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 524.4.3 Het PBS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4.4 Het Groningen Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.4.5 Het Speech Styles Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 554.4.6 Het OVIS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.4.7 Corpora van het Meertensinstituut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5 Evaluatie 59

6 Gidsprojecten voor de Toekomst 616.1 Het GATE Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.2 Het EUDICO Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.3 De Edinburgh Language Technology Group . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.4 Het Paper A Formal Framework for Linguistic Annotation . . . . . . . . . . . . . . . . . . . . 626.5 Het Zweedse Gesproken Corpus Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.6 Het Hyperlex Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

7 Referenties 63

2

Page 3: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

1 Inleiding

Wanneer we met elkaar door middel van taal communiceren, dan is spraak het primaire medium. Hoewelgeschreven taal zich in dit informatietijdperk een hoge status en een wijde verbreiding heeft verworven, blijfthet een afgeleide van het gesproken woord. Toch is het huidige fundamentele taalonderzoek qua beschrijvingvan grammatica en lexis, evenals de toepassingsgerichte taalstudie (lexicografie, talenonderwijs) grotendeelsgebaseerd op geschreven bronnen. Dit leidt onvermijdelijk tot vertekeningen in de analyse van ons standaardtaalgebruik.

Tot voor kort was gesproken taal echter zo lastig te vergaren, te verwerken, te archiveren en te ontsluiten,dat uit deze praktische overwegingen nauwelijks tot grootschalige analyse van gesproken taal kon wordenovergegaan. Nu in het laatste decennium een veelheid aan geavanceerde computertechnieken de registratie,bewerking en opslag van grote hoeveelheden spraak mogelijk maakt, en de integratie van spraak in multime-diale pakketten eveneens in allerlei toepassingen opgeld doet, lijkt het moment aangebroken om substantieleinspanningen te plegen om de gesproken taal in kaart te brengen. De opzet van een Corpus GesprokenNederlands (CGN) van 10 miljoen woorden, een samenwerkingsproject tussen de Vlaamse en Nederlandseoverheden, moet dan ook in dit licht worden bezien.

Behalve dat de samenstelling van een corpus van een dergelijke omvang ook met de huidige stand dertechniek nog zeer veel financiele ondersteuning vereist, vormt het project ook in taalkundig en computationeelopzicht een grote uitdaging. Zo zullen, op grond van de ervaringen met vergelijkbare initiatieven, zoalshet British National Corpus (BNC), keuzes moeten worden gemaakt op het gebied van de corpusinhoud(de taalsamples), het corpusformaat (opslag, vorm, interne structuur), de linguıstische annotatie en deuiteindelijke beschikbaarstelling aan gebruikers.

De uitdaging van het project zal er voor een groot deel in bestaan, om, anders dan bij het BNC, deorthografische transcriptie voor alle uitingen op te lijnen met het akoestisch signaal, en vervolgens beidebeschikbaar te stellen. Immers, juist bij transcriptie van het gesproken signaal gaat, zelfs bij uitgebreideannotatie, veel akoestische informatie verloren (b.v. tempo, amplitude, duur, intonatie, pauzes, volgenstranscribeur onverstaanbare woorden, overlappingen, aarzelingen, versprekingen). Ook zal een transcrip-tie volgens een bepaalde methode vaak onbruikbaar zijn voor wetenschappers geınteresseerd in een anderediscipline (b.v. prosodische vs. orthografische transcriptie, standaardisatie van clitica en reducties vs. nauw-keurige transliteratie van deze varianten, taalkundige vs. redekundige analyse). Daarnaast ontbreekt vaakinformatie over de situationele context, evenals ondersteunende gebaren, lichaamshouding, gelaatsuitdruk-kingen en hoofdbewegingen. Om deze nadelen zoveel mogelijk te beperken, is toegang tot het spraaksignaal,en wellicht zelfs videofragmenten, waar voorhanden, onontbeerlijk. Bovendien zal het project voorzien inmorfologische en semantische koppeling aan bestaande lexicale bestanden. Ook zal een deel van het corpusverrijkt worden met gedetailleerde fonetische en fonologische informatie.

Bij alle activiteiten in het kader van het CGN-project zal voorop moeten staan, dat het beoogde cor-pus aantrekkelijk moet zijn voor een groot aantal wetenschappelijke en niet-wetenschappelijke disciplines enapplicaties. Verder zal, in navolging van aanbevelingen van verschillende (inter)nationale instanties, zorgworden gedragen voor een zo laagdrempelig, gebruikersvriendelijk en veelzijdig mogelijke toegang tot hetspraaksignaal, de transcriptie en de diverse annotatielagen. Dat impliceert zo veel mogelijk aansluiting bijexpliciet door de diverse disciplines gedefinieerde, dan wel in de praktijk gegroeide (best practice) standaard-methoden en -technieken voor de verschillende bewerkingsslagen van het gesproken materiaal.

In het kader van het CGN beoogt dit rapport zo veel mogelijk in kaart te brengen, welke inspanningenreeds op het vlak van registratie, bewerking en eventueel openbaarmaking van spraak gepleegd zijn binnen hetNederlandse taalgebied (Nederland en Vlaanderen). Ook zal worden ingegaan op internationale standaardsop het gebied van corpora en buitenlandse projecten die voor het CGN een voorbeeldfunctie zouden kunnenvervullen. Het doel is m.a.w. tweeledig: inventarisatie van bestaand materiaal en evaluatie van reedsgebruikte of nog in ontwikkeling zijnde methoden en technieken. Bronnen worden waar nodig vermeld voorverdere referentie.

3

Page 4: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

2 Het Historische Perspectief

De geschiedenis van de opbouw van gesproken corpora kan ruwweg worden opgedeeld in drie periodes:het tijdperk van handmatige verwerking van bandopnames, het decennium van geautomatiseerde studievan het signaal, en tenslotte de (belofte van) volledig computergestuurde opname, transcriptie, annotatieen ontsluiting van dit moment. Voor het historisch perspectief zal eerst worden ingegaan op een aantal inboekvorm verschenen corpora, die niettemin voor hun tijd revolutionair waren, omdat de computer reeds eenintegraal onderdeel van de bewerkingsslag uitmaakte. Uitgebreide studie van het signaal en de transcripties,door de samensteller of anderen, was hierbij evenwel niet het uitgangspunt van de verzameling. Opname vangesproken taal was slechts een middel om te komen tot betrouwbare frequentietellingen voor het gesprokenNederlands met het oog op beter gestructureerd talenonderwijs.

2.1 Corpora van de Eerste Generatie (-1980)

In deze periode werd het gesproken signaal opgenomen op analoge audiotapes, waarna de spraak veelal eerstmet de hand werd getranscribeerd, en daarna overgetypt. Waarschijnlijk zijn uit deze periode een grootaantal bandrecorderspoelen en cassettes (indien nog afspeelbaar) met notities en/of transcripties aanwezigop het Meertensinstituut in Amsterdam. Het betreft hier echter waarschijnlijk vooral dialectmateriaal.Volgens Heikens (1978: 37) zijn hier alleen al in de periode 1960-1975 maar liefst 1500 bandopnames metvoornamelijk spontane spraak in dialect verzameld. De status van deze banden (zowel qua conditie alsbeschikbaarheid, inclusief mogelijke bewerkingen) is vooralsnog onduidelijk. Systematische analyse van ophet algemeen spraakgebruik gerichte bestanden vond vooral in het buitenland plaats, zoals het Survey ofEnglish Usage (SEU), opgezet door Randolph Quirk en zijn medewerkers in 1959. De uiteindelijke versiebestaat uit 200 teksten van elk 5000 woorden uit de periode 1953-1987, waarvan de helft gesproken materiaalbetreft. Allerlei woordkenmerken werden hierbij op kartonnen kaartjes geıllustreerd met getranscribeerdeuitingen van informanten.

Het gesproken deel van het SEU (500.000 tokens) werd later computationeel bewerkt tot het London-Lund Corpus (LLC) door Jan Svartvik en zijn team. Dit proces van automatisering van oude bestandenvond en vindt nog steeds plaats voor een aantal gelijksoortige corpora. Voor het LLC zijn redelijk uit-gebreide fonologische annotaties voorhanden naast het orthografische niveau, zoals toonhoogte, plaatsingvan de kernaccenten, twee soorten pauze, twee soorten accent, sprekeridentificatie, gelijktijdig spreken, con-textueel commentaar en onverstaanbare woorden. Paralinguıstische kenmerken en bepaalde aanvullendecommentaren over intonatie en accenten zijn niet aangegeven. Ook zijn de geluidsfragmenten (deels?) nogbewaard gebleven en opvraagbaar aan het University College London.

Zoals gezegd waren de inspanningen voor het vastleggen van algemeen gangbaar Nederlands geringer. Uitdeze periode stammen drie volgens een van tevoren geformuleerde strategie gesamplede en getranscribeerdecorpora van dit teksttype, te weten het corpus De Vriendt-De Man, het Eindhoven Corpus (Uit den Boogaartcorpus), en het corpus De Jong.

2.1.1 Corpus De Vriendt-De Man

Deze studie had als doel gegevens over frequente woorden en zinsstructuren te verzamelen in de spontaneNederlandse (Noord- en Zuid-Nederlandse) spreektaal (De Vriendt-De Man, 1969: 5). Het uitgangspuntdiende geen zuiver wetenschappelijke interesse: de resultaten moesten bijdragen aan verbeterd Nederlandsonderwijs aan Franstaligen. De methodologie hiervoor was sterk geent op het werk van G. Gougenheim etal., L’Elaboration du Francais Fondamental uit 1964. Zeker voor een uit 1969 stammende dissertatie als dezezijn de gegevens over sampling, opname en verwerking zeer volledig.

Gegevens:

• Omvang:

– types: niet vast te stellen (altijd morfosyntactische codes aanwezig).

– tokens: 117.122 (58.578 N-N, 58.544 Z-N, volgens opgave boek).

4

Page 5: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– extra info: type-tag combinaties niet vast te stellen door uitsluiten types met F 〈 5.

• Samenstelling (teksttypes): informele, onvoorbereide of nauwelijks voorbereide dialoog in verschillendesituationele context (winkel, vriendenbezoek, radiointerview). 465 gespreksonderwerpen (gecodeerd).

– 29 gesprekken:

∗ 13 Zuid-Nederlands (eigen opnames Grembergen: 1/3, BRT: 1/6),

∗ 16 Noord-Nederlands (eigen opnames Noord-Brabant + Zeeuws-Vlaanderen: 1/3, Radio Om-roep Zuid (Maastricht) 1/6).

• Sprekergegevens: 117 informanten, 73 man, 44 vrouw. Leeftijd, beroep/sociale status, plaats vanherkomst en plaats van opname aangegeven.

• Opnamedatum: ?

• Opnameduur: ± 20 uur.

• Annotatieschema:

– gehanteerde standaard: geen.

– geclitiseerde en andere niet-standaard vormen 1: beperkt (’d’r’, ’d’rbij’, ’ie’, maar ’het’ voluit)

– sprekerwisseling, behandeling overlap: sprekerwisseling: ja, overlap: nee.

– behandeling bij- en achtergrondgeluiden: nee.

– gehanteerde interpunctie: ja, orthografische interpretatie.

• Annotatieniveaus:

– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. Aar-zelingen aangegeven, pauzes d.m.v. speciale ASCII-karakters.

– Taalkundig: syntactische tags slechts in afgeleide frequentielijst, niet in lopende tekst.

• Status privacy informanten: ?

• Copyright: ?

• Beschikbaarheid opnames: ?

– geluidsdrager: analoge audiospoelen.

– opnametechniek: verborgen microfoon bij eigen opnames (veel achtergrondgeluiden, ook doorsituationele context, professionele apparatuur voor radioopnames BRT en ROZ).

– signaal-ruisverhouding: 120-6.000 Hz ± 3 dB.

– elektronische versie: indertijd ingetypt op 13.858 ponskaarten, Universite Libre de Bruxelles.Onleesbaar?

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

1geclitiseerde vormen zijn twee of meer woorden die zich gedragen als een fonologisch woord, vaak met syllabe-deletie, zoals[tIs] voor ’het is’. Verder onderscheid kan gemaakt worden naar functionele eenheden, waarbij het gaat om de combinatievan functiewoorden, en de term clitica voorbehouden blijft aan combinaties van lexicale woorden en functiewoorden. Bijgereduceerde vormen gaat het om een oorspronkelijk woord, zonder syllabe-deletie, zoals [@m] voor ’hem’.

5

Page 6: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart)

Dit corpus werd opgesteld om een nauwkeurig idee te krijgen van in Nederland (niet in Vlaanderen) veelvoorkomend taalgebruik d.m.v. frequentietellingen van woorden. Het onderzoek werd uitgevoerd door deWerkgroep Frequentie-Onderzoek van het Nederlands, gesubsidieerd door Z.W.O. (het Nederlandse Fondsvoor Zuiver Wetenschappelijk Onderzoek, nu het N.W.O.) en de Technische Hogeschool Eindhoven (ge-schreven taal) en het Instituut voor Dialectologie, Volks- en Naamkunde van de Koninklijke NederlandseAcademie voor Wetenschappen te Amsterdam (nu: Meertensinstituut) (gesproken taal). Het geschreven deelbevat fragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijkkleiner. Oorspronkelijk in 1975 in boekvorm verschenen als Woordfrequenties: in Geschreven en GesprokenNederlands.

Gegevens:

• Omvang: ABN-file:

– types: 4.041 (minus interpunctie, puur op orthografische string).

– tokens: 59.941 (minus interpunctie).

– extra info: 5.009 unieke type-tag combinaties.

• Omvang: dialectfile:

– types: 4.808 (minus interpunctie, puur op orthografische string).

– tokens: 60.339 (minus interpunctie).

– extra info: 5.901 unieke type-tag combinaties.

• Omvang bronnen gecombineerd:

– types: 7.065 (minus interpunctie, puur op orthografische string).

– tokens: 120.280 (minus interpunctie).

– extra info: 8.696 unieke type-tag combinaties.

• Samenstelling (teksttypes): 26 volledig opgenomen gesprekken (vanwege gebrek aan materiaal), vari-erend van groepsdiscussies, interviews en gesproken brieven (academisch niveau) tot informele dialoog(laag opleidingsniveau) (Uit den Boogaart, 1975: 13).

• Sprekergegevens:

– 13 gesprekken door ’academici of daarmee gelijk te stellen personen die geacht worden ABN tespreken’ (Uit den Boogaart, 1975: 13).

– 13 gesprekken ’mensen met weinig schoolopleiding uit een aantal plaatsen in Noord- en Zuid-Holland’ (Uit den Boogaart, 1975: 13).

• Participanten: aandeel gespreksleider (van hoger opleidingsniveau) verwijderd bij informele dialoog.

• Opnamedatum: 1960-1973.

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: geen.

– geclitiseerde en andere niet-standaard vormen: ja, sporadisch (’ie’, ’effe’, ’gelejen’, ”n’, ’mekaar’,’bennen’).

– sprekerwisseling, behandeling overlap: nee.

– behandeling bij- en achtergrondgeluiden: nee.

6

Page 7: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– gehanteerde interpunctie: geen, soms onduidelijke interpunctietekens.

• Annotatieniveaus:

– Orthografisch: alles onderkast, geverticaliseerd voor Esprit-formaat.

– Taalkundig: morfosyntactische tags (woordsoort en flexievorm).

• Status privacy informanten: onduidelijk. Besproken personen (anders dan informanten) geanonimi-seerd met codes ’x[0-2]’en ’y[0-2]’.

• Copyright: Op verschillende instituten is een versie van het corpus aanwezig; het is onduidelijk of ercopyright op het corpus rust. Waarschijnlijk is dit niet het geval voor wetenschappelijk gebruik.

• Beschikbaarheid opnames: ?

– geluidsdrager: nee.

– elektronische versie: ja, ASCII computerfiles, kennelijk in verschillende formaten (transcriptiemet of zonder annotatie) op diverse instituten als Taal & Spraak KUN, Max Planck Instituut(CELEX), Systeemhuis TU Eindhoven, Mathematisch Centrum Amsterdam.

∗ Lopende tekstversie getagged met Uit den Boogaart’s lexicale codes onder de naam ’Eindho-ven Corpus’, inclusief Jan Renkema’s onderzoek ’De Taal van Den Haag’.

∗ Vertikaal opgesplitste versie onder de naam ’Esprit Corpus’, inclusief het bestand van Ren-kema en andere corpora, o.a ’De Gelderlander’, getagged met Esprit 860-codes.

∗ Gesproken Esprit files:

· dut abn rel1.uni (ABN-file, academisch).

· dut dia rel1.uni (dialectfile, lager opleidingsniveau).

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

2.1.3 Corpus De Jong

Dit corpus bevat uitsluitend spreektaal en is als een beter gestratificeerd vervolg opgezet van het onderzoeknaar woordfrequenties in het gesproken Nederlands door Uit den Boogaart (1975). Dezelfde corpusgrootte(t.o.v. van het deelcorpus) en dezelfde annotatiewijze zijn gehanteerd om vergelijking eenvoudig te maken.Oorspronkelijk in 1979 in boekvorm verschenen als Spreektaal: Woordfrequenties in Gesproken Nederlands.

• Omvang:

– types: niet vast te stellen (altijd morfosyntactische codes aanwezig).

– tokens: 120.000 (volgens opgave boek).

– extra info: 8.603 unieke type-tag combinaties (nauwelijks verschil met Uit den Boogaart (1975)).

• Samenstelling (teksttypes): stratificatie naar 4 niet-linguıstische variabelen: gesprekssituatie, geslacht,leeftijd en sociaal-economische klasse, volgens Labov (1966), Shuy et al. (1968), en Trudgill (1974):16 groepen gelijkelijk verdeeld over de 4 variabelen (7500 woorden per groep). Voor gesprekssituatie:formeel (interview over opleiding en beroep) vs. informeel (huiskamergesprek tussen twee informan-ten over vrij onderwerp), beide thuis afgenomen, waardoor veel diversiteit m.b.t. kwaliteit opname,aanwezigheid gezinsleden, etc. Door allerlei omstandigheden (kwaliteit opname, leeftijds-, geslachts- ofklasseverschil bij informele gesprekken) konden slechts iets minder dan de helft van alle 245 opnames(in totaal 136 formeel, 109 informeel) gebruikt worden: 59% van de formele (= 80), 34% van de infor-mele (= 37). Uit elk 3 steekproeven genomen van 250 woorden (formeel) en 6 steekproeven van 250woorden (informeel). Dit omdat 80 formele en slechts 37 informele gesprekken waren gekozen.

7

Page 8: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Sprekergegevens: Geografische spreiding: uitsluitend Amsterdam, vanuit praktische overwegingen enopvatting dat dit redelijk representatief is voor standaardtaal (De Jong: 1979: 10). Gelijkelijke verde-ling over geslacht, leeftijd (jong (24-28 jr.) vs. oud (54-58 jr.)) en opleiding en beroep (hoog vs. laag).Zo ontstonden 8 groepen van tenminste 10 autochtone Amsterdammers. Uitgebreide vragenlijsten metsprekerinformatie (ook over hobbies, eventuele vorige plaatsen van huisvesting, buurtcontacten, vormen duur relatie(s), sociale status ouders en partner, aard en hoeveelheid tot zich genomen informatie(kranten, tijdschriften, boeken, radio, TV)) zijn beschikbaar.

• Opnamedatum: ?

• Opnameduur: ± 25 minuten per formeel gesprek, ± 50 minuten per informeel gesprek (Heikens, 1978:36).

• Annotatieschema:

– gehanteerde standaard: geen.

– geclitiseerde en andere niet-standaard vormen: nee, alles genormaliseerd naar standaardvormvanwege vergelijking met schrijftaal. Dus: ’ie’ � ’hij’, ’effe’ � ’even’, ’as, az’ � ’als’, ’da’s’ �’dat is’, ’kweenie’ � ’ik weet niet’, etc. Vreemd genoeg bevat Uit den Boogaart wel dit soortwoorden. Onafgemaakte woorden gecompleteerd.

– sprekerwisseling, behandeling overlap: ja.

– behandeling bij- en achtergrondgeluiden: nee.

– gehanteerde interpunctie: geen.

• Annotatieniveaus:

– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven.

– Taalkundig: morfosyntactische tags (woordsoort en flexievorm) volgens Uit den Boogaart (1975).

• Status privacy informanten: geanonimiseerd voor persoonsnamen:

– X = voornaam.

– Y = achternaam.

– Z = voor- of achternaam.

– 0 = geslacht onbekend.

– 1 = geslacht vrouw.

– 2 = geslacht man.

• Copyright: Meertensinstituut Amsterdam.

• Beschikbaarheid opnames: ?

– geluidsdrager: indertijd audiospoelen op Meertensinstituut. Nu onafspeelbaar?

– opnametechniek: handmicrofoon en eensporige Nagra-bandrecorder voor formele gesprekken, om-hangmicrofoon en tweesporen Uher-bandrecorder voor informele gesprekken (een spoor per ge-sprekspartner).

– elektronische versie: indertijd magneetband ongeannoteerde en geannoteerde transcriptie en opMeertensinstituut. Onleesbaar?

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

8

Page 9: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

3 De Eerste Elektronische Gesproken Corpora

3.1 Corpora van de Tweede Generatie (1980-1990)

In deze periode begon de computer een integraal onderdeel te worden van het analyseproces. De opnamesgeschiedden vaak nog op analoge audiospoelen of cassettes, maar in de tweede helft van de jaren 80 steedsmeer op digitale DAT-tapes. Transcriptie gebeurde in eerste instantie regelmatig met de hand, maar zeker ineen later stadium werden alle orthografische transcripten omgezet naar computerfiles, waarna verdere analyseuitgevoerd kon worden met in de jaren 80 steeds meer standaard wordende statistische software zoals SPSS, enspecifiek op taalkundige analyse toegesneden programmatuur als KWIC-concordanties (KeyWord In Context,in feite bekend sinds John W. Ellison’s Nelson’s Complete Concordance of the Revised Standard Version Bibleuit 1957), de tekstanalyze-programmatuur HUM (Bill Tuthill, Berkeley 1981), TACT (University of Toronto,1986-89) en CLAN (zie MacWhinney 1995).

Belangrijke doorbraken op het gebied van gesproken corpora in deze tijd waren het het gesproken deel (1,3miljoen tokens) van het Birmingham University Corpus, in zijn oorspronkelijke, kleinere vorm bekend als hetCOLLINS/COBUILD-corpus, en MARSEC (Machine Readable Spoken English Corpus), dat aanvankelijknaar de samenstellers het Lancaster/IBM Spoken English Corpus werd genoemd. Het volledig gesprokenMARSEC omvat slechts 52.000 tokens (6 uur spraak), maar ondanks de nadruk op geprepareerde en semi-geprepareerde spraak voor synthesedoeleinden, zijn ook samples spontane spraak aanwezig, zoals een aantalcolleges en dialogen. Het belangrijkste aspect van dit corpus is echter zijn volledige machine-leesbaarheid, zo-wel voor de transcriptie als annotatie met CLAWS2 woordklasse-tags, een eenvoudige redekundige ontleding(skeleton parse), het complete audiosignaal (gesampled op het professionele niveau van 16 kHz), prosodischekenmerken (klemtoon, intonatiecontouren), en fonemische transcripties (grotendeels automatisch gegenereerddoor koppeling aan een uitspraakwoordenboek met inachtneming van de prosodische transcriptie en de gram-maticale labels). Bovendien werd een (althans op het syllabe-niveau) betrouwbare oplijning tussen signaalen transcriptie bereikt d.m.v. matching tussen grafeem-foneem conversie van de orthografische transcriptieen de uit de spectraalanalyse eveneens automatisch gegenereerde fonemische transcriptie (Roach & Arnfield,1995: 150-155). Daarmee vestigde MARSEC een nieuwe standaard voor gesproken corpora als bron vooreen grote varieteit aan fundamenteel en toepassingsgericht taalkundig onderzoek.

Andere belangrijke internationale initiatieven op dit terrein waren de CHILDES-corpora van kindertaal enhet ESF-corpus van tweede taalverwerving van migranten. Omdat deze ook Nederlandstalige delen bevatten,en bovendien in elektronische vorm beschikbaar zijn, meestal zelfs met het oorspronkelijke spraaksignaal,worden ze hieronder uitgebreid besproken.

3.1.1 De CHILDES kindertaal-databank

CHILDES is een reeks internationale, centraal verzamelde, opgeslagen en voor iedereen toegankelijke corporamet orthografisch getranscribeerde data met betrekking tot de eerste en tweede taalverwerving van kinderen.De grondslag voor deze collectie werd gelegd door Brian MacWhinney en Catherine Snow aan de CarnegieMellon Universiteit (Pittsburgh), die ook geldt als distributiepunt. Het Max Planck Instituut in Nijmegen iseen van de lokale distributie- en ondersteuningspunten (mirror sites), evenals het Departement GermaanseFilologie van de Universitaire Instelling Antwerpen. Er is in principe geen verschil tussen de volgens eenfilestructuur geordende bestanden in Pittsburgh en op lokale sites, mits natuurlijk de laatste versies van decentrale site regelmatig worden overgehaald.

Transcripties zijn in het gestandaardiseerde CHAT-formaat (Codes for the Human Analysis of Tran-scripts). Dit biedt zowel conventies voor orthografische transcriptie als voor annotatie (verrijking met speechact codes, semantische, syntactische, morfologische analyses etc.) Dit gebeurt via horizontaal opgelijnde re-gels: de hoofdregel bevat de orthografische transcriptie, de onderliggende, daaraan verbonden regels deannotaties, waarbij elke regel slechts een soort annotatie bevat. CHAT staat dus dynamische uitbreiding vanhet aantal ’tiers’ toe naar de wensen van de gebruikers, en is daarmee flexibel genoeg om ook andere datadan CHILDES te coderen. Vanwege de parallelle tiers is het ook mogelijk om te transcriberen op een aantalniveaus, zoals genormaliseerd orthografisch (volgens de officiele spelling), orthografische transliteratie (b.v.’hebde’ of ’hedde’ in plaats van ’hebt ge’, ’heeft-ie’ in plaats van ’heeft hij’) en fonetische transcriptie. Zo is

9

Page 10: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

er minder noodzaak om te kiezen voor een vaak slecht hanteerbaar en nog slechter bevraagbaar compromis.

Voorbeeld (uit JACqueline van Kampen’s corpus van het meisje LAUra; %exp is de verklarende tier, %parde paralinguıstische):

∗LAU: eh bah.%exp: LAU wants to go to the kitchen∗JAC: nee we blijven in de kamer, we doen de deur niet open.%par: LAU protests∗JAC: nee want dan wordt het veel te koud in de kamer.∗JAC: als het straks zomer is, dan doen we alles open.%par: LAU cries∗LAU: ik keuke.∗LAU: ik keuke.

Hoewel goed uitbreidbaar in verticale richting, heeft de horizontale oplijning op het (op zich al slecht defini-eerbare) uitingenniveau wel zijn beperkingen. Edwards (1992: 459) signaleert bijvoorbeeld, dat de reikwijdtevan een bepaalde situationele context (een dependent tier bij een uiting) niet geheel duidelijk is; een herhalingvan b.v. het non-verbale label laughing kan zowel duiden op de voortzetting van het gelach als op een nieuwehandeling. Regelmatig zullen dergelijke niet-verbale en niet-vocale handelingen ook helemaal niet afhankelijkzijn van verbale uitingen. Verder is er, zoals hieronder zal blijken, veel aan te merken op onderlinge verschil-len in het aantal weergegeven tiers, en in de weergave en classificatie van bepaalde verschijnselen, zoals demate van orthografische standaardisering van gesproken woorden en niet-verbale gebeurtenissen als gelach.Is dit laatste bijvoorbeeld een paralinguıstisch fenomeen, een handeling (activiteit), iets voor commentaar,uitleg of situationele context? Maakt het onderdeel uit van de uiting binnen dezelfde tier, of hoort het thuisop een aparte, afhankelijke tier?

CLAN (Computerized Language Analysis) is de softwaresuite, die op basis van de CHAT-gecodeerdecorpora snel zoekacties kan ondersteunen en kwantitatieve gegevens af kan leiden, zoals frequentietellingen.Ook CLAN is niet per definitie gebonden aan het CHILDES-corpus.

Er is een CED-editor voorhanden om het coderen van de diverse tiers te vergemakkelijken, en links tekunnen leggen naar de oorspronkelijke audio- of videotapes.

De laatste versies van de CHILDES databank en de CLAN programmatuur kunnen worden overgehaaldper anonymous ftp vanaf de site poppy.psy.cmu.edu

Een uitgebreide beschrijving van de transcriptiecodes, beschikbare programmatuur en corpora wordtgegeven in MacWhinney (1995).

Het Nederlandstalige deel van CHILDES omvat momenteel 5 volledig gecodeerde bestanden m.b.t. mono-linguale eerste taalverwerving, en 1 geannoteerd Nederlands-Engels bilinguaal corpus. Deze zullen hieronderafzonderlijk worden behandeld. Deze lijst kan uiteraard slechts een tijdsopname zijn; mogelijk worden er opdit moment reeds bestanden aan CHILDES toegevoegd die relevant zijn voor deze studie.

Gegevens:

Directory tree ’gillis’: Steven Gillis’ longitudinale studie van de Vlaamse jongen Maarten, afdeling Ger-maanse taalkunde, Universiteit Antwerpen. Slechts de laatste 13 files van deze studie zijn aanwezig; de eerste65 (!) moeten nog worden omgezet naar CHAT-formaat.

• Omvang:

– types: 2.390.

– tokens: 50.964.

• Samenstelling (teksttypes): informele dialoog.

• Sprekergegevens: Maarten, 0;11 jr. tot 1;11 jr. en volwassene, meestal zijn moeder.

10

Page 11: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Opnamedatum: 1981-1982.

• Opnameduur: 104 uur.

• Annotatieschema:

– gehanteerde standaard: CHAT.

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’da’s’, ’hebde’,’moetet’).

– sprekerwisseling, behandeling overlap: in speciale orthografische codes.

– behandeling bij- en achtergrondgeluiden: commentaar tier.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, situationele context, fonetiek (PHONASCII). Hiernaast codering (ge-synchroniseerd) non-verbaal gedrag.

• Status privacy informanten: ?

• Copyright: Steven Gillis.

• Beschikbaarheid opnames: ?

– geluidsdrager: videotapes.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Directory tree ’laura’: Jacqueline van Kampen’s longitudinale studie van het Nederlandse meisje Laura,Faculteit der Letteren, Universiteit Utrecht. Deze directory heet nu ’vankampen’, in overeenstemming metde naam van de onderzoeker.

• Omvang:

– types: 1.524.

– tokens: 19.983.

• Samenstelling (teksttypes): informele dialoog.

• Sprekergegevens: Laura, 1;9 jr. tot 5;10 jr. en volwassene (moeder, J. van Kampen zelf).

• Opnamedatum: 1988-1992.

• Opnameduur: 3.600 uur.

• Annotatieschema:

– gehanteerde standaard: CHAT.

– geclitiseerde en andere niet-standaard vormen: nee.

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee.

– behandeling bij- en achtergrondgeluiden: paralinguıstische tier.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, commentaar, verklaring, paralinguıstische tier.

11

Page 12: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Status privacy informanten: ?

• Copyright: Jacqueline van Kampen.

• Beschikbaarheid opnames: ?

– geluidsdrager: audiospoelen.

– opnametechniek: Prefer OCC/1121 microfoon, Nakamichi 350 recorder.

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Directory tree ’schaer’: A.M. Schaerlaekens’ studie van 2 Vlaamse (?) drielingen, steeds twee jongens eneen meisje. Katholieke Universiteit Leuven (Schaerlaekens 1973).

• Omvang:

– types: 1.695.

– tokens: 35.185.

• Samenstelling (teksttypes): informele dialoog.

• Sprekergegevens:

– ene tweeling: 1;10 jr. tot 3;1 jr.

– andere tweeling: 1;6 jr. tot 2;10 jr.

– (in beide gevallen spraak volwassen gesprekspartner niet weergegeven).

• Opnamedatum: 1969-1970.

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: CHAT.

– geclitiseerde en andere niet-standaard vormen: ja, zie %tra tier.

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee.

– behandeling bij- en achtergrondgeluiden: nee.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, morphosyntax (taalkundig, redekundig, congruentie (%agr)), orthogra-fische transliteratie (%tra) i.p.v. fonetische tier (b.v.’%tra an peelgoed ale’ voor ’Arnold speelgoedhalen’).

• Status privacy informanten: ?

• Copyright: ?

• Beschikbaarheid opnames: ?

– geluidsdrager: audiospoelen (nu onbruikbaar).

– opnametechniek: draadloze microfoons (nu irrelevant).

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties.

12

Page 13: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Directory tree ’utrecht’: Loekie Elbers’ en Frank Wijnen’s longitudinale studie van Nederlandse jongensThomas en Hein, Universiteit Utrecht.

• Omvang:

– types: 3.901 (Hein), 3.575 (Thomas).

– tokens: 107.704 (Hein), 95.912 (Thomas).

• Samenstelling (teksttypes): informele dialoog.

• Sprekergegevens: beide van 2;3 jr. tot 3;1 jr., en volwassene (moeder).

• Opnamedatum: 1980-1981.

• Opnameduur: 71 uur.

• Annotatieschema:

– gehanteerde standaard: CHAT.

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ”t’).

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes[<>].

– behandeling bij- en achtergrondgeluiden: paralinguıstische tier.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie,commentaar, Engelse vertaling, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelin-gen, morfosyntax (alleen taalkundig), paralinguıstische tier, fonetiek (incl. interrupties, non-fluencies,intonatiecontour, amplitude, reparaties), situatie, speech acts (herhaling en imitatie).

• Status privacy informanten: ?

• Copyright: Loekie Elbers en Frank Wijnen.

• Beschikbaarheid opnames: ?

– geluidsdrager: ?

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Directory tree ’wijnen’: Frank Wijnen’s longitudinale studie van Nederlandse jongen Niek, UniversiteitUtrecht.

• Omvang:

– types: 3.732.

– tokens: 81.527.

• Samenstelling (teksttypes): informele dialoog.

• Sprekergegevens: Niek, van 2;7 jr. tot 3;10 jr. en volwassene (vader, Frank Wijnen zelf).

13

Page 14: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Opnamedatum: 1983-1984.

• Opnameduur: 31 uur, waarvan 23 uur getranscribeerd.

• Annotatieschema:

– gehanteerde standaard: CHAT.

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ’(he)t’i.p.v. ”t’).

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes[<>].

– behandeling bij- en achtergrondgeluiden: paralinguıstische tier.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie,commentaar, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, paralinguısti-sche tier, fonetiek (incl. interrupties, non-fluencies, intonatiecontour, amplitude, reparaties), situatie,speech acts (imitatie).

• Status privacy informanten: ?

• Copyright: Frank Wijnen.

• Beschikbaarheid opnames: ?

– geluidsdrager: ?

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Directory tree ’dehouwer’: longitudinale bilinguale studie van het Vlaamse meisje Kate (Engels-Nederlands)door Annick De Houwer, Universiteit Antwerpen.

• Omvang:

– types: 3.562

– tokens: 47.832

• Samenstelling (teksttypes): informele dialoog.

• Sprekergegevens: Kate, van 2;7 jr. tot 3;4 jr., plus onderzoeker(s), moeder en (soms) vader.

• Opnamedatum: ?

• Opnameduur: 19 uur.

• Annotatieschema:

– gehanteerde standaard: CHAT.

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’wa’s’, ’da’s’, ”t’,”n’).

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap: nee.

– behandeling bij- en achtergrondgeluiden: commentaar tier.

14

Page 15: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, morfosyntax (taalkundig en redekundig, incl. info woordvolgorde enellipsis), versprekingen, aarzelingen, herhalingen, interrupties, non-fluencies, reparaties, handelingen,verklaring, situatie, commentaar, fonologie (beperkt).

• Status privacy informanten: geanonimiseerd.

• Copyright: Annick De Houwer.

• Beschikbaarheid opnames: ?

– geluidsdrager: audiocassette.

– opnametechniek: draagbare cassetterecorder met ingebouwde multi-directionele microfoon.

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Daarnaast bevinden zich in het CHILDES-archief op Carnegie Mellon University nog de volledig ongedo-cumenteerde ’clpf’-data, van kennelijk 12 kinderen uit de jaren 1988-1991, met in totaal 2.722 types, 37.140tokens.

Verder is er een bestand ’groning’, volledig ongedocumenteerd, van kennelijk 7 kinderen uit de jaren1992-1995. De namen van de codeurs zijn Gerard Bol, Caroline Elskamp, Puck Goossens, Evelien Krikhaar,Paulien Rijkhoek, Frank Wijnen. In totaal 19.990 types, 977.797 tokens.

3.1.2 De ESF migrantentaal-databank

Dit corpus heet voluit de European Science Foundation Second Language Databank (ESFSLD), een elektro-nisch archief van longitudinale studies naar de tweede taalverwerving van een aantal volwassen immigrantenuit 6 landen (zie: Feldweg 1992). Voor elk van de 6 moedertalen (brontalen, nl. Punjabi, Italiaans, Turks,Arabisch, Spaans en Fins), werden twee groepen geselecteerd, die elk dezelfde tweede taal (de doeltaal, nl.Engels, Duits, Nederlands, Frans of Zweeds) in hun nieuwe land moesten leren. De studie startte in 1982,en werd in 1987 voltooid. Zo werden een aantal Spanjaarden gevolgd, die ofwel Frans ofwel Zweeds moestenleren. Verder werd het Zweeds ook als doeltaal vastgesteld voor een groep Finse migranten, evenals hetFrans voor Arabische sprekers.

Dit maakte het mogelijk om zowel verschillen en overeenkomsten te meten tussen het leren van twee doel-talen door groepen van dezelfde nationaliteit, als het leren van een doeltaal door groepen van verschillendenationaliteit. In totaal werden 40 allochtone werknemers geselecteerd, wier conversatie met native speakersvan de doeltaal op de band werd vastgelegd en later getranscribeerd volgens een centraal vastgesteld protocol.Alle migranten werden maandelijks geınterviewd over een periode van 2,5 jaar. Daarnaast werd een contro-legroep van in totaal 24 migranten aan het begin, in het midden en tegen het einde van de opnameperiodegeınterviewd ter vergelijking met de hoofdgroepen. Voor het Nederlands werden twee groepen participantenvastgesteld: een met moedertaal Turks, en een met moedertaal Arabisch. Dit deel van het onderzoek werdgeleid door Guus Extra van de Katholieke Universiteit Brabant. De centrale cordinatie was in handen vanhet Max Planck Instituut voor Psycholinguıstiek in Nijmegen.

Aangezien zelfs van de participanten die de hele periode konden worden gevolgd niet alle data ortho-grafisch konden worden getranscribeerd, in de computer ingevoerd, tweemaal gecontroleerd etc, is van 39participanten orthografische transcriptie voorhanden (27 over de complete opnameperiode) en slechts van 8van de controlegroep.

Een grote varieteit aan activiteiten werd vastgelegd: socio-biografische conversatie (soort intake-gesprek),rollenspel, plaatjesbeschrijving, filmbeschrijving, routebeschrijving, zelf-confrontatie (commentaar op bekij-ken eigen handelen), etc.

Op het Max Planck Instituut zijn inmiddels alle data met doeltalen Engels, Duits en Nederlands omgezetnaar het voor CHILDES ontwikkelde CHAT-formaat. Tevens worden de audiotapes, DAT-kopieen van de

15

Page 16: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

originele analoge opnames, voor zover voorhanden gelinkt met de orthografische transcriptie. De oorspron-kelijke 48 kHz samplefrequentie wordt hierbij teruggebracht tot 16 kHz voor opslag in audiofileformaat. Voorde Duitse data is de fonetische transcriptie-’tier’ omgezet naar een orthografisch formaat compatibel met detranscripten van de andere doeltalen. Hetzelfde pad zal gevolgd worden voor het Frans en het Zweeds. Hetgehele project zal nog een aantal jaren in beslag nemen.

Voor dit doel is de CED (Childes EDitor) van Carnegie Mellon University op het MPI omgezet naareen UNIX-versie geıntegreerd met de superieure audio bewerkings- en weergavefaciliteiten van het XWavesprogramma. Een implementatie in Tcl/Tk geeft de mogelijkheid van platform-onafhankelijke toegang opbesturingssystemen als Macintosh, Windows95 en Windows NT. Deze versie staat bekend als de MED-editor.

Op dit moment zijn de naar CHAT-formaat omgezette ESF-files te benaderen voor interne medewerkersvan het MPI onder URL:

http://www.mpi.nl/world/data/esf archive/html/

Hiervoor moet de gebruiker beschikken over een voor geluidsweergave toegeruste computer, en toegangtot de XWaves en MED software, die als ’helper applications’ vanuit de WWW-pagina’s moeten wordenopgestart.

Gegevens:

• Omvang: steeds migrant plus onderzoeker, soms tolk, minus header-meta-informatie:

– Abdeslam, Arabisch, controlegroep

∗ types: 1.069

∗ tokens: 14.673

– El Mofadel, Arabisch, controlegroep

∗ types: 1.153

∗ tokens: 12.849

– El Yazid, Arabisch, controlegroep

∗ types: 893

∗ tokens: 10.957

– Zeyneb, Arabisch, controlegroep

∗ types: 797

∗ tokens: 6.513

– Fatima, Arabisch, longitudinale groep

∗ types: 3.403

∗ tokens: 76.700

– Hassan, Arabisch, longitudinale groep

∗ types: 4.220

∗ tokens: 109.491

– Hassan M, Arabisch, longitudinale groep

∗ types: 5.135

∗ tokens: 115.526

– Mohammed, Arabisch, longitudinale groep

16

Page 17: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

∗ types: 4.031

∗ tokens: 106.374

– Erdal, Turks, controlegroep

∗ types: 913

∗ tokens: 10.923

– Haydar, Turks, controlegroep

∗ types: 1.123

∗ tokens: 9.680

– Hikmet Ulusoy, Turks, controlegroep

∗ types: 1.404

∗ tokens: 14.719

– Miyese, Turks, controlegroep

∗ types: 795

∗ tokens: 7.069

– Abdullah, Turks, longitudinale groep

∗ types: 3.710

∗ tokens: 85.411

– Ergun(?), Turks, longitudinale groep

∗ types: 4.145

∗ tokens: 119.881

– Mahmut, Turks, longitudinale groep

∗ types: 3.855

∗ tokens: 107.870

– Osman, Turks, longitudinale groep

∗ types: 3.673

∗ tokens: 97.508

• Samenstelling (teksttypes): gestuurde dialoog tussen informant en onderzoeker(s) t.b.v. testen taal-vaardigheid.

• Sprekergegevens: uitgebreide informatie over leeftijd, geslacht, geboorte- en woonplaats, opleiding,beroep, religie, burgerlijke staat, mate en wijze van blootstelling aan L2, veranderingen hierin overopnameperiode. Dit in files met extensie *.bio.

• Opnamedatum: 1981-1986 (2,5 jaar per participant). Van elk gesprek is opnamedatum voorhanden in*.prt files (protocol).

• Opnameduur: van elk gesprek is gedetailleerde opnameduur voorhanden in *.prt files (protocol).

• Annotatieschema:

– gehanteerde standaard: platte ASCII-files, eigen ESF-transcriptiestandaard (lijkt enigszins optiers in CHILDes).

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’um’ (voor’hem’), ’ut’ (voor ’het’), ’istie’).

17

Page 18: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– sprekerwisseling, behandeling overlap: ja, in orthografische code.

– behandeling bij- en achtergrondgeluiden: commentaar.

– gehanteerde interpunctie: orthografische interpretatie (voor vraagzin), verder geen interpunctie.

• Annotatieniveaus: ruwe orthografische transcriptie met header met meta-informatie, sense units, an-dere taal, pauze, commentaar, technisch en situationeel commentaar. Geen fonetische tier, alleen voorin Duitsland gecodeerde data.

• Status privacy informanten: geanonimiseerd.

• Copyright: Max Planck Instituut Nijmegen (contract).

• Beschikbaarheid opnames: ja.

– geluidsdrager: op audiocassettes van soms slechte kwaliteit (veroudering). Momenteel digitalisatieop MPI vanaf DAT-kopieen.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie plus annotaties. Later ook gedigitaliseerdspraaksignaal. Dit gebeurt in het met het XWaves compatibele *.sd-fileformaat

– relatie signaal-transcriptie (volledigheid-koppeling): ja, time alignment wordt momenteel geım-plementeerd.

3.1.3 Nederlandse dialoogcorpora

Corpora verzameld door Gisela Redeker, nu verbonden aan de Universiteit van Groningen, rond hetonderzoeksthema spontane spraakproduktie in tv-programma’s (zie: Redeker (1992) en Linssen-Maes &Redeker (1992)).

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): 34 Nederlandse televisieuitzendingen (nieuws- en discussieprogramma’s,talkshows) w.o. het Capitool, Stellingname (beide video), het Journalistenforum (audio). Dit is dushet corpus, waarvan gewag wordt gemaakt op de WWW-sites van de STDH(http://candl.let.ruu.nl/STDH/4corponz.dir/1corpora.dir/vua.html), aangevuld met audiomateriaal(zonder de visuele component).

• Sprekergegevens: opnamegegevens in WP5.1 bestand in bezit Redeker.

• Opnamedatum: 1989-1990.

• Opnameduur: ± 20 uur.

• Annotatieschema:

– gehanteerde standaard: ?

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: ja (gedeeltelijk, nl. niet te complexe interrupties).

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: ?

• Annotatieniveaus: ruwe orthografische transcriptie, discourse markers (segmentatiesignalen) gecodeerdin deelcorpus van ± 2 uur.

18

Page 19: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Status privacy informanten: schijnbaar irrelevant, aangezien alle opnames reeds publieke uitzendingenbetreffen. Toch kunnen er problemen rijzen, aangezien zo mogelijk gegevens moeten worden verworvenover leeftijd, opleidingsniveau, afkomst, etc. Ook openbare sprekers kunnen dan een beroep doen opwet op de privacy voor dergelijke gegevens (Van de Velde, 1996: 22). Hetzelfde aspect speelde ooksamenstelling van het BNC (zie sectie 4.3.4) aanvankelijk parten.

• Copyright: ?

• Beschikbaarheid opnames: ja, maar kwaliteit na 10 jaar onzeker (wellicht geen fonetische analysemogelijk).

– geluidsdrager: videotapes en hiervan gekopieerde audiotapes. Ook oorspronkelijke audiotapes bijradio-opname.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ?

– relatie signaal-transcriptie (volledigheid-koppeling): ?

Onderzoek naar mogelijke verschillen in interruptiegedrag tussen de beide seksen d.m.v. formele discussiesover het thema ’basisvorming’ door Gisela Redeker en Anny Maes. Zie Redeker & Maes (1996).

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): formele discussies over het thema ’basisvorming’.

• Sprekergegevens: 5 mannen en 5 vrouwen (2 groepen, verdeeld over 8 discussies). Leeftijd: 44 tot 50jaar. Sociale status: academisch niveau, leidinggevende of adviserende posities.

• Opnamedatum: ?

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: codering overlappende spraak volgens: Roger, D.B., P.E. Bull & S. Smith(1988) ’The Development of a Comprehensive System for Classifying Interruptions’. In: Journalof Language and Social Psychology 7, 27-34.

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: ja, zie boven.

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: orthografische interpretatie?

• Annotatieniveaus: orthografie (gedeeltelijk), 2373 interrupties volgens Roger et al. (1988).

• Status privacy informanten: toestemming moet gevraagd worden voor gebruik door derden.

• Copyright: G. Redeker.

• Beschikbaarheid opnames: ja, bij G. Redeker.

– geluidsdrager: audiocassette.

– opnametechniek: ? Opname thuis, niet in studio.

19

Page 20: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– signaal-ruisverhouding: ?

– elektronische versie: ?

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Onderzoek door Sandra Timan, taalbeheersing VU, naar man-vrouw onderhandelingen.

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): man-vrouw onderhandelingen.

• Sprekergegevens: cursisten onderhandelingsstrategieen bedrijfsleven.

• Opnamedatum: 1992-1993.

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: VRM-codering volgens Stiles (1993), codering overlappende spraak vol-gens: Roger, D.B., P.E. Bull and S. Smith (1988).

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: ja, zie boven.

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, VRM-codering, overlappende spraak, aangebracht door Noortje Feije.

• Status privacy informanten: ?

• Copyright: ?

• Beschikbaarheid opnames: ja, bij Gisela Redeker, Universiteit Groningen.

– geluidsdrager: audiocassette.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ?

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Het Van der Wijst Onderhandelingscorpus, opgebouwd door Per van der Wijst, indertijd verbonden aande KUB in Tilburg.

• Omvang: ± 56.000 uitingen (voor het onderzoek vastgestelde eenheid).

– types: niet geteld.

– tokens: niet geteld.

• Samenstelling (teksttypes): 28 gesimuleerde telefonische onderhandelingsgesprekken tussen ervarenonderhandelaars; gemodificeerde vorm van het ’Kelley game’.

20

Page 21: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Sprekergegevens: 56 sprekers. Er zijn enquetegegevens (o.m. oordelen over zichzelf en de gespreks-partner) van de deelnemende onderhandelaars beschikbaar. Ook extra-linguıstische variabelen zoalsleeftijd, opleiding, geslacht e.d. zijn geregistreerd.

• Opnamedatum: 1991-1992.

• Opnameduur: ± 17 uur.

• Annotatieschema:

– gehanteerde standaard: VRM-codering volgens Stiles (1993). Voor een selectie van uitingen zijnook beleefdheidsstrategieen gecodeerd.

– geclitiseerde en andere niet-standaard vormen: ja.

– sprekerwisseling, behandeling overlap: ja, aangegeven in Macintosh-transcript, traceerbaar inDOS-transcript.

– behandeling bij- en achtergrondgeluiden: indien storend, aangegeven tussen [ ]’s.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, uitingen codes in termen van Verbal Response Modes (zie onderzoek).

• Status privacy informanten: geanonimiseerd in transcript, niet op de band.

• Copyright: Per van der Wijst. Er zijn al anderen geweest die ermee gewerkt hebben.

• Beschikbaarheid opnames: ja, bij Per van der Wijst aan de Universite de Liege.

– geluidsdrager: DAT-tapes en analoge kopieen op audiocassette.

– opnametechniek: gesprekspartners (steeds 2) op gescheiden sporen.

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografie in syncWRITER, een Macintosh-partituur programma, daar-naast in WP-formaat op DOS.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Onderzoek naar actualiteiten- en talkshow-interviews t.b.v. scriptie Taalbeheersing van Frank Kuijpers,verbonden aan de VU Amsterdam.

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): 18 interviews, uitgezonden op de Nederlandse televisie.

• Sprekergegevens:

• Opnamedatum: voorjaar 1994.

• Opnameduur: ruim 3 uur.

• Annotatieschema:

– gehanteerde standaard: VRM-codering volgens Stiles (1993).

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: ?

– behandeling bij- en achtergrondgeluiden: ?

21

Page 22: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– gehanteerde interpunctie: ?

• Annotatieniveaus: orthografie, VRM-codering.

• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie(Van de Velde, 1996: 22).

• Copyright: ?

• Beschikbaarheid opnames: ? Videobanden gearchiveerd met onderzoeksgegevens en enquetegegevensbeschikbaar met kijkersoordelen.

– geluidsdrager: videotapes.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ?

– relatie signaal-transcriptie (volledigheid-koppeling): ?

Communicatieanalyse van diverse gesprekssituaties, door Harrie Mazeland, verbonden aan Rijksuniversi-teit Groningen (persoonlijke communicatie).

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): meer en minder formele en informele dialogen. Enerzijds niet-gestandaar-diseerde sociaal-wetenschappelijke onderzoeksvraaggesprekken, anderzijds veelsoortig materiaal (arts/-patient-consults, discussies, debatten, vergaderingen, informele telefoongesprekken).

• Sprekergegevens: ?

• Opnamedatum: ?

• Opnameduur: 4 uur (sociale onderzoeksvraaggesprekken), 4 uur of meer andersoortig materiaal.

• Annotatieschema:

– gehanteerde standaard: c.a.-transcriptie (?)

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: ?

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: ?

• Annotatieniveaus: c.a.-transcriptie (?), steeds voor de eerste 15 a 20 minuten van het gesprek (nietvolledig).

• Status privacy informanten: moet nog (volgens afspraak) geanonimiseerd worden.

• Copyright: Harrie Mazeland.

• Beschikbaarheid opnames: ?

– geluidsdrager: audiotapes.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, in WP5.1-formaat.

– relatie signaal-transcriptie (volledigheid-koppeling): ?

22

Page 23: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

3.2 Andere Gesproken Datacollecties

Naast de bovengenoemde corpora zijn er ook collecties van gesproken data, meestal radio- en TV-uitzen-dingen, die niet aangelegd zijn vanuit onderzoeksdoeleinden, maar om zoveel mogelijk audiovisueel materiaalte archiveren voor het nageslacht. Volgens de strikte definitie van het EAGLES-consortium (zie sectie 4.1)zijn dit dus geen gesproken corpora. De hier bedoelde media worden in eerste instantie gebruikt voor hetaankleden van radio- en TV-uitzendingen met historische opnames, en daarnaast ook voor commercieleexploitatie, b.v. verzamel CDs en documentaire video’s. Verder speelt het door de overheid gestimuleerdeen gesubsidieerde aspect van behoud van het nationale culturele erfgoed een belangrijke rol.

Tot deze categorie behoort het Historisch Archief van het Audiovisueel Archiefcentrum (AVAC) vanhet Nederlandse Omroepproductie Bedrijf (NOB). Dit is slechts toegankelijk voor buitenstaanders tegencommerciele tarieven en betaling van auteursrecht. De uitzendingen zijn gearchiveerd op volspoor magneti-sche audiospoelen (eenzijdig bespeeld, 19 cm/sec). Alle bestanden zijn opgenomen in een geautomatiseerdedatabank, waarbinnen eenvoudig op trefwoord, spreker en opnamedatum gezocht kan worden.

Daarnaast is er het Audiovisueel Archief (AVA) van de Stichting Film en Wetenschap (SFW) in Am-sterdam. Dit is gemakkelijker (en goedkoper) toegankelijk, maar helaas alleen via een ongeautomatiseerdkaartsysteem (trefwoord, spreker, opnamedatum). Opnames zijn beschikbaar op tweezijdige audiospoelenmet een opnamesnelheid van 9,5 cm/sec. De kwaliteit is hiermee minder dan die bij het AVAC. Wel wordtsinds 1994 gearchiveerd op DAT-tapes.

De Vlaamse pendant hiervan is het Archief Gesproken Woord van de Belgische Radio en Televisie - Neder-landse Uitzendingen (BRTN). Dit is veel kleiner dan de Nederlandse archieven, en nog niet geheel overgezetop magneetband. Een summier kaartsysteem (trefwoord, spreker en opnamedatum) vergemakkelijkt hetzoeken enigszins, hoewel er plannen zijn de databank te automatiseren (Van de Velde, 1996: 65-68).

Voorgelezen spraak van goede kwaliteit bevindt zich op een aantal Blindenbibliotheken in Nederland,zoals Le Sage ten Broek in Nijmegen. Op 5 van dergelijke locaties is materiaal van ongeveer 700 sprekersvoorhanden.

4 Recente Ontwikkelingen: Gesproken Corpora en Standaardisa-tie

4.1 Corpora van de Derde Generatie (1990-)

Het is pas in het meest recente stadium dat gesproken corpora werkelijk op effectieve wijze ontsloten kun-nen worden dankzij geıntegreerde computerfaciliteiten voor de opslag en bevraging van geluidsfragmentenin samenhang met de transcripties en documentatie. Hierom kunnen alleen recente corpora voldoen aande technisch gesproken tamelijk strikte definitie die de EAGLES-werkgroep hanteert, en zijn veel eerdereverzamelingen gesproken taal, tenzij in een later stadium grondig geautomatiseerd en bewerkt, in feite nietmeer dan geluidsarchieven, zoals die bij talrijke omroepen zijn opgeslagen:

[A] spoken language corpus is “any collection of speech recordings which is accessible in computerreadable form and which comes with annotation and documantation sufficient to allow re-use ofthe data in-house, or by scientists in other organisations.” (Gibbon et al., 1997: 79)2

Een belangrijk verschil met eerdere corpora is de overgang naar van vooral tekstgebaseerde ontsluiting(waarbij eerst gezocht wordt naar een bepaald deel van de transcriptie, en dan de bijbehorende signaalfilewordt afgespeeld) naar een centrale rol voor de in het gesproken medium essentiele tijdsdimensie. Dezeontbreekt geheel bij geschreven tekst, tenzij verschillende versies van dezelfde tekst naast elkaar bestaan.Computers bieden nu de mogelijkheid, om alle transcripties en annotaties afhankelijk te maken van dezetijdschaal, zonder overigens directe toegang tot of loskoppeling van de afgeleide tekstfiles onmogelijk temaken.

In dit stadium wordt het geluidssignaal geheel digitaal opgenomen en verwerkt met een sampling frequen-tie van 16-20 kHz (8 kHz bij telefoonopnames), met 16-bits A/D-conversie, waarbij geen kwaliteitsverliesvan het opgenomen signaal hoeft op te treden. Registratie vindt bij voorkeur plaats op DAT-tapes, met

23

Page 24: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

standaard sampling rate van 48 kHz en 16 bits resolutie per sample. DCC-tapes en MiniDisk leiden doorgegevenscompressie t.b.v. van efficiente opslag tot datareductie, en zijn daarom niet geschikt voor gedetail-leerde analyse van de weergave. Bovendien levert conservering van deze media later problemen op, omdat deweergaveapparatuur gebruik maakt van speciale algoritmes om het oorspronkelijke signaal zo goed mogelijkte reconstrueren (Van de Velde, 1996: 62).

Archivering vindt plaats op de originele DAT-tapes, CD-Recordable (eenmaal beschrijfbaar), CD-Re-Writable (meermaals beschrijfbaar) of audiofiles op de harde schijf van een computer. Dat kan in ver-schillende fileformaten, zoals wav- of sd-formaat (b.v. in samenhang met de XWaves geluidsweergave en-bewerkingssoftware), dan wel A-law (gebruikelijk in Europa) of µ-law (gebruikelijk in de USA). Meer per-manente opslag kan gebeuren op slechts eenmaal beschrijfbare media zoals CD-ROM of een WORM-CD(Write Once Read Many). In de toekomst zal DVD (Digitale Video Disk) wellicht als standaard gaangelden. Deze staat voor opname op 2 kanalen een sampling rate van 192 kHz toe, met 24-bits resolutie.

Voor het CGN-project zouden 10 miljoen woorden spraak neerkomen op een opnameduur van 930 uurbruikbaar materiaal. Aangezien rekening gehouden moet worden met reserve-opnamecapaciteit, en hetwegediten van ruis en onverstaanbare passages, mag men rekenen op 2000 90M DAT-tapes, waarvan dus1/3e effectief benut wordt. Het geluidssignaal alleen neemt bij een samplefrequentie van 16 kHz (32.000byte/sec) 112 GB diskruimte in beslag, dus 172 CD-ROMs of 8 DVDs. Bij een samplefrequentie van 20 kHz(40.000 byte/sec) komt het neer op 134 GB diskruimte, oftewel 207 CD-ROMs/9 DVDs.

4.2 De Opkomst van Internationale Standaards

Het belang van standaards wordt in deze tijd van vele internationale projecten en universeel toegankelijketekstbestanden op het World Wide Web steeds meer erkend. Aansluiting bij bepaalde expliciet geformuleerdenormen, dan wel het navolgen van een succesvol gebleken project (’best practice’, waarbij conformering aande standaard minder expliciet is) heeft een aantal voordelen. Zo zullen corpora eerder opnieuw gebruiktworden binnen andere projecten, wordt contrastief onderzoek tussen verschillende corpora op verschillendeannotatieniveaus werkbaar, kunnen lexica en corpora eenvoudiger worden uitgebreid of samengevoegd, enheeft het schrijven van complexe annotatie- en exploitatietools meer zin, aangezien zij voor meerdere be-standen inzetbaar zijn (Bouma & Schuurman, 1998: 16, Leech et al., 1995: 5). Ook moet in het grotereperspectief gedacht worden aan de mogelijkheid van gedistribueerde opzet van corpora met behulp van toolsdie onderling eenvoudig kunnen worden uitgewisseld, of zelfs in een virtuele programmeeromgeving voorprojectpartners op fysiek gescheiden locaties inzetbaar zijn. Aangezien taaltechnologische projecten vrij-wel zonder uitzondering kostbare ondernemingen zijn, kan gesteld worden dat uniformiteit zelfs gebodenis, aangezien in het andere geval vrijwel zonder uitzondering sprake zal zijn van substantiele kapitaals- enkennisvernietiging.

4.2.1 SGML

SGML (Standard Generalized Markup Language) is een internationale standaard (ISO 8879: 1986) voorhet eenduidig beschrijven van de documentstructuur, met het oog op gemakkelijke uitwisselbaarheid tussendiverse (computer)systemen en druk- of presentatieformaten. Het schrijft dus geen lay-out voor, alleen eenstructuur waarop de lay-out zich moet baseren. Het beschrijft dus teksten niet met een ’procedural markup’,zoals in een WP of MS-Word document, maar met een ’descriptive’ of ’generic markup’, die de (logische)documentstructuur weergeeft, niet de stijl of de verschijningsvorm. Toepassingen strekken zich dan ooktegenwoordig uit boven het leggen van de grondslag voor latere presentatie.

SGML werkt met in ASCII (algemeen computerleesbare tekst) gespecificeerde begin- en eindlabels(’tags’), die op verschillende niveaus tekstdelen kunnen markeren. Aangezien veel documenten tegenwoordigvaak in elektronische en boekvorm verschijnen, is een gestandaardiseerde weergave van de onderscheidentekstdelen onontbeerlijk geworden.

Naast de onafhankelijkheid van specifieke besturings-, applicatie- en afdruksystemen, heeft SGML ookals belangrijke voordelen dat veel van de tags gebaseerd kunnen zijn op de inhoud van de tekst in plaatsvan de weergave (b.v. 〈author〉, 〈figure〉, 〈date〉, 〈quote〉), hetgeen het zeer geschikt maakt voor archiveringen document retrieval op grond van aldus afgebakende tekst, dat gebruikers hun eigen Document TypeDefinition (DTD) kunnen specificeren met hun eigen tags, en dat er pointers mogelijk zijn naar andere

24

Page 25: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

tekstdelen of documenten, zodat delen van een document afzonderlijk kunnen worden opgesteld, en paslater samengebracht. Zo kan een document ook in zijn uiteindelijke vorm in feite een compositum zijn vanfragmenten op diverse locaties (hypertext).

Omdat documenten uiteindelijk toch leesbaar moeten zijn in wat voor vorm dan ook, is een apartestandaard ontwikkeld voor de weergave van de van tags voorziene tekstdelen in verschillende applicaties,zoals bold, italic en typewriter. Deze richtlijnen voor style sheets zijn vervat in DSSSL (Document StyleSemantics and Specification Language).

Editors die het nogal technische en ondoorzichtige opstellen van DTDs en SGML-documenten verge-makkelijken zijn FrameMaker van Adobe, Author/Editor van Interleaf (vroeger: SoftQuad), Multidoc ProPublisher van het Finse bedrijf Citec en ADEPT, het complete editing- en document managementsysteemvan ArborText.

Het bekijken, bevragen en afdrukken van documenten kan worden ondersteund door FrameViewer (Ado-be), Panorama (Interleaf/SoftQuad) en Multidoc Pro Browser (Citec).

4.2.2 XML

Momenteel vindt een op basis van SGML ontwikkeld tekstmarkeringsformalisme opgang, met name voorgebruik op het World Wide Web (ter vervanging van het nu te beperkte HTML). Dit staat bekend onder determ XML (eXtensible Markup Language). Het is in feite een subset van SGML, met een iets restrictievergedefinieerde DTD-standaard (Goldfarb & Prescod, 1998: 265-275). XML is dan ook geheel compatibel metSGML. De bedoeling is complete conformering aan de ISO-norm, inclusief mogelijkheden tot uitbreiding(vandaar extensible) met eigen tags, weergave hierarchische structuren en goede validatietechnieken.

Voor de steeds toenemende vervlechting van tekst met multimediale data, zoals afbeeldingen, audiofrag-menten en video, is een andere uitbreiding van SGML ontwikkeld met de naam HyTime (Hypermedia/Time-based Structuring Language). Deze is vastgelegd als een aparte standaard voor gestructureerde opslag enretrieval van met hyperlinks gerelateerde multimedia en tijd-gebaseerde systemen (audio, beeld, video, mu-ziek), nl. ISO 10744: 1992.

Net als in SGML en HTML, is het mogelijk om XML-conformante tekstbestanden te verbinden metexterne, non-XML objecten via hyperlinks, zoals plaatjes, audio en video. Deze worden ongeparseerdeentiteiten genoemd. Voor elke non-XML entiteit is er een notatie die aangeeft om welk data-object offileformaat het gaat, b.v. Waveform of A-law (Goldfarb & Prescod, 1998: 39). De standaard hiervoor isgebaseerd op HyTime, en draagt de naam XLink (Extensible Linking Language) 3. Deze werkt met deconcepten XPointer (voor het link mechanisme) en URI’s (Uniform Resource Identifier, een uitbreiding vande URLs uit de HTML-standaard) voor het identificeren van de verbonden bestanden (Goldfarb & Prescod,1998: 499-515).

Een extra mogelijkheid binnen XLink is extended linking, zeg maar meervoudige hyperlinks tussen do-cumenten, zodat niet alleen 1-1 relaties kunnen worden gelegd zoals in HTML, maar 1-N, b.v. tussen eenwoord en alle documenten waarin het voorkomt. Ook zijn XLinks bidirectioneel, en dus in feite n-directioneel(N-N), zodat er gemakkelijk heen en weer gescrolled kan worden tussen parallelle versies van dezelfde tekst;wanneer men van ankerpunt A1 in tekst 1 springt naar ankerpunt A2 in tekst 2, kan men ofwel via dezelfdelink terug, ofwel in tekst 2 verder scrollen en dan van ankerpunt B2 weer naar het overeenkomende ankerpuntB1 in tekst 1. Dit zou van groot belang kunnen zijn bij het editen maar ook later bevragen van transcriptie-en annotatiefiles voor het CGN (Goldfarb & Prescod, 1998: 177-188).

Een andere uitbreiding is het maken van annotaties (b.v. commentaar, maar ook lijsten met ’relatedsites’) bij Webdocumenten, waar men zelf geen update privilege voor heeft. Deze worden dan via hyperlinksverbonden met de brontekst, en zijn zichtbaar voor iedereen die met de tekst werkt, zonder dat ze eronlosmakelijk deel van uitmaken. In termen van het CGN-project zou een dergelijk mechanisme nuttigkunnen zijn voor het leveren van commentaar, b.v. op twijfelachtige of foutieve transcripties, zonder dat deoorspronkelijke tekst wordt aangetast. Aangezien de standaard voor dit mechanisme nog in ontwikkeling is,is hier een voorbeeld van hoe een dergelijke annotatie eruit zou kunnen zien:

3In feite is er meer dan een inspiratiebron. Xlink is direct gebaseerd op de extended pointer syntax van het TEI; de beideredacteuren van TEI, Burnard en Sperberg-McQueen, hadden dan ook zitting in het comite dat de XML-specificaties opgesteldheeft.

25

Page 26: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

<hlink role= ‘‘annotation’’

xml:link=’’extended’’

href=’’http://www.elis.rug.ac.be/cgn/spoknnl/TV/interview1.xml’’>

Niet-verbale vocale klanken zijn hier ten onrechte orthografisch

getranscribeerd!

</hlink>

Wanneer men een stap verder denkt, dan komt men al gauw op het gebruik van XML, in combinatiemet object-georienteerde programmeertalen als Java en C++, voor het creeren van middleware, een inte-gratielaag, waarbij allerlei gerelateerde documenten, databases en multimedia kunnen worden aangeroepenvanuit een interface, die van alle applicatie-specifieke codes abstraheert tot een gemeenschappelijk data-model. Zo kunnen woordgegevens uit heel divers geımplementeerde lexicale databanken (platte ASCII-filesmet delimiters, relationele databanken, gehyperlinkte Webdocumenten, etc.) worden gebruikt om tekstengrammaticaal te verrijken, zolang maar duidelijk is hoe bepaalde velden in de bronnen te mappen zijn op de(in dit geval door het TEI aanbevolen) elementen 〈entry〉 en 〈pos〉 (part of speech).

Voor deze applicatie-interfaces (API’s) zijn verschillende modellen ontwikkeld, zoals CORBA (CommonObject Request Broker Architecture) en DCOM (Distributed Component Object Model). Om de ene ap-plicatietaal of DTD-versie naar een andere te vertalen (immers, elk bedrijf kan zijn eigen DTD hanteren)is dan nog een IDL (Interface Definition Language) nodig. Zo heeft het bedrijf webMethods b.v. een voorhet Web geschikte IDL ontwikkeld onder de naam WIDL, die gebruik maakt van XML als tussentaal. Voorconcrete voorbeelden zie de secties 4.2.4 en 6 over de resource-onafhankelijke NLP-architecturen MATE enGATE.

Daarnaast is er voor XML een variant van de SGML-style sheet DSSSL ontwikkeld onder de naam XSL(Extensible Style Language). Deze draagt ook elementen in zich van de HTML-extensie Cascading StyleSheets, en maakt daarmee deze overbodig.

XML maakt voor de karakterrepresentatie gebruik van de nieuwe Unicode-standaard (ISO/IEC 10646-1:1993). Deze code heeft met zijn 16 bits lengte een byte meer tot zijn beschikking dan 7- of 8-bits ASCIIen kan daarmee alle schrijfsystemen weergeven, inclusief Chinese ideogrammen, hierogliefen en Arabischekarakters. Van belang voor het CGN-project is, dat er in Unicode 2.0 ook een IPA-set is gedefinieerd voorfonetische symbolen. Zie de URL:

http://www.unicode.org/

Editors die het nogal technische en ondoorzichtige opstellen van DTDs en XML-documenten vergemakke-lijken zijn FrameMaker+SGML van Adobe en XMetaL van SoftQuad. Verder zijn er complete editing- endocument managementsystemen verkrijgbaar, zoals ADEPT, Astoria en POET Content Management Suitevan resp. ArborText, Chrystal Software (een onderdeel van Xerox) en POET Software. Deze bieden zo-veel functionaliteit op het gebied van het editen, bekijken, bewerken, opslaan, bevragen en verplaatsen vandocument-componenten, dat het nuttig is voor het CGN de inzet van dergelijke pakketten te onderzoeken.Er zijn trouwens ook steeds meer freeware editors en viewers voorhanden.

Op het meer prozaısche vlak van integratie van XML-documenten binnen bestaande Webbrowsers – vooralvan belang voor de alledaagse end-user – zal Netscape de functionaliteit van XML inbouwen in Com-municator 5.0 onder de applicatienaam Aurora. Microsoft’s Internet Explorer 4.0 laat validatie toe vanXML-documenten d.m.v. een parser, maar de viewer vertaalt nog XML naar HTML. Internet Explorer 5daarentegen biedt reeds volledige ondersteuning van het XML document object model (1.0).

Zeer veel informatie over SGML en XML, evenals veel gratis software (editors, parsers) is tenslotte te vindenop de Websites van het officiele World Wide Web Consortium (W3C):

http://www.w3.org

en eveneens bij de zeer fanatieke software-ontwikkelaars James Clark:

http://www.jclark.com

26

Page 27: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

en Patrice Bonhomme:

http://www.loria.fr/˜bonhomme/xml.html

Als meer recente ontwikkeling is er bij W3C nu een standaard in de maak, die allerlei eerdere hypertextstandaards en aanbevelingen integreert voor de bouw van multimediale databases. Deze staat bekend onderde naam SMIL (Synchronized Multimedia Integration Language). Deze beoogt:

• Beschrijving van de precieze tijdgebaseerde structuur van de multimedia-applicatie.

• Beschrijving van de precieze verschijningsvorm van de applicatie op het scherm.

• Het verbinden van hyperlinks aan mediaobjecten.

Informatie over deze standaard in wording is het vinden onder URL:

http://www.w3.org/TR/REC-smil

Hierbij moet evenwel worden aangetekend, dat de linguısten Bird en Liberman in hun paper tot de (om-zichtige) conclusie komen, dat de toekomst van SMIL onzeker is, en SMIL sowieso ongeschikt lijkt voorlinguıstische annotatie (1999: 28). Dit zou betekenen, dat de gedetailleerde synchronisatie van de data-stroom met een aantal tiers die CGN wenst binnen SMIL niet mogelijk is, slechts een grove specificatie vanobjecten die tegelijkertijd moeten worden vertoond.Een ander teken van convergentie op dit gebied is de evolutie van standaards die gespecificeerd wordendoor de internationale ISO/IEC MPEG-werkgroep (Moving Pictures Experts Group). Dit team omvatdeelnemers uit de wereld van de omroepen, hardware- en softwarefabrikanten, telecombedrijven, uitgeversen academische onderzoeksinstellingen. Aanvankelijk beperkte de MPEG-groep zich tot het formulerenvan standaards voor beeld- en geluidscompressie, -distributie en -decodering, inmiddels hebben zij zich ooktoegelegd op de integrale beschrijving van natuurlijke en synthetische (door computer gegenereerde) beeld-en geluidsobjecten. De DDL (Description Definition Language), waarin de diverse mediaobjecten en hunonderlinge relaties zijn vastgelegd, is gebaseerd op het bovengenoemde XML-protocol.

In het bewuste, laatste voorstel, MPEG-7, houdt men zich bezig met de definitie van een Multimediacontent description interface. Hierin zijn temporele en spatiele referenties, die nodig zijn voor een vloeiende,zelfs real-time gebaseerde synchronisatie van beeld, geluid, tekst en andere multimedia geformaliseerd. Hetsluit hiervoor aan bij het Real-Time Protocol (RTP). De relatie met XML impliceert dat de geıntegreerdedata of de te associeren data niet op een fysiek locatie of systeem aanwezig hoeven te zijn, maar ook in eengedistribueerde omgeving.

De specificaties strekken zich uit tot het integreren van annotatielagen bij het beeld of geluid, zoals al danniet automatisch genereerde transcripties, ondertiteling, geluidssporen, gebarentaal en achtergrondinformatiein diverse talen. MPEG-7 specificeert evenwel niet de methoden van informatie-extractie of retrieval, slechtsde syntax waarin de objecten worden beschreven, hun relaties en een aantal min of meer standaardobjecten en-schemata (vergelijkbaar m.a.w. met de SGML- en TEI-standaards). Het uiteindelijke doel is multimedialedatabases op een uniforme manier toegankelijk te maken voor Internet-zoekmachines, op eenzelfde manierals tekstuele dataverzamelingen momenteel ontsloten kunnen worden d.m.v. tekstgebaseerde zoekvragenen (sommige) meta-indexen. Een voorlopige versie van de standaard is gepland voor december 1999, eendefinitieve versie voor juli 2001.

Het MPEG-initiatief overlapt gedeeltelijk met de W3C-activiteiten, maar gaat ook een stap verder, daarW3C op dit terrein momenteel (mei 1999) minder actief lijkt te zijn (zie hierboven onder SMIL). In die zinmag wellicht meer verwacht worden van de MPEG-standaards dan SMIL en dergelijke.

Informatie over deze standaard in wording is het vinden onder URL:

http://www.cselt.it/mpeg/ (of: http://drogo.cselt.stet.it/mpeg/)

27

Page 28: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Het moge duidelijk zijn, dat bij een project als het CGN, waarbij ook sprake is van multimediale data,en mogelijk verschillende wijzen van weergave en publicatie, het in ieder geval noodzakelijk is aansluitingbij internationale standaards als SGML, XML en MPEG te overwegen. Bovendien is het een hoopgevendeontwikkeling, dat er steeds meer dwarsverbanden aan te wijzen zijn tussen de diverse normalisatie-instituten.Zo heeft W3C zich niet alleen in februari 1998 gecomitteerd aan de XML-standaard, maar wil het TEI (ziesectie 4.2.2) zijn codeerschema volledig gaan aanpassen aan XML. Dit hangt evenwel af van aanvullendefinanciering voor het TEI, die op dit moment nog hoogst onzeker is (E-mails C M Sperberg-McQueen, TEI-List, 10-2-98; LINGUIST List 9.1404, 9-10-1998). Het is uiteraard wel zaak een onderscheid te kunnenmaken tussen de wezenlijke, breed gedragen initiatieven op dit vlak, en minder gestructureerde zijpaadjesen doodlopende steegjes.

4.2.3 TEI

Het Text Encoding Initiative is een internationaal consortium van wetenschappers, dat als doel heeft naderespecificaties van de SGML-code op te stellen voor het markeren van de structuur van bepaalde teksttypen,zoals gesproken teksten, woordenboeken en gedichten. Het doet vooral aanbevelingen voor codering t.b.v.de uitwisselbaarheid van teksten, maar omvat ook regels voor het samenvoegen van tekst met beeld engeluid in multimediale applicaties. De codeerschema’s beperken zich niet tot het weergeven van teksten inde oorspronkelijke vorm, die meestal als doel had de leesbaarheid en expressiviteit te ondersteunen, maardienen ook voor het verrijken van de tekst met annotaties met het oog op onderzoek, zoals vertalingen van englossen bij passages, voetnoten, pointers (hyperlinks) naar gerelateerde fragmenten, verschillende, parallelleversies van dezelfde tekst en grammaticale analyse.

De aanbevelingen, Guidelines, werden in 1994 gepubliceerd na 6 jaar research, die gesponsord werd dooreen groot aantal internationale publieke instanties.

Bij de TEI heeft ieder teksttype heeft zijn eigen DTD (Document Type Definition), die gezien kan wordenals een sterk aanbevolen, doch meestal niet verplicht opgelegde grammatica, waaraan de voor presentatie ofpublicatie aangeleverde teksten moeten voldoen.

Elke tekst heeft bovendien een eigen ’header’, die informatie geeft over de bijbehorende tekst. Deze omvatbibliografische informatie, zoals je die kunt aantreffen op de titelpagina van een boek, aanduidingen van demanier waarop de elektronische tekst conventies van de brontekst weergeeft (encoding), het tekstprofiel(aanmaakdatum, gebruikte taal, genre) en revisie-informatie (bij verschillende versies).

Omdat de volledige reeks elementen, attributen en regels zich uitstrekt tot enige honderden codes, diegedocumenteerd zijn in 1300 pagina’s (sic) Guidelines, is er een subset gedefinieerd onder de naam TEI Lite,die de algemene labels voor alle teksttypen omvat. TEI Lite wordt nu toegepast als minimale codeerset bijhet Oxford Text Archive en de Elektronische Tekstcentra van de Universiteiten van Virginia en Michigan.

Voor het CGN-project zijn vooral de ’tags’ van belang voor gesproken corpora. Een beschrijving hiervanis te vinden in Sperberg-McQueen & Burnard (1994: 297-320). De basis-tagset voor spraak, die in dithoofdstuk wordt voorgesteld, is samen met de ’core’ set en alle andere tekst-specifieke sets (m.a.w. devolledige DTD) kant-en-klaar op te halen op de ftp-site van het TEI onder URL:

ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/p3dtds.tar.gz

Middels een eenvoudige declaratie:

〈!ENTITY % TEI.spoken ’INCLUDE’ 〉

kan hij worden opgenomen in de transcriptiefiles. Daarnaast zijn alle standaard-elementen van de ’core’ setvoor alle teksttypes binnen de basiscodes automatisch toepasbaar, zoals 〈s〉 voor ’zinseenheid’.

Op een hoger niveau bevatten de TEI Guidelines ook mechanismen om tekstverzamelingen te coderen,die uit zeer divers bronmateriaal bestaan, maar niettemin een eenheid vormen. Dit geldt bijvoorbeeld vooranthologieen, maar zeker ook voor corpora voor linguıstisch onderzoek zoals het CGN. Deze zijn beschreven inSperberg-McQueen & Burnard (1994: 643-664). Een voorbeeld van een dergelijke ’composite text’ voorzienvan TEI-tags is het volgende. Er is een algemene teiHeader-file met globale, onveranderlijke informatie over

28

Page 29: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

de complete tekstverzameling; daaronder in de hierarchie bevinden zich individuele teiHeaders voor elketekst die de verschillen tussen de teksten tot uitdrukking brengen:

<TEI.corpus.2>

<teiHeader type=corpus> ...

<!-- TEI header for corpus-level information -->

</teiHeader>

<TEI.2 id=T1>

<teiHeader type=text> ... </teiHeader>

<text> ... </text>

</TEI.2>

<TEI.2 id=T2>

<teiHeader type=text> ... </teiHeader>

<text> ... </text>

</TEI.2>

<!-- ... etc. -->

</TEI.corpus.2>

De extra tag-set voor taalcorpora kan evenals de spoken base set worden aangeroepen vanuit de tekstfile,zowel vanuit de overkoepelende file van een tekstverzameling als vanuit de afzonderlijke teksten of samples.Het is in feite een extensie van het standaard-element 〈profileDesc〉.

〈!ENTITY % TEI.corpus ’INCLUDE’ 〉

Een context-vrije grammatica van alle voordefinieerde elementen die in het bijzonder van belang zijn voorspraak (samengesteld uit de ’spoken’, en ’corpus’ base sets en relevante delen van de teiHeader) is de volgende:

29

Page 30: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

teiHeader (= addtional header file for corpora, either for full corpus or individual texts)::= any(〈textDesc〉 〈particDesc〉 (= participants) 〈settingDesc〉 〈fileDesc〉

〈encodingDesc〉)textDesc ::= any(〈channel ’mode’〉 〈constitution ’type1’〉 〈derivation ’type2’〉

〈domain ’type3’〉 〈factuality ’type4’〉〈interaction any(’type5’ ’active’ (participants) ’passive’ (participants))〈preparedness ’type6’〉 〈purpose any(’type7’ ’degree’)〉

mode ::= ’s’(poken) | ’w’(ritten) | ’sw’ (= spoken to be written) | ’ws’ (= written to be spoken) |’m’(’ixed’) | ’x’ (= ’unknown’)

type1 ::= ’single’ | ’composite’ | ’frags’ | ’unknown’type2 ::= ’original’ | ’revision’ | ’translation’ | ’abridgment’ | ’plariarism’ | ’traditional’type3 ::= ’art’ | ’domestic’ | ’religious’ | ’business’ | ’education’ | ’govt’ | ’public’type4 ::= ’fiction’ | ’fact’ | ’mixed’ | ’inapplicable’type5 ::= ’none’ | ’partial’ | ’complete’ | ’inapplicable’active ::= ’singular’ | ’plural’ | ’corporate’ | ’unknown’passive ::= ’self’ (e.g. audio diary) | ’single’ | ’many’ | ’group’ | ’world’type6 ::= ’none’ | ’scripted’ | ’formulaic’ | ’revised’type7 ::= ’persuade’ | ’express’ | ’inform’ | ’entertain’degree ::= ’high’ | ’medium’ | ’low’ | ’unknown’particDesc ::= any((〈person〉 | 〈personGrp〉) 〈particLinks〉)person ::= DemoInfopersonGrp ::= any(DemoInfo ’size’)DemoInfo ::= any(’role’ ’sex’ ’age’ 〈birth ’date’〉 〈firstLang〉 〈langKnown〉 〈residence〉

〈education〉 〈affilation〉 〈occupation any(’scheme’ ’code’)〉〈socecStatus any(’scheme’ ’code’)〉)

sex ::= ’m’ | ’f’ | ’u’particLinks ::= any(〈relation ’type8’ ’desc’ ’active’ ’passive’ ’mutual’)〉type8 ::= ’social’ | ’personal’ | ’other’mutual ::= ’y’ | ’n’settingDesc ::= any(〈setting ’who’〉 〈name ’type9’〉 〈date ’value1’〉 〈time ’value2’〉 〈locale〉

〈activity〉)fileDesc ::= any(〈scriptStmt〉 〈recordingStmt〉 〈recording ’type9’ ’dur’〉

〈equipment〉 〈broadcast〉)type9 ::= ’audio’ | ’video’encodingDesc ::= any(〈projectDesc〉 〈samplingDecl〉 〈editorialDecl〉 〈tagsDecl〉 〈refsDecl〉

〈classDecl〉 〈fsdDecl〉 (= feature system) 〈variantEncoding〉)

30

Page 31: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

SpokenText ::= 〈div any(’type1’ ’org’ ’sample’ ’part’)〉type1 ::= ’sound fragment’ | ’discussion’ | ’interview’ | ’...’org ::= ’composite’ (= unclear sequence) | ’uniform’ (= logical unit with clear sequence)sample ::= ’initial’ | ’medial’ | ’final’ | ’unknown’ | ’complete’part ::= ’y’ | ’n’ | ’i’(nitial) | ’m’(edial) | ’f’(inal) (i.e. whether division is fragmented or not)div ::= many(〈u(tterance) any(’who’ ’trans’(ition) ’timed’)〉 〈pause any(’who’ (’type2’ |

’dur’(ation)) ’timed’)〉〈vocal(ized, non-lexical event) any(’who’ ’desc’ ’iterated’ ’timed’)〉〈kinesic(= non-vocalized, communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉〈event(= non-communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉〈writing(= writing shown while speaking) any(’who’ ’gradual’ (= is writing revealedgradually?)’type3’ ’timed’)〉 〈shift any(’feature’ ’new’)〉 EditChg SynchPoint)

trans ::= ’smooth’ | ’latching’ | ’overlap’ | ’pause’type2 ::= ’short’ | ’medium’ | ’long’dur ::= [123456789]+iterated ::= ’y’ | ’n’ | ’u’(nknown)gradual ::= ’y’ | ’n’ | ’u’(nknown)type3 ::= ’subtitle’ | ’noticeboard’ | ’slide’ | ’...’timed ::= ’start’ | ’end’ | ’dur’feature4 ::= ’tempo’ | ’loud’ | ’pitch’ | ’tension’ | ’rhythm’ | ’voice’tempo ::= ’a’ | ’aa’ | ’acc’ | ’l’ | ’ll’ | ’rall’loud ::= ’f’ | ’ff’ | ’cresc’ | ’p’ | ’pp’ | ’dimin’pitch ::= ’high’ | ’low’ | ’wide’ | ’narrow’ | ’asc’ | ’desc’ | ’monot’ | ’scand’tension ::= ’sl’ | ’lax’ | ’ten’ | ’pr’ | ’st’ | ’leg’rhythm ::= ’rh’ | ’arrh’ | ’spr’ | ’spf’ | ’glr’ | ’glf’voice ::= ’whisp’ | ’breath’ | ’husk’ | ’creak’ | ’fals’ | ’reson’ | ’giggle’ | ’laugh’ | ’trem’ | ’sob’ |

’yawn’ | ’sigh’EditChg ::= any(〈sic (incorrect/inaccurate text) any(’corr’ ’resp’(onsible editor)

’cert’(certainty))〉 〈corr any(’sic’(original form) ’resp’ ’cert’)〉〈reg(ularization) any(’orig’ ’resp’)〉 〈orig any(’reg’ ’resp’)〉〈gap any(’desc’ ’reason’ ’extent’ ’resp’)〉 〈unclear any(’reason’ ’resp’)〉〈del any(’type’ ’status’ ’resp’ ’hand’ ’cert’)〉 〈...〉)

SynchPoint ::= 〈anchor any(’id’ ’synch’)〉 | 〈timeLine ’unit’〉timeLine ::= many(〈when any(’id’ ’absolute’ ’interval’ ’since’) 〉)

Een voorbeeld van een gesproken fragment, waarin een aantal van deze codes is toegepast, is het volgende:

<u who=MAR>you never <pause> take this cat for show\&sp;and\&sp;tell

<pause> meow meow</u>

<u who=ROS>yeah well I dont want to</u>

<event desc=

’toy cat has bell in tail which continues to make a tinkling sound’>

<vocal who=MAR desc=’meows’>

<u who=ROS>because it is so old</u>

<u who=MAR>how <reg orig="bout">about</reg> your\&stress; cat <pause>

yours is new \&stress;

<kinesic desc=’shows Father the cat’></u>

<u who=FAT trans=pause>thats <pause> darling</u>

<u who=MAR><s>no mine\&stress; isnt old</s>

<s>mine is just um a little dirty</s></u>

Verder is in uitgebreide mogelijkheden voorzien voor synchronisatie van de transcriptie van overlappendespraak. Dat varieert van het simpele attribuut ’trans’ met waarde ’overlap’, via 〈anchor〉-elementen op

31

Page 32: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

bepaalde plaatsen in de tekst tot precieze tijdsaanduidingen met het 〈timeLine〉-element. Deze elementenen attributen kunnen op talloze manieren worden toegepast. Aspecten van dit onderdeel van de TEI DTDzijn beschreven in Sperberg-McQueen & Burnard (1994: 313-317, 393-440).

Het attribuut 〈trans〉 (overgang) is zeer eenvoudig toepasbaar, maar ook zeer onnauwkeurig (transcriptieuit het Speech Styles corpus, spreker id 12, door mij voorzien van TEI-tags):

<u who=interviewer> ik denk dat ut <vocal desc=laughter> wel kan ik weet dat

ut net <vocal desc=laughter> .

de twee minuten of zo <vocal desc=hesit1> . haalt ja </u>

<u who=inform12 trans=overlap> ja ja </u>

<u who=inform12> ja ik wil wel verder gaan maar <vocal desc=laughter> . </u>

Hierbij wordt het niet duidelijk op welk moment het ’ja ja’ overlapt met het commentaar van de interviewer.Dat gaat een stuk nauwkeuriger met behulp van het 〈anchor〉-mechanisme:

<u who=interviewer> ik denk dat ut <vocal desc=laughter> wel kan ik weet dat

ut net <vocal desc=laughter> .

de twee minuten of <anchor id=a1 synch=s1> zo

<vocal desc=hesit1> <anchor id=a2 synch=s2> .

haalt ja </u>

<u who=inform12> <anchor id=s1> ja ja <anchor id=s2> ja ik wil wel verder

gaan maar <vocal desc=laughter> . </u>

In dit geval is het duidelijk dat het ’ja ja’ samenvalt met de frase ’zo uh’ (de aarzeling) van de interviewer.Deze soort van synchronisatie is echter nog steeds geheel op de transcriptie gebaseerd, en zegt niets over detijdsrelatie, m.a.w. hoe de fragmenten zich tot elkaar verhouden in het akoestisch signaal. Een methode diehet TEI hiervoor aanreikt is het element 〈timeLine〉, hier met centi-seconden als tijdseenheid:

<timeLine unit=dsec>

<when id=s1 absolute=’’00:03:59.05.46’’>

<when id=s2 interval=92 since=s1>

</timeLine>

<u who=interviewer> ik denk dat ut <vocal desc=laughter> wel kan ik weet dat

ut net <vocal desc=laughter> .

de twee minuten of <anchor synch=s1> zo

<vocal desc=hesit1> <anchor synch=s2> .

haalt ja </u>

<u who=inform12> <anchor synch=s1> ja ja <anchor synch=s2> ja ik wil wel

verder gaan maar <vocal desc=laughter> . </u>

Wat hier echter altijd nog ontbreekt is een daadwerkelijke link tussen de transcriptie en het oorspronkelijkesignaal, aangezien iemand die de bovenstaande overlapping wil bestuderen op zoek moet gaan naar de tapeof de audiofile en deze moet aftasten tot het gewenste moment is bereikt. Hiervoor kan een op het HyTime-protocol gebaseerd link mechanisme dienen, dat gebruik maakt van extended pointers m.b.v. het element〈xptr〉:

<xptr id=s1 doc=sample.wav from=’’00:03:59.05.46’’>

<xptr id=s2 doc=sample.wav from=’’00:03:59.06.38’’>

<u who=interviewer> ik denk dat ut <vocal desc=laughter> wel kan ik weet dat

ut net <vocal desc=laughter> .

de twee minuten of <anchor synch=s1> zo

<vocal desc=hesit1> <anchor synch=s2> .

haalt ja </u>

<u who=inform12> <anchor synch=s1> ja ja <anchor synch=s2> ja ik wil wel

verder gaan maar <vocal desc=laughter> . </u>

32

Page 33: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

De extra tag-set die dergelijke linking met andere files en media beregelt kan worden aangeroepen vanuit dedocumentfile met het commando:

〈!ENTITY % TEI.linking ’INCLUDE’ 〉

Een nadeel van de TEI-conventies is dat het slechts aanbevelingen zijn. Aan de ene kant wordt de codeurhierbij vrijgelaten om zijn eigen definities te hanteren, of de tagset uit te breiden, aan de andere kant betekentdit dat volgens de Guidelines b.v. de inhoud van het 〈vocal〉-element ook als gewone tekst kan wordenbeschouwd (b.v. de aarzeling ’uh’), dat i.p.v. &stress voor ’emfatische klemtoon’ ook 〈emph〉 gebruiktzou kunnen worden, dat het 〈trans〉-element ook vervangen kan worden door gedetailleerde synchronisatie-symbolen, dat voorgelezen spraak ook zou kunnen vallen onder de 〈writing〉-tag, of zelfs het 〈event〉 ’reading’,etc. Hiermee worden wel erg veel opties opengelaten.

Het verdient daarom aanbeveling om bij het gebruik van de TEI-richtlijnen een gedetailleerd codeerpro-tocol op te stellen, en niet te vertrouwen op de eenduidigheid van de TEI-codes. Dit protocol kan het bestgeımplementeerd worden in een interactieve editor, zodat de codeur meteen gewezen wordt op niet toege-stane labels, en labels die in een verkeerde context (d.w.z. niet in de juiste hierarchische relatie tot anderelabels) worden gebruikt. Ook zal hij zo steeds alleen die codes uit het menu kunnen kiezen, die relevantzijn voor de bepaalde editing context. Dit werkt beter dan controle achteraf. Een ander groot nadeel is degedetailleerdheid van de aangeboden codes. Dit blijkt al uit de formulering door het consortium zelf van deTEI Lite set. Dit aspect wordt ook onderkend door de EAGLES-werkgroep:

An annotation system such as that proposed by the Text Encoding Initiative is very elaborate andmakes heavy demands on a transcriber, but also makes it possible to derive all relevant informationfrom a transcription. While the TEI system makes use of SGML, which guarantees that existingsoftware can be used, there is a large initial learning curve for the transcriber, which multipliesthe possibility of human error in the transcription (Gibbon et al., 1997: 168).

Daarom is het verstandig, om bij de grote hoeveelheid van elementen en attributen een onderverdeling temaken naar relevantie:

verplicht code moet in elke transcriptie van opname of sample van opname aanwezig zijn.

aanbevolen code aangeven als het praktisch uitvoerbaar is. Wanneer dat niet gaat, dan is een opmerkinghierover verplicht. Deze codes zouden in een later stadium, indien er extra tijd of geld overschiet,alsnog moeten worden aangebracht.

optioneel code alleen aangeven als dit uitvoerbaar is. Het weglaten is niet zo belangrijk dat hierover eennotitie gemaakt moet worden.

Deze strategie komt overeen met het protocol van het SPEECHDAT-project (Gibbon et al., 1997: 825-834).

Om juist het probleem van de zeer algemene toepasbaarheid van de TEI-aanbevelingen aan te pakken(waardoor de set aan de ene kant te uitgebreid is, en aan de andere kant niet specifiek genoeg voor bepaaldeteksttypes), hebben onderzoekers die reeds werkzaam waren in de EAGLES-groep, het TEI, het EuropeseMultext-project en de afdeling Computer Science van Vassar College, USA (Nancy Ide c.s.) gezamenlijkestappen ondernomen om een minimale set regels op te stellen voor de structuur en annotatie van elektronischetekstcorpora voor taalkundig onderzoek. Dit staat bekend onder de naam Corpus Encoding Standard (CES).

De aanbevelingen van de CES omvatten in aanzet zowel geschreven als gesproken corpora, en hebben ookbetrekking op taalkundige annotatie met morfosyntactische codes, oplijning van parallelteksten, fonetischetranscriptie, etc. De bedoeling is dat de voorstellen terugvloeien naar het TEI. De CES voorziet in ver-schillende, gescheiden niveaus van markering, waarvan het basisniveau (dat de tekststructuur weergeeft) deuitwisselbaarheid van de teksten tussen verschillende platforms en applicaties moet garanderen. Dit noemtde CES de primaire data, i.t.t. de taalkundige verrijking, die als supplementair wordt gezien. Volgens deWebsite van de CES:

33

Page 34: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

http://www.cs.vassar.edu/CES/

zijn momenteel evenwel alleen richtlijnen voorhanden voor krantenteksten.Ondanks het in velerlei opzicht nog schetsmatige karakter van de richtlijnen, is CES reeds toegepast in

de Europese projecten Multext, Multext-East (Oost-Europa), PAROLE en TELRI. In de USA is onlangsbesloten dit als standaard te gebruiken voor de TIPSTER-tekstcorpora. Een hernieuwde financiering moetde geconstateerde hiaten in teksttypen opvullen, en eveneens de conversie van CES naar XML mogelijkmaken (Nancy Ide, persoonlijke communicatie).

4.2.4 EAGLES

EAGLES (Expert Advisory Group on Language Engineering Standards) is een Europese adviesgroep diestandaards definieert voor de opbouw en codering van tekstcorpora, computationele lexica en spraakcorpora,voor manipulatie en bewerking van deze bestanden met programmatuur, en voor het benaderen en evaluerenvan deze bestanden.

Anders dan bij de hierboven genoemde, officieel vastgelegde internationale ISO-standaards, gaat het bijEAGLES net als bij het TEI niet om dwingend opgelegde criteria, maar eerder om volgens een breed forumvan wetenschappers zeer nuttig geachte aanbevelingen. Immers,

(...) spoken language technology is still a relatively young area and thus the so-called standardsthat are discussed here represent only the first rung of the ladder towards the more formal standardswhich might emerge at a later date. The use of the term “standards” in the R&D community and inthe context of this handbook is more usefully interpreted in terms of guidelines and recommendedpractices. The emergence of more prescriptive actions such as professional codes of conduct, qualitymarks and formal standards still lies very much in the future (Gibbon et al., 1997: 6).

Niettemin geldt voor EAGLES net als voor het TEI, dat de aanbevelingen in de praktijk hetzelfde ge-wicht kunnen hebben als ISO-standaards, aangezien bij het aanvragen van internationale projecten veelalaansluiting bij deze richtlijnen wordt geeist.

Het EAGLES Handbook bevat aanbevelingen die soms erg algemeen en voor de hand liggend zijn, ensoms heel concreet. Dat eerste kan niet alleen verklaard worden uit het gedeelde auteurschap en het onder-liggende Europese consortium. Het heeft er zeker ook mee te maken dat gesproken corpora voor een veelheidaan doeleinden worden aangelegd, van b.v. veldopnames op Walkmans voor sociologisch onderzoek tot ineen studio gemaakte, vrijwel geruisloze opnames van afasiepatienten voor psycholinguıstische analyse. Er ism.a.w. veelal geen eenduidige richtlijn te hanteren, hoogstens het advies van de best mogelijke organisatieen techniek gegeven de doeleinden. We zullen hierom niet alle aanbevelingen reproduceren over opname-technieken, digitalisering van het signaal, wettelijke problemen, etc. In plaats daarvan concentreren we onsop een aantal hoofdpunten van belang voor de corpusopbouw en -annotatie.

Bij de samenstelling van het corpus valt aan een aantal, min of meer duidelijk te onderscheiden tekstca-tegorieen te denken, op een schaal van zeer artificiele spraak tot de meest spontane spraak (Gibbon et al.,1997: 99-106):

1. Voorgelezen fonemen, al dan niet in neutrale context (dat laatste is noodzakelijk bij niet-continuanteklanken).

2. Voorgelezen woorden in isolatie: lexicale woorden, dan wel fonotactisch correcte nonsenswoorden.

3. Voorgelezen zinnen in isolatie. Dit varieert van woorden in een neutrale, steeds herhaalde ’carriersentence’, zinnen met meer betekenisvolle, maar ongerelateerde inhoud, voorgedrukte antwoorden opeveneens voorgedrukte vragen, tot fonetisch rijke zinnen (alle fonemen van de taal vertegenwoordigd)en fonetisch gebalanceerde zinnen (alle fonemen van de taal vertegenwoordigd in hun juiste frequentie-verhouding).

4. Voorgelezen tekstfragmenten, dus zinnen in contextuele samenhang.

34

Page 35: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

5. Semi-spontane spraak. Deze wordt op de een of andere manier geprompt met korte, gerichte vragen.Typische voorbeelden zijn het noemen van je geboortedatum, je adres, leeftijd, etc. Hierbij is alredelijke variatie mogelijk, zoals ’ik ben 23 jaar oud’, ’23’, ’23 jaar’, ’net 23’, etc.

6. Spontane spraak over een afgesproken onderwerp. B.v. het navertellen van een verhaal, het beschrijvenvan een plaatje, maar ook dialogen waarbij de interviewer de discussie een bepaalde richting in stuurt.

7. Gesimuleerde mens-machine dialoog (Wizard of Oz). Hierbij speelt een mens de rol van computer ineen eerste testfase, om later een daadwerkelijk geautomatiseerd systeem te kunnen implementeren.

8. Spontane spraak. Een wezenlijk probleem hierbij is, hoe men een situatie kan creeren, waarin departicipant denkt dat hij niet wordt geobserveerd, of zijn uitingen niet worden opgenomen.

• Gebruik verborgen microfoons. Nadelen: slechte opnamekwaliteit en toestemming van partici-panten moet achteraf worden gevraagd, met risico van weigering. Hierbij moet wel worden aan-getekend, dat bij het British National Corpus slechts zeer weinig mensen toestemming achterafweigerden, mits de opnames werden geanonimiseerd. Evenwel kan het feit dat het BNC slechtsuit transcripties bestaat zonder het geluidssignaal hierop van invloed zijn geweest. EAGLES steltdaarom voor alleen clandestiene opnames te maken als dit echt noodzakelijk is (Gibbon et al.,1997: 122).

• Microfoon open zetten of laten staan buiten de aangekondigde opnametijd, b.v. bij introductie-gesprek of evaluatie/informeel gesprek achteraf.

• Vragen naar emotionele gebeurtenissen, vanuit de verwachting dat deze spraak de aanwezigheidvan microfoon en interviewer doet vergeten.

• Iemand uit de sociale kring van de participant erbij betrekken.

• Adolescenten interviewen. Zij worden geacht nog niet zo goed hun spraak te kunnen formaliserenen te monitoren.

Voordat met het opnameproces kan worden aangevangen, zal eerst een zo representatief dan wel zo gespreidmogelijke groep sprekers moeten worden aangetrokken. EAGLES reikt hiervoor een aantal aandachtspuntenaan:

Bepalen samenstelling van een breed geschakeerde groep participanten (Gibbon et al., 1977: 107-118). Sta-biele variabelen:

Demografische factoren geboorteplaats, woonplaats, opleidingsniveau, beroep, inkomen. Onderscheidmoet worden gemaakt tussen geboorteplaats en plaats waar men opgegroeid is. De middelbare school-periode wordt hierbij als de uiteindelijk meest vormende periode gezien. Deze noteren. Het preciezeonderscheid tussen de sociale klassen onderling is lastig vast te stellen. Geadviseerd wordt de groveindeling in: lagere, midden- en hogere klasse op grond van de factoren opleiding, werk en inkomen.Voor wat betreft allochtonen adviseert EAGLES slechts mensen met licht accent op te nemen.

Geslacht man-vrouw. Geadviseerd wordt verhouding 50/50. Bij kinderen is dit veel minder van belang.

Leeftijd stemkwaliteit verschilt van leeftijdsgroep tot leeftijdsgroep, maar niet met duidelijke scheidslijnen.Geadviseerd wordt te denken in termen van 3 categorieen: 0-20, 20-60 en 60+.Voor wat betreft vocabulaire en syntax, mag men veronderstellen dat de gespreksonderwerpen tussenouderen en jongeren verschillen. Of dat echter van invloed is op het vocabulaire en de grammatica isniet duidelijk.

Gewicht en grootte deze zijn kennelijk van invloed op de stemkwaliteit. Daarom noteren.

Rook- en drinkgewoontes deze zijn kennelijk van invloed op de stemkwaliteit (schorheid/heesheid). Daar-om noteren.

35

Page 36: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Pathologische spraak EAGLES beveelt opname aan in algemeen corpus, maar dat kan natuurlijk be-paalde normale fenomenen in zekere mate scheeftrekken. Een compromis kan zijn alleen b.v. lichtepathologische spraak (schorheid, heesheid, fluisterstem) toe te laten. Aandachtsgebieden: fysiologischeafwijkingen (gespleten gehemelte, hazenlip, ontbreken van tanden, verlammingen, afasie), fysiologisch-emotionele afwijkingen: stotteren, ’cluttering’.

Getraind versus ongetraind men moet er rekening mee houden, dat veel TV- en radiosprekers, maarook professionele sprekers (politici, zakenmensen) een spraaktraining achter de rug hebben, en daarom’overdreven correct’ kunnen articuleren.

Het recruteren van sprekers die aan deze sprekerskenmerken moeten voldoen is een verhaal apart:

Verzamelen contactadressen hierbij wordt een marketingbureau ingeschakeld om de adressen te leveren.De respons op dergelijke acties is ± 5% bij schriftelijke werving, 25% bij telefonische benadering, en50% bij huisbezoek.

• Voordelen:

– gecontroleerde demografische opbouw.

– directe aanschrijving mogelijk.

• Nadelen:

– dure informatie met eigendomsrechten.

– bereidwilligheid participanten niet gegeven.

Openbare wervingsactie hierbij wordt een advertentie gezet of een oproep gedaan via radio, TV of In-ternet om zo veel mogelijk mensen te recruteren.

• Voordelen:

– relatief goedkoop.

– hoge motivatie.

– absoluut gezien veel respons.

• Nadelen:

– ongecontroleerde demografische opbouw.

– hoge motivatie kan sample kleuren.

– relatief gezien weinig respons (〈 1%)

Hierarchische wervingsactie hierbij worden mensen geworven, die weer andere mensen moeten bewegendeel te nemen. Dat kan binnen de organisatie waar de werver werkt, zijn vriendenkring, etc.

• Voordelen:

– relatief goedkoop.

– gespreide wervingsactiviteit.

• Nadelen:

– ongecontroleerde demografische opbouw.

– onduidelijke respons.

Beloning wat voor wervingsmethode ook wordt gekozen, de respons kan flink toenemen als een beloning inhet vooruitzicht wordt gesteld, of een kans op een prijs.

Sprekergegevens naast de demografische gegevens moeten ook persoonsgebonden data worden geregi-streerd als naam, adres, telefoonnummer en beschikbaarheid.

36

Page 37: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Toestemming toestemming dient vooraf schriftelijk te worden gevraagd. Clandestiene opnames mogenalleen met een zeer goede motivatie worden gemaakt, en achteraf moet schriftelijk toestemming wordengeregeld. Het audiosignaal en de transcripten moeten worden geanonimiseerd (b.v. met piepjes op detape, en met een spreker-identificatiecode in de transcripten).

Voor wat betreft de transcriptie stelt EAGLES een annotatie op minstens drie niveaus voor:

1. Orthografisch niveau.Op dit niveau worden de woorden beschouwd als lexicale eenheden in hun standaardspelling, zodatverbinding met lexicale databanken en grammaticale tagging vergemakkelijkt worden.

2. Ruwe fonetische transcriptie op grond van de uitspraak van het woord in isolatie.Dit is dan vaak een fonemische transcriptie gegenereerd door grafeem-foneem conversie of overgenomenuit een uitspraakwoordenboek. Dit kan gebeuren op basis van een lijst met alle unieke woorden in eentekst. Dit is een stuk efficienter bij automatische annotatie en opslag, en kan ook dienen als referentievoor handmatige controle.

3. Gedetailleerde fonetische transcriptie, waarbij aandacht wordt besteed aan clitisering en reductie.Dit moet bij grotere corpora dan wel (gedeeltelijk) geautomatiseerd worden, omdat de procedure zoduur is. Prosodische en paralinguıstische informatie zou zeker moeten worden aangegeven op dit niveau(Gibbon et al., 1997: 84-86).

Er kan echter nog verder onderscheid tussen de diverse niveaus worden aangebracht; ook kunnen er nogdimensies aan worden toegevoegd, zoals blijkt uit het volledige overzicht, dat samen met een aantal aanbe-velingen hieronder wordt gepresenteerd (Gibbon et al., 1997: 155-172):

1. Opnamescript (bij voorgelezen spraak).Dit ontslaat de maker van het corpus overigens in de meeste gevallen niet van het maken van een tran-scriptie waarin voorleesfouten (aarzelingen, valse starts, uitspraakfouten, substituties) worden aange-geven. Denk ook aan paralinguıstische verschijnselen zoals gevocaliseerde pauzes, hoesten, krakendestoelen, etc.

2. Orthografische transcriptie (ook: transliteratie).Dit veronderstelt in zekere mate aanpassing aan de standaardspelling. Projecten verschillen erg inde mate waarin ze transliteratie in de zin van fonetische spelling toestaan. EAGLES beveelt aan,om op dit niveau zoveel mogelijk de standaardspelling aan te houden. Eerst zou de standaard or-thografische transcriptie vervaardigd moeten worden, om pas later de prosodische, ’performance’ enparalinguıstische verschijnselen aan te geven in een extra ronde. Dit komt overeen met het protocol vanhet SPEECHDAT-project (Gibbon et al., 1997: 825-834). De orthografische transcriptie kan eventueeldoor niet-taalkundig geschoolden gebeuren, b.v. een extern bureau. Dit geldt uiteraard niet voor deandere, hierna volgende niveaus.

Qua tijdsplanning valt de volgende vuistregel aan te houden:

Orthografische transcriptie voorgelezen zinnen 3 x duur signaal

Orthografische transcriptie voorgelezen tekst 5 x duur signaal

Orthografische transcriptie spontane spraak 10 x duur signaal

Controle is noodzakelijk. Minstens moet een tweede transcribeur naar het signaal luisteren met detranscriptie voor zich. Dat kan dan het best in de omgekeerde volgorde: de transcriptiestijl is hetmeest consistent aan het einde.

Een aantal probleemgevallen bij de orthografische transcriptie:

37

Page 38: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Gereduceerde woordvormen.Vaak wordt als criterium gehanteerd, dat ze in het woordenboek moeten voorkomen om aange-geven te kunnen worden. Er is dan vaak een conventionele spelling, b.v. voor ”zo’n”, ”d’r”, ıe”.Maar er zijn vaak verschillende spellingen mogelijk voor een vorm, en de lijst in het woordenboekkan arbitrair zijn. Daarom wordt gepleit te letten op frequentie van voorkomen en het criteriumvan gereduceerd aantal syllaben. Zowel voor de transcribeurs als voor de latere gebruikers moeter een complete lijst met deze woorden en hun schrijfwijze beschikbaar zijn.

• Dialectwoorden.Het criterium kan zijn, dat het niet in het woordenboek staat, of met een aanduiding ’dialect’.Dit op de een of andere wijze weergeven, b.v. ’krek’〈dia〉, ’sakkers’〈dia〉.• Getallen.

Deze uitschrijven zoals ze uitgesproken worden.

• Afkortingen.Deze uitschrijven zoals ze uitgesproken worden.

• Lettersequenties (b.v. in afkortingen, initialen, postcodes).In hoofdletters los van elkaar uitschrijven, uiteraard alleen als ze ook los worden uitgesproken.

• Tussenwerpsels.Zelfde criterium als bij gereduceerde vormen: kiezen voor standaardspelling indien voorhanden;lijst aanleggen met wijzigingen/variatie/toegevoegde woorden.

• Weggelaten woorden.Twijfelgeval, omdat het hierbij moeilijk is vast te stellen of de spreker inderdaad dit woord ingedachten had.

• Zelfreparaties van woorden.Dit gaat om complete woorden die impliciet of expliciet gecorrigeerd worden.

• Zelfreparaties van woordfragmenten.Hierbij wordt al na een deel van het foutieve woord het correcte woord uitgesproken.

• Onverstaanbare woorden of woorddelen.

• Aarzelingen en gevocaliseerde pauzes.

• Niet-verbale vocale en niet-vocale klanken.Deze zouden moeten worden opgenomen bij het relevante uiting(en).

• Simultane spraak.

• Sprekerwisselingen.

3. Morfologische, syntactische, semantische en pragmatische representatie.

4. Fonemische representatie (van de citation form).Hiervoor is de standaard in Europa SAMPA (Speech Assessment Phonetic Alphabet) (b.v. voor hetproject VERBMOBIL). Voor SAMPA, zie de URL:

http://www.phon.ucl.ac.uk/home/sampa/home.htm

Een nadeel hiervan is, dat de 7-bits codering alleen maar een subset van het volledige IPA-alfabettoestaat, omdat de set binnen de 128 karakters moet blijven. Dit hoeft echter voor een monolinguaalcorpus geen probleem te zijn, omdat per taal voor een fonemische transcriptie 128 posities (effectief,minus de controlkarakters, 95) meer dan voldoende zijn. Voor het Nederlands zijn er 47 symbolenbeschikbaar, inclusief marginale fonemen. Dit laat nog genoeg ruimte over voor een set prosodischesymbolen (klemtoon, toonhoogte, pauzes, grenzen), die ook gedefinieerd zijn in een additionele set onderde naam SAMPROSA (SAM PROSodic Alphabet). SAMPA heeft dan ook alleen de pretentie iets tezeggen over intra-linguale opposities tussen fonemen, niet over inter-linguale opposities of equivalentiesvan deze klanken (Gibbon et al., 1997: 728). Een alternatief is het meer uitgebreide fonetische alfabetvan Unicode, dat reeds onder het hoofdstuk XML (zie sectie 4.2.1) is besproken.

38

Page 39: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

5. Ruwe fonetische transcriptie (ook: fonotypische transcriptie).Op dit niveau wordt assimilatie, reductie, insertie of deletie weergegeven, maar dan alleen voor zoverhet het fonemisch domein betreft, dus b.v. wel de labialisatie van de /n/ in ’schoenborstel’ en de deletievan de /t/ in ’kastplank’, maar niet aspiratie van plosieven, of palatalisatie/velarisatie van de /l/. Ditkan automatisch met regels worden afgeleid, en/of met de hand.

6. Nauwkeurige fonetische transcriptie.Dit geeft meer gedetailleerde informatie dan het fonemisch niveau, zoals allofonen, glottisslagen, na-salisatie. Het kan alleen handmatig worden gecodeerd, en onder nauwkeurige bestudering van hetgeluidssignaal, veelal in combinatie met oscillogrammen en spectrogrammen. Vanaf dit niveau wordtcodering eigenlijk ondoenlijk, tenzij voor deelcorpora of met een bepaald doel voor ogen (b.v. logope-dische tests bij nasale spraak).

7. Akoestisch-fonetische transcriptie.Dit gebeurt geheel op grond van akoestische informatie uit oscillo- en spectrogrammen. Dit is uiteraardzeer arbeidsintensief, en daarmee niet geschikt voor grote corpora voor algemeen gebruik.

8. Fysische transcriptie.Het meest volledige niveau waarop gegevens kunnen worden verzameld, b.v. luchtstroommetingen,laryngogrammen, resonantiemetingen, etc. Dit is uiteraard zeer arbeidsintensief, en daarmee nietgeschikt voor grote corpora voor algemeen gebruik.

9. Prosodische transcriptie.Dit betreft, in tegenstelling tot de vorige niveaus, het suprasegmentele niveau, dus op het niveau vanintonatiecontouren, emfatische klemtoon, tempo- en ritmewisselingen, etc. Een aantal systemen enprotocollen zijn hiervoor voorhanden, gebaseerd op metingen van de grondtoon (stijging-daling), aldan niet in relatie tot de mate van begrenzing tussen toongroepen (intonatiefrasen). Hieronder vallende codeersystemen ToBI (Silverman et al., 1993), de IPO-benadering (’t Hart et al., 1990), en die vande corpora MARSEC (Roach et al., 1993) en VERBMOBIL (Kohler et al., 1995).

Het idee van verschillende codeerrondes is op een iets andere manier vormgegeven in het MARSEC-corpus.Hierin werd de orthografische transcriptie opgedeeld in een pure transliteratie zonder aandacht voor de spel-lingconventies van geschreven taal, gevolgd door een ronde, waarbij wel standaard-interpunctie en hoofdlet-ters werden toegepast:

”The unpunctuated transcriptions were made using the spoken recordings. The text was typeddirectly on to computer, and it was at this point that unacceptable text was noted, and replacedby a comment in the transcription, for example [speech extract omitted]. Speaker details werealso included in comments, for example [change of speaker: speaker name]. No word-initial ca-pitals are used apart from those in proper names and abbreviations, thus no indication of startof sentence is given in this format of text. (...) The unpunctuated transcription was used in theproduction of the punctuated transcriptions and the prosodic transcriptions. These versions weremade independently, so that neither influenced the other, i.e. the punctuated version was madeindependently of any prosodic information, and the prosodic version was made without any cuesfrom punctuation. The only way to ensure this was to have the unpunctuated transcription asthe starting point for both of these versions. (...) The volunteer punctuator was asked to insertpunctuation at appropriate points in the text without access to the spoken recording. As an aid,a handbook on punctuation conventions was provided. (Knowles et al., 1996: 22-23).

Buiten deze dimensies is nog commentaar mogelijk op elk van deze niveaus. EAGLES raadt aan om tran-scribeurs notities te laten maken over verschillende aspecten van de aard en kwaliteit van de opnames op eenvijfpuntsschaal (zoals bij het SWITCHBOARD corpus): moeilijkheidsgraad, natuurlijkheid, echo, statischeruis, etc.

Inmiddels is er na afsluiting van EAGLES een vervolgproject gestart, dat zowel een verdere specificatievan de annotatielagen beoogt, als het bouwen van tools om die annotatie op een efficiente manier aan te

39

Page 40: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

brengen, te manipuleren en tevens zoekvragen (ook met het oog op de eindgebruiker) te ondersteunen. Ditis het MATE-project, dat specifiek gericht is op gesproken taal in dialoogvorm. Aangezien hierbinnen ookprotocollen worden opgesteld voor het gedistribueerd werken aan en met dergelijke corpora volgens openstandaards als WWW en Java, wordt ook ingespeeld op de eerder beschreven ontwikkeling naar applicatie-onafhankelijke integratielagen, gebaseerd op SGML en XML.

Zie voor een beschrijving van MATE:

http://www.linglink.lu/le/projects/mate/index.html

4.3 Het Ontstaan van Internationale Datacollecties

4.3.1 De EUROM1 databank

Dit is een Europees initiatief om platform-onafhankelijke, uniform gecodeerde en ontsloten gesproken taal-corpora (met slechts voorgelezen spraak) samen te stellen voor alle Europese talen. Het maakt gebruikvan de in Europa erkende SAMPA transcriptiestandaard (ESPRIT SAM 2589). Het is vooral geschikt voorindustriele toepassingen.

Gegevens:

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): 100 voorgelezen getallen, 60-100 CVC-patronen, 10 woorden in isolatie, 50zinnen en 40 alinea’s van 5 zinnen.

• Sprekergegevens: 60 sprekers per taal. De vertegenwoordigde talen zijn Brits Engels, Deens, Duits,Frans, Grieks, Italiaans, Nederlands, Noors, Portugees, Spaans, en Zweeds. 30 mannelijke en 30vrouwelijke sprekers per taal, alle tussen de 20 en 60 jaar.

• Opnamedatum: ? (staat in labelfile, voorbeelden melden 1989-1990).

• Opnameduur: ± 12 uur per taal.

• Annotatieschema:

– gehanteerde standaard: SAMPA.

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: n.v.t.

– behandeling bij- en achtergrondgeluiden: n.v.t. (opname in akoestisch dode (anechoic) ruimte).

– gehanteerde interpunctie: n.v.t.

• Annotatieniveaus: deels laryngogrammen, en oorspronkelijke voor te lezen tekst in ASCII. Daarnaastbeschrijvende (label) files met zeer uitgebreide informatie (filetype, filenaam, sampling rate, opnameda-tum en -tijd, aantal bytes per sample, aantal kanalen, sprekergegevens (moedertaal, geslacht, leeftijd),protocol, versie, begin- en eindcode).

• Status privacy informanten: geanonimiseerd.

• Copyright: ELRA?

• Beschikbaarheid opnames: ja, via ELRA. In de praktijk blijken er grote problemen vanwege de fijnaf-stemming tussen alle Europese partners, het gedeelde auteursrecht, en copyright op het GERSONS-databasesysteem, dat berust bij het bedrijf ICP. Momenteel zijn alleen Italiaanse data beschikbaar bijELRA.

40

Page 41: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– geluidsdrager: CD-ROM.

– opnametechniek: samplefrequentie 20 kHz, 16-bits A/D-conversie. Opnames met condensatormi-crofoon in akoestisch dode ruimte.

– signaal-ruisverhouding: ?

– elektronische versie: ja, spraakfiles en ASCII-files met voor te lezen tekst. Er is tevens eendatabasesysteem beschikbaar voor PC onder de naam GERSONS, waarbinnen de data bevraagdkunnen worden.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

4.3.2 Het European Corpus Initiative (ECI)

Het European Corpus Initiative (ECI) betreft een project uit 1992 om een multi-linguaal, algemeen toegan-kelijk tekstcorpus op te bouwen. De CD van dit project bevat, voor het Nederlandse deel, naast artikelen uitde Groninger Universiteitskrant, De Limburger, Onze Taal en een nogal merkwaardige reeks citaten (kenne-lijk t.b.v. lexicografen), een aantal teksten die met enige goede wil gezien kunnen worden als weergaves vangesproken taal: scripts van het journaal, jeugdjournaal (beide oktober-december 1990, heel 1991, en januaritot juni 1992) en troonredes (1970-1986/88). Dit zijn dus geen transcripten, maar geschreven teksten, be-doeld om zo voorgelezen te worden. Hiermee valt het ECI-corpus in de traditie van het Engelse MARSECen het Vlaamse ANNO-materiaal. Er zijn verschillen tussen de scripts en daadwerkelijk uitgesproken tek-sten. De bandopnames zijn helaas niet voorhanden, en er is derhalve geen koppeling tussen audiosignaal entekst mogelijk, tenzij deze nog beschikbaar zijn bij de NOS. De CD-ROM is te verkrijgen bij het Europeseconsortium ELRA. Vervolgprojecten van ECI zijn o.a. Multext (Multilingual Text Tools and Corpora) enRELATOR (Distributed European Linguistic Resources Repository).

Gegevens:

• Omvang:

– types: 42.148 (NOS-journaal), 22.246 (Jeugdjournaal), 4.602 (troonrede).

– tokens: 1.096.725 (NOS-journaal) 478.172 (Jeugdjournaal), 36.288 (troonrede).

• Samenstelling (teksttypes): voor te lezen teksten.

• Sprekergegevens: nee.

• Opnamedatum: oktober-december 1990, heel 1991, en januari tot juni 1992 (NOS-journaal en Jeugd-journaal), september 1970-1986 en 1988 (troonrede).

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: TEI-conformant SGML.

– geclitiseerde en andere niet-standaard vormen: ja (’t, ’n, is-ie, dat-ie), als leidraad voor hetvoorlezen.

– sprekerwisseling, behandeling overlap: n.v.t.

– behandeling bij- en achtergrondgeluiden: n.v.t.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: orthografie, SGML op aparte regels voor gemakkelijke uitfiltering.

• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie(Van de Velde, 1996: 22).

• Copyright: NOS (?)

41

Page 42: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Beschikbaarheid opnames: wellicht bij NOS.

– geluidsdrager: ?

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, ASCII computerfiles met script en SGML-annotaties:

∗ dut02a0[1-8].eci � NOS-journaal.

∗ dut02b.eci � troonredes.

∗ dut02c0[1-3].eci � Jeugdjournaal.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

4.3.3 Het Multilingual Parallel Corpus (MLCC)

Dit betreft een meertalig parallel corpus in de 9 officiele talen van de Europese Unie: Deens, Duits, Engels,Frans, Grieks, Italiaans, Nederlands, Portugees en Spaans. Het deel Beantwoording van schriftelijke vragen isvoor het CGN niet relevant, maar het deel Debatten van het Europees Parlement bevat transcripties, waarbijaangegeven is of weergave van het gezegde in de oorspronkelijke taal is opgenomen, of een vertaling betreft.Op deze manier zijn de delen te isoleren, die een (gestandaardiseerde, geen clitica bevattende) transcriptiebetreffen van het Nederlands. De codering is SGML-conformant. Voorbeeld:

Nederlandse spreker in Nederlands subcorpus:

〈speaker〉Wijsenbeek 〈party〉(LDR)〈/party〉. -〈/speaker〉 Mevrouw de Voorzitter, het betreft dewijze waarop deze vergadering georganiseerd is, dus artikel 19 van het Reglement.

Niet-Nederlandse, in dit geval Engelse spreker in het Nederlands subcorpus:

〈speaker〉Andrews 〈party〉(RDE)〈/party〉. -〈language〉(EN)〈/language></speaker〉 Mevrouw deVoorzitter, ik ben blij in de gelegenheid te zijn uw aandacht te vestigen op de voortdurende ensteeds toenemende verontrusting...

Elk subcorpus bevat 5 tot 8 miljoen tokens per taal. De CD-ROM is te verkrijgen bij het Europese consortiumELRA.

4.3.4 Het International Corpus of English

Het ICE-Corpus, het International Corpus of English, is een initiatief van Sidney Greenbaum van de vakgroepSurvey of English Usage van het University College London, en Charles Meyer van de Universiteit vanMassachusetts, om een aantal corpora van gelijke omvang en inhoud volgens gelijke criteria samen te stellenvoor allerlei varieteiten van het Engels, zoals dat in de wereld gesproken wordt. Dit werd vooral opgezetom de leemte op te vullen, die tot dat moment bestond op het gebied van vergelijkbare gesproken corpora,maar ook om data te verzamelen in landen waar van corpora van welke aard dan ook nog geen sprake was.Onder de 20 landen en regio’s die deelnemen zijn naast uiteraard Groot-Brittannie en de Verenigde Stateno.a. Canada, Ierland, Australie, Singapore, Hong Kong, Nigeria en Kenia. Het criterium was dat Engelsminstens een officiele tweede taal moest zijn in het desbetreffende land (Greenbaum, 1991: 84).

Gegevens:

• Omvang:

– types: ?

– tokens: 1.000.000, waarvan ± 600.000 gesproken, per taalvarieteit. Dit vrij bescheiden aantal lijktzowel ingegeven door het vasthouden aan de oorspronkelijke standaard (ook qua samplegrootte)van de Brown en LOB-corpora, als door het deelnemen van landen zonder bestaande datacollectiesen expertise op dit gebied.

42

Page 43: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Gesproken teksten (300) Dialoog (180) Prive (100) directe conversatie (90)telefoongesprekken (10)

Publiek (80) klassikaal onderricht (20)radio/TV discussies (20)radio/TV interviews (10)politieke debatten (10)gerechtelijke verhoren (10)zakentransacties (10)

Monoloog (120) ’Unscripted’ (70) spontaan commentaar (20)toespraken (30)demonstraties (10)gerechtelijke toespraken (10)

’Scripted’ (50) radio/tv nieuws (20)radio/tv commentaar (20)toespraken (niet voor radio of tv) (20)

Tabel 1: Teksttypen onderscheiden in het gesproken deel van ICE

• Samenstelling (teksttypes): 200 geschreven en 300 gesproken tekstdelen van elk ± 2.000 woorden pertaalvarieteit. De precieze tekstsamenstelling van het gesproken deel is te vinden in Tabel 1.

• Sprekergegevens: sprekers en schrijvers van 18 jaar en ouder met een Engelstalige opleiding, die ofwelgeboren zijn in het onderzochte land, ofwel hier jong naartoe zijn verhuisd. Verschillende leeftijds-groepen met diverse sociaal-economische status, waarbij evenwel niet is gepoogd alle groepen preciestegenover elkaar te balanceren.

• Opnamedatum: 1990-1996. Ook alle geschreven teksten stammen uit deze periode.

• Opnameduur: 70 uur per taalvarieteit (gebaseerd op het Britse deel).

• Annotatieschema:

– gehanteerde standaard: SGML-conformant voor tekststructuur (in de zin van tags tussen vissen-haken met eindsymbolen); TOSCA (taalkundige en redekundige ontleding).

– geclitiseerde en andere niet-standaard vormen: ja, voor zover geschreven standaard-equivalentbestaat (“he’ll”, “can’t”, “it’s”).

– sprekerwisseling, behandeling overlap: ja, beide.

– behandeling bij- en achtergrondgeluiden: nee.

– gehanteerde interpunctie: ja, orthografische interpretatie.

• Annotatieniveaus: orthografische transcriptie met pauzes, herhalingen, zelfcorrecties, valse starts enaarzelingen. Alle ’disfluencies’ zijn genormaliseerd, evenwel met behoud van de oorspronkelijke uitin-gen. Paralinguıstische kenmerken aangegeven. Syntactische analyse (tagging en parsing) met TOSCA-programmatuur van de Nijmeegse vakgroep Taal & Spraak. Het Amerikaanse deel wordt verrijkt meteen prosodische transcriptie.

• Status privacy informanten: geanonimiseerd in transcript.

• Copyright: ICE. Het corpus is uitsluitend verkrijgbaar voor non-profit gebruik voor ong. 900 gulden.Een multi-user licentie kost ongeveer 1500 gulden.

43

Page 44: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Beschikbaarheid opnames: nu nog niet. Digitalisering in uitvoering.

– geluidsdrager: oorspronkelijk analoge tapes. Later distributie op CD-ROM.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja.

– relatie signaal-transcriptie (volledigheid-koppeling): in uitvoering.

Alle gegevens zijn elektronisch beschikbaar, en kunnen dankzij de ICECUP user interface (het ICE CorpusUtility Program) uitgebreid gemanipuleerd worden, b.v. tot een concordantie op woord- of tagniveau, ofbeide gecombineerd, of tot grammaticale boomstructuren in horizontale of verticale orientatie. Daarnaastkan worden gezocht op hierarchische of andersoortige relaties in de boomstructuren (b.v. alle onderwerpengerealiseerd door een zelfstandig-naamwoordgroep die twee opeenvolgende bijvoeglijke naamwoorden bevat).Ook zijn zoekacties mogelijk op teksttype en biografische gegevens van de schrijver of spreker, zoals leeftijd ensociaal-economische klasse. Er wordt momenteel gewerkt aan ’fuzzy matching’ op in een editor gespecificeerdepatronen, die het leren van bepaalde zoekalgoritmes overbodig moet maken.

Voor verdere informatie zie de Website van ICE onder URL:

http://www.ucl.ac.uk/english-usage/

4.3.5 Het British National Corpus

Aan het project British National Corpus (BNC) werd door de volgende partners deelgenomen:

• 3 woordenboekuitgevers (Chambers Harrap, Longman, Oxford University Press).

• 2 universiteiten (Oxford en Lancaster).

• 1 publieke dienstverlener (British Library).

Het BNC-project kende een aantal uitgangspunten, die vooraf waren vastgelegd, en waaraan niet getorndmocht worden. Het BNC kan zo omschreven worden als:

• een corpus van steekproeven van taaluitingen (samples), elk niet of nauwelijks groter dan 45.000 tokens.

• een synchroon corpus, met fictie uit 1960-1993, non-fictie uit 1975-1993.

• een algemeen corpus, d.w.z. niet specialistisch in samenstelling of doelgroep.

• een monolinguaal corpus, d.w.z. uitsluitend Brits Engels.

• een gemengd corpus, d.w.z. zowel bestaand uit het geschreven als gesproken medium (Burnard, 1995:5-6).

Het corpus telt 100 miljoen tokens, waarvan 10 miljoen gesproken. Dit komt overeen met 700 uur spraak-opnames (niet duidelijk is voor of na editing). Meer dan 4 miljoen tokens van de 10 waren geheel spontanespraak, d.w.z. 40%.

Binnen het gesproken corpus van het BNC is onderscheid te maken tussen twee wijzen van sampling:

• demografisch gemotiveerde steekproef (gepland 5% van de 100 miljoen tokens, in de praktijk 4,2%),nl. informanten met draagbare opnameapparatuur (Walkmans).

• linguıstisch gemotiveerde steekproef (’context-governed’) (gepland 5% van de 100 miljoen tokens, in depraktijk 6,1%) (zie onderstaande tabel (Tabel 2) voor onderverdeling laatste categorie).

44

Page 45: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

1. Educatief en informatief 25%- monoloog (asymmetrisch) 40%

- colleges, voordrachten en lezingen- nieuwsberichten en actualiteiten

- dialoog (symmetrisch) 60%- klassikaal en individueel onderricht

2. Zakelijk 25%- monoloog 40%

- zakelijke presentaties- productdemonstraties

- dialoog 60%- zakelijke gesprekken- vergaderingen- consults

3. Openbaar en institutioneel 25%- monoloog 40%

- politieke toespraken- preken

- dialoog 60%- vergaderingen- politieke debatten- rechtszaken

4. Recreatief 25%- monoloog 40%

- toespraken en voordrachten- sportverslagen

- dialoog 60%- praatprogramma’s- vergaderingen

Tabel 2: Teksttypen onderscheiden in linguıstisch gemotiveerd deel gesproken BNC

45

Page 46: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

De exacte gegevens van het gesproken deel van het BNC kunnen als volgt schematisch worden weergeven:

Gegevens:

• Omvang:

– types: ?

– tokens:

∗ 6,15 miljoen (linguıstisch gemotiveerd).

∗ 4,21 miljoen (demografisch gesampled).

• Samenstelling (teksttypes):

– 762 linguıstisch gemotiveerde teksten, tot 200.000 tokens per type monoloog, tot 300.000 tokensper type dialoog (zie Tabel 2).

– 153 demografisch gesamplede teksten.

• Sprekergegevens: 153 informanten (inclusief ongeveer 30 tieners) voor het demografisch gedeelte, ge-selecteerd op grond van een willekeurige, gebalanceerde steekproef per regio (uit heel het VerenigdKoninkrijk), leeftijd, geslacht en sociaal-economische klasse. Met gesprekspartners erbij waren meerdan 1000 deelnemers te onderscheiden. De informanten zijn in het corpus aangegeven als 〈role=resp〉(respondent), terwijl 〈role=other〉 wordt gebruikt voor de gesprekspartners. Naast role zijn verplichtepersoonsgegevens:

geslacht m(ale), f(emale) of u(nknown).

leeftijd 0 tot 15 jaar.

1 15 tot 24 jaar.

2 25 tot 34 jaar.

3 35 tot 44 jaar.

4 45 tot 59 jaar.

5 ouder dan tot 59 jaar.

X onbekend.

Soms wordt de leeftijd, indien voorhanden, precies aangegeven.

flang de moedertaal van de spreker.

dialect het dialect van de spreker.

soc de sociale klasse van de spreker.

AB hoger- of middenbestuurskader, administratief of professioneel.

C1 leidinggevend, afdelingshoofd of administratief.

C2 geschoold vakman.

DE halfgeschoold of ongeschoold.

UU onbekend.

educ het opleidingsniveau van de spreker.

0 nog in opleiding.

1 school verlaten met 14 jaar of jonger.

2 school verlaten met 15 of 16 jaar.

3 school verlaten met 17 of 18 jaar.

4 opleiding gecontinueerd na 18 jaar.

X onbekend.

Daarnaast kunnen optioneel de volgende gegevens worden vermeld:

46

Page 47: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

BMRB code code van het marketingbureau voor een demografische klasse.

naam een (fictieve) voornaam als extra identificatie.

beroep het beroep van de spreker.

commentaar

relatie gelijkwaardige of hierarchische relatie tussen de participanten, b.v. ’broer van X’, ’klant vanY’, ’collega van Z’.

De informanten kregen maximaal een week een Walkman omgehangen. Hoewel het linguıstisch ge-motiveerde gedeelte een andere, op teksttype gebaseerde samplestrategie volgde, werd binnen elk vande klassen toch zo veel mogelijk gelet op balans tussen regio (3 gebieden: Noord, Zuid en Midlands),geslacht, (opleidings)niveau van de spreker/doelgroep en onderwerp. Zo werden zowel nationale alsregionale radiozenders meegenomen, mannelijke als vrouwelijke onderwijzers, kerkdiensten van ver-schillende geloofsovertuigingen, kantongerechten, arondissements- en hogere rechtbanken, etc.

• Opnamedatum: 1981-1994.

• Opnameduur: 700 uur.

• Annotatieschema:

– gehanteerde standaard: CDIF (Corpus Document Interchange Format), een door het TEI beın-vloede aanpassing van SGML (TEI was tijdens de codeerperiode nog niet afgerond). GeheelSGML-conformant.

– geclitiseerde en andere niet-standaard vormen: ja, meer dan in standaard-orthografie wordt toe-gelaten, dus niet alleen “can’t”, “we’re” en “that’s”, maar ook ’dunno’, ’gimme’, ’innit’, ’wanna’,etc. Wanneer woorden genormaliseerd zijn, geeft het element 〈sic〉 de ongenormaliseerde vormweer, en 〈reg〉 de genormaliseerde vorm.

– sprekerwisseling, behandeling overlap: ja, met het 〈who〉-attribuut en 〈align〉-elementen.

– behandeling bij- en achtergrondgeluiden: ja, met paralinguıstische tags.

– gehanteerde interpunctie: orthografische interpretatie.

• Annotatieniveaus: globaal orthografisch, SGML voor teksttructuur, CLAWS-set van grammaticaletags. Het element 〈gap〉 dient voor weggelaten (b.v. geanonimiseerde) of onverstaanbare stukkentekst. Paralinguıstische codes omvatten stemkwaliteit (〈shift〉), niet-vocale elementen (〈event〉), vocale,niet-linguıstische elementen (〈vocal〉), pauzes (〈pause〉), onduidelijke passages (〈unclear〉), afgebrokenwoorden (〈trunc〉) en overlappingen. Het BNC hanteert andere interpretatie van de TEI-voorstellenvoor overlappingen dan hierboven (zie sectie 4.2.3), nl. een align-declaratie met locaties vooraf, en danpointers in de tekst, zoals in dit voorbeeld:

<align>

<loc id=KB1LC001> <loc id=KB1LC002>

</align>

...

<u who=PS01B>

<s n=0036>

No, I’ll have to ring our Carl then, see if he can shift it, I mean she

might as well be laid down here watching telly as upstairs laid in bed

uncomfortable, you know <pause> <ptr t=KB1LC001> yeah <ptr t=KB1LC002>

</u>

<u who=PS01C>

<s n=0037>

<ptr t=KB1LC001> <unclear> <ptr t=KB1LC002> once you get in

bed you’ll be like <unclear>

</u>

47

Page 48: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Status privacy informanten: geanonimiseerd in de transcripten en de logfiles. Aan alle participantenis soms vooraf, soms achteraf toestemming gevraagd. Dit werd overgelaten aan de drager van deWalkman voor het demografisch deel. De opnames werden gewist als een der gesprekspartners geentoestemming gaf.

• Copyright: BNC-consortium. Het is verkrijgbaar voor uitsluitend taalkundig onderzoek binnen de EUvoor ± 700 gulden.

• Beschikbaarheid opnames: nee, alleen orthografische transcripties. De opnames zijn opgeslagen in hetNational Sound Archive in Londen. Men hoopt dat die eens vrijgegeven worden (Crowdy, 1995: 229).

– geluidsdrager: DAT-tape, of analoge tapes voor demografisch deel. De laatste werden overgezetnaar DAT-tape t.b.v. efficiente transcriptie.

– opnametechniek: Walkman (demografisch), DAT-recorder (indien mogelijk voor context-governeddeel).

– signaal-ruisverhouding: ?

– elektronische versie: orthografische transcriptie plus annotaties in SGML en CLAWS in een ASCII-computerfile per tekst. Het programma SARA (SGML-Aware Retrieval Application), een client-server gebaseerd zoeksysteem dat concordanties kan aanmaken en de SGML-codes herkent, ismeegeleverd op de CD-ROM.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

Het samengestelde BNC-corpus wordt voorafgegaan door het element 〈bnc〉, en bestaat uit een algemeneheader en een aantal teksten met elk het element 〈bncDoc〉.

Elk 〈bncDoc〉 bestaat op zijn beurt weer uit een header en een element voor geschreven tekst, 〈text〉, ofeen gesproken tekst, 〈stext〉. Attributen ’complete’ (Y|N) en ’org’ (compo|seq) geven aan of de tekst resp.compleet is of een fragment, en of de tekstelementen in willekeurige dan wel sequentiele volgorde voorkomen.

Elke tekst bevat tenminste een aantal segmenten 〈u〉, nl. voor onderscheiden gesproken uitingen, en 〈s〉,voor zinsachtige elementen (eind tag 〈/s〉 heeft hierbij de status ’o’ = omissable), die al dan niet handmatigzijn bijgewerkt (attribuut ’p’ (Y|N) voor post-editing, met als normaalwaarde ’N’). Zoals boven beschrevenin de paragraaf over het TEI, heeft elke 〈u〉 een attribuut ’who’, dat de spreker (abstract) definieert. De 〈s〉-elementen hebben als attribuut een sequentienummer, b.v. 〈s n=00011〉. Daarnaast kunnen frase-elementenvoorkomen, 〈phSeq〉, of tekstdivisie-elementen, nl. 〈div〉, of alleen maar gewone karakters, volgens de BNC-DTD gekenschetst als #PCDATA, maar niet als zodanig gecodeerd.

Binnen deze frase-elementen vinden er de tags voor woord, 〈w〉, en leesteken, 〈c〉, die eveneens meestalgeen eind tag hebben. Woorden kunnen grammaticale attributen hebben als AJO (adjectief stellende trap) enAJC (adjectief vergrotende trap) volgens het CLAWS-schema, terwijl leestekens attributen kunnen hebbenals PUL en PUN voor de realisatie van verschillende tekens, eveneens volgens CLAWS.

De transcriptiefiles, inclusief de DTD, het SARA-programma en documentatie worden, gearchiveerd mettar en gecomprimeerd met gunzip, geleverd op 3 CD-ROMs.

4.3.6 Het POLYPHONE Corpus

POLYPHONE is een internationaal corpus van telefoonspraak, gecoordineerd door het Linguistic Data Con-sortium in de VS. Het Nederlandse deel werd verzameld in samenwerking tussen PTT-Telecom en hetExpertisecentrum SPEX. Het is te verkrijgen bij het Europese consortium ELRA. Er zijn inmiddels ookAmerikaans-Engelse, Amerikaans-Spaanse, Franse, Duitse, Japanse, Mandarijns-Chinese, Zwitsers-Franseen Deense versies beschikbaar. Het Amerikaanse deel van het POLYPHONE-project staat bekend onder denaam MACROPHONE.

Gegevens:

• Omvang:

– types: ?

48

Page 49: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– tokens: ?

• Samenstelling (teksttypes): geeliciteerde spontane spraak (beantwoording 14 voorgedrukte vragen, zo-als “Is Nederlands uw moedertaal?”, “Heeft U ooit in een ander land dan Nederland gewoond?”,”Inwelke plaatsen bent u opgegroeid?”, “Bent u een vrouw of een man?”, en 4 niet-voorgedrukte vragen(“Spel uw naam alstublieft”, “Hoe laat is het nu?”), 32 stukken voorgelezen tekst (getallen, woor-den, gespelde woorden, datum, bedrag, tijdsaanduiding, hoeveelheid, zinnen met een applicatiewoord,fonetisch rijke zinnen). In totaal 50 items per spreker.

• Sprekergegevens: 5050 sprekers, zo mogelijk gelijkelijk verdeeld over geslacht, leeftijd (16-20, 21-40,41-60, 61-), regio en sociaal-economische klasse. De sociaal-economische klasse werd gedefinieerd intermen van opleiding: alleen lagere school, middelbare school en hbo/universiteit. Dat laatste wasminder gelukkig: vrijwel iedereen onder de 60 bleek minstens middelbare school genoten te hebben.De jongste en de oudste groep bleken te zijn ondergerepresenteerd.

• Opnamedatum: ? Data uitgegeven in 1995.

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: ?

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: n.v.t.

– behandeling bij- en achtergrondgeluiden: ja, in transcriptie.

– gehanteerde interpunctie: ?

• Annotatieniveaus: orthografische transcriptie.

• Status privacy informanten: ?

• Copyright: ?

• Beschikbaarheid opnames: ja, bij ELRA.

– geluidsdrager: CD-ROM.

– opnametechniek: digitale ISDN telefoonlijn. Aculab telefoon-interface, een Rhetorex Voice Carden driver software, Show-’n-Tel applicatie ontwikkelingssoftware, en een 16 port operational li-cense, op een OS/2 PC. Sampling rate 8 kHz, 8-bits A/D-conversie.

– signaal-ruisverhouding: ?

– elektronische versie: 222.075 audiofiles, met file formaat 8-bit raw A-law data.

– relatie signaal-transcriptie (volledigheid-koppeling): ?

De opmerkingen van het Nederlandse POLYPHONE-team over de stratificatie-strategie van dit projectzijn mogelijk van belang voor het CGN-project. Deze zijn overgenomen van de EAGLES Website voorGesproken Data (http://coral.lili.uni-bielefeld.de/EAGLES/). Ze zijn ook te vinden in Gibbon et al. (1997:807):

Speaker selection and recruitment is still a difficult issue. In the Dutch POLYPHONE projectmuch time, effort and money was spent in order to get a maximally uniform sampling of a largenumber of cells. To a considerable extent, these efforts have been to no big avail. The majorreason to strive towards uniform sampling was scientific: we wanted the corpus to be as attractiveas possible for linguists and dialectologists, of course without interfering with the requirements ofspeech technology. The latter requirements are ill-defined. It is quite likely that applications likeTrain Time Table Information must deal with the public at large, including low income groupswhose speech may differ from the general standard. More research is needed to clarify this issue.

49

Page 50: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

4.3.7 Het Oxford Text Archive

Het Oxford Text Archive (OTA) is een verzamel- en distributiecentrum van elektronische teksten aan deUniversiteit van Oxford. Het werd reeds in 1976 opgericht door Lou Burnard. Anders dan vele ftp-sitesen elektronische archieven, die vaak een vergaarbak zijn van documenten in talloze formaten en stijlen,stimuleert het OTA de opname en verspreiding van teksten volgens internationaal aanvaarde standaards. Zois het OTA een belangrijk pleitbezorger voor de platform- en applicatie-onafhankelijke document-markeertaalSGML en in het bijzonder de hierop gebaseerde literaire conventies van het TEI. Als standaard codeersetwordt TEI Lite aanbevolen, een ’uitgeklede’ versie van de volledige reeks TEI elementen, attributen en regels(zie boven). Niettemin kunnen ook documenten worden geaccepteerd in HTML, XML, (La)TeX, Rich TextFormat (RTF), ASCII, word processors als WordPerfect of Word, PostScript of Portable Document Format(PDF), hoewel dit niet de voorkeur geniet.

Net als bij het Project Gutenberg bestaat de hoofdmoot van de OTA-collectie uit teksten in het publiekedomein. Daarnaast zijn er echter, in tegenstelling tot de Amerikaanse equivalent, ook corpora beschikbaar,waarvoor speciale contracten afgesloten zijn.

De meeste teksten zijn vrijelijk verkrijgbaar voor onderzoeksdoeleinden, maar mogen niet verder gedis-tribueerd worden buiten de vakgroep, of verwerkt worden tot een commercieel product. De condities zijnechter veelal afhankelijk van het beleid van de leveranciers van de oorspronkelijke teksten.

Op het gebied van moderne spraakcorpora beschikt het OTA over een versie van het Eindhoven corpus,de CHILDES corpora, het London-Lund corpus, het Lexis gesproken Engels corpus, John Kirk’s Noord-Ierscorpus (400.000 tokens) en de Duitse Ulm Textbank (transcripties van psycho-diagnostische interviews).

Voor verdere informatie zie de Website van het OTA onder URL:

http://firth.natcorp.ox.ac.uk/ota/public/index.shtml

4.3.8 Het Project Gutenberg

Het Project Gutenberg is een Amerikaans initiatief om zoveel mogelijk geschreven teksten op de computer opte slaan en ter beschikking te stellen aan geınteresseerden. Vanwege de hanteerbaarheid is gekozen voor opslagzonder applicatie- of systeemspecifieke code in platte ASCII-tekens. Om allerlei problemen met distributiete voorkomen, is gekozen voor de opname van uitsluitend teksten in het publiek domein. Aangezien hetcopyright op een tekst pas kan vervallen 50 jaar na de dood van de auteur, betreft de collectie slechts oudeteksten. Omdat de selectie bovendien beperkt blijft tot fictieve lectuur, literaire fictie en naslagwerken, isdit project qua inhoud en codeerwijze geheel irrelevant voor het CGN-project. Informatie is te vinden ophet WWW onder URL:

http://mirrors.org.sg/pg/index.html

Hierbij zij nog vermeld, dat het eerder opgezette Georgetown University Catalogue of Projects in Electro-nic Text, dat een goed gestructureerd overzicht gaf van elektronische tekstbestanden over de hele wereld, na1993 door gebrek aan menskracht niet meer is bijgewerkt, en inmiddels samen met het op VMS gebaseerdegopher-systeem is afgesloten (privecorrespondentie met Michael Neuman, Georgetown University).

4.4 Moderne Nederlandstalige Gesproken Corpora

4.4.1 Het ANNO Corpus

Het ANNO-corpus werd ontwikkeld in het kader van het Vlaamse korte-termijnprogramma Spraak- en Taal-technologie. Dit programma werd in 1993 door de Vlaamse regering geınitieerd met als doel de achterstandop het gebied van deze technologie t.o.v. de hoofdtalen binnen de Europese Gemeenschap zoveel mogelijkweg te werken. Het aanmaken van corpora werd gezien als een onderdeel van het initiatief, dat “het uitbou-wen van goede logistieke ondersteuning van het wetenschappelijk onderzoek in verband met taaltechnologie”beoogde (zie Spraak- en Taaltechnologie voor het Nederlands, 1993).

50

Page 51: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

ANNO, dat bedoeld is als “een geannoteerde publieke gegevensbank voor het geschreven Nederlands”, iste zien als een pilotproject om te komen tot een standaard voor het samenstellen en annoteren van grotereNederlandstalige corpora. Het materiaal bestaat uit BRTN radio-nieuwsberichten en afleveringen van deradio actualiteitenrubriek Actueel. Het taalgebruik in deze uitzendingen wordt beschouwd als de nationalestandaard. De teksten bestaan oorspronkelijk uit geschreven taal die bedoeld is om uitgesproken te worden.Daarnaast bevat het tekstmateriaal ook origineel gesproken taal in de vorm van getranscribeerde interviews.Het project werd uitgevoerd door het Centrum voor Computerlinguıstiek aan de Katholieke UniversiteitLeuven.

Gegevens:

• Omvang:

– types: ?

– tokens: 640.000.

• Samenstelling (teksttypes): BRTN radio-nieuwsuitzendingen en uitzendingen van de actualiteitenru-briek Actueel. Dit laatste deel bevat zowel voorgelezen spraak als spontane interviews.

• Sprekergegevens: ?

• Opnamedatum: ?

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: SGML voor de tekststructuur.

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: ?

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: orthografisch.

• Annotatieniveaus: orthografie, tekststructuur in SGML, syntactische tagging volgens WOTAN(TOSCA-groep vakgroep Taal en Spraak, KU Nijmegen), fonetische transcriptie van de woorden uitCELEX, dan wel gegenereerd met TreeTalk (Walter Daelemans, KU Brabant), morfologische tagsdeels aangebracht met Keper (Polderland Nijmegen), syntactische (redekundige) ontleding deels metMETAL (Siemens), discourse analyse deels volgens een onbekend systeem. Zie voor een demo van dediverse annotatieniveaus de URL:

http://www.ccl.kuleuven.ac.be/about/ANNO/DEMO/21mrt08u.html

• Status privacy informanten: ?

• Copyright: Aangezien het uitzendingen van de BRTN betreft, zijn er problemen met de openbaarma-king van het corpus gerezen. Momenteel kan het corpus niet buiten de KU Leuven gebruikt worden.Er zijn onderhandelingen gaande.

• Beschikbaarheid opnames: momenteel niet.

– geluidsdrager: ?

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ?

– relatie signaal-transcriptie (volledigheid-koppeling): ?

51

Page 52: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

4.4.2 Het COGEN Corpus

Het Corpus Gesproken Nederlands COGEN vloeide, net als het ANNO-bestand, voort uit het korte-termijnprogramma Spraak- en Taaltechnologie van de Vlaamse regering. De COGEN-databank moest voorzien ineen grote varieteit aan opnames van een aantal standaardwoorden en -zinnen en een stuk lopende tekst.Sprekers werden gerecruteerd uit alle lagen van de bevolking, waarbij de voorwaarde was dat ze geen dialectspraken, maar zich zoveel mogelijk conformeerden aan het Standaard-Nederlands. Het doel was hiermeevoldoende data te verzamelen voor een systeem voor robuuste continue spraakherkenning. Uitvoering ge-schiedde door het Departement Elektrotechniek (ESAT) van de KU Leuven en de vakgroep Elektronicaen Informatiesystemen (ELIS) van de Universiteit Gent. De gegevens hieronder komen grotendeels uitprivecorrespondentie met Wim Goedertier (ELIS).

Gegevens (zie ook Bouma & Schuurman, 1998: 29-30):

• Omvang:

– types: ?

– tokens:

∗ 63.510 (RS OFF)

∗ 23.000 (SS TEL operator)

∗ 13.230 (SS TEL informant)

• Samenstelling (teksttypes):

– WL OFF (word list office): gespelde woorden (10 uit een set van 40), commandowoorden, cijfers enfonetisch rijke woorden (100 uit een set van 400), voorgelezen in een normale (enigszins rumoerige)kantooromgeving.

– RS OFF (read speech office): voorgelezen lopende krantentekst (5 alinea’s, gemidd. 73 woordenper alinea) in een (enigszins rumoerige) kantooromgeving.

– WL TEL (word list telephone): voorgelezen woordenlijsten over de telefoon.

– SS TEL (spontaneous speech telephone): spontane spraak over de telefoon. 3 vragen naar infor-matie via gesimuleerde mens-machine-dialoog. De medewerker (operator) las hierbij de responsvan de computer op van de monitor. Dit deel is dus voorgelezen spraak.

• Sprekergegevens: 174 sprekers uit verschillende regio’s, leeftijdsgroepen en sociaal-economische klassen.De bedoeling was evenwel dat ze zoveel mogelijk Standaard Nederlands spraken. Het deel WL TELtelt 185 sprekers, het deel SS TEL slechts 126.

• Opnamedatum: 1995?

• Opnameduur (pauzes steeds weggeknipt):

– 2,16 uur (WL OFF gespeld)

– 5,83 uur (WL OFF voorgelezen)

– 7,02 uur (RS OFF)

– 5,85 uur (WL TEL)

– 3,48 uur (SS TEL operator)

– 2,00 uur (SS TEL informant)

• Annotatieschema:

– gehanteerde standaard: YAPA (fonemische transcriptie). Deze standaard werd in Vlaanderenontwikkeld voor het eerder genoemde korte-termijn programma.

– geclitiseerde en andere niet-standaard vormen: ?

52

Page 53: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– sprekerwisseling, behandeling overlap: niet relevant.

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: ?

• Annotatieniveaus: handmatig geverifieerde orthografische transcriptie (incl. aarzelingen, versprekin-gen, reparaties), automatische fonemische transcriptie door Lernhout & Hauspie, handmatig geverifi-eerde fonemische transcriptie (slechts 3.4% van RS OFF, andere delen niet), daarnaast automatischelabelling op foonniveau (= fonetische segmentatie), d.w.z. discrete kenmerken binnen een foneem, zoalsontploffing, toonbaar, aspiratie, sluiting, glottale stop, door ELIS, handmatig geverifieerde fonetischesegmentatie (slechts 3,4% van RS OFF, andere delen niet).

• Status privacy informanten: geanonimiseerd (nr0001, nr0002, etc.)

• Copyright:

– ESAT/ELIS(?) (WL OFF)

– ESAT/ELIS (RS OFF)

– ESAT/ELIS/Lernhout & Hauspie (WL TEL)

– ESAT/ELIS (SS TEL)

• Beschikbaarheid opnames: ja, behalve WL TEL, dat gedeeld eigendom is van Lernhout & Hauspie.

– geluidsdrager: 6 CD-ROMS.

– opnametechniek:

∗ 16 kHz, 16 bit (RS OFF).

∗ 8 kHz, 8 bit (SS TEL) met analoge telefoonverbinding. File formaat raw A-law data.

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie in *.txt files, autom. fonemische transcriptiein *.tts files, handmatige correctie fonemische transcriptie in *.phn files, autom. fonetische seg-mentatie in *.lab files, handmatige correctie fonetische segmentatie in *.hla files. Soundfiles metextensie *.sam.

– relatie signaal-transcriptie (volledigheid-koppeling): ja, op frase-niveau voor de files *.txt, *.tts,*.phn (RS OFF), op sprekerniveau voor de files *.txt, *.tts, *.phn (SS TEL). Samples van de dataRS OFF en SS TEL bevinden zich op de ftp-site van ELIS onder URL:

ftp://elis.rug.ac.be/pub/speech/cgn/

4.4.3 Het PBS Corpus

Dit is een Vlaams corpus van Phonetically Balanced Sentences. Het is opgesteld aan de Universiteit vanGent, door de vakgroep ELIS. De volgende gegevens komen voort uit privecommunicatie met Wim Goedertier(ELIS).

Gegevens:

• Omvang:

– types: 441.

– tokens: 11.518.

• Samenstelling (teksttypes): 13 fonetisch gebalanceerde zinnen.

• Sprekergegevens: 130 sprekers.

53

Page 54: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Opnamedatum: ?

• Opnameduur: 1,18 uur.

• Annotatieschema:

– gehanteerde standaard: ?

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: n.v.t.

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: ?

• Annotatieniveaus: niet geverifieerde orthografische transcriptie (prompts), fonetische transcriptie in*.phn-files, 30,8% fonetisch gesegmenteerd in *.hla-files.

• Status privacy informanten: ?

• Copyright: ELIS.

• Beschikbaarheid opnames: ?

– geluidsdrager: ?

– opnametechniek: sampling rate 10 kHz, deel 11 kHz, fileformaat µ-law (12 bit).

– signaal-ruisverhouding: ?

– elektronische versie: ja, orthografische transcriptie (prompts), fonetische transcriptie in *.phn-files, fonetische segmentaties in *.hla-files.

– relatie signaal-transcriptie (volledigheid-koppeling): ?

4.4.4 Het Groningen Corpus

Dit is een corpus met Nederlandse voorgelezen spraak, verzameld door A.M. Sulter en H.K. Schutte. Het iste verkrijgen bij het Europese consortium ELRA.

Gegevens:

• Omvang:

– types: ?

– tokens: ?

• Samenstelling (teksttypes): voorgelezen tekst: 20 getallen, 16 eenlettergrepige woorden, 3 lange klinkers(a, e, i), 23 fonetisch rijke korte zinnen, twee stukken tekst met veel directe rede om ’emotionele spraak’op te wekken.

• Sprekergegevens: 238 sprekers. 94 sprekers lezen ook nog een uitgebreide woordenlijst voor. Gegevensover leeftijd, lengte, gewicht, rook- en drinkgedrag zijn opgenomen. Er zijn ook pathologische sprekersopgenomen. De stemkwaliteit is beschreven door de spreker zelf en een panel van luisteraars. Desprekers worden gekarakteriseerd als sprekers van het Standaard-Nederlands.

• Opnamedatum: ?

• Opnameduur: meer dan 20 uur.

• Annotatieschema:

– gehanteerde standaard: ?

54

Page 55: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– geclitiseerde en andere niet-standaard vormen: ?

– sprekerwisseling, behandeling overlap: n.v.t.

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: ?

• Annotatieniveaus: orthografische transcriptie.

• Status privacy informanten: ?

• Copyright: ELRA/ELSNET.

• Beschikbaarheid opnames: ja, bij ELRA.

– geluidsdrager: 4 CD-ROMS. Oorspronkelijke opname op PCM tapes.

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ja, spraakfiles en orthografische transcripties.

– relatie signaal-transcriptie (volledigheid-koppeling): nee.

4.4.5 Het Speech Styles Corpus

Een Nederlands gesproken corpus bestaande uit het spraaksignaal en bijbehorende orthografische transcriptie,samengesteld door het Expertisecentrum SPEX (Leidschendam). Het bevat spontane spraak (monologen),semi-spontane spraak (plaatjesbeschrijvingen) en voorgelezen spraak. De opstellers en uitvoerenden warenR. van Bezooijen en J. van Rie.

Gegevens:

• Omvang:

– types: 6.300.

– tokens: 118.000.

• Samenstelling (teksttypes): spontane spraak (monologen), semi-spontane spraak (plaatjesbeschrijvin-gen) en voorgelezen spraak, in aanwezigheid van een begeleider. Het onderwerp van gesprek was steedshuishoudelijke zaken, eetgewoonten en voedsel. Hierdoor komt het vocabulaire sterk overeen.

• Sprekergegevens: 127 sprekers:

– Man: 60 sprekers.

– Vrouw: 67 sprekers.

– Leeftijd -20: 30 sprekers.

– Leeftijd 20-60: 45 sprekers.

– Leeftijd 60+: 52 sprekers.

• Opnamedatum: ? (transcriptiedatum (1994) in *.hdr-files)

• Opnameduur: meer dan 19 uur.

– 4,66 uur monoloog.

– 10,35 uur plaatjesbeschrijvingen.

– 4,19 uur voorgelezen tekst.

• Annotatieschema:

55

Page 56: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

– gehanteerde standaard: ?

– geclitiseerde en andere niet-standaard vormen: ja, clitica en gereduceerde vormen, volgens mee-geleverde transliteratielijst (speechstyles.txt).

– sprekerwisseling, behandeling overlap: overlap tussen hekjes #.

– behandeling bij- en achtergrondgeluiden: aangegeven door algemeen label ’[noise]’.

– gehanteerde interpunctie: geen. Interpunctie wordt gebruikt voor de prosodie: punten voor pau-zes, uitroeptekens voor emfatische klemtoon (contrastief accent), komma voor intonatieve schei-ding, dubbele punt voor verlenging.

• Annotatieniveaus: orthografisch (alles onderkast, behalve eigennamen met hoofdletter). Versprekingentussen asterisks, weggelaten woorden tussen ronde haakjes (), gecorrigeerde woorden tussen vissenhaak-jes<>, interrupties door de interviewer tussen accolades {}, onduidelijke woorden tussen dubbele rondehaakjes (()), paralinguıstische kenmerken tussen rechte haakjes []. Fonetische transcriptie inclusief pro-sodische codes.

• Status privacy informanten: geanonimiseerd (id-nummers 001, 002 etc., die elk corresponderen meteen directory tree van die naam).

• Copyright: SPEX (?)

• Beschikbaarheid opnames: ja, bij SPEX (?).

– geluidsdrager: CD-ROM.

– opnametechniek: sampling rate 16 kHz, 16 bits A/D-conversie.

– signaal-ruisverhouding: gunstig (studiokwaliteit).

– elektronische versie: ja, audiofiles in NIST format (*.wav files) en esps format (*.sd files). Bijbe-horende orthografische transcriptie in *.tra files. Bijbehorende fonetische transcriptie in *.phonofiles. In de root directory van de CD bevindt zich ook een lexicon met de fonetische transcriptievan alle woorden in het corpus. Er is ook een apart lexicon met alle gereduceerde vormen enclitica. Dit kan van belang zijn voor het CGN-project.

– relatie signaal-transcriptie (volledigheid-koppeling): op uitingenniveau (uiting is gedefinieerd alseen semantische eenheid tussen twee pauzes, die minstens een subject en een werkwoord bevat).

56

Page 57: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Voorbeelden:

Orthografische transcriptie monoloog spreker 001:

[000000000]ik woon in Ouderkerk aan de Amstel[000037808]dat is een dorpje . onder Amsterdam[000110768]zo dicht [uh] bij Amsterdam en dan een echt dorp[000167424]ut is dus niet zoals Amstelvee:n of als Amsterdam Zuid de Bijlmer . maar een echt ouderwets dorpmet een dorpspleintje met . heel veel kerken . eromheen[000349360]Ouderkerk dat zegt ut dus al 〈kerk〉 kerken . [loud breath] is een: . beetje rare gemeente ut is eenhele oude gemeente

Bijbehorende fonetische transcriptie monoloog spreker 001:

[000000000]”Ik ”wo:n ”In ”Au-d@r-%kEr-@k a:n ”d@ ”Am-st@l[000037808]”dAt ”Is e:n ”dOr-@p-j@ . ”On-d@r Am-st@r-”dAm[000110768]”zo: ”dIxt [uh] ”bEi Am-st@r-”dAm ”En ”dAn e:n ”Ext ”dOr-@p[000167424]IJt ”Is ”dYs ”nit zo:-”Als Am-st@l-”ve:n ”Of ”Als Am-st@r-”dAm ”z9yt ”d@ ”bEil-m@r . ”ma:re:n”Ext Au-d@r-”wEts ”dOr-@p ”mEt e:n ”dOr-@ps-plEin-tj@ ”mEt . ”he:l ”fe:l ”kEr-k@ . @-rOm-”he:n[000349360]”Au-d@r-%kEr-@k ”dAt ”zExt IJt ”dYs ”Al 〈”kEr-@k〉 ”kEr-k@ . [loud breath] ”Is e:n . ”be:-tj@”ra:-r@ x@-”me:n-t@ IJt ”Is e:n ”he:-l@ ”Au-d@ x@-”me:n-t@

4.4.6 Het OVIS Corpus

Dit corpus is ook bekend onder de naam VIOS. Er zijn verschillende versies in omloop van verschillendegrootte ten behoeve van verschillende soorten onderzoek en bewerking. Het betreft hier bandopnames vanhet openbaar vervoer-reisinformatiesysteem van de NS. De opnames zijn gemaakt door de KPN t.b.v. hetuittesten van dit mens-machine dialoogsysteem. De (summiere) gegevens hieronder komen uit persoonlijkecommunicatie met Mieke Rats, wetenschappelijk consulent bij de firma Compuleer, die momenteel bewerkingvan het corpus onderzoekt.

Gegevens:

• Omvang: 20.000 dialogen.

– types: niet bekend.

– tokens: niet bekend.

• Samenstelling (teksttypes): machine-gestuurde mens-machine dialoog. Daarnaast ook mens-mens dia-logen (kennelijk als back-up voor het automatische systeem).

57

Page 58: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

• Sprekergegevens: ?

• Opnamedatum: ?

• Opnameduur: ?

• Annotatieschema:

– gehanteerde standaard: ?

– geclitiseerde en andere niet-standaard vormen: wil men opnemen.

– sprekerwisseling, behandeling overlap: ?

– behandeling bij- en achtergrondgeluiden: ?

– gehanteerde interpunctie: ?

• Annotatieniveaus: men wil naast orthografie ook syntactische en pragmatische coderingen aanbrengen,zodat ook specifieke taalfenomenen kunnen worden geselecteerd als syntactische structuren, ellipsis,versprekingen, en specifieke dialoogsituaties zoals bijvoorbeeld correctiestrategieen.

• Status privacy informanten: ?

• Copyright: KPN/OVR/NS (?)

• Beschikbaarheid opnames: mogelijk problematisch vanwege copyright en privacyoverwegingen.

– geluidsdrager: ?

– opnametechniek: ?

– signaal-ruisverhouding: ?

– elektronische versie: ?

– relatie signaal-transcriptie (volledigheid-koppeling): ?

4.4.7 Corpora van het Meertensinstituut

Aan het Meertensinstituut van de KNAW in Amsterdam wordt momenteel gewerkt aan een omvangrijkdialectcorpus van het Modern Gesproken Nederlands. Het uiteindelijk streven is 400 Noord-Nederlandse(incl. de Friese taal) en 200 Zuid-Nederlandse dialecten vast te leggen in 2000 voorgedefinieerde items, zowelwoorden in isolatie als zinnetjes.

58

Page 59: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

5 Evaluatie

Uit de voorafgaande inventarisatie van bestaande spraakcorpora en pogingen tot het definieren van stan-daards voor het verzamelen, bewerken en openbaar maken van dergelijke corpora vallen een aantal aanbe-velingen en aandachtspunten af te leiden.

Het gaat hierbij om eisen die aan de corpusinhoud, het corpusformaat en de corpusannotatie kunnenworden gesteld. De meeste hiervan zijn taalkundig van aard, of worden gestuurd door taalkundige behoeften:

• Corpusinhoud:

– omvang.

– representativiteit (sterke eis)/spreiding (zwakke eis).

– stratificatie.

– steekproefmethode.

• Corpusformaat:

– opnametechniek.

– medium/drager.

– opslag en conservering.

– organisatie fragmenten (filestructuur, database, etc.).

• Corpusannotatie:

– orthografische transcriptie.

– tekstuele structuur: SGML, XML, etc.

– grammaticale en fonetische annotatieniveaus.

– koppeling spraaksignaal aan transcriptie en annotatie.

Een aantal aandachtspunten:

1. Maak geen gebruik van clandestiene opnames in verband met juridische (en ook ethische) bezwaren.Vraag altijd vooraf schriftelijk toestemming, alleen indien dit onmogelijk is achteraf. Regel ook voorafalle auteursrechtelijke kwesties rond het beschikbaarstellen van de gesproken data voor wetenschap-pelijk en commercieel gebruik. Ook openbare opnames, b.v van radio of TV, kunnen problematischzijn in verband met het verkrijgen van persoonlijke gegevens (leeftijd, opleidingsniveau, etc.) van desprekers, en de mogelijk hierbij door hen gevoelde inbreuk op hun privacy.

2. De opnametechniek moet gegeven de omstandigheden zo goed mogelijk zijn, omdat alle andere trans-criptie- en annotatieniveaus hiervan afhangen.

3. De transcriptie moet orthografisch zo nauwkeurig mogelijk zijn, omdat anders de annotatie (b.v. metgrammaticale tags) problematisch wordt. Daarom zijn er eigenlijk twee orthografische niveaus nodig:een transliteratie die nauw aansluit bij het gesprokene, dus met fonetische en prosodische annota-ties, paralinguıstische verschijnselen en context-notities, die we kunnen betitelen als ’narrow’, en eenstandaard orthografische transcriptie en interpunctie, die tagging vergemakkelijkt en zo vergelijkendlexicologisch en grammaticaal onderzoek mogelijk maakt. Deze kunnen we kenschetsen als ’broad’(Edwards, 1995: 20).

4. Extra-linguıstische gegevens (demografische en persoonlijke data, situationele context, mogelijk com-municatieve niet-vocale fenomenen) moeten zoveel mogelijk ter plekke worden genoteerd en later op-genomen in of bij het transcript, omdat deze essentieel kunnen zijn voor het begrip van de tekst enlater veelal niet meer te achterhalen zijn.

59

Page 60: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

5. Indien gebruik wordt gemaakt van een fonemische transcriptie (met eventueel prosodische informatie)dan dient aansluiting bij Unicode of anders SAMPA te worden overwogen.

6. Wanneer het signaal wordt meegeleverd in gedigitaliseerde vorm, inclusief oscillo- en spectrogrammen,dan beınvloedt dat de fonologische, fonemische, fonetische en akoestische niveaus van transcriptie. Hetis discutabel dat dergelijke meer aan interpretatie onderhevige en slecht in absolute grootheden tekarakteriseren informatie zeer gedetailleerd met de hand moet worden vastgelegd (gesteld dat het albinnen redelijke tijd kan worden vastgelegd), als het snel op te zoeken is in (de combinatie van) hetspraaksignaal en de transcriptie (b.v. Chafe et al., 1991: 72-73).

7. Er moet zorg voor worden gedragen, dat de corpora herbruikbaar zijn voor verschillende doeleinden.

8. Herbruikbaarheid impliceert:

(a) Duidelijke uitgangspunten.

(b) Aansluiting bij (inter)nationale standaards of minstens bij eerdere succesvolle projecten (’bestpractice’).

(c) Een van tevoren vastgesteld transcriptie- en annotatieprotocol. Codes mogen niet ambigu zijn,d.w.z. duidelijk afgebakend zijn ten opzichte van elkaar. Te veel detaillering werkt in die zincontraproductief.

(d) Interactieve en post hoc validatiemethodes voor de kwaliteit en consistentie van transcriptie enannotatie.

(e) Platform- en applicatie-onafhankelijkheid. Wanneer ook zeer gebruikersvriendelijke codeerstrate-gieen gebonden zijn aan platform-specifieke software, zoals syncWRITER voor de Apple Macin-tosh, dan lijdt dat onherroepelijk tot problemen.

(f) Beschikbaarheid van het signaal en alle codeerniveaus.

(g) Uitbreidbaarheid voor locale applicaties (b.v. verrijking met discourse tags voor een promotieon-derzoek).

9. Los van mate waarin het transcriptie- en annotatieprotocol vastligt, en kan worden gevalideerd tijdensen na het codeerproces, geldt dat codes werkbaar moeten zijn voor de codeurs. Er moeten discretesets mnemonische codes worden gedefinieerd, waarbij software zorg kan dragen voor interactieve on-dersteuning en conversie naar meer abstracte codes, indien gewenst. Uiteraard komt een dergelijkeformulering ook de efficiency en de consistentie van het coderen ten goede. Gedetailleerde, vaak alsomslachtig ervaren standaards zoals de TEI-extensies van SGML en XML moeten beoordeeld wordenop hun toepasbaarheid op grote gesproken corpora (Sinclair, 1995: 106-109). Lijsten met toegestanegereduceerde, geclitiseerde vormen, interjecties, dialectwoorden, fonologisch functionele eenheden enandere conventies moeten worden opgesteld ter (mogelijk softwarematige) ondersteuning van de co-deur en, in een later stadium, de eindgebruikers.

10. Het gebruik van op hypertext en hypermedia gebaseerde middleware, die de orthografische transcriptieaan de lineaire tijdsdimensie van het spraaksignaal kan koppelen in samenhang met andere afgeleidegegevens, zoals annotaties, databases, header-files, enz. moet worden overwogen, zowel voor annotatie-als exploratie-doeleinden (resp. codeurs en eindgebruikers). Indexering van veel opgevraagde tiers isgeboden voor snelle retrieval.

11. Additieve annotatie (waarbij tags in de tekstsequentie zijn opgenomen) moet op deze en andere (com-putationele) gronden worden afgewogen tegen referentiele annotatie, waarbij bidirectionele pointers viabyte offsets tekstdelen associeren met bepaalde markeringen. De laatste methode geniet de voorkeur,mits het doorzoeken en laden van de relaties niet te veel tijd kost.

12. Uitgebreide annotatieniveaus moeten per niveau weg te filteren zijn uit de transcripten d.m.v. degebruikersinterface en uit af te drukken versies, omdat anders de tekst onleesbaar wordt.

13. De gebruikersinterface moet een grafisch en intuıtief benaderbaar karakter hebben.

60

Page 61: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

14. Er moet in weergave van transcriptie en annotatie een balans gevonden worden tussen leesbaarheid enpresenteerbaarheid enerzijds en efficiente en betrouwbare quantitatieve exploitatie anderzijds.

6 Gidsprojecten voor de Toekomst

In dit hoofdstuk worden een aantal recente of nog lopende initiatieven en projecten vernoemd, die mogen gel-den als wegbereiders voor de geheel gedigitaliseerde aanleg, annotatie en ontsluiting van met name gesprokencorpora. Zij kunnen gezien worden als voorbeelden voor waar CGN naar streeft.

Een bijzonder interessant overzicht van allerhande tools en formaten die op dit gebied voorhanden zijnis te vinden op de Webpage Linguistic Annotation van Steven Bird en Mark Liberman:

http://morph.ldc.upenn.edu/annotation/

6.1 Het GATE Project

Het GATE-project (General Architecture for Text Engineering), opgezet bij de vakgroep Computer Scienceaan de Universiteit van Sheffield, beoogt de bouw van een theorie-neutrale, platform- en applicatie-onafhan-kelijke grafische ontwikkelomgeving voor NLP-tools en tekstbestanden. Het is vooral ondernomen om be-staande NLP-modules op een efficiente manier te hergebruiken en te koppelen (Cunningham et al., 1997).Het systeem bestaat uit een databank, inclusief een managementsysteem, waarin documenten en hun diversebewerkingsslagen kunnen worden opgeslagen (GDM - GATE Document Manager) met SGML als opslag-formaat (input/output), en daarnaast de GATE Graphical Interface (GGI), waarin de documenten kunnenworden bewerkt. Via dit interface kan men de data op een grafische manier beheren, benaderen, bekij-ken, bewerken en opslaan. Bewerkingsprocessen kunnen worden opgebouwd door verschillende bestandenen tools samen te brengen in een data flow diagram, en te activeren met muiskliks. Het GGI ondersteuntook visualisatie van de output, zoals highlighted matches in een tekst, of boomdiagrammen als output vanparsering.

Tenslotte omvat GATE een aantal modules, die een interface vormen tussen GGI en eigen bestandenen programma’s van de end-user die vrijelijk kunnen worden ingeplugd in GATE (parsers, taggers, teksten,lexica, etc.). Deze gaan onder de naam CREOLE (Collection of REusable Objects for Language Engi-neering). Zij vormen a.h.w. een laag om de tools heen, waardoor geabstraheerd kan worden van concreteopslagformaten, programmeertalen en besturingssystemen (Cunningham et al., 1996). De tekstannotatiesworden referentieel i.p.v. additief aan de documenten toegevoegd d.m.v. pointers tussen de byte offsets vande tekstdelen en de in de GDM-database opgeslagen codes, dus het is wel zaak, dat applicaties dit type vanverwijzingen ondersteunen.

GATE is geschreven in C++ en Tcl/Tk en draait op UNIX en Windows NT. Een geheel herziene Java-versie is in de maak.

Het systeem, evenals beschikbare CREOLE-objecten, is het stadium van prototyping reeds lang gepas-seerd en kan worden ingezet in concrete NLP-taken. Het kan na registratie gratis worden opgehaald inSheffield via ftp.

Zie:

http://www.dcs.shef.ac.uk/research/groups/nlp/gate/

6.2 Het EUDICO Project

EUDICO (EUropean DIstributed COrpora project) is een initiatief van het Max Planck Instituut in Nijme-gen, voortvloeiend uit eerdere ervaringen met de ontwikkeling van een MediaTagger (videotranscriptie en-analyse) en MediaEditor (audiotranscriptie en -analyse). Het wordt uitgevoerd op het MPI, met financieringvan SURFnet.

Hoewel het niet gebaseerd is op GATE, deelt het wel diens uitgangspunten, in de zin van een formaat-onafhankelijk, grafisch API (application programming interface), waarbinnen een groot aantal, vaak reeds

61

Page 62: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

bestaande tools en corpora kunnen worden ’ingeplugd’ door middel van abstractie van de diverse inputfor-maten. Het project voegt hier twee nieuwe elementen aan toe:

toegang tot tijdgebaseerde media Aangezien GATE is gebaseerd op tekstuele bronnen, worden linksgeeffectueerd op het woordniveau. Aangezien in toenemende mate audio- en videodata de eigenlijkebronbestanden gaan vormen, is het nodig snelle toegang te krijgen tot fragmenten en features gebaseerdop de tijdcodes in het signaal. Alle annotaties moeten dus gesynchroniseerd worden met de byte offsetsvan het digitale signaal, niet met de afgeleide transcriptie(s).

gedistribueerde toegang Immers, bij talloze internationale ontwikkelprojecten – maar ook bij end-usertoegang tot steeds in omvang toenemende multimediale databases – wordt het steeds wenselijker datdeelnemers binnen een virtuele Internet-omgeving samen kunnen werken, ongehinderd door gescheidenlocaties en verschillende computerinfrastructuur.

Binnen dit model is ook de mogelijkheid van toegang tot klassen van corpora via meta-informatie explicietgemaakt. De gebruiker kan zo een zoekaktie beperken tot een bepaalde taal, tijd, genre of type spreker,waarna de server de bewuste corpora of relevante delen daarvan naar de gebruiker downloadt.

Vanwege het doel van uniforme Internet-toegang is gekozen voor Java als implementatietaal.

Zie verder de URLs:

http://www.mpi.nl/world/tg/lapp/lapp.htmlhttp://www.mpi.nl/world/tg/lapp/eudico/eudico.html

6.3 De Edinburgh Language Technology Group

De Edinburgh Language Technology Group houdt zich o.a. bezig met het ontwikkelen van applicaties voorhet annoteren en ontsluiten van grote taalcorpora. Zij concentreren zich hierbij, zowel op het theoretische alsop het praktische vlak, op het ontwikkelen van standaards en tools gebaseerd op SGML en XML. Zij hebbenin die hoedanigheid bijgedragen aan het W3C en het ISO-overleg over de uitwerking van deze standaards.

De LT XML-toolset omvat een XML-editor, een parser (voor validatie van documenten), een viewervoor zowel de sequentiele als de hierarchische tekststructuur, een tokenizer en een document-zoektaal. Hetis geschreven in C, en draait op UNIX, Windows95 en Windows NT. Daarnaast produceert de groep ookmeer specifiek op linguıstisch onderzoek gerichte taggers, parsers, software voor het schrijven van formelegrammatica’s en boomdiagrameditors en -viewers.

De programma’s zijn gratis down te loaden voor academisch gebruik na het ondertekenen van een gebrui-kersovereenkomst. De toolset wordt momenteel gebruikt door ongeveer 1500 academische en commercieleinstellingen in de wereld.

Zie:

http://www.ltg.ed.ac.uk/software/index.html

6.4 Het Paper A Formal Framework for Linguistic Annotation

In hun paper A Formal Framework for Linguistic Annotation (Bird & Liberman, 1999) presenteren Ste-ven Bird en Mark Liberman van het Linguistic Data Consortium een logisch raamwerk voor linguıstischeannotatie in de vorm van een annotation graph, waarbinnen allerlei bestaande corpusfileformaten en anno-tatietypen (ook transcripties) te representeren zouden zijn. Zij richten zich hierbij vooral op tijdgebaseerdebronbestanden zoals audio, video en fysiologische opnames (b.v. 3D-gebarenopnames). Het sluit hiermeeduidelijk aan bij het werk van het MPI zoals vervat in EUDICO.

62

Page 63: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Zij poneren de stelling:

The one thing that ties all of the time series data together is a shared time base. To use thesearbitrarily diverse data streams [nl. soorten annotatie en transcriptie], we need to be able to linethem up time-wise. The shared time base is also the only pervasive and systematic connectionsuch data is likely to have with annotations of the type we are discussing in this paper. (1999: 26)

Zie voor verschillende formaten van het document:

http://xxx.lanl.gov/abs/cs.CL/9903003

Er is inmiddels een voorstel ingediend bij de NSF (National Science Foundation) om dit idee en een bijbe-horende toolbox verder uit te breiden. Daarmee zou het, ook gezien de leidende rol van het LDC, wel eenseen heel invloedrijk project kunnen worden.

6.5 Het Zweedse Gesproken Corpus Project

Dit project wordt geleid door Jens Allwood aan de Universiteit van Goteborg. Wat dit corpus bijzondermaakt is niet zozeer zijn grootte (1,2 miljoen tokens), als wel de gedegen opzet. Zo is er een opdeling naar di-verse activiteiten, om zo systematische verschillen in uitspraak, vocabulaire en syntax op het spoor te komen.Verder zijn gedetailleerde protocols voorhanden voor orthografische transcriptie (inclusief de behandeling vanuitspraakvariatie op vier niveaus: standaard-orthografie, modified standard, fonematisch, fonetisch), marke-ring van sprekerwisseling en -overlap, niet-verbale klanken, enz. Deze zijn on-line opvraagbaar, voor een deelin het Engels. Daarnaast wordt er gewerkt aan een toolset, waaronder transcriptiesoftware (TransTool, ge-schreven in Tcl/Tk, downloadable) en pakketten voor tijdsynchrone codering en presentatie van multimediaen transcripties.

Zie:

http://www.ling.gu.se/SLSA/SLcorpus.html

6.6 Het Hyperlex Project

Steven Bird heeft baanbrekend werk verricht op het gebied van presentatie van doorzoekbare lexica in HTML-formulier-formaat. Hierin kunnen restricties worden gespecificeerd op orthografie, fonologie, morfologie etc.in de vorm van extended reguliere expressies (ondersteund door een Perl cgi-bin script). Ook kan hetgesproken signaal worden afgespeeld (weliswaar slechts via hyperlinks naar individuele audiofiles). Zie Bird(1997).

Zie:

http://www.ldc.upenn.edu/hyperlex/

7 Referenties

Atkins, B.T.S., J. Clear & N. Ostler (1992). Corpus Design Criteria. In: Literary and Linguistic Computing,Journal of the Association for Literary and Linguistic Computing 7, 1: 1-16.

Bird, S. (1997). A Lexical Database Tool for Quantitative Phonological Research. In: Proceedings of the ThirdMeeting of the ACL Special Interest Group in Computational Phonology. July 1997: 33-39.

Bird, S. & M. Liberman (1999). A Formal Framework for Linguistic Annotation. Technical Report MS-CIS-99-01. Department of Computer and Information Science, Linguistic Data Consortium, University of Pennsyl-vania.

Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken Nederlands. Utrecht: Oosthoek,Scheltema & Holkema.

63

Page 64: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Bouma, G. & I. Schuurman (1998). De Positie van het Nederlands in Taal- en Spraaktechnolgie. Rapport inopdracht van de Nederlandse Taalunie.

Burnard, L. (ed.) (1995). Users Reference Guide for the British National Corpus. Oxford: Oxford UniversityComputing Services.

Chafe, W.L., J.W. Du Bois & S.A. Thompson (1991). Towards a New Corpus of Spoken American English.In: K. Aijmer & B. Altenberg (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik.London/New York: Longman, 64-82.

Crowdy, S. (1995). The BNC Spoken Corpus. In: Leech et al., 224-234.Cunningham, H., Y. Wilks & R.J. Gaizauskas (1996). New Methods, Current Trends and Software Infrastructure

for NLP. In: Proceedings of the 2nd Conference on New Methods in Natural Language Processing (NeMLaP-2), Bilkent University.

Cunningham, H., K. Humphreys, Y. Wilks & R. Gaizauskas (1997). Software Infrastructure for Natural Lan-guage Processing. In. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP-97).

De Vriendt-De Man, M.J. (1969). Frequentie van Woorden en Structuren in Spontaan Gesproken Nederlands.Brussel: Didier.

Edwards, J.A. (1992). Computer Methods in Child Language Research: Four Principles for the Use of ArchivedData.Journal of Child Language 19, 435-458.

Edwards, J.A. (1995). Principles and Alternative Systems in the Transcription, Coding and Mark-up of SpokenDiscourse. In: Leech et al., 19-34.

Feldweg, H. (1992). The European Science Foundation Second Language Databank. Ongepubliceerd document,MPI Nijmegen.

Gibbon, D., R. Moore & R. Winski (eds.) (1997). Handbook of Standards and Resources for Spoken LanguageSystems. Berlin/New York: Mouton de Gruyter.

Goldfarb, C.F. & P. Prescod (1998). The XML Handbook. Upper Saddle River, NJ: Prentice Hall PTR.Hart, J. ’t, R. Collier & A. Cohen (1990). A Perceptual Study of Intonation. Cambridge: Cambridge University

Press.Greenbaum, S. (1991). The Development of the International Corpus of English. In: K. Aijmer & B. Altenberg

(eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. London/New York: Longman.Heikens, H. (1978). Een Sociolinguıstisch Opgebouwd Corpus Amsterdamse Spreektaal. In: Taal en Tongval

30, 36-49.Jong, E.D. de (1979). Spreektaal: Woordfrequenties in Gesproken Nederlands. Utrecht: Bohn, Scheltema &

Holkema.Knowles, G., B. Williams & L. Taylor (eds.) (1996). A Corpus of Formal British English Speech: the Lancas-

ter/IBM Spoken English Corpus. London/New York: Longman.Kohler, K., M. Patzold & A. Simpson (1995). From Scenario to Segment: The Controlled Elicitation, Transcrip-

tion, Segmentation and Labelling of Spontaneous Speech. Arbeitsberichte (AIPUK) 29, Institut fur Phonetikund Digitale Sprachverarbeitung, IPDS, Universitat Kiel, Duitsland.

Leech, G. (ed.) (1990). Proceedings of a Workshop on Corpus Resources. Wadham College, Oxford: DTI/Speechand Language Technology Club.

Leech, G., G. Myers & J. Thomas (eds.) (1995). Spoken English on Computer: Transcription, Mark-up andApplication. Harlow/New York: Longman.

Linssen-Maes, A. & G. Redeker (1992). Interruptiegedrag van Vrouwen en Mannen in Radio- en Televisiedis-cussies. In: Gramma/TTT - Tijdschrift voor Taalwetenschap 1, 133-148.

MacWhinney, B. (1995). The CHILDES Project: Tools for Analyzing Talk. Hillsdale(USA)/Hove(UK): LawrenceErlbaum Associates.

Redeker, G. (1992). ’Kleine woordjes’ in spontaan taalgebruik - stoplapjes of signalen voor de lezer/luisteraar?In: Toegepaste Taalwetenschap in Artikelen, 43, 55-65.

Redeker, G. & A. Maes (1996). Gender Differences in Interruptions. In: D. Slobin et al. (eds.) Social Interac-tion, Social Context and Language, 597-612.

Roach, P. & S. Arnfield (1995). Linking Prosodic Transcription to the Time Dimension. In: Leech et al., 1995:149-160.

64

Page 65: Nederlandse Gesproken Corpora: een Inventarisatielands.let.ru.nl/cgn/publs/1999_01.pdf · 2.1 Corpora van de Eerste Generatie (-1980) In deze periode werd het gesproken signaal opgenomen

Roach, P., G. Knowles, T. Varadi & S. Arnfield (1993). MARSEC: A Machine-Readable Spoken English CorpusIn: Journal of the International Phonetic Association 23(2): 47-53.

Schaerlaekens, A.M. (1973). The Two-Word Sentence in Child Language Development: a Study Based on Evi-dence Provided by Dutch-speaking Triplets. The Hague/Paris: Mouton.

Silverman, K., M. Beckman, J. Pitrelli, M. Ostendorf, C. Wightman, P. Price, J. Pierrehumbert & J. Hirshberg(1993). TOBI: A standard for labeling English prosody. In: Proc. Intern. Conf. on Spoken LanguageProcessing, Banff, Alberta, Canada, 12-16 October 1993, 867-870.

Sinclair, J. (1995). From Theory to Practice. In: Leech et al., 99-109.Sperberg-McQueen, C.M. & L. Burnard (1994). Guidelines for Electronic Text Encoding and Interchange (TEI

P3). Vols. I+II. Chicago/Oxford: Text Encoding Initiative.Spraak- en Taaltechnologie voor het Nederlands (1993). Nota Vlaamse regering.Van de Velde, H. (1996). Variatie en Verandering in het Gesproken Standaard Nederlands (1935-1993). Proef-

schrift Katholieke Universiteit Nijmegen.

65