Invloed van prosodie op de spraakverstaanbaarheid...LOGOPEDIE EN AUDIOLOGIE Ondergetekenden Celine...

50
Faculteit Geneeskunde en Gezondheidswetenschappen Academiejaar 2010- 2011 Invloed van prosodie op de spraakverstaanbaarheid Celine Bernaerdt en Sibelijn Glabeke Promotor: Prof. Dr. P. Corthals Scriptie voorgedragen tot het behalen van de graad van „Master in de Logopedische en Audiologische Wetenschappen, afstudeerrichting Audiologie‟.

Transcript of Invloed van prosodie op de spraakverstaanbaarheid...LOGOPEDIE EN AUDIOLOGIE Ondergetekenden Celine...

  • Faculteit Geneeskunde en Gezondheidswetenschappen

    Academiejaar 2010- 2011

    Invloed van prosodie op de spraakverstaanbaarheid

    Celine Bernaerdt en Sibelijn Glabeke

    Promotor: Prof. Dr. P. Corthals

    Scriptie voorgedragen tot het behalen van de graad van „Master in de Logopedische en Audiologische

    Wetenschappen, afstudeerrichting Audiologie‟.

  • Faculteit Geneeskunde en Gezondheidswetenschappen

    Academiejaar 2010- 2011

    Invloed van prosodie op de spraakverstaanbaarheid

    Celine Bernaerdt en Sibelijn Glabeke

    Promotor: Prof. Dr. P. Corthals

    Scriptie voorgedragen tot het behalen van de graad van „Master in de Logopedische en Audiologische

    Wetenschappen, afstudeerrichting Audiologie‟.

  • VERKLARING PUBLICATIE EN VERMOGENSRECHTEN MASTERPROEF

    LOGOPEDIE EN AUDIOLOGIE

    Ondergetekenden Celine Bernaerdt en Sibelijn Glabeke,

    geboortedatum: respectievelijk 19/06/1989 en 08/12/1989,

    stamnummer: respectievelijk 00702275 en 00703611

    studentes aan de opleiding logopedie en audiologie van de Universiteit Gent

    verklaren hierbij:

    Alle rechten m.b.t. publicatie en verspreiding van onderzoeksresultaten verzameld in het

    kader van deze masterproef

    en

    alle vermogensrechten op de onderzoeksresultaten verzameld in het kader van deze

    masterproef over te dragen aan de Universiteit Gent vertegenwoordigd door zijn/haar

    promotor.

    Datum: vrijdag 17 juni 2011

    Handtekening:

  • Dankwoord

    Graag willen we een aantal mensen bedanken voor hun hulp en steun bij het tot stand komen

    van deze thesis.

    Eerst en vooral willen we onze promotor Prof. Dr. P. Corthals bedanken voor de begeleiding,

    de raad en de opmerkingen bij het schrijven van deze scriptie.

    Lic. Hofman Annelies (hoofdmedewerkster van de vakgroep elektronica en

    informatiesystemen) willen we graag bedanken voor haar uitstekende hulp bij onze zoektocht

    naar de nodige literatuur.

    Daarnaast willen we ook onze familie bedanken omdat ze ons de kans gegeven hebben deze

    studies te voltooien en ons daarin zijn blijven steunen. Dank je wel aan iedereen die onze

    thesis heeft nagelezen en zo heeft geholpen bij de correctie ervan.

    Nog vele anderen verdienen onze dank- voornamelijk onze vrienden en alle deelnemers van

    ons onderzoek- voor hun interesse, hulp en suggesties.

  • Inhoudsopgave

    Abstract ...................................................................................................................................... 1

    Inleiding ..................................................................................................................................... 2

    Methode ...................................................................................................................................... 8

    Proefpersonen ......................................................................................................................... 8

    Testmateriaal .......................................................................................................................... 8

    Proefopzet ............................................................................................................................. 11

    Score ..................................................................................................................................... 12

    Resultaten ................................................................................................................................. 12

    Transcriptiescores ................................................................................................................. 13

    Beoordelingsscores ............................................................................................................... 17

    Discussie ................................................................................................................................... 20

    Transcriptiescores ................................................................................................................. 20

    Beoordelingsscores ............................................................................................................... 24

    Conclusie .................................................................................................................................. 25

    Referenties ................................................................................................................................ 26

    Appendices ............................................................................................................................... 28

    Appendix 1: overzicht van alle permutaties per versie. ........................................................ 28

    Appendix 2: voorbeeld antwoordformulier. ......................................................................... 30

    Appendix 3: manipulaties in Praat (Boersma, Paul & Weenink, David (versie 5.1.44) ) .... 34

    Appendix 4: powerpointpresentatie luistertest. .................................................................... 38

    Appendix 5: aantal fonemen van het finale (ontbrekende) woord. ...................................... 43

    Appendix 6: voorkomen van de manipulaties per signaal- ruisverhouding. ........................ 44

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    1

    Abstract

    Met dit onderzoek wordt nagegaan of en in hoeverre het spraakverstaan verandert wanneer a) het

    intonatiepatroon verwijderd wordt, b) de natuurlijke variatie in luidheid afgevlakt wordt, c) de duur

    van de lettergrepen gelijkgesteld wordt of een combinatie van deze ingrepen uitgevoerd wordt. Dit

    effect wordt zowel in normale (zonder toegevoegde ruis) als in moeilijke luisteromstandigheden (SNR

    + 5 dB, SNR + 15 dB) onderzocht. Bovendien werd hierbij een subjectieve beoordelingsscore

    (vijfpuntenschaal) van de proefpersonen geregistreerd. De eigenlijke test ging van start met een

    gehoorscreening, dit om niet- normaalhorende personen te elimineren uit de dataset. Daarop volgde

    een luistertest waarbij prosodisch gemanipuleerde zinnen aangeboden werden, al dan niet in ruis. De

    proefpersonen kregen de opdracht het ontbrekende finale woord in te vullen en vervolgens aan te

    geven hoe zeker ze waren van hun antwoord. Uit statistische analyse bleek dat prosodische

    manipulaties geen effect teweeg brengen in stilte. In ruis daarentegen, worden temporele variatie en

    intonatie steeds belangrijker, wat zich vertaalt in significante verschillen tussen het originele

    spraakstaal en de gemanipuleerde zinnen in dezelfde signaal- ruisverhouding. De beoordelingsscores

    volgen dezelfde trend. Hieruit kan besloten worden dat prosodische kenmerken in een stille omgeving

    van belang zijn voor de expressie en de natuurlijkheid van de spraak, in ruis daarentegen zijn het

    relevante linguïstische cues voor het spraakverstaan.

    The purpose of this research is to investigate whether and to what extent the intelligibility of speech

    alters when a) the intonation pattern is removed, b) the natural variation in loudness is flattened, c) the

    duration of the syllables is equated, or a combination of these interventions is carried out. The effect of

    the above mentioned manipulations was examined in both normal (no added noise) as in difficult

    listening conditions (SNR + 5 dB, SNR + 15 dB). Moreover, a subjective assessment score (five points

    scale) from the test persons was registered. The actual test started with a hearing screening, this to

    eliminate the non- normal hearing persons from the database. This was followed by a listening test in

    which phrases were offered with an altered prosody, whether or not in noise. The subjects were

    instructed to fill out the missing final word and to indicate how sure they were of their answer.

    Statistical analysis showed that these prosodic manipulations have no effect in silence. Contrarily, in

    noise, the natural temporal variation and intonation become more important which translates into

    significant differences between the original speech and the manipulated sentences in the same SNR.

    The assessment scores follow the same trend. It may be decided that in silence these prosodic

    characteristics are important for the expression and the naturalness of speech, in noise on the other

    hand they are relevant linguistic cues for speech understanding.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    2

    Inleiding

    Spraakverstaanbaarheid kan gedefinieerd worden als datgene van de geproduceerde

    spraak dat door de luisteraar wordt verstaan (Yorkston, 1996). Het is een product van een

    serie interactieve processen zoals articulatie, fonatie, resonantie en prosodie (De Bodt,

    Hernández- Díaz Huici & Van De Heyning, 2002).

    Prosodie is de verzamelterm voor suprasegmentele kenmerken die de natuurlijke

    spraak begeleiden. Het akoestisch correlaat van prosodie is een combinatie van de

    fundamentele frequentie (toonhoogte) van de stemhebbende fragmenten in de uiting, de

    akoestische energie of amplitude (volume/luidheid) en de duur van de opeenvolgende

    lettergrepen (in bijzonder de lengte van de klinkerkern). Deze prosodische kenmerken komen

    samen voor en vormen tot op zekere hoogte een redundant systeem. Dit impliceert dat de

    afwezigheid van elk prosodisch kenmerk gedeeltelijk kan gecompenseerd worden door de

    aanwezigheid van de andere kenmerken (Hoyte, Brownell & Wingfield, 2010). Met andere

    woorden: het verlies of het verwijderen van één kenmerk resulteert niet noodzakelijk in een

    verwaarloosbare bijdrage van de prosodie in de verstaanbaarheid (Wingfield, Lombardi &

    Sokol, 1984).

    Ter illustratie van de onderlinge verwevenheid van de elementen van prosodie het volgende

    voorbeeld: een stemsterkteverheffing met het oog op een beklemtoonde lettergeep wordt

    gerealiseerd via een grotere subglottale druk, hetgeen meer mediale compressie van de

    stembanden vergt. Dit stembandmaneuver verhoogt de rigiditeit en daardoor de

    eigenfrequentie van de stembanden, wat aanleiding geeft tot een hogere toonhoogte.

    Hoyte et al. (2010) onderzochten de redundantie van de prosodiecomponenten op

    zinsniveau.

    In een eerste experiment verwijderden ze één akoestisch kenmerk en lieten de overige twee

    kenmerken intact. De luisterproef bevatte dus zinnen met ofwel een gereduceerde

    amplitudevariatie, ofwel een gereduceerde toonhoogtevariatie, ofwel een gereduceerde

    temporele variatie. Zowel de accuraatheid (de proefpersonen moesten een woord uit de zin

    herhalen, namelijk het subject dat beschreven werd) als de latentie van de responsen werden

    onderzocht. Men stelde vast dat het wegnemen van één prosodisch kenmerk nog steeds een

    hoge accuraatheid toeliet, wat de redundantie van het prosodisch systeem aantoont. Daarnaast

    vond men een verschil in latentietijden, wat wijst op een hiërarchie in de relatieve waarde van

    de drie onderzochte prosodische kenmerken. Het meest informatieve kenmerk, het kenmerk

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    3

    dat bij afwezigheid de langste latentietijd uitlokte, was de temporele variatie, gevolgd door de

    toonhoogtevariatie. De amplitudevariatie bleek het minst waardevolle kenmerk te zijn.

    In een tweede experiment werden twee akoestische kenmerken simultaan gereduceerd, terwijl

    nog slechts één kenmerk intact bleef. Dit resulteerde in een merkbaar tragere identificatie van

    de doelwoorden, voornamelijk wanneer de amplitudevariatie het enige intacte prosodische

    kenmerk was.

    Dit onderzoek werd zowel bij oudere als jongere Engelstalige proefpersonen uitgevoerd. Een

    vergelijking van beide groepen leerde dat ouderen even goed gebruik maken van prosodie om

    het begrip op zinsniveau te faciliteren. Oudere personen behouden eveneens hetzelfde patroon

    van relatieve weging van de prosodische kenmerken als jongeren. Daaruit volgt dat de

    redundantie van het prosodische systeem bijdraagt tot de robuustheid van de syntactische

    ontleding (ook bij oudere personen), en dit wellicht voor de meeste talen.

    De relatie tussen verstaanbaarheid en afzonderlijke prosodische kenmerken was eerder

    al onderzocht door Wingfield et al. (1984) die tot de vaststelling kwamen dat geresynthiseerde

    spraak met een minimale variatie van de fundamentele frequentie minder verstaanbaar was

    dan spraak met een ongemanipuleerde fundamentele frequentie (F0).

    Dit fenomeen werd later verder onderzocht door Laures en Weismer (1999). Ook zij vonden

    dat de transcriptiescores en het luisteraarsoordeel (Hoe verstaanbaar is de uiting op een

    zevenpuntenschaal met 1 gelijk aan 0% en 7 gelijk aan 100% verstaanbaar?) bij zinnen met

    een afgevlakte F0- contour significant lager waren vergeleken bij zinnen met een natuurlijk

    variërende F0. Het feit dat monotonie de spraakverstaanbaarheid aantast, wordt verklaard

    door het ontbreken van de stijgingen en dalingen van de F0- contour die in normale

    omstandigheden de aandacht van de luisteraar naar de inhoudswoorden trekken. Bovendien

    schaadt monotonie de herkenbaarheid van de klinkers aangezien een vlakke F0 zorgt voor een

    constante harmonische spreiding tussen de formantpieken, in tegenstelling tot een variabele

    F0 die de densiteit van de harmonischen in bepaalde gebieden verhoogt en verlaagt. Intonatie

    lijkt dus ook een belangrijke rol te spelen in de perceptie van segmentele informatie zoals

    klinkeridentiteit en syllabenklemtoon.

    Watson en Schlauch (2008) onderzochten niet de invloed van de variatie van de

    fundamentele frequentie in de tijd, maar wel van de precieze waarde van F0 zelf (laag of

    hoog). Hun studie testte de hypothese dat de spectrale afstand tussen de harmonischen van F0

    het spraakverstaan beïnvloedt. Daartoe kregen de luisteraars monotone zinnen te horen met

    F0‟s die zich in het lage, midden en hoge uiteinde van het normale F0- bereik bevinden.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    4

    Dit experiment wees uit dat de precieze waarde van F0 slechts een kleine rol speelt in de

    vermindering van de spraakverstaanbaarheid in spraakfragmenten met een afgevlakte F0-

    contour. De spraakverstaanbaarheid was wel omgekeerd evenredig met de waarde van F0, wat

    wil zeggen dat een lagere F0 zorgt voor een grotere spraakverstaanbaarheid dan een hogere

    F0. Maar de verandering in prestatie ten gevolge van de F0- hoogte op zich was klein. Men

    kan dus concluderen dat het gebrek aan F0- variatie, en niet de absolute waarde van F0, het

    meest bijdraagt tot de vermindering van spraakverstaanbaarheid.

    Laures en Bunton (2003) deden onderzoek naar de perceptuele effecten van een

    afgevlakte F0 op zinsniveau in bemoeilijkte luisteromstandigheden. Daaruit bleek dat een

    vlakke F0- contour de spraakverstaanbaarheid negatief beïnvloedt, ongeacht het type

    achtergrondlawaai (witte ruis of multi-speaker babble). Daarenboven waren er meer

    transcriptiefouten bij finale woorden ten opzichte van initiële, wat een direct gevolg is van de

    invariantie van F0 aangezien de zinnen een lage voorspelbaarheidgraad hadden en dus

    nauwelijks contextuele cues bevatten.

    Men merkte ook op dat individuele sprekers in verschillende mate beïnvloed werden door een

    afgevlakte F0- contour, maar, wellicht omwille van de kleine steekproefgrootte, kon men geen

    significante leeftijds- of gendereffecten aantonen.

    Een gelijkaardig onderzoek werd uitgevoerd door Binns en Culling (2007). Zij

    achterhaalden dat het inverteren van de F0- contour de spraakverstaanbaarheid significant

    verminderde ten opzichte van de ongemodificeerde conditie. Bovendien bleek dat het

    aanbieden van slechts 50 % van de variatie van de originele F0- contour, voldoende is voor

    accuraat spraakverstaan.

    Miller, Schlauch en Watson (2010) concludeerden dat elke afwijking van een typisch

    geïntoneerd F0- patroon een nadelig effect heeft op het spraakverstaan in ruis. In dit

    onderzoek verminderde de spraakverstaanbaarheid met 13 % bij het afvlakken of het

    overdrijven van de F0- contour, terwijl het inverteren of een frequentiemodulatie (dit is het

    afvlakken van de F0- contour en deze vervolgens moduleren op 2,5 en 5,0 Hz) van de F0-

    contour de spraakverstaanbaarheid verder liet dalen met 23 %.

    Een mogelijke verklaring is dat frequentiemodulatie of inverteren van de F0- contour het

    normale beklemtoningpatroon van de woorden in een zin vernietigt (namelijk het

    klemtonenpatroon van de syllaben binnen een woord). Dit weerhoudt de luisteraars ervan

    accuraat woordgrenzen te bepalen, wat aanleiding geeft tot een verminderde

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    5

    spraakverstaanbaarheid.

    Dit blijkt ook uit het cohortmodel uit de psycholinguïstiek: woordherkenning gebeurt

    minstens voor een deel door eliminatie van de woordkandidaten die men verwacht. Deze

    eliminatie gebeurt onder andere op basis van woordlengte en woordklemtoon. Bij het

    afvlakken van de F0- contour krijgen alle woorden uit de zin dezelfde F0 en wordt de zin dus

    geneutraliseerd. Een overdreven F0- contour kan de verstaanbaarheid bij normaalhorende

    personen mogelijks verminderen omdat dit overdreven intonatiepatroon interfereert met de

    fijnstructuur van de zinnen. Gehoorgestoorde personen daarentegen hebben voor de

    identificatie van een benadrukt zinsdeel grotere frequentiesprongen (factor 1,5 – 6) nodig in

    de intonatiecontour (Grant, 1987).

    Uit het vorige kan besloten worden dat incorrecte of misleidende linguïstische cues

    gerelateerd aan intonatie (inverteren of frequentiemodulatie van F0) een groter nadelig effect

    hebben op de spraakverstaanbaarheid dan plausibele1 linguïstische cues

    (afvlakken/overdrijven van F0).

    Bunton en Kent (2001) onderzochten de relatie tussen F0- variabiliteit en

    verstaanbaarheid van personen met motorische spraakstoornissen. Het ging om twee types

    van dysartrie: patiënten met de ziekte van Parkinson die lijden aan hypokinetische dysartrie

    waarbij prosodische inadequaatheid voorkomt in combinatie met verminderde articulatie en

    patiënten met Unilateral Upper Motor Neuron dysartrie (UUMND) ten gevolge van een CVA.

    Deze laatste groep vertoont articulatorische onnauwkeurigheid zonder prosodische

    problemen. In het onderzoek werd ook een controlegroep opgenomen die bestond uit

    neurologisch normale sprekers.

    Normale sprekers hebben typisch een F0- bereik van 70 tot 150 Hz, sommige types van

    dysartrie daarentegen worden gekenmerkt door een gebrek aan F0- variatie. Wanneer het F0-

    bereik van het taalmateriaal van zowel de normale sprekers als van diegene met een

    neurologische aandoening verkleind werd (25, 50 of 100% afgevlakt), bleek dat er voor alle

    drie de categorieën sprekers een vermindering in transcriptie- en luisteraaroordeelscores

    optrad. De luisteraaroordeelscore werd ook hier bepaald aan de hand van een 7- puntenschaal

    met gelijke intervallen, waarbij één stond voor onverstaanbaar en zeven voor perfect

    verstaanbaar. De daling van beide scores was des te groter bij personen wiens articulatorische

    precisie afgenomen was, wat suggereert dat het intonatie- effect afhankelijk is van het type

    1 De term „plausibel‟ geeft aan dat personen deze zelf kunnen genereren met hun eigen stem zonder daarvoor het

    spraakstaal met een spraakbewerkingsprogramma te hoeven manipuleren.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    6

    dysartrie (hypokinetische dysartrie zorgde voor lagere scores dan UUMND). Verder werd er

    geen kritische waarde van F0- variabiliteit gevonden, wat betekent dat er een graduele

    vermindering van de transcriptiescores optrad bij een afnemende F0- variabiliteit. Hieruit kan

    men afleiden dat zelfs een minimale F0- variatie en de daaruit resulterende syllabencontrasten

    belangrijk zijn voor de verstaanbaarheid. Er wordt dus aangenomen dat een verbetering van

    de prosodische kenmerken (en dan voornamelijk de F0- variatie) resulteert in een toegenomen

    spraakverstaanbaarheid. Daarom is prosodie de primaire focus van de behandeling van

    verschillende types dysartrie (Laures & Bunton, 2003).

    Prosodie is bovendien een belangrijke factor in het aanleren van spraak aan

    gehoorgestoorde personen. Zo wordt de spraak van prelinguaal dove kinderen op prosodisch

    vlak gekenmerkt door (Baudonck, Beukers, Gillebert & Van Lierde, 2009): een trager

    spreektempo door meer of langere pauzes, verlenging van fonemen, een foutieve

    beklemtoning (Stark & Levitt, 1974) en een afwijkende fonatie (Levitt, 1972). Daarnaast is

    ook het gebrek aan F0- variatie kenmerkend voor de spraak van gehoorgestoorde personen

    (Maasen & Povel, 1984). Maasen en Povel (1984) demonstreerden dat de

    spraakverstaanbaarheid van een gehoorgestoorde verbeterde met een

    computergeïmplementeerde correctie van de F0- contour.

    In dit onderzoek wordt de duur van de verschillende lettergrepen in een zin gelijk

    gesteld. Over de interactie tussen de duur van de opeenvolgende lettergrepen en de

    spraakverstaanbaarheid is minder bekend.

    Andere vormen van „time- altered speech‟ werden wel al beschreven. Zo deden Konkle,

    Beasley en Bess (1977) onderzoek naar versnelde spraak. Hiertoe werden zinnen 0, 20, 40 of

    60 % gecomprimeerd in de tijd. Het effect van deze tijdscompressie op het auditieve

    perceptiesysteem werd nagegaan bij personen van verschillende leeftijdscategorieën in functie

    van de spraaksterkte (in dBSL), linkeroor versus rechteroor en geslacht. Hieruit bleek dat de

    discriminatiescores achteruitgingen bij toename van de tijdscompressie, toename van de

    leeftijd of daling van de spraaksterkte (in dBSL). Op hogere niveaus van temporele distorsie

    kon een kleine vermindering in spraaksterkte resulteren in een significante vermindering van

    de perceptuele accuraatheid, voornamelijk bij oudere luisteraars. Een groter percentage van

    tijdscompressie speelt een meer prominente rol wanneer de leeftijd stijgt, met andere woorden

    de moeilijkheden met versnelde spraak stijgen in functie van de leeftijd. Verder bleek een

    licht voordeel voor het rechteroor en geen verschil in prestaties voor mannen versus vrouwen.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    7

    Algemeen kan men concluderen dat oudere luisteraars het moeilijk hebben met het

    perceptueel verwerken van spraak die gecomprimeerd is in de tijd en deze moeilijkheden

    nemen nog toe met stijgende leeftijd. Dit zou te wijten zijn aan veranderingen in het centrale

    auditieve systeem, aangezien discriminatiescores voor spraak die 0 % gecomprimeerd is in de

    tijd gelijk waren voor de vier leeftijdsgroepen.

    Naar de invloed van het afvlakken van de luidheidsvariatie op de

    spraakverstaanbaarheid werd er beduidend minder onderzoek verricht. Tot op heden is er

    enkel een recente studie (Hoyte et al., 2010) die aantoonde dat er slechts een beperkte invloed

    is van een gereduceerde amplitudevariatie op het spraakverstaan van zinnen.

    Met dit onderzoek wordt nagegaan of en in hoeverre het spraakverstaan verandert

    wanneer a) het intonatiepatroon verwijderd wordt (toonhoogtevariatie), b) de natuurlijke

    variatie in luidheid afgevlakt is (amplitudevariatie), c) de duur van de lettergrepen

    gelijkgesteld is (temporele variatie) of d) een combinatie van deze ingrepen uitgevoerd wordt.

    Dit effect wordt zowel in normale (zonder toegevoegde ruis) als in moeilijke

    luisteromstandigheden (SNR + 5 dB, SNR + 15 dB) onderzocht.

    Verder wordt ook nagegaan of, indien er een effect aanwezig is, dit effect door de luisteraar

    subjectief gepercipieerd wordt. Dit wordt gedaan aan de hand van een

    vijfpuntenbeoordelingsschaal.

    Als laatste wordt onderzocht of er een verschil in scores optreedt tussen „professionals‟

    (logopedist, audioloog, leerkracht, taal- en letterkundige) en leken.

    Op basis van voorgaande onderzoeken kan men verwachten dat in stilte spraak met

    gealterneerde prosodische kenmerken even verstaanbaar zal zijn als ongemanipuleerde

    spraak. Pas bij het toevoegen van ruis verwacht men een verschil op te merken. Zo gaan we er

    van uit dat het manipuleren van 3 kenmerken een grotere invloed zal hebben dan het

    manipuleren van 2 kenmerken. Wat op zijn beurt een grotere nadelig effect zal hebben op de

    spraakverstaanbaarheid dan het alterneren van 1 prosodisch kenmerk. Vermoedelijk zal de

    toonhoogtevariatie naar voor komen als het meest informatieve kenmerk, respectievelijk

    gevolgd door de temporele variatie en de amplitudevariatie.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    8

    Methode

    Proefpersonen

    In het totaal namen 118 proefpersonen deel aan het onderzoek, waarvan 52 mannen en

    66 vrouwen. De test werd afgenomen in vier verschillende versies (zie testmateriaal): bij 33

    proefpersonen werd versie 1 gebruikt, 18 proefpersonen vervolledigden versie 2, 35

    proefpersonen ondergingen versie 3 en 32 proefpersonen versie 4.

    De leeftijd van de testpersonen varieerde van 9 jaar en 1 maand tot 81 jaar en 3 maanden met

    een gemiddelde van 23 jaar en 9 maanden. Er werd een onderverdeling gemaakt naargelang

    de taalervaring van de individuen: 89 personen werden geclassificeerd als „leek‟ en 29 als

    „professional‟ (logopedist, audioloog, leerkracht, taal- en letterkundige…).

    Een tweede classificatie bestond erin de normaalhorende personen te scheiden van de niet-

    normaalhorenden, respectievelijk 102 en 16 proefpersonen.

    De proefpersonen werden gerekruteerd via kennissen (telefonisch, via e- mail…) en

    namen vrijwillig deel aan de test onder belofte van een volledig anonieme verwerking van de

    gegevens. De inclusiecriteria voor dit onderzoek omvatten: Nederlands als moedertaal

    hebben, kunnen lezen en schrijven, normaalhorend zijn en tot slot van zodanige leeftijd zijn

    dat ze de opdracht kunnen begrijpen.

    Testmateriaal

    De originele audiofragmenten bestaan uit 24 zinnen, gegenereerd aan de hand van een

    text- to- speech- algoritme (het “Nextens- algoritme”). Deze zinnen werden met Praat

    (Boersma, Paul & Weenink, David (versie 5.1.44) ) bewerkt om per zin 8 verschillende

    versies te bekomen. Deze bewerkingen, die op verschillende prosodische spraakkenmerken

    ingrijpen, waren: (a) de F0- contour afvlakken waardoor monotonie ontstaat, (b) de

    natuurlijke variatie in luidheid afvlakken waardoor de beklemtoning genivelleerd wordt, (c)

    de duur van de lettergrepen gelijkstellen waardoor temporele accenten geattenueerd worden of

    (d) een combinatie van deze manipulaties.

    De F0- contour werd afgevlakt met behulp van een script (P. Corthals) in Praat; om de

    luidheid van de klinkerkernen terug te brengen tot het 50ste

    percentiel van de luidheid van de

    gehele uitdrukking, werd eveneens een script (P. Corthals) gebruikt in Praat. De gelijke duur

    van de lettergrepen tenslotte, werd per zin handmatig aangepast in Praat (Boersma, Paul &

    Weenink, David (versie 5.1.44)).

    De realisatie van deze laatste modaliteit omvat de volgende bewerkingen: allereerst werd de

    duur van de volledige zin bepaald, daarna werd het aantal lettergrepen geteld. De duur van de

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    9

    volledige zin werd gedeeld door het aantal lettergrepen, wat de gemiddelde duur per

    lettergreep oplevert. In Praat (Boersma, Paul & Weenink, David (versie 5.1.44)) werd aan de

    hand van het oscillogram voor elke lettergreep afzonderlijk de relatieve duur bepaald door de

    gemiddelde duur van de lettergrepen te delen door de duur van de desbetreffende lettergreep.

    De relatieve duur werd vervolgens ingevoerd in Praat (Boersma, Paul & Weenink, David

    (versie 5.1.44)): indien deze groter was dan één (de lettergreep is met andere woorden korter

    dan de gemiddelde duur van de lettergrepen van die zin) werd de lettergreep verlengd.

    Omgekeerd, indien de relatieve duur minder dan één bedroeg, werd de lettergreep verkort

    (zie figuur 1).

    Figuur 1: aanpassen van de duur van de lettergrepen in de zin „Het slot is kapot.‟.

    Om de luistercondities realistischer te maken en een plafondeffect in de resultaten te

    voorkomen, werd met gebruik van een script in Praat (P. Corthals) witte ruis toegevoegd aan

    de zinnen in de verschillende modaliteiten waardoor ze allemaal een SNR hadden van + 5 dB.

    Uit een pilootstudie (12 zinnen zonder ruis en 12 zinnen met SNR + 5 dB) met 1 proefpersoon

    bleek dat de scores voor de zinnen zonder ruis allemaal perfect waren en daarom werd

    besloten een tweede ruisconditie toe te voegen met een signaal- ruisverhouding van + 15 dB.

    Samenvattend: van de 24 zinnen zijn er dus 12 met een SNR van + 5 dB, 6 zinnen met een

    SNR van + 15 dB en 6 zinnen zonder ruis.

    Resultaat: piek – verlengde duur lettergreep, dal – verkorte lettergreep

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    10

    Om het volgorde-effect tegen te gaan, werd de volgorde van de zinnen in twee van de

    vier versies omgekeerd, bijgevolg kwamen ook de ruiscondities in een andere volgorde voor

    (zie appendix 1).

    Als laatste ingreep werd de gemiddelde spraaksterkte van alle zinnen, in al hun

    mogelijke vormen, gelijkgeschakeld. Voor illustraties van de bewerkingen in Praat (Boersma,

    Paul & Weenink, David (versie 5.1.44)), zie appendix 3.

    Met al het zinsmateriaal werd een luistertest van 24 zinnen opgesteld en dit in vier

    verschillende versies (zie tabel 1, appendix 1 en appendix 2).

    Tabel 1

    Overzicht van alle permutaties in versie 1 van de luistertest

    Zin 1 0 + Zin 9 0 x Zin 17 0 +

    Zin 2 A + Zin 10 A Zin 18 A +

    Zin 3 B + Zin 11 B Zin 19 B

    Zin 4 C + Zin 12 C Zin 20 C

    Zin 5 AB + Zin 13 AB + Zin 21 AB

    Zin 6 AC + Zin 14 AC + Zin 22 AC x

    Zin 7 BC x Zin 15 BC + Zin 23 BC x

    Zin 8 ABC x Zin 16 ABC + Zin 24 ABC x

    0= ongewijzigde zin

    Aanpassing van 1 prosodisch kenmerk:

    A= monotonie

    B= afgevlakte luidheidsvariatie

    C= gelijke duur van de lettergrepen

    Aanpassing van 2 prosodische kenmerken:

    AB= monotonie en afgevlakte luidheidsvariatie

    AC= monotonie en gelijke duur van de lettergrepen

    BC= afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen

    Aanpassing van 3 prosodische kenmerken:

    ABC= monotonie, afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen

    Toevoeging van ruis:

    + = SNR + 5dB

    x = SNR + 15dB

    Niet alle zinnen werden in elke testconditie aangeboden, maar volgende factoren hielpen de

    moeilijkheidsgraad per conditie zoveel mogelijk gelijk te houden: alle zinnen tellen tussen de

    5 en 13 lettergrepen (gemiddeld 8 à 9 lettergrepen per zin), het aantal fonemen varieert tussen

    14 en 34 (gemiddeld 23 à 24 fonemen per zin) en bij wijze van opgave wordt telkens het

    finale woord weggelaten. Bovendien gaat het om eenvoudige zinnen uit het dagelijkse

    taalgebruik en hebben de zinnen steeds de volgende zinsbouw: onderwerp- werkwoord-

    bepaling/ lijdend voorwerp, de enige uitzondering hierop is „’s zondags kopen ze altijd

    broodjes’. De priming is echter verschillend: bij enkele zinnen (bijv. „Fantasie kent geen…‟)

    kan met grotere zekerheid de oplossing voorspeld worden. Om dit effect na te gaan, werd een

    korte „voorstudie‟ uitgevoerd waarbij aan enkele personen gevraagd werd het finale woord in

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    11

    te vullen zonder de zinnen gehoord te hebben. Hieruit kon men afleiden dat 4 op 24 woorden2

    correct geïdentificeerd werden. De overeenkomstige zinnen werden echter niet uit de

    luistertest verwijderd.

    Proefopzet

    De proefpersonen kregen eerst uitleg over het doel van de test door middel van een

    powerpointpresentatie (zie appendix 4). Ze werden geïnformeerd over het verloop van de test:

    eerst een kleine gehoorscreening en daarop volgend de luistertest.

    De gehoortest, namelijk een reeks cijfers die genoteerd moesten worden, werd eerst

    samengesteld in Praat (Boersma, Paul & Weenink, David (versie 5.1.44)): er werd een vast

    tijdsinterval (1s) tussen de verschillende cijfers bepaald en de intensiteit van de

    opeenvolgende cijfers werd telkens met 5 dB verminderd. Deze cijfers werden aangeboden

    via de luidsprekers van een computer met het luidheidsniveau van de luidsprekers zo

    afgeregeld dat een bevestigd normaalhorende persoon op een afstand van twee meter van de

    luidsprekers, steeds 25 cijfers van de 30 kon noteren. Een proefpersoon werd als

    normaalhorend beschouwd indien deze minimum 20 cijfers correct identificeerde.

    Bij de luistertest kregen de proefpersonen de opdracht het finale woord in te vullen op

    een antwoordformulier (zie appendix 2) en eveneens op een visueel- analoge schaal aan te

    geven hoe goed of gemakkelijk het woord te verstaan was. Deze schaal is een

    vijfpuntenschaal met de annotaties “0” voor “onverstaanbaar” en “4” voor “perfect

    verstaanbaar”. De proefpersonen werden erop attent gemaakt dat elke zin maar één keer zou

    kunnen beluisterd worden en dat er een vast tijdsinterval van 15 seconden voorzien was

    tussen de opeenvolgende zinnen. Om de proefpersonen de kans te geven aan de computerstem

    te wennen en meteen ook het opzet van het onderzoek nogmaals te verduidelijken, werd een

    familiarisatiefase voorzien met een drietal voorbeeldzinnen. De verschillen tussen individueel

    en in groep geteste personen werden geminimaliseerd door alle proefpersonen op twee meter

    van de computerluidsprekers te plaatsen, die telkens op hetzelfde luidheidsniveau van de

    gehoortest werden afgeregeld. Deze testen werden afgenomen in een geluidsarme, rustige

    omgeving.

    44 proefpersonen uit het 3e middelbaar werden getest met een headset (‘Hama CS- 458’), dit

    om de testduur te beperken en de klassamenstelling te kunnen behouden.

    2 Dit was het geval bij volgende zinnen:

    - Het slot is kapot. - De letter staat op zijn kop.

    - Fantasie kent geen grenzen. - Het loket bleef lang gesloten.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    12

    Score

    Om de resultaten te beoordelen werd een foneemscore gehanteerd, met andere

    woorden: voor elk finaal woord werd het aantal correcte fonemen gedeeld door het totaal

    aantal fonemen van dit woord (zie appendix 5). Hierdoor ontstond een relatieve score van 0

    tot en met 1. Deze scores werden gebruikt om de transcriptiescores voor de verschillende

    modaliteiten in de uiteenlopende ruiscondities te bepalen. Aangezien niet elke versie een

    gelijk aantal combinaties van modaliteiten en ruiscondities bevatte, werd een gemiddelde

    berekend van de foneemscores, wat resulteerde in een einderesultaat van 0 tot en met 1 (ter

    illustratie: tabel 2, voor een volledig overzicht: zie appendix 6).

    Tabel 2

    Berekening transcriptiescores voor elke modaliteit in stilte

    versie 0 A B C AB AC BC ABC

    1 komt niet

    voor (…+…)/2 (…+…)/2

    komt niet

    voor

    komt niet

    voor

    komt niet

    voor

    2 komt niet

    voor

    komt niet

    voor

    komt niet

    voor (…+…)/2 (…+…)/2

    komt niet

    voor

    3 (…+…)/2 (…+…)/2

    komt niet

    voor

    komt niet

    voor

    komt niet

    voor

    komt niet

    voor

    4

    komt niet

    voor

    komt niet

    voor

    komt niet

    voor

    komt niet

    voor (…+…)/2 (…+…)/2

    0= ongewijzigd

    A= monotonie

    B= afgevlakte luidheidsvariatie

    C= gelijke duur van de syllaben

    De proefpersonen vulden ook een subjectieve score in aan de hand van een visueel- analoge

    schaal. Deze beoordelingsscores van de zinnen (0= niet verstaanbaar, 4= perfect verstaanbaar)

    werden naar analogie van de transcriptiescores per combinatie van modaliteit en ruisconditie

    verwerkt. (tabel 2 en appendix 6)

    Resultaten

    Proefpersonen die bij de gehoortest minder dan 20 cijfers van de 30 correct

    identificeerden werden als niet- normaalhorend geclassificeerd en daarom uit alle

    testresultaten gefilterd. Het betreft 16 proefpersonen van de 118.

    Vooreerst werd de Kolmogorov- Smirnov test uitgevoerd om na te gaan of de

    distributie van de gegevens voor elke variabele normaal verdeeld is. Deze test werd

    afzonderlijk uitgevoerd voor de resultaten bekomen met de verschillende ruiscondities en

    modaliteiten en zowel voor de transcriptiescores als voor de beoordelingsscores. Nagenoeg

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    13

    alle resultaten waren significant verschillend en daarom werd de verdere analyse uitgevoerd

    met niet- parametrische testen.

    Transcriptiescores

    Om na te gaan of professionals beter scoren dan leken, werd een Mann- Whitney U-

    test (α = 0,05) uitgevoerd voor alle mogelijke combinaties van prosodische manipulaties en

    ruiscondities met als „grouping variable‟ beroep. Bij deze test konden geen significante

    verschillen tussen beide groepen worden aangetoond.

    Dezelfde benadering werd gebruikt voor de vergelijking tussen resultaten bekomen in

    het vrije veld en onder hoofdtelefoon, hier met free field (FF)/ hoofdtelefoon (HT) als

    „grouping variable‟. Ook hier werden geen significante verschillen gevonden, met

    uitzondering van de transcriptiescore voor „gelijke duur van de syllaben‟ in SNR + 15 dB.

    Omwille van dit beperkt verschil (het verschil in gemiddelde score bedraagt 0,2 met de

    laagste score voor personen getest in vrije veld), werd voor de verdere verwerking van de

    gegevens geen opsplitsing gemaakt tussen proefpersonen die in vrije veld en onder

    hoofdtelefoon werden getest.

    Om het effect van de prosodische manipulaties na te gaan, werden gepaarde

    vergelijkingen uitgevoerd aan de hand van de niet- parametrische Wilcoxon test3 (α = 0,05).

    Om de richting van mogelijke significante verschillen (tweezijdig toetsen) te kunnen bepalen

    werd er ook een descriptieve analyse gemaakt die de gemiddelden per conditie weergeeft.

    Eerst en vooral werd voor elke conditie bepaald hoe schadelijk ze eigenlijk is vergeleken met

    de normale standaard, dit is het originele taalmateriaal zonder enige prosodische ingreep. In

    stilte konden geen significante verschillen aangetoond worden tussen de verschillende

    prosodische ingrepen en de ongemanipuleerde conditie (zie tabel 3). De gemiddelde waarden

    van de verschillende condities in stilte liggen dan ook heel dicht bijeen: ze variëren tussen

    0,963 voor de originele conditie (ORIG) en 0,903 voor de conditie met monotonie in

    combinatie met gelijke duur van de syllaben (INTONDUUR) (zie figuur 2 en tabel 3).

    3 Enkele Wilcoxon testen leverden als resultaat „Unable to compute‟ op. Hier gaat het inderdaad om gepaarde

    vergelijkingen die niet uitgevoerd kunnen worden. Bij de testen in kwestie gaat het om twee variabelen waarvoor

    eenzelfde proefpersoon voor een van de twee variabelen geen data [999,0 (missing value)] heeft.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    14

    0,5

    0,6

    0,7

    0,8

    0,9

    1

    VG

    LBA

    SIS

    tran

    scrO

    RIG

    tran

    scrI

    NTO

    N

    tran

    scrK

    LEM

    T

    tran

    scrD

    UU

    R

    tran

    scrI

    NTO

    NK

    LEM

    T

    tran

    scrI

    NTO

    ND

    UU

    R

    tran

    scrK

    LEM

    TDU

    UR

    tran

    scrI

    NTO

    NK

    LEM

    TDU

    UR

    tran

    scrO

    RIG

    tran

    scrI

    NTO

    N

    tran

    scrK

    LEM

    T

    tran

    scrD

    UU

    R

    tran

    scrI

    NTO

    NK

    LEM

    T

    tran

    scrI

    NTO

    ND

    UU

    R

    tran

    scrK

    LEM

    TDU

    UR

    tran

    scrI

    NTO

    NK

    LEM

    TDU

    UR

    tran

    scrO

    RIG

    tran

    scrI

    NTO

    N

    tran

    scrK

    LEM

    T

    tran

    scrD

    UU

    R

    tran

    scrI

    NTO

    NK

    LEM

    T

    tran

    scrI

    NTO

    ND

    UU

    R

    tran

    scrK

    LEM

    TDU

    UR

    tran

    scrI

    NTO

    NK

    LEM

    TDU

    UR

    STILTE SNR + 15 dB SNR + 5 dB

    Tabel 3

    Gepaarde vergelijking origineel - manipulaties in stilte (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG

    (in stilte) 0.963

    INTON 0.950 .062

    KLEMT 0.960 .799

    DUUR 1.000 /

    INTONKLEMT 1,000 /

    INTONDUUR 0.903 .080

    KLEMTDUUR 0.930 .500

    INTONKLEMTDUUR 0.915 .105

    Figuur 2: Gemiddelde transcriptiescores voor elke conditie4.

    De transcriptiescore van de prosodisch ongemanipuleerde zinnen in stilte (ORIG) is

    significant verschillend van de scores van de volgende drie condities in SNR + 15 dB:

    monotone zinnen (INTON_15SNR), zinnen met een gelijke duur van de syllaben

    (DUUR_15SNR) en monotone zinnen waarbij de duur van de lettergrepen gelijkgesteld is

    (INTONDUUR_15SNR) (zie tabel 4). Het toevoegen van ruis zorgt voor een algehele daling

    in de transcriptiescores (zie figuur 2, midden). De gemiddelde waarden van de drie

    significante moeilijkere condities liggen lager dan de gemiddelde waarde van het origineel,

    alsook lager dan de gemiddelden van de condities die geen significant verschil opleverden.

    Ook de twee condities die niet berekend konden worden in SNR + 15 dB, namelijk originele

    4 De vergelijkingen die niet kunnen worden gemaakt, worden aangegeven door middel van „lege‟ staven. De

    gearceerde staven geven een significant verschil weer met het originele, ongemanipuleerde spraakstaal in stilte.

    Deze opmaak slaat op de resultaten die worden weergegeven in tabel 3, 4 en 5.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    15

    zinnen (ORIG_15 SNR) en zinnen waarvan de drie prosodische kenmerken gewijzigd zijn,

    (INTONKLEMTDUUR_15SNR)) volgen deze tendens (zie figuur 2 en tabel 4).

    Tabel 4

    Gepaarde vergelijking origineel - manipulaties in SNR + 15 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG

    (in stilte) 0.963

    ORIG_15SNR 0.633 /

    INTON_15SNR 0.799 .019 *

    KLEMT_15SNR 0.915 .070

    DUUR_15SNR 0.808 .007 *

    INTONKLEMT_15SNR 0.895 .096

    INTONDUUR_15SNR 0.801 < .001 *

    KLEMTDUUR_15SNR 0.844 1.000

    INTONKLEMTDUUR_15SNR 0.540 /

    * Geeft een significant verschillend resultaat aan.

    In de moeilijkste luisterconditie (SNR + 5 dB) worden voor alle condities significante

    verschillen vastgesteld ten opzichte van het origineel in stilte (zie tabel 5 en figuur 2).

    Tabel 5

    Gepaarde vergelijking origineel - manipulaties in SNR + 5 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG

    (in stilte) 0.963

    ORIG_5SNR 0.572 < .001 *

    INTON_5SNR 0.689 < .001 *

    KLEMT_5SNR 0.511 < .001 *

    DUUR_5SNR 0.546 < .001 *

    INTONKLEMT_5SNR 0.691 < .001 *

    INTONDUUR_5SNR 0.444 < .001 *

    KLEMTDUUR_5SNR 0.550 < .001 *

    INTONKLEMTDUUR_5SNR 0.626 < .001 *

    * Geeft een significant verschillend resultaat aan.

    Ook deze ruisconditie zorgt voor een duidelijke vermindering van de transcriptiescores

    voor de verschillende condities. Het toevoegen van meer ruis leidt tot een grotere daling van

    de gemiddelde scores (zie figuur 2, rechts). De gemiddelde score behaald voor de originele

    zinnen in stilte (ORIG; 0,963) neemt minimaal af tot 0,691 (INTONKLEMT_5SNR) en

    maximaal tot 0,444 (INTONDUUR_5SNR) (zie figuur 2 en tabel 5).

    Bovenstaande resultaten werden teweeg gebracht door de invloed van de ruis én van

    de prosodische ingrepen. Om het effect van de prosodische manipulaties op zich na te gaan,

    werden de gepaarde vergelijkingen aan de hand van een Wilcoxon test (α = 0,05) opnieuw

    uitgevoerd. Ditmaal gebeurden alle vergelijkingen ten opzichte van het originele spraakstaal

    in dezelfde signaal- ruisverhouding, waardoor het effect van de ruis teniet werd gedaan.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    16

    Bij een signaal- ruisverhouding van + 15 dB is de transcriptiescore van de prosodisch

    ongemanipuleerde zin in dezelfde SNR (ORIG_15SNR) significant verschillend van de

    transcriptiescores bij: afgevlakte luidheidsvariatie (KLEMT_15SNR), monotonie in

    combinatie met gelijkgestelde syllabeduur (INTONDUUR_15SNR) en afgevlakte

    luidheidsvariatie gecombineerd met gelijke duur van de syllaben (KLEMTDUUR_15SNR)

    (zie tabel 6). Opmerkelijk is dat de proefpersonen voor deze drie condities een hogere

    gemiddelde score (respectievelijk 0,915; 0,801; 0,844) behaalden dan voor de originele

    zinnen (0,633) in SNR + 15 dB. De enige manipulatie in SNR + 15 dB die voor een lagere

    gemiddelde score zorgde ten opzichte van het origineel in SNR + 15 dB, was de conditie

    waarbij alle drie de prosodische kenmerken gemanipuleerd werden

    (INTONKEMTDUUR_15SNR; 0,540) (zie tabel 6).

    Tabel 6

    Gepaarde vergelijking in SNR + 15 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG_15 SNR 0.633

    INTON_15SNR 0.799 .139

    KLEMT_15SNR 0.915 .005 *

    DUUR_15SNR 0.808 /

    INTONKLEMT_15SNR 0.895 /

    INTONDUUR_15SNR 0.801 .001 *

    KLEMTDUUR_15SNR 0.844 .022 *

    INTONKLEMTDUUR_15SNR 0.540 .139

    * Geeft een significant verschillend resultaat aan.

    In de moeilijkste luisterconditie (SNR + 5 dB) worden opnieuw enkele significante

    verschillen vastgesteld ten opzichte van het origineel in dezelfde signaal- ruisverhouding

    (ORIG_5SNR): monotone zinnen (INTON_5SNR), monotone zinnen met afgevlakte

    luidheidsvariatie (INTONKLEMT_5SNR) en monotone zinnen met gelijke duur van de

    syllaben (INTONDUUR_5SNR) (zie tabel 7). Voor monotone zinnen (0,689) en monotone

    zinnen waarbij de natuurlijke luidheidsvariatie is afgevlakt (0,691) haalden de proefpersonen

    een betere score dan voor de originele zinnen (0,572) in dezelfde SNR. Monotone zinnen

    waarbij de lettergreepduur werd gelijkgesteld (0,444) zorgden voor een lagere gemiddelde

    score, die tevens ook de aller laagste behaalde score is in dit onderzoek (zie tabel 7).

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    17

    Tabel 7

    Gepaarde vergelijking in SNR + 5 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG_5SNR 0.572

    INTON_5SNR 0.689 .049 *

    KLEMT_5SNR 0.511 .321

    DUUR_5SNR 0.546 .515

    INTONKLEMT_5SNR 0.691 .004 *

    INTONDUUR_5SNR 0.444 .001 *

    KLEMTDUUR_5SNR 0.550 .580

    INTONKLEMTDUUR_5SNR 0.626 .294

    * Geeft een significant verschillend resultaat aan.

    Algemeen kan men stellen dat ingrepen op het vlak van het intonatiepatroon (al dan

    niet in combinatie met een andere prosodische ingreep) het vaakst significant slechtere scores

    opleveren. Het nivelleren van de natuurlijke luidheidsvariatie (al dan niet in combinatie met

    een andere prosodische ingreep) is de manipulatie die resulteert in het laagste aantal

    significant lagere scores.

    Beoordelingsscores

    Aanvankelijk werd aan de hand van een Mann- Whitney U- test (α = 0,05) nagegaan of

    er verschillen optreden tussen professionals en leken alsook tussen de testomstandigheden

    hoofdtelefoon en vrije veld, en dit voor alle mogelijke modaliteiten.

    Tussen professionals en leken zijn er twee testcondities die een significant verschillend

    resultaat opleveren: afgevlakte luidheidsvariatie in stilte en afgevlakte luidheidvariatie in

    combinatie met gelijke duur van de syllaben in stilte. Bij de vergelijking hoofdtelefoon ten

    opzichte van vrije veld werd een beperkt aantal significante verschillen teruggevonden.

    Namelijk voor: afgevlakte luidheidsvariatie in stilte, gelijke duur van de syllaben in stilte,

    monotone zinnen met afgevlakte luidheidsvariatie en zinnen met afgevlakte luidheidsvariatie

    gecombineerd met gelijke duur van de syllaben in SNR + 5 dB. De gemiddelde scores met

    hoofdtelefoon zijn lager dan deze in het vrije veld. Mogelijks wordt dit veroorzaakt door de

    jonge leeftijd van de proefpersonen getest onder hoofdtelefoon (alle < 16 jaar). Omdat ook

    hier weinig verschillen optraden tussen personen getest onder hoofdtelefoon en deze in vrije

    veld, werd voor verdere verwerking van de gegevens (gepaarde vergelijkingen met Wilcoxon

    test) geen opsplitsing gemaakt tussen beide testgroepen.

    Ook hier werd het mogelijke effect van de prosodische manipulaties nagegaan door

    middel van Wilcoxon testen (α = 0,05). Naar analogie met voorgaande resultaten werd er

    vooreerst voor elke modaliteit in elke ruisconditie een vergelijking gemaakt met het originele

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    18

    0

    0,5

    1

    1,5

    2

    2,5

    3

    3,5

    4

    VG

    LBA

    SIS

    OR

    IG

    INT

    ON

    KLE

    MT

    DU

    UR

    INT

    ON

    KLE

    MT

    INT

    ON

    DU

    UR

    KLE

    MT

    DU

    UR

    INT

    ON

    KLE

    MT

    DU

    UR

    OR

    IG

    INT

    ON

    KLE

    MT

    DU

    UR

    INT

    ON

    KLE

    MT

    INT

    ON

    DU

    UR

    KLE

    MT

    DU

    UR

    INT

    ON

    KLE

    MT

    DU

    UR

    OR

    IG

    INT

    ON

    KLE

    MT

    DU

    UR

    INT

    ON

    KLE

    MT

    INT

    ON

    DU

    UR

    KLE

    MT

    DU

    UR

    INT

    ON

    KLE

    MT

    DU

    UR

    spraakmateriaal in stilte. Dit gaf significante verschillen voor dezelfde prosodische

    manipulaties als bij de transcriptiescores (zie tabel 3,4, 5 en 8, 9, 10). Bovendien was er ook

    nog een significant verschil voor monotone zinnen in stilte (INTON), zinnen met een

    afgevlakte luidheidsvariatie in SNR + 15 dB (KLEMT_15SNR), monotone zinnen met een

    afgevlakte luidheidsvariatie in SNR + 15 dB (INTONKLEMT_15SNR) en zinnen met

    gelijkgestelde lettergreepduur en afgevlakte luidheidsvariatie in SNR + 15 dB

    (KLEMTDUUR_15SNR). Dit betekent concreet dat alle vergelijkingen die in ruis berekend

    konden worden, zorgen voor een significant lagere score. In stilte levert enkel de beoordeling

    van monotone zinnen een significant lagere score op (zie figuur 3).

    Tabel 8

    Gepaarde vergelijking origineel - manipulaties in stilte (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG

    (in stilte) 3.355

    INTON 3.017 .030 *

    KLEMT 3.342 .495

    DUUR 3.713 /

    INTONKLEMT 3.800 /

    INTONDUUR 2.952 .103

    KLEMTDUUR 3.024 .179

    INTONKLEMTDUUR 3.121 .179

    * Geeft een significant verschillend resultaat aan.

    Figuur 3: Gemiddelde beoordelingsscores per conditie5.

    5De vergelijkingen die niet kunnen worden gemaakt, worden aangegeven door middel van „lege‟ staven. De

    gearceerde staven geven een significant verschil weer met het originele, ongemanipuleerde spraakstaal in stilte.

    Deze opmaak is enkel geldig voor de resultaten in tabel 8, 9 en 10.

    STILTE SNR + 15 dB SNR + 5 dB

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    19

    Tabel 9

    Gepaarde vergelijking origineel - manipulaties in SNR + 15 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG

    (in stilte) 3.355

    ORIG_15SNR 1.188 /

    INTON_15SNR 1.774 < .001 *

    KLEMT_15SNR 2.167 < .001 *

    DUUR_15SNR 1.282 < .001 *

    INTONKLEMT_15SNR 1.992 < .001 *

    INTONDUUR_15SNR 1.667 < .001 *

    KLEMTDUUR_15SNR 1.925 < .001 *

    INTONKLEMTDUUR_15SNR 1.138 /

    * Geeft een significant verschillend resultaat aan.

    Tabel 10

    Gepaarde vergelijking origineel - manipulaties in SNR + 5 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG

    (in stilte) 3.355

    ORIG_5SNR 1.265 < .001 *

    INTON_5SNR 1.588 < .001 *

    KLEMT_5SNR 1.245 < .001 *

    DUUR_5SNR 1.137 < .001 *

    INTONKLEMT_5SNR 1.676 < .001 *

    INTONDUUR_5SNR 0.897 < .001 *

    KLEMTDUUR_5SNR 1.294 < .001 *

    INTONKLEMTDUUR_5SNR 1.529 < .001 *

    * Geeft een significant verschillend resultaat aan.

    Vervolgens werden de Wilcoxon testen (α = 0,05) ook voor de beoordelingsscores

    opnieuw uitgevoerd. De volgende vergelijkingen werden ten opzichte van het originele

    spraakstaal in dezelfde signaal- ruisverhouding gemaakt, waardoor het effect van de ruis

    uitgefilterd werd.

    Tabel 11

    Gepaarde vergelijking in SNR + 15 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG_15 SNR 1.188

    INTON_15SNR 1.774 .035 *

    KLEMT_15SNR 2.167 .003 *

    DUUR_15SNR 1.282 /

    INTONKLEMT_15SNR 1.992 /

    INTONDUUR_15SNR 1.667 .004 *

    KLEMTDUUR_15SNR 1.925 .004 *

    INTONKLEMTDUUR_15SNR 1.138 .521

    * geeft een significant verschillend resultaat aan.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    20

    Tabel 12

    Gepaarde vergelijking in SNR + 5 dB (Wilcoxon)

    Gemiddelde Gemiddelde Significantieniveau

    ORIG_5SNR 1.265

    INTON_5SNR 1.588 .026 *

    KLEMT_5SNR 1.245 .991

    DUUR_5SNR 1.137 .297

    INTONKLEMT_5SNR 1.676 .003 *

    INTONDUUR_5SNR 0.897 .002 *

    KLEMTDUUR_5SNR 1.294 .942

    INTONKLEMTDUUR_5SNR 1.529 .039 *

    * Geeft een significant verschillend resultaat aan.

    De significante verschillen doen zich voor bij dezelfde prosodische manipulaties als

    bij de transcriptiescores (zie tabel 6, 7, 11 en 12). Daarenboven is er een significant verschil

    voor monotone zinnen in SNR + 15 dB (INTON_15SNR) en ook voor de zinnen met alle

    prosodische manipulaties in SNR + 5 dB (INTONKLEMTDUUR_5SNR) werd een

    significant verschil aangetoond dat niet aanwezig is bij de transcriptiescores.

    Discussie

    Uit de hoger vermelde resultaten blijkt dat tussen professionals en leken weinig of

    geen verschillen optreden in transcriptiescores en beoordelingsscores. Proefpersonen met een

    sprekersberoep (leraar) of een taalgerichte opleiding (logopedie, audiologie, taal- en

    letterkunde…) scoren niet significant beter dan leken.

    Transcriptiescores

    In stilte worden geen significante verschillen teruggevonden voor de verschillende

    prosodische ingrepen (zie tabel 3). Dit kan mede verklaard worden door de redundantie van

    het zinsmateriaal: de context vereenvoudigt het mentale eliminatieproces van de mogelijke

    woordkandidaten die stuk voor stuk courante Nederlandse woorden zijn. Bovendien gaat het

    om normale spraak die nadien werd bewerkt en niet om afwijkende spraak ten gevolge van

    een spraakstoornis. De statistische analyses werden eveneens uitgevoerd met de data van

    normaalhorende proefpersonen, waardoor bij het beluisteren van het testmateriaal minder

    linguïstische cues verloren gaan omwille van de betere temporele en spatiële

    frequentieresolutie van het gehoor (in vergelijking met niet- normaalhorende personen).

    Deze resultaten mogen met andere woorden niet veralgemeend worden naar het beluisteren

    van afwijkende spraak of naar het beluisteren van normale spraak door gehoorgestoorde

    personen.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    21

    Het toevoegen van ruis zorgt voor een globale daling in transcriptiescores: hoe meer

    ruis, hoe groter dit effect. Dit geeft aan dat spraakverstaan moeilijker wordt bij een slechtere

    signaal- ruisverhouding.

    Vooreerst beschouwen we de testresultaten bekomen door het uitvoeren van een

    gepaarde Wilcoxon vergelijking tussen het originele taalmateriaal in stilte en de verschillende

    gemanipuleerde condities in ruis (zie tabel 4 en 5). In SNR + 15 dB zorgt het wijzigen van

    één prosodisch kenmerk enkel voor een significant lagere score indien het intonatie- of het

    duurpatroon van de zinnen gemanipuleerd wordt (INTON_15SNR en DUUR_15SNR).

    Wanneer er meer dan één prosodisch kenmerk gealterneerd wordt, levert enkel de combinatie

    van monotonie en gelijke syllabeduur een significant resultaat op (INTONDUUR_15SNR).

    Het feit dat monotonie de spraakverstaanbaarheid aantast, wordt verklaard door het ontbreken

    van de stijgingen en dalingen van de F0- contour die in normale omstandigheden de aandacht

    van de luisteraar naar de inhoudswoorden trekken. In SNR + 5 dB daalt het gemiddelde van

    de transcriptiescores voor monotone zinnen nog verder (van 0,799 naar 0,689), wat opnieuw

    een significant verschil oplevert in een gepaarde vergelijking met het origineel.

    Hieruit kan afgeleid worden dat toonhoogtevariatie een groter effect heeft op de

    spraakverstaanbaarheid bij moeilijkere luistercondities, in dit geval gecreëerd door het

    toevoegen van (meer) ruis. Dit ligt in het verlengde van de bevindingen van Wingfield et al.

    (1984) en Laures en Weismer (1999).

    Het tweede significant verschil in SNR + 15 dB treedt op bij het gelijkstellen van de

    duur van de lettergrepen. Deze duur bepaalt mede de start- en stoptijden van woorden, alsook

    de woordklemtoon. Wanneer bijgevolg de duur van de syllaben wordt aangepast, schaadt dit

    de spraakverstaanbaarheid. Onderzoek naar andere vormen van „time- altered speech‟ wezen

    ook al uit dat het aanpassen van het duurpatroon van spraak leidt tot een verminderde

    verstaanbaarheid (zie Konkle et al., 1977). In SNR + 5 dB daalt het gemiddelde van de

    transcriptiescores voor zinnen met veranderd duurpatroon nog verder (van 0,808 naar 0,546),

    wat wederom een significant verschil oplevert in een gepaarde vergelijking met het origineel

    in stilte. Opnieuw blijkt dat het relatief belang van dit prosodisch kenmerk groter is in een

    situatie met meer ruis.

    Het derde significante verschil in SNR + 15 dB wordt bekomen bij monotone zinnen

    met een gelijke duur der syllaben. Deze significantie kan verklaard worden met bovenstaande

    gegevens. In SNR + 5 dB treedt er eveneens een significant verschil op voor deze conditie en

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    22

    het gemiddelde neemt ook hier verder af (van 0,801 naar 0,444) naargelang meer ruis wordt

    toegevoegd.

    In de moeilijkste luistersituatie (SNR + 5 dB) worden voor alle condities significante

    verschillen vastgesteld (zie tabel 5). Op basis hiervan kan men stellen dat prosodie in stilte

    enkel de expressie onderstreept en zorgt voor de natuurlijkheid van de spraak. Daarentegen,

    eenmaal er ruis in het spel is, zijn de prosodische aspecten ook nodig voor een goede

    spraakverstaanbaarheid. Hoe meer ruis er bij komt, hoe meer dimensies van de prosodie

    onmisbaar worden (cfr. drie condities significant in SNR + 15 dB en alle condities significant

    in SNR + 5 dB).

    Vervolgens beschouwen we de testresultaten bekomen door het uitvoeren van een

    gepaarde vergelijking tussen het originele taalmateriaal zonder enige prosodische ingreep en

    de verschillende manipulaties in dezelfde ruisconditie (SNR + 15 dB en SNR + 5 dB) (zie

    tabel 6 en 7). Op deze manier kan de invloed van de prosodische manipulaties op zich worden

    nagegaan, terwijl het effect van de ruis wordt teniet gedaan.

    In SNR + 15 dB zijn er drie condities significant verschillend ten opzichte van het

    origineel in dezelfde SNR (ORIG_15SNR), namelijk: afgevlakte luidheidsvariatie

    (KLEMT_15SNR), monotonie in combinatie met gelijkgestelde syllabeduur

    (INTONDUUR_15SNR) en afgevlakte luidheidsvariatie gecombineerd met gelijke duur van

    de syllaben (KLEMTDUUR_15SNR). Opvallend is dat de proefpersonen voor deze drie

    condities een hogere gemiddelde score (respectievelijk 0,915; 0,801; 0,844) behalen dan voor

    de originele zinnen (0,633) in SNR + 15 dB. Mogelijks zorgt het alterneren van deze

    prosodische kenmerken ervoor dat de aandacht van de luisteraar naar het finale woord van de

    zin getrokken wordt. Deze aandachtsfactor kan ervoor zorgen dat de luisteraar op deze

    condities beter scoort dan op het origineel in dezelfde SNR.

    In stilte zijn de pieken en dalen van de geluidssterkte duidelijk aanwezig. Bij een

    signaal- ruisverhouding van + 15 dB is de achtergrondruis van die aard dat de pieken en dalen

    ook nog opgemerkt worden door het gehoor. Het computermatig afvlakken van deze variatie

    trekt dan ook de aandacht van de luisteraar. Echter, het toevoegen van extra ruis (SNR + 5

    dB) verkleint de modulatiediepte van het luidheidsniveau zoveel dat deze informatie niet

    langer bruikbaar is voor de luisteraar. Bovendien neemt het maskeereffect ter hoogte van het

    binnenoor toe. Hierdoor neemt de invloed van de manipulatie af.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    23

    Dit verklaart waarom er geen significant verschil wordt teruggevonden bij een afgevlakte

    luidheidsvariatie in SNR + 5 dB (zie tabel 7), maar wel in SNR + 15 dB (zie tabel 6). Het

    belang van intonatie en het duurpatroon werd hierboven al uitvoerig besproken. Het alterneren

    van deze kenmerken wordt mogelijks als onnatuurlijk ervaren door de luisteraar en misschien

    daarom met extra aandacht gepercipieerd waardoor ook hier de gemiddelde scores hoger

    liggen dan die van de originele zin in dezelfde SNR.

    De enige manipulatie in SNR + 15 dB die een lagere gemiddelde score (0,540) heeft

    dan het origineel in dezelfde SNR (0,633) is de alternatie van de drie prosodische kenmerken

    (INTONKLEMTDUUR_15SNR) (zie tabel 6). Wanneer de achtergrondruis nog niet al te

    opvallend aanwezig is (SNR + 15 dB ten opzichte van SNR + 5 dB) is het gehoor nog

    gevoelig voor de pieken en dalen van de luidheidsvariatie en ook de woord- en zinsklemtoon

    kunnen nog waargenomen worden. In moeilijkere luisteromstandigheden (SNR + 5 dB),

    daarentegen, is de informatie van voornamelijk de luidheidsvariatie en in mindere mate de

    temporele variatie minder beschikbaar voor de luisteraar (zie bovenstaande verklaring),

    waardoor de invloed van de manipulatie afneemt en een iets betere score wordt behaald in

    SNR + 5 dB (0, 626) (zie tabel 7).

    In SNR + 5 dB zijn er eveneens drie condities significant verschillend ten opzichte van

    het origineel in dezelfde SNR: monotone zinnen (INTON_5SNR), monotone zinnen met

    afgevlakte luidheidsvariatie (INTONKLEMT_5SNR) en monotone zinnen met gelijke duur

    van de syllaben (INTONDUUR_5SNR) (zie tabel 7). Voor monotone zinnen (0,689) en

    monotone zinnen waarbij de natuurlijke luidheidsvariatie is afgevlakt (0,691) scoorden de

    proefpersonen gemiddeld hoger dan voor de originele zinnen (0,572) in dezelfde SNR.

    Monotone zinnen waarbij de lettergreepduur werd gelijkgesteld (0,444) zorgen voor een

    lagere gemiddelde score.

    Een mogelijke verklaring voor de hogere scores is dat een lichte vervorming- zoals bij deze

    prosodische manipulaties (een spectrale vervorming zou veel erger zijn)- extra aandacht

    opwekt bij een normaalhorende, zodat er meer cognitieve reserves worden vrijgemaakt voor

    het spraakverstaan in vergelijking met de alledaagse spraak.

    Een volgorde- effect is uitgesloten aangezien de condities gerandomiseerd werden over de

    zinnen in de verschillende versies.

    De conditie met een lagere gemiddelde score (monotone zinnen waarbij de lettergreepduur

    werd gelijkgesteld) ten opzichte van het origineel in dezelfde signaal- ruisverhouding (SNR +

    5 dB) geeft aan dat intonatie in combinatie met het duurpatroon van de syllaben de

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    24

    prosodische kenmerken zijn die het meest doorwegen. Het wegnemen van deze twee

    prosodische variaties in SNR + 5 dB zorgt voor de aller laagste behaalde gemiddelde score.

    Dit sluit aan bij de research uitgevoerd door Hoyte et al. (2010). Uit hun onderzoek bleek dat

    het meest informatieve kenmerk (het kenmerk dat bij afwezigheid de langste latentietijd

    uitlokte) de temporele variatie was, gevolgd door de toonhoogtevariatie.

    Algemeen kan men stellen dat de eliminatie van de natuurlijke sterktevariatie

    (KLEMT) minder vaak significante verschillen uitlokt terwijl manipulaties die de intonatie

    aantasten (INTON) frequent (apart of in combinatie) significant slechtere resultaten uitlokken.

    Met andere woorden: in (licht) rumoerige omstandigheden is de aan- of afwezigheid van het

    intonatiepatroon cruciaal; men kan de klemtoon- en duurnivellatie tot op zekere hoogte

    compenseren indien de intonatievariatie behouden wordt.

    Beoordelingsscores

    De gepaarde vergelijking tussen het origineel taalmateriaal in stilte en de verschillende

    manipulaties in verschillende ruiscondities leveren dezelfde significante verschillen op als bij

    de transcriptiescores (zie tabel 3,4,5 en 8, 9, 10). Bovendien is er ook nog een significant

    verschil voor monotone zinnen in stilte (INTON), zinnen met afgevlakte luidheidsvariatie in

    SNR + 15 dB (KLEMT_15SNR), monotone zinnen met afgevlakte luidheidsvariatie in SNR +

    15 dB (INTONKLEMT_15SNR) en zinnen met gelijkgestelde lettergreepduur en afgevlakte

    luidheidsvariatie in SNR + 15 dB (KLEMTDUUR_15SNR). Dit betekent concreet dat alle

    manipulaties die uitgevoerd worden in ruis (zowel in SNR + 15 dB als in SNR + 5 dB) als

    „moeilijker te verstaan‟ worden gescoord door de proefpersonen (zie figuur 3). In stilte vinden

    de proefpersonen een zin enkel moeilijker te begrijpen indien deze een afgevlakte F0- contour

    bevat. Het wijzigen van het intonatiepatroon is in dit onderzoek dan ook het enige prosodisch

    kenmerk met een opvallend subjectief effect. Daarentegen zijn het afvlakken van de

    luidheidsvariatie en het wijzigen van de temporele variatie subtieler en leveren daarom in

    stilte geen significante verschillen op.

    De volgende reeks vergelijkingen werd gemaakt ten opzichte van het originele

    spraakstaal in dezelfde signaal- ruisverhouding, waardoor het effect van de ruis uitgefilterd

    werd. De significante verschillen doen zich voor bij dezelfde prosodische manipulaties als bij

    de transcriptiescores (zie tabel 6,7 en 11, 12). Daarenboven is er een significant verschil voor

    monotone zinnen in SNR + 15 dB (INTON_15SNR), alsook voor de zinnen waarbij alle

    prosodische manipulaties werden uitgevoerd in SNR + 5 dB (INTONKLEMTDUUR_5SNR).

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    25

    Hieruit kunnen we besluiten dat de beoordelingsscores voor het grootste deel in dezelfde lijn

    liggen als de transcriptiescores. Dit wil zeggen dat zinnen waarvoor de proefpersonen minder

    goede transcriptiescores behalen, ook als minder goed verstaanbaar worden gepercipieerd

    door de luisteraars, en omgekeerd. De conditie waarvoor de laagste gemiddelde

    transcriptiescore wordt behaald (INTONDUUR_5SNR), is eveneens de conditie met de

    laagste gemiddelde beoordelingsscore.

    Conclusie

    In dit onderzoek werd vooreerst met een transcriptiescore het effect van een aantal

    prosodische manipulaties (afgevlakte F0- contour, afgevlakte luidheidsvariatie, gelijkgestelde

    duur der syllaben of een combinatie van voorgaande alternaties) nagegaan op zinsniveau in

    stilte en in twee verschillende ruiscondities (SNR + 15 dB en SNR + 5 dB).

    In stilte is er weinig invloed van de geattenueerde prosodische kenmerken omdat de

    redundatie van de zinnen voldoende groot is voor afdoende spraakverstaan. Dit onderstreept

    dat prosodie in stilte enkel de expressie van de zinnen ondersteunt en zorgt voor de

    natuurlijkheid van de spraak. In ruis, daarentegen, duiken wel enkele significante verschillen

    op.

    Bij een vergelijking tussen het ongemanipuleerde spraakstaal in stilte en de verschillende

    modaliteiten in ruis, treden er bij SNR + 15 dB enkel significante verschillen op bij de

    manipulatie van het intonatiepatroon en/of de duur van de syllaben. In minder gunstige

    luisteromstandigheden (SNR + 5 dB) worden voor alle manipulaties significante verschillen

    teruggevonden. Dit beeld is samenhangend met de eerder vermelde literatuur: in moeilijkere

    luistersituaties is het belang van de prosodische cues groter en voornamelijk de intonatie en

    het duurpatroon blijken een belangrijke rol te spelen.

    Wanneer er een vergelijking wordt gemaakt tussen het ongemanipuleerde spraakstaal en de

    verschillende manipulaties in dezelfde signaal- ruisverhouding, treedt er slechts één

    significant verschil op waarbij er een lagere gemiddelde score behaald wordt voor de

    gemanipuleerde zin ten opzichte van de originele zin. Het gaat om monotone zinnen met een

    gelijkgestelde duur der syllaben in SNR + 5 dB. Dit geeft aan dat intonatie in combinatie met

    het duurpatroon de prosodische kenmerken zijn die het meest doorwegen op de

    spraakverstaanbaarheid. Het wegnemen van deze twee prosodische variaties in SNR + 5 dB

    zorgt dan ook voor de aller laagste gemiddelde score bij de proefpersonen.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    26

    Ten tweede werd aan de hand van een vijfpuntenbeoordelingsschaal nagegaan of deze

    effecten op een gelijkaardige manier subjectief ervaren werden door de proefpersonen. De

    resultaten van de beoordelingsscores affirmeren dit.

    Tenslotte werd ook onderzocht of professionals (leerkrachten of studenten logopedie,

    audiologie en taal- en letterkunde) al dan niet beter scoorden dan leken op de luistertest. Noch

    hun transcriptiescores, noch hun beoordelingsscores bleken echter te verschillen.

    Referenties

    Baudonck, N.L.H., Buekers, R., & Gillebert, S., & Van Lierde, K.M., (2009). Speech

    intelligibility of Flemish children as judged by their parents. Folia Phoniatrica et

    logopaedica, 61, 288-295.

    Binns, C., & Culling, J.F. (2007). The role of fundamental frequency contours in the

    perception of speech against interfering speech. Journal of the Acoustical Society of

    America, 122 (3), 1765-1766.

    Bunton, K., Kent, R.D., Kent, J.F., & Duffy, J.R. (2001). The effects of flattening

    fundamental frequency contours on sentence intelligibility in speakers with dysarthria.

    Clinical Linguistics and Phonetics, 15 (3), 181-193.

    De Bodt, M., Hernández- Díaz Huici, M.E., & Van De Heyning, P.H. (2002). Intelligibility as

    a linear combination of dimensions in dysarthric speech. Journal of Communication

    Disorders, 35, 283-292.

    Grant, K.W. (1987). Frequency modulation detection by normally hearing and profoundly

    hearing impaired listeners. Journal of Acoustical Society of America, 30, 558- 563

    Grant, K.W. (1987). Identification of intonation contours by normally hearing and profoundly

    hearing impaired listeners. Journal of Acoustical Society of America, 82(4), 1172- 1178

    Grant, K.W. (1987). Encoding voice pitch for profoundly hearing impaired listeners. Journal

    of Acoustical Society of America, 82 (2), 423- 432

    Hoyte, K.J., Brownell, H., & Wingfield, A. (2010). Components of speech prosody and their

    use in detection of syntactic structure by older adults. Experimental Aging Research, 35

    (1), 129-151.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    27

    Konkle, D.F., Beasly, D.S., & Bess, F.H. (1977). Intelligibility of time-altered speech in

    relation to chronological aging. Journal of Speech and Hearing Research, 20, 108-115.

    Laures, J.S., & Bunton K. (2003). Perceptual effects of a flattened fundamental frequency at

    the sentence level under different listening conditions. Journal of Communication

    Disorders, 36, 449-464.

    Laures, J.S., & Weismer, G. (1999). The effects of a flattened fundamental frequency on

    intelligibility at sentence level. Journal of Speech, Language, and Hearing Research, 42,

    1148-1156.

    Levitt, H., & Smith, R. (1972). Errors of articulation in the speech of profoundly hearing-

    impaired children. Journal of the Acoustical Society of America, 51, 102 (A).

    Maassen, B., & Povel, D. (1984). The effect of correcting fundamental frequency on the

    intelligibility of deap speech and its interaction with temporal aspects. Journal of the

    Acoustical Society of America, 76 (6), 1673-1681.

    Miller, S.E., Schlauch, R.S., & Watson, P.J. (2010). The effects of fundamental frequency

    contour manipulations on speech intelligibility in background noise. Journal of the

    Acoustical Society of America, 128 (1), 435-443.

    Pimienta, S. (2008). De invloed van intonatie op de spraakverstaanbaarheid op zinsniveau.

    Scriptie voor het behalen van graad master in de logopedisch en audiolgische

    wetenschappen.

    Stark, R.E, & Levitt, H. (1974). Prosodic feature reception and production in deaf children.

    Journal of Acoustical Society of America, 55, S63- S63.

    Watson, P.J., & Schlauch, R.S. (2008). The effects of fundamental frequency on the

    intelligibility of speech with flattened intonation contours. American Journal of Speech-

    Language Pathology, 17, 348-355.

    Wingfield, A., Lombardi, L., & Sokol, S. (1984). Prosodic features and the intelligibility of

    accelerated speech: syntactic versus periodic segmentation. Journal of Speech and Hearing

    Research, 27, 128-134.

    Yorkston, K.M. (1996). Speech and pause characteristics following speech rate production in

    hypokinetic dysarthria. Journal of Communication Disorders, 29, 429-445.

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    28

    Appendices

    Appendix 1: overzicht van alle permutaties per versie.

    Overzicht van alle permutaties in versie 1 van de luistertest.

    Zin 1 0 + Zin 9 0 x Zin 17 0 +

    Zin 2 A + Zin 10 A Zin 18 A +

    Zin 3 B + Zin 11 B Zin 19 B

    Zin 4 C + Zin 12 C Zin 20 C

    Zin 5 AB + Zin 13 AB + Zin 21 AB

    Zin 6 AC + Zin 14 AC + Zin 22 AC x

    Zin 7 BC x Zin 15 BC + Zin 23 BC x

    Zin 8 ABC x Zin 16 ABC + Zin 24 ABC x

    Overzicht van alle permutaties in versie 2 van de luistertest.

    Zin 1 ABC + Zin 9 ABC x Zin 17 ABC +

    Zin 2 BC + Zin 10 BC Zin 18 BC +

    Zin 3 AC + Zin 11 AC Zin 19 AC

    Zin 4 AB + Zin 12 AB Zin 20 AB

    Zin 5 C + Zin 13 C + Zin 21 C

    Zin 6 B + Zin 14 B + Zin 22 B x

    Zin 7 A x Zin 15 A + Zin 23 A x

    Zin 8 0 x Zin 16 0 + Zin 24 0 x

    Overzicht van alle permutaties in versie 3 van de luistertest.

    Zin 1 AC x Zin 9 AC + Zin 17 AB x

    Zin 2 AB x Zin 10 AB + Zin 18 AC x

    Zin 3 C x Zin 11 C + Zin 19 C +

    Zin 4 B Zin 12 B + Zin 20 B +

    Zin 5 A Zin 13 A Zin 21 A +

    Zin 6 0 Zin 14 0 Zin 22 0 +

    Zin 7 ABC + Zin 15 ABC Zin 23 ABC +

    Zin 8 BC + Zin 16 BC x Zin 24 BC +

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    29

    Overzicht van alle permutaties in versie 4 van de luistertest

    Zin 1 C x Zin 9 C + Zin 17 C x

    Zin 2 B x Zin 10 B + Zin 18 B x

    Zin 3 A x Zin 11 A + Zin 19 A +

    Zin 4 0 Zin 12 0 + Zin 20 0 +

    Zin 5 ABC Zin 13 ABC Zin 21 ABC +

    Zin 6 BC Zin 14 BC Zin 22 BC +

    Zin 7 AC + Zin 15 AC Zin 23 AC +

    Zin 8 AB + Zin 16 AB x Zin 24 AB +

    0= ongewijzigde zin

    Aanpassing van 1 prosodisch kenmerk:

    A= monotonie

    B= afgevlakte luidheidsvariatie

    C= gelijke duur van de lettergrepen

    Aanpassing van 2 prosodische kenmerken:

    AB= monotonie en afgevlakte luidheidsvariatie

    AC= monotonie en gelijke duur van de lettergrepen

    BC= afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen

    Aanpassing van 3 prosodische kenmerken:

    ABC= monotonie, afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen

    Toevoeging van ruis:

    + = SNR + 5dB

    x = SNR + 15dB

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    30

    Appendix 2: voorbeeld antwoordformulier.

    Beste,

    In het kader van onze thesis, hebben wij u verzocht deel te nemen aan een „onderzoek‟. Het

    doel van onze thesis is te achterhalen wat de invloed is van prosodie op de

    spraakverstaanbaarheid.

    Prosodie kan onderverdeeld worden in volgende domeinen: intonatie, luidheid en duur van de

    lettergrepen.

    We gaan van start met een kleine gehoortest. Vervolgens begint de eigenlijke luistertest:

    hierbij zal u zinnen te horen krijgen, dezelfde zinnen die u ook op uw antwoordblad (zie

    verder) terugvindt.

    De bedoeling is het ontbrekende woord in te vullen. Indien u niet 100% zeker bent, mag u ook

    een deel van het woord neerschrijven. Daarnaast vragen wij u ook op een schaal van 0 tot en

    met 4 aan te geven hoe goed of gemakkelijk u het woord hebt verstaan.

    Alvast bedankt voor uw medewerking,

    Celine en Sibelijn

    Gelieve onderstaande gegevens aan te vullen. We kunnen u verzekeren dat deze anoniem

    verwerkt worden.

    Geslacht:

    Geboortedatum:

    Beroep/ studierichting:

    Moedertaal:

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    31

    Gehoortest

    Gelieve de cijfertjes in de hokjes te schrijven van links naar rechts.

    Luistertest

    Gelieve op de schaal te omcirkelen hoe goed of gemakkelijk u het woord heeft verstaan.

    (0 = onverstaanbaar, 4 = perfect verstaanbaar)

    1. Fantasie kent geen

    2. Zijn leeftijd ligt boven de

    3. De bloemen vielen op het

    4. Voetbal is het belangrijkste voor deze

    5. Het loket bleef lang

    6. Het gedicht werd

    7. De jongens vechten de hele

    8. Elke Londenaar heeft een

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    32

    Gelieve op de schaal te omcirkelen hoe goed of gemakkelijk u het woord heeft verstaan.

    (0 = onverstaanbaar, 4 = perfect verstaanbaar)

    9. De man kocht een

    10. ‟s Zondags kopen ze altijd

    11. Het slot is

    12. De letter staat op zijn

    13. Het kind was niet in staat om te

    14. De bal vloog over de

    15. Jan bouwde een

    16. Het gras was helemaal

    17. Het beeld stond op de

    18. De slang bewoog zich door het

    19. Rijst wordt in dit land niet

    20. De gravin ontving de

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    33

    Gelieve op de schaal te omcirkelen hoe goed of gemakkelijk u het woord heeft verstaan.

    (0 = onverstaanbaar, 4 = perfect verstaanbaar)

    21. De kast is een meter

    22. Het proefwerk heeft zij slecht

    23. Deze kerk moet worden

    24. Het koppel gaat naar de

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

    0 1 2 3 4

  • 34

    Time (s)

    0 2.401

    Pit

    ch (

    Hz)

    0

    500

    Time (s)

    0 2.40120

    90

    Inte

    nsi

    ty (

    dB

    )

    Time (s)

    0 2.40120

    90

    Inte

    nsi

    ty (

    dB

    )

    Time (s)

    0 2.40120

    90

    Inte

    nsi

    ty (

    dB

    )

    Time (s)

    0 2.401

    Pit

    ch (

    Hz)

    0

    500

    Time (s)

    0 2.401

    Pit

    ch (

    Hz)

    0

    500

    Appendix 3: manipulaties in Praat (Boersma, Paul & Weenink, David (versie 5.1.44) )

    Intonatiecontour van de ongewijzigde zin ‘Elke Londenaar heeft een paraplu’:

    Intonatiecontour van de monotone zin ‘Elke Londenaar heeft een paraplu’:

    Luidheidvariatie van de ongewijzigde zin ‘Elke Londenaar heeft een paraplu’:

    Luidheidvariatie van de zin ‘Elke Londenaar heeft een paraplu’ met een uitgemiddelde luidheid (de

    intensiteit van de klinkerkernen werd teruggebracht tot het 50ste

    percentiel van het ongewijzigde

    spraakstaal).

  • 35

    Duurvariatie van een lettergreep („ra‟ uit „paraplu‟, uit de zin ‘Elke Londenaar heeft een paraplu’).

    Originele lettergreep:

    De lettergreep werd na bewerking verlengd:

  • 36

    Gelijkstellen van de duur van de lettergrepen voor de zin ‘Elke Londenaar heeft een paraplu’:

    1. Zin klaarmaken voor manipulatie:

    2. „Manipulation’ editeren:

    3. Begin en einde van de lettergreep afbakenen.

    4. Na afbakening de lettergreep selecteren en de relatieve duur ingeven.

  • 37

    Gelijkstellen van de gemiddelde luidheid van alle zinnen in al hun modaliteiten:

    1. Alle geluiden selecteren en bewerken tot een piekintensiteit van 70 dB:

    2. ‘Sound chain’ (= alle zinnen na elkaar) maken voor de controle van de uitgevoerde manipulatie:

    3. Resulterende oscillogram en spectrogram van de ‘sound chain’ (ter controle van de manipulatie):

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    38

    Appendix 4: powerpointpresentatie luistertest.

    Invloed van prosodie op spraakverstaanbaarheid

    Celine Bernaerdt en Glabeke Sibelijn

    Master logopedische en audiologische wetenschappen

    Promotor: Prof. Dr. P. Corthals

    Een woordje uitleg…

    Wat is de invloed van prosodie op de spraakverstaanbaarheid?

    • Spraakverstaanbaarheid = hoe goed je verstaat wat iemand zegt.

    • Prosodie is onder andere:

    – Intonatie

    – Luidheid of spraaksterkte

    – Duur van de lettergrepen

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals

    Vb. : Hij heeft zijn lesje niet geleerd.

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals

    Een woordje uitleg…DUS, verandert het spraakverstaanwanneer …

    • het intonatiepatroon (hogere/ lagere toonhoogte) wordt verwijderd?

    monotonie

    • de natuurlijke variatie in luidheid wordt afgevlakt?

    • de duur van de lettergrepen wordt gelijkgesteld?Celine Bernaerdt en Glabeke Sibelijn

    Master logopedische en audiologische wetenschappen afstudeerrichting audiologie Promotor Prof. Dr. P. Corthals

    We gaan van start met een kleine gehoorstest:

    U krijgt een reeks cijfertjes te horen, die steeds stiller en stiller wordt.

    Gelieve de cijfers in te vullen op het antwoordblad in de daarvoor voorziene hokjes, van links naar rechts.

    Geen paniek wanneer u de cijfers niet meer hoort of niet alle hokjes kan invullen, dat is normaal!

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals

    Gehoorstest De cijfers worden gedicteerd door een computerstem, deze kan vreemd klinken.

    Gelieve de cijfertjes hier in te vullen, van links naar rechts .

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals

    Luistertest

    U krijgt een aantal zinnen te horen waarvan telkens het laatste woord ontbreekt.

    De opgaven kan u zien op het scherm, alsook op uw antwoordformulier.

    Gelieve het ontbrekende woord in de voorziene ruimte in te vullen.

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals

    Indien u niet 100% zeker bent, schrijft u op wat u denkt te horen, ook al is dit maar een deel van het woord.

    Het is mogelijk dat sommige zinnen moeilijker te verstaan zijn dan andere.

    U krijgt elke zin 1 maal te horen.

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals

  • INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID

    39

    Bij elke zin ziet u een schaalverdeling, gelieve het meest passende cijfer te omcirkelen.

    0 = helemaal niet verstaanbaar, erg moeilijk verstaanbaar

    4 = perfect verstaanbaar, gemakkelijk verstaanbaar

    Het gaat opnieuw om een ietwat vreemde computerstem.

    Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie

    Promotor Prof. Dr. P. Corthals