Invloed van prosodie op de spraakverstaanbaarheid...LOGOPEDIE EN AUDIOLOGIE Ondergetekenden Celine...
Transcript of Invloed van prosodie op de spraakverstaanbaarheid...LOGOPEDIE EN AUDIOLOGIE Ondergetekenden Celine...
-
Faculteit Geneeskunde en Gezondheidswetenschappen
Academiejaar 2010- 2011
Invloed van prosodie op de spraakverstaanbaarheid
Celine Bernaerdt en Sibelijn Glabeke
Promotor: Prof. Dr. P. Corthals
Scriptie voorgedragen tot het behalen van de graad van „Master in de Logopedische en Audiologische
Wetenschappen, afstudeerrichting Audiologie‟.
-
Faculteit Geneeskunde en Gezondheidswetenschappen
Academiejaar 2010- 2011
Invloed van prosodie op de spraakverstaanbaarheid
Celine Bernaerdt en Sibelijn Glabeke
Promotor: Prof. Dr. P. Corthals
Scriptie voorgedragen tot het behalen van de graad van „Master in de Logopedische en Audiologische
Wetenschappen, afstudeerrichting Audiologie‟.
-
VERKLARING PUBLICATIE EN VERMOGENSRECHTEN MASTERPROEF
LOGOPEDIE EN AUDIOLOGIE
Ondergetekenden Celine Bernaerdt en Sibelijn Glabeke,
geboortedatum: respectievelijk 19/06/1989 en 08/12/1989,
stamnummer: respectievelijk 00702275 en 00703611
studentes aan de opleiding logopedie en audiologie van de Universiteit Gent
verklaren hierbij:
Alle rechten m.b.t. publicatie en verspreiding van onderzoeksresultaten verzameld in het
kader van deze masterproef
en
alle vermogensrechten op de onderzoeksresultaten verzameld in het kader van deze
masterproef over te dragen aan de Universiteit Gent vertegenwoordigd door zijn/haar
promotor.
Datum: vrijdag 17 juni 2011
Handtekening:
-
Dankwoord
Graag willen we een aantal mensen bedanken voor hun hulp en steun bij het tot stand komen
van deze thesis.
Eerst en vooral willen we onze promotor Prof. Dr. P. Corthals bedanken voor de begeleiding,
de raad en de opmerkingen bij het schrijven van deze scriptie.
Lic. Hofman Annelies (hoofdmedewerkster van de vakgroep elektronica en
informatiesystemen) willen we graag bedanken voor haar uitstekende hulp bij onze zoektocht
naar de nodige literatuur.
Daarnaast willen we ook onze familie bedanken omdat ze ons de kans gegeven hebben deze
studies te voltooien en ons daarin zijn blijven steunen. Dank je wel aan iedereen die onze
thesis heeft nagelezen en zo heeft geholpen bij de correctie ervan.
Nog vele anderen verdienen onze dank- voornamelijk onze vrienden en alle deelnemers van
ons onderzoek- voor hun interesse, hulp en suggesties.
-
Inhoudsopgave
Abstract ...................................................................................................................................... 1
Inleiding ..................................................................................................................................... 2
Methode ...................................................................................................................................... 8
Proefpersonen ......................................................................................................................... 8
Testmateriaal .......................................................................................................................... 8
Proefopzet ............................................................................................................................. 11
Score ..................................................................................................................................... 12
Resultaten ................................................................................................................................. 12
Transcriptiescores ................................................................................................................. 13
Beoordelingsscores ............................................................................................................... 17
Discussie ................................................................................................................................... 20
Transcriptiescores ................................................................................................................. 20
Beoordelingsscores ............................................................................................................... 24
Conclusie .................................................................................................................................. 25
Referenties ................................................................................................................................ 26
Appendices ............................................................................................................................... 28
Appendix 1: overzicht van alle permutaties per versie. ........................................................ 28
Appendix 2: voorbeeld antwoordformulier. ......................................................................... 30
Appendix 3: manipulaties in Praat (Boersma, Paul & Weenink, David (versie 5.1.44) ) .... 34
Appendix 4: powerpointpresentatie luistertest. .................................................................... 38
Appendix 5: aantal fonemen van het finale (ontbrekende) woord. ...................................... 43
Appendix 6: voorkomen van de manipulaties per signaal- ruisverhouding. ........................ 44
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
1
Abstract
Met dit onderzoek wordt nagegaan of en in hoeverre het spraakverstaan verandert wanneer a) het
intonatiepatroon verwijderd wordt, b) de natuurlijke variatie in luidheid afgevlakt wordt, c) de duur
van de lettergrepen gelijkgesteld wordt of een combinatie van deze ingrepen uitgevoerd wordt. Dit
effect wordt zowel in normale (zonder toegevoegde ruis) als in moeilijke luisteromstandigheden (SNR
+ 5 dB, SNR + 15 dB) onderzocht. Bovendien werd hierbij een subjectieve beoordelingsscore
(vijfpuntenschaal) van de proefpersonen geregistreerd. De eigenlijke test ging van start met een
gehoorscreening, dit om niet- normaalhorende personen te elimineren uit de dataset. Daarop volgde
een luistertest waarbij prosodisch gemanipuleerde zinnen aangeboden werden, al dan niet in ruis. De
proefpersonen kregen de opdracht het ontbrekende finale woord in te vullen en vervolgens aan te
geven hoe zeker ze waren van hun antwoord. Uit statistische analyse bleek dat prosodische
manipulaties geen effect teweeg brengen in stilte. In ruis daarentegen, worden temporele variatie en
intonatie steeds belangrijker, wat zich vertaalt in significante verschillen tussen het originele
spraakstaal en de gemanipuleerde zinnen in dezelfde signaal- ruisverhouding. De beoordelingsscores
volgen dezelfde trend. Hieruit kan besloten worden dat prosodische kenmerken in een stille omgeving
van belang zijn voor de expressie en de natuurlijkheid van de spraak, in ruis daarentegen zijn het
relevante linguïstische cues voor het spraakverstaan.
The purpose of this research is to investigate whether and to what extent the intelligibility of speech
alters when a) the intonation pattern is removed, b) the natural variation in loudness is flattened, c) the
duration of the syllables is equated, or a combination of these interventions is carried out. The effect of
the above mentioned manipulations was examined in both normal (no added noise) as in difficult
listening conditions (SNR + 5 dB, SNR + 15 dB). Moreover, a subjective assessment score (five points
scale) from the test persons was registered. The actual test started with a hearing screening, this to
eliminate the non- normal hearing persons from the database. This was followed by a listening test in
which phrases were offered with an altered prosody, whether or not in noise. The subjects were
instructed to fill out the missing final word and to indicate how sure they were of their answer.
Statistical analysis showed that these prosodic manipulations have no effect in silence. Contrarily, in
noise, the natural temporal variation and intonation become more important which translates into
significant differences between the original speech and the manipulated sentences in the same SNR.
The assessment scores follow the same trend. It may be decided that in silence these prosodic
characteristics are important for the expression and the naturalness of speech, in noise on the other
hand they are relevant linguistic cues for speech understanding.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
2
Inleiding
Spraakverstaanbaarheid kan gedefinieerd worden als datgene van de geproduceerde
spraak dat door de luisteraar wordt verstaan (Yorkston, 1996). Het is een product van een
serie interactieve processen zoals articulatie, fonatie, resonantie en prosodie (De Bodt,
Hernández- Díaz Huici & Van De Heyning, 2002).
Prosodie is de verzamelterm voor suprasegmentele kenmerken die de natuurlijke
spraak begeleiden. Het akoestisch correlaat van prosodie is een combinatie van de
fundamentele frequentie (toonhoogte) van de stemhebbende fragmenten in de uiting, de
akoestische energie of amplitude (volume/luidheid) en de duur van de opeenvolgende
lettergrepen (in bijzonder de lengte van de klinkerkern). Deze prosodische kenmerken komen
samen voor en vormen tot op zekere hoogte een redundant systeem. Dit impliceert dat de
afwezigheid van elk prosodisch kenmerk gedeeltelijk kan gecompenseerd worden door de
aanwezigheid van de andere kenmerken (Hoyte, Brownell & Wingfield, 2010). Met andere
woorden: het verlies of het verwijderen van één kenmerk resulteert niet noodzakelijk in een
verwaarloosbare bijdrage van de prosodie in de verstaanbaarheid (Wingfield, Lombardi &
Sokol, 1984).
Ter illustratie van de onderlinge verwevenheid van de elementen van prosodie het volgende
voorbeeld: een stemsterkteverheffing met het oog op een beklemtoonde lettergeep wordt
gerealiseerd via een grotere subglottale druk, hetgeen meer mediale compressie van de
stembanden vergt. Dit stembandmaneuver verhoogt de rigiditeit en daardoor de
eigenfrequentie van de stembanden, wat aanleiding geeft tot een hogere toonhoogte.
Hoyte et al. (2010) onderzochten de redundantie van de prosodiecomponenten op
zinsniveau.
In een eerste experiment verwijderden ze één akoestisch kenmerk en lieten de overige twee
kenmerken intact. De luisterproef bevatte dus zinnen met ofwel een gereduceerde
amplitudevariatie, ofwel een gereduceerde toonhoogtevariatie, ofwel een gereduceerde
temporele variatie. Zowel de accuraatheid (de proefpersonen moesten een woord uit de zin
herhalen, namelijk het subject dat beschreven werd) als de latentie van de responsen werden
onderzocht. Men stelde vast dat het wegnemen van één prosodisch kenmerk nog steeds een
hoge accuraatheid toeliet, wat de redundantie van het prosodisch systeem aantoont. Daarnaast
vond men een verschil in latentietijden, wat wijst op een hiërarchie in de relatieve waarde van
de drie onderzochte prosodische kenmerken. Het meest informatieve kenmerk, het kenmerk
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
3
dat bij afwezigheid de langste latentietijd uitlokte, was de temporele variatie, gevolgd door de
toonhoogtevariatie. De amplitudevariatie bleek het minst waardevolle kenmerk te zijn.
In een tweede experiment werden twee akoestische kenmerken simultaan gereduceerd, terwijl
nog slechts één kenmerk intact bleef. Dit resulteerde in een merkbaar tragere identificatie van
de doelwoorden, voornamelijk wanneer de amplitudevariatie het enige intacte prosodische
kenmerk was.
Dit onderzoek werd zowel bij oudere als jongere Engelstalige proefpersonen uitgevoerd. Een
vergelijking van beide groepen leerde dat ouderen even goed gebruik maken van prosodie om
het begrip op zinsniveau te faciliteren. Oudere personen behouden eveneens hetzelfde patroon
van relatieve weging van de prosodische kenmerken als jongeren. Daaruit volgt dat de
redundantie van het prosodische systeem bijdraagt tot de robuustheid van de syntactische
ontleding (ook bij oudere personen), en dit wellicht voor de meeste talen.
De relatie tussen verstaanbaarheid en afzonderlijke prosodische kenmerken was eerder
al onderzocht door Wingfield et al. (1984) die tot de vaststelling kwamen dat geresynthiseerde
spraak met een minimale variatie van de fundamentele frequentie minder verstaanbaar was
dan spraak met een ongemanipuleerde fundamentele frequentie (F0).
Dit fenomeen werd later verder onderzocht door Laures en Weismer (1999). Ook zij vonden
dat de transcriptiescores en het luisteraarsoordeel (Hoe verstaanbaar is de uiting op een
zevenpuntenschaal met 1 gelijk aan 0% en 7 gelijk aan 100% verstaanbaar?) bij zinnen met
een afgevlakte F0- contour significant lager waren vergeleken bij zinnen met een natuurlijk
variërende F0. Het feit dat monotonie de spraakverstaanbaarheid aantast, wordt verklaard
door het ontbreken van de stijgingen en dalingen van de F0- contour die in normale
omstandigheden de aandacht van de luisteraar naar de inhoudswoorden trekken. Bovendien
schaadt monotonie de herkenbaarheid van de klinkers aangezien een vlakke F0 zorgt voor een
constante harmonische spreiding tussen de formantpieken, in tegenstelling tot een variabele
F0 die de densiteit van de harmonischen in bepaalde gebieden verhoogt en verlaagt. Intonatie
lijkt dus ook een belangrijke rol te spelen in de perceptie van segmentele informatie zoals
klinkeridentiteit en syllabenklemtoon.
Watson en Schlauch (2008) onderzochten niet de invloed van de variatie van de
fundamentele frequentie in de tijd, maar wel van de precieze waarde van F0 zelf (laag of
hoog). Hun studie testte de hypothese dat de spectrale afstand tussen de harmonischen van F0
het spraakverstaan beïnvloedt. Daartoe kregen de luisteraars monotone zinnen te horen met
F0‟s die zich in het lage, midden en hoge uiteinde van het normale F0- bereik bevinden.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
4
Dit experiment wees uit dat de precieze waarde van F0 slechts een kleine rol speelt in de
vermindering van de spraakverstaanbaarheid in spraakfragmenten met een afgevlakte F0-
contour. De spraakverstaanbaarheid was wel omgekeerd evenredig met de waarde van F0, wat
wil zeggen dat een lagere F0 zorgt voor een grotere spraakverstaanbaarheid dan een hogere
F0. Maar de verandering in prestatie ten gevolge van de F0- hoogte op zich was klein. Men
kan dus concluderen dat het gebrek aan F0- variatie, en niet de absolute waarde van F0, het
meest bijdraagt tot de vermindering van spraakverstaanbaarheid.
Laures en Bunton (2003) deden onderzoek naar de perceptuele effecten van een
afgevlakte F0 op zinsniveau in bemoeilijkte luisteromstandigheden. Daaruit bleek dat een
vlakke F0- contour de spraakverstaanbaarheid negatief beïnvloedt, ongeacht het type
achtergrondlawaai (witte ruis of multi-speaker babble). Daarenboven waren er meer
transcriptiefouten bij finale woorden ten opzichte van initiële, wat een direct gevolg is van de
invariantie van F0 aangezien de zinnen een lage voorspelbaarheidgraad hadden en dus
nauwelijks contextuele cues bevatten.
Men merkte ook op dat individuele sprekers in verschillende mate beïnvloed werden door een
afgevlakte F0- contour, maar, wellicht omwille van de kleine steekproefgrootte, kon men geen
significante leeftijds- of gendereffecten aantonen.
Een gelijkaardig onderzoek werd uitgevoerd door Binns en Culling (2007). Zij
achterhaalden dat het inverteren van de F0- contour de spraakverstaanbaarheid significant
verminderde ten opzichte van de ongemodificeerde conditie. Bovendien bleek dat het
aanbieden van slechts 50 % van de variatie van de originele F0- contour, voldoende is voor
accuraat spraakverstaan.
Miller, Schlauch en Watson (2010) concludeerden dat elke afwijking van een typisch
geïntoneerd F0- patroon een nadelig effect heeft op het spraakverstaan in ruis. In dit
onderzoek verminderde de spraakverstaanbaarheid met 13 % bij het afvlakken of het
overdrijven van de F0- contour, terwijl het inverteren of een frequentiemodulatie (dit is het
afvlakken van de F0- contour en deze vervolgens moduleren op 2,5 en 5,0 Hz) van de F0-
contour de spraakverstaanbaarheid verder liet dalen met 23 %.
Een mogelijke verklaring is dat frequentiemodulatie of inverteren van de F0- contour het
normale beklemtoningpatroon van de woorden in een zin vernietigt (namelijk het
klemtonenpatroon van de syllaben binnen een woord). Dit weerhoudt de luisteraars ervan
accuraat woordgrenzen te bepalen, wat aanleiding geeft tot een verminderde
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
5
spraakverstaanbaarheid.
Dit blijkt ook uit het cohortmodel uit de psycholinguïstiek: woordherkenning gebeurt
minstens voor een deel door eliminatie van de woordkandidaten die men verwacht. Deze
eliminatie gebeurt onder andere op basis van woordlengte en woordklemtoon. Bij het
afvlakken van de F0- contour krijgen alle woorden uit de zin dezelfde F0 en wordt de zin dus
geneutraliseerd. Een overdreven F0- contour kan de verstaanbaarheid bij normaalhorende
personen mogelijks verminderen omdat dit overdreven intonatiepatroon interfereert met de
fijnstructuur van de zinnen. Gehoorgestoorde personen daarentegen hebben voor de
identificatie van een benadrukt zinsdeel grotere frequentiesprongen (factor 1,5 – 6) nodig in
de intonatiecontour (Grant, 1987).
Uit het vorige kan besloten worden dat incorrecte of misleidende linguïstische cues
gerelateerd aan intonatie (inverteren of frequentiemodulatie van F0) een groter nadelig effect
hebben op de spraakverstaanbaarheid dan plausibele1 linguïstische cues
(afvlakken/overdrijven van F0).
Bunton en Kent (2001) onderzochten de relatie tussen F0- variabiliteit en
verstaanbaarheid van personen met motorische spraakstoornissen. Het ging om twee types
van dysartrie: patiënten met de ziekte van Parkinson die lijden aan hypokinetische dysartrie
waarbij prosodische inadequaatheid voorkomt in combinatie met verminderde articulatie en
patiënten met Unilateral Upper Motor Neuron dysartrie (UUMND) ten gevolge van een CVA.
Deze laatste groep vertoont articulatorische onnauwkeurigheid zonder prosodische
problemen. In het onderzoek werd ook een controlegroep opgenomen die bestond uit
neurologisch normale sprekers.
Normale sprekers hebben typisch een F0- bereik van 70 tot 150 Hz, sommige types van
dysartrie daarentegen worden gekenmerkt door een gebrek aan F0- variatie. Wanneer het F0-
bereik van het taalmateriaal van zowel de normale sprekers als van diegene met een
neurologische aandoening verkleind werd (25, 50 of 100% afgevlakt), bleek dat er voor alle
drie de categorieën sprekers een vermindering in transcriptie- en luisteraaroordeelscores
optrad. De luisteraaroordeelscore werd ook hier bepaald aan de hand van een 7- puntenschaal
met gelijke intervallen, waarbij één stond voor onverstaanbaar en zeven voor perfect
verstaanbaar. De daling van beide scores was des te groter bij personen wiens articulatorische
precisie afgenomen was, wat suggereert dat het intonatie- effect afhankelijk is van het type
1 De term „plausibel‟ geeft aan dat personen deze zelf kunnen genereren met hun eigen stem zonder daarvoor het
spraakstaal met een spraakbewerkingsprogramma te hoeven manipuleren.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
6
dysartrie (hypokinetische dysartrie zorgde voor lagere scores dan UUMND). Verder werd er
geen kritische waarde van F0- variabiliteit gevonden, wat betekent dat er een graduele
vermindering van de transcriptiescores optrad bij een afnemende F0- variabiliteit. Hieruit kan
men afleiden dat zelfs een minimale F0- variatie en de daaruit resulterende syllabencontrasten
belangrijk zijn voor de verstaanbaarheid. Er wordt dus aangenomen dat een verbetering van
de prosodische kenmerken (en dan voornamelijk de F0- variatie) resulteert in een toegenomen
spraakverstaanbaarheid. Daarom is prosodie de primaire focus van de behandeling van
verschillende types dysartrie (Laures & Bunton, 2003).
Prosodie is bovendien een belangrijke factor in het aanleren van spraak aan
gehoorgestoorde personen. Zo wordt de spraak van prelinguaal dove kinderen op prosodisch
vlak gekenmerkt door (Baudonck, Beukers, Gillebert & Van Lierde, 2009): een trager
spreektempo door meer of langere pauzes, verlenging van fonemen, een foutieve
beklemtoning (Stark & Levitt, 1974) en een afwijkende fonatie (Levitt, 1972). Daarnaast is
ook het gebrek aan F0- variatie kenmerkend voor de spraak van gehoorgestoorde personen
(Maasen & Povel, 1984). Maasen en Povel (1984) demonstreerden dat de
spraakverstaanbaarheid van een gehoorgestoorde verbeterde met een
computergeïmplementeerde correctie van de F0- contour.
In dit onderzoek wordt de duur van de verschillende lettergrepen in een zin gelijk
gesteld. Over de interactie tussen de duur van de opeenvolgende lettergrepen en de
spraakverstaanbaarheid is minder bekend.
Andere vormen van „time- altered speech‟ werden wel al beschreven. Zo deden Konkle,
Beasley en Bess (1977) onderzoek naar versnelde spraak. Hiertoe werden zinnen 0, 20, 40 of
60 % gecomprimeerd in de tijd. Het effect van deze tijdscompressie op het auditieve
perceptiesysteem werd nagegaan bij personen van verschillende leeftijdscategorieën in functie
van de spraaksterkte (in dBSL), linkeroor versus rechteroor en geslacht. Hieruit bleek dat de
discriminatiescores achteruitgingen bij toename van de tijdscompressie, toename van de
leeftijd of daling van de spraaksterkte (in dBSL). Op hogere niveaus van temporele distorsie
kon een kleine vermindering in spraaksterkte resulteren in een significante vermindering van
de perceptuele accuraatheid, voornamelijk bij oudere luisteraars. Een groter percentage van
tijdscompressie speelt een meer prominente rol wanneer de leeftijd stijgt, met andere woorden
de moeilijkheden met versnelde spraak stijgen in functie van de leeftijd. Verder bleek een
licht voordeel voor het rechteroor en geen verschil in prestaties voor mannen versus vrouwen.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
7
Algemeen kan men concluderen dat oudere luisteraars het moeilijk hebben met het
perceptueel verwerken van spraak die gecomprimeerd is in de tijd en deze moeilijkheden
nemen nog toe met stijgende leeftijd. Dit zou te wijten zijn aan veranderingen in het centrale
auditieve systeem, aangezien discriminatiescores voor spraak die 0 % gecomprimeerd is in de
tijd gelijk waren voor de vier leeftijdsgroepen.
Naar de invloed van het afvlakken van de luidheidsvariatie op de
spraakverstaanbaarheid werd er beduidend minder onderzoek verricht. Tot op heden is er
enkel een recente studie (Hoyte et al., 2010) die aantoonde dat er slechts een beperkte invloed
is van een gereduceerde amplitudevariatie op het spraakverstaan van zinnen.
Met dit onderzoek wordt nagegaan of en in hoeverre het spraakverstaan verandert
wanneer a) het intonatiepatroon verwijderd wordt (toonhoogtevariatie), b) de natuurlijke
variatie in luidheid afgevlakt is (amplitudevariatie), c) de duur van de lettergrepen
gelijkgesteld is (temporele variatie) of d) een combinatie van deze ingrepen uitgevoerd wordt.
Dit effect wordt zowel in normale (zonder toegevoegde ruis) als in moeilijke
luisteromstandigheden (SNR + 5 dB, SNR + 15 dB) onderzocht.
Verder wordt ook nagegaan of, indien er een effect aanwezig is, dit effect door de luisteraar
subjectief gepercipieerd wordt. Dit wordt gedaan aan de hand van een
vijfpuntenbeoordelingsschaal.
Als laatste wordt onderzocht of er een verschil in scores optreedt tussen „professionals‟
(logopedist, audioloog, leerkracht, taal- en letterkundige) en leken.
Op basis van voorgaande onderzoeken kan men verwachten dat in stilte spraak met
gealterneerde prosodische kenmerken even verstaanbaar zal zijn als ongemanipuleerde
spraak. Pas bij het toevoegen van ruis verwacht men een verschil op te merken. Zo gaan we er
van uit dat het manipuleren van 3 kenmerken een grotere invloed zal hebben dan het
manipuleren van 2 kenmerken. Wat op zijn beurt een grotere nadelig effect zal hebben op de
spraakverstaanbaarheid dan het alterneren van 1 prosodisch kenmerk. Vermoedelijk zal de
toonhoogtevariatie naar voor komen als het meest informatieve kenmerk, respectievelijk
gevolgd door de temporele variatie en de amplitudevariatie.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
8
Methode
Proefpersonen
In het totaal namen 118 proefpersonen deel aan het onderzoek, waarvan 52 mannen en
66 vrouwen. De test werd afgenomen in vier verschillende versies (zie testmateriaal): bij 33
proefpersonen werd versie 1 gebruikt, 18 proefpersonen vervolledigden versie 2, 35
proefpersonen ondergingen versie 3 en 32 proefpersonen versie 4.
De leeftijd van de testpersonen varieerde van 9 jaar en 1 maand tot 81 jaar en 3 maanden met
een gemiddelde van 23 jaar en 9 maanden. Er werd een onderverdeling gemaakt naargelang
de taalervaring van de individuen: 89 personen werden geclassificeerd als „leek‟ en 29 als
„professional‟ (logopedist, audioloog, leerkracht, taal- en letterkundige…).
Een tweede classificatie bestond erin de normaalhorende personen te scheiden van de niet-
normaalhorenden, respectievelijk 102 en 16 proefpersonen.
De proefpersonen werden gerekruteerd via kennissen (telefonisch, via e- mail…) en
namen vrijwillig deel aan de test onder belofte van een volledig anonieme verwerking van de
gegevens. De inclusiecriteria voor dit onderzoek omvatten: Nederlands als moedertaal
hebben, kunnen lezen en schrijven, normaalhorend zijn en tot slot van zodanige leeftijd zijn
dat ze de opdracht kunnen begrijpen.
Testmateriaal
De originele audiofragmenten bestaan uit 24 zinnen, gegenereerd aan de hand van een
text- to- speech- algoritme (het “Nextens- algoritme”). Deze zinnen werden met Praat
(Boersma, Paul & Weenink, David (versie 5.1.44) ) bewerkt om per zin 8 verschillende
versies te bekomen. Deze bewerkingen, die op verschillende prosodische spraakkenmerken
ingrijpen, waren: (a) de F0- contour afvlakken waardoor monotonie ontstaat, (b) de
natuurlijke variatie in luidheid afvlakken waardoor de beklemtoning genivelleerd wordt, (c)
de duur van de lettergrepen gelijkstellen waardoor temporele accenten geattenueerd worden of
(d) een combinatie van deze manipulaties.
De F0- contour werd afgevlakt met behulp van een script (P. Corthals) in Praat; om de
luidheid van de klinkerkernen terug te brengen tot het 50ste
percentiel van de luidheid van de
gehele uitdrukking, werd eveneens een script (P. Corthals) gebruikt in Praat. De gelijke duur
van de lettergrepen tenslotte, werd per zin handmatig aangepast in Praat (Boersma, Paul &
Weenink, David (versie 5.1.44)).
De realisatie van deze laatste modaliteit omvat de volgende bewerkingen: allereerst werd de
duur van de volledige zin bepaald, daarna werd het aantal lettergrepen geteld. De duur van de
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
9
volledige zin werd gedeeld door het aantal lettergrepen, wat de gemiddelde duur per
lettergreep oplevert. In Praat (Boersma, Paul & Weenink, David (versie 5.1.44)) werd aan de
hand van het oscillogram voor elke lettergreep afzonderlijk de relatieve duur bepaald door de
gemiddelde duur van de lettergrepen te delen door de duur van de desbetreffende lettergreep.
De relatieve duur werd vervolgens ingevoerd in Praat (Boersma, Paul & Weenink, David
(versie 5.1.44)): indien deze groter was dan één (de lettergreep is met andere woorden korter
dan de gemiddelde duur van de lettergrepen van die zin) werd de lettergreep verlengd.
Omgekeerd, indien de relatieve duur minder dan één bedroeg, werd de lettergreep verkort
(zie figuur 1).
Figuur 1: aanpassen van de duur van de lettergrepen in de zin „Het slot is kapot.‟.
Om de luistercondities realistischer te maken en een plafondeffect in de resultaten te
voorkomen, werd met gebruik van een script in Praat (P. Corthals) witte ruis toegevoegd aan
de zinnen in de verschillende modaliteiten waardoor ze allemaal een SNR hadden van + 5 dB.
Uit een pilootstudie (12 zinnen zonder ruis en 12 zinnen met SNR + 5 dB) met 1 proefpersoon
bleek dat de scores voor de zinnen zonder ruis allemaal perfect waren en daarom werd
besloten een tweede ruisconditie toe te voegen met een signaal- ruisverhouding van + 15 dB.
Samenvattend: van de 24 zinnen zijn er dus 12 met een SNR van + 5 dB, 6 zinnen met een
SNR van + 15 dB en 6 zinnen zonder ruis.
Resultaat: piek – verlengde duur lettergreep, dal – verkorte lettergreep
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
10
Om het volgorde-effect tegen te gaan, werd de volgorde van de zinnen in twee van de
vier versies omgekeerd, bijgevolg kwamen ook de ruiscondities in een andere volgorde voor
(zie appendix 1).
Als laatste ingreep werd de gemiddelde spraaksterkte van alle zinnen, in al hun
mogelijke vormen, gelijkgeschakeld. Voor illustraties van de bewerkingen in Praat (Boersma,
Paul & Weenink, David (versie 5.1.44)), zie appendix 3.
Met al het zinsmateriaal werd een luistertest van 24 zinnen opgesteld en dit in vier
verschillende versies (zie tabel 1, appendix 1 en appendix 2).
Tabel 1
Overzicht van alle permutaties in versie 1 van de luistertest
Zin 1 0 + Zin 9 0 x Zin 17 0 +
Zin 2 A + Zin 10 A Zin 18 A +
Zin 3 B + Zin 11 B Zin 19 B
Zin 4 C + Zin 12 C Zin 20 C
Zin 5 AB + Zin 13 AB + Zin 21 AB
Zin 6 AC + Zin 14 AC + Zin 22 AC x
Zin 7 BC x Zin 15 BC + Zin 23 BC x
Zin 8 ABC x Zin 16 ABC + Zin 24 ABC x
0= ongewijzigde zin
Aanpassing van 1 prosodisch kenmerk:
A= monotonie
B= afgevlakte luidheidsvariatie
C= gelijke duur van de lettergrepen
Aanpassing van 2 prosodische kenmerken:
AB= monotonie en afgevlakte luidheidsvariatie
AC= monotonie en gelijke duur van de lettergrepen
BC= afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen
Aanpassing van 3 prosodische kenmerken:
ABC= monotonie, afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen
Toevoeging van ruis:
+ = SNR + 5dB
x = SNR + 15dB
Niet alle zinnen werden in elke testconditie aangeboden, maar volgende factoren hielpen de
moeilijkheidsgraad per conditie zoveel mogelijk gelijk te houden: alle zinnen tellen tussen de
5 en 13 lettergrepen (gemiddeld 8 à 9 lettergrepen per zin), het aantal fonemen varieert tussen
14 en 34 (gemiddeld 23 à 24 fonemen per zin) en bij wijze van opgave wordt telkens het
finale woord weggelaten. Bovendien gaat het om eenvoudige zinnen uit het dagelijkse
taalgebruik en hebben de zinnen steeds de volgende zinsbouw: onderwerp- werkwoord-
bepaling/ lijdend voorwerp, de enige uitzondering hierop is „’s zondags kopen ze altijd
broodjes’. De priming is echter verschillend: bij enkele zinnen (bijv. „Fantasie kent geen…‟)
kan met grotere zekerheid de oplossing voorspeld worden. Om dit effect na te gaan, werd een
korte „voorstudie‟ uitgevoerd waarbij aan enkele personen gevraagd werd het finale woord in
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
11
te vullen zonder de zinnen gehoord te hebben. Hieruit kon men afleiden dat 4 op 24 woorden2
correct geïdentificeerd werden. De overeenkomstige zinnen werden echter niet uit de
luistertest verwijderd.
Proefopzet
De proefpersonen kregen eerst uitleg over het doel van de test door middel van een
powerpointpresentatie (zie appendix 4). Ze werden geïnformeerd over het verloop van de test:
eerst een kleine gehoorscreening en daarop volgend de luistertest.
De gehoortest, namelijk een reeks cijfers die genoteerd moesten worden, werd eerst
samengesteld in Praat (Boersma, Paul & Weenink, David (versie 5.1.44)): er werd een vast
tijdsinterval (1s) tussen de verschillende cijfers bepaald en de intensiteit van de
opeenvolgende cijfers werd telkens met 5 dB verminderd. Deze cijfers werden aangeboden
via de luidsprekers van een computer met het luidheidsniveau van de luidsprekers zo
afgeregeld dat een bevestigd normaalhorende persoon op een afstand van twee meter van de
luidsprekers, steeds 25 cijfers van de 30 kon noteren. Een proefpersoon werd als
normaalhorend beschouwd indien deze minimum 20 cijfers correct identificeerde.
Bij de luistertest kregen de proefpersonen de opdracht het finale woord in te vullen op
een antwoordformulier (zie appendix 2) en eveneens op een visueel- analoge schaal aan te
geven hoe goed of gemakkelijk het woord te verstaan was. Deze schaal is een
vijfpuntenschaal met de annotaties “0” voor “onverstaanbaar” en “4” voor “perfect
verstaanbaar”. De proefpersonen werden erop attent gemaakt dat elke zin maar één keer zou
kunnen beluisterd worden en dat er een vast tijdsinterval van 15 seconden voorzien was
tussen de opeenvolgende zinnen. Om de proefpersonen de kans te geven aan de computerstem
te wennen en meteen ook het opzet van het onderzoek nogmaals te verduidelijken, werd een
familiarisatiefase voorzien met een drietal voorbeeldzinnen. De verschillen tussen individueel
en in groep geteste personen werden geminimaliseerd door alle proefpersonen op twee meter
van de computerluidsprekers te plaatsen, die telkens op hetzelfde luidheidsniveau van de
gehoortest werden afgeregeld. Deze testen werden afgenomen in een geluidsarme, rustige
omgeving.
44 proefpersonen uit het 3e middelbaar werden getest met een headset (‘Hama CS- 458’), dit
om de testduur te beperken en de klassamenstelling te kunnen behouden.
2 Dit was het geval bij volgende zinnen:
- Het slot is kapot. - De letter staat op zijn kop.
- Fantasie kent geen grenzen. - Het loket bleef lang gesloten.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
12
Score
Om de resultaten te beoordelen werd een foneemscore gehanteerd, met andere
woorden: voor elk finaal woord werd het aantal correcte fonemen gedeeld door het totaal
aantal fonemen van dit woord (zie appendix 5). Hierdoor ontstond een relatieve score van 0
tot en met 1. Deze scores werden gebruikt om de transcriptiescores voor de verschillende
modaliteiten in de uiteenlopende ruiscondities te bepalen. Aangezien niet elke versie een
gelijk aantal combinaties van modaliteiten en ruiscondities bevatte, werd een gemiddelde
berekend van de foneemscores, wat resulteerde in een einderesultaat van 0 tot en met 1 (ter
illustratie: tabel 2, voor een volledig overzicht: zie appendix 6).
Tabel 2
Berekening transcriptiescores voor elke modaliteit in stilte
versie 0 A B C AB AC BC ABC
1 komt niet
voor (…+…)/2 (…+…)/2
komt niet
voor
komt niet
voor
komt niet
voor
2 komt niet
voor
komt niet
voor
komt niet
voor (…+…)/2 (…+…)/2
komt niet
voor
3 (…+…)/2 (…+…)/2
komt niet
voor
komt niet
voor
komt niet
voor
komt niet
voor
4
komt niet
voor
komt niet
voor
komt niet
voor
komt niet
voor (…+…)/2 (…+…)/2
0= ongewijzigd
A= monotonie
B= afgevlakte luidheidsvariatie
C= gelijke duur van de syllaben
De proefpersonen vulden ook een subjectieve score in aan de hand van een visueel- analoge
schaal. Deze beoordelingsscores van de zinnen (0= niet verstaanbaar, 4= perfect verstaanbaar)
werden naar analogie van de transcriptiescores per combinatie van modaliteit en ruisconditie
verwerkt. (tabel 2 en appendix 6)
Resultaten
Proefpersonen die bij de gehoortest minder dan 20 cijfers van de 30 correct
identificeerden werden als niet- normaalhorend geclassificeerd en daarom uit alle
testresultaten gefilterd. Het betreft 16 proefpersonen van de 118.
Vooreerst werd de Kolmogorov- Smirnov test uitgevoerd om na te gaan of de
distributie van de gegevens voor elke variabele normaal verdeeld is. Deze test werd
afzonderlijk uitgevoerd voor de resultaten bekomen met de verschillende ruiscondities en
modaliteiten en zowel voor de transcriptiescores als voor de beoordelingsscores. Nagenoeg
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
13
alle resultaten waren significant verschillend en daarom werd de verdere analyse uitgevoerd
met niet- parametrische testen.
Transcriptiescores
Om na te gaan of professionals beter scoren dan leken, werd een Mann- Whitney U-
test (α = 0,05) uitgevoerd voor alle mogelijke combinaties van prosodische manipulaties en
ruiscondities met als „grouping variable‟ beroep. Bij deze test konden geen significante
verschillen tussen beide groepen worden aangetoond.
Dezelfde benadering werd gebruikt voor de vergelijking tussen resultaten bekomen in
het vrije veld en onder hoofdtelefoon, hier met free field (FF)/ hoofdtelefoon (HT) als
„grouping variable‟. Ook hier werden geen significante verschillen gevonden, met
uitzondering van de transcriptiescore voor „gelijke duur van de syllaben‟ in SNR + 15 dB.
Omwille van dit beperkt verschil (het verschil in gemiddelde score bedraagt 0,2 met de
laagste score voor personen getest in vrije veld), werd voor de verdere verwerking van de
gegevens geen opsplitsing gemaakt tussen proefpersonen die in vrije veld en onder
hoofdtelefoon werden getest.
Om het effect van de prosodische manipulaties na te gaan, werden gepaarde
vergelijkingen uitgevoerd aan de hand van de niet- parametrische Wilcoxon test3 (α = 0,05).
Om de richting van mogelijke significante verschillen (tweezijdig toetsen) te kunnen bepalen
werd er ook een descriptieve analyse gemaakt die de gemiddelden per conditie weergeeft.
Eerst en vooral werd voor elke conditie bepaald hoe schadelijk ze eigenlijk is vergeleken met
de normale standaard, dit is het originele taalmateriaal zonder enige prosodische ingreep. In
stilte konden geen significante verschillen aangetoond worden tussen de verschillende
prosodische ingrepen en de ongemanipuleerde conditie (zie tabel 3). De gemiddelde waarden
van de verschillende condities in stilte liggen dan ook heel dicht bijeen: ze variëren tussen
0,963 voor de originele conditie (ORIG) en 0,903 voor de conditie met monotonie in
combinatie met gelijke duur van de syllaben (INTONDUUR) (zie figuur 2 en tabel 3).
3 Enkele Wilcoxon testen leverden als resultaat „Unable to compute‟ op. Hier gaat het inderdaad om gepaarde
vergelijkingen die niet uitgevoerd kunnen worden. Bij de testen in kwestie gaat het om twee variabelen waarvoor
eenzelfde proefpersoon voor een van de twee variabelen geen data [999,0 (missing value)] heeft.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
14
0,5
0,6
0,7
0,8
0,9
1
VG
LBA
SIS
tran
scrO
RIG
tran
scrI
NTO
N
tran
scrK
LEM
T
tran
scrD
UU
R
tran
scrI
NTO
NK
LEM
T
tran
scrI
NTO
ND
UU
R
tran
scrK
LEM
TDU
UR
tran
scrI
NTO
NK
LEM
TDU
UR
tran
scrO
RIG
tran
scrI
NTO
N
tran
scrK
LEM
T
tran
scrD
UU
R
tran
scrI
NTO
NK
LEM
T
tran
scrI
NTO
ND
UU
R
tran
scrK
LEM
TDU
UR
tran
scrI
NTO
NK
LEM
TDU
UR
tran
scrO
RIG
tran
scrI
NTO
N
tran
scrK
LEM
T
tran
scrD
UU
R
tran
scrI
NTO
NK
LEM
T
tran
scrI
NTO
ND
UU
R
tran
scrK
LEM
TDU
UR
tran
scrI
NTO
NK
LEM
TDU
UR
STILTE SNR + 15 dB SNR + 5 dB
Tabel 3
Gepaarde vergelijking origineel - manipulaties in stilte (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG
(in stilte) 0.963
INTON 0.950 .062
KLEMT 0.960 .799
DUUR 1.000 /
INTONKLEMT 1,000 /
INTONDUUR 0.903 .080
KLEMTDUUR 0.930 .500
INTONKLEMTDUUR 0.915 .105
Figuur 2: Gemiddelde transcriptiescores voor elke conditie4.
De transcriptiescore van de prosodisch ongemanipuleerde zinnen in stilte (ORIG) is
significant verschillend van de scores van de volgende drie condities in SNR + 15 dB:
monotone zinnen (INTON_15SNR), zinnen met een gelijke duur van de syllaben
(DUUR_15SNR) en monotone zinnen waarbij de duur van de lettergrepen gelijkgesteld is
(INTONDUUR_15SNR) (zie tabel 4). Het toevoegen van ruis zorgt voor een algehele daling
in de transcriptiescores (zie figuur 2, midden). De gemiddelde waarden van de drie
significante moeilijkere condities liggen lager dan de gemiddelde waarde van het origineel,
alsook lager dan de gemiddelden van de condities die geen significant verschil opleverden.
Ook de twee condities die niet berekend konden worden in SNR + 15 dB, namelijk originele
4 De vergelijkingen die niet kunnen worden gemaakt, worden aangegeven door middel van „lege‟ staven. De
gearceerde staven geven een significant verschil weer met het originele, ongemanipuleerde spraakstaal in stilte.
Deze opmaak slaat op de resultaten die worden weergegeven in tabel 3, 4 en 5.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
15
zinnen (ORIG_15 SNR) en zinnen waarvan de drie prosodische kenmerken gewijzigd zijn,
(INTONKLEMTDUUR_15SNR)) volgen deze tendens (zie figuur 2 en tabel 4).
Tabel 4
Gepaarde vergelijking origineel - manipulaties in SNR + 15 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG
(in stilte) 0.963
ORIG_15SNR 0.633 /
INTON_15SNR 0.799 .019 *
KLEMT_15SNR 0.915 .070
DUUR_15SNR 0.808 .007 *
INTONKLEMT_15SNR 0.895 .096
INTONDUUR_15SNR 0.801 < .001 *
KLEMTDUUR_15SNR 0.844 1.000
INTONKLEMTDUUR_15SNR 0.540 /
* Geeft een significant verschillend resultaat aan.
In de moeilijkste luisterconditie (SNR + 5 dB) worden voor alle condities significante
verschillen vastgesteld ten opzichte van het origineel in stilte (zie tabel 5 en figuur 2).
Tabel 5
Gepaarde vergelijking origineel - manipulaties in SNR + 5 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG
(in stilte) 0.963
ORIG_5SNR 0.572 < .001 *
INTON_5SNR 0.689 < .001 *
KLEMT_5SNR 0.511 < .001 *
DUUR_5SNR 0.546 < .001 *
INTONKLEMT_5SNR 0.691 < .001 *
INTONDUUR_5SNR 0.444 < .001 *
KLEMTDUUR_5SNR 0.550 < .001 *
INTONKLEMTDUUR_5SNR 0.626 < .001 *
* Geeft een significant verschillend resultaat aan.
Ook deze ruisconditie zorgt voor een duidelijke vermindering van de transcriptiescores
voor de verschillende condities. Het toevoegen van meer ruis leidt tot een grotere daling van
de gemiddelde scores (zie figuur 2, rechts). De gemiddelde score behaald voor de originele
zinnen in stilte (ORIG; 0,963) neemt minimaal af tot 0,691 (INTONKLEMT_5SNR) en
maximaal tot 0,444 (INTONDUUR_5SNR) (zie figuur 2 en tabel 5).
Bovenstaande resultaten werden teweeg gebracht door de invloed van de ruis én van
de prosodische ingrepen. Om het effect van de prosodische manipulaties op zich na te gaan,
werden de gepaarde vergelijkingen aan de hand van een Wilcoxon test (α = 0,05) opnieuw
uitgevoerd. Ditmaal gebeurden alle vergelijkingen ten opzichte van het originele spraakstaal
in dezelfde signaal- ruisverhouding, waardoor het effect van de ruis teniet werd gedaan.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
16
Bij een signaal- ruisverhouding van + 15 dB is de transcriptiescore van de prosodisch
ongemanipuleerde zin in dezelfde SNR (ORIG_15SNR) significant verschillend van de
transcriptiescores bij: afgevlakte luidheidsvariatie (KLEMT_15SNR), monotonie in
combinatie met gelijkgestelde syllabeduur (INTONDUUR_15SNR) en afgevlakte
luidheidsvariatie gecombineerd met gelijke duur van de syllaben (KLEMTDUUR_15SNR)
(zie tabel 6). Opmerkelijk is dat de proefpersonen voor deze drie condities een hogere
gemiddelde score (respectievelijk 0,915; 0,801; 0,844) behaalden dan voor de originele
zinnen (0,633) in SNR + 15 dB. De enige manipulatie in SNR + 15 dB die voor een lagere
gemiddelde score zorgde ten opzichte van het origineel in SNR + 15 dB, was de conditie
waarbij alle drie de prosodische kenmerken gemanipuleerd werden
(INTONKEMTDUUR_15SNR; 0,540) (zie tabel 6).
Tabel 6
Gepaarde vergelijking in SNR + 15 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG_15 SNR 0.633
INTON_15SNR 0.799 .139
KLEMT_15SNR 0.915 .005 *
DUUR_15SNR 0.808 /
INTONKLEMT_15SNR 0.895 /
INTONDUUR_15SNR 0.801 .001 *
KLEMTDUUR_15SNR 0.844 .022 *
INTONKLEMTDUUR_15SNR 0.540 .139
* Geeft een significant verschillend resultaat aan.
In de moeilijkste luisterconditie (SNR + 5 dB) worden opnieuw enkele significante
verschillen vastgesteld ten opzichte van het origineel in dezelfde signaal- ruisverhouding
(ORIG_5SNR): monotone zinnen (INTON_5SNR), monotone zinnen met afgevlakte
luidheidsvariatie (INTONKLEMT_5SNR) en monotone zinnen met gelijke duur van de
syllaben (INTONDUUR_5SNR) (zie tabel 7). Voor monotone zinnen (0,689) en monotone
zinnen waarbij de natuurlijke luidheidsvariatie is afgevlakt (0,691) haalden de proefpersonen
een betere score dan voor de originele zinnen (0,572) in dezelfde SNR. Monotone zinnen
waarbij de lettergreepduur werd gelijkgesteld (0,444) zorgden voor een lagere gemiddelde
score, die tevens ook de aller laagste behaalde score is in dit onderzoek (zie tabel 7).
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
17
Tabel 7
Gepaarde vergelijking in SNR + 5 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG_5SNR 0.572
INTON_5SNR 0.689 .049 *
KLEMT_5SNR 0.511 .321
DUUR_5SNR 0.546 .515
INTONKLEMT_5SNR 0.691 .004 *
INTONDUUR_5SNR 0.444 .001 *
KLEMTDUUR_5SNR 0.550 .580
INTONKLEMTDUUR_5SNR 0.626 .294
* Geeft een significant verschillend resultaat aan.
Algemeen kan men stellen dat ingrepen op het vlak van het intonatiepatroon (al dan
niet in combinatie met een andere prosodische ingreep) het vaakst significant slechtere scores
opleveren. Het nivelleren van de natuurlijke luidheidsvariatie (al dan niet in combinatie met
een andere prosodische ingreep) is de manipulatie die resulteert in het laagste aantal
significant lagere scores.
Beoordelingsscores
Aanvankelijk werd aan de hand van een Mann- Whitney U- test (α = 0,05) nagegaan of
er verschillen optreden tussen professionals en leken alsook tussen de testomstandigheden
hoofdtelefoon en vrije veld, en dit voor alle mogelijke modaliteiten.
Tussen professionals en leken zijn er twee testcondities die een significant verschillend
resultaat opleveren: afgevlakte luidheidsvariatie in stilte en afgevlakte luidheidvariatie in
combinatie met gelijke duur van de syllaben in stilte. Bij de vergelijking hoofdtelefoon ten
opzichte van vrije veld werd een beperkt aantal significante verschillen teruggevonden.
Namelijk voor: afgevlakte luidheidsvariatie in stilte, gelijke duur van de syllaben in stilte,
monotone zinnen met afgevlakte luidheidsvariatie en zinnen met afgevlakte luidheidsvariatie
gecombineerd met gelijke duur van de syllaben in SNR + 5 dB. De gemiddelde scores met
hoofdtelefoon zijn lager dan deze in het vrije veld. Mogelijks wordt dit veroorzaakt door de
jonge leeftijd van de proefpersonen getest onder hoofdtelefoon (alle < 16 jaar). Omdat ook
hier weinig verschillen optraden tussen personen getest onder hoofdtelefoon en deze in vrije
veld, werd voor verdere verwerking van de gegevens (gepaarde vergelijkingen met Wilcoxon
test) geen opsplitsing gemaakt tussen beide testgroepen.
Ook hier werd het mogelijke effect van de prosodische manipulaties nagegaan door
middel van Wilcoxon testen (α = 0,05). Naar analogie met voorgaande resultaten werd er
vooreerst voor elke modaliteit in elke ruisconditie een vergelijking gemaakt met het originele
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
18
0
0,5
1
1,5
2
2,5
3
3,5
4
VG
LBA
SIS
OR
IG
INT
ON
KLE
MT
DU
UR
INT
ON
KLE
MT
INT
ON
DU
UR
KLE
MT
DU
UR
INT
ON
KLE
MT
DU
UR
OR
IG
INT
ON
KLE
MT
DU
UR
INT
ON
KLE
MT
INT
ON
DU
UR
KLE
MT
DU
UR
INT
ON
KLE
MT
DU
UR
OR
IG
INT
ON
KLE
MT
DU
UR
INT
ON
KLE
MT
INT
ON
DU
UR
KLE
MT
DU
UR
INT
ON
KLE
MT
DU
UR
spraakmateriaal in stilte. Dit gaf significante verschillen voor dezelfde prosodische
manipulaties als bij de transcriptiescores (zie tabel 3,4, 5 en 8, 9, 10). Bovendien was er ook
nog een significant verschil voor monotone zinnen in stilte (INTON), zinnen met een
afgevlakte luidheidsvariatie in SNR + 15 dB (KLEMT_15SNR), monotone zinnen met een
afgevlakte luidheidsvariatie in SNR + 15 dB (INTONKLEMT_15SNR) en zinnen met
gelijkgestelde lettergreepduur en afgevlakte luidheidsvariatie in SNR + 15 dB
(KLEMTDUUR_15SNR). Dit betekent concreet dat alle vergelijkingen die in ruis berekend
konden worden, zorgen voor een significant lagere score. In stilte levert enkel de beoordeling
van monotone zinnen een significant lagere score op (zie figuur 3).
Tabel 8
Gepaarde vergelijking origineel - manipulaties in stilte (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG
(in stilte) 3.355
INTON 3.017 .030 *
KLEMT 3.342 .495
DUUR 3.713 /
INTONKLEMT 3.800 /
INTONDUUR 2.952 .103
KLEMTDUUR 3.024 .179
INTONKLEMTDUUR 3.121 .179
* Geeft een significant verschillend resultaat aan.
Figuur 3: Gemiddelde beoordelingsscores per conditie5.
5De vergelijkingen die niet kunnen worden gemaakt, worden aangegeven door middel van „lege‟ staven. De
gearceerde staven geven een significant verschil weer met het originele, ongemanipuleerde spraakstaal in stilte.
Deze opmaak is enkel geldig voor de resultaten in tabel 8, 9 en 10.
STILTE SNR + 15 dB SNR + 5 dB
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
19
Tabel 9
Gepaarde vergelijking origineel - manipulaties in SNR + 15 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG
(in stilte) 3.355
ORIG_15SNR 1.188 /
INTON_15SNR 1.774 < .001 *
KLEMT_15SNR 2.167 < .001 *
DUUR_15SNR 1.282 < .001 *
INTONKLEMT_15SNR 1.992 < .001 *
INTONDUUR_15SNR 1.667 < .001 *
KLEMTDUUR_15SNR 1.925 < .001 *
INTONKLEMTDUUR_15SNR 1.138 /
* Geeft een significant verschillend resultaat aan.
Tabel 10
Gepaarde vergelijking origineel - manipulaties in SNR + 5 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG
(in stilte) 3.355
ORIG_5SNR 1.265 < .001 *
INTON_5SNR 1.588 < .001 *
KLEMT_5SNR 1.245 < .001 *
DUUR_5SNR 1.137 < .001 *
INTONKLEMT_5SNR 1.676 < .001 *
INTONDUUR_5SNR 0.897 < .001 *
KLEMTDUUR_5SNR 1.294 < .001 *
INTONKLEMTDUUR_5SNR 1.529 < .001 *
* Geeft een significant verschillend resultaat aan.
Vervolgens werden de Wilcoxon testen (α = 0,05) ook voor de beoordelingsscores
opnieuw uitgevoerd. De volgende vergelijkingen werden ten opzichte van het originele
spraakstaal in dezelfde signaal- ruisverhouding gemaakt, waardoor het effect van de ruis
uitgefilterd werd.
Tabel 11
Gepaarde vergelijking in SNR + 15 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG_15 SNR 1.188
INTON_15SNR 1.774 .035 *
KLEMT_15SNR 2.167 .003 *
DUUR_15SNR 1.282 /
INTONKLEMT_15SNR 1.992 /
INTONDUUR_15SNR 1.667 .004 *
KLEMTDUUR_15SNR 1.925 .004 *
INTONKLEMTDUUR_15SNR 1.138 .521
* geeft een significant verschillend resultaat aan.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
20
Tabel 12
Gepaarde vergelijking in SNR + 5 dB (Wilcoxon)
Gemiddelde Gemiddelde Significantieniveau
ORIG_5SNR 1.265
INTON_5SNR 1.588 .026 *
KLEMT_5SNR 1.245 .991
DUUR_5SNR 1.137 .297
INTONKLEMT_5SNR 1.676 .003 *
INTONDUUR_5SNR 0.897 .002 *
KLEMTDUUR_5SNR 1.294 .942
INTONKLEMTDUUR_5SNR 1.529 .039 *
* Geeft een significant verschillend resultaat aan.
De significante verschillen doen zich voor bij dezelfde prosodische manipulaties als
bij de transcriptiescores (zie tabel 6, 7, 11 en 12). Daarenboven is er een significant verschil
voor monotone zinnen in SNR + 15 dB (INTON_15SNR) en ook voor de zinnen met alle
prosodische manipulaties in SNR + 5 dB (INTONKLEMTDUUR_5SNR) werd een
significant verschil aangetoond dat niet aanwezig is bij de transcriptiescores.
Discussie
Uit de hoger vermelde resultaten blijkt dat tussen professionals en leken weinig of
geen verschillen optreden in transcriptiescores en beoordelingsscores. Proefpersonen met een
sprekersberoep (leraar) of een taalgerichte opleiding (logopedie, audiologie, taal- en
letterkunde…) scoren niet significant beter dan leken.
Transcriptiescores
In stilte worden geen significante verschillen teruggevonden voor de verschillende
prosodische ingrepen (zie tabel 3). Dit kan mede verklaard worden door de redundantie van
het zinsmateriaal: de context vereenvoudigt het mentale eliminatieproces van de mogelijke
woordkandidaten die stuk voor stuk courante Nederlandse woorden zijn. Bovendien gaat het
om normale spraak die nadien werd bewerkt en niet om afwijkende spraak ten gevolge van
een spraakstoornis. De statistische analyses werden eveneens uitgevoerd met de data van
normaalhorende proefpersonen, waardoor bij het beluisteren van het testmateriaal minder
linguïstische cues verloren gaan omwille van de betere temporele en spatiële
frequentieresolutie van het gehoor (in vergelijking met niet- normaalhorende personen).
Deze resultaten mogen met andere woorden niet veralgemeend worden naar het beluisteren
van afwijkende spraak of naar het beluisteren van normale spraak door gehoorgestoorde
personen.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
21
Het toevoegen van ruis zorgt voor een globale daling in transcriptiescores: hoe meer
ruis, hoe groter dit effect. Dit geeft aan dat spraakverstaan moeilijker wordt bij een slechtere
signaal- ruisverhouding.
Vooreerst beschouwen we de testresultaten bekomen door het uitvoeren van een
gepaarde Wilcoxon vergelijking tussen het originele taalmateriaal in stilte en de verschillende
gemanipuleerde condities in ruis (zie tabel 4 en 5). In SNR + 15 dB zorgt het wijzigen van
één prosodisch kenmerk enkel voor een significant lagere score indien het intonatie- of het
duurpatroon van de zinnen gemanipuleerd wordt (INTON_15SNR en DUUR_15SNR).
Wanneer er meer dan één prosodisch kenmerk gealterneerd wordt, levert enkel de combinatie
van monotonie en gelijke syllabeduur een significant resultaat op (INTONDUUR_15SNR).
Het feit dat monotonie de spraakverstaanbaarheid aantast, wordt verklaard door het ontbreken
van de stijgingen en dalingen van de F0- contour die in normale omstandigheden de aandacht
van de luisteraar naar de inhoudswoorden trekken. In SNR + 5 dB daalt het gemiddelde van
de transcriptiescores voor monotone zinnen nog verder (van 0,799 naar 0,689), wat opnieuw
een significant verschil oplevert in een gepaarde vergelijking met het origineel.
Hieruit kan afgeleid worden dat toonhoogtevariatie een groter effect heeft op de
spraakverstaanbaarheid bij moeilijkere luistercondities, in dit geval gecreëerd door het
toevoegen van (meer) ruis. Dit ligt in het verlengde van de bevindingen van Wingfield et al.
(1984) en Laures en Weismer (1999).
Het tweede significant verschil in SNR + 15 dB treedt op bij het gelijkstellen van de
duur van de lettergrepen. Deze duur bepaalt mede de start- en stoptijden van woorden, alsook
de woordklemtoon. Wanneer bijgevolg de duur van de syllaben wordt aangepast, schaadt dit
de spraakverstaanbaarheid. Onderzoek naar andere vormen van „time- altered speech‟ wezen
ook al uit dat het aanpassen van het duurpatroon van spraak leidt tot een verminderde
verstaanbaarheid (zie Konkle et al., 1977). In SNR + 5 dB daalt het gemiddelde van de
transcriptiescores voor zinnen met veranderd duurpatroon nog verder (van 0,808 naar 0,546),
wat wederom een significant verschil oplevert in een gepaarde vergelijking met het origineel
in stilte. Opnieuw blijkt dat het relatief belang van dit prosodisch kenmerk groter is in een
situatie met meer ruis.
Het derde significante verschil in SNR + 15 dB wordt bekomen bij monotone zinnen
met een gelijke duur der syllaben. Deze significantie kan verklaard worden met bovenstaande
gegevens. In SNR + 5 dB treedt er eveneens een significant verschil op voor deze conditie en
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
22
het gemiddelde neemt ook hier verder af (van 0,801 naar 0,444) naargelang meer ruis wordt
toegevoegd.
In de moeilijkste luistersituatie (SNR + 5 dB) worden voor alle condities significante
verschillen vastgesteld (zie tabel 5). Op basis hiervan kan men stellen dat prosodie in stilte
enkel de expressie onderstreept en zorgt voor de natuurlijkheid van de spraak. Daarentegen,
eenmaal er ruis in het spel is, zijn de prosodische aspecten ook nodig voor een goede
spraakverstaanbaarheid. Hoe meer ruis er bij komt, hoe meer dimensies van de prosodie
onmisbaar worden (cfr. drie condities significant in SNR + 15 dB en alle condities significant
in SNR + 5 dB).
Vervolgens beschouwen we de testresultaten bekomen door het uitvoeren van een
gepaarde vergelijking tussen het originele taalmateriaal zonder enige prosodische ingreep en
de verschillende manipulaties in dezelfde ruisconditie (SNR + 15 dB en SNR + 5 dB) (zie
tabel 6 en 7). Op deze manier kan de invloed van de prosodische manipulaties op zich worden
nagegaan, terwijl het effect van de ruis wordt teniet gedaan.
In SNR + 15 dB zijn er drie condities significant verschillend ten opzichte van het
origineel in dezelfde SNR (ORIG_15SNR), namelijk: afgevlakte luidheidsvariatie
(KLEMT_15SNR), monotonie in combinatie met gelijkgestelde syllabeduur
(INTONDUUR_15SNR) en afgevlakte luidheidsvariatie gecombineerd met gelijke duur van
de syllaben (KLEMTDUUR_15SNR). Opvallend is dat de proefpersonen voor deze drie
condities een hogere gemiddelde score (respectievelijk 0,915; 0,801; 0,844) behalen dan voor
de originele zinnen (0,633) in SNR + 15 dB. Mogelijks zorgt het alterneren van deze
prosodische kenmerken ervoor dat de aandacht van de luisteraar naar het finale woord van de
zin getrokken wordt. Deze aandachtsfactor kan ervoor zorgen dat de luisteraar op deze
condities beter scoort dan op het origineel in dezelfde SNR.
In stilte zijn de pieken en dalen van de geluidssterkte duidelijk aanwezig. Bij een
signaal- ruisverhouding van + 15 dB is de achtergrondruis van die aard dat de pieken en dalen
ook nog opgemerkt worden door het gehoor. Het computermatig afvlakken van deze variatie
trekt dan ook de aandacht van de luisteraar. Echter, het toevoegen van extra ruis (SNR + 5
dB) verkleint de modulatiediepte van het luidheidsniveau zoveel dat deze informatie niet
langer bruikbaar is voor de luisteraar. Bovendien neemt het maskeereffect ter hoogte van het
binnenoor toe. Hierdoor neemt de invloed van de manipulatie af.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
23
Dit verklaart waarom er geen significant verschil wordt teruggevonden bij een afgevlakte
luidheidsvariatie in SNR + 5 dB (zie tabel 7), maar wel in SNR + 15 dB (zie tabel 6). Het
belang van intonatie en het duurpatroon werd hierboven al uitvoerig besproken. Het alterneren
van deze kenmerken wordt mogelijks als onnatuurlijk ervaren door de luisteraar en misschien
daarom met extra aandacht gepercipieerd waardoor ook hier de gemiddelde scores hoger
liggen dan die van de originele zin in dezelfde SNR.
De enige manipulatie in SNR + 15 dB die een lagere gemiddelde score (0,540) heeft
dan het origineel in dezelfde SNR (0,633) is de alternatie van de drie prosodische kenmerken
(INTONKLEMTDUUR_15SNR) (zie tabel 6). Wanneer de achtergrondruis nog niet al te
opvallend aanwezig is (SNR + 15 dB ten opzichte van SNR + 5 dB) is het gehoor nog
gevoelig voor de pieken en dalen van de luidheidsvariatie en ook de woord- en zinsklemtoon
kunnen nog waargenomen worden. In moeilijkere luisteromstandigheden (SNR + 5 dB),
daarentegen, is de informatie van voornamelijk de luidheidsvariatie en in mindere mate de
temporele variatie minder beschikbaar voor de luisteraar (zie bovenstaande verklaring),
waardoor de invloed van de manipulatie afneemt en een iets betere score wordt behaald in
SNR + 5 dB (0, 626) (zie tabel 7).
In SNR + 5 dB zijn er eveneens drie condities significant verschillend ten opzichte van
het origineel in dezelfde SNR: monotone zinnen (INTON_5SNR), monotone zinnen met
afgevlakte luidheidsvariatie (INTONKLEMT_5SNR) en monotone zinnen met gelijke duur
van de syllaben (INTONDUUR_5SNR) (zie tabel 7). Voor monotone zinnen (0,689) en
monotone zinnen waarbij de natuurlijke luidheidsvariatie is afgevlakt (0,691) scoorden de
proefpersonen gemiddeld hoger dan voor de originele zinnen (0,572) in dezelfde SNR.
Monotone zinnen waarbij de lettergreepduur werd gelijkgesteld (0,444) zorgen voor een
lagere gemiddelde score.
Een mogelijke verklaring voor de hogere scores is dat een lichte vervorming- zoals bij deze
prosodische manipulaties (een spectrale vervorming zou veel erger zijn)- extra aandacht
opwekt bij een normaalhorende, zodat er meer cognitieve reserves worden vrijgemaakt voor
het spraakverstaan in vergelijking met de alledaagse spraak.
Een volgorde- effect is uitgesloten aangezien de condities gerandomiseerd werden over de
zinnen in de verschillende versies.
De conditie met een lagere gemiddelde score (monotone zinnen waarbij de lettergreepduur
werd gelijkgesteld) ten opzichte van het origineel in dezelfde signaal- ruisverhouding (SNR +
5 dB) geeft aan dat intonatie in combinatie met het duurpatroon van de syllaben de
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
24
prosodische kenmerken zijn die het meest doorwegen. Het wegnemen van deze twee
prosodische variaties in SNR + 5 dB zorgt voor de aller laagste behaalde gemiddelde score.
Dit sluit aan bij de research uitgevoerd door Hoyte et al. (2010). Uit hun onderzoek bleek dat
het meest informatieve kenmerk (het kenmerk dat bij afwezigheid de langste latentietijd
uitlokte) de temporele variatie was, gevolgd door de toonhoogtevariatie.
Algemeen kan men stellen dat de eliminatie van de natuurlijke sterktevariatie
(KLEMT) minder vaak significante verschillen uitlokt terwijl manipulaties die de intonatie
aantasten (INTON) frequent (apart of in combinatie) significant slechtere resultaten uitlokken.
Met andere woorden: in (licht) rumoerige omstandigheden is de aan- of afwezigheid van het
intonatiepatroon cruciaal; men kan de klemtoon- en duurnivellatie tot op zekere hoogte
compenseren indien de intonatievariatie behouden wordt.
Beoordelingsscores
De gepaarde vergelijking tussen het origineel taalmateriaal in stilte en de verschillende
manipulaties in verschillende ruiscondities leveren dezelfde significante verschillen op als bij
de transcriptiescores (zie tabel 3,4,5 en 8, 9, 10). Bovendien is er ook nog een significant
verschil voor monotone zinnen in stilte (INTON), zinnen met afgevlakte luidheidsvariatie in
SNR + 15 dB (KLEMT_15SNR), monotone zinnen met afgevlakte luidheidsvariatie in SNR +
15 dB (INTONKLEMT_15SNR) en zinnen met gelijkgestelde lettergreepduur en afgevlakte
luidheidsvariatie in SNR + 15 dB (KLEMTDUUR_15SNR). Dit betekent concreet dat alle
manipulaties die uitgevoerd worden in ruis (zowel in SNR + 15 dB als in SNR + 5 dB) als
„moeilijker te verstaan‟ worden gescoord door de proefpersonen (zie figuur 3). In stilte vinden
de proefpersonen een zin enkel moeilijker te begrijpen indien deze een afgevlakte F0- contour
bevat. Het wijzigen van het intonatiepatroon is in dit onderzoek dan ook het enige prosodisch
kenmerk met een opvallend subjectief effect. Daarentegen zijn het afvlakken van de
luidheidsvariatie en het wijzigen van de temporele variatie subtieler en leveren daarom in
stilte geen significante verschillen op.
De volgende reeks vergelijkingen werd gemaakt ten opzichte van het originele
spraakstaal in dezelfde signaal- ruisverhouding, waardoor het effect van de ruis uitgefilterd
werd. De significante verschillen doen zich voor bij dezelfde prosodische manipulaties als bij
de transcriptiescores (zie tabel 6,7 en 11, 12). Daarenboven is er een significant verschil voor
monotone zinnen in SNR + 15 dB (INTON_15SNR), alsook voor de zinnen waarbij alle
prosodische manipulaties werden uitgevoerd in SNR + 5 dB (INTONKLEMTDUUR_5SNR).
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
25
Hieruit kunnen we besluiten dat de beoordelingsscores voor het grootste deel in dezelfde lijn
liggen als de transcriptiescores. Dit wil zeggen dat zinnen waarvoor de proefpersonen minder
goede transcriptiescores behalen, ook als minder goed verstaanbaar worden gepercipieerd
door de luisteraars, en omgekeerd. De conditie waarvoor de laagste gemiddelde
transcriptiescore wordt behaald (INTONDUUR_5SNR), is eveneens de conditie met de
laagste gemiddelde beoordelingsscore.
Conclusie
In dit onderzoek werd vooreerst met een transcriptiescore het effect van een aantal
prosodische manipulaties (afgevlakte F0- contour, afgevlakte luidheidsvariatie, gelijkgestelde
duur der syllaben of een combinatie van voorgaande alternaties) nagegaan op zinsniveau in
stilte en in twee verschillende ruiscondities (SNR + 15 dB en SNR + 5 dB).
In stilte is er weinig invloed van de geattenueerde prosodische kenmerken omdat de
redundatie van de zinnen voldoende groot is voor afdoende spraakverstaan. Dit onderstreept
dat prosodie in stilte enkel de expressie van de zinnen ondersteunt en zorgt voor de
natuurlijkheid van de spraak. In ruis, daarentegen, duiken wel enkele significante verschillen
op.
Bij een vergelijking tussen het ongemanipuleerde spraakstaal in stilte en de verschillende
modaliteiten in ruis, treden er bij SNR + 15 dB enkel significante verschillen op bij de
manipulatie van het intonatiepatroon en/of de duur van de syllaben. In minder gunstige
luisteromstandigheden (SNR + 5 dB) worden voor alle manipulaties significante verschillen
teruggevonden. Dit beeld is samenhangend met de eerder vermelde literatuur: in moeilijkere
luistersituaties is het belang van de prosodische cues groter en voornamelijk de intonatie en
het duurpatroon blijken een belangrijke rol te spelen.
Wanneer er een vergelijking wordt gemaakt tussen het ongemanipuleerde spraakstaal en de
verschillende manipulaties in dezelfde signaal- ruisverhouding, treedt er slechts één
significant verschil op waarbij er een lagere gemiddelde score behaald wordt voor de
gemanipuleerde zin ten opzichte van de originele zin. Het gaat om monotone zinnen met een
gelijkgestelde duur der syllaben in SNR + 5 dB. Dit geeft aan dat intonatie in combinatie met
het duurpatroon de prosodische kenmerken zijn die het meest doorwegen op de
spraakverstaanbaarheid. Het wegnemen van deze twee prosodische variaties in SNR + 5 dB
zorgt dan ook voor de aller laagste gemiddelde score bij de proefpersonen.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
26
Ten tweede werd aan de hand van een vijfpuntenbeoordelingsschaal nagegaan of deze
effecten op een gelijkaardige manier subjectief ervaren werden door de proefpersonen. De
resultaten van de beoordelingsscores affirmeren dit.
Tenslotte werd ook onderzocht of professionals (leerkrachten of studenten logopedie,
audiologie en taal- en letterkunde) al dan niet beter scoorden dan leken op de luistertest. Noch
hun transcriptiescores, noch hun beoordelingsscores bleken echter te verschillen.
Referenties
Baudonck, N.L.H., Buekers, R., & Gillebert, S., & Van Lierde, K.M., (2009). Speech
intelligibility of Flemish children as judged by their parents. Folia Phoniatrica et
logopaedica, 61, 288-295.
Binns, C., & Culling, J.F. (2007). The role of fundamental frequency contours in the
perception of speech against interfering speech. Journal of the Acoustical Society of
America, 122 (3), 1765-1766.
Bunton, K., Kent, R.D., Kent, J.F., & Duffy, J.R. (2001). The effects of flattening
fundamental frequency contours on sentence intelligibility in speakers with dysarthria.
Clinical Linguistics and Phonetics, 15 (3), 181-193.
De Bodt, M., Hernández- Díaz Huici, M.E., & Van De Heyning, P.H. (2002). Intelligibility as
a linear combination of dimensions in dysarthric speech. Journal of Communication
Disorders, 35, 283-292.
Grant, K.W. (1987). Frequency modulation detection by normally hearing and profoundly
hearing impaired listeners. Journal of Acoustical Society of America, 30, 558- 563
Grant, K.W. (1987). Identification of intonation contours by normally hearing and profoundly
hearing impaired listeners. Journal of Acoustical Society of America, 82(4), 1172- 1178
Grant, K.W. (1987). Encoding voice pitch for profoundly hearing impaired listeners. Journal
of Acoustical Society of America, 82 (2), 423- 432
Hoyte, K.J., Brownell, H., & Wingfield, A. (2010). Components of speech prosody and their
use in detection of syntactic structure by older adults. Experimental Aging Research, 35
(1), 129-151.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
27
Konkle, D.F., Beasly, D.S., & Bess, F.H. (1977). Intelligibility of time-altered speech in
relation to chronological aging. Journal of Speech and Hearing Research, 20, 108-115.
Laures, J.S., & Bunton K. (2003). Perceptual effects of a flattened fundamental frequency at
the sentence level under different listening conditions. Journal of Communication
Disorders, 36, 449-464.
Laures, J.S., & Weismer, G. (1999). The effects of a flattened fundamental frequency on
intelligibility at sentence level. Journal of Speech, Language, and Hearing Research, 42,
1148-1156.
Levitt, H., & Smith, R. (1972). Errors of articulation in the speech of profoundly hearing-
impaired children. Journal of the Acoustical Society of America, 51, 102 (A).
Maassen, B., & Povel, D. (1984). The effect of correcting fundamental frequency on the
intelligibility of deap speech and its interaction with temporal aspects. Journal of the
Acoustical Society of America, 76 (6), 1673-1681.
Miller, S.E., Schlauch, R.S., & Watson, P.J. (2010). The effects of fundamental frequency
contour manipulations on speech intelligibility in background noise. Journal of the
Acoustical Society of America, 128 (1), 435-443.
Pimienta, S. (2008). De invloed van intonatie op de spraakverstaanbaarheid op zinsniveau.
Scriptie voor het behalen van graad master in de logopedisch en audiolgische
wetenschappen.
Stark, R.E, & Levitt, H. (1974). Prosodic feature reception and production in deaf children.
Journal of Acoustical Society of America, 55, S63- S63.
Watson, P.J., & Schlauch, R.S. (2008). The effects of fundamental frequency on the
intelligibility of speech with flattened intonation contours. American Journal of Speech-
Language Pathology, 17, 348-355.
Wingfield, A., Lombardi, L., & Sokol, S. (1984). Prosodic features and the intelligibility of
accelerated speech: syntactic versus periodic segmentation. Journal of Speech and Hearing
Research, 27, 128-134.
Yorkston, K.M. (1996). Speech and pause characteristics following speech rate production in
hypokinetic dysarthria. Journal of Communication Disorders, 29, 429-445.
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
28
Appendices
Appendix 1: overzicht van alle permutaties per versie.
Overzicht van alle permutaties in versie 1 van de luistertest.
Zin 1 0 + Zin 9 0 x Zin 17 0 +
Zin 2 A + Zin 10 A Zin 18 A +
Zin 3 B + Zin 11 B Zin 19 B
Zin 4 C + Zin 12 C Zin 20 C
Zin 5 AB + Zin 13 AB + Zin 21 AB
Zin 6 AC + Zin 14 AC + Zin 22 AC x
Zin 7 BC x Zin 15 BC + Zin 23 BC x
Zin 8 ABC x Zin 16 ABC + Zin 24 ABC x
Overzicht van alle permutaties in versie 2 van de luistertest.
Zin 1 ABC + Zin 9 ABC x Zin 17 ABC +
Zin 2 BC + Zin 10 BC Zin 18 BC +
Zin 3 AC + Zin 11 AC Zin 19 AC
Zin 4 AB + Zin 12 AB Zin 20 AB
Zin 5 C + Zin 13 C + Zin 21 C
Zin 6 B + Zin 14 B + Zin 22 B x
Zin 7 A x Zin 15 A + Zin 23 A x
Zin 8 0 x Zin 16 0 + Zin 24 0 x
Overzicht van alle permutaties in versie 3 van de luistertest.
Zin 1 AC x Zin 9 AC + Zin 17 AB x
Zin 2 AB x Zin 10 AB + Zin 18 AC x
Zin 3 C x Zin 11 C + Zin 19 C +
Zin 4 B Zin 12 B + Zin 20 B +
Zin 5 A Zin 13 A Zin 21 A +
Zin 6 0 Zin 14 0 Zin 22 0 +
Zin 7 ABC + Zin 15 ABC Zin 23 ABC +
Zin 8 BC + Zin 16 BC x Zin 24 BC +
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
29
Overzicht van alle permutaties in versie 4 van de luistertest
Zin 1 C x Zin 9 C + Zin 17 C x
Zin 2 B x Zin 10 B + Zin 18 B x
Zin 3 A x Zin 11 A + Zin 19 A +
Zin 4 0 Zin 12 0 + Zin 20 0 +
Zin 5 ABC Zin 13 ABC Zin 21 ABC +
Zin 6 BC Zin 14 BC Zin 22 BC +
Zin 7 AC + Zin 15 AC Zin 23 AC +
Zin 8 AB + Zin 16 AB x Zin 24 AB +
0= ongewijzigde zin
Aanpassing van 1 prosodisch kenmerk:
A= monotonie
B= afgevlakte luidheidsvariatie
C= gelijke duur van de lettergrepen
Aanpassing van 2 prosodische kenmerken:
AB= monotonie en afgevlakte luidheidsvariatie
AC= monotonie en gelijke duur van de lettergrepen
BC= afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen
Aanpassing van 3 prosodische kenmerken:
ABC= monotonie, afgevlakte luidheidsvariatie en gelijke duur van de lettergrepen
Toevoeging van ruis:
+ = SNR + 5dB
x = SNR + 15dB
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
30
Appendix 2: voorbeeld antwoordformulier.
Beste,
In het kader van onze thesis, hebben wij u verzocht deel te nemen aan een „onderzoek‟. Het
doel van onze thesis is te achterhalen wat de invloed is van prosodie op de
spraakverstaanbaarheid.
Prosodie kan onderverdeeld worden in volgende domeinen: intonatie, luidheid en duur van de
lettergrepen.
We gaan van start met een kleine gehoortest. Vervolgens begint de eigenlijke luistertest:
hierbij zal u zinnen te horen krijgen, dezelfde zinnen die u ook op uw antwoordblad (zie
verder) terugvindt.
De bedoeling is het ontbrekende woord in te vullen. Indien u niet 100% zeker bent, mag u ook
een deel van het woord neerschrijven. Daarnaast vragen wij u ook op een schaal van 0 tot en
met 4 aan te geven hoe goed of gemakkelijk u het woord hebt verstaan.
Alvast bedankt voor uw medewerking,
Celine en Sibelijn
Gelieve onderstaande gegevens aan te vullen. We kunnen u verzekeren dat deze anoniem
verwerkt worden.
Geslacht:
Geboortedatum:
Beroep/ studierichting:
Moedertaal:
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
31
Gehoortest
Gelieve de cijfertjes in de hokjes te schrijven van links naar rechts.
Luistertest
Gelieve op de schaal te omcirkelen hoe goed of gemakkelijk u het woord heeft verstaan.
(0 = onverstaanbaar, 4 = perfect verstaanbaar)
1. Fantasie kent geen
2. Zijn leeftijd ligt boven de
3. De bloemen vielen op het
4. Voetbal is het belangrijkste voor deze
5. Het loket bleef lang
6. Het gedicht werd
7. De jongens vechten de hele
8. Elke Londenaar heeft een
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
32
Gelieve op de schaal te omcirkelen hoe goed of gemakkelijk u het woord heeft verstaan.
(0 = onverstaanbaar, 4 = perfect verstaanbaar)
9. De man kocht een
10. ‟s Zondags kopen ze altijd
11. Het slot is
12. De letter staat op zijn
13. Het kind was niet in staat om te
14. De bal vloog over de
15. Jan bouwde een
16. Het gras was helemaal
17. Het beeld stond op de
18. De slang bewoog zich door het
19. Rijst wordt in dit land niet
20. De gravin ontving de
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
33
Gelieve op de schaal te omcirkelen hoe goed of gemakkelijk u het woord heeft verstaan.
(0 = onverstaanbaar, 4 = perfect verstaanbaar)
21. De kast is een meter
22. Het proefwerk heeft zij slecht
23. Deze kerk moet worden
24. Het koppel gaat naar de
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
0 1 2 3 4
-
34
Time (s)
0 2.401
Pit
ch (
Hz)
0
500
Time (s)
0 2.40120
90
Inte
nsi
ty (
dB
)
Time (s)
0 2.40120
90
Inte
nsi
ty (
dB
)
Time (s)
0 2.40120
90
Inte
nsi
ty (
dB
)
Time (s)
0 2.401
Pit
ch (
Hz)
0
500
Time (s)
0 2.401
Pit
ch (
Hz)
0
500
Appendix 3: manipulaties in Praat (Boersma, Paul & Weenink, David (versie 5.1.44) )
Intonatiecontour van de ongewijzigde zin ‘Elke Londenaar heeft een paraplu’:
Intonatiecontour van de monotone zin ‘Elke Londenaar heeft een paraplu’:
Luidheidvariatie van de ongewijzigde zin ‘Elke Londenaar heeft een paraplu’:
Luidheidvariatie van de zin ‘Elke Londenaar heeft een paraplu’ met een uitgemiddelde luidheid (de
intensiteit van de klinkerkernen werd teruggebracht tot het 50ste
percentiel van het ongewijzigde
spraakstaal).
-
35
Duurvariatie van een lettergreep („ra‟ uit „paraplu‟, uit de zin ‘Elke Londenaar heeft een paraplu’).
Originele lettergreep:
De lettergreep werd na bewerking verlengd:
-
36
Gelijkstellen van de duur van de lettergrepen voor de zin ‘Elke Londenaar heeft een paraplu’:
1. Zin klaarmaken voor manipulatie:
2. „Manipulation’ editeren:
3. Begin en einde van de lettergreep afbakenen.
4. Na afbakening de lettergreep selecteren en de relatieve duur ingeven.
-
37
Gelijkstellen van de gemiddelde luidheid van alle zinnen in al hun modaliteiten:
1. Alle geluiden selecteren en bewerken tot een piekintensiteit van 70 dB:
2. ‘Sound chain’ (= alle zinnen na elkaar) maken voor de controle van de uitgevoerde manipulatie:
3. Resulterende oscillogram en spectrogram van de ‘sound chain’ (ter controle van de manipulatie):
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
38
Appendix 4: powerpointpresentatie luistertest.
Invloed van prosodie op spraakverstaanbaarheid
Celine Bernaerdt en Glabeke Sibelijn
Master logopedische en audiologische wetenschappen
Promotor: Prof. Dr. P. Corthals
Een woordje uitleg…
Wat is de invloed van prosodie op de spraakverstaanbaarheid?
• Spraakverstaanbaarheid = hoe goed je verstaat wat iemand zegt.
• Prosodie is onder andere:
– Intonatie
– Luidheid of spraaksterkte
– Duur van de lettergrepen
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
Vb. : Hij heeft zijn lesje niet geleerd.
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
Een woordje uitleg…DUS, verandert het spraakverstaanwanneer …
• het intonatiepatroon (hogere/ lagere toonhoogte) wordt verwijderd?
monotonie
• de natuurlijke variatie in luidheid wordt afgevlakt?
• de duur van de lettergrepen wordt gelijkgesteld?Celine Bernaerdt en Glabeke Sibelijn
Master logopedische en audiologische wetenschappen afstudeerrichting audiologie Promotor Prof. Dr. P. Corthals
We gaan van start met een kleine gehoorstest:
U krijgt een reeks cijfertjes te horen, die steeds stiller en stiller wordt.
Gelieve de cijfers in te vullen op het antwoordblad in de daarvoor voorziene hokjes, van links naar rechts.
Geen paniek wanneer u de cijfers niet meer hoort of niet alle hokjes kan invullen, dat is normaal!
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
Gehoorstest De cijfers worden gedicteerd door een computerstem, deze kan vreemd klinken.
Gelieve de cijfertjes hier in te vullen, van links naar rechts .
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
Luistertest
U krijgt een aantal zinnen te horen waarvan telkens het laatste woord ontbreekt.
De opgaven kan u zien op het scherm, alsook op uw antwoordformulier.
Gelieve het ontbrekende woord in de voorziene ruimte in te vullen.
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
Indien u niet 100% zeker bent, schrijft u op wat u denkt te horen, ook al is dit maar een deel van het woord.
Het is mogelijk dat sommige zinnen moeilijker te verstaan zijn dan andere.
U krijgt elke zin 1 maal te horen.
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
-
INVLOED VAN PROSODIE OP DE SPRAAKVERSTAANBAARHEID
39
Bij elke zin ziet u een schaalverdeling, gelieve het meest passende cijfer te omcirkelen.
0 = helemaal niet verstaanbaar, erg moeilijk verstaanbaar
4 = perfect verstaanbaar, gemakkelijk verstaanbaar
Het gaat opnieuw om een ietwat vreemde computerstem.
Celine Bernaerdt en Glabeke SibelijnMaster logopedische en audiologische wetenschappen afstudeerrichting audiologie
Promotor Prof. Dr. P. Corthals
�