College 7: Stemvorming en Geluid •Eerste uur: bouw van de larynx aerodynamische myo-elastische...
-
Upload
paula-pauwels -
Category
Documents
-
view
232 -
download
0
Transcript of College 7: Stemvorming en Geluid •Eerste uur: bouw van de larynx aerodynamische myo-elastische...
College 7: Stemvorming en Geluid
• Eerste uur: bouw van de larynx
aerodynamische myo-elastische theorie van stemvorming
stemvorming en fonologie
• Tweede uur: parameters geluid
bron-filter theorie
spraakmachines
Bouw van de Larynx
Anatomie van de larynx
Anatomie van de larynx
thyroid
epiglottis
cricoid
trachea
hyoid
Anatomie van de larynx
glottis
thyroid
cricoid
arytenoid
Anatomie van de larynx
Anatomie van de larynx
Anatomie van de larynx
arytenoiden
cricoid
glottis
thyroid
epiglottis
cricoid
trachea
hyoid
stembanden
thyroid
thyroid
cricoid
arytenoid
Anatomie van de larynx
12
4
35
Anatomie van de larynx
Anatomie van de larynx
Anatomie van de larynx
Biologische functie larynx
• toevoer/afvoer lucht-longen
• verhinderen dat voorwerpen in de longen komen
• verwijderen van voorwerpen die per ongeluk in de luchtpijp zijn gekomen
Bij mens nevenfunctie: stemvorming
• Door het periodiek open en dicht gaan van de glottis: periodieke variatie in de luchtdruk in de mond-keelholte
Zichtbaar gemaakt m.b.v. stroboscopisch licht
Stemvorming
Stemvorming
Anatomie van de larynx
Wat drijft de stemvorming?
• Mogelijkheid 1: De individuele openingen en sluitingen van de glottis worden direct door zenuwprikkels aangestuurd
Geprepareerde larynx
• Waarom is de glottale cyclus niet het gevolg van directe aansturing d.m.v. zenuwimpulsen?
– Hoge frequenties zenuwimpulsen zouden dan bereikt moeten worden
– Het blijkt mogelijk stemvorming te krijgen in een geprepareerde menselijke larynx
Wat drijft de stemvorming?
• Mogelijkheid 2: De aerodynamisch-myoelastische theorie
Wat drijft de stemvorming?
• De glottale cyclus is het gevolg van:
– drukvariaties aan weerszijden van de glottis– spanning van de stembanden – het Bernoulli-effect
http://www.youtube.com/watch?v=olVJzVadiFs
Wat drijft de stemvorming?
Stemvorming volgens de Aerodynamisch-Myoelastische
theorie (Van den Berg 1958):
1. subglottale druk loopt op en leidt tot opening van de glottis
2. lucht ontsnapt door de geopende glottis Bernoulli-effect en verlaging van de subglottale druk
3. Sluiting van de glottis doordat kracht van laryngale spieren > kracht a.g.v. subglottale druk
Globale kenmerken: stemkwaliteit
• normale fonatie vs. geen fonatie
• fluisterfonatie
• kraak/kraakstemfonatie
• falsettofonatie
• Welke factoren bepalen de gemiddelde grondfrequentie waarmee de stembanden trillen (en daarmee de toonhoogte)?– fysiologie– sociale conventies (vnl. ondergrens bij
vrouwen)– spreekstijl (a.g.v. attitude, akoestische
omstandigheden)
Globale kenmerken: toonhoogte
Globale toonhoogte, geslacht, en leeftijd
050
100150200250300350400450
1 4 7 10 14 18 22 32 42 52 62 72 82
Leeftijd in jaren
Gem
idd
eld
e to
on
ho
og
te in
H
z
Am. KinderenNed. meisjes/vrouwenNed. jongens/mannen
Globale toonhoogte en cultuur
170
180
190
200
210
220
230
240
Jap. Am-E Zwe Nl.
Taalgemeenschap
Gem
idd
eld
e g
ron
dto
on
(H
z)
Segmentele kenmerken
laryngale kenmerken
stemhebbendstemloos
toonhoogte stemkwaliteitaspiratie
Stemcontrasten in obstruenten
stemhebbende obstruenten
• gesloten, maar niet stijf aangedrukte stembanden
• relatief slappe stembanden
• verlaging van de larynx ( implosieven)
• verslapte wanden van farynx/gehele spraakbuis
stemloze obstruenten
• gespreide of juist stijf aangedrukte stembanden
• relatief strakke stembanden
• enigszins verhoogde larynx
• verstrakte wanden van farynx/gehele spraakbuis
Stemcontrasten in obstruenten
Stemfonologie
Hindi
stemloos pal ‘zorgen voor’
stemloos geaspireerd al ‘lemmet’
stemhebbend bal ‘haar’
stemhebbend geaspireerd al ‘voorhoofd’
Koreaans
stemloos pul ‘vuur’
stemloos geaspireerd ul ‘gras’
stemloos fortis ul ‘hoorn’
Owerri Igbo (van vocaal- en tooncontrasten is geabstraheerd)
stemloos ‘dragen’
stemhebbend ‘rijk worden’
stemloosgeaspireerd
‘knijpen’
stemhebbendgeaspireerd
‘pellen’
stemhebbendimplosief
‘dansen’
stemloosimplosief
‘verzamelen’
Stemfonologie
Toon, intonatie: het talig gebruik van toonhoogte
• Melodisch (betekenisverschil door verschillen in melodie):
• accentfunctie
• markeringsfunctie
Fonologisch gebruik van melodie
Fonemisch gebruik van toon in het Shanghai-chinees:
a) b)
Melodie als zinsaccent
De transcriptie van toon en intonatie
Methode 1:signaal + toonhoogte
transcriptie
[ ]
Methode 2:signaal + toonhoogte
transcriptie
[]
L+H* L-H%
De transcriptie van toon en intonatie
Geluid
• Geluid: trillingen van voorwerpen die door een medium (meestal lucht) worden voortgeplant en m.b.v. het gehoororgaan kunnen worden waargenomen
• Geluid manifesteert zich als verstoringen van de barometrische (lucht)druk
• Een zuivere (of enkelvoudige) toon is periodiek, d.w.z. na T sec (een vaste tijd) is de verstoring van de barometrische druk exact hetzelfde; na T sec voert het trillende punt precies dezelfde beweging uit (periodieke trilling)
• zuivere toon komt nauwelijks voor (stemapparaat)
Geluid
enkelvoudige golven
Oscillogram
Een oscillogram is een registratie van de luchtdeeltjestrilling als een functie van de tijd
Parameters Geluid
Fysische grootheden Psychofysische groothedenmeetbaar sensatie
amplitude (A) (dB) luidheidmax.waarde die de geluidsdruk aanneemt (max.uitwijking)
periode (T) (sec) duur
de tijd waarin het patroon zich herhaalt
frequentie (F) (Hz) toonhoogteaantal trillingen per seconde
trillingstijd & amplitude
grondperiode
amplitude
Decibel (dB)
• Eenheid van geluidsterkte. De amplitude of het volume of het niveau van een signaal wordt weergegeven in dB.
• 0 dB geeft de grens van het hoorbare aan.• 130 dB is de pijngrens.• Een normale spreekstem zit op 65-70 dB.
Hertz (Hz)
• Meeteenheid voor frequenties, gemeten in trillingen per seconde.
• 1 Hertz is 1 trilling per seconde• vaker gebruikt: eenheid Kilohertz (kHz): veelvouden van
1000 Hz
Hoog: > 5 k; Laag: < 100 Hz
Waarneming geluid
• Gebied waarbinnen mensen geluid kunnen waarnemen is grofweg tussen 20 Hz - 20 kHz
• Het ‘klankspectrum’ neemt met het ouder worden af: een gemiddelde is ongeveer 40 Hz - 15 kHz
Waarneming geluid
• In frequentie toenemende sinusgolf
• 50-500 Hz• 500 Hz - 5k• 5 - 10k• 10 - 15k• > 15k
Geluid
Infrasoon Geluid ultrasoon
F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz
Geluid
Infrasoon Geluid ultrasoon
F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz
puls (< 1/20 sec) stationair geluid
• voorbeeld puls: plofklanken: [p,t,k,b,d,]
Geluid
Infrasoon Geluid ultrasoon
F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz
puls stationair geluid
enkelvoudige toon samengestelde trillingen(bevat 1 frequentie) (gelijktijdig meerdere frequenties)
• voorbeeld enkelvoudige toon: sinustoon• hier: 440 Hz (A)
Geluid
Infrasoon Geluid ultrasoon
F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz
puls stationair geluid
enkelvoudige toon samengestelde trillingen
samengestelde toon ruis (bevat grondtoon + boventonen) (alle mogelijke frequenties komen voor)
F0 + boventonen 2F0;3F0 … onregelmatig trillingspatroon
• voorbeeld ruis: fricatieven: []
Klankkleur
Grondtoon
• De laagste frequentie in een samengestelde golfvorm.
Boventonen
• Trillingen van frequenties die een meervoud zijn van de grondtoon
Spectrum
• Spectrum geluid: opbouw van de basisfrequenties (bepaalt klankkleur)
• Iedere samengestelde trilling met een frequentie F is te beschouwen als een som van harmonische trillingen met frequenties F, 2F, 3F, etc.
• F=grondtoon (1e harmonische)• 2F = 1e boventoon (2e harmonische)• 3F= 2e boventoon (3e harmonische)
Spectrum
• opbouw van de basisfrequenties (momentopname); een plaatje waarin de frequentie en de amplitude tegen elkaar worden uitgezet
Ampl
Freq grondtoon (F0)
golf & golfspectrum
samengestelde golven
Functie van drie systemen: het bron-filter model
Bron - Filter
energiebron geluidsbron filter
subglottalestructuren
glottalestructuren
supraglottalestructuren
anatomie
functie
KlankkleurBron Filter Theorie
[a]
samengestelde golven
Niet alle samengestelde golven zijn periodiek
aperiodieke golven
spectrum & spectrogram
Een verzameling van opeenvolgende spectra van een signaal waarbij de relatieve intensiteit in grijstinten is weergegeven heet een spectrogram
[a]
Vocaal - Fricatief - Vocaal
Vocaal - Fricatief - Vocaal
Vocaal - Plosief - Vocaal
Spectrogram lezen
Geluid bewerken:Equalisatie
Equalisatie (EQ)
• De afstelling van een frequentieweergave in een audiosignaal om de gewenste klank te krijgen
• Een equalizer kan bepaalde frequenties afsnijden of opwaarderen.
• Dit gebeurt met behulp van filters
Parametrische Equalisatie (EQ)
Gefilterde Spraak
• Spraak gefilterd beneden 1600 Hz• Spraak gefilterd boven 1600 Hz
Dips in frequentiegebieden
• boer buur bier compleet signaal• roos reus race gefilterd signaal• bos bes bas (beneden 1k)
• lap lak lat• las laf lag
Waarom heeft het weinig zin om tegen een slechthorende te gaan schreeuwen?
Transities
Categorische perceptie
• [ba] (aanpassing F2-transitie in 14 stappen)
• [b] (aanpassing F2-transitie in 14 stappen)
• [ze:] (startpunt ingekort in 10 stappen)
• [se:] (startpunt ingekort in 10 stappen)
Spraaksynthese
• kunstmatige spraak = spraaksignalen die niet door mensen worden voortgebracht en niet als zodanig zijn opgenomen
Kunstmatige Spraak
• methode 1: bouw de menselijke spraakbuis fysiek na
Hoe maak je kunstmatige spraak?
• methode 1: bouw de menselijke spraakbuis fysiek na
• methode 2: bouw een (elektrisch) systeem waarin bron(nen) en filter(s) nog fysiek gescheiden zijn maar zonder mechanische articulatoren
Hoe maak je kunstmatige spraak?
• methode 1: bouw de menselijke spraakbuis fysiek na
• methode 2: bouw een (elektrisch) systeem waarin bron(nen) en filter(s) nog fysiek gescheiden zijn maar zonder mechanische articulatoren
• methode 3: ontwerp een algoritme dat de golfvormen van menselijke spraak berekent
Hoe maak je kunstmatige spraak?
Von Kempelen’s Spraakmachine (1778)
De Spraakmachine van Riesz
De Voder (1939)
Articulatorische/fonologische modellen
Zijn in feite geformaliseerde en in computerprogramma’s geïmplementeerde fonetische fonologische theorieën
• Pattern Playback (Cooper 1951)• Het dynamisch-articulatorische model van
Haskins Laboratories (Yale)• PAT Formant Synthesizer (Lawrence 1962)
Spraaksynthese
• Bron: periodiek geluid
ruis
• Synthese van vier segmenten
• Ingekort/Envelope filter (ADSR)
• Concatenatie
Allofoonsynthese
Bij allofoonsynthese worden stukjes spraak van akoestisch segmentbegin tot -einde aaneengeschakeld. Een bekend voorbeeld is Dennis Klatt’s DECtalk systeem
• De verschillende stemmen van DECtalk• Female Voice• Female Voice (1987)
DECTalk
• Different Rates:
• Fast (300 w/m)• Slow (120 w/m)
Transities
Difonen
• Meeste informatie zit in de transities
• Difonen zijn overgangen tussen twee fonen
• Voorbeeld waarin overgangen zijn weggelaten• Voorbeeld waarin alleen overgangen hoorbaar
zijn
Difoonsynthese
bij difoonsynthese wordt niet geprobeerd akoestische segmenten af te bakenen maar worden de grenzen juist bij de extremen gelegd
• difonen 1 voor 1• concatenatie van dezelfde serie: attentie• met toonhoogteverschillen• Duits met Ned. difonen• Frans met Ned. difonen
INFOVOX
Verschillende talen in INFOVOX
Toegift: Ruis
Ruis
• Witte ruis: ruis die het totale frequentiegebied bestrijkt, en 6 dB toeneemt per octaaf
• In ruis zitten alle frequenties
• opname + kuch
Visuele Anticipatie
Visuele Anticipatie
Visuele Anticipatie
Auditieve Anticipatie
• In ruis zitten alle frequenties
• opname + kuch
• originele opname