College 7: Stemvorming en Geluid •Eerste uur: bouw van de larynx aerodynamische myo-elastische...

Post on 13-May-2015

233 views 0 download

Transcript of College 7: Stemvorming en Geluid •Eerste uur: bouw van de larynx aerodynamische myo-elastische...

College 7: Stemvorming en Geluid

• Eerste uur: bouw van de larynx

aerodynamische myo-elastische theorie van stemvorming

stemvorming en fonologie

• Tweede uur: parameters geluid

bron-filter theorie

spraakmachines

Bouw van de Larynx

Anatomie van de larynx

Anatomie van de larynx

thyroid

epiglottis

cricoid

trachea

hyoid

Anatomie van de larynx

glottis

thyroid

cricoid

arytenoid

Anatomie van de larynx

Anatomie van de larynx

Anatomie van de larynx

arytenoiden

cricoid

glottis

thyroid

epiglottis

cricoid

trachea

hyoid

stembanden

thyroid

thyroid

cricoid

arytenoid

Anatomie van de larynx

12

4

35

Anatomie van de larynx

Anatomie van de larynx

Anatomie van de larynx

Biologische functie larynx

• toevoer/afvoer lucht-longen

• verhinderen dat voorwerpen in de longen komen

• verwijderen van voorwerpen die per ongeluk in de luchtpijp zijn gekomen

Bij mens nevenfunctie: stemvorming

• Door het periodiek open en dicht gaan van de glottis: periodieke variatie in de luchtdruk in de mond-keelholte

Zichtbaar gemaakt m.b.v. stroboscopisch licht

Stemvorming

Stemvorming

Anatomie van de larynx

Wat drijft de stemvorming?

• Mogelijkheid 1: De individuele openingen en sluitingen van de glottis worden direct door zenuwprikkels aangestuurd

Geprepareerde larynx

• Waarom is de glottale cyclus niet het gevolg van directe aansturing d.m.v. zenuwimpulsen?

– Hoge frequenties zenuwimpulsen zouden dan bereikt moeten worden

– Het blijkt mogelijk stemvorming te krijgen in een geprepareerde menselijke larynx

Wat drijft de stemvorming?

• Mogelijkheid 2: De aerodynamisch-myoelastische theorie

Wat drijft de stemvorming?

• De glottale cyclus is het gevolg van:

– drukvariaties aan weerszijden van de glottis– spanning van de stembanden – het Bernoulli-effect

http://www.youtube.com/watch?v=olVJzVadiFs

Wat drijft de stemvorming?

Stemvorming volgens de Aerodynamisch-Myoelastische

theorie (Van den Berg 1958):

1. subglottale druk loopt op en leidt tot opening van de glottis

2. lucht ontsnapt door de geopende glottis Bernoulli-effect en verlaging van de subglottale druk

3. Sluiting van de glottis doordat kracht van laryngale spieren > kracht a.g.v. subglottale druk

Globale kenmerken: stemkwaliteit

• normale fonatie vs. geen fonatie

• fluisterfonatie

• kraak/kraakstemfonatie

• falsettofonatie

• Welke factoren bepalen de gemiddelde grondfrequentie waarmee de stembanden trillen (en daarmee de toonhoogte)?– fysiologie– sociale conventies (vnl. ondergrens bij

vrouwen)– spreekstijl (a.g.v. attitude, akoestische

omstandigheden)

Globale kenmerken: toonhoogte

Globale toonhoogte, geslacht, en leeftijd

050

100150200250300350400450

1 4 7 10 14 18 22 32 42 52 62 72 82

Leeftijd in jaren

Gem

idd

eld

e to

on

ho

og

te in

H

z

Am. KinderenNed. meisjes/vrouwenNed. jongens/mannen

Globale toonhoogte en cultuur

170

180

190

200

210

220

230

240

Jap. Am-E Zwe Nl.

Taalgemeenschap

Gem

idd

eld

e g

ron

dto

on

(H

z)

Segmentele kenmerken

laryngale kenmerken

stemhebbendstemloos

toonhoogte stemkwaliteitaspiratie

Stemcontrasten in obstruenten

stemhebbende obstruenten

• gesloten, maar niet stijf aangedrukte stembanden

• relatief slappe stembanden

• verlaging van de larynx ( implosieven)

• verslapte wanden van farynx/gehele spraakbuis

stemloze obstruenten

• gespreide of juist stijf aangedrukte stembanden

• relatief strakke stembanden

• enigszins verhoogde larynx

• verstrakte wanden van farynx/gehele spraakbuis

Stemcontrasten in obstruenten

Stemfonologie

Hindi

stemloos pal ‘zorgen voor’

stemloos geaspireerd al ‘lemmet’

stemhebbend bal ‘haar’

stemhebbend geaspireerd al ‘voorhoofd’

Koreaans

stemloos pul ‘vuur’

stemloos geaspireerd ul ‘gras’

stemloos fortis ul ‘hoorn’

Owerri Igbo (van vocaal- en tooncontrasten is geabstraheerd)

stemloos ‘dragen’

stemhebbend ‘rijk worden’

stemloosgeaspireerd

‘knijpen’

stemhebbendgeaspireerd

‘pellen’

stemhebbendimplosief

‘dansen’

stemloosimplosief

‘verzamelen’

Stemfonologie

Toon, intonatie: het talig gebruik van toonhoogte

• Melodisch (betekenisverschil door verschillen in melodie):

• accentfunctie

• markeringsfunctie

Fonologisch gebruik van melodie

Fonemisch gebruik van toon in het Shanghai-chinees:

a) b)

Melodie als zinsaccent

De transcriptie van toon en intonatie

Methode 1:signaal + toonhoogte

transcriptie

[ ]

Methode 2:signaal + toonhoogte

transcriptie

[]

L+H* L-H%

De transcriptie van toon en intonatie

Geluid

• Geluid: trillingen van voorwerpen die door een medium (meestal lucht) worden voortgeplant en m.b.v. het gehoororgaan kunnen worden waargenomen

• Geluid manifesteert zich als verstoringen van de barometrische (lucht)druk

• Een zuivere (of enkelvoudige) toon is periodiek, d.w.z. na T sec (een vaste tijd) is de verstoring van de barometrische druk exact hetzelfde; na T sec voert het trillende punt precies dezelfde beweging uit (periodieke trilling)

• zuivere toon komt nauwelijks voor (stemapparaat)

Geluid

enkelvoudige golven

Oscillogram

Een oscillogram is een registratie van de luchtdeeltjestrilling als een functie van de tijd

Parameters Geluid

Fysische grootheden Psychofysische groothedenmeetbaar sensatie

amplitude (A) (dB) luidheidmax.waarde die de geluidsdruk aanneemt (max.uitwijking)

periode (T) (sec) duur

de tijd waarin het patroon zich herhaalt

frequentie (F) (Hz) toonhoogteaantal trillingen per seconde

trillingstijd & amplitude

grondperiode

amplitude

Decibel (dB)

• Eenheid van geluidsterkte. De amplitude of het volume of het niveau van een signaal wordt weergegeven in dB.

• 0 dB geeft de grens van het hoorbare aan.• 130 dB is de pijngrens.• Een normale spreekstem zit op 65-70 dB.

Hertz (Hz)

• Meeteenheid voor frequenties, gemeten in trillingen per seconde.

• 1 Hertz is 1 trilling per seconde• vaker gebruikt: eenheid Kilohertz (kHz): veelvouden van

1000 Hz

Hoog: > 5 k; Laag: < 100 Hz

Waarneming geluid

• Gebied waarbinnen mensen geluid kunnen waarnemen is grofweg tussen 20 Hz - 20 kHz

• Het ‘klankspectrum’ neemt met het ouder worden af: een gemiddelde is ongeveer 40 Hz - 15 kHz

Waarneming geluid

• In frequentie toenemende sinusgolf

• 50-500 Hz• 500 Hz - 5k• 5 - 10k• 10 - 15k• > 15k

Geluid

Infrasoon Geluid ultrasoon

F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz

Geluid

Infrasoon Geluid ultrasoon

F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz

puls (< 1/20 sec) stationair geluid

• voorbeeld puls: plofklanken: [p,t,k,b,d,]

Geluid

Infrasoon Geluid ultrasoon

F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz

puls stationair geluid

enkelvoudige toon samengestelde trillingen(bevat 1 frequentie) (gelijktijdig meerdere frequenties)

• voorbeeld enkelvoudige toon: sinustoon• hier: 440 Hz (A)

Geluid

Infrasoon Geluid ultrasoon

F < 20 Hz 20 Hz < F < 20 kHz F > 20 kHz

puls stationair geluid

enkelvoudige toon samengestelde trillingen

samengestelde toon ruis (bevat grondtoon + boventonen) (alle mogelijke frequenties komen voor)

F0 + boventonen 2F0;3F0 … onregelmatig trillingspatroon

• voorbeeld ruis: fricatieven: []

Klankkleur

Grondtoon

• De laagste frequentie in een samengestelde golfvorm.

Boventonen

• Trillingen van frequenties die een meervoud zijn van de grondtoon

Spectrum

• Spectrum geluid: opbouw van de basisfrequenties (bepaalt klankkleur)

• Iedere samengestelde trilling met een frequentie F is te beschouwen als een som van harmonische trillingen met frequenties F, 2F, 3F, etc.

• F=grondtoon (1e harmonische)• 2F = 1e boventoon (2e harmonische)• 3F= 2e boventoon (3e harmonische)

Spectrum

• opbouw van de basisfrequenties (momentopname); een plaatje waarin de frequentie en de amplitude tegen elkaar worden uitgezet

Ampl

Freq grondtoon (F0)

golf & golfspectrum

samengestelde golven

Functie van drie systemen: het bron-filter model

Bron - Filter

energiebron geluidsbron filter

subglottalestructuren

glottalestructuren

supraglottalestructuren

anatomie

functie

KlankkleurBron Filter Theorie

[a]

samengestelde golven

Niet alle samengestelde golven zijn periodiek

aperiodieke golven

spectrum & spectrogram

Een verzameling van opeenvolgende spectra van een signaal waarbij de relatieve intensiteit in grijstinten is weergegeven heet een spectrogram

[a]

Vocaal - Fricatief - Vocaal

Vocaal - Fricatief - Vocaal

Vocaal - Plosief - Vocaal

Spectrogram lezen

Geluid bewerken:Equalisatie

Equalisatie (EQ)

• De afstelling van een frequentieweergave in een audiosignaal om de gewenste klank te krijgen

• Een equalizer kan bepaalde frequenties afsnijden of opwaarderen.

• Dit gebeurt met behulp van filters

Parametrische Equalisatie (EQ)

Gefilterde Spraak

• Spraak gefilterd beneden 1600 Hz• Spraak gefilterd boven 1600 Hz

Dips in frequentiegebieden

• boer buur bier compleet signaal• roos reus race gefilterd signaal• bos bes bas (beneden 1k)

• lap lak lat• las laf lag

Waarom heeft het weinig zin om tegen een slechthorende te gaan schreeuwen?

Transities

Categorische perceptie

• [ba] (aanpassing F2-transitie in 14 stappen)

• [b] (aanpassing F2-transitie in 14 stappen)

• [ze:] (startpunt ingekort in 10 stappen)

• [se:] (startpunt ingekort in 10 stappen)

Spraaksynthese

• kunstmatige spraak = spraaksignalen die niet door mensen worden voortgebracht en niet als zodanig zijn opgenomen

Kunstmatige Spraak

• methode 1: bouw de menselijke spraakbuis fysiek na

Hoe maak je kunstmatige spraak?

• methode 1: bouw de menselijke spraakbuis fysiek na

• methode 2: bouw een (elektrisch) systeem waarin bron(nen) en filter(s) nog fysiek gescheiden zijn maar zonder mechanische articulatoren

Hoe maak je kunstmatige spraak?

• methode 1: bouw de menselijke spraakbuis fysiek na

• methode 2: bouw een (elektrisch) systeem waarin bron(nen) en filter(s) nog fysiek gescheiden zijn maar zonder mechanische articulatoren

• methode 3: ontwerp een algoritme dat de golfvormen van menselijke spraak berekent

Hoe maak je kunstmatige spraak?

Von Kempelen’s Spraakmachine (1778)

De Spraakmachine van Riesz

De Voder (1939)

Articulatorische/fonologische modellen

Zijn in feite geformaliseerde en in computerprogramma’s geïmplementeerde fonetische fonologische theorieën

• Pattern Playback (Cooper 1951)• Het dynamisch-articulatorische model van

Haskins Laboratories (Yale)• PAT Formant Synthesizer (Lawrence 1962)

Spraaksynthese

• Bron: periodiek geluid

ruis

• Synthese van vier segmenten

• Ingekort/Envelope filter (ADSR)

• Concatenatie

Allofoonsynthese

Bij allofoonsynthese worden stukjes spraak van akoestisch segmentbegin tot -einde aaneengeschakeld. Een bekend voorbeeld is Dennis Klatt’s DECtalk systeem

• De verschillende stemmen van DECtalk• Female Voice• Female Voice (1987)

DECTalk

• Different Rates:

• Fast (300 w/m)• Slow (120 w/m)

Transities

Difonen

• Meeste informatie zit in de transities

• Difonen zijn overgangen tussen twee fonen

• Voorbeeld waarin overgangen zijn weggelaten• Voorbeeld waarin alleen overgangen hoorbaar

zijn

Difoonsynthese

bij difoonsynthese wordt niet geprobeerd akoestische segmenten af te bakenen maar worden de grenzen juist bij de extremen gelegd

• difonen 1 voor 1• concatenatie van dezelfde serie: attentie• met toonhoogteverschillen• Duits met Ned. difonen• Frans met Ned. difonen

INFOVOX

Verschillende talen in INFOVOX

Toegift: Ruis

Ruis

• Witte ruis: ruis die het totale frequentiegebied bestrijkt, en 6 dB toeneemt per octaaf

• In ruis zitten alle frequenties

• opname + kuch

Visuele Anticipatie

Visuele Anticipatie

Visuele Anticipatie

Auditieve Anticipatie

• In ruis zitten alle frequenties

• opname + kuch

• originele opname