Download - IV: Auditory Scene Analysis

Transcript
Page 1: IV:  Auditory Scene Analysis

IV: Auditory Scene Analysis

Hoorcollege:• Introductie ASA

Bregman (1990): Primitief + schemagebaseerd• Illustratieve experimenten met eenvoudige stimuli• Relevantie onderscheid primitief –

schemagebaseerd voor spraak + voorbeelden

Studentencollege:• Mattingly and Liberman (1988) Specialized perceiving systems

for speech and other biologically significant sounds– Specifieke spraakmodule i.t.t. algemene verwerking van acoustiche

info?

• Bregman (1998) Human data and computational ASA– Algemene eisen aan systeemarchitectuur voor uitvoering ASA

o.b.v. kennis over menselijke ASA

• Cooke and Okuno (1998) Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its applications to speech/nonspeech mixtures

– Voorstel mogelijke systeemarchitectuur

Page 2: IV:  Auditory Scene Analysis

Auditory Scene Analysis (ASA)

• Probleem ASA:Hoe kunnen we, vanuit de mix van door verschillende bronnen geproduceerde signalen, de juiste combinatie van informatie vinden, zodat er zinvolle mentale representaties behorend bij één bron gereconstrueerd kunnen worden?

• Analogie visueel

Page 3: IV:  Auditory Scene Analysis

Auditory Scene Analysis - 2

• Twee componenten proces (Bregman, 1990):1. Primitieve processen voor auditory grouping: partitie van de data 2. Schemagebaseerde processen waarbij de benodigde evidentie, indien aanwezig, wordt geselecteerd.

Eigenschappen:

Primitieve groepering Schemagebaseerde groepering

-Algemeen

-Simpele, locale analyses

-Automatisch, niet beïnvloed door aandacht

-Aangeboren

-Data-driven (bottom-up)

-Preliminary linking van signaalcomponenten

-Domeinspecifiek

-Globale analyses

-Onder invloed van aandachts-processen

-Aangeleerd

-Hypothesis-driven (top-down)

-Description-building o.b.v. grouping hypotheses

Page 4: IV:  Auditory Scene Analysis

Primitieve ASA - 1

• Relatie Gestalt psychologie: – Continuïteit:

- Nabijheid (proximity) in tijd (t) of frequentie (f)- Overeenkomst (similarity) o.b.v. pitch (F0), brightness, timbre (formantpatroon), spatiële lokatie

– Common fate: Synchronisatie van veranderingen- gecorreleerde amplitude- en/of frequentie- modulatie (AM, FM); micro-/macromodulatie- gelijke onsets en/of offset;

– Belongingness/Exclusive allocation: sensorische evidentie die is toegewezen aan een auditory stream, kan niet tegelijkertijd een bijdrage leveren aan een andere stream; Minder sterke variant: principe van noncontradictie.

– Simplicity: waargenomen structuur zo simpel mogelijk– (Familiarity/Meaningfulness)

• Scene Analysis interpretatie (ecologisch perspectief):– Gerelateerd aan eigenschappen van de in de auditory scene

aanwezige bronnen en hun fysische beperkingen– Sequentiële en simultane integratie in tijds- en

frequentiedomein

Page 5: IV:  Auditory Scene Analysis

Primitieve ASA - 2

Gebruikte stimuli• Short repeating loop:

– Verschillende frequentiegebieden – Cumulation of evidence forceren van groeperen

van kwalitatief gelijke tonen: H—H—H—… —L—L—L-…

– Beïnvloedende factoren, o.a. - Snelheid: t (ISI, SOA)- Frequentie-afstand: f Trade-off(Analogie visueel: bewegende stippen, studentencollege I)

– Streaming effect: gevolg van automatische, primitieve stream segregation processen?

– Fysiologische vs. functionele verklaringen:- Habituatie pitch motion/jump-detectors- Symmetrie/voorspelbaarheid van stimuli

• Tune + distractors:– Frequentierelatie distractor – relevante tonen– Camouflage gevolg van primitieve ASA– Indien melodie bekend, f veel kleiner

Page 6: IV:  Auditory Scene Analysis

Aandachtseffecten - 1

• Taak 1: Alle tonen als één stream proberen te horen(coherentie) - Temporal coherence boundary (TCB: o) Gevolg van automatische en primitieve organisatieprocessen

• Taak 2: Selectie van één stream: focussen aandacht(segregratie) - Fission boundary (FB: x) Limiet aandacht

• Ambiguïteit neemt sterk toe bij afnemende t en toenemende f

Page 7: IV:  Auditory Scene Analysis

Aandachtseffecten - 2

• Aanvankelijk: 1 stream (galloping rhythm);na verloop van tijd: 2 streams

— H ——— H ——— H ——… L — L — L — L — L — L —… (ritme 2x zo snel)

- mate van segregatie weer afhankelijk van f en t (TRT)

• Carlyon et al. (2000):21 sec., waarvan 1e 10 seconden auditieve aandachtstaak: meer “1 stream” beoordelingen

Selectieve aandacht bepalend voor segregatie

Page 8: IV:  Auditory Scene Analysis

Auditory stream segregation

• Groepering afhankelijk van context: f A-B: continuïteit– Harmonische relatie complex B-C: harmoniciteitsprincipe– Onset en/of offset (a)synchronie B-C: common fate– Aanwezigheid toon D: retro-actief effect

• Collaboratie en competitie van cues (?)– Capturing van B door A i.p.v. complex B-C (old-plus-new heuristiek); versterkt

door evt. capturing van C door D – Relatie principe van exclusive allocation;

echter, op niveau van beschrijvingen, niet voor de cues!– Illusies a.g.v. tegenstrijdige/ambigue evidentie

Simultane en sequentiële integratie niet onafhankelijk Cues reflecteren forces of attraction die leiden tot mogelijke links tussen signaalcomponenten (organisatiehypotheses) N.B. Geen stricte partitie i.v.m. transparantie van geluid!

Page 9: IV:  Auditory Scene Analysis

Masking Release

• Comodulation Masking Release (CMR):a.g.v. in amplitude comodulerende ruisbanden (niet voor FM)

• Spatial release from masking: bv. binaurale presentatie van ruis + monaurale presentatie van target

• Maskering gevolg van fysiologische beperking? – Critical bandwidth (CBW)– Relatie kritieke band - frequentieresolutie op BM

• ASA: Gevolg van aanwezigheid cues m.b.t. broninformatie

– Default: integratie– Kruiscorrelatie informatie tussen verschillende

frequentiebanden– Binnen frequentieband: tijdelijk verhoogde locale SNR

a.g.v. AM

Page 10: IV:  Auditory Scene Analysis

Continuïteitsillusie

• Laag-frequente ruisband continueert in B– laat hoog-frequent residu achter: partitie van sensorische

data old-plus-new

• Toon A continueert door B– Vereiste: ruisband B luid genoeg om A te kunnen

maskeren

• Analogie in spraak:

– Foneemrestoratie / Picket-fence effect

Page 11: IV:  Auditory Scene Analysis

Old-plus-new

• Effecten van de grens tussen geluiden– Maskering van discontinuiteit: geen evidentie voor stilte (b),

mogelijke maskering van offset A1/onset A2 (c)– Voldoende neurale evidentie: neurale activatie (niet het fysische

signaal!) tijdens B niet te onderscheiden van indien alleen A aanwezig (ambigu)

– Evidentie voor broncontinuiteit gereflecteerd in A1-A1 groupering: regels voor sequentiele integratie moeten toepasbaar zijn

– Geen graduele overgang van A1 naar B naar A2 (e)

Alle sensorische evidentie moet niet inconsistent zijn met de mogelijke aanwezigheid van A tijdens de aanwezig-heid van B: principe van noncontradictie

Page 12: IV:  Auditory Scene Analysis

Interpolatie versus extrapolatie

• Glides continueren achter de ruis• A.g.v. trajectory-following proces?

• Afhankelijk van informatie ná ruis: grotere, temporele scope, geen locale beslissingen

• Simpelste verklaring van evidentie

• Ruis over cross-over point:waargenomen pitch lager dan te verwachten o.b.v. extrapolatie; komt overeen met hoogste pitch van voor de ruis

Page 13: IV:  Auditory Scene Analysis

Frequency proximity en harmoniciteitsprincipe

• (1) leidt tot twee streams: percept (2) en percept (3)

• (4) leidt tot dezelfde streams als in afwezigheid van ruis, gecombineerd met stream (5)

• (A) Bouncing percept o.b.v. frequency proximity

• (B) Bouncing percept o.b.v. frequency proximity

• (C) Crossing percept o.b.v. harmoniciteit

• (D) Bouncing percept o.b.v. frequency proximity en harmoniciteit

• Onafhankelijk van inhoud interval x: stilte, ruis, glides

Page 14: IV:  Auditory Scene Analysis

Frequency proximity

• Interpretatie bouncing percept i.p.v. crossing percept en afwezigheid trajectory-following proces tevens bij:– (1) Discrete, constante tonen (steady tones)– (2) Korte glides, met constante lengte, in richting van

trajectory, met overlap in tijd (constante lengte van de glides wordt opgebroken op cross-over point)

– (3) Streams waarbij het ritme het traject bevoordeeld– (4) Streams waarbij het ritme segregatie binnen beperkt

frequentiebereik bevoordeeld

Page 15: IV:  Auditory Scene Analysis

Conclusie “primitieve” ASA - 1

• “Continuïteitsillusie” “Compensatie” voor maskering Bovendien: Evidentie ís aanwezig; niet echt een illusie

• Voordeel van vergaren van evidentie over langer tijdsbestek:

– Evidentie is alleen locaal ambigu, niet in globale context

Toepassingen (ASR):

– Low-quality vs. high-quality data

– Selective listening strategie: zwaarder wegen high-quality data

– Missing-feature theory: negeren low-quality data

– Locale SNR in tijd én frequentie (niet over hele signaal en over gehele spectrum)

Page 16: IV:  Auditory Scene Analysis

Conclusie “primitieve” ASA -2

• Onset B = offset A erg onwaarschijnlijk (old-plus-new)

• Relatie psychofysica:– Target detectie afhankelijk van duur en intensiteit:

temporeel integratie window (afname temporele resolutie naarmate verder richting AC, college II)

– Vb. Psychophysical overshoot: sterke toename AC respons op target naarmate background stimulus langer aanwezig is

– Short-term adaptation: adaptatie aan constante input; bevat geen informatie

– Belang van detectie van veranderingen: dynamische aspecten benadrukken: events (bv. onset enhancement, RASTA filtering)

Page 17: IV:  Auditory Scene Analysis

Schemagebaseerde ASA

• Schema = Cognitieve structuur (concreet/abstract):“some control system in the human brain that is sensitive to some frequently occurring pattern, either in the environment, in ourselves, or in how the two interact”

– Domeinspecifiek– Globaal: grotere temporele scope– Leereffect– Onder invloed van aandacht – Hypothesis-driven (“top-down”)

• Assimilatie:– Geschikt toepassen op een situatie; input-specifiek– Elk schema heeft eigen methoden voor het evalueren van

(transformaties van) sensorische evidentie om te bepalen of het patroon waar het voor staat aanwezig is.

• Constructief, matching: – “Zoeken” naar bevestigende stimulatie in auditieve input

• Dynamisch systeem: – Bij geluiden tijdsdimensie van belang– Temporele patronen, priming

Page 18: IV:  Auditory Scene Analysis

Sequentiële integratie van spraak

• Sterk geleerde vaardigheid• Opeenvolging van klanken:

verschillende fonemen kwalitatief verschillend, toch coherent

• Cocktail-party effect: gebruik maken van broneigenschappen als pitch, lokatie, timbre eigenschappen gelden binnen stream: resultaat van segregatie? (vgl. ritme, volgorde)

Continuïteit in:• F0/pitch contour

– bij stemhebbende spraak o.b.v. (quasi-) periodiciteit (bv. klinkers)

– grotere scope: intonatiepatroon (taalspecifiek, melodie inherent aan grammaticapatroon en betekenis)

• Spatiële continuïteit:– Bron blijft vaak op zelfde plaats en/of verandert relatief

langzaam van plaats

Page 19: IV:  Auditory Scene Analysis

Sequentiële integratie spraak - 2

• Spectraal: formanten– gevolg van filtering door stemkanaal (verandert niet

van ene op andere moment)– meeste overgangen tussen spraakklanken “zichtbaar” – integratie ruisige consonanten o.b.v. synchronisatie

van verandering dichtbij temporele boundary tussen twee geluiden (vb. click language)

– afwezigheid F0 continuiteit kan gecompenseerd worden door formantcontinuiteiten: leveren onafhankelijke bijdragen aan sequentiële integratie(college I, bron-filter model)

• Hoe formanten te bepalen?– Piekfrequentie? Geen directe eigenschap van de

formant zelf, maar abstracter: piek in spectraal omhullende.

– Auditieve systeem: representatie van formanten en FM sweeps (college II)

Page 20: IV:  Auditory Scene Analysis

Formanttransities

Met transities: coherent Primitief trajectory following process?

1. Retro-actieve effecten: backward extrapolation

2. Continuïteitsbehoud: voorkomen plotselinge discontinuïteiten

3. Niet gevolg van groepering binnen syllabe, maar o.b.v. gelijkheid groeperen over syllabes.

4. Interpretatie van het signaal als een speech event: o.b.v. articulatorische continuïteit

Page 21: IV:  Auditory Scene Analysis

Simultane integratie van spraak

• Harmonische relaties en F0– Patroonherkenningsmodellen:

“harmonic sieve”, spectrale templates– Temporele pitchmodellen:

harmonische structuur is emergente eigenschap van synchroon vuren met F0-periode; => groepering o.b.v. pitch(continuïteit) is dus ook emergent=> belangrijke rol i.v.m. ruisrobuuste informatieverwerking

• Split-formant– Gesynthetiseerde spraak:

zelfde vs. verschillende F0, monochotisch vs. dichotisch

• Verschillende F0/dichotisch: 2 stemmen, één foneem (o.b.v. fonetisch coherent percept)

• Tenzij competitie in groepering formanten voor verschillende foneemidentiteit (F1-F2-F3, F1-F3-F4): disambiguatie o.b.v. F0

• Duplex perceptie van spraak (studentencollege IV)

Page 22: IV:  Auditory Scene Analysis

Sine wave speech

• Kennis over de dynamiek van spraak: spectraal-temporele ontwikkeling van voor spraakherkenning relevante features, zoals formanttransities en –posities– Vb. Sine-wave speech– Abstract model van de onderliggende dynamiek

van het stemkanaal

Page 23: IV:  Auditory Scene Analysis

ASA: voorlopige conclusies

• Belangrijkste aspecten:– Continuïteit in:

• Pitchcontour (voor stemhebbende spraak) = evenwijdig lopende, gelijktijdig veranderende, harmonischen- binnen beperkte pitchrange- relatie neurale informatieverwerking: synchroon vuren van harmonischen behorend bij zelfde F0 => duidelijk onderscheidbare perceptuele eenheid => invloed selectieve aandacht- versterkt door invloed van leren, “herkennen” van harmonische patronen

• Articulatorische continuïteit: graduele verandering in formantpatroon i.v.m. beperkingen stemkanaal- vocal tract dynamics

– Synchroniciteit van veranderingen • Gelijktijdig beginnen (onset), veranderen, of

eindigen (offset) van signaalcomponenten afkomstig van eenzelfde bron

• Relatieve timing van kwalitatief verschillende geluiden t.o.v. elkaar

Page 24: IV:  Auditory Scene Analysis

ASA: voorlopige conclusie

• Onderscheid primitief vs. schemagebaseerd niet echt relevant, geeft vertekend beeld– Selectie = (gedeeltelijke) herkenning, niet

scheiden!– Globale context, selectieve aandacht en

invloed van leren altijd van belang om het resultaat van de perceptuele verwerking (= het percept, de waarneming waarvan we ons bewust worden) te begrijpen. Vb. Foneemrestoratie

– Tijdsschaal bewustzijn en informatieverwerking niet gelijk. Vb. Retro-actieve effecten (“The *eel was on the axle/orange” , studentencollege IV)

Page 25: IV:  Auditory Scene Analysis

Appendix: Psychofysica

• Relatie fysische stimuli – perceptie/respons (begin - ? - eind)

• Beschrijving van verschijnselen

• Voorspellen fysiologische mechanismen starting point voor fysiologisch onderzoek

• Absolute/relatieve thresholds voor detectie gevoeligheid (sensitivity) vs. criterion-shift (bias), (SDT)

• Matching experimenten (bv. loudness matching)

• Scaling: magnitude van ervaring i.r.t. stimulusintensiteit

• Invloed verandering omgeving (bv. adaptatie: invloed op detectie)

• Identificatie van een stimulus: invloed recente geschiedenis + ervaring met omgeving