IV: Auditory Scene Analysis

download IV:  Auditory Scene Analysis

of 25

  • date post

    03-Jan-2016
  • Category

    Documents

  • view

    39
  • download

    0

Embed Size (px)

description

IV: Auditory Scene Analysis. Hoorcollege: Introductie ASA Bregman (1990): Primitief + schemagebaseerd Illustratieve experimenten met eenvoudige stimuli Relevantie onderscheid primitief – schemagebaseerd voor spraak + voorbeelden Studentencollege: - PowerPoint PPT Presentation

Transcript of IV: Auditory Scene Analysis

  • IV: Auditory Scene AnalysisHoorcollege:Introductie ASA Bregman (1990): Primitief + schemagebaseerdIllustratieve experimenten met eenvoudige stimuliRelevantie onderscheid primitief schemagebaseerd voor spraak + voorbeelden

    Studentencollege:Mattingly and Liberman (1988) Specialized perceiving systems for speech and other biologically significant soundsSpecifieke spraakmodule i.t.t. algemene verwerking van acoustiche info?Bregman (1998) Human data and computational ASAAlgemene eisen aan systeemarchitectuur voor uitvoering ASA o.b.v. kennis over menselijke ASACooke and Okuno (1998) Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its applications to speech/nonspeech mixturesVoorstel mogelijke systeemarchitectuur

  • Auditory Scene Analysis (ASA)Probleem ASA: Hoe kunnen we, vanuit de mix van door verschillende bronnen geproduceerde signalen, de juiste combinatie van informatie vinden, zodat er zinvolle mentale representaties behorend bij n bron gereconstrueerd kunnen worden? Analogie visueel

  • Auditory Scene Analysis - 2Twee componenten proces (Bregman, 1990): 1. Primitieve processen voor auditory grouping: partitie van de data 2. Schemagebaseerde processen waarbij de benodigde evidentie, indien aanwezig, wordt geselecteerd. Eigenschappen:

    Primitieve groeperingSchemagebaseerde groepering-Algemeen-Simpele, locale analyses-Automatisch, niet benvloed door aandacht-Aangeboren-Data-driven (bottom-up)-Preliminary linking van signaalcomponenten-Domeinspecifiek-Globale analyses-Onder invloed van aandachts-processen-Aangeleerd-Hypothesis-driven (top-down)-Description-building o.b.v. grouping hypotheses

  • Primitieve ASA - 1Relatie Gestalt psychologie: Continuteit: - Nabijheid (proximity) in tijd (t) of frequentie (f) - Overeenkomst (similarity) o.b.v. pitch (F0), brightness, timbre (formantpatroon), spatile lokatie Common fate: Synchronisatie van veranderingen - gecorreleerde amplitude- en/of frequentie- modulatie (AM, FM); micro-/macromodulatie - gelijke onsets en/of offset; Belongingness/Exclusive allocation: sensorische evidentie die is toegewezen aan een auditory stream, kan niet tegelijkertijd een bijdrage leveren aan een andere stream; Minder sterke variant: principe van noncontradictie.Simplicity: waargenomen structuur zo simpel mogelijk(Familiarity/Meaningfulness)

    Scene Analysis interpretatie (ecologisch perspectief):Gerelateerd aan eigenschappen van de in de auditory scene aanwezige bronnen en hun fysische beperkingenSequentile en simultane integratie in tijds- en frequentiedomein

  • Primitieve ASA - 2Gebruikte stimuliShort repeating loop:Verschillende frequentiegebieden Cumulation of evidence forceren van groeperen van kwalitatief gelijke tonen: HHH LLL-Benvloedende factoren, o.a. - Snelheid: t (ISI, SOA) - Frequentie-afstand: f Trade-off (Analogie visueel: bewegende stippen, studentencollege I)Streaming effect: gevolg van automatische, primitieve stream segregation processen? Fysiologische vs. functionele verklaringen: - Habituatie pitch motion/jump-detectors - Symmetrie/voorspelbaarheid van stimuli Tune + distractors:Frequentierelatie distractor relevante tonenCamouflage gevolg van primitieve ASAIndien melodie bekend, f veel kleiner

  • Aandachtseffecten - 1Taak 1: Alle tonen als n stream proberen te horen (coherentie) - Temporal coherence boundary (TCB: o) Gevolg van automatische en primitieve organisatieprocessenTaak 2: Selectie van n stream: focussen aandacht (segregratie) - Fission boundary (FB: x) Limiet aandachtAmbiguteit neemt sterk toe bij afnemende t en toenemende f

  • Aandachtseffecten - 2Aanvankelijk: 1 stream (galloping rhythm); na verloop van tijd: 2 streams H H H L L L L L L (ritme 2x zo snel) - mate van segregatie weer afhankelijk van f en t (TRT)Carlyon et al. (2000): 21 sec., waarvan 1e 10 seconden auditieve aandachtstaak: meer 1 stream beoordelingen

    Selectieve aandacht bepalend voor segregatie

  • Auditory stream segregationGroepering afhankelijk van context:f A-B: continuteitHarmonische relatie complex B-C: harmoniciteitsprincipeOnset en/of offset (a)synchronie B-C: common fateAanwezigheid toon D: retro-actief effect

    Collaboratie en competitie van cues (?)Capturing van B door A i.p.v. complex B-C (old-plus-new heuristiek); versterkt door evt. capturing van C door D Relatie principe van exclusive allocation; echter, op niveau van beschrijvingen, niet voor de cues!Illusies a.g.v. tegenstrijdige/ambigue evidentie

    Simultane en sequentile integratie niet onafhankelijk Cues reflecteren forces of attraction die leiden tot mogelijke links tussen signaalcomponenten (organisatiehypotheses) N.B. Geen stricte partitie i.v.m. transparantie van geluid!

  • Masking ReleaseComodulation Masking Release (CMR): a.g.v. in amplitude comodulerende ruisbanden (niet voor FM)Spatial release from masking: bv. binaurale presentatie van ruis + monaurale presentatie van target Maskering gevolg van fysiologische beperking? Critical bandwidth (CBW)Relatie kritieke band - frequentieresolutie op BMASA: Gevolg van aanwezigheid cues m.b.t. broninformatieDefault: integratieKruiscorrelatie informatie tussen verschillende frequentiebandenBinnen frequentieband: tijdelijk verhoogde locale SNR a.g.v. AM

  • ContinuteitsillusieLaag-frequente ruisband continueert in Blaat hoog-frequent residu achter: partitie van sensorische data old-plus-newToon A continueert door BVereiste: ruisband B luid genoeg om A te kunnen maskeren

    Analogie in spraak:Foneemrestoratie / Picket-fence effect

  • Old-plus-newEffecten van de grens tussen geluidenMaskering van discontinuiteit: geen evidentie voor stilte (b), mogelijke maskering van offset A1/onset A2 (c)Voldoende neurale evidentie: neurale activatie (niet het fysische signaal!) tijdens B niet te onderscheiden van indien alleen A aanwezig (ambigu)Evidentie voor broncontinuiteit gereflecteerd in A1-A1 groupering: regels voor sequentiele integratie moeten toepasbaar zijnGeen graduele overgang van A1 naar B naar A2 (e)

    Alle sensorische evidentie moet niet inconsistent zijn met de mogelijke aanwezigheid van A tijdens de aanwezig-heid van B: principe van noncontradictie

  • Interpolatie versus extrapolatieGlides continueren achter de ruisA.g.v. trajectory-following proces?

    Afhankelijk van informatie n ruis: grotere, temporele scope, geen locale beslissingen Simpelste verklaring van evidentie

    Ruis over cross-over point: waargenomen pitch lager dan te verwachten o.b.v. extrapolatie; komt overeen met hoogste pitch van voor de ruis

  • Frequency proximity en harmoniciteitsprincipe(1) leidt tot twee streams: percept (2) en percept (3)(4) leidt tot dezelfde streams als in afwezigheid van ruis, gecombineerd met stream (5)(A) Bouncing percept o.b.v. frequency proximity(B) Bouncing percept o.b.v. frequency proximity(C) Crossing percept o.b.v. harmoniciteit(D) Bouncing percept o.b.v. frequency proximity en harmoniciteitOnafhankelijk van inhoud interval x: stilte, ruis, glides

  • Frequency proximityInterpretatie bouncing percept i.p.v. crossing percept en afwezigheid trajectory-following proces tevens bij:(1) Discrete, constante tonen (steady tones)(2) Korte glides, met constante lengte, in richting van trajectory, met overlap in tijd (constante lengte van de glides wordt opgebroken op cross-over point)(3) Streams waarbij het ritme het traject bevoordeeld(4) Streams waarbij het ritme segregatie binnen beperkt frequentiebereik bevoordeeld

  • Conclusie primitieve ASA - 1Continuteitsillusie Compensatie voor maskering Bovendien: Evidentie s aanwezig; niet echt een illusie

    Voordeel van vergaren van evidentie over langer tijdsbestek: Evidentie is alleen locaal ambigu, niet in globale context

    Toepassingen (ASR):Low-quality vs. high-quality dataSelective listening strategie: zwaarder wegen high-quality data Missing-feature theory: negeren low-quality data Locale SNR in tijd n frequentie (niet over hele signaal en over gehele spectrum)

  • Conclusie primitieve ASA -2Onset B = offset A erg onwaarschijnlijk (old-plus-new) Relatie psychofysica:Target detectie afhankelijk van duur en intensiteit: temporeel integratie window (afname temporele resolutie naarmate verder richting AC, college II)Vb. Psychophysical overshoot: sterke toename AC respons op target naarmate background stimulus langer aanwezig isShort-term adaptation: adaptatie aan constante input; bevat geen informatieBelang van detectie van veranderingen: dynamische aspecten benadrukken: events (bv. onset enhancement, RASTA filtering)

  • Schemagebaseerde ASASchema = Cognitieve structuur (concreet/abstract): some control system in the human brain that is sensitive to some frequently occurring pattern, either in the environment, in ourselves, or in how the two interactDomeinspecifiekGlobaal: grotere temporele scopeLeereffectOnder invloed van aandacht Hypothesis-driven (top-down)

    Assimilatie:Geschikt toepassen op een situatie; input-specifiekElk schema heeft eigen methoden voor het evalueren van (transformaties van) sensorische evidentie om te bepalen of het patroon waar het voor staat aanwezig is.

    Constructief, matching: Zoeken naar bevestigende stimulatie in auditieve input

    Dynamisch systeem: Bij geluiden tijdsdimensie van belangTemporele patronen, priming

  • Sequentile integratie van spraakSterk geleerde vaardigheidOpeenvolging van klanken: verschillende fonemen kwalitatief verschillend, toch coherentCocktail-party effect: gebruik maken van broneigenschappen als pitch, lokatie, timbre eigenschappen gelden binnen stream: resultaat van segregatie? (vgl. ritme, volgorde)

    Continuteit in:F0/pitch contour bij stemhebbe