Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere...

40
2 Overzicht Overzicht • Inleiding • Basisprincipes Robuuste breedband-bundelvorming Meerkanaals optimale filtering Akoestische-kanaalschatting en dereverberatie Besluit en verder onderzoek

Transcript of Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere...

Page 1: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

22

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 2: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

33

OverzichtOverzicht

• Inleiding

� Situering en toepassingen

� Probleemstelling

� Bijdragen

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 3: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

44

• Opname van spraak in ongunstige akoestische omgeving

SitueringSituering

• Spraakcommunicatietoepassingen: handenvrije mobieletelefonie, spraakgestuurde systemen, hoorapparaten

Achtergrondlawaai:- ventilator, radio- andere personen- meestal ongekend

Reverberatie (nagalm)- reflecties van signaal tegen muur, objecten

• Lage signaalkwaliteit• Spraakverstaanbaarheid en spraakherkenning

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 4: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

55

Signaalverbetering

DoelstellingDoelstelling

• Signaalverbeteringstechnieken:� Ruisonderdrukking : verminderen van

achtergrondlawaai zonder spraak te vervormen� Dereverberatie : effect van nagalm verminderen� Gecombineerde ruisonderdrukking en dereverberatie

• Akoestische bronlokalisatie: camera of volgspot

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 5: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

66

• Video-conferencing:� Microfoonrooster voor bronlokalisatie :

– richten van camera op actieve spreker– signaalverbetering door sturen van microfoonrooster

ToepassingenToepassingen

• Handenvrije mobiele telefonie:

� Belangrijkste toepassing vanuit economisch standpunt

� Handenvrije kit in wagen verplicht

� Meeste huidige systemen: 1 directionele microfoon

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 6: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

77

• Hoorapparaten en cochleaire implantaten:� meeste slechthorenden lijden aan perceptueel

gehoorverlies versterking

verzwakking van ruis tov gewenst signaal

ToepassingenToepassingen

• Spraakgestuurde systemen:� consumentenelektronica (HiFi, PC software)� voordeel wanneer spraakherkenning betrouwbaar werkt in

alle omstandigheden � signaalverbetering als voorverwerking

� meerdere microfoons + DSP in hoorapparaat� huidige systemen: eenvoudige bundelvorming � robuustheid zeer belangrijk wegens kleine afstand microfoons

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 7: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

88

Algoritmische vereistenAlgoritmische vereisten

• ‘Blinde’ technieken: ongekende ruisbronnen en omgeving

• Adaptief: tijdsvariante signalen en akoestische omgeving

• Robuustheid:

� Microfoonkarakteristieken (versterking, fase, positie)

� Andere afwijkingen van veronderstelde

signaalmodel

• Integratie van verschillende technieken

• Berekeningscomplexiteit

Inleiding -Situering -Probleemstelling -Bijdragen

Basisprincipes

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 8: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

Probleemstelling en bijdragenProbleemstelling en bijdragen

99

Eénkanaals-technieken

– spectrale subtractie [Boll 79, Ephraim 85, Xie 96]

•Signaalonafhankelijke transformatie

•Problemen met residuele ruis

– deelruimte-gebaseerd [Dendrinos 91, Ephraim 95, Jensen 95]

•Signaalafhankelijke transformatie

•signaalruimte + ruisdeelruimte

2. Meerkanaals optimale filtering

spatiale informatie

robuustheid

3. Blinde kanaalschatti

ng dereverberati

e

1. Robuuste breedband- bundelvormi

ng

Meerkanaals-technieken

– vaste bundelvorming [Dolph 46, Cox 86, Ward 95, Elko 00]

•Vast directiviteitspatroon

– adaptieve bundelvorming [Frost 72, Griffiths 82, Gannot 01]

•aanpassen aan verschillende omgevingen performantie

•`Generalised Sidelobe Canceller’ (GSC)

– inverse, ‘matched’ filtering [Myoshi 88, Flanagan 93, Affes 97]

enkel spectrale informatie

a-priori veronderstellingen

Page 9: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1010

OverzichtOverzicht

• Inleiding

• Basisprincipes

� Signaalmodel

� Karakteristieken van signalen en akoestische omgeving

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 10: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1111

SignaalmodelSignaalmodel

• Model voor microfoonsignalen in tijdsdomein: gefilterde versie van zuiver spraaksignaal + additieve gekleurde ruis

][0 ky

][1 ky

][1 kyN

][][][ kvkxky nnn ][kvn][khn ][ks

Akoestischeimpulsresponsie

][ks

Spraak-signaal

Additieveruis

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 11: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1212

SignaalmodelSignaalmodel

• Meerkanaals-signaalverbetering: microfoonsignalen worden gefilterd met filters wn[k] en gesommeerd

� f [k] = totale transferfunctie voor spraakcomponent

� zv[k] = residuele ruiscomponent

][0 ky

][1 ky

][1 kyN

][ks

][0 kw

][1 kw

][1 kwN

][kz

][

][][][

][

][][][][][1

0

1

0

1

0

kz

kvkwks

kf

khkwkykwkz

v

N

nnn

N

nnn

N

nnn

• Technieken verschillen in berekening van filters:

� Ruisonderdrukking : minimaliseer residuele ruis zv[k] en

beperk spraakvervorming

� Dereverberatie : f [k]=δ [k] door schatten van akoestische impulsresponsies hn[k]

� Gecombineerde ruisonderdrukking en dereverberatie

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 12: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1313

Karakteristieken van signalenKarakteristieken van signalen

• Spraak:

� Breedbandig (300-8000 Hz)

� Aan/uit-karakteristiek

Spraakdetectie-algoritme (VAD)

� Lineair lage-rangmodel: lineairecombinatie van basisfuncties

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

Am

plit

ud

e

Tijd (sec)

][][1

kak i

R

ii

ss (R=12…20)

• Ruis:

� ongekende signalen zonder referentie

� traag-variërend (ventilator) niet-stationair (radio, spraak)

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 13: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1414

Akoestische omgevingAkoestische omgeving

• Reverberatietijd T60 : globale karakteristiek

• Akoestische impulsresponsies:

� Akoestische filtering tussenspreker en microfoons

� FIR-filter (K=1000…2000 taps)

� Niet-minimum-fasesysteem geen stabiele inverse

• Microfoonrooster:

� Veronderstelling: puntsensoren met ideale karakteristiek

� Afwijkingen: versterking, fase, positie

Auto Kamer Kerk

70 ms 250 ms 1500 ms

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Tijd (sec)

Am

plit

ud

e

Impulsresponsie PSK rij 9

Inleiding

Basisprincipes -Signaalmodel -Karakteristieken

Bundelvorming

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 14: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1515

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

� Nieuwe ontwerpprocedures voor breedband-bundelvorming

� Robuuste bundelvorming tegen afwijkingen inversterking en fase

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 15: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1616

Vaste bundelvormingVaste bundelvorming

• Ruis- en spraakbronnen met zelfde spectrum op verschillende posities

Benut spatiale diversiteit door meerdere microfoons

• Originele techniek uit radartoepassingen:

� Smallband : compensatie van vertraging breedband

� ‘Far-field’ : vlakke golven ‘near-field’ : sferische golven

� Gekende karakteristieken van sensoren afwijkingen

- Lage complexiteit- Robuustheid bij lage signaal-ruisverhouding

- A-priori kennis over posities en microfoonkarakteristieken- Signaal-onafhankelijk

FIR ‘filter-and-sum’ structuur: willekeurig directiviteits-patroon voor willekeurige microfoonconfiguratie

Onderdrukken ruis en reverberatie uit bepaalde richtingen

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 16: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1717

‘‘Filter-and-sum’ configuratie Filter-and-sum’ configuratie

• Doelstelling: bereken filters wn[k] zodat bundelvormer

gewenste vaste spatiale en spectrale filtering uitvoert

Far-field: - vlakke golven- gelijke verzwakking

2D-filterontwerp in hoek en frequentie

Directiviteitspatroon:

),()(

),(),(

gwT

S

ZH

Gewenst directiviteitspatroon:

),( D

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 17: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1818

OntwerpproceduresOntwerpprocedures

• Ontwerp filter w zodat directiviteitspatroon zo dicht mogelijk benadert over volledig frequentie-hoek- gebied minimalisatie van kostfunctie

� Niet-lineare kostfunctie iteratieve optimalisatie = complex!

� Gewogen-kleinste-kwadraten kwadratische functie

� Eigenfilter gebaseerd op TLS-criterium GEVD

• Besluit: TLS-eigenfilter beste niet-iteratieve procedure

),( H),( D

ddDHFJ LS

2),(),(),()(w

ddDHFJ NL

222),(),(),()(w

ddDH

FJTTLS 1

),(),(),()(

2

www

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 18: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

1919

Niet-lineaire procedure TLS-Eigenfilter

SimulatiesSimulaties

Angle (deg) Freq (Hz)

dB

Angle (deg) Freq (Hz)

dB

Parameters:-N=5, d=4cm-L=20, fs=8kHz-Pass: 40o-80o

-Stop: 0o-30o + 90o-180o

Delay-and-sum

Angle (deg) Freq (Hz)

dB

Page 19: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2020

• Kleine afwijkingen van veronderstelde karakteristieken (versterking, fase, positie) grote afwijkingen in directiviteits-patroon, zeker voor microfoonroosters met kleine afmeting

• In de praktijk zijn microfoonkarakteristieken nooit exact gekend

• Beschouw alle mogelijke microfoonkarakteristieken en optimaliseer

� gemiddelde performantie met waarschijnlijkheid als gewicht

� ‘worst-case’ performantie minimax-optimalisatieprobleem

Robuuste breedband Robuuste breedband bundelvormingbundelvorming

101010 )()(),,(0 1

NNN

A A

mean dAdAAfAfAAJJN

Breng specifieke (willekeurige) afwijkingen in rekening

positie

/cos

fase

),(

gversterkin

),(),( cfjjnn

snn eeaA

Meet- of kalibratieprocedure

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 20: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2121

SimulatiesSimulaties

• Niet-lineaire ontwerpprocedure

• N=3, posities: [-0.01 0 0.015] m, L=20, fs=8 kHz

• Passband = 0o-60o, 300-4000 Hz (endfire)Stopband = 80o-180o, 300-4000 Hz

• Robuust ontwerp voor gemiddelde performantie:Uniforme pdf = (0.85-1.15) en (-5o-10o)

• Afwijking = [0.9 1.1 1.05] en [5o -2o 5o]

Ontwerp J Jdev

Niet-robuust 0.1585 87.131

Gemiddelde kost

0.2196 0.2219

Maximumkost

0.1707 0.1990

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 21: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2222

Niet-robuust ontwerp Robuust ontwerp

Geen a

fwijkin

gen

Afw

ijkingen

(verste

rking/fa

se)

SimulatiesSimulaties

Angle (deg)

Frequency (Hz)

dB

Angle (deg)

Frequency (Hz)

dB

Angle (deg)

Frequency (Hz)

dB

Angle (deg)

Frequency (Hz)

dB

Inleiding

Basisprincipes Bundelvorming -Ontwerp -Robuust

Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 22: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2323

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

� GSVD-gebaseerde optimaal-filtertechniek

� Verminderen van berekeningscomplexiteit

� Simulaties

• Akoestische-kanaalschatting en dereverberatie

• Besluit en verder onderzoek

Page 23: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2424

Meerkanaals optimale filteringMeerkanaals optimale filtering

Doel: optimale schatting van spraakcomponenten in microfoonsignalen

Minimaliseer MSE 2][][ kzkxE n

Vertraagde spraakcomponent

in microfoonsignaal

Uitgangssignaal

Geen veronderstellingen

Standaard (adaptieve) bundelvorming: LCMV bCw tosubject,][2 kzE Lineaire beperkingen:

a-priori veronderstellingenover microfoon + positie

2

][

2

][][][][min][][min kkkEkkE T

kkyWxzx

WW

][][][ 1 kkk yxyyWF RRW

Meer-kanaals Wiener Filter

][][][][ 1 kkkk vvyyyyWF RRRW

-Spraak en ruis onafhankelijk-2e orde statistiek ruis stationair schatten tijdens ruisperiodes (VAD)

Meerkanaals Signaal-afhankelijk

Robuustheid

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 24: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2525

Meerkanaals optimale filteringMeerkanaals optimale filtering

• Implementatietechniek:

� gebaseerd op Veralgemeende-Singuliere-Waarde-Ontbinding (GSVD)

– in rekening brengen van lage-rangmodel spraak

– afweging tussen ruisonderdrukking en spraakvervorming

� QRD [Rombouts 2002] , subband [Spriet 2001] lagere complexiteit

• Spraakdetectie-mechanisme is enige a-priori veronderstelling: nodig voor schatting van correlatiematrices

- =1 : MMSE (gelijk belang)

- <1 : minder spraakvervorming, minder ruisonderdrukking

- >1 : meer spraakvervorming, meer ruisonderdrukking

][][)1(][

][][diag][][

22

22

kkηk

kηkkk T

ii

iiTWF QQW

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 25: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2626

• Opsplitsing in spatiaal en spectraal gedeelte

• Gewenst directiviteitspatroon voor eenvoudige scenario’s

Analyse in het frequentiedomeinAnalyse in het frequentiedomein

WFW

vx

x

PP

P

1

11 eΓΓ xy

spectrale filtering(PSD)

spatiale filtering

(coherentie)

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Spraak Ruis

Page 26: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2727

Verminderen van complexiteitVerminderen van complexiteit

• Recursieve versie: elke tijdsstap berekening GSVD + filter

• Complexiteitsreductie door:

� Recursieve technieken voor herberekening GSVD [Moonen 90]

� Sub-bemonstering (stationaire akoestische omgevingen)

Hoge berekeningscomplexiteit

‘Batch’ Recursief QRD [Rombouts]

sub = 1 7504 Gflops 2.1 Gflops 358 Mflops

sub = 20 375 Gflops 105 Mflops 18 Mflops

(N = 4, L = 20, M=80, fs = 16 kHz, P = 4000, Q = 20000)

)(316 23 QPMM 25.20 M 25.3 M

Real-time implementatie mogelijk

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 27: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2828

Verminderen van complexiteitVerminderen van complexiteit

• Integratie in ‘Generalised Sidelobe Canceller’ (GSC) structuur: adaptieve bundelvorming

� Creatie van ‘spraakreferentie’ en ‘ruisreferentie’

� Standaard meerkanaals adaptief filter (LMS, APA)

][0 ky

][1 ky

][1 kyN

Spraak-referenti

e

][0 kw

][1 kw

][1 kwN

Optimaalfilter

Ruis-referentie(

s) +

][0 kwa

Adaptief filter

delay

Blocking matrix

Ruis-referenties

][0 ky

][1 ky

][1 kyN

Spraak-referenti

ef [k]

0

1

1N

Delay-sum bundelvorm

er

][1 kwa

][2 kwa

][1 kw Na

Meer-kanaals adaptief

filter

Verhogen van performantie

Verminderen van complexiteit door korte filters

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 28: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

2929

SimulatiesSimulaties

• N=4, SNR=0 dB, 3 ruisbronnen (wit, spraak, muziek), fs=16 kHz

• Performantie: verbetering van signaal-ruisverhouding (SNR)

0 500 1000 15000

5

10

15

Reverberatietijd (msec)

Unb

iase

d S

NR

(dB

)Delay-and-sum bundelvormerrGSC (LANC=400, ruisref=Griffiths-Jim)

Recursieve GSVD (L=20, LANC=400, alle nref)Recursieve GSVD (L=20, geen ANC)

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 29: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3030

ConclusiesConclusies

• GSVD-gebaseerde optimaal-filtertechniek:

� Meerkanaals-uitbreiding van éénkanaals deelruimte-gebaseerde technieken

� Signaal-afhankelijk lage-rangmodel spraak

� Geen a-priori veronderstellingen over sprekerpositie en microfoons

• SNR-verbetering beter dan GSC voor alle reverberatietijden en beschouwde akoestische scenario’s

• Grotere robuustheid tegen afwijkingen in signaalmodel:

� Microfoonkarakteristieken

� Sprekerpositie

� VAD: enige a-prori informatie!

– Geen effect op SNR-verbetering

– Beperkt effect op spraakvervorming

Inleiding

Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

-Optimale filtering

-Complexiteit -Simulaties

Kanaalschattingen dereverberatie

Besluit

Page 30: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3131

OverzichtOverzicht

• Inleiding

• Basisprincipes

• Robuuste breedband-bundelvorming

• Meerkanaals optimale filtering

• Akoestische-kanaalschatting en dereverberatie

� Technieken in tijdsdomein

� Technieken in frequentiedomein

� Gecombineerde ruisonderdrukking en dereverberatie

• Besluit en verder onderzoek

Page 31: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3232

DoelstellingDoelstelling

][0 ky

][1 ky

][1 kyN

][1 kh

][0 kw

][1 kw

][1 kwN

][kz

Blinde schatting van akoestische impulsresponsies

Tijdsdomein

Frequentiedomein

Ruisonderdrukking en dereverberatie

Dereverberatie

Bronlokalisatie

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 32: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3333

• Signaalmodel voor N=2 en geen achtergrondruis

• Deelruimte-gebaseerde techniek: impulsresponsies kunnen berekend uit nulruimte van spraakcorrelatiematrix � (Veralgemeende) eigenvector behorend bij kleinste

(veralgemeende) eigenwaarde� Problemen van techniek in tijdsdomein:

– gevoeligheid aan onderschatting van kanaallengte – lage-rangmodel in combinatie met achtergrondruis

Technieken in tijdsdomeinTechnieken in tijdsdomein

S(z)

H0(z)

H1(z) Y1(z)

Y0(z)

Signalen

][kyyR

-H1(z)

H0(z)

Nulruimte

0

±α

±α

E(z)

E(z)

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 33: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3434

• Niet-adaptieve techniek vormt basis voor afleiding van adaptief stochastich-gradiëntalgoritme

• Gebruik : schatting van gedeeltelijke impulsresponsies schatting van tijdsvertraging voor bronlokalisatie

Stochastisch-gradiëntalgoritmeStochastisch-gradiëntalgoritme

1][ subject to,][min uRuuRuu

kk vvT

yyT

]1[][]1[

]1[]1[

][][][][][][]1[

][][][

kkk

kk

kkkekkekk

kkke

vvT

vv

T

uRu

uu

uRyuu

yu

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 34: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3535

Technieken in frequentiedomeinTechnieken in frequentiedomein

)(

1

1

0

)(

1

1

0

1

1

0

)(

)(

)(

)(

)(

)(

)(

)(

)(

)(

)(

VH

Y

NNN V

V

V

S

H

H

H

Y

Y

Y

)(yyR )(vvR

)(H

• Problemen technieken in tijdsdomein frequentiedomein

• Signaalmodel:

• Schatting van akoestische transferfunctievector H() uit GEVD van correlatiematrices en

� Behorend bij grootste veralgemeende eigenwaarde geen stochastisch-gradiëntalgoritme beschikbaar

� Onbekende schaleringsfactor in elke frequentiebin:

kan bepaald worden indien norm gekend is

enkel toepasbaar wanneer positie van bron vrij vast is (bv. desktop, wagen)

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 35: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3636

• Filteroperatie in frequentiedomein:

• Dereverberatie: genormaliseerd ‘matched filter’

• Gecombineerde ruisonderdrukking en dereverberatie:Z() is optimale schatting van S()

� integratie van meer-kanaals Wiener-filter met genormaliseerd ‘matched filter’

� Afweging tussen beide doelstellingen

Gecombineerde Gecombineerde ruisonderdrukking ruisonderdrukking en dereverberatieen dereverberatie

)()()()()()()()()(

VWHWYW H

F

HH SZ

1)( F

Residuele ruis

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 36: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3737

SimulatiesSimulaties

• N=4, d=2 cm, fs=16 kHz, SNR=0 dB, T60=400 msec

• FFT-grootte L=1024, overlap R=16

• Performantiecriteria:

� Signaal-ruisverhouding (SNR)

� Dereverberatie-index (DI) :

SNR (dB) DI (dB)

Origineel microfoonsignaal 2.88 4.74

Ruisonderdrukking 16.82 4.73

Dereverberatie 2.30 0.86

Gecombineerde ruisonderdrukkingen dereverberatie

10.12 1.35

dH )()(log20

2

110 HW

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

-Tijdsdomein -Frequentiedomein

-Dereverberatie Besluit

Page 37: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3838

BesluitBesluit

• Lage signaalkwaliteit door achtergrondruis en reverberatie signaalverbetering om spraakverstaanbaarheid en

performantie te verhogenEénkanaals-technieken: spectrale informatie

Standaard bundelvorming: a-priori veronderstellingen

Geen a-priori veronderstelling

en

Meerkanaals Signaal-afhankelijk

Blinde kanaalschatti

ng dereverberati

e

Robuuste breedband- bundelvormi

ng

Meerkanaals optimale filtering

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 38: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

3939

BijdragenBijdragen

• Robuuste breedband-bundelvorming:� nieuwe kostfuncties voor breedband ‘far-field’-ontwerp

(niet-lineair, eigenfilter)

� uitbreiding naar ‘near-field’ en ‘mixed near-far field’

� 2 procedures voor robuust ontwerp tegen afwijkingen in versterking en fase

• GSVD-gebaseerde optimaal-filtertechniek voor meerkanaals-ruisonderdrukking:� uitbreiding éénkanaals deelruimte-gebaseerde

technieken meerdere microfoons

� integratie in GSC-structuur

� betere performantie en robuustheid dan bundelvorming

• Akoestische-kanaalschatting en dereverberatie:� stochastisch-gradiëntalgoritme voor schatten van

tijdsvertraging en bronlokalisatie (gekleurde ruis)

� gecombineerde ruisonderdrukking en dereverberatiein frequentiedomein

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 39: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

4040

Verder onderzoekVerder onderzoek

• Combinatie van meerkanaals Wiener-filter en vaste bundelvorming:

� Lage SNR: VAD faalt lage performantie Wiener-filter

� Gecombineerde techniek: robuuster wanneer VAD faalt, betere performantie dan vaste bundelvorming in andere scenario’s

• Akoestische-kanaalschatting en dereverberatie:

� Tijdsdomein: onderliggende reden gevoeligheid

� Frequentiedomein: onbekende schalingsfactor BSS ?

� andere blinde identificatietechnieken (LP, NL Kalman-filtering)

• Verdere vermindering van complexiteit van meerkanaals optimaal-filtertechniek:

� Stochastische-gradiëntalgoritmes

� Subband/frequentie-domein

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit

Page 40: Technieken voor ruisonderdrukking en dereverberatie in spraaktoepassingen met behulp van meerdere microfoons Simon Doclo 21 mei 2003.

4141

Publicaties en projectenPublicaties en projecten

• Publicaties:

� Journals: 1 gepubliceerd, 4 aanvaard

� Conferenties: 11 artikels voorgesteld

� Hoofdstuk in Boek ‘Microphone Arrays: Signal Processing Techniques and Applications’ (Eds. M. Brandstein, D. Ward)

� Best Student Paper Award IWAENC-2001

• Financiering:

� IWT (Instituut voor de aanmoediging van Innovatie door Wetenschap en Technologie in Vlaanderen) : 1998-2002

• Industriële projecten:

� Philips-ITCL: ‘Multi-microphone signal enhancement techniques for hands-free telephony and voice-controlled systems’ (MUSETTE I-II)

� Cochlear CTCE: `Performance improvement of cochlear implants by innovative speech processing algorithms’

Inleiding Basisprincipes Bundelvorming Meerkanaalsoptimale filtering

Kanaalschattingen dereverberatie

Besluit