EP0612059A2 - Method for estimating the propagation time in noisy speech channels - Google Patents

Method for estimating the propagation time in noisy speech channels Download PDF

Info

Publication number
EP0612059A2
EP0612059A2 EP93120010A EP93120010A EP0612059A2 EP 0612059 A2 EP0612059 A2 EP 0612059A2 EP 93120010 A EP93120010 A EP 93120010A EP 93120010 A EP93120010 A EP 93120010A EP 0612059 A2 EP0612059 A2 EP 0612059A2
Authority
EP
European Patent Office
Prior art keywords
phase
determined
signals
estimated
maxima
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP93120010A
Other languages
German (de)
French (fr)
Other versions
EP0612059B1 (en
EP0612059A3 (en
Inventor
Klaus Dr.- Linhard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
Daimler Benz AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daimler Benz AG filed Critical Daimler Benz AG
Publication of EP0612059A2 publication Critical patent/EP0612059A2/en
Publication of EP0612059A3 publication Critical patent/EP0612059A3/en
Application granted granted Critical
Publication of EP0612059B1 publication Critical patent/EP0612059B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Noise Elimination (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Geräuschreduktion in einem Spracherkennungssystem. Es werden die Phasen von zumindest zwei gestörten Signalen geschätzt. Die Phasenschätzung und der für die Geräuschreduktion erforderliche Phasenausgleich wird im Frequenzbereich durchgeführt. Die Hintergrundstörung und das Einschwingverhalten des Raumes werden ständig mitgeschätzt. <IMAGE>The invention relates to a method for noise reduction in a speech recognition system. The phases of at least two disturbed signals are estimated. The phase estimation and the phase compensation required for noise reduction is carried out in the frequency domain. The background disturbance and the transient response of the room are constantly estimated. <IMAGE>

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.The invention relates to a method according to the preamble of patent claim 1.

Ein derartiges Verfahren findet Verwendung bei automatischen Spracherkennungssystemen oder für Freisprechanlagen z.B. in Büroräumen, Kraftfahrzeugen etc..Such a method is used in automatic speech recognition systems or for hands-free systems, e.g. in offices, motor vehicles etc.

Gestörte Sprache ist besser erfaßbar, wenn sie mit zwei oder mehreren Kanälen aufgezeichnet wird. Der Mensch benutzt zwei Kanäle, seine beiden Ohren. Durch eine psychoakustische Nachverarbeitung wird bei ihm die Richtung des Sprechers ermittelt und die Hintergrundstörung ausgeblendet. Bei technischen Geräten können zwei oder mehrere Kanäle zur Aufzeichnung verwendet werden. Diese Signale können dann mit einer digitalen Signalverarbeitung aufbereitet werden.Disrupted speech is easier to grasp if it is recorded with two or more channels. Man uses two channels, his two ears. Through psychoacoustic postprocessing, the direction of the speaker is determined and the Background noise is hidden. In technical devices, two or more channels can be used for recording. These signals can then be processed using digital signal processing.

Ein wesentlicher Aspekt der mehrkanaligen Verarbeitung ist die Schätzung des Laufzeitunterschiedes der einzelnen Kanäle. Ist der Laufzeitunterschied bekannnt, kann die Richtung des Schallereignisses (Sprecher) ermittelt werden. Die Signale der einzelnen Kanäle können entsprechend laufzeitkorrigiert und weiterverarbeitet werden. Werden z.B. nicht korrigierte Signale zu einem Summensignal zusammengefaßt, können sich einzelne spektrale Anteile des Signals durch Interferenz verstärken, dämpfen oder auslöschen.An important aspect of multi-channel processing is the estimation of the runtime difference between the individual channels. If the time difference is known, the direction of the sound event (speaker) can be determined. The signals of the individual channels can be corrected accordingly and processed further. E.g. If uncorrected signals are combined to form a sum signal, individual spectral components of the signal can be amplified, attenuated or canceled by interference.

Ein Verfahren zur automatischen Ermittlung der Laufzeitunterschiede zweier Mikrofone ist aus einer Veröffentlichung von M. Schlang, ITG-Fachtagung 1988, Bad Nauheim S. 69-73 bekannt. Es arbeitet im Zeitbereich. Jedoch ist dieses Verfahren bei starken Störungen nicht anwendbar.A method for automatically determining the runtime differences between two microphones is known from a publication by M. Schlang, ITG Conference 1988, Bad Nauheim pp. 69-73. It works in the time domain. However, this method cannot be used in the case of severe disturbances.

Der Erfindung liegt deshalb die Aufgabe zugrunde ein Verfahren zur Laufzeitschätzung für ein Spracherkennungssystem anzugeben, das auch bei starken Hintergrundgeräuschen anwendbar ist, für ein Mehrkanalübertragungssystem geeignet ist und zeit- und kostensparend arbeitet.The invention is therefore based on the object of specifying a method for estimating the runtime for a speech recognition system which can also be used in the case of strong background noise, is suitable for a multichannel transmission system and saves time and costs.

Die Aufgabe wird gelöst durch die im kennzeichnenden Teil des Patentanspruchs 1 angegebenen Merkmale. Vorteilhafte Ausgestaltungen und/oder Weiterbildungen sind den Unteransprüchen zu entnehmen.The object is achieved by the features specified in the characterizing part of patent claim 1. Advantageous refinements and / or further developments can be found in the subclaims.

Die Erfindung wird anhand eines Ausführungsbeispiels beschrieben unter Bezugnahme auf schematische Zeichnungen.The invention is described using an exemplary embodiment with reference to schematic drawings.

In FIG. 1 wird anhand eines Blockschaltbilds die Phasenschätzung erläutert.In FIG. 1, the phase estimation is explained using a block diagram.

FIG. 2 gibt für ein Fahrgeräusch von 140km/h eine Darstellung der Größen SB, SI, SN und g in Abhängigkeit von der Zeit an.FIG. 2 shows a representation of the quantities S B , S I , S N and g as a function of time for a driving noise of 140 km / h.

In der vorliegenden Erfindung wird ein 2-kanaliger Laufzeitausgleich vorgestellt. Die Erweiterung auf mehrere Kanäle ist mit dem entsprechenden Mehraufwand leicht möglich. Der Laufzeitausgleich ist ein Teil der Signalvorverarbeitung einer mehrkanaligen Geräuschreduktion, die z.B. für einen Spracherkenner im Fahrzeug verwendet werden kann.In the present invention, a 2-channel runtime compensation is presented. The expansion to several channels is easily possible with the corresponding additional effort. The runtime compensation is part of the signal preprocessing of a multi-channel noise reduction, which e.g. can be used for a speech recognizer in the vehicle.

Die Laufzeit wird im Frequenzbereich ermittelt. Dies ermöglicht eine einfache Laufzeitkorrektur durch die Multiplikation des Spektrums mit der neuen Phase und führt zu einem geringen Rechenaufwand.The runtime is determined in the frequency domain. This enables a simple runtime correction by multiplying the spectrum by the new phase and leads to a low computing effort.

Die Sprach- und Geräuschaufnahmen zur Entwicklung und Bewertung des vorliegenden Verfahrens wurden in einem Fahrzeug mit zwei Mikrofonen durchgeführt. Die Störung ist das Fahrgeräusch bei verschiedenen Fahrsituationen.The speech and sound recordings for the development and evaluation of the present method were carried out in a vehicle with two microphones. The disturbance is the driving noise in different driving situations.

Mit dem erfindungsgemäßen Verfahren werden im Frequenzbereich die Phasen an einer Anzahl von Maxima der Kreuzkorrelation bestimmt. Die Hintergrundstörung und das Einschwingverhalten des Raumes werden ständig mitgeschätzt. Die einzelnen Phasenwerte werden nur zu Beginn eines Einschwingvorgangs verarbeitet und wenn das Hintergrundgeräusch um einen gewissen Faktor überschritten wird. Bei der Weiterverarbeitung der Phasenwerte wird eine lineare Phasenbeziehung vorausgesetzt und die Varianz der Schätzung wird bei der Glättung der Werte mitberücksichtigt. Die Berücksichtigung des Einschwingvorgangs des Raumes fuhrt dazu, daß nur bei starken Energieanstiegen der Sprache eine Phasenschätzung stattfindet. Sofort zu Beginn des Wortes steht ein neuer Phasenschätzwert zur Verfügung. Der Einfluß von Reflexionen wird vermindert. Durch die Berücksichtigung des Hintergrundgeräuschs ist das Verfahren für den praktischen Einsatz z.B. im Fahrzeug gut geeignet. Anhand eines Blockschaltbildes in FIG. 1 wird der Verfahrensablauf der Phasenschätzung näher erläutert.With the method according to the invention, the phases are determined in the frequency domain at a number of maxima of the cross-correlation. The background disturbance and the transient response of the room are constantly valued. The individual phase values are only processed at the start of a transient process and when the background noise is exceeded by a certain factor. In the further processing of the phase values, a linear phase relationship is assumed and the variance of the estimate is taken into account when smoothing the values. The consideration of the settling process of the room leads to the fact that a phase estimation takes place only with strong energy increases of the speech. A new phase estimate is available immediately at the beginning of the word. The influence of reflections is reduced. By taking the background noise into account, the method is well suited for practical use, for example in a vehicle. Using a block diagram in FIG. 1, the procedure of the phase estimation is explained in more detail.

Die Mikrofonsignale x und y werden in den Frequenzbereich transformiert (FFT, Fast Fourier Transformation). Die Transformationslänge wird zu N = 256 gewählt. Es ergaben sich die transformierten Segment Xl (i) und Yl (i). l bezeichnet den Blockindex der Segmente, i die diskrete Frequenz (i = 0,1,2,...,N-1). Die Segmente sind halb überlappt und werden mit einem Hanning Fenster gewichtet. (Die Abtastrate der Signale x und y beträgt 12 kHz.)The microphone signals x and y are transformed into the frequency range (FFT, Fast Fourier Transformation). The transformation length is chosen to be N = 256. The transformed segments X l (i) and Y l (i) resulted. l denotes the block index of the segments, i the discrete frequency (i = 0,1,2, ..., N-1). The segments are half overlapped and weighted with a hanning window. (The sampling rate of the signals x and y is 12 kHz.)

Im Frequenzbereich wird der Langzeitmittelwert des Betragsspektrums subtrahiert (SPS, spektrale Substraktion). Die Phase der Signale wird nicht verändert. Das Störgeräusch wird reduziert. Es ergeben sich die Schätzwerte X̂ und Ŷ. Die SPS ist ein Standardverfahren und kann hier in einer einfachen Version eingesetzt werden. Sind nur geringe Störungen vorhanden, kann auf die SPS ganz verzichtet werden.In the frequency domain, the long-term mean of the magnitude spectrum is subtracted (SPS, spectral subtraction). The phase of the signals is not changed. The noise is reduced. The estimated values X̂ and Ŷ result. The PLC is a standard procedure and a simple version can be used here. Are only minor Faults are present, the PLC can be dispensed with entirely.

Mit der Glättungskonstante β wird das Störspektrum Snn(i) geschätzt. Das Störspektrum wird normiert und subtrahiert. l bezeichnet den Blockindex, i die diskrete Frequenz. Als Glättungskonstante wird z.B. βl = 0.03 verwendet.

S ˆ nn,l (i) = (l-β l ) S ˆ nn,l-1 (i) + β l |X l (i)|²   (1)

Figure imgb0001
Figure imgb0002

Für den zweiten Kanal Y gelten die entsprechenden Gleichungen.The interference spectrum S nn (i) is estimated with the smoothing constant β. The interference spectrum is normalized and subtracted. l denotes the block index, i the discrete frequency. For example, β l = 0.03 is used as the smoothing constant.

S ˆ nn, l (i) = (l-β l ) S ˆ nn, l-1 (i) + β l | X l (i) | ² (1)
Figure imgb0001
Figure imgb0002

The corresponding equations apply to the second channel Y.

Aus den geschätzten Werten X̂ und X̂ wird der Betrag der Kreuzleistungsdichte BXY,l berechnet. Der Bereich (Nu, No) liegt z.B. zwischen 300 und 1500Hz (Nu = 6, No = 31, bei N = 256). Dabei gilt

S xy,l (i)=(l-α)S xy,l-l (i)+ α X ˆ l (i) Y ˆ l *(i);N u ≦i≦ N o    (4

Figure imgb0003


B xy,l (i) = |S xy,l (i)|   (5)
Figure imgb0004


Als Glättungskonstante α wird z.B. α = l gewählt. Werte α « l sind nicht sinnvoll.The magnitude of the cross power density B XY, l is calculated from the estimated values X̂ and X̂. The range (N u , N o ) is, for example, between 300 and 1500 Hz (N u = 6, N o = 31, at N = 256). The following applies

S xy, l (i) = (l-α) S xy, ll (i) + α X ˆ l (i) Y ˆ l *(in u ≦ i ≦ N O (4th
Figure imgb0003


B xy, l (i) = | S xy, l (i) | (5)
Figure imgb0004


For example, α = 1 is selected as the smoothing constant α. Values α «l do not make sense.

Mit einer Präemphase können höhere Frequenzen angehoben werden. Dies ist dann vorteilhaft, wenn das Sprachsignal und das Störsignal bei höheren Frequenzen eine geringere Leistung aufweisen. Die Werte der Kreuzleistung Bxy (i) können z.B. im Bereich 300 bis 1500 Hz um 10dB linear an-steigend angehoben werden. Die Präemphase kann aber auch schon durch die Mikrofoncharakteristik vorgegeben sein.With a pre-emphasis higher frequencies can be raised. This is advantageous if the speech signal and the interference signal have a lower power at higher frequencies. The values of the cross power B xy (i) can, for example, be increased linearly by 10dB in the range 300 to 1500 Hz. However, the pre-emphasis can also be predetermined by the microphone characteristics.

Aus den Werten Bxy (i) werden M Maxima bestimmt und summiert. Es können z.B. M = 8 verwendet werden. Es wird ein aktueller Schätzwert

Figure imgb0005

bestimmt.M maxima are determined and summed from the values B xy (i). For example, M = 8 can be used. It becomes a current estimate
Figure imgb0005

certainly.

Über einen Impulsmonitor wird eine "simulierte Impulsantwort" SI berechnet. Das Einschwingverhalten des umgebenden Raumes auf plötzliche energiestarke Schallereignisse (Sprache) wird hiermit grob simuliert (z.B. wird γ = 0.l gewählt). Die Glättung des Phasenwerts "vom Wortanfang in das Wort hinein" ist mit γ einstellbar.

S I,1 = ( l - γ)S I,l-1 + γS B,l    (7)

Figure imgb0006


Außerdem wird über einen Geräuschmonitor eine adaptive Glättungskonstante h berechnet. Mit dieser Glättungskonstanten ergibt sich ein Schätzwert SN für die Störung. Wurde zuvor eine spektrale Substraktion (SPS) durchgeführt, ist SN ein Schätzwert für die Reststörung. Für die Glättungskonstante ho gilt z.B. ho = 0.03
Figure imgb0007

S N,L = (1 - h l )S N,l-1 + h l S B,l    (9)
Figure imgb0008


Die Phase der gestörten Signale wird aus den Real- und Imaginärteilen von Sxy berechnet. Die Phase wird nur an den M zuvor bestimmten Maxima berechnet.
Figure imgb0009

und
Figure imgb0010

Daraus ergibt sich der Phasenanstieg:
Figure imgb0011

Mit der Länge der Fouriertransformation N und der max. zulässigen Verschiebung um n Taps ergibt sich (N = 256):

|φ'| max = |n| N    (13)
Figure imgb0012


Übersteigt der Phasenanstieg |φ'| an einem der Maxima |φ'|max, so wird dieser Wert φ' nicht weiterverwendet. Es wird eine adaptive Glättungskonstante g berechnet:
Figure imgb0013

g l ≦ g maX    (15)
Figure imgb0014


g max = 0,25; g O = 0,25   (16)
Figure imgb0015


Der aktuelle Wert SB muß um den Faktor c größer sein als die simulierte Impulsantwort SI

S B,l ≧ cS I,l ; c = 2   (17)
Figure imgb0016


sonst gilt:

g l = 0   (18)
Figure imgb0017


Der aktuelle Wert SB muß um den Faktor d größer sein als das Restrauschen SN

S B,l ≧ dS N,l ; d = 3   (19)
Figure imgb0018


sonst gilt ebenfalls

g l = 0   (20)
Figure imgb0019


Ist Gl. (17) oder Gl. (19) nicht erfüllt, d.h. gilt g = O
Figure imgb0020
, so kann die Phasenschätzung abgebrochen werden. Es gilt der alte Phasenschätzwert.A "simulated impulse response" S I is calculated via an impulse monitor. The transient response of the surrounding space to sudden high-energy sound events (speech) is roughly simulated (e.g. γ = 0.l is selected). The smoothing of the phase value "from the beginning of the word into the word" can be adjusted with γ.

S I, 1 = (l - γ) S I, l-1 + γS B, l (7)
Figure imgb0006


In addition, an adaptive smoothing constant h is calculated using a noise monitor. This smoothing constant results in an estimate S N for the disturbance. If spectral subtraction (SPS) was carried out beforehand, S N is an estimate of the residual interference. For the smoothing constant h o , for example, h o = 0.03 applies
Figure imgb0007

S N, L = (1 - h l ) P N, l-1 + h l S B, l (9)
Figure imgb0008


The phase of the disturbed signals is calculated from the real and imaginary parts of S xy . The phase is only calculated on the M predetermined maxima.
Figure imgb0009

and
Figure imgb0010

This results in the phase increase:
Figure imgb0011

With the length of the Fourier transform N and the max. permissible shift by n taps results (N = 256):

| φ '| Max = | n | N (13)
Figure imgb0012


If the phase increase exceeds | φ '| at one of the maxima | φ '| max , this value φ 'is no longer used. An adaptive smoothing constant g is calculated:
Figure imgb0013

G l ≦ g Max (15)
Figure imgb0014


G Max = 0.25; G O = 0.25 (16)
Figure imgb0015


The current value S B must be greater by a factor c than the simulated impulse response S I

S B, l ≧ cS I, l ; c = 2 (17)
Figure imgb0016


otherwise:

G l = 0 (18)
Figure imgb0017


The current value S B must be greater than the residual noise S N by a factor of d

S B, l ≧ dS N, l ; d = 3 (19)
Figure imgb0018


otherwise also applies

G l = 0 (20)
Figure imgb0019


Is Eq. (17) or Eq. (19) not fulfilled, ie applies g = O
Figure imgb0020
, the phase estimation can be canceled. The old phase estimate applies.

Für alle

|φ' l (i) | ≦ | φ ' |max   (21)

Figure imgb0021


gilt:
Figure imgb0022

Von den ursprünglichen M Maxima werden wegen Gl. (21) nur M' für die Gl. (22, 23) verwendet. Ist die Anzahl M' der für die Summen gültigen Werte φ kleiner als Mmin, gilt der geschätzte Phasenanstieg als zu unsicher oder außerhalb des Nutzbereichs (z.B. Mmin = 6, bei M = 8). Die Phasenschätzung wird dann nicht aktualisiert und das Verfahren hier abgebrochen. Es gilt der alte Phasenschätzwert.For all

| φ ' l (i) | ≦ | φ ' | max (21)
Figure imgb0021


applies:
Figure imgb0022

Because of Eq. (21) only M 'for Eq. (22, 23) used. If the number M 'of the values φ valid for the sums is less than M min , the estimated phase increase is considered too uncertain or outside the useful range (eg M min = 6, with M = 8). The phase estimate is then not updated and the process is terminated here. The old phase estimate applies.

Es wird die Varianz der Schätzung berechnet:

Figure imgb0023

Als maximale Varianz wird

σ² max = | φ' |² max    (25)
Figure imgb0024


verwendet.The variance of the estimate is calculated:
Figure imgb0023

As the maximum variance

σ² Max = | φ '| ² Max (25)
Figure imgb0024


used.

Entsprechend der Varianz wird die Glättungskonstante g gewichtet. Bei einer großen Streuung gilt:

Figure imgb0025

Bei einer mittleren Streuung gilt:
Figure imgb0026

Bei sehr geringer Streuung gilt:
Figure imgb0027

Entsprechend den Gl. 19 - 22 wird g in der Regel nur am Wortanfang größer Null sein. Dabei muß die Energie des Wortes größer sein als die Energie des Restgeräusches und der simulierten Impulsantwort. Mit der Variablen j wird die aufeinanderfolgende Anzahl für g > 0 gezählt. Entsprechend gilt für die Glättung:
Figure imgb0028

Wird z.B. infolge einer Störung die Bedingung g > 0 nur einmal in Folge erfüllt, wird die Phasenschätzung nicht aktualisiert. Eine Aktualisierung der Phasenschätzung erfolgt nur dann, wenn g > 0 mindestens 2-mal in Folge erfüllt wird.The smoothing constant g is weighted according to the variance. In the case of a large spread:
Figure imgb0025

The following applies to medium scatter:
Figure imgb0026

With very little scatter:
Figure imgb0027

According to Eq. 19-22, g will usually only be greater than zero at the beginning of the word. The energy of the word must be greater than the energy of the residual noise and the simulated impulse response. The variable j is used to count the successive number for g> 0. The following applies accordingly to smoothing:
Figure imgb0028

For example, if the condition g> 0 is fulfilled only once in succession as a result of a fault, the phase estimate is not updated. The phase estimate is only updated if g> 0 is met at least twice in succession.

Ein Beispiel für die Zwischengrößen SB, SI, SN' und g und die daraus abgeleitete Phasenschätzung zeigt, FIG. 2. Dabei wird das Wort "Senderwahl" gesprochen und das Fahrgeräusch bei 140km/h addiert. Das Verfahren wird, wie oben angegeben, verwendet. Der Phasenschätzwert ist in Abtastwerten n angegeben. Mit der Größe SI wird der "Sprachimpuls" teilweise verdeckt und so nur bei starken Energieanstiegen eine Schätzung erlaubt (SB muß SI um den Faktor 2 übersteigen). Die Schätzung der Reststörung SN ermöglicht eine größere Robustheit gegenüber Geräuschen (SB muß SN um den Faktor 3 übersteigen).An example of the intermediate quantities S B , S I , S N 'and g and the phase estimate derived therefrom is shown in FIG. 2. The word "station selection" is spoken and the driving noise at 140 km / h is added. The method is used as indicated above. The phase estimate is given in samples n. With the size S I , the "speech impulse" is partially masked and thus an estimate is only allowed in the case of strong energy increases (S B must exceed S I by a factor of 2). The estimation of the residual disturbance S N enables greater robustness against noise (S B must exceed S N by a factor of 3).

Claims (11)

Verfahren zur Laufzeitschätzung bei dem Laufzeitunterschiede von geräuschgestörten Signalen von zumindest zwei Sprachkanälen mittels einer Kreuzkorrelation bestimmt werden, dadurch qekennzeichnet, - daß im Frequenzbereich die Phasenwerte von zumindest zwei Signalen über eine bestimmte Anzahl von Maxima der Kreuzleistungsdichte ermittelt werden und deren Phasenverschiebung bestimmt wird, und - daß der erforderliche Phasenausgleich ebenfalls im Frequenzbereich durchgeführt wird. Method for time-of- flight estimation in which the time-of- flight differences of noise- distorted signals from at least two voice channels are determined by means of a cross correlation , that the phase values of at least two signals over a certain number of maxima of the cross power density are determined and their phase shift is determined in the frequency range, and - That the required phase compensation is also carried out in the frequency domain. Verfahren nach Anspruch l, dadurch gekennzeichnet, daß Hintergrundstörungen und das Einschwingverhalten des Raumes bei der Bestimmung der Phasenwerte ständig mitgeschätzt werden.Method according to Claim 1, characterized in that background disturbances and the transient response of the Space in the determination of the phase values. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Hintergrundgeräusch über einen Geräuschmonitor geschätzt wird, und daß ein neuer Phasenwert lediglich dann ermittelt wird, wenn der Schätzwert des Hintergrundgeräusches um einen bestimmten Faktor überschritten wird.A method according to claim 2, characterized in that the background noise is estimated by a noise monitor and that a new phase value is only determined if the estimated value of the background noise is exceeded by a certain factor. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß das Einschwingverhalten des umgebenden Raumes über einen Impulsmonitor derart geschätzt wird, daß lediglich bei starkem Energieanstieg in den Signalen ein neuer Phasenschätzwert ermittelt wird.Method according to Claim 2, characterized in that the transient response of the surrounding space is estimated using a pulse monitor in such a way that a new phase estimate is determined only when there is a strong increase in energy in the signals. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine lineare Laufzeitverschiebung der Signale angenommen wird.Method according to one of the preceding claims, characterized in that a linear delay of the signals is assumed. Verfahren nach einem der vorhergehenden Ansprüche, da-durch gekennzeichnet, daß eine Glättung des Phasenwertes vom Wortanfang in das gesprochene Wort hinein durchgeführt wird, und daß die Varianz der Schätzung bei der Glättung der Phasenwerte mitberücksichtigt wird.Method according to one of the preceding claims, characterized in that the phase value is smoothed from the beginning of the word into the spoken word, and that the variance of the estimate is taken into account when smoothing the phase values. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, - daß zumindest zwei Mikrofonsignale x, y mittels einer FFT (Fast Fourier Tansformation) in den Frequenzbereich transformiert werden, - daß durch spektrale Substraktion aus den transformierten Signalen die Schätzwerte X̂, Ŷ bestimmt werden, - daß aus den geschätzten Werten X̂, Ŷ der Betrag der Kreuzleistungsdichte Bxy bestimmt wird, - daß die Maxima der Kreuzleistungsdichte bestimmt werden, und daß aus einer bestimmten Anzahl Maxima der Kreuzleistungsdichte Bxy ein aktueller Wert SB für die gestörten Signale ermittelt wird, daß abhängig vom aktuellen Wert SB die Phasen φ der gestörten Signale ermittelt werden und damit der Phasenanstieg φ' bestimmt wird, - daß der Phasenanstieg φ'geglättet wird, indem über einen Impulsmonitor ein simulierter Sprachimpuls SI mit dem aktuellen Wert SB der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn ein starker Energieanstieg des Mikrofonsignals registriert wird, und - daß mit einem Geräuschmonitor ein Schätzwert SN für die Hintergrundgeräuschstörung ermittelt wird und mit dem aktuellen Wert SB der gestörten Signale gekoppelt wird, derart, daß eine erneute Phasenschätzung lediglich dann durch geführt wird, wenn vom Signal die Hintergrundstörung deutlich überschritten wird. Method according to one of the preceding claims, characterized in that that at least two microphone signals x, y are transformed into the frequency range by means of an FFT (Fast Fourier Transform), - that the estimated values X̂, Ŷ are determined by spectral subtraction from the transformed signals, the amount of the cross power density B xy is determined from the estimated values X Werten, Ŷ, - that the maxima of the cross power density are determined, and that from a certain number of maxima of the cross power density B xy, a current value S B for the disturbed signals is determined that depends on the actual value S B the phases φ of the disturbed signals are ascertained and thus the Phase increase φ 'is determined, - that the phase rise φ 'is smoothed out by coupling a simulated speech pulse S I with the current value S B of the disturbed signals via a pulse monitor, in such a way that a new phase estimation is only carried out if a strong energy rise of the microphone signal is registered, and - That an estimated value S N for the background noise disturbance is determined with a noise monitor and is coupled with the current value S B of the disturbed signals, such that a renewed phase estimation is only carried out when the background disturbance is clearly exceeded by the signal. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß ein maximaler Phasenanstieg |φ'|max für die Phase an den einzelnen Maxima vorgebbar ist und eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn der Phasenanstieg um mindestens M' der M Maxima den maximalen Anstieg |φ'|max nicht überschreitet.A method according to claim 7, characterized in that a maximum phase increase | φ '| max can be specified for the phase at the individual maxima and a new phase estimate is only carried out if the phase increase by at least M 'of the M maxima exceeds the maximum increase | φ' | max does not exceed. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Varianz der Phasenanstiege an den einzelnen Maxima bei der zeitlichen Glättung des Phasenanstiegs berücksichtigt wird.Method according to Claim 7, characterized in that the variance of the phase increases at the individual maxima is taken into account when smoothing the phase increase. Verfahren nach den Ansprüchen 7 bis 9, dadurch gekennzeichnet, daß eine erneute Phasenschätzung lediglich dann durchgeführt wird, wenn die Bedingungen für einen gültigen Phasenanstieg zeitlich mehrfach in Folge auftreten.Method according to claims 7 to 9, characterized in that a renewed phase estimation is only carried out if the conditions for a valid phase increase occur several times in succession. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die gestörte Sprache auf mehr als zwei Sprachkanälen aufgenommen wird und daß die Laufzeitunterschiede der einzelnen Kanäle geschätzt werden.Method according to one of the preceding claims, characterized in that the disturbed speech is recorded on more than two speech channels and that the runtime differences of the individual channels are estimated.
EP93120010A 1992-12-23 1993-12-11 Method for estimating the propagation time in noisy speech channels Expired - Lifetime EP0612059B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE4243831A DE4243831A1 (en) 1992-12-23 1992-12-23 Procedure for estimating the runtime on disturbed voice channels
DE4243831 1992-12-23

Publications (3)

Publication Number Publication Date
EP0612059A2 true EP0612059A2 (en) 1994-08-24
EP0612059A3 EP0612059A3 (en) 1995-08-16
EP0612059B1 EP0612059B1 (en) 1999-03-17

Family

ID=6476383

Family Applications (1)

Application Number Title Priority Date Filing Date
EP93120010A Expired - Lifetime EP0612059B1 (en) 1992-12-23 1993-12-11 Method for estimating the propagation time in noisy speech channels

Country Status (3)

Country Link
US (1) US5479517A (en)
EP (1) EP0612059B1 (en)
DE (2) DE4243831A1 (en)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09212196A (en) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> Noise suppressor
DE19813285B4 (en) * 1998-03-26 2005-12-01 Bayerische Motoren Werke Ag Method for the automatic measurement of speech intelligibility in motor vehicles
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
DE19942868A1 (en) * 1999-09-08 2001-03-15 Volkswagen Ag Method for operating a multiple microphone arrangement in a motor vehicle and a multiple microphone arrangement itself
DE19955156A1 (en) * 1999-11-17 2001-06-21 Univ Karlsruhe Method and device for suppressing an interference signal component in the output signal of a sound transducer means
DE10118653C2 (en) * 2001-04-14 2003-03-27 Daimler Chrysler Ag Method for noise reduction
GB2391322B (en) * 2002-07-31 2005-12-14 British Broadcasting Corp Signal comparison method and apparatus
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
JP4679513B2 (en) * 2004-04-28 2011-04-27 パナソニック株式会社 Hierarchical coding apparatus and hierarchical coding method
US7610196B2 (en) 2004-10-26 2009-10-27 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8284947B2 (en) * 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US8027833B2 (en) * 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
CN114859308A (en) * 2022-07-11 2022-08-05 陕西昱琛航空设备股份有限公司 Radar target simulator and calibration method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4112430A (en) * 1977-06-01 1978-09-05 The United States Of America As Represented By The Secretary Of The Navy Beamformer for wideband signals
US4254417A (en) * 1979-08-20 1981-03-03 The United States Of America As Represented By The Secretary Of The Navy Beamformer for arrays with rotational symmetry
US4333170A (en) * 1977-11-21 1982-06-01 Northrop Corporation Acoustical detection and tracking system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4017859A (en) * 1975-12-22 1977-04-12 The United States Of America As Represented By The Secretary Of The Navy Multi-path signal enhancing apparatus
DE3531230A1 (en) * 1985-08-31 1987-03-05 Krupp Gmbh METHOD FOR DETECTING VEHICLES
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
JP2791036B2 (en) * 1988-04-23 1998-08-27 キヤノン株式会社 Audio processing device
JPH0272398A (en) * 1988-09-07 1990-03-12 Hitachi Ltd Preprocessor for speech signal
US4982375A (en) * 1989-11-13 1991-01-01 The United States Of America As Represented By The Secretary Of The Navy Acoustic intensity probe

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4112430A (en) * 1977-06-01 1978-09-05 The United States Of America As Represented By The Secretary Of The Navy Beamformer for wideband signals
US4333170A (en) * 1977-11-21 1982-06-01 Northrop Corporation Acoustical detection and tracking system
US4254417A (en) * 1979-08-20 1981-03-03 The United States Of America As Represented By The Secretary Of The Navy Beamformer for arrays with rotational symmetry

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 1988, Bd. 5, 11.April 1988 - 14.April 1988 NEW YORK, NY, US, Seiten 2578-2581, ZELINSKI 'A microphone array with adaptive post-filtering for noise reduction in reverberant rooms' *
ITG-FACHTAGUNG: DIGITALE SPRACHVERARBEITUNG, 26.August 1988 - 28.August 1988 BAD NAUHEIM, Seiten 69-73, SCHLANG 'Ein Verfahren zur automatischen Ermittlung der Sprecherposition bei Freisprechen' *

Also Published As

Publication number Publication date
US5479517A (en) 1995-12-26
EP0612059B1 (en) 1999-03-17
EP0612059A3 (en) 1995-08-16
DE59309463D1 (en) 1999-04-22
DE4243831A1 (en) 1994-06-30

Similar Documents

Publication Publication Date Title
EP0612059B1 (en) Method for estimating the propagation time in noisy speech channels
EP0586996B1 (en) Speech recognition method with adaptation of the speech characteristics
DE60034212T2 (en) METHOD AND DEVICE FOR ADAPTIVE NOISE REDUCTION
DE69932626T2 (en) SIGNAL PROCESSING DEVICE AND METHOD
EP0747880B1 (en) System for speech recognition
EP0065210A2 (en) Electrical signal conditioning method with a digital filter device
EP0742664A2 (en) Method for hand-free talking for a multi-channel transmission system
DE102008027848A1 (en) Echo cancellers, echo cancellation and computer readable storage media
EP0585976A2 (en) Hearing aid with cancellation of acoustic feedback
DE19538996C2 (en) Device and method for estimating filter coefficients
DE60124192T2 (en) HMM-based detection of noisy speech
DE19821273B4 (en) Measuring method for aurally quality assessment of coded audio signals
EP1155561B1 (en) Method and device for suppressing noise in telephone devices
DE102013011761A1 (en) Motor vehicle has estimating unit and background noise spectrum unit that are designed to open dynamic filter with low background noise and close with strong background noise
DE602005000897T2 (en) Input sound processor
DE60304147T2 (en) Virtual microphone arrangement
EP0615226B1 (en) Method for noise reduction in disturbed voice channels
EP0695045A2 (en) Echo canceller using short time spectral analysis
EP0669606B1 (en) Method for noise reduction in disturbed voice channels
DE19729521B4 (en) Method and device for suppressing noise and echo
DE19818608C2 (en) Method and device for speech detection and noise parameter estimation
DE102019105458B4 (en) System and method for time delay estimation
EP1062659B1 (en) Method and device for processing a sound signal
EP1958429B1 (en) Method for controlling the adaptive behavior of acoustic echo compensation
EP1512269B1 (en) Method and circuit arrangement for recognising load coils

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE FR GB

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): DE FR GB

17P Request for examination filed

Effective date: 19950920

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

17Q First examination report despatched

Effective date: 19980603

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB

RAP2 Party data changed (patent owner data changed or rights of a patent transferred)

Owner name: DAIMLERCHRYSLER AG

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 19990329

REF Corresponds to:

Ref document number: 59309463

Country of ref document: DE

Date of ref document: 19990422

ET Fr: translation filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59309463

Country of ref document: DE

Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R082

Ref document number: 59309463

Country of ref document: DE

Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE

Effective date: 20120411

Ref country code: DE

Ref legal event code: R081

Ref document number: 59309463

Country of ref document: DE

Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US

Free format text: FORMER OWNER: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLSBAD, DE

Effective date: 20120411

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: NUANCE COMMUNICATIONS, INC., US

Effective date: 20120924

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20121205

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20121205

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20130107

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 59309463

Country of ref document: DE

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20131210

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20131210

Ref country code: DE

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20131212