WO1999014739A1 - Method for suppressing noise in a digital speech signal - Google Patents

Method for suppressing noise in a digital speech signal Download PDF

Info

Publication number
WO1999014739A1
WO1999014739A1 PCT/FR1998/001981 FR9801981W WO9914739A1 WO 1999014739 A1 WO1999014739 A1 WO 1999014739A1 FR 9801981 W FR9801981 W FR 9801981W WO 9914739 A1 WO9914739 A1 WO 9914739A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech signal
frame
frequency
noise
signal
Prior art date
Application number
PCT/FR1998/001981
Other languages
French (fr)
Inventor
Philip Lockwood
Stéphane LUBIARZ
Original Assignee
Matra Nortel Communications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matra Nortel Communications filed Critical Matra Nortel Communications
Priority to JP2000512196A priority Critical patent/JP2001516902A/en
Priority to AU91690/98A priority patent/AU9169098A/en
Priority to EP98944000A priority patent/EP1016073B1/en
Priority to DE69804329T priority patent/DE69804329T2/en
Priority to BR9812655-5A priority patent/BR9812655A/en
Priority to CA002304015A priority patent/CA2304015A1/en
Publication of WO1999014739A1 publication Critical patent/WO1999014739A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the present invention relates to digital techniques for denoising speech signals. It relates more particularly to denoising by nonlinear spectral subtraction.
  • This technique makes it possible to obtain an acceptable denoising for strongly voiced signals, but totally distorts the speech signal. Faced with a relatively coherent noise, such as that caused by the contact of car tires or the rattling of an engine, the noise can prove to be more easily predictable than the unvoiced speech signal. There is then a tendency to project the speech signal into a part of the vector space of the noise. The method ignores the speech signal, especially the unvoiced speech areas where the predictability is reduced. In addition, predicting the speech signal from a reduced set of parameters does not take into account all the intrinsic richness of the speech. We understand here the limits of techniques based solely on mathematical considerations while forgetting the particular character of speech. Finally, other techniques are based on consistency criteria.
  • the coherence function is particularly well developed by JA Cadzow and 0. M. Solomon ("Lmear modelmg and the coherence function", IEEE Trans. On Acoustics, Speech and Signal Processing, Vol. ASSP-35, n ° 1, January 1987 , pages 19-28), and its application to denoising has been studied by R. Le Bouquin ( ⁇ . ⁇ Enhancement of noisy speech signais: application to moo radio communications ", Speech Communication, Vol. 18, pages 3-19) .
  • This method is based on the fact that the speech signal has a significantly greater coherence than noise provided that several independent channels are used. The results seem to be quite encouraging. But unfortunately, this technique requires having multiple sources of sound, which is not always achieved.
  • US Patent 5,228,088 describes a denoising system operating in the frequency domain, provided with a tone frequency detector. The result of this detection is used on the one hand to adjust the noise suppression coefficients, and on the other hand to locate a "voice band".
  • the noise suppression coefficients are used by a spectral subtraction module to weight the noise estimate before subtracting it from the signal.
  • the module which adjusts the suppression coefficients only uses the information according to which a tone frequency has been detected or not. However, the value taken by the tone frequency has no influence on the suppression coefficients used.
  • the “voice band” determined using the detected tone frequency is subject to an overall signal enhancement. It can, as a variant, be used to determine a contrario a "noise band", band in which an overall attenuation is then applied.
  • a main aim of the present invention is to propose a new denoising technique which takes into account the characteristics of speech production, thus allowing effective denoising without deteriorating the perception of speech.
  • the invention thus proposes a method for denoising a digital speech signal processed by successive frames, in which:
  • spectral subtraction is carried out comprising at least one step consisting in respectively subtracting, from each spectral component of the speech signal on the frame, a quantity depending on parameters including the increased estimate of the corresponding spectral component of the noise for said frame; and - a transformation to the time domain is applied to the result of the spectral subtraction to construct a denoised speech signal.
  • a harmonic analysis of the speech signal is performed to estimate a tonal frequency of the speech signal on each frame where it exhibits speech activity.
  • the parameters on which the quantities subtracted depend include the tone frequency thus estimated.
  • the speech signal of the frame is conditioned by oversampling it at a oversampling frequency multiple of the estimated tonal frequency, and the components are calculated. spectral of the speech signal on the frame based on the conditioned signal to subtract said quantities from them. This arrangement makes it possible to favor the frequencies closest to the estimated tone frequency over the other frequencies. This avoids protecting harmonics relatively far from those of the tone frequency. The harmonic nature of the speech signal is therefore best preserved.
  • the conditioned signal is distributed in blocks of N samples subjected to a transformation in the frequency domain, and the ratio between the oversampling frequency and the estimated tone frequency is chosen as a divisor of the number N .
  • the previous technique can be further refined by estimating the tonal frequency of the speech signal on a frame as follows:
  • the speech signal is interpolated in said time intervals, so that the conditioned signal resulting from this interpolation has a constant time interval between two consecutive breaks.
  • This procedure artificially constructs a signal frame on which the speech signal breaks at constant intervals. We thus take into account possible variations in the tonal frequency over the duration of a frame.
  • An additional improvement consists in that, after the processing of each frame, a number of samples equal to an integer multiple of times the ratio between the frequency of the noise-free speech signal provided by this processing is retained. sampling and estimated tone frequency. This avoids the problems of distortion caused by phase discontinuities between frames, which are generally not completely corrected by conventional overlap-add techniques.
  • the fact of having conditioned the signal by the oversampling technique makes it possible to obtain a good measure of the degree of voicing of the speech signal on the frame, from a calculation of the entropy of the autocorrelation of the calculated spectral components. based on the signal conditions. The more the spectrum is disturbed, that is to say the more it is seen, the lower the values of the entropy.
  • the conditioning of the speech signal accentuates the irregular aspect of the spectrum and therefore the variations of the entropy, so that this constitutes a measure of good sensitivity.
  • the autocorrelations will usually be calculated based on the denoised signal to obtain the best performance. It would however be possible to calculate them on the basis of the conditioned signal before noise reduction.
  • the spectral components of the noise signal obtained by subtracting said quantities from the spectral components of the speech signal, can be used to calculate a masking curve by applying a model of this auditory perception.
  • the parameters on which the quantity subtracted from a spectral component of the speech signal on a frame depends then include a difference between the increased estimate oe the corresponding spectral component of the noise and the calculated masking curve.
  • This subtracted quantity can in particular be limited to the fraction of the estimate increased by the corresponding spectral component of the noise which exceeds the masking curve. This procedure is based on the observation that it is sufficient to denoise the audible noise frequencies. Conversely, there is no point in eliminating noise which is masked by speech.
  • each increased estimate of the noise included in the speech signal is obtained by combining a long-term estimate of said spectral component of noise, and a measure of the variability of said spectral component of noise around its estimate. long-term.
  • FIG. 1 is a block diagram of a denoising system implementing the present invention
  • FIGS. 2 and 3 are flowcharts of procedures used by a voice activity detector of the system of Figure 1;
  • FIG. 4 is a diagram representing the states of a voice activity detection automaton
  • FIG. 5 is a graph illustrating the variations of a degree of vocal activity
  • FIG. 6 is a block diagram of a noise overestimation module of the system of Figure 1;
  • FIG. 7 is a graph illustrating the calculation of a masking curve;
  • - Figure 8 is a graph illustrating the operation of the masking curves in the system of Figure 1;
  • FIG. 9 is a block diagram of another denoising system implementing the present invention.
  • FIG. 10 is a graph illustrating a harmonic analysis method usable in a method according to the invention.
  • FIG. 11 partially shows a variant of the block diagram of FIG. 9.
  • the denoising system shown in FIG. 1 processes a digital speech signal s.
  • the signal frame is transformed in the frequency domain by a module 11 applying a conventional fast Fourier transform (TFR) algorithm to calculate the module of the signal spectrum.
  • TFR fast Fourier transform
  • the frequency resolution available at the output of the fast Fourier transform is not used, but a lower resolution, determined by a number I of frequency bands covering the band [0 , F / 2] of the signal.
  • a module 12 calculates the respective averages of the spectral components Si_l., 1 of the speech signal in bands, for example by a uniform weighting such that:
  • This averaging decreases the fluctuations between the bands by averaging the noise contributions in these bands, which will decrease the variance of the noise estimator. In addition, this averaging allows a significant reduction in the complexity of the system.
  • the averaged spectral components Sil, 1 • are addressed to a module 15 for detecting voice activity and to a module 16 for estimating noise. These two modules 15,
  • the module 15 proceeds a priori to debruita ⁇ e the speech signal in the different bands i for the signal frame n.
  • This a priori noise reduction is carried out according to a conventional process of non-linear spectral subtraction from noise estimates obtained during one or more previous frames.
  • the module 15 calculates, with the resolution of the bands i, the frequency response Hp ⁇ n, i of the a priori denoising filter, according to the formula:
  • s n, ⁇ ⁇ a n- ⁇ l, ⁇ - B n- ⁇ l, ⁇ Hp - b n- ⁇ 2, ⁇ or ⁇ l and ⁇ 2 are delays expressed in number of frames
  • CA Il, - L is a noise overestimation coefficient, the determination of which will be explained below.
  • Ep n are calculated according to:
  • Ep fl max
  • Steps 17 to 20 therefore essentially consist in subtracting from the signal spectrum an estimate, increased by the coefficient ⁇ n _ ⁇ - j _, of the noise spectrum estimated a priori.
  • module 15 calculates, for each band i (O ⁇ i ⁇ I), a quantity ⁇ E, I_I, 1 representing the short-term variation of the energy of the noise-suppressed signal in band i, as well as 'a long-term value E n -, _ of the energy of the denoised signal in band i.
  • the quantity ⁇ E 1, _1, 1 can be calculated by a simplified formula of
  • step 26 the counter b is incremented by one unit in step 26.
  • the long-term estimator ba is compared to the value of the smoothed energy E n / 1 . If ba ⁇ E n ⁇ , the estimator ba is taken equal to the smoothed value E n -, _ in step 28, and the counter o, is reset to zero. The quantity p, which is taken equal to the ratio ba / E n? 1 (step 36), is then equal to 1.
  • step 27 shows that ba ⁇ E n -, _
  • the counter b is compared with a limit value bmax in step 29. If b> bmax, the signal is considered to be too stationary to support vocal activity .
  • step 34 the difference a ⁇ -bi ⁇ between the long-term estimator and the internal noise estimator is compared to a threshold ⁇ 2.
  • the module 15 proceeds to the voice activity decisions in step 37.
  • the module 15 first updates the state of the detection automaton according to the quantity p Q calculated for l of the signal band.
  • the new state ⁇ of the automaton depends on the previous state ⁇ -, and of Pg, as shown in Figure 4.
  • the module 15 also calculates the degrees of vocal activity ⁇ II, 1 • in each band i ⁇ l.
  • This degree ⁇ critique-i is preferably a non-binary parameter, that is to say that the function ⁇ 11 is a function varying continuously between 0 and 1 according to the values taken by the quantity p.
  • This function has for example the appearance shown in FIG. 5.
  • Module 16 calculates the band noise estimates, which will be used in the denoising process, using the successive values of the components S_. and degrees of vocal activity ⁇ ⁇ ,.
  • the module 16 updates the noise estimates per band according to the formulas:
  • ⁇ n f ⁇ ⁇ B- ê n- + (1 - ⁇ S ) - 5 n, i (5 > / 14739
  • the long-term noise estimates B n ⁇ are overestimated, by a modu_e 45 (FIG. 1), before proceeding to denoising by nonlinear spectral subtraction.
  • Module 45 calculates the overestimation coefficient ⁇ , previously
  • I basically has OA li f -.L. B i- ⁇ , f -L ..
  • the organization of the overestimation module 45 is shown in FIG. 6.
  • the increased estimate B n . is obtained by combining the long-term estimate JE. and an
  • measure AB TM has the variability of the noise component in band i around its long-term estimate.
  • this combination is essentially a simple sum made by an adder 46. It could also be a weighted sum.
  • band i It is a function of the deviations S n-k, i - B n-k, i calculated for a number K of frames of silence (n-k ⁇ n). In the example shown, this function is simply the maximum (block 50). For each frame n, the degree of voice activity ⁇ I-.I, 1 • is compared to a threshold (block 51)
  • FIFO FIFO
  • ⁇ II, 1 • does not exceed the threshold (which can be equal to 0 if the function g () has the form of figure 5)
  • FIFO 54 is not supplied, while it is in the opposite case.
  • the maximum value contained in FIFO 54 is then provided as a measure of variability .
  • the measure of variability AB I "l f J, .- can, as a variant, be obtained as a function of the values S grip (and not S n •) and
  • the major estimator B n * f -_I provides excellent robustness to the musical noises of the denoising process.
  • a first phase of the spectral subtraction is carried out by the module 55 shown in FIG. 1. This pnase provides, with the resolution of the bands i
  • the coefficient ⁇ " ⁇ represents, like the coefficient ⁇ p of formula (3), a floor conventionally used to avoid negative or too low values of the denoised signal.
  • this function decreasing according to the estimated value of the signal-to-noise ratio.
  • This function is then equal to n 2 for the lowest values of the signal-
  • this function decreases towards zero for the highest values of the signal / noise ratio. protect the most energetic areas of the spectrum, where the signal - speech is the most significant, the quantity subtracted from the signal then tending towards zero.
  • This strategy can be refined by applying it selectively to the harmonics of the pitch frequency of the speech signal when it has vocal activity.
  • a second denoising phase is carried out by a module 56 for protecting harmonics.
  • This module calculates, with the resolution of the Fourier transform, the frequency response H n f of a second filter of
  • the module 57 can apply any known method of analysis of the speech signal of the frame for determine the period T, expressed as an integer or fractional number of samples, for example a linear prediction method.
  • the protection provided by the module 56 may consist in carrying out, for each frequency f belonging to a band i:
  • the floor coefficients ⁇ 2 2 express the fact that certain harmonics of the tonal frequency f can be masked by noise, so that it is not useful to protect them.
  • This protection strategy is preferably ⁇ applied for each of the frequencies closest to the harmonic frequencies of f, that is to say for any arbitrary integer.
  • condition (9) the difference between the ⁇ -th harmonic of the real tone frequency is its estimate f n (condition (9)) can go up to ⁇ ⁇ x ⁇ f / 2.
  • this difference can be greater than the spectral half-resolution ⁇ f / 2 of .5 the Fourier transform.
  • condition (9) one can protect each of the frequencies of the interval ⁇ xf p - ⁇ x ⁇ jf / 2, ⁇ xf ' + ⁇ x ⁇ i / 2, i.e. replace condition (9) above with:
  • the corrected frequency response H n ⁇ can be equal to 1 as indicated above, which corresponds to the subtraction of a zero quantity within the framework of spectral subtraction, 0 i.e. tell a full protection of the frequency in question. More generally, this frequency response corrected H ⁇ t.A f could be taken equal to a value
  • the spectral components 5 I n l f J f . of a noise signal are calculated by a multiplier 58:
  • This signal S nf is supplied to a module 60 which calculates, for each frame n, a masking curve by applying a psychoacoustic model of auditory perception by the human ear.
  • the masking phenomenon is a known principle of the functioning of the human ear. When two frequencies are heard simultaneously, one of them may no longer be heard. We then say that it is masked.
  • the masking curve is seen as the convolution of the spectral spreading function of the basilar membrane in the bark domain with the excitatory signal, constituted in the present application by the signal S n ⁇ .
  • the spectral spreading function can be modeled as shown in Figure 7.
  • the masking threshold réelle q is obtained by the module
  • R depends on the more or less voiced character of the signal.
  • R depends on the more or less voiced character of the signal.
  • the parameter ⁇ can be of the known form:
  • the denoising system also includes a module
  • Module 62 decides the level of denoising which must really be achieved.
  • the new response H nf for a frequency f belonging to the band i defined by the module 12 and to the bark band q, thus depends on the relative difference between the increased estimate B n of the corresponding spectral component of the noise and the masking curve v_ ⁇ _. as follows :
  • H n 3 f is substantially equal to the minimum between on the one hand the quantity subtracted from this spectral component in the process of spectral subtraction having the frequency response H n f, and on the other hand the fraction of
  • FIG. 8 illustrates the principle of the correction applied by the module 62. It schematically shows an example of a masking curve M, n., Q calculated on the basis
  • the quantity finally subtracted from the components Sn, r will be that represented by the hatched areas, that is to say limited to the fraction of the increased estimate B. spectral components of the noise that exceeds the masking curve. This subtraction is done by multiplying the
  • a module 65 reconstructs the noise signal in the time domain, by operating the inverse fast Fourier transform (TFRI) of the
  • FIG. 9 shows a preferred embodiment of a denoising system implementing the invention.
  • This system comprises a certain number of elements similar to corresponding elements of the system of FIG. 1, for which the same reference numbers have been used. So, modules 10, 11,
  • Fast Fourier 11 is a limitation of the system of FIG. 1.
  • the frequency subject to protection by the module 56 is not necessarily the precise tone frequency f, but the frequency closest to it. in the discrete spectrum. In some cases, it is then possible to protect harmonics relatively far from that of the tone frequency.
  • the system of FIG. 9 overcomes this drawback thanks to an appropriate conditioning of the speech signal.
  • the sampling frequency of the signal is modified so that the period 1 / f covers exactly an integer number of sample times of the conditioned signal.
  • Many methods of harmonic analysis that can be implemented by the module 57 are capable of providing a fractional value of the delay T, expressed as a number of samples at the initial sampling frequency F.
  • a new sampling frequency f is then chosen so that it is equal to an integer multiple of the estimated tone frequency, ie F ti, with whole p. In order not to lose signal samples, f should be greater than F.
  • F One can in particular impose that it is between F ⁇ and 2F (1 ⁇ K ⁇ 2), to facilitate the implementation of the conditioning.
  • This size N is usually a power of 2 for the implementation of the TFR. It is 256 in the example considered.
  • This choice is made by a module 70 according to the value of the delay
  • the module 70 provides the ratio K between the sampling frequencies to three frequency change modules 71, 72, 73.
  • the module 71 is used to transform the values S J n beau, i '
  • the module 72 proceeds to oversampling the frame of N samples provided by the windowing module 10.
  • Oversampling in a rational factor K K1 / K2 consists in first carrying out an oversampling in the integer factor K1, then a sub-sampling in the integer factor K2.
  • the conditioned signal frame supplied by the module 72 includes KN samples at the frequency f. These samples are sent to a module 75 which calculates their Fourier transform.
  • the two blocks therefore have an overlap of (2-K) xl00%.
  • S_ Il - For each of the two blocks, we obtain a set of Fourier components S_ Il -.
  • These components S_II f J are supplied to the multiplier 58, which multiplies them by the spectral response H n 2 f to deliver the spectral components S n ? ⁇ of the first denoised signal.
  • the module 60 which calculates the masking curves in the manner previously indicated.
  • the autocorrelations A (k) are calculated by a module 76, for example according to the formula: N / 2-1
  • a module 77 then calculates the normalized entropy
  • the standardized entropy H constitutes a measurement of voicing very robust to noise and variations in the tonal frequency.
  • the correction module 62 operates in the same way as that of the system in FIG. 1, taking into account the overestimated noise B n ⁇ resized by the frequency change module 71. It provides the frequency response H n ⁇ of the final noise reduction filter, which is multiplied by the spectral components Sn n , r of the signal conditioned by the multiplier
  • a module 80 combines, for each frame, the two signal blocks resulting from the processing of the two overlapping blocks delivered by TFR 75. This combination can consist of a sum with Hamming weighting of the samples, to form a denoised conditioned signal frame of K ⁇ samples.
  • the management module 82 manages the windows formed by the module 10 and saved by the module 66, so that a number M of samples is saved equal to an integer multiple of. This avoids the problems of phase discontinuity between the frames.
  • the management module 82 controls the windowing module 10 so that the overlap between the current frame and the next one corresponds to NM. This recovery of NM samples will be required in the recovery sum carried out by the module 66 during the processing of the next frame. From the value of T provided by the harmonic analysis module 57, the module 82 calculates the number of samples to be saved
  • M T xE [N / (2T)], E [] designating the whole part, and correspondingly controls the modules 10 and 66.
  • the tonal frequency is estimated on an average basis on the frame.
  • the tonal frequency may vary somewhat over this period. It is possible to take these variations into account in the context of the present invention, by conditioning the signal so as to artificially obtain a constant tone frequency in the frame.
  • the harmonic analysis module 57 provide the time intervals between the consecutive ruptures of the speech signal att ⁇ buables at closings of the glottis of the intervening speaker for the duration of the frame.
  • Methods usable for detecting such micro-ruptures are well known in the field of harmonic analysis of speech signals.
  • the principle of these methods is to perform a statistical test between two models, one in the short term and the other in the long term. Both models are adaptive linear prediction models.
  • the value of this statistical test wm. is the cumulative sum of the posterior likelihood ratio of two distributions, corrected by the Kullback divergence. For a distribution of residuals having a Gaussian statistic, this value w.m is given by:
  • FIG. 10 thus shows a possible example of evolution of the value w, showing the breaks R of the speech signal.
  • FIG. 11 shows the means used to calculate the conditioning of the signal in the latter case.
  • the harmonic analysis module 57 is produced so as to implement the above analysis method, and to provide the intervals t relative to the signal frame produced by the module 10.
  • These reports oversampling K r are supplied to the frequency change modules 72 and 73, so that the interpolations are carried out with the sampling ratio K over the corresponding time interval t.
  • the largest T of the time intervals t supplied by the module 57 for a frame is selected by the module 70 (block 91 in FIG. 11) to obtain a torque p, ⁇ as indicated in table I.
  • the module 56 for protecting the harmonics of the tone frequency operates in the same manner as above, using for condition (9) the spectral resolution ⁇ f provided by the block 91 and the tone frequency f -f / p defined according to the value of the integer delay p supplied P * - by block 91.
  • This embodiment of the invention also involves an adaptation of the window management module 82.
  • the number M of samples of the denoised signal to be saved on the current frame here corresponds to an integer number of consecutive time intervals t between two glottal breaks (see FIG. 10). This arrangement avoids the problems of phase discontinuity between frames, while taking into account the possible variations of the time intervals t on a frame.

Abstract

The invention concerns a method for suppressing noise in a digital speech signal processed by successive frames which consists in: computing the signal spectral components (Sn,f, Sn,i) on each frame; computing the maximised estimations (B'n,i) of spectral components of the noise included in the speech signal; carrying out a harmonic analysis of the signal to estimate a pitch; carrying out a spectral subtraction comprising at least a step consisting in subtracting respectively, from each spectral component of the speech signal on the frame (Sn,f), a quantity depending on parameters including the maximised estimation of the noise corresponding spectral component and the estimated pitch; and applying to the subtraction result a transform towards the time domain to construct an enhanced speech signal (s3).

Description

PROCEDE DE DEBRUITAGE D'UN SIGNAL DE PAROLE NUMERIQUE METHOD FOR NOISE REDUCTION OF A DIGITAL SPOKEN SIGNAL
La présente invention concerne les techniques numériques de débruitage de signaux de parole. Elle concerne plus particulièrement le débruitage par soustraction spectrale non linéaire.The present invention relates to digital techniques for denoising speech signals. It relates more particularly to denoising by nonlinear spectral subtraction.
Du fait de la généralisation des nouvelles formes de communication, en particulier des téléphones mobiles, les communications se font de plus en plus dans des ambiances fortement bruitées . Le bruit, additionné à la parole, a alors tendance à perturber les communications en empêchant une compression optimale du signal de parole et en créant un bruit de fond non naturel. D'autre part, le bruit rend difficile et fatigante la compréhension du message parlé. De nombreux algorithmes ont été étudiés pour essayer de diminuer les effets du bruit dans une communication. S. F. Boll («Suppression of acoustic noise m speech using spectral subtraction », IEEE Trans . on Acoustics, Speech and Signal Processing », Vol. ASSP-27, n° 2, avril 1979) a proposé un algorithme basé sur la soustraction spectrale. Cette technique consiste a estimer le spectre du bruit pendant les phases de silence et à le soustraire du signal reçu. Elle permet une réduction du niveau de bruit reçu. Son principal défaut est de créer un bruit musical particulièrement gênant, car non naturel.Due to the generalization of new forms of communication, in particular mobile telephones, communications are increasingly carried out in highly noisy environments. Noise, added to speech, then tends to disrupt communications by preventing optimal compression of the speech signal and creating unnatural background noise. On the other hand, noise makes it difficult and tiring to understand the spoken message. Many algorithms have been studied to try to reduce the effects of noise in a communication. S. F. Boll ("Suppression of acoustic noise m speech using spectral subtraction", IEEE Trans. On Acoustics, Speech and Signal Processing ", Vol. ASSP-27, n ° 2, April 1979) proposed an algorithm based on spectral subtraction. This technique consists in estimating the spectrum of the noise during the phases of silence and in subtracting it from the received signal. It allows a reduction in the noise level received. Its main fault is to create a particularly annoying musical noise, because it is not natural.
Ces travaux, repris et améliorés par D. B. PaulThese works, taken up and improved by D. B. Paul
(« The spectral enveloppe estimation vocoder », IEEE("The spectral envelope estimation vocoder", IEEE
Trans. on Acoustics, Speech and Signal Processing », Vol.Trans. on Acoustics, Speech and Signal Processing ”, Vol.
ASSP-29, n° 4, août 1981) et par P. Lockwood et J. Boudy (« Expeπments with a nonlinear spectral subtractor (NSS) , Hidden Markov Models and the projection, for robust speech récognition m cars », Speech Communication, Vol. 11, juin 1992, pages 215-228, et EP-A-0 534 837) ont permis de diminuer sensiblement le niveau de bruit tout en lui conservant un caractère naturel. De plus, cette contribution a eu le mérite d' incorporer pour la première fois le principe de masquage dans le calcul du filtre de débruitage. A partir de cette idée, une première tentative a ete faite par S. Nandkumar et J. H. L. Hansen (« Speech enhancement on a new set of auditory constramed parameters », Proc. ICASSP 94, pages 1.1-1.4) pour utiliser dans la soustraction spectrale des courbes de masquage calculées explicitement. Malgré les résultats décevants de cette technique, cette contribution a eu le mente de mettre l'accent sur l'importance de ne pas dénaturer le signal de parole pendant le débruitage.ASSP-29, n ° 4, August 1981) and by P. Lockwood and J. Boudy ("Expeπments with a nonlinear spectral subtractor (NSS), Hidden Markov Models and the projection, for robust speech récognition m cars", Speech Communication, Vol. 11, June 1992, pages 215-228, and EP-A-0 534 837) have made it possible to significantly reduce the noise level while retaining a natural character. In addition, this contribution had the merit of incorporating for the first time the masking principle in the calculation of the denoising filter. From this idea, a first attempt was made by S. Nandkumar and JHL Hansen (“Speech enhancement on a new set of auditory constramed parameters”, Proc. ICASSP 94, pages 1.1-1.4) to use in the spectral subtraction masking curves calculated explicitly. Despite the disappointing results of this technique, this contribution had the stress of emphasizing the importance of not distorting the speech signal during denoising.
D'autres méthodes basées sur la décomposition du signal de parole en valeurs singulières, et donc sur une projection du signal de parole dans un espace plus réduit, ont ete étudiées par Bart De Moore (« The smgular value décomposition and long and short spaces of noisy matrices », IEEE Trans. on Signal Processing, Vol. 41, n° 9, septembre 1993, pages 2826-2838) et par S. H. Jensen et al (« Réduction of broad-band noise m speech by truncated QSVD », IEEE Trans. on Speech and Audio Processing, Vol. 3, n° 6, novembre 1995) . Le principe de cette technique est de considérer le signal de parole et le signal de bruit comme totalement décorrélés, et de considérer que le signal de parole a une prédictibilité suffisante pour être prédit à partir d'un jeu restreint de paramètres. Cette technique permet d'obtenir un débruitage acceptable pour des signaux fortement voisés, mais dénature totalement le signal de parole. Face a un bruit relativement cohérent, tel que celui provoqué par le contact de pneus de voitures ou le cliquetis d'un moteur, le bruit peut s'avérer plus facilement prédictible que le signal de parole non voisé. On a alors tendance à projeter le signal de parole dans une partie de l'espace vectoriel du bruit. La méthode ne tient pas compte du signal de parole, en particulier des zones de parole non voisée où la prédictibilité est réduite. De plus, prédire le signal de parole a partir d'un eu de paramètres réduit ne permet pas de prendre en compte toute la richesse intrinsèque de la parole. On comprend ici les limites de techniques basées uniquement sur des considérations mathématiques en oubliant le caractère particulier de la parole. D'autres techniques enfin sont basées sur des critères de cohérence. La fonction de cohérence est particulièrement bien développée par J. A. Cadzow et 0. M. Solomon (« Lmear modelmg and the cohérence function », IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-35, n° 1, janvier 1987, pages 19-28), et son application au débruitage a été étudiée par R. Le Bouquin (<.< Enhancement of noisy speech signais : application to moo le radio communications », Speech Communication, Vol. 18, pages 3-19) . Cette méthode se base sur le fait que le signal de parole a une cohérence nettement plus importante que le bruit a condition d'utiliser plusieurs canaux indépendants. Les résultats obtenus semblent être assez encourageants. Mais malheureusement, cette technique impose d'avoir plusieurs sources de prise de son, ce qui n'est pas toujours réalisé.Other methods based on the decomposition of the speech signal into singular values, and therefore on a projection of the speech signal in a more reduced space, have been studied by Bart De Moore (“The smgular value decomposition and long and short spaces of noisy matrices ", IEEE Trans. on Signal Processing, Vol. 41, n ° 9, September 1993, pages 2826-2838) and by SH Jensen et al (" Reduction of broad-band noise m speech by truncated QSVD ", IEEE Trans on Speech and Audio Processing, Vol. 3, No. 6, November 1995). The principle of this technique is to consider the speech signal and the noise signal as completely decorrelated, and to consider that the speech signal has sufficient predictability to be predicted from a restricted set of parameters. This technique makes it possible to obtain an acceptable denoising for strongly voiced signals, but totally distorts the speech signal. Faced with a relatively coherent noise, such as that caused by the contact of car tires or the rattling of an engine, the noise can prove to be more easily predictable than the unvoiced speech signal. There is then a tendency to project the speech signal into a part of the vector space of the noise. The method ignores the speech signal, especially the unvoiced speech areas where the predictability is reduced. In addition, predicting the speech signal from a reduced set of parameters does not take into account all the intrinsic richness of the speech. We understand here the limits of techniques based solely on mathematical considerations while forgetting the particular character of speech. Finally, other techniques are based on consistency criteria. The coherence function is particularly well developed by JA Cadzow and 0. M. Solomon ("Lmear modelmg and the coherence function", IEEE Trans. On Acoustics, Speech and Signal Processing, Vol. ASSP-35, n ° 1, January 1987 , pages 19-28), and its application to denoising has been studied by R. Le Bouquin (<. <Enhancement of noisy speech signais: application to moo radio communications ", Speech Communication, Vol. 18, pages 3-19) . This method is based on the fact that the speech signal has a significantly greater coherence than noise provided that several independent channels are used. The results seem to be quite encouraging. But unfortunately, this technique requires having multiple sources of sound, which is not always achieved.
Le brevet américain 5 228 088 décrit un système de débruitage fonctionnant dans le domaine fréquentiel, pourvu d'un détecteur de fréquence tonale. Le résultat de cette détection sert d'une part à régler des coefficients de suppression du bruit, et d'autre part a localiser une « bande de la voix ». Les coefficients de suppression de bruit sont utilisés par un module de soustraction spectrale pour pondérer l'estimation du bruit avant de la soustraire du signal. Le module qui règle les coefficients de suppression exploite seulement l'information selon laquelle une fréquence tonale a été détectée ou non. Mais la valeur prise par la fréquence tonale est sans influence sur les coefficients de suppression utilisés. La « bande de la voix » déterminée à l'aide de la fréquence tonale détectée fait l'objet d'une accentuation globale du signal. Elle peut, en variante, servir a déterminer a contrario une « bande du bruit », bande dans laquelle une atténuation globale est alors appliquée. Une telle accentuation ou atténuation d'une portion du spectre et du signal est une méthode de débruitage très différente de la soustraction spectrale. Un but principal de la présente invention est de proposer une nouvelle technique de débruitage qui prenne en compte les caractéristiques de production de la parole, permettant ainsi un débruitage efficace sans détériorer la perception de la parole.US Patent 5,228,088 describes a denoising system operating in the frequency domain, provided with a tone frequency detector. The result of this detection is used on the one hand to adjust the noise suppression coefficients, and on the other hand to locate a "voice band". The noise suppression coefficients are used by a spectral subtraction module to weight the noise estimate before subtracting it from the signal. The module which adjusts the suppression coefficients only uses the information according to which a tone frequency has been detected or not. However, the value taken by the tone frequency has no influence on the suppression coefficients used. The “voice band” determined using the detected tone frequency is subject to an overall signal enhancement. It can, as a variant, be used to determine a contrario a "noise band", band in which an overall attenuation is then applied. Such an enhancement or attenuation of a portion of the spectrum and of the signal is a very different denoising method from spectral subtraction. A main aim of the present invention is to propose a new denoising technique which takes into account the characteristics of speech production, thus allowing effective denoising without deteriorating the perception of speech.
L' invention propose ainsi un procédé de débruitage d'un signal de parole numérique traité par trames successives, dans lequel :The invention thus proposes a method for denoising a digital speech signal processed by successive frames, in which:
- on calcule des composantes spectrales du signal de parole sur chaque trame ;- spectral components of the speech signal are calculated on each frame;
- on calcule pour chaque trame des estimations majorées de composantes spectrales du bruit compris dans le signal de parole ; on effectue une soustraction spectrale comportant au moins une étape consistant à soustraire respectivement, de chaque composante spectrale du signal de parole sur la trame, une quantité dépendant de paramètres incluant l'estimation majorée de la composante spectrale correspondante du bruit pour ladite trame ; et - on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel pour construire un signal de parole débruité.- Estimates are increased for each frame plus spectral components of the noise included in the speech signal; a spectral subtraction is carried out comprising at least one step consisting in respectively subtracting, from each spectral component of the speech signal on the frame, a quantity depending on parameters including the increased estimate of the corresponding spectral component of the noise for said frame; and - a transformation to the time domain is applied to the result of the spectral subtraction to construct a denoised speech signal.
Une analyse harmonique du signal de parole est effectuée pour estimer une fréquence tonale du signal de parole sur chaque trame où il présente une activité vocale. Les paramètres dont dépendent les quantités soustraites incluent la fréquence tonale ainsi estimée.A harmonic analysis of the speech signal is performed to estimate a tonal frequency of the speech signal on each frame where it exhibits speech activity. The parameters on which the quantities subtracted depend include the tone frequency thus estimated.
La surestimation de l'enveloppe spectrale du bruit est généralement souhaitable pour que l'estimation majorée ainsi obtenue soit robuste aux brusques variations du bruit. Néanmoins, cette surestimation a habituellement l'inconvénient de distordre le signal de parole lorsqu'elle devient trop importante. Ceci a pour effet d'affecter le caractère voisé du signal de parole en supprimant une partie de sa prédictibilité . Cet inconvénient est très gênant dans les conditions de la téléphonie, car c'est pendant les zones de voisement que le signal de parole est alors le plus énergétique. Le fait de prendre en compte dans le débruitage la fréquence tonale du signal de parole permet de protéger 1' harmonicite de ce signal dans ces zones voisées.Overestimating the noise spectral envelope is generally desirable so that the increased estimate thus obtained is robust to sudden variations in noise. However, this overestimation usually has the disadvantage of distorting the speech signal when it becomes too large. This has the effect of affecting the voiced character of the speech signal by suppressing part of its predictability. This drawback is very annoying in the conditions of telephony, because it is during the voicing areas that the speech signal is then most energetic. The fact taking into account in the denoising the tonal frequency of the speech signal makes it possible to protect the harmonicity of this signal in these neighboring zones.
En général, pour soustraire d'une composante spectrale donnée du signal de parole, on adoptera une quantité plus faible si ladite composante spectrale correspond à une fréquence protégée, c'est-a-dire la plus proche d'un multiple entier de la fréquence tonale estimée que si ladite composante spectrale ne correspond pas à une telle fréquence protégée. Cette quantité plus faible peut notamment être nulle. Dans ce dernier cas, la soustraction spectrale n'affecte pas le signal à la fréquence tonale estimée et/ou a ses harmoniques. On supprime alors une partie des non-lmeaπtés apportées par la surestimation du bruit, qui sont particulièrement sensibles pour les zones voisées. Les zones non voisées, du fait du caractère plus aléatoire de leur signal d'excitation, y sont moins sensibles .In general, to subtract from a given spectral component of the speech signal, we will adopt a lower quantity if said spectral component corresponds to a protected frequency, that is to say the one closest to an integer multiple of the frequency. estimated tone only if said spectral component does not correspond to such a protected frequency. This lower quantity can in particular be zero. In the latter case, spectral subtraction does not affect the signal at the estimated tone frequency and / or its harmonics. This then removes part of the non-lmeaπtés brought by the noise overestimation, which are particularly sensitive for the neighboring areas. Unvoiced areas, due to the more random nature of their excitation signal, are less sensitive to it.
Dans un mode de réalisation avantageux, après avoir estimé la fréquence tonale du signal de parole sur une trame, on conditionne le signal de parole de la trame en le suréchantillonnant à une fréquence de suréchantillonnage multiple de la fréquence tonale estimée, et on calcule les composantes spectrales du signal de parole sur la trame sur la base du signal conditionné pour leur soustraire lesdites quantités. Cette disposition permet de privilégier les fréquences les plus proches de la fréquence tonale estimée par rapport aux autres fréquences. On évite ainsi de protéger des harmoniques relativement éloignées de celles de la fréquence tonale. On préserve donc au mieux le caractère harmonique du signal de parole. Pour calculer les composantes spectrales du signal de parole, on distribue le signal conditionné par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et on choisit le rapport entre la fréquence de suréchantillonnage et la fréquence tonale estimée comme un diviseur du nombre N. La technique précédente peut encore être affinée en estimant la fréquence tonale du signal de parole sur une trame de la manière suivante :In an advantageous embodiment, after having estimated the tonal frequency of the speech signal over a frame, the speech signal of the frame is conditioned by oversampling it at a oversampling frequency multiple of the estimated tonal frequency, and the components are calculated. spectral of the speech signal on the frame based on the conditioned signal to subtract said quantities from them. This arrangement makes it possible to favor the frequencies closest to the estimated tone frequency over the other frequencies. This avoids protecting harmonics relatively far from those of the tone frequency. The harmonic nature of the speech signal is therefore best preserved. To calculate the spectral components of the speech signal, the conditioned signal is distributed in blocks of N samples subjected to a transformation in the frequency domain, and the ratio between the oversampling frequency and the estimated tone frequency is chosen as a divisor of the number N . The previous technique can be further refined by estimating the tonal frequency of the speech signal on a frame as follows:
- on estime des intervalles de temps entre deux ruptures consécutives du signal attπbuables a des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ;- Estimated time intervals between two consecutive breaks of the signal attπbuables closings of the glottis of the speaker intervening during the duration of the frame, the estimated tone frequency being inversely proportional to said time intervals;
- on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.- The speech signal is interpolated in said time intervals, so that the conditioned signal resulting from this interpolation has a constant time interval between two consecutive breaks.
Cette façon de procéder construit artificiellement une trame de signal sur laquelle le signal de parole présente des ruptures à intervalles constants. On prend ainsi en compte d'éventuelles variations de la fréquence tonale sur la durée d'une trame.This procedure artificially constructs a signal frame on which the speech signal breaks at constant intervals. We thus take into account possible variations in the tonal frequency over the duration of a frame.
Une amélioration supplémentaire consiste en ce que, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons égal à un multiple entier de fois le rapport entre la fréquence d'échantillonnage et la fréquence tonale estimée. Ceci évite les problèmes de distorsion provoqués par les discontinuités de phase entre trames, qui ne sont généralement pas corrigées totalement par les techniques classiques de somme à recouvrement (overlap-add) .An additional improvement consists in that, after the processing of each frame, a number of samples equal to an integer multiple of times the ratio between the frequency of the noise-free speech signal provided by this processing is retained. sampling and estimated tone frequency. This avoids the problems of distortion caused by phase discontinuities between frames, which are generally not completely corrected by conventional overlap-add techniques.
Le fait d'avoir conditionné le signal par la technique de suréchantillonnage permet d'obtenir une bonne mesure du degré de voisement du signal de parole sur la trame, a partir d'un calcul de l'entropie de l'autocorrélation des composantes spectrales calculées sur la base du signal conditionne. Plus le spectre est perturbé, c'est-à-dire plus il est voisé, plus les valeurs de l'entropie sont faibles. Le conditionnement du signal de parole accentue l'aspect irrégulier du spectre et donc les variations de l'entropie, de sorte que celle-ci constitue une mesure de bonne sensibilité. Les autocorrélations seront généralement calculées sur la base du signal débruité pour obtenir les meilleures performances. Il serait toutefois envisageable de les calculer sur la base du signal conditionné avant debruitage.The fact of having conditioned the signal by the oversampling technique makes it possible to obtain a good measure of the degree of voicing of the speech signal on the frame, from a calculation of the entropy of the autocorrelation of the calculated spectral components. based on the signal conditions. The more the spectrum is disturbed, that is to say the more it is seen, the lower the values of the entropy. The conditioning of the speech signal accentuates the irregular aspect of the spectrum and therefore the variations of the entropy, so that this constitutes a measure of good sensitivity. The autocorrelations will usually be calculated based on the denoised signal to obtain the best performance. It would however be possible to calculate them on the basis of the conditioned signal before noise reduction.
Les composantes spectrales du signal debruite, obtenues en soustrayant lesdites quantités des composantes spectrales du signal de parole, peuvent être utilisées pour calculer une courbe de masquage en appliquant un modèle ce perception auditive. De préférence, les paramètres dont dépend la quantité soustraite d'une composante spectrale du signal de parole sur une trame incluent alors un écart entre l'estimation majorée oe la composante spectrale correspondante du bruit et la courbe de masquage calculée. Cette quantité soustraite peut notamment être limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage. Cette façon de procéder repose sur l'observation qu'il suffit de débruiter les fréquences de bruit audibles. A contrario, il ne sert a rien d'éliminer du bruit qui est masqué par de la parole.The spectral components of the noise signal, obtained by subtracting said quantities from the spectral components of the speech signal, can be used to calculate a masking curve by applying a model of this auditory perception. Preferably, the parameters on which the quantity subtracted from a spectral component of the speech signal on a frame depends then include a difference between the increased estimate oe the corresponding spectral component of the noise and the calculated masking curve. This subtracted quantity can in particular be limited to the fraction of the estimate increased by the corresponding spectral component of the noise which exceeds the masking curve. This procedure is based on the observation that it is sufficient to denoise the audible noise frequencies. Conversely, there is no point in eliminating noise which is masked by speech.
Dans un mode de réalisation avantageux, chaque estimation majorée du bruit compris dans le signal de parole est obtenue en combinant une estimation à long terme de ladite composante spectrale du bruit, et une mesure de la variabilité de ladite composante spectrale du bruit autour de son estimation à long terme. On obtient ainsi un estimateur de bruit particulièrement robuste aux variations du bruit du fait qu'il combine deux estimateurs distincts, l'un rendant compte des fluctuations à long terme du bruit, et l'autre de sa variabilité a court terme .In an advantageous embodiment, each increased estimate of the noise included in the speech signal is obtained by combining a long-term estimate of said spectral component of noise, and a measure of the variability of said spectral component of noise around its estimate. long-term. This gives a particularly robust noise estimator to variations in noise because it combines two separate estimators, one accounting for long-term fluctuations in noise, and the other for its short-term variability.
D' autres particularités et avantages de la présente invention apparaîtront dans la description ci- après d'exemples de réalisation non limitatifs, en référence aux dessins annexes, dans lesquels : - la figure 1 est un schéma synoptique d'un système de débruitage mettant en œuvre la présente invention ;Other particularities and advantages of the present invention will appear in the description below of nonlimiting exemplary embodiments, with reference to the accompanying drawings, in which: - Figure 1 is a block diagram of a denoising system implementing the present invention;
- les figures 2 et 3 sont des organigrammes de procédures utilisées par un détecteur d'activité vocale du système de la figure 1 ;- Figures 2 and 3 are flowcharts of procedures used by a voice activity detector of the system of Figure 1;
- la figure 4 est un diagramme représentant les états d'un automate de détection d'activité vocale ; la figure 5 est un graphique illustrant les variations d'un degré d'activité vocale ;FIG. 4 is a diagram representing the states of a voice activity detection automaton; FIG. 5 is a graph illustrating the variations of a degree of vocal activity;
- la figure 6 est un schéma synoptique d'un module de surestimation du bruit du système de la figure 1 ; la figure 7 est un graphique illustrant le calcul d'une courbe de masquage ; - la figure 8 est un graphique illustrant l'exploitation des courbes de masquage dans le système de la figure 1 ;- Figure 6 is a block diagram of a noise overestimation module of the system of Figure 1; FIG. 7 is a graph illustrating the calculation of a masking curve; - Figure 8 is a graph illustrating the operation of the masking curves in the system of Figure 1;
- la figure 9 est un schéma synoptique d'un autre système de débruitage mettant en œuvre la présente invention ;- Figure 9 is a block diagram of another denoising system implementing the present invention;
- la figure 10 est un graphique illustrant une méthode d'analyse harmonique utilisable dans un procédé selon l'invention ; et- Figure 10 is a graph illustrating a harmonic analysis method usable in a method according to the invention; and
- la figure 11 montre partiellement une variante du schéma synoptique de la figure 9.FIG. 11 partially shows a variant of the block diagram of FIG. 9.
Le système de débruitage représenté sur la figure 1 traite un signal numérique de parole s. Un module de fenêtrage 10 met ce signal s sous forme de fenêtres ou trames successives, constituées chacune d'un nombre M d'échantillons de signal numérique. De façon classique, ces trames peuvent présenter des recouvrements mutuels. Dans la suite de la présente description, on considérera, sans que ceci soit limitatif, que les trames sont constituées de N=25β échantillons à une fréquence d'échantillonnage F de 8 kHz, avec une pondération deThe denoising system shown in FIG. 1 processes a digital speech signal s. A windowing module 10 puts this signal s in the form of successive windows or frames, each consisting of a number M of digital signal samples. Conventionally, these frames can have mutual overlaps. In the remainder of this description, it will be considered, without this being limiting, that the frames consist of N = 25β samples at a sampling frequency F of 8 kHz, with a weighting of
Hamming dans chaque fenêtre, et des recouvrements de 50% entre fenêtres consécutives. 99/14739Hamming in each window, and 50% overlap between consecutive windows. 99/14739
- 9 -- 9 -
La trame de signal est transformée dans le domaine fréquentiel par un module 11 appliquant un algorithme classique de transformée de Fourier rapide (TFR) pour calculer le module du spectre du signal. Le module 11 délivre alors un ensemble de N=256 composantes fréquent elles du signal de parole, notées Sn <=, où n désigne le numéro de la trame courante, et f une fréquence du spectre discret. Du fait des propriétés des signaux numériques dans le domaine fréquentiel, seuls les N/2=128 premiers échantillons sont utilisés.The signal frame is transformed in the frequency domain by a module 11 applying a conventional fast Fourier transform (TFR) algorithm to calculate the module of the signal spectrum. The module 11 then delivers a set of N = 256 frequent components of the speech signal, denoted S n < =, where n denotes the number of the current frame, and f a frequency of the discrete spectrum. Due to the properties of digital signals in the frequency domain, only the first N / 2 = 128 samples are used.
Pour calculer les estimations du bruit contenu dans le signal s, on n'utilise pas la résolution fréquentielle disponible en sortie de la transformée de Fourier rapide, mais une résolution plus faible, déterminée par un nombre I de bandes de fréquences couvrant la bande [0,F /2] du signal. Chaque bande iTo calculate the noise estimates contained in the signal s, the frequency resolution available at the output of the fast Fourier transform is not used, but a lower resolution, determined by a number I of frequency bands covering the band [0 , F / 2] of the signal. Each band i
(l≤i≤I) s'étend entre une fréquence inférieure f(i-l) et une fréquence supérieure f(i), avec f(0)=0, et f(I)=F /2.(l≤i≤I) extends between a lower frequency f (i-l) and a higher frequency f (i), with f (0) = 0, and f (I) = F / 2.
Ce découpage en bandes de fréquences peut être uniforme (f (i) -f (i-1) =F /2I) . Il peut également être non uniformeThis division into frequency bands can be uniform (f (i) -f (i-1) = F / 2I). It can also be non-uniform
(par exemple selon une échelle de barks) . Un module 12 calcule les moyennes respectives des composantes spectrales Si_l., 1 du signal de parole par bandes, par exemple par une pondération uniforme telle que :(for example according to a barks scale). A module 12 calculates the respective averages of the spectral components Si_l., 1 of the speech signal in bands, for example by a uniform weighting such that:
Sn - = ; S„ ( 1 ) '1 f(i) - f(i-l) r r n>f f e[f(ι-l) , f(ι)[S n - =; S „(1) ' 1 f (i) - f (il) rr n > f fe [f (ι-l), f (ι) [
Ce moyennage diminue les fluctuations entre les bandes en moyennant les contributions du bruit dans ces bandes, ce qui diminuera la variance de l'estimateur de bruit. En outre, ce moyennage permet une forte diminution de la complexité du système.This averaging decreases the fluctuations between the bands by averaging the noise contributions in these bands, which will decrease the variance of the noise estimator. In addition, this averaging allows a significant reduction in the complexity of the system.
Les composantes spectrales moyennées Sil, 1• sont adressées à un module 15 de détection d'activité vocale et à un module 16 d'estimation du bruit. Ces deux modules 15,The averaged spectral components Sil, 1 • are addressed to a module 15 for detecting voice activity and to a module 16 for estimating noise. These two modules 15,
16 fonctionnent conjointement, en ce sens que des degrés d'activité vocale γ_ II, 1. mesurés pour les différentes bandes par le module 15 sont utilisés par le module 16 pour estimer l'énergie à long terme du bruit dans les différentes bandes, tandis que ces estimations a long terme B, 1_1,-. sont utilisées par le module 15 pour procéder a un debrαitage a priori du signal de parole dans les différentes bandes pour déterminer les degrés d'activité vocale γ lx , 1.16 work jointly, in the sense that degrees of vocal activity γ_ II, 1. measured for the different bands by module 15 are used by module 16 to estimate the long-term energy of noise in the different bands, while these long-term estimates B, 1_1, -. are used by module 15 to carry out an a priori debrαitage of the speech signal in the different bands to determine the degrees of vocal activity γ lx, 1.
Le fonctionnement des modules 15 et 16 peut correspondre aux organigrammes représentes sur les figures 2 et 3. ^x étapes 17 a 20, le module 15 procède au debruitaσe a priori du signal de parole dans les différentes bandes i pour la trame de signal n. Ce debruitage a priori est effectué selon un processus classique de soustraction spectrale non linéaire à partir d'estimations du bruit obtenues lors d'une ou plusieurs trames précédentes. A l'étape 17, le module 15 calcule, avec la résolution des bandes i, la réponse en fréquence Hpπn, i du filtre de débruitage a priori, selon la formule :The operation of the modules 15 and 16 can correspond to the flowcharts represented in FIGS. 2 and 3. ^ x steps 17 to 20, the module 15 proceeds a priori to debruitaσe the speech signal in the different bands i for the signal frame n. This a priori noise reduction is carried out according to a conventional process of non-linear spectral subtraction from noise estimates obtained during one or more previous frames. In step 17, the module 15 calculates, with the resolution of the bands i, the frequency response Hp π n, i of the a priori denoising filter, according to the formula:
sn,ι ~ an-τl,ι- Bn-τl,ι Hp -- bn-τ2,ι ou τl et τ2 sont des retards exprimés en nombre de trames s n, ι ~ a n-τl, ι- B n-τl, ι Hp - b n-τ2, ι or τl and τ2 are delays expressed in number of frames
11
(τl≥l, τ2>0), et CA Il,--L, est un coefficient de surestimation du bruit dont la détermination sera expliquée plus loin. Le retard τl peut être fixe (par exemple τl=l) ou variable. II est d'autant plus faible qu'on est confiant dans la détection d'activité vocale.(τl≥l, τ2> 0), and CA Il, - L, is a noise overestimation coefficient, the determination of which will be explained below. The delay τl can be fixed (for example τl = l) or variable. It is all the weaker when one is confident in the detection of voice activity.
Aux étapes 18 à 20, les composantes spectralesIn steps 18 to 20, the spectral components
Epn sont calculées selon :Ep n are calculated according to:
Ep fl = max|ffn . n , β χ- τl,ιj <3> où βp est un coefficient de plancher proche de 0, servant classiquement à éviter que le spectre du signal débruité prenne des valeurs négatives ou trop faibles qui provoqueraient un bruit musical.Ep fl = max | ff n . n , β χ - τl, ιj < 3 > where βp is a floor coefficient close to 0, conventionally used to avoid that the spectrum of the denoised signal take negative or too low values which would cause a musical noise.
Les étapes 17 a 20 consistent donc essentiellement a soustraire du spectre du signal une estimation, majorée par le coefficient αn_τ-j_ , du spectre du bruit estime a priori .Steps 17 to 20 therefore essentially consist in subtracting from the signal spectrum an estimate, increased by the coefficient α n _ τ - j _, of the noise spectrum estimated a priori.
A l'étape 21, le module 15 calcule l'énergie du signal deoruite a priori dans les différentes bandes i 2 pour la trame n : En χ = Epn χ . Il calcule aussi une moyenne globale E g de l'énergie du signal débruité a priori, par une somme des énergies par bande E , i , pondérée par les largeurs de ces bandes. Dans les notations ci-dessous, l'indice ι=0 sera utilisé pour designer la bande globale du signal.In step 21, the module 15 calculates the energy of the a priori signal in the different bands i 2 for the frame n: E n χ = Ep n χ . It also calculates an overall average E g of the energy of the a priori denoised signal, by a sum of the energies per band E, i, weighted by the widths of these bands. In the notations below, the index ι = 0 will be used to designate the global band of the signal.
Aux étapes 22 et 23, le module 15 calcule, pour chaque bande i (O≤i≤I), une grandeur ΔE, I_I, 1 représentant la variation à court terme de l'énergie du signal débruité dans la bande i, ainsi qu'une valeur à long terme En -,_ de l'énergie du signal débruité dans la bande i. La grandeur ΔE 1,_1, 1 peut être calculée par une formule simplifiée deIn steps 22 and 23, module 15 calculates, for each band i (O≤i≤I), a quantity ΔE, I_I, 1 representing the short-term variation of the energy of the noise-suppressed signal in band i, as well as 'a long-term value E n -, _ of the energy of the denoised signal in band i. The quantity ΔE 1, _1, 1 can be calculated by a simplified formula of
En- ,ι + En-3fi ~ En-l,ι ' En,ι dérivation : AE„ . = . Quant a E n-, ι + E n-3 f i ~ E nl, ι ' E n, ι derivation: AE „. =. As for
10 l'énergie à long terme En , elle peut être calculée à l'aide d'un facteur d'oubli Bl tel que 0<B1<1, à savoir nfι = Bl . Ën_lfl + (1-B1) . E^ .10 the long-term energy E n , it can be calculated using an oblivion factor Bl such that 0 <B1 <1, namely n f ι = Bl. Ë n _ lfl + (1-B1). E ^.
Apres avoir calculé les énergies En, i du signal débruité, ses variations a court terme
Figure imgf000013_0001
1_ et ses valeurs à long terme En -,_ de la manière indiquée sur la figure 2, le module 15 calcule, pour chaque bande i (O≤i≤I), une valeur p représentative de l'évolution de l'énergie du signal débruité. Ce calcul est effectué aux étapes 25 a 36 de la figure 3, exécutées pour chaque bande i entre =0 et ι=I . Ce calcul fait appel à un estimateur a long terme de l'enveloppe du bruit ba , a un estimateur interne ci et à un compteur de trames bruitees b . A l'étape 25, la grandeur ΔEnn, i est comparée a un seuil εl . Si le seuil εl n'est pas atteint, le compteur b est mcrementé d'une unité à l'étape 26. A l'étape 27, l'estimateur à long terme ba est comparé à la valeur de l'énergie lissée En/1. Si ba ≥ En ι , l'estimateur ba est pris égal a la valeur lissée En -,_ à l'étape 28, et le compteur o, est remis a zéro. La grandeur p , qui est prise égale au rapport ba /En?1 (étape 36) , est alors égale a 1.
After having calculated the energies, i, of the denoised signal, its short-term variations
Figure imgf000013_0001
1_ and its long-term values E n -, _ as shown in FIG. 2, the module 15 calculates, for each band i (O≤i≤I), a value p representative of the evolution of the energy of the denoised signal. This calculation is performed at steps 25 to 36 of FIG. 3, executed for each band i between = 0 and ι = I. This calculation uses a long-term estimator of the noise envelope ba, an internal estimator ci and a noisy frame counter b. In step 25, the quantity ΔE n n, i is compared to a threshold εl. If the threshold εl is not reached, the counter b is incremented by one unit in step 26. In step 27, the long-term estimator ba is compared to the value of the smoothed energy E n / 1 . If ba ≥ E n ι , the estimator ba is taken equal to the smoothed value E n -, _ in step 28, and the counter o, is reset to zero. The quantity p, which is taken equal to the ratio ba / E n? 1 (step 36), is then equal to 1.
Si l'étape 27 montre que ba <En -,_ , le compteur b est comparé à une valeur limite bmax à l'étape 29. Si b >bmax, le signal est considéré comme trop stationnaire pour supporter de l'activité vocale. L'étape 28 précitée, qui revient à considérer que la trame ne comporte que du bruit, est alors exécutée. Si b ≤bmax a l'étape 29, l'estimateur interne bi est calculé à l'étape 33 selon : bι = (1-Bm) . ~Ê~ nfl + Bm . ba ( 4 )If step 27 shows that ba <E n -, _, the counter b is compared with a limit value bmax in step 29. If b> bmax, the signal is considered to be too stationary to support vocal activity . The aforementioned step 28, which amounts to considering that the frame contains only noise, is then executed. If b ≤bmax in step 29, the internal estimator bi is calculated in step 33 according to: bι = (1-Bm). ~ Ê ~ nfl + Bm. ba (4)
Dans cette formule, Bm représente un coefficient de mise à jour compris entre 0,90 et 1. Sa valeur diffère selon l'état d'un automate de détection d'activité vocale (étapes 30 à 32) . Cet état δ -, est celui déterminé lors du traitement de la trame précédente. Si l'automate est dans un état de détection de parole (δn_1= à l'étape 30), le coefficient Bm prend une valeur Bmp très proche de 1 pour que l'estimateur du bruit soit très faiblement mis à jour en présence de parole. Dans le cas contraire, le coefficient Bm prend une valeur Bms plus faible, pour permettre une mise à our plus significative de 9/14739In this formula, Bm represents an update coefficient between 0.90 and 1. Its value differs depending on the state of a voice activity detection automaton (steps 30 to 32). This state δ -, is that determined during the processing of the previous frame. If the automaton is in a speech detection state (δ n _ 1 = in step 30), the coefficient Bm takes a value Bmp very close to 1 so that the noise estimator is very slightly updated in presence of speech. Otherwise, the coefficient Bm takes a lower value Bms, to allow a more significant update of 9/14739
- 13 - l'estimateur de bruit en phase de silence. A l'étape 34, l'écart a^-bi^ entre l'estimateur à long terme et l'estimateur interne du bruit est comparé à un seuil ε2.- 13 - the noise estimator in silence phase. In step 34, the difference a ^ -bi ^ between the long-term estimator and the internal noise estimator is compared to a threshold ε2.
Si le seuil ε2 n'est pas atteint, l'estimateur à long terme ba^ est mis à jour avec la valeur de l'estimateur interne i^ à l'étape 35. Sinon, l'estimateur à long terme ba^ reste inchangé. On évite ainsi que de brutales variations dues à un signal de parole conduisent à une mise à jour de l'estimateur de bruit. Après avoir obtenu les grandeurs p>, le module 15 procède aux décisions d'activité vocale à l'étape 37. Le module 15 met d'abord à jour l'état de l'automate de détection selon la grandeur pQ calculée pour l'ensemble de la bande du signal. Le nouvel état δ de l'automate dépend de l'état précédent δ -, et de Pg, de la manière représentée sur la figure 4.If the threshold ε2 is not reached, the long-term estimator ba ^ is updated with the value of the internal estimator i ^ in step 35. Otherwise, the long-term estimator ba ^ remains unchanged . This avoids that sudden variations due to a speech signal lead to an update of the noise estimator. After having obtained the quantities p>, the module 15 proceeds to the voice activity decisions in step 37. The module 15 first updates the state of the detection automaton according to the quantity p Q calculated for l of the signal band. The new state δ of the automaton depends on the previous state δ -, and of Pg, as shown in Figure 4.
Quatre états sont possibles : δ=0 détecte le silence, ou absence de parole ; δ=2 détecte la présence d'une activité vocale ; et les états δ=l et δ=3 sont des états intermédiaires de montée et de descente. Lorsque l'automate est dans l'état de silence
Figure imgf000015_0001
il Y reste si Pg ne dépasse pas un premier seuil SEl, et il passe dans l'état de montée dans le cas contraire. Dans l'état de montée (δ ι=l), il revient dans l'état de silence si pg est plus petit que le seuil SEl, il passe dans l'état de parole si pQ est plus grand qu'un second seuil SE2 plus grand que le seuil SEl, et il reste dans l'état de montée si SEl≤ p0≤SE2. Lorsque l'automate est dans l'état de parole (δn_ι =2) , il y reste si pQ dépasse un troisième seuil SE3 plus petit que le seuil SE2, et il passe dans l'état de descente dans le cas contraire. Dans l'état de - 14 - descente
Figure imgf000016_0001
l'automate revient dans l'état de parole si Pg est plus grand que le seuil SE2, il revient dans l'état de silence si Pg est en deçà d'un quatrième seuil SΞ4 plus petit que le seuil SE2, et il reste dans l'état de descente si SE4<pQ<SE2.
Four states are possible: δ = 0 detects silence, or absence of speech; δ = 2 detects the presence of voice activity; and the states δ = l and δ = 3 are intermediate states of ascent and descent. When the machine is in a state of silence
Figure imgf000015_0001
it remains there if Pg does not exceed a first threshold SE1, and it goes into the rising state otherwise. In the rising state (δ ι = l), it returns to the state of silence if pg is smaller than the threshold SEl, it goes into the speaking state if p Q is greater than a second threshold SE2 greater than the threshold SEl, and it remains in the rising state if SEl≤ p 0 ≤SE2. When the automaton is in the speech state (δ n _ ι = 2), it remains there if p Q exceeds a third threshold SE3 smaller than the threshold SE2, and it goes into the descent state in the case opposite. In the state of - 14 - descent
Figure imgf000016_0001
the automaton returns to the speech state if Pg is greater than the threshold SE2, it returns to the state of silence if Pg is below a fourth threshold SΞ4 smaller than the threshold SE2, and it remains in the descent state if SE4 <p Q <SE2.
A l'étape 37, le module 15 calcule également les degrés d'activité vocale γ II, 1• dans chaque bande i≥l. Ce degré γ„ -i est de préférence un paramètre non binaire, c'est-à-dire que la fonction γ 11
Figure imgf000016_0002
est une fonction variant continûment entre 0 et 1 en fonction des valeurs prises par la grandeur p . Cette fonction a par exemple l'allure représentée sur la figure 5.
In step 37, the module 15 also calculates the degrees of vocal activity γ II, 1 • in each band i≥l. This degree γ „-i is preferably a non-binary parameter, that is to say that the function γ 11
Figure imgf000016_0002
is a function varying continuously between 0 and 1 according to the values taken by the quantity p. This function has for example the appearance shown in FIG. 5.
Le module 16 calcule les estimations du bruit par bande, qui seront utilisées dans le processus de débruitage, en utilisant les valeurs successives des composantes S_ . et des degrés d'activité vocale γ^ , .Module 16 calculates the band noise estimates, which will be used in the denoising process, using the successive values of the components S_. and degrees of vocal activity γ ^ ,.
Ceci correspond aux étapes 40 à 42 de la figure 3. A l'étape 40, on détermine si l'automate de détection d'activité vocale vient de passer de l'état de montée à l'état de parole. Dans l'affirmative, les deux dernières estimations B n-l i e^ Bn-2 i précédemment calculées pour chaque bande i≥l sont corrigées conformément à la valeur de l'estimation précédente B n-3 i • Cette correction est effectuée pour tenir compte du fait que, dans la phase de montée (δ=l), les estimations à long terme de l'énergie du bruit dans le processus de détection d'activité vocaleThis corresponds to steps 40 to 42 of FIG. 3. In step 40, it is determined whether the voice activity detection machine has just gone from the rising state to the speaking state. If so, the last two estimates B n -li e ^ B n-2 i previously calculated for each band i≥l are corrected according to the value of the previous estimate B n -3 i • This correction is made for take into account that, in the ascent phase (δ = l), the long-term noise energy estimates in the speech activity detection process
(étapes 30 à 33) ont pu être calculées comme si le signal ne comportait que du bruit (Bm=Bms) , de sorte qu'elles risquent d'être entachées d'erreur. A l'étape 42, le module 16 met à jour les estimations du bruit par bande selon les formules :(steps 30 to 33) could be calculated as if the signal only contained noise (Bm = Bms), so that they risk being tainted with error. In step 42, the module 16 updates the noise estimates per band according to the formulas:
ënfι = λB- ên- + (1-λS)-5n,i (5> /14739 ë n f ι = λ B- ê n- + (1 - λ S ) - 5 n, i (5 > / 14739
- 15 -- 15 -
B n/ι = nfι- Bn-lf + ^ n^ • Bnfι <6) ou λβ désigne un facteur d'oubli tel que 0<λβ<l. La formule (6) met en évidence la prise en compte du degré d'activité vocale non binaire γn, i . B n / ι = n f ι- B nl f + ^ n ^ • B n f ι < 6) where λ β denotes a forgetting factor such as 0 <λ β <l. Formula (6) highlights the taking into account of the degree of non-binary vocal activity γn, i.
Comme indiqué précédemment, les estimations à long terme de bruit Bn ι font l'objet d'une surestimation, par un modu_e 45 (figure 1), avant de procéder au debruitage par soustraction spectrale non linéaire. Le module 45 calcule le coefficient de surestimation α , précédemmentAs indicated previously, the long-term noise estimates B n ι are overestimated, by a modu_e 45 (FIG. 1), before proceeding to denoising by nonlinear spectral subtraction. Module 45 calculates the overestimation coefficient α, previously
evoσue, ainsi qu'une estimation majorée f?_ . qui correspondevoσue, as well as an increased estimate f? _. that matches
I essentiellement a OA lif-.L . B i-ï,f-L..I basically has OA li f -.L. B i-ï, f -L ..
L'organisation du module de surestimation 45 est représentée sur la figure 6. L'estimation majorée Bn . est obtenue en combinant l'estimation à long terme JÉ . et uneThe organization of the overestimation module 45 is shown in FIG. 6. The increased estimate B n . is obtained by combining the long-term estimate JE. and an
mesure AB™a de la variabilité de la composante du bruit dans la bande i autour de son estimation à long terme. Dans l'exemple considéré, cette combinaison est, pour l'essentiel, une simple somme réalisée par un additionneur 46. Ce pourrait également être une somme pondérée.measure AB ™ has the variability of the noise component in band i around its long-term estimate. In the example considered, this combination is essentially a simple sum made by an adder 46. It could also be a weighted sum.
Le coefficient de surestimation α InfX, est égal auThe overestimation coefficient α I nf X, is equal to
rapport entre la somme Bn , + ΔBi?a,x délivrée par l'additionneur 46 et l'estimation a long terme retardée Bn-τ3 1 (diviseur 47), plafonné à une valeur limite x. χ, par exemple α_-, =4 (bloc 48) . Le retard τ3 sert a corriger le cas échéant, dans les phases de montée (δ=l), la valeur du coefficient de surestimation αn - , avant que les estimations à long terme aient été corrigées par les étapes 40 et 41 de la figure 3 (par exemple . 9/14739relationship between the sum B n , + ΔBi? a , x delivered by the adder 46 and the delayed long-term estimate B n-τ3 1 (divisor 47), capped at a limit value x. χ , for example α_-, = 4 (block 48). The delay τ3 is used to correct, if necessary, in the rise phases (δ = l), the value of the overestimation coefficient α n -, before the long-term estimates have been corrected by steps 40 and 41 of the figure 3 (for example. 9/14739
- 16- 16
-'estimation majorée β InlfJ,-. est finalement prise- increased estimate β I n l f J, -. is finally taken
égale à n,i- Bn- -τ3 i (multiplieur 49)equal to n, i- B n- -τ3 i (multiplier 49)
-.a mesure AB InI, J,-. de la variabilité du bruit reflète la varia ce de l'estimateur de bruit. Elle est obtenue en fonction des valeurs de S^ • et de Bn ,- calculées pour un certain nombre de trames précédentes sur lesquelles le signal de parole ne présente pas d'activité vocale dans la-.a measure AB I n I, J, -. of the noise variability reflects the varia ce of the noise estimator. It is obtained as a function of the values of S ^ • and of B n , - calculated for a certain number of previous frames on which the speech signal does not present any vocal activity in the
bande i. C'est une fonction des écarts S n-k,i - B n-k,i calculés pour un nombre K de trames de silence (n-k≤n) . Dans l'exemple représenté, cette fonction est simplement le maximum (bloc 50) . Pour chaque trame n, le degré d'activité vocale γ I-.I, 1• est comparé à un seuil (bloc 51)band i. It is a function of the deviations S n-k, i - B n-k, i calculated for a number K of frames of silence (n-k≤n). In the example shown, this function is simply the maximum (block 50). For each frame n, the degree of voice activity γ I-.I, 1 • is compared to a threshold (block 51)
pour décider si l'écart Π, calculé en 52-53, doit
Figure imgf000018_0001
ou non être chargé dans une file d'attente 54 de K emplacements organisée en mode premier entré-premier sorti
to decide whether the difference Π, calculated in 52-53, must
Figure imgf000018_0001
or not be loaded into a queue 54 of K locations organized in first-in-first-out mode
(FIFO) . Si γ II, 1• ne dépasse pas le seuil (qui peut être égal à 0 si la fonction g() a la forme de la figure 5), la FIFO 54 n'est pas alimentée, tandis qu'elle l'est dans le cas contraire. La valeur maximale contenue dans la FIFO 54 est alors fournie comme mesure de variabilité
Figure imgf000018_0002
.
(FIFO). If γ II, 1 • does not exceed the threshold (which can be equal to 0 if the function g () has the form of figure 5), FIFO 54 is not supplied, while it is in the opposite case. The maximum value contained in FIFO 54 is then provided as a measure of variability
Figure imgf000018_0002
.
La mesure de variabilité AB I"lfJ,.- peut, en variante, être obtenue en fonction des valeurs S„ (et non Sn • ) etThe measure of variability AB I "l f J, .- can, as a variant, be obtained as a function of the values S„ (and not S n •) and
B n„,ι, . On procède alors de la même manière, sauf que la FIFOB n „, ι, . We then proceed in the same way, except that the FIFO
54 contient non pas sn-k,i Bn-kfi pour chacune des bandes54 does not contain s nk, i B nk f i for each of the bands
i , mais plutôt max S n-k,f ~~ Bn-kfi f [f(i-l) ,f(i)[ Grâce aux estimations indépendantes des fluctuations à long terme du bruit B n,ι et de sa 99/14739i, but rather max S nk, f ~~ B n-kfi f [f (il), f (i) [Thanks to independent estimates of long-term fluctuations in noise B n, ι and its 99/14739
- 17 -- 17 -
variabilité à court terme Δβnif-,L , l'estimateur majore Bn*f-_I procure une excellente robustesse aux bruits musicaux du procédé de débruitage.short-term variability Δβ n if-, L, the major estimator B n * f -_I provides excellent robustness to the musical noises of the denoising process.
Une première phase de la soustraction spectrale est réalisée par le module 55 représenté sur la figure 1. Cette pnase fournit, avec la résolution des bandes iA first phase of the spectral subtraction is carried out by the module 55 shown in FIG. 1. This pnase provides, with the resolution of the bands i
(l≤i≤I), la réponse en fréquence H Inlf±. d'un premier filtre(l≤i≤I), the frequency response HI n l f ±. of a first filter
de debruitage, en fonction des composantes S I-,l , 1. et 2nf-.I etnoise reduction, depending on the components S I-, l, 1. and 2 nf -.I and
1 des coefficients de surestimation α Inlf ... Ce calcul peut être effectue pour chaque bande i selon la formule :1 of the overestimation coefficients α I n lf ... This calculation can be carried out for each band i according to the formula:
Figure imgf000019_0001
où τ4 est un retard entier déterminé tel que τ4>0 (par exemple τ4=0) . Dans l'expression (7), le coefficient β"^ représente, comme le coefficient βp de la formule (3) , un plancher servant classiquement a éviter les valeurs négatives ou trop faibles du signal débruité.
Figure imgf000019_0001
where τ4 is a determined integer delay such that τ4> 0 (for example τ4 = 0). In expression (7), the coefficient β " ^ represents, like the coefficient βp of formula (3), a floor conventionally used to avoid negative or too low values of the denoised signal.
De façon connue (EP-A-0 534 837) , le coefficientIn known manner (EP-A-0 534 837), the coefficient
1 de surestimation α Inlf±, pourrait être remplacé dans la formule (7) par un autre coefficient égal à une fonction de θin ι et d'une estimation du rapport signal-sur-bruit1 of overestimation α I n lf ±, could be replaced in formula (7) by another coefficient equal to a function of θi n ι and an estimate of the signal-to-noise ratio
(par exemple S_ 11,/ X J. B Inlf JJ- , cette fonction étant décroissante selon la valeur estimée du rapport signal-sur-bruit . Cette fonction est alors égale à n 2 pour les valeurs les plus faibles du rapport signal-sur-brui . En effet, lorsque le signal est très bruité, il n'est a priori pas utile de diminuer le facteur de surestimation. Avantageusement, cette fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal/bruit . Ceci permet de protéger les zones les plus énergétiques du spectre, où le signal - lî de parole est le plus significatif, la quantité soustraite du signal tendant alors vers zéro.(for example S_ 11, / X J. BI n lf JJ-, this function decreasing according to the estimated value of the signal-to-noise ratio. This function is then equal to n 2 for the lowest values of the signal- In fact, when the signal is very noisy, it is not a priori useful to reduce the overestimation factor. Advantageously, this function decreases towards zero for the highest values of the signal / noise ratio. protect the most energetic areas of the spectrum, where the signal - speech is the most significant, the quantity subtracted from the signal then tending towards zero.
Cette stratégie peut être affinée en l'appliquant de manière sélective aux harmoniques de la fréquence tonale (« pitch ») du signal de parole lorsque celui-ci présente une activité vocale.This strategy can be refined by applying it selectively to the harmonics of the pitch frequency of the speech signal when it has vocal activity.
Ainsi, dans la réalisation représentée sur la figure 1, une seconde phase de débruitage est réalisée par un module 56 de protection des harmoniques. Ce module calcule, avec la résolution de la transformée de Fourier, la réponse en fréquence Hn f d'un second filtre deThus, in the embodiment shown in FIG. 1, a second denoising phase is carried out by a module 56 for protecting harmonics. This module calculates, with the resolution of the Fourier transform, the frequency response H n f of a second filter of
deoruitage en fonction des paramètres Hn α n,ι B n,ι V __ et de la fréquence tonale fp-F Q/T p calculée en dehors des phases de silence par un module d'analyse harmonique 57. En phase de silence (δ =0) , le module 56 n'est pas endeoruitage as a function of the parameters H n α n, ι B n, ι V __ and of the tonal frequency fp-F Q / T p calculated outside the phases of silence by a harmonic analysis module 57. In phase of silence ( δ = 0), module 56 is not in
service, c' est-à-dire que H ln,f ' H "rtifi pour chaque fréquence f d'une bande i. Le module 57 peut appliquer toute méthode connue d'analyse du signal de parole de la trame pour déterminer la période T , exprimée comme un nombre entier ou fractionnaire d'échantillons, par exemple une méthode de prédiction linéaire.service, that is to say that H l n, f ' H "rti f i for each frequency f of a band i. The module 57 can apply any known method of analysis of the speech signal of the frame for determine the period T, expressed as an integer or fractional number of samples, for example a linear prediction method.
La protection apportée par le module 56 peut consister à effectuer, pour chaque fréquence f appartenant à une bande i :The protection provided by the module 56 may consist in carrying out, for each frequency f belonging to a band i:
Figure imgf000020_0001
Figure imgf000020_0001
Δf=F /N représente la résolution spectrale de laΔf = F / N represents the spectral resolution of the
transformée de Fourier. Lorsque Hny ~ 1 ' la quantité soustraite de la composante Snn, fi sera nulle. Dans ceFourier transform. When H ny ~ 1 'the quantity subtracted from the component S n n, f i will be zero. In this
calcul, les coefficients de plancher β 22 (par exemple 1 β2 =β. ) expriment le fait que certaines harmoniques de la fréquence tonale f peuvent être masquées par du bruit, de sorte qu'il n'est pas utile de les protéger.calculation, the floor coefficients β 2 2 (for example 1 β 2 = β. ) express the fact that certain harmonics of the tonal frequency f can be masked by noise, so that it is not useful to protect them.
Cette stratégie de protection est de préférence Ξ appliquée pour chacune des fréquences les plus proches oes harmoniques de f , c'est-à-dire pour η entier quelconque.This protection strategy is preferably Ξ applied for each of the frequencies closest to the harmonic frequencies of f, that is to say for any arbitrary integer.
Si on désigne par δf la resolution fréquentielle avec laquelle le module d'analyse 57 produit la fréquence tonale estimée f , c'est-à-dire que la fréquence tonaleIf we designate by δf the frequency resolution with which the analysis module 57 produces the estimated tone frequency f, that is to say that the tone frequency
A réelle est comprise entre et f
Figure imgf000021_0001
P+δf„P/2, alors l'écart entre la η-ieme harmonique de la fréquence tonale réelle est son estimation fn (condition (9) ) peut aller jusqu'à ±ηxδf /2. Pour les valeurs élevées de η, cet écart peut être supérieur à la demi-résolution spectrale Δf/2 de .5 la transformée de Fourier. Pour tenir compte de cette incertitude et garantir la bonne protection des harmoniques de la fréquence tonale réelle, on peut protéger chacune des fréquences de l'intervalle ηxfp- ηxδjf /2 , ηxf ' + ηxδi /2 , c'est-à-dire remplacer la condition (9) ci-dessus par :
A real is between and f
Figure imgf000021_0001
P + δf „P / 2, then the difference between the η-th harmonic of the real tone frequency is its estimate f n (condition (9)) can go up to ± ηxδf / 2. For high values of η, this difference can be greater than the spectral half-resolution Δf / 2 of .5 the Fourier transform. To take account of this uncertainty and to guarantee the good protection of the harmonics of the real tonal frequency, one can protect each of the frequencies of the interval ηxf p - ηxδjf / 2, ηxf ' + ηxδi / 2, i.e. replace condition (9) above with:
3η entier / f - η. f ≤ η. δf + Δx /2 9'3η integer / f - η. f ≤ η. δf + Δx / 2 9 '
Cette façon de procéder (condition (9')) présente un intérêt particulier lorsque les valeurs de η peuvent être grandes, notamment dans le cas où le procédé est utilisé 5 dans un système à bande élargie.This procedure (condition (9 ')) is of particular interest when the values of η can be large, in particular in the case where the method is used in a wide band system.
Pour chaque fréquence protégée, la réponse en fréquence corrigée Hn ^ peut être égale à 1 comme indique ci-dessus, ce qui correspond à la soustraction d'une quantité nulle dans le cadre de la soustraction spectrale, 0 c'est-à-dire à une protection complète de la fréquence en question. Plus généralement, cette réponse en fréquence corrigée Hπt.A f pourrait être prise égale a une valeurFor each protected frequency, the corrected frequency response H n ^ can be equal to 1 as indicated above, which corresponds to the subtraction of a zero quantity within the framework of spectral subtraction, 0 i.e. tell a full protection of the frequency in question. More generally, this frequency response corrected Hπt.A f could be taken equal to a value
comprise entre 1 et Hn f selon le degré de protection souhaite, ce qui correspond à la soustraction d'une quantité inférieure à celle qui serait soustraite si la fréquence en question n'était pas protégée.between 1 and H n f depending on the degree of protection desired, which corresponds to the subtraction of a quantity less than that which would be subtracted if the frequency in question was not protected.
Les composantes spectrales 5 Inl fJ f. d'un signal debruite sont calculées par un multiplieur 58 :The spectral components 5 I n l f J f . of a noise signal are calculated by a multiplier 58:
Figure imgf000022_0001
Figure imgf000022_0001
22
Ce signal Sn f est fourni a un module 60 qui calcule, pour chaque trame n, une courbe de masquage en appliquant un modèle psychoacoustique de perception auditive par l'oreille humaine.This signal S nf is supplied to a module 60 which calculates, for each frame n, a masking curve by applying a psychoacoustic model of auditory perception by the human ear.
Le phénomène de masquage est un principe connu du fonctionnement de l'oreille humaine. Lorsque deux fréquences sont entendues simultanément, il est possible que l'une des deux ne soit plus audible. On dit alors qu'elle est masquée.The masking phenomenon is a known principle of the functioning of the human ear. When two frequencies are heard simultaneously, one of them may no longer be heard. We then say that it is masked.
Il existe différentes méthodes pour calculer des courbes de masquage. On peut par exemple utiliser celle développée par J.D. Johnston («Transform Codmg of Audio Signais Usmg Perceptual Noise Cπteria », IEEE Journal on Selected Area m Communications, Vol. 6, No. 2, février 1988). Dans cette méthode, on travaille dans l'échelle fréquentielle des barks . La courbe de masquage est vue comme la convolution de la fonction d'étalement spectral de la membrane basilaire dans le domaine bark avec le signal excitateur, constitué dans la présente application par le signal Sn ^ . La fonction d'étalement spectral peut être modélisée de la manière représentée sur la figure 7. Pour chaque bande de bark, on calcule la contribution des bandes inférieures et supérieures convoluées par la fonction d'étalement de la membrane basilaire : Cn'q (U)
Figure imgf000023_0001
où les indices q et q' désignent les bandes de bark q,q'<Q), et S - 2
There are different methods for calculating masking curves. One can for example use the one developed by JD Johnston ("Transform Codmg of Audio Signais Usmg Perceptual Noise Cπteria", IEEE Journal on Selected Area m Communications, Vol. 6, No. 2, February 1988). In this method, we work in the frequency scale of the barks. The masking curve is seen as the convolution of the spectral spreading function of the basilar membrane in the bark domain with the excitatory signal, constituted in the present application by the signal S n ^. The spectral spreading function can be modeled as shown in Figure 7. For each bark band, we calculate the contribution of the upper and lower bands convoluted by the spreading function of the basilar membrane: Cn ' q (U)
Figure imgf000023_0001
where the indices q and q 'denote the bands of bark q, q'<Q), and S - 2
0< 20 <2
5nn,g „'< représente la moyenne des composantes 5 n n , g „'<represents the mean of the components
22
Sn f du signal excitateur débruité pour les rrequences discrètes f appartenant à la bande de bark q' .S n f of the excitation signal denoised for the discrete rrequences f belonging to the bark band q '.
Le seuil de masquage „
Figure imgf000023_0002
q est obtenu par le module
The masking threshold „
Figure imgf000023_0002
q is obtained by the module
60 pour chaque bande de bark q, selon la formule :
Figure imgf000023_0003
où R dépend du caractère plus ou moins voisé du signal. De façon connue, une forme possible de R est :
60 for each bark q band, according to the formula:
Figure imgf000023_0003
where R depends on the more or less voiced character of the signal. As is known, a possible form of R is:
10.1og10(Rq) = (A+q) .χ + B.(l-χ) (13) avec A=14,5 et B=5,5. χ désigne un degré de voisement du signal de parole, variant entre zéro (pas de voisement) et10.1og 10 (R q ) = (A + q) .χ + B. (l-χ) (13) with A = 14.5 and B = 5.5. χ denotes a degree of voicing of the speech signal, varying between zero (no voicing) and
1 (signal fortement voisé) . Le paramètre χ peut être de la forme connue :1 (strongly voiced signal). The parameter χ can be of the known form:
Figure imgf000023_0005
- minfcf SFM
Figure imgf000023_0004
où SFM représente, en décibels, le rapport entre la moyenne arithmétique et la moyenne géométrique de l'énergie des bandes de bark, et SFM^ ==-60 dB. Le système de débruitage comporte encore un module
Figure imgf000023_0005
- min fcf SFM
Figure imgf000023_0004
where SFM represents, in decibels, the ratio between the arithmetic mean and the geometric mean of the energy of the bark bands, and SFM ^ == - 60 dB. The denoising system also includes a module
62 qui corrige la réponse en fréquence du filtre de débruitage, en fonction de la courbe de masquage M62 which corrects the frequency response of the denoising filter, as a function of the masking curve M
calculée par le module 60 et des estimations majorées B 1n1,1• calculées par le module 45. Le module 62 décide du niveau de débruitage qui doit réellement être atteint.calculated by module 60 and increased estimates B 1 n 1.1 • calculated by module 45. Module 62 decides the level of denoising which must really be achieved.
En comparant l'enveloppe de l'estimation majorée du bruit avec l'enveloppe formée par les seuils de masquage q, on décide de ne débruiter le signal que
Figure imgf000023_0006
dans la mesure où l'estimation majorée Bn ^ dépasse la courbe de masquage. Ceci évite de supprimer inutilement du bruit masque par de la parole.
By comparing the envelope of the estimate increased by the noise with the envelope formed by the masking thresholds q, it is decided to denoise the signal only
Figure imgf000023_0006
insofar as the increased estimate B n ^ exceeds the masking curve. This avoids unnecessarily removing masked noise with speech.
33
La nouvelle réponse Hn f , pour une fréquence f appartenant à la bande i définie par le module 12 et a la bande de bark q, dépend ainsi de l'écart relatif entre l'estimation majorée Bn de la composante spectrale correspondante du bruit et la courbe de masquage
Figure imgf000024_0001
v_<_ . de la manière suivante :
The new response H nf , for a frequency f belonging to the band i defined by the module 12 and to the bark band q, thus depends on the relative difference between the increased estimate B n of the corresponding spectral component of the noise and the masking curve
Figure imgf000024_0001
v_ < _. as follows :
Figure imgf000024_0002
Figure imgf000024_0002
En d'autres termes, la quantité soustraite d'une composante spectrale Sn f, dans le processus de soustraction spectrale ayant la réponse fréquentielleIn other words, the quantity subtracted from a spectral component S nf , in the process of spectral subtraction having the frequency response
H n 3 f , est sensiblement égale au minimum entre d'une part la quantité soustraite de cette composante spectrale dans le processus de soustraction spectrale ayant la réponse fréquentielle Hn f , et d'autre part la fraction deH n 3 f , is substantially equal to the minimum between on the one hand the quantity subtracted from this spectral component in the process of spectral subtraction having the frequency response H n f, and on the other hand the fraction of
l'estimation majorée Bn de la composante spectrale correspondante du bruit qui, le cas échéant, dépasse la courbe de masquage M-il, q_. La figure 8 illustre le principe de la correction appliquée par le module 62. Elle montre schématiquement un exemple de courbe de masquage M,n., q calculée sur la basethe increased estimate B n of the corresponding spectral component of the noise which, if necessary, exceeds the masking curve M-il, q_. FIG. 8 illustrates the principle of the correction applied by the module 62. It schematically shows an example of a masking curve M, n., Q calculated on the basis
2 des composantes spectrales Sn ^ du signal débruité, ainsi2 of the spectral components S n ^ of the denoised signal, thus
que l'estimation majorée B InlfJ,. du spectre du bruit. La quantité finalement soustraite des composantes Sn, r sera celle représentée par les zones hachurées, c'est-à-dire limitée à la fraction de l'estimation majorée B . des composantes spectrales du bruit qui dépasse la courbe de masquage . Cette soustraction est effectuée en multipliant lathan the increased estimate BI n l f J ,. of the noise spectrum. The quantity finally subtracted from the components Sn, r will be that represented by the hatched areas, that is to say limited to the fraction of the increased estimate B. spectral components of the noise that exceeds the masking curve. This subtraction is done by multiplying the
3 réponse fréquentielle Hn f du filtre de débruitage par les composantes spectrales Sn, fi du signal de parole3 frequency response H n f of the denoising filter by the spectral components Sn, f i of the speech signal
(multiplieur 64). Un module 65 reconstruit alors le signal debruite dans le domaine temporel, en opérant la transformée de Fourier rapide inverse (TFRI) inverse des(multiplier 64). A module 65 then reconstructs the noise signal in the time domain, by operating the inverse fast Fourier transform (TFRI) of the
3 échantillons de fréquence Sn f délivrés par le multiplieur3 frequency samples S n f delivered by the multiplier
64. Peur chaque trame, seuls les N/2=128 premiers échantillons du signal produit par le module 65 sont64. Fear each frame, only the N / 2 = 128 first samples of the signal produced by the module 65 are
3 délivres comme signal débruité final s , après reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente (module 66) .3 deliveries as final denoised signal s, after reconstruction by addition-recovery with the N / 2 = 128 last samples of the previous frame (module 66).
La figure 9 montre une forme de réalisation préférée d'un système de débruitage mettant en œuvre l'invention. Ce système comporte un certain nombre d'éléments semblables à des éléments correspondants du système de la figure 1, pour lesquels on a utilisé les mêmes références numériques. Ainsi, les modules 10, 11,FIG. 9 shows a preferred embodiment of a denoising system implementing the invention. This system comprises a certain number of elements similar to corresponding elements of the system of FIG. 1, for which the same reference numbers have been used. So, modules 10, 11,
12, 15, 16, 45 et 55 fournissent notamment les quantités S, l_l / Jη- , B i.lf-.L , α I„lfJ,. , B I„lfJ,. et H 1„ 1 fj -_r pour effectuer le debruitage sélectif.12, 15, 16, 45 and 55 provide in particular the quantities S, l_l / J η -, B i.lf-.L, α I „lfJ ,. , BI „lfJ ,. and H 1 „1 fj -_r to perform the selective denoising.
La résolution en fréquence de la transformée deThe frequency resolution of the transform of
Fourier rapide 11 est une limitation du système de la figure 1. En effet, la fréquence faisant l'objet de la protection par le module 56 n'est pas nécessairement la fréquence tonale précise f , mais la fréquence la plus proche de celle-ci dans le spectre discret. Dans certains cas, on peut alors protéger des harmoniques relativement éloignées de celle de la fréquence tonale. Le système de la figure 9 pallie cet inconvénient grâce à un conditionnement approprié du signal de parole.Fast Fourier 11 is a limitation of the system of FIG. 1. In fact, the frequency subject to protection by the module 56 is not necessarily the precise tone frequency f, but the frequency closest to it. in the discrete spectrum. In some cases, it is then possible to protect harmonics relatively far from that of the tone frequency. The system of FIG. 9 overcomes this drawback thanks to an appropriate conditioning of the speech signal.
Dans ce conditionnement, on modifie la fréquence d'échantillonnage du signal de telle sorte que la période 1/f couvre exactement un nombre entier de temps d'échantillon du signal conditionne. De nombreuses méthodes d' analyse harmonique pouvant être mises en œuvre par le module 57 sont capables de fournir une valeur fractionnaire du retard T , exprime en nomore d'échantillons à la fréquence d'échantillonnage initiale F . On choisit alors une nouvelle fréquence d' échantillonnage f de telle sorte qu' elle soit égale a un multiple entier de la fréquence tonale estimée, soit F
Figure imgf000026_0001
ti, avec p entier. Afin de ne pas perdre d'échantillons de signal, il convient que f soit supérieure à F . On peut notamment imposer qu'elle soit comprise entre FΩ et 2F (1<K<2), pour faciliter la mise en œuvre du conditionnement.
In this conditioning, the sampling frequency of the signal is modified so that the period 1 / f covers exactly an integer number of sample times of the conditioned signal. Many methods of harmonic analysis that can be implemented by the module 57 are capable of providing a fractional value of the delay T, expressed as a number of samples at the initial sampling frequency F. A new sampling frequency f is then chosen so that it is equal to an integer multiple of the estimated tone frequency, ie F
Figure imgf000026_0001
ti, with whole p. In order not to lose signal samples, f should be greater than F. One can in particular impose that it is between F Ω and 2F (1 <K <2), to facilitate the implementation of the conditioning.
Bien entendu, si aucune activité vocale n'est détectée sur la trame courante (δn≠0) , ou si le retard T estimé par le module 57 est entier, il n'est pas nécessaire de conditionner le signal.Of course, if no voice activity is detected on the current frame (δ n ≠ 0), or if the delay T estimated by the module 57 is entire, it is not necessary to condition the signal.
Afin que chacune des harmoniques de la fréquence tonale corresponde également à un nombre entier d'échantillons du signal conditionné, l'entier p doit être un diviseur de la taille N de la fenêtre de signal produite par le module 10 : N=αp, avec α entier. Cette taille N est usuellement une puissance de 2 pour la mise en œuvre de la TFR. Elle est de 256 dans l'exemple considéré . La résolution spectrale Δf de la transformée deSo that each of the harmonics of the tone frequency also corresponds to an integer number of samples of the conditioned signal, the integer p must be a divider of the size N of the signal window produced by the module 10: N = αp, with α integer. This size N is usually a power of 2 for the implementation of the TFR. It is 256 in the example considered. The spectral resolution Δf of the transform of
Fourier discrète du signal conditionné est donnée par Δf=p.f /N=f /α. On a donc intérêt à choisir p petit de façon a maximiser α, mais suffisamment grand pour suréchantillonner . Dans l'exemple considéré, ou F =8 kHz et N=256, les valeurs choisies pour les paramètres p et α sont indiquées dans le tableau I. 500 Hz < f < 1000 Hz 8 < T < 16 ir P = 16 α = 16Discrete Fourier of the conditioned signal is given by Δf = pf / N = f / α. It is therefore advantageous to choose p small so as to maximize α, but large enough to oversample. In the example considered, or F = 8 kHz and N = 256, the values chosen for the parameters p and α are indicated in table I. 500 Hz <f <1000 Hz 8 <T <16 ir P = 16 α = 16
250 Hz < f < 500 Hz 16 < T < 32 P = 32 α = 8250 Hz <f <500 Hz 16 <T <32 P = 32 α = 8
125 Hz < f < 250 Hz 32 < T < 64 P = 64 α = 4125 Hz <f <250 Hz 32 <T <64 P = 64 α = 4
62, 5 Hz < f < 125 Hz 64 < T < 128 P = 128 α = 262.5 Hz <f <125 Hz 64 <T <128 P = 128 α = 2
31, 25 Hz < f < 62,5 Hz 128 < T < 256 P = 256 α = 131, 25 Hz <f <62.5 Hz 128 <T <256 P = 256 α = 1
Tableau ITable I
Ce choix est effectué par un module 70 selon la valeur du retardThis choice is made by a module 70 according to the value of the delay
'P fournie par le module d'analyse harmonique 57. Le module 70 fournit le rapport K entre les fréquences d' échantillonnage à trois modules de changement de fréquence 71, 72, 73. ' P provided by the harmonic analysis module 57. The module 70 provides the ratio K between the sampling frequencies to three frequency change modules 71, 72, 73.
Le module 71 sert à transformer les valeurs S Jn„,i'The module 71 is used to transform the values S J n „, i '
B n,ι ' α"/,.,! ' Bn,i et H n,f relatives aux bandes i définies par le module 12, dans l'échelle des fréquences modifiées fréquence d'échantillonnage f Cette transformation consiste simplement à dilater les bandes i dans le facteur K. Les valeurs ainsi transformées sont fournies au module 56 de protection des harmoniques.B n, ι 'α " /,.,!' B n, i and H n, f relating to the bands i defined by the module 12, in the scale of the modified frequencies sampling frequency f This transformation consists simply in dilate the bands i in factor K. The values thus transformed are supplied to module 56 for protection of harmonics.
Celui-ci opère alors de la même manière que précédemment pour fournir la réponse en fréquence
Figure imgf000027_0001
du
This then operates in the same way as above to provide the frequency response
Figure imgf000027_0001
of
2 filtre de débruitage. Cette réponse Hn est obtenue de la même manière que dans le cas de la figure 1 (conditions2 denoising filter. This response H n is obtained in the same way as in the case of FIG. 1 (conditions
(8) et (9)), à cette différence près que, dans la condition (9), la fréquence tonale f =f /p est définie(8) and (9)), except that in condition (9), the tone frequency f = f / p is defined
P " selon la valeur du retard entier p fourni par le module 70, la résolution en fréquence Δf étant également fournie par ce module 70.P "according to the value of the entire delay p supplied by the module 70, the frequency resolution Δf also being supplied by this module 70.
Le module 72 procède au suréchantillonnage de la trame de N échantillons fournie par le module de fenêtrage 10. Le suréchantillonnage dans un facteur K rationnel (K=K1/K2) consiste à effectuer d'abord un suréchantillonnage dans le facteur entier Kl, puis un sous-échantillonnage dans le facteur entier K2. Ces suréchantillonnage et sous-échantillonnage dans des facteurs entiers peuvent être effectués classiquement au moyen de bancs de filtres polyphasé.The module 72 proceeds to oversampling the frame of N samples provided by the windowing module 10. Oversampling in a rational factor K (K = K1 / K2) consists in first carrying out an oversampling in the integer factor K1, then a sub-sampling in the integer factor K2. These oversampling and subsampling in whole factors can be carried out conventionally by means of polyphase filter banks.
La trame de signal conditionné s' fournie par le module 72 comporte KN échantillons à la fréquence f . Ces échantillons sont adressés à un module 75 qui calcule leur transformée de Fourier. La transformation peut être effectuée à partir de deux blocs de N=256 échantillons : l'un constitué par les N premiers échantillons de la trame de longueur KN du signal conditionné s', et l'autre par les N derniers échantillons de cette trame. Les deux blocs présentent donc un recouvrement de (2-K)xl00%. Pour chacun des deux blocs, on obtient un jeu de composantes de Fourier S_ Il - . Ces composantes S_II f J sont fournies au multiplieur 58, qui les multiplie par la réponse spectrale Hn 2 f pour délivrer les composantes spectrales Sn? ψ du premier signal débruité.The conditioned signal frame supplied by the module 72 includes KN samples at the frequency f. These samples are sent to a module 75 which calculates their Fourier transform. The transformation can be carried out from two blocks of N = 256 samples: one consisting of the first N samples of the frame of length KN of the conditioned signal s', and the other of the last N samples of this frame. The two blocks therefore have an overlap of (2-K) xl00%. For each of the two blocks, we obtain a set of Fourier components S_ Il -. These components S_II f J are supplied to the multiplier 58, which multiplies them by the spectral response H n 2 f to deliver the spectral components S n ? ψ of the first denoised signal.
Ces composantes Sn f sont adressées au module 60 qui calcule les courbes de masquage de la manière précédemment indiquée. De préférence, dans ce calcul des courbes de masquage, la grandeur χ désignant le degré de voisement du signal de parole (formule (13)) est prise de la forme χ=l-H, où H est une entropie de l'autocorrélation des composantes spectrales Sn f du signal conditionné débruité. Les autocorrélations A(k) sont calculées par un module 76, par exemple selon la formule : N/2-1These components S n f are addressed to the module 60 which calculates the masking curves in the manner previously indicated. Preferably, in this calculation of the masking curves, the quantity χ designating the degree of voicing of the speech signal (formula (13)) is taken from the form χ = 1H, where H is an entropy of the autocorrelation of the spectral components S n f of the denoised conditioned signal. The autocorrelations A (k) are calculated by a module 76, for example according to the formula: N / 2-1
Sn,f ' Sn,f+k f=0S n, f ' S n, f + kf = 0
A(k) = 2_ι tf/2_ι (15) A ( k ) = 2 _ι tf / 2_ι (15)
Σ Σ sn,f• sn,f+r f=0 =oΣ Σ s n, f • s n, f + rf = 0 = o
Un module 77 calcule ensuite l'entropie normaliséeA module 77 then calculates the normalized entropy
H, et la fournit au module 60 pour le calcul de la courbe de masquage (voir S.A. McClellan et al : « Spectral Entropy : an Alternative Indicator for RateH, and provides it to module 60 for the calculation of the masking curve (see S.A. McClellan et al: “Spectral Entropy: an Alternative Indicator for Rate
Allocation ? », Proc. ICASSP'94, pages 201-204) :Allocation ? ", Proc. ICASSP'94, pages 201-204):
N/2-1 ∑ A(k) . log[A(λ)] k=0N / 2-1 ∑ A (k). log [A (λ)] k = 0
H = (16) log (N/2)H = (16) log (N / 2)
Grâce au conditionnement du signal, ainsi qu'à son débruitage par le filtre Hn f , l'entropie normalisée H constitue une mesure de voisement très robuste au bruit et aux variations de la fréquence tonale.Thanks to the conditioning of the signal, as well as to its denoising by the filter H n f, the standardized entropy H constitutes a measurement of voicing very robust to noise and variations in the tonal frequency.
Le module de correction 62 opère de la même manière que celui du système de la figure 1, en tenant compte du bruit surestimé Bn ^ remis à l'échelle par le module de changement de fréquence 71. Il fournit la réponse en fréquence Hn ^ du filtre de debruitage définitif, qui est multipliée par les composantes spectrales Snn, r du signal conditionné par le multiplieurThe correction module 62 operates in the same way as that of the system in FIG. 1, taking into account the overestimated noise B n ^ resized by the frequency change module 71. It provides the frequency response H n ^ of the final noise reduction filter, which is multiplied by the spectral components Sn n , r of the signal conditioned by the multiplier
33
64. Les composantes Sn f -11 en résultent sont ramenées dans le domaine temporel par le module de TFRI 65. En sortie de cette TFRI 65, un module 80 combine, pour chaque trame, les deux blocs de signal issus du traitement des deux blocs recouvrants délivrés par la TFR 75. Cette combinaison peut consister en une somme avec pondération de Hamming des échantillons, pour former une trame de signal conditionné débruité de KΝ échantillons. Le signal conditionné débruité fourni par le module 80 fait l'objet d'un changement de fréquence d'échantillonnage par le module 73. Sa fréquence d'échantillonnage est ramenée à F =f /K par les opérations inverses de celles effectuées par le module 75. Le module 73 délivre N=256 échantillons par trame. Apres la reconstruction par addition-recouvrement avec les N/2=128 derniers échantillons de la trame précédente, seuls les N/2=128 premiers échantillons de la trame courante sont finalement conservés pour former le signal debrαite final64. The resulting components S n f - 11 are brought back into the time domain by the module of TFRI 65. At the output of this TFRI 65, a module 80 combines, for each frame, the two signal blocks resulting from the processing of the two overlapping blocks delivered by TFR 75. This combination can consist of a sum with Hamming weighting of the samples, to form a denoised conditioned signal frame of KΝ samples. The noise-reduced conditioned signal supplied by the module 80 is subject to a change in sampling frequency by the module 73. Its sampling frequency is reduced to F = f / K by the operations opposite to those carried out by the module 75. The module 73 delivers N = 256 samples per frame. After the reconstruction by addition-overlap with the N / 2 = 128 last samples of the previous frame, only the N / 2 = 128 first samples of the current frame are finally kept to form the final debrαite signal
3 s (module 66) .3 s (module 66).
Dans une forme de réalisation préférée, un moduleIn a preferred embodiment, a module
82 gère les fenêtres formées par le module 10 et sauvegardées par le module 66, de façon telle qu'on sauvegarde un nombre M d'échantillons égal à un multiple entier de . On évite ainsi les problèmes de
Figure imgf000030_0001
discontinuité de phase entre les trames. De façon correspondante, le module de gestion 82 commande le module de fenêtrage 10 pour que le recouvrement entre la trame courante et la prochaine corresponde à N-M. Il sera tenu de ce recouvrement de N-M échantillons dans la somme a recouvrement effectuée par le module 66 lors du traitement de la prochaine trame. A partir de la valeur de T fournie par le module d'analyse harmonique 57, le module 82 calcule le nombre d'échantillons à sauvegarder
82 manages the windows formed by the module 10 and saved by the module 66, so that a number M of samples is saved equal to an integer multiple of. This avoids the problems of
Figure imgf000030_0001
phase discontinuity between the frames. Correspondingly, the management module 82 controls the windowing module 10 so that the overlap between the current frame and the next one corresponds to NM. This recovery of NM samples will be required in the recovery sum carried out by the module 66 during the processing of the next frame. From the value of T provided by the harmonic analysis module 57, the module 82 calculates the number of samples to be saved
M=T xE [N/ (2T ) ] , E[] désignant la partie entière, et commande de façon correspondante les modules 10 et 66.M = T xE [N / (2T)], E [] designating the whole part, and correspondingly controls the modules 10 and 66.
Dans le mode de réalisation qu'on vient de décrire, la fréquence tonale est estimée de façon moyenne sur la trame. Or la fréquence tonale peut varier quelque peu sur cette durée. Il est possible de tenir compte de ces variations dans le cadre de la présente invention, en conditionnant le signal de façon à obtenir artificiellement une fréquence tonale constante dans la trame.In the embodiment which has just been described, the tonal frequency is estimated on an average basis on the frame. However, the tonal frequency may vary somewhat over this period. It is possible to take these variations into account in the context of the present invention, by conditioning the signal so as to artificially obtain a constant tone frequency in the frame.
Pour cela, on a besoin que le module 57 d'analyse harmonique fournisse les intervalles de temps entre les ruptures consécutives du signal de parole attπbuables a des fermetures de la glotte du locuteur intervenant pendant la durée de la trame. Des méthodes utilisables pour détecter de telles micro-ruptures sont bien connues dans le domaine de l'analyse harmonique des signaux de paroles. On pourra à cet égard consulter les articles suivants : M. BASSEVILLE et al., « Sequential détection of abrupt changes m spectral characteristics of digital signais », IEEE Trans. on Information Theory, 1983, Vol. IT-29, n°5, pages 708-723 ; R. ANDRE-OBRECHT, « A new statistical approach for the automatic segmentation of cont ucus speech signais », IEEE Trans. on Acous . , Speech and Sig. Proc, Vol. 36, N°l, janvier 1988 ; et C. MURGIA et al., « An algoπthm for the estimation of giottal closure instants usmg the sequential détection of abrupt changes m speech signais », Signal Processing VII, 1994, pages 1685-1688.For this, we need that the harmonic analysis module 57 provide the time intervals between the consecutive ruptures of the speech signal attπbuables at closings of the glottis of the intervening speaker for the duration of the frame. Methods usable for detecting such micro-ruptures are well known in the field of harmonic analysis of speech signals. In this regard, we can consult the following articles: M. BASSEVILLE et al., “Sequential detection of abrupt changes m spectral characteristics of digital signais”, IEEE Trans. on Information Theory, 1983, Vol. IT-29, No. 5, pages 708-723; R. ANDRE-OBRECHT, "A new statistical approach for the automatic segmentation of cont ucus speech signais", IEEE Trans. on Acous. , Speech and Sig. Proc, Vol. 36, No. 1, January 1988; & C. MURGIA et al., “An algoπthm for the estimation of giottal closure instants usmg the sequential detection of abrupt changes m speech signais”, Signal Processing VII, 1994, pages 1685-1688.
Le principe de ces méthodes est d'effectuer un test statistique entre deux modèles, l'un à court terme et l'autre à long terme. Les deux modèles sont des modèles adaptatifs de prédiction linéaire. La valeur de ce test statistique wm. est la somme cumulée du rapport de vraisemblance a posteriori de deux distributions, corrigée par la divergence de Kullback. Pour une distribution de résidus ayant une statistique gaussienne, cette valeur w.m est donnée par :The principle of these methods is to perform a statistical test between two models, one in the short term and the other in the long term. Both models are adaptive linear prediction models. The value of this statistical test wm. is the cumulative sum of the posterior likelihood ratio of two distributions, corrected by the Kullback divergence. For a distribution of residuals having a Gaussian statistic, this value w.m is given by:
Figure imgf000031_0001
ou et σ .2 représentent le résidu calculé au moment de l'échantillon m de la trame et la variance du modèle à long terme, em1 et σ2-|_ représentant de même le résidu et la variance du modèle à court terme. Plus les deux modèles sont proches, plus la valeur wm du test statistique est proche de 0. Par contre, lorsque les deux modèles sont éloignés l'un de l'autre, cette valeur wm devient négative, ce qui dénote une rupture R du signal.
Figure imgf000031_0001
where and σ .2 represent the residue calculated at the time of sample m of the frame and the variance of the long-term model, e m 1 and σ2- | _ similarly representing the residual and the variance of the short-term model. The closer the two models are, the closer the wm value of the statistical test to 0. On the other hand, when the two models are distant from each other, this value w m becomes negative, which indicates a break R of the signal.
La figure 10 montre ainsi un exemple possible d' évolution de la valeur w , montrant les ruptures R du signai de parole. Les intervalles de temps tFIG. 10 thus shows a possible example of evolution of the value w, showing the breaks R of the speech signal. The time intervals t
(r = 1,2,...) entre deux ruptures consécutives R sont calculés, et exprimés en nombre d'échantillons du signal de parole. Chacun de ces intervalles t est inversement proportionnel à la fréquence tonale f , qui est ainsi estimée localement : f D =F e/tr sur le r-ième intervalle.(r = 1,2, ...) between two consecutive breaks R are calculated, and expressed in number of samples of the speech signal. Each of these intervals t is inversely proportional to the tone frequency f, which is thus estimated locally: f D = F e / t r over the r-th interval.
On peut alors corriger les variations temporelles de la fréquence tonale (c'est-à-dire le fait que les intervalles t ne sont pas tous égaux sur une trame donnée), afin d'avoir une fréquence tonale constante dans chacune des trames d'analyse. Cette correction est effectuée par une modification de la fréquence d'échantillonnage sur chaque intervalle t , de façon à obtenir, après suréchantillonnage, des intervalles constants entre deux ruptures glottiques. On modifie donc la durée entre deux ruptures en faisant un suréchantillonnage dans un rapport variable, de façon à se caler sur l'intervalle le plus grand. De plus, on fait en sorte de respecter la contrainte de conditionnement selon laquelle la fréquence de suréchantillonnage est multiple de la fréquence tonale estimée.We can then correct the temporal variations of the tone frequency (that is to say the fact that the intervals t are not all equal on a given frame), in order to have a constant tone frequency in each of the frames of analysis. This correction is carried out by modifying the sampling frequency over each interval t, so as to obtain, after oversampling, constant intervals between two glottal breaks. The duration between two breaks is therefore modified by oversampling in a variable ratio, so as to lock in on the largest interval. In addition, care is taken to comply with the conditioning constraint that the oversampling frequency is a multiple of the estimated tone frequency.
La figure 11 montre les moyens utilisés pour calculer le conditionnement du signal dans ce dernier cas. Le module 57 d'analyse harmonique est réalisé de façon à mettre en œuvre la méthode d'analyse ci-dessus, et à fournir les intervalles t relatifs à la trame de signal produite par le module 10. Pour chacun de ces intervalles, le module 70 (bloc 90 sur la figure 11) calcule le rapport de suréchantillonnage Kr=pr/tr, où l'entier pr est donné par la troisième colonne du tableau I lorsque t prend les valeurs indiquées dans la deuxième colonne. Ces rapports de suréchantillonnage Kr sont fournis aux modules de changement de fréquence 72 et 73, pour que les interpolations soient effectuées avec le rapport d'échantillonnage K sur l'intervalle de temps correspondant t .FIG. 11 shows the means used to calculate the conditioning of the signal in the latter case. The harmonic analysis module 57 is produced so as to implement the above analysis method, and to provide the intervals t relative to the signal frame produced by the module 10. For each of these intervals, the module 70 (block 90 in FIG. 11) calculates the oversampling ratio K r = p r / t r , where the integer p r is given by the third column of table I when t takes the values indicated in the second column. These reports oversampling K r are supplied to the frequency change modules 72 and 73, so that the interpolations are carried out with the sampling ratio K over the corresponding time interval t.
Le plus grand T des intervalles de temps t fournis par le module 57 pour une trame est sélectionne par le module 70 (bloc 91 sur la figure 11) pour obtenir un couple p,α comme indique dans le tableau I. La fréquence d'échantillonnage modifiée est alors fe =P-F Θ/τ D comme précédemment, la résolution spectrale Δf de la transformée de Fourier discrète du signal conditionné étant toujours donnée par Δf=Fe/(α.Tp) . Pour le module de changement de fréquence 71, le rapport de suréchantillonnage K est donné par K=p/T (bloc 92). Le module 56 de protection des harmoniques de la fréquence tonale opère de la même manière que précédemment, en utilisant pour la condition (9) la résolution spectrale Δf fournie par le bloc 91 et la fréquence tonale f -f /p définie selon la valeur du retard entier p fournie P *- par le bloc 91.The largest T of the time intervals t supplied by the module 57 for a frame is selected by the module 70 (block 91 in FIG. 11) to obtain a torque p, α as indicated in table I. The sampling frequency modified is then f e = P- F Θ / τ D as before, the spectral resolution Δf of the discrete Fourier transform of the conditioned signal being always given by Δf = Fe / (α.Tp). For the frequency change module 71, the oversampling ratio K is given by K = p / T (block 92). The module 56 for protecting the harmonics of the tone frequency operates in the same manner as above, using for condition (9) the spectral resolution Δf provided by the block 91 and the tone frequency f -f / p defined according to the value of the integer delay p supplied P * - by block 91.
Cette forme de réalisation de l'invention implique également une adaptation du module 82 de gestion des fenêtres. Le nombre M d'échantillons du signal débruité a sauvegarder sur la trame courante correspond ici à un nombre entier d'intervalles de temps t consécutifs entre deux ruptures glottiques (voir figure 10) . Cette disposition évite les problèmes de discontinuité de phase entre trames, tout en tenant compte des variations possibles des intervalles de temps t sur une trame. This embodiment of the invention also involves an adaptation of the window management module 82. The number M of samples of the denoised signal to be saved on the current frame here corresponds to an integer number of consecutive time intervals t between two glottal breaks (see FIG. 10). This arrangement avoids the problems of phase discontinuity between frames, while taking into account the possible variations of the time intervals t on a frame.

Claims

R E V E N D I C A T I O N S
1. Procédé de debruitage d'un signal de parole numérique (s) traité par trames successives, dans lequel :1. A method of denoising a digital speech signal (s) processed by successive frames, in which:
- on effectue une analyse harmonique du signal de parole pour estimer une fréquence tonale (f ) du signal de parole sur chaque trame où il présente une activité vocale ;a harmonic analysis of the speech signal is carried out to estimate a tonal frequency (f) of the speech signal on each frame where it exhibits vocal activity;
- on calcule des composantes spectrales (S- II,, ^i.,- we compute spectral components (S- II ,, ^ i.,
S ) du signal de parole sur chaque trame ; - on calcule pour chaque trame des estimations de composantes spectrales du bruit compris dans le signal de parole ;S) the speech signal on each frame; - For each frame, the spectral components of the noise included in the speech signal are calculated;
- on effectue une soustraction spectrale comportant au moins une étape consistant a soustraire respectivement, de chaque composante spectrale du signal de parole sur la trame (S ) , une quantité dépendant de paramètres incluant au moins l'estimation de la composante spectrale correspondante du bruit pour ladite trame et la valeur de la fréquence tonale estimée ; et - on applique au résultat de la soustraction spectrale une transformation vers le domaine temporel poura spectral subtraction is carried out comprising at least one step consisting in respectively subtracting, from each spectral component of the speech signal on the frame (S), a quantity depending on parameters including at least the estimation of the corresponding spectral component of the noise for said frame and the value of the estimated tone frequency; and - a transformation to the time domain is applied to the result of the spectral subtraction for
3 construire un signal de parole débruité (s ) .3 build a noisy speech signal (s).
2. Procédé selon la revendication 1, dans lequel on utilise la valeur de la fréquence tonale estimée (f ) pour sélectionner des fréquences protégées parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, et dans lequel, pour soustraire d'une composante spectrale donnée (Sn, rA du signal de parole, on adopte une quantité plus faible si ladite composante spectrale correspond à une fréquence protégée que si ladite composante spectrale ne correspond pas à une fréquence protégée.2. Method according to claim 1, in which the value of the estimated tonal frequency (f) is used to select protected frequencies from the set of frequencies for which spectral components of the speech signal are calculated, and in which for subtract from a given spectral component (Sn, rA of the speech signal, a smaller quantity is adopted if said spectral component corresponds to a protected frequency than if said spectral component does not correspond to a protected frequency.
3. Procédé selon la revendication 2, dans lequel les fréquences protégées sont sélectionnées de façon que la composante spectrale du signal de parole correspondant a chaque fréquence protégée dépasse un niveau de bruit déterminé à partir de l'estimation correspondante de la composante spectrale du bruit.3. Method according to claim 2, in which the protected frequencies are selected so that the spectral component of the speech signal corresponding to each protected frequency exceeds a noise level determined from the corresponding estimate of the spectral component of the noise.
4. Procédé selon la revendication 2 ou 3, dans lequel chaque fréquence protégée est, parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, la plus proche d'un multiple entier de la fréquence tonale estimée (f ) .4. Method according to claim 2 or 3, in which each protected frequency is, among the set of frequencies for which spectral components of the speech signal are calculated, the closest to an integer multiple of the estimated tonal frequency (f ).
5. Procédé selon la revendication 2 ou 3, dans lequel chaque fréquence protégée est, parmi l'ensemble des fréquences pour lesquelles on calcule des composantes spectrales du signal de parole, la plus proche d'une fréquence d'un intervalle de la forme ηxfp- ηxδ ' /2 , r\xf + ηxδi /2 f désignant la fréquence tonale estimée, δf désignant la résolution en fréquence de l'estimation de la fréquence tonale, et η désignant un entier, et dans lequel5. Method according to claim 2 or 3, in which each protected frequency is, among the set of frequencies for which spectral components of the speech signal are calculated, the closest to a frequency of an interval of the form ηxfp - ηxδ ' / 2, r \ xf + ηxδi / 2 f denoting the estimated tonal frequency, δf denoting the frequency resolution of the estimation of the tonal frequency, and η denoting an integer, and in which
6. Procédé selon l'une quelconque des revendications 2 à 5, dans lequel la quantité soustraite de la composante spectrale (Sn„, yr du signal de parole à une fréquence protégée est sensiblement nulle.6. Method according to any one of claims 2 to 5, wherein the amount subtracted from the spectral component (Sn „, yr of the speech signal at a protected frequency is substantially zero.
7. Procédé selon l'une quelconque des revendications 1 à 6, dans lequel, après avoir estimé la fréquence tonale (f ) du signal de parole sur une trame, on conditionne le signal de parole de la trame en le surechantillonnant a une fréquence de suréchantillonnage (f ) multiple de la fréquence tonale estimée, et on calcule les composantes spectrales (S-n-, r) du signal de parole sur la trame sur la base du signal conditionné (s') pour leur soustraire lesdites quantités. /147397. Method according to any one of claims 1 to 6, in which, after having estimated the tonal frequency (f) of the speech signal on a frame, the speech signal of the frame is conditioned by oversampling it at a frequency of oversampling (f) multiple of the estimated tone frequency, and the spectral components (Sn-, r) of the speech signal on the frame are calculated on the basis of the conditioned signal (s') to subtract said quantities from them. / 14739
- 34 -- 34 -
8. Procédé selon la revendication 7, dans lequel on calcule des composantes spectrales (S I_I,, f) du signal de parole en distribuant le signal conditionné (s') par blocs de N échantillons soumis à une transformation dans le domaine fréquentiel, et dans lequel le rapport (p) entre la fréquence de suréchantillonnage (f ) et la fréquence tonale estimée est un diviseur du nombre N.8. Method according to claim 7, in which spectral components (S I_I ,, f ) of the speech signal are calculated by distributing the conditioned signal (s') by blocks of N samples subjected to a transformation in the frequency domain, and in which the ratio (p) between the oversampling frequency (f) and the estimated tone frequency is a divisor of the number N.
9. Procède selon la revendication 7 ou 8, dans lequel on estime un degré de voisement (χ) du signal de parole sur la trame à partir d'un calcul de l'entropie (H) de l'autocorrélation des composantes spectrales calculées sur la base du signal conditionné.9. Method according to claim 7 or 8, in which a degree of voicing (χ) of the speech signal on the frame is estimated from a calculation of the entropy (H) of the autocorrelation of the spectral components calculated over the basis of the conditioned signal.
10. Procédé selon la revendication 9, dans lequel10. The method of claim 9, wherein
2 lesdites composantes spectrales ( Sn ) dont on calcule l'autocorrélation (H) sont celles calculées sur la base du signal conditionné (s' ) après soustraction desdites quantités .2 said spectral components (S n ) for which the autocorrelation (H) is calculated are those calculated on the basis of the conditioned signal (s') after subtracting said quantities.
11. Procédé selon la revendication 9 ou 10, dans lequel le degré de voisement (χ) est mesuré a partir une entropie normalisée H de la forme :11. Method according to claim 9 or 10, in which the degree of voicing (χ) is measured from a normalized entropy H of the form:
N/2-1N / 2-1
∑ A(k) . log[A(k)] k=0 H = — log (N/2) où Ν est le nombre d'échantillons utilisés pour calculer les composantes spectrales (S_ II., Ψ1) sur la base du signal conditionné ( s ' ) , et A ( k) est l ' autocorrélation normalisée définie par :∑ A (k). log [A (k)] k = 0 H = - log (N / 2) where Ν is the number of samples used to calculate the spectral components (S_ II., Ψ 1) based on the conditioned signal (s' ), and A (k) is the normalized autocorrelation defined by:
N/2-1N / 2-1
2-, sn,f- sn,f+k f=0 A(k) N/2-1 N/2-12-, s n, f- s n, f + kf = 0 A (k) N / 2-1 N / 2-1
Σ ∑ Sn,f- Sn,f+F 5^ désignant la composante spectrale de rang f calculée sur la base du signal conditionné.Σ ∑ S n, f- S n, f + F 5 ^ designating the spectral component of rank f calculated on the basis of the conditioned signal.
12. Procédé selon l'une quelconque des revendications précédentes, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) égal à un multiple entier de fois le rapport (T ) entre la fréquence d'échantillonnage (F ) et ι~ ^- la fréquence tonale estimée (f ) .12. Method according to any one of the preceding claims, in which, after the processing of each frame, a number of samples (M) equal to a multiple is preserved among the samples of the noise-suppressed speech signal provided by this processing. integer of times the ratio (T) between the sampling frequency (F) and ι ~ ^ - the estimated tonal frequency (f).
13. Procédé selon l'une quelconque des revendications 1 à 11, dans lequel l'estimation de la fréquence tonale du signai de parole sur une trame comporte les étapes suivantes :13. Method according to any one of claims 1 to 11, in which the estimation of the tonal frequency of the speech signal on a frame comprises the following steps:
- on estime des intervalles de temps (t ) entre deux ruptures consécutives (R) du signal attribuables à des fermetures de la glotte du locuteur intervenant pendant la durée de la trame, la fréquence tonale estimée étant inversement proportionnelle auxdits intervalles de temps ; - on interpole le signal de parole dans lesdits intervalles de temps, afin que le signal conditionné (s' ) résultant de cette interpolation présente un intervalle de temps constant entre deux ruptures consécutives.- Estimated time intervals (t) between two consecutive breaks (R) of the signal attributable to closures of the glottis of the speaker intervening during the duration of the frame, the estimated tone frequency being inversely proportional to said time intervals; - the speech signal is interpolated in said time intervals, so that the conditioned signal (s') resulting from this interpolation has a constant time interval between two consecutive breaks.
14. Procédé selon la revendication 13, dans lequel, après le traitement de chaque trame, on conserve, parmi les échantillons du signal de parole débruité fournis par ce traitement, un nombre d'échantillons (M) correspondant à un nombre entier d'intervalles de temps estimés (t ) .14. The method as claimed in claim 13, in which, after the processing of each frame, a number of samples (M) corresponding to an integer number of intervals is preserved among the samples of the noise-suppressed speech signal provided by this processing. estimated time (t).
15. Procédé selon l'une quelconque des revendications précédentes, dans lequel on estime dans le domaine spectral des valeurs d'un rapport signal-sur-bruit que présente le signal de parole sur chaque trame, et dans lequel les paramètres dont dépendent les quantités soustraites incluent les valeurs estimées du rapport signal-sur-bruit, la quantité soustraite de cnaque composante spectrale du signal de parole sur la trame étant une fonction décroissante de la valeur estimée correspondante du rapport signal-sur-bruit .15. Method according to any one of the preceding claims, in which the values in a signal-to-noise ratio that the speech signal presents on each frame are estimated in the spectral domain, and in which the parameters on which the quantities depend subtracted include estimated ratio values signal-to-noise, the amount subtracted from each spectral component of the speech signal on the frame being a decreasing function of the corresponding estimated value of the signal-to-noise ratio.
16. Procède selon la revendication 15, dans lequel ladite fonction décroît vers zéro pour les valeurs les plus élevées du rapport signal-sur-bruit .16. The method of claim 15, wherein said function decreases towards zero for the highest values of the signal-to-noise ratio.
17. Procédé selon l'une quelconque des revendications précédentes, dans lequel des composantes spectrales ( S^ j ) d'un signal débruité, obtenues en soustrayant lesdites quantités des composantes spectrales (S_n_, fr) du signal de parole, sont utilisées pour calculer une courbe de masquage (Mil, y en appliquant un modèle de perception auditive .17. Method according to any one of the preceding claims, in which spectral components (S ^ j ) of a noise-suppressed signal, obtained by subtracting said quantities from the spectral components (S_n_, f r) of the speech signal, are used to calculate a masking curve (Mil, y by applying an auditory perception model.
18. Procédé selon les revendications 11 et 17, dans lequel le calcul de la courbe de masquage (M-n,, yq fait intervenir le degré de voisement (χ) mesuré par l'entropie normalisée H.18. The method of claims 11 and 17, wherein the calculation of the masking curve (M-n ,, yq involves the degree of voicing (χ) measured by the normalized entropy H.
19. Procédé selon la revendication 17 ou 18, dans lequel les paramètres dont dépend la quantité soustraite d'une composante spectrale (S_ y du signal de parole sur une trame incluent un écart entre une estimation majorée19. The method of claim 17 or 18, wherein the parameters on which depends the amount subtracted from a spectral component (S_ y of the speech signal on a frame include a difference between an increased estimate
Λ 1 Λ 1
( Bn ) de la composante spectrale correspondante du bruit et la courbe de masquage calculée (Mn, q) .(B n ) of the corresponding spectral component of the noise and the calculated masking curve (Mn, q).
20. Procédé selon la revendication 19, dans lequel on compare les estimations majorées ( Bn ∑ ) des composantes spectrales du bruit pour une trame à la courbe de masquage calculée (M„n, q_) , et dans lequel la quantité soustraite d'une composante spectrale (Sn_, i) du signal de parole,20. The method of claim 19, wherein comparing the increased estimates (B n ∑ ) of the spectral components of noise for a frame to the calculated masking curve (M „n, q_), and wherein the amount subtracted from a spectral component (Sn_, i) of the speech signal,
3 pour l'obtention des composantes ( Sn f ) soumises à la transformation vers le domaine temporel, est limitée à la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage .3 for obtaining the components (S nf ) subject to the transformation to the time domain, is limited to the fraction of the estimate increased by the corresponding spectral component of the noise which exceeds the masking curve.
21. Procédé selon l'une quelconque des revendications précédentes, dans lequel la soustraction spectrale comporte :21. Method according to any one of the preceding claims, in which the spectral subtraction comprises:
- une première étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S I_I, f1) du signal de parole sur la trame, une première quantité dépendant de paramètres incluant une estimation majorée ( B I_l ±_ ) de la composante spectrale correspondante du bruit pour ladite trame et la fréquence tonale estimée (fD)' de manière à obtenir des composantes- a first subtraction step in which, respectively, from each spectral component (S I_I, f 1) of the speech signal on the frame is subtracted, a first quantity depending on parameters including an increased estimate (B I_l ± _) of the component corresponding spectral noise for said frame and the estimated tone frequency (f D ) 'so as to obtain components
2 spectrales ( Sn ^ ) d'un premier signal débruité ; 2 spectral (S n ^) of a first denoised signal;
- le calcul d'une courbe de masquage (M_il, q_) en appliquant un modèle de perception auditive à partir des- the calculation of a masking curve (M_il, q_) by applying a model of auditory perception from
2 composantes spectrales ( Sn ^ ) du premier signal débruité ;2 spectral components (S n ^) of the first denoised signal;
^ t^ t
- la comparaison des estimations majorées (B Inl η- ) des composantes spectrales du bruit pour la trame à la courbe de masquage calculée (M-n,, q ; et- the comparison of the increased estimates (BI n l η -) of the spectral components of the noise for the frame with the calculated masking curve (Mn ,, q; and
- une seconde étape de soustraction dans laquelle on soustrait respectivement, de chaque composante spectrale (S_ II, 1 Ψ) du signal de parole sur la trame, une seconde quantité égale au minimum entre ladite première quantité correspondante et la fraction de l'estimation majorée de la composante spectrale correspondante du bruit qui dépasse la courbe de masquage, de manière a obtenir- a second subtraction step in which each second spectral component (S_ II, 1 Ψ ) of the speech signal on the frame is subtracted respectively, a second quantity equal to the minimum between said first corresponding quantity and the fraction of the increased estimate of the corresponding spectral component of the noise which exceeds the masking curve, so as to obtain
3 des composantes spectrales ( Sn f ) d'un second signal débruité soumises à la transformation vers le domaine temporel . 3 of the spectral components (S nf ) of a second denoised signal subjected to the transformation towards the time domain.
22. Procède selon l'une quelconque des revendications précédentes, dans lequel chaque les estimations de composantes spectrales du bruit prises en compte dans la soustraction spectrale sont des estimations majorées,22. Method according to any one of the preceding claims, in which each the estimate of spectral components of the noise taken into account in the spectral subtraction are increased estimates,
Λ 1 chaque estimation majorée ( B- 1,1,1. ) d'une composante spectrale du bruit compris dans le signal de parole étant obtenue en combinant une estimation à long terme ( B Inl /JA. de ladite composante spectrale du bruit, et une mesure (
Figure imgf000040_0001
) de la variabilité de ladite composante spectrale du bruit autour de son estimation à long terme.
Λ 1 each increased estimate (B- 1,1,1.) Of a spectral component of the noise included in the speech signal being obtained by combining a long-term estimate (BI n l / JA. Of said spectral component of the noise , and a measure (
Figure imgf000040_0001
) of the variability of said spectral component of noise around its long-term estimate.
23. Procède selon la revendication 22, dans lequel l'estimation à long terme Bn d'une composante spectrale du bruit sur une trame n, correspondant à une fréquence incluse dans une bande i, est calculée sous la forme :23. The method as claimed in claim 22, in which the long-term estimate B n of a spectral component of the noise over a frame n, corresponding to a frequency included in a band i, is calculated in the form:
Bn,ι = n,ι- Bn-lfι + ^ n^ • Bnfι B n, ι = n , ι- B nl f ι + ^ n ^ • B n f ι
ou B ιl = λB. Bn_lfl + (l-λβ) . Sn/1 ,or B ιl = λ B. B n _ lfl + (l-λ β ). S n / 1 ,
yn ι désigne un degré d'activité vocale non binaire du signal de parole, déterminé pour la trame n relativement a la bande de fréquences i, Sn -, désigne une moyenne de l'amplitude du spectre du signal de parole de la trame n sur la bande i, et λβ désigne un facteur d'oubli.y n ι denotes a degree of non-binary vocal activity of the speech signal, determined for the frame n relative to the frequency band i, S n -, denotes an average of the amplitude of the spectrum of the speech signal of the frame n on the band i, and λ β denotes a forgetting factor.
24. Procédé selon la revendication 23, dans lequel les degrés d'activité vocale (γ Inl,±,) pour la trame n sont détermines en procédant a un débruitage a priori du signal de parole de la trame n sur la base d'estimations du bruit αn-τl v Bn-τl i ) obtenues lors d'au moins une trame précédente, et en analysant les variations d'énergie du signal débruité a priori. 24. The method of claim 23, wherein the degrees of voice activity (γ I n l, ±,) for the frame n are determined by carrying out a priori denoising of the speech signal of the frame n on the basis of 'noise estimates α n-τl v B n-τl i) obtained during at least one previous frame, and by analyzing the energy variations of the noise-suppressed signal a priori.
25. Procédé selon la revendication 24, dans lequel le degré d'activité vocale (γ InlfJ7.) relativement à une bande de fréquences i est une fonction variant continûment entre 0 et 1.25. The method of claim 24, wherein the degree of vocal activity (γ I n l f J 7. ) Relative to a frequency band i is a function varying continuously between 0 and 1.
26. Procédé selon la revendication 24 ou 25, dans lequel on calcule une estimation à long terme ( En -,_ ) de l'énergie du signal débruité a priori dans la bande de fréquence i, et on compare cette estimation à long terme à une estimation instantanée (E_ II, 1. ) de cette énergie, calculée sur la trame n, pour obtenir le degré d'activité vocale (γ ,) du signal de parole pour la trame n dans la bande de fréquence i .26. The method as claimed in claim 24 or 25, in which a long-term estimate (E n -, _) of the energy of the noise-suppressed signal is calculated a priori in the frequency band i, and this long-term estimate is compared. to an instantaneous estimate (E_ II, 1.) of this energy, calculated over frame n, to obtain the degree of vocal activity (γ,) of the speech signal for frame n in the frequency band i.
27. Procédé selon l'une quelconque des revendications 23 à 26, dans lequel la mesure (
Figure imgf000041_0001
) de la variabilité d'une composante spectrale du bruit autour de son estimation à long terme ( B n ι ) pour une trame n, ladite composante spectrale correspondant à une fréquence incluse dans une bande i, est une fonction des écarts
27. Method according to any one of claims 23 to 26, in which the measurement (
Figure imgf000041_0001
) of the variability of a spectral component of the noise around its long-term estimate ( B n ι ) for a frame n, said spectral component corresponding to a frequency included in a band i, is a function of the deviations
S n-k, i B n-k,i calculés pour un nombre donné de trames n-k < n sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i.S n-k, i B n-k, i calculated for a given number of frames n-k <n on which the speech signal does not present any vocal activity in the band i.
28. Procédé selon l'une quelconque des revendications 23 à 26, dans lequel la mesure ( AB 11,a1;x ) de la variabilité d'une composante spectrale du bruit autour de son estimation à long terme ( Bn ) pour une trame n, ladite composante spectrale correspondant à une fréquence incluse dans une bande i, est une fonction des écarts maximum max sn-k,f Bn-kfi calculés pour un nombre donné de f e[f(ι-l) ,fU)[ trames n-k≤n sur lesquelles le signal de parole ne présente pas d'activité vocale dans la bande i, S„n_Ku, fr désignant la composante spectrale correspondant à une fréquence f pour la trame n-k, et l'intervalle de fréquences [j(i-l) , f(i)[ correspondant à la bande i. 28. Method according to any one of claims 23 to 26, in which the measurement (AB 11, a 1; x ) of the variability of a spectral component of the noise around its long-term estimate (B n ) for a frame n, said spectral component corresponding to a frequency included in a band i, is a function of the maximum deviations max s nk, f B nk f i calculated for a given number of fe [f (ι-l), fU) [ nk≤n frames on which the speech signal has no voice activity in the band i, S „n_K u , f r denoting the spectral component corresponding to a frequency f for the frame nk, and the frequency interval [ j (il), f (i) [corresponding to band i.
PCT/FR1998/001981 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal WO1999014739A1 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2000512196A JP2001516902A (en) 1997-09-18 1998-09-16 How to suppress noise in digital audio signals
AU91690/98A AU9169098A (en) 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal
EP98944000A EP1016073B1 (en) 1997-09-18 1998-09-16 Method and apparatus for suppressing noise in a digital speech signal
DE69804329T DE69804329T2 (en) 1997-09-18 1998-09-16 METHOD AND DEVICE FOR NOISE REDUCTION OF A DIGITAL VOICE SIGNAL
BR9812655-5A BR9812655A (en) 1997-09-18 1998-09-16 Process of eliminating noise from a numerical speech signal
CA002304015A CA2304015A1 (en) 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR97/11642 1997-09-18
FR9711642A FR2768546B1 (en) 1997-09-18 1997-09-18 METHOD FOR NOISE REDUCTION OF A DIGITAL SPOKEN SIGNAL

Publications (1)

Publication Number Publication Date
WO1999014739A1 true WO1999014739A1 (en) 1999-03-25

Family

ID=9511229

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR1998/001981 WO1999014739A1 (en) 1997-09-18 1998-09-16 Method for suppressing noise in a digital speech signal

Country Status (10)

Country Link
EP (1) EP1016073B1 (en)
JP (1) JP2001516902A (en)
CN (1) CN1276896A (en)
AU (1) AU9169098A (en)
BR (1) BR9812655A (en)
CA (1) CA2304015A1 (en)
DE (1) DE69804329T2 (en)
ES (1) ES2174484T3 (en)
FR (1) FR2768546B1 (en)
WO (1) WO1999014739A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8045718B2 (en) 2006-03-28 2011-10-25 France Telecom Method for binaural synthesis taking into account a room effect

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2379550A (en) * 2001-09-11 2003-03-12 Barrington Dyer Printed code recording and playing system, for music, speech and sounds
WO2006032760A1 (en) * 2004-09-16 2006-03-30 France Telecom Method of processing a noisy sound signal and device for implementing said method
WO2010111876A1 (en) * 2009-03-31 2010-10-07 华为技术有限公司 Method and device for signal denoising and system for audio frequency decoding
CN101859569B (en) * 2010-05-27 2012-08-15 上海朗谷电子科技有限公司 Method for lowering noise of digital audio-frequency signal
CN104251934B (en) * 2013-06-26 2018-08-14 华为技术有限公司 Harmonic analysis method and device and the method and apparatus for determining clutter between harmonic wave
CN114038473A (en) * 2019-01-29 2022-02-11 桂林理工大学南宁分校 Interphone system for processing single-module data
CN109817241B (en) * 2019-02-18 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 Audio processing method, device and storage medium
CN116580712B (en) * 2023-07-14 2023-09-15 深圳攀高医疗电子有限公司 Voice processing method, voice processing system and waist therapeutic instrument

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0438174A2 (en) * 1990-01-18 1991-07-24 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5228088A (en) * 1990-05-28 1993-07-13 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5469087A (en) * 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5555190A (en) * 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0438174A2 (en) * 1990-01-18 1991-07-24 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5228088A (en) * 1990-05-28 1993-07-13 Matsushita Electric Industrial Co., Ltd. Voice signal processor
US5469087A (en) * 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
US5555190A (en) * 1995-07-12 1996-09-10 Micro Motion, Inc. Method and apparatus for adaptive line enhancement in Coriolis mass flow meter measurement

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LE BOUQUIN: "Enhancement of noisy speech signals: Application to mobile radio communications", SPEECH COMMUNICATION, vol. 18, no. 1, January 1996 (1996-01-01), AMSTERDAM, NL, pages 3-19, XP004008920 *
LOCKWOOD ET AL.: "Experiments with a Nonlinear Spectral Subtractor (NSS), Hidden Markov Models and the projection, for robust speech recognition in cars", SPEECH COMMUNICATION, vol. 11, no. 2/3, 1 June 1992 (1992-06-01), AMSTERDAM, NL, pages 215 - 228, XP000279184 *
NANDKUMAR ET AL.: "Speech enhancement based on a new set of auditory constrained parameters", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, SIGNAL PROCESSING (ICASSP 1994), vol. 1, 19 April 1994 (1994-04-19) - 22 April 1994 (1994-04-22), ADELAIDE, AU, pages 1 - 4, XP000529345 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8045718B2 (en) 2006-03-28 2011-10-25 France Telecom Method for binaural synthesis taking into account a room effect

Also Published As

Publication number Publication date
EP1016073B1 (en) 2002-03-20
DE69804329D1 (en) 2002-04-25
DE69804329T2 (en) 2002-11-14
CA2304015A1 (en) 1999-03-25
FR2768546A1 (en) 1999-03-19
JP2001516902A (en) 2001-10-02
AU9169098A (en) 1999-04-05
CN1276896A (en) 2000-12-13
BR9812655A (en) 2000-08-22
EP1016073A1 (en) 2000-07-05
ES2174484T3 (en) 2002-11-01
FR2768546B1 (en) 2000-07-21

Similar Documents

Publication Publication Date Title
EP1016072B1 (en) Method and apparatus for suppressing noise in a digital speech signal
EP1789956B1 (en) Method of processing a noisy sound signal and device for implementing said method
EP1356461B1 (en) Noise reduction method and device
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
EP2002428B1 (en) Method for trained discrimination and attenuation of echoes of a digital signal in a decoder and corresponding device
EP0918317B1 (en) Frequency filtering method using a Wiener filter applied to noise reduction of audio signals
EP1016071B1 (en) Method and apparatus for detecting speech activity
EP2772916B1 (en) Method for suppressing noise in an audio signal by an algorithm with variable spectral gain with dynamically adaptive strength
JP5752324B2 (en) Single channel suppression of impulsive interference in noisy speech signals.
EP1016073B1 (en) Method and apparatus for suppressing noise in a digital speech signal
EP0490740A1 (en) Method and apparatus for pitch period determination of the speech signal in very low bitrate vocoders
JP2003280696A (en) Apparatus and method for emphasizing voice
EP1021805B1 (en) Method and apparatus for conditioning a digital speech signal
WO2016038316A1 (en) Discrimination and attenuation of pre-echoes in a digital audio signal
EP2515300B1 (en) Method and system for noise reduction
EP4287648A1 (en) Electronic device and associated processing method, acoustic apparatus and computer program
FR3051958A1 (en) METHOD AND DEVICE FOR ESTIMATING A DEREVERBERE SIGNAL
FR2878399A1 (en) Soundproofing device for e.g. global system for mobile communication system, of e.g. car, has units to apply weight function to coherence between signals captured by microphones, to limit voice signal distortion and suppress estimated noise

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 98810358.3

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GE GH GM HR HU ID IL IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2304015

Country of ref document: CA

Ref document number: 2304015

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1998944000

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: KR

WWE Wipo information: entry into national phase

Ref document number: 09509151

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1998944000

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWG Wipo information: grant in national office

Ref document number: 1998944000

Country of ref document: EP