CN1325529A

CN1325529A - 用于语音编码的自适应规则

Info

Publication number: CN1325529A
Application number: CN99812785A
Authority: CN
Inventors: E·埃库登; R·哈根
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-09-01
Filing date: 1999-08-06
Publication date: 2001-12-05
Anticipated expiration: 2019-08-06
Also published as: EP1114414B1; DE69906330T2; CN1192357C; WO2000013174A1; CA2342353A1; BR9913292B1; US6192335B1; TW440812B; AU774998B2; RU2223555C2; AU5888799A; JP2002524760A; ZA200101666B; EP1114414A1; CA2342353C; AR027812A1; KR100421648B1; BR9913292A; DE69906330D1; JP3483853B2

Abstract

在根据原始语音产生多个据此能重构原始语音信号近似值的参数的过程中,对应于原始语音信号可以产生另一个信号,该信号趋向于表示原始语音信号。至少其中一个参数是利用原始语音信号和另一个信号之间的第一差值和第二差值确定的(69,71)。第一差值是与原始语音信号相关的波形和与另一个信号相关的波形之间的差值,第二差值是根据原始语音信号得到的能量参数和与另一个信号相关的对应能量参数之间的差值。

Description

用于语音编码的自适应规则

发明领域

本发明通常涉及语音编码，更特别的，涉及用于以降低后的比特率容置类似噪声信号的改进的编码准则。

发明背景

很多现代语音编码器是基于一些用于产生编码语音信号的模型。该模型的信号和参数被量化，描述它们的信息在信道上传送。蜂窝电话应用中的主编码器模型是码激励线性预测(CELP)技术。

传统的CELP解码器在图1中描述。编码语音信号是由经过一般阶数为10的全极点合成滤波器传送的激励信号产生的。该激励信号由两个信号ca和cf相加形成，这两个信号被从各自的码书(一个固定，一个自适应)中选取出来并被乘以适当的增益因子ga和gf。码书信号通常长5ms(一个子帧)，而合成滤波器通常每20ms更新一次(一帧)。与CELP模型相关的参数是合成滤波器系数，码书纪录和增益因子。

在图2中，给出了传统的CELP编码器。CELP解码器(图1)的复本被用于为每个子帧产生候选编码信号。在21，编码信号与未编码(数字化)信号相比，加权后的误差信号被用于控制该编码过程。合成滤波器是利用线性预测(LP)确定的。这种传统的编码过程称作通过合成的线性预测分析。

如根据上面描述所理解的，LPAS编码器在加权语音域中采用波形匹配，即，误差信号被加权滤波器滤除。这可以表示为最小化下面的方差准则：

D_W=‖S_W-CS_W‖²=‖W·S-W·H·(ga·ca+gf·cf)‖² (等式1)

其中S是包含未编码语音样本的一个子帧的矢量，S_W表示S乘以加权滤波器W,ca和cf是分别来自固定码书和自适应码书的码矢量，W是执行加权滤波器操作的矩阵。H是执行合成滤波器操作的矩阵，CS_W是编码信号乘以加权滤波器W的值。传统上，用于最小化等式1的准则的编码操作是根据下面步骤执行的。

步骤1：通过线性预测来计算合成滤波器并量化滤波器系数。加权滤波被根据线性预测滤波器系数而计算。

步骤2：假定gf是0，并且ga等于最佳值，通过搜索自适应码书而找到码矢量ca来最小化等式1的D_W。因为每个码矢量ca一般与最佳值ga相关，通过将每个码矢量ca以及其相关最佳ga值插入等式1可完成搜索。

步骤3：利用在步骤2找到的码矢量ca和增益ga，通过搜索固定码书而找到码矢量cf来最小化D_W。固定增益gf被假定等于最佳值。

步骤4：增益因子ga和gf被量化。注意到如果标量量化器被使用的话，ga可以在步骤2之后被量化。

上面描述的波形匹配过程已知工作的很好，至少对于8kb/s或更高的比特率是这样的。然而，当降低比特率时，对于非周期、类似噪声的信号例如清音语音和背景噪声进行波形匹配的能力很差。对于浊音语音段，波形匹配准则仍然工作的很好，但是类似噪声信号的较差的波形匹配能力导致编码信号常常电平太低，并且导致讨厌的变化特性(如，已知为漩涡)。

对于类似噪声的信号，该技术领域中众所周知的是，最好与信号的谱特性相匹配，并且实现很好的信号电平(增益)匹配。由于线性预测合成滤波器给出信号的谱特性，上面等式1的另一可选准则可以用于类似噪声的信号：

D_{E} = {(\sqrt{E_{S}} - \sqrt{E_{CS}})}^{2}

(等式2)

其中E_S是未编码语音信号的能量，E_CS是编码信号的能量。CS=H.(ga.ca+gf.cf)。等式2意味着与等式1的波形匹配相反的能量匹配。通过包括加权滤波器W，该准则也可以用于加权语音域。注意等式2中包括了平方根操作，仅仅是为了在与等式1相同的域中得到一个准则；这是不必要的并且不会成为一种限制。还存在其它可能的能量匹配准则，如D_E=|E_S-E_CS|。

在残留域中，该准则可以表示为如下：

D_{E} = {(\sqrt{E_{r}} - \sqrt{E_{x}})}^{2}

(等式3)

其中E_r是残留信号r的能量，该信号是通过合成滤波器的返向滤波器(H^-1)对S滤波得到的，E_x是通过x=ga.ca+gf.cf给出的激励信号的能量。

上面的不同准则已经在传统的多模编码中采用了，其中不同的编码模式(例如，能量匹配)已经被用于清音语音和背景噪声。在这些模式中，能量匹配准则可以如等式2和3中那样使用。该方法的一个缺点是需要进行模式判断，例如，为浊音语音选择波形匹配模式(等式1)，为类似噪声信号如清音语音和背景噪声选择能量匹配模式(等式2或3)。模式判断比较敏感，当判断错误时，会产生讨厌的不自然现象。而且，模式之间编码策略的急剧变化会导致不期望的声音。

因此，最好是给出一种对于低比特率的类似噪声信号改进的编码方法，并且该方法没有前面提到的多模式编码的缺点。

本发明很好的组合了波形匹配和能量匹配准则以改进低比特率下类似噪声信号的编码，并且没有多模式编码的缺点。

附图简要描述

图1给出传统CELP解码器；

图2给出传统CELP编码器；

图3给出根据本发明的平衡因子；

图4给出图3平衡因子的一个具体例子；

图5给出根据本发明的示例CELP编码器的相关部分；

图6给出图5CELP编码器部分示例操作的流程图；

图7给出根据本发明的通讯系统。

详细描述

本发明将波形匹配准则和能量匹配准则合成一个准则D_WE。波形匹配和能量匹配之间的平衡由加权因子自适应地软调节：

D_WE=K·D_W+L·D_E (等式4)

其中K和L是加权因子，这些因子确定波形匹配失真D_W和能量匹配失真D_E之间的相对加权。加权因子K和L可以分别设置为1-α和α，如下所示：

D_WE=(1-α)·D_W+α·D_E (等式5)

其中α是值为0到1的平衡因子，以给出准则中波形匹配部分D_W和能量匹配部分D_E之间的平衡。在当前语音段中，α值最好是声音电平或周期性的函数，α=α(v)，其中v是声音标志。α(v)函数的原理草图在图3中给出。在声音电平低于a时，α=d，当声音电平大于b时，α=c，当声音电平位于a和b之间时，α逐渐从d降低到c。

等式5的准则可以用具体形式表示如下：

D_{WE} = (1 - α) \cdot | | S_{W} - C S_{W} | |^{2} + α \cdot (\sqrt{E_{SW}} - \sqrt{E_{CSW}})^{2}

(等式6)

其中E_SW是信号S_W的能量，E_CSW是信号C_SW的能量。

尽管上面等式6的准则或其变种可以很好地用于CELP编码器的整个编码过程，当它仅仅用于增益量化部分时会产生明显的改进(即，上面编码方法的步骤4)。尽管这里详细描述了采用等式6的准则实现量化，该准则可以用同样的方式用于ca和cf码书的搜索中。

注意到等式6的E_CSW可以表示为：

E_CSW=‖CS_W‖² (等式7)

因此等式6可以重写为：

D_{WE} = (1 - α) \cdot | | S_{W} - {CS}_{W} | |^{2} + α \cdot (\sqrt{E_{SW}} - \sqrt{| | {CS}_{W} | |^{2}})^{2}

(等式8)从等式1可以看到：

CS_W=W·H·(ga·ca+gf·cf)。 (等式9)

一旦利用例如上面的等式1和步骤1-3确定了码矢量ca和cf，下面的任务是找到对应的量化增益值。对于矢量量化，这些量化增益值作为矢量量化器的码书纪录给出。该码书包括多个纪录，每个纪录包括一对量化增益值，ga_Q和gf_Q。

将来自矢量量化器码书的所有量化增益值对ga_Q和gf_Q插入等式9，然后将每个结果CS_W插入等式8，等式8中所有可能的D_WE被计算出来.给出最小D_WE的来自矢量量化器码书的增益值对被从量化增益值中选出。

在几种现在的编码器中，预测量化被用于增益值，或至少用于固定码书增益值。这直接在等式9中引用，因为预测是在搜索之前完成的。与将码书增益值插入等式9相反的是，乘以预测增益值的码书增益被插入等式9。每个所产生的CS_W被插入等式8。

对于增益因子的标量量化，常常使用一个简单的准则，其中最佳增益被直接量化，即，如下的准则：

D_SGQ=(g_OPT-g)² (等式10)

被使用。其中D_SGQ是标量增益量化准则，g_OPT是传统上如在上面步骤2或3中确定的最佳增益(ga_OPT或gf_OPT),g是来自ga或gf标量量化器码书的量化增益值。使得D_SGQ最小化的量化增益值被选出。

在量化增益因子中，如果需要，能量匹配项可以仅仅用于固定码书增益，因为自适应码书对于类似噪声的语音段常常起很小的作用。这样，等式10的准则可以被用来量化自适应码书增益，而新准则D_gfQ被用来量化固定码书增益，即：

D_{gfQ} = (1 - α) \cdot | | cf | |^{2} \cdot {(g f_{OPT} - gf)}^{2} + α \cdot {(\sqrt{E_{r}} - \sqrt{| | g a_{Q} \cdot ca + gf \cdot cf | |^{2}})}^{2}

(等式11)

其中gf_OPT是在上面步骤3确定的最佳gf值，ga_Q是利用等式10确定的量化自适应码书增益。所有来自gf标量量化器码书的量化增益值作为gf被插入等式11，最小化D_gfQ的量化增益值被选出。

在新准则下，平衡因子α的自适应是获得好性能的关键。如前面描述的，α最好是声音电平的函数。自适应码书的编码增益是声音电平很好的标志的一个例子，声音电平确定的例子因此包括：v_v=10log₁₀(‖r‖²/‖r-ga_OPT·ca‖²) (等式12)v_s=10log₁₀(‖r‖²/‖r-ga_Q·ca‖²) (等式13)

其中v_v是用于矢量量化的声音电平侧量值，v_s是用于标量量化的声音电平测量值，r是上面定义的残留信号。

尽管利用等式12和13确定了残留域中的声音电平，还可以通过用S_W替换等式12和13中的r，并且将等式12和13中ga.ca项乘以W.H来确定例如加权语音域中的声音电平。

为了防止v值中的局部波动，可以在映射到α域之前过滤v值。例如，当前值和以前4个子帧的值的中值滤波器可以如下使用：

v_m=median(v,v_-1,v_-2,v_-3,v_-4) (等式14)

其中v_-1,v_-2,v_-3,v_-4是以前4个子帧的v值。

图4中的方程说明了从声音标志v_m映射到平衡因子α的一个例子。该函数的数学表示为

α (v_{m}) = {{0.5 - 0.25 {\cdot v}_{m}}_{0 v_{m &GreaterEqual; 2.0}}^{0.5 v_{m} \leq 0} 0 < v_{m} < 2.0

(等式15)

注意到α的最大值小于1，意味着不会发生完全的能量匹配，在准则中总是保留一些波形匹配(见等式5)。

在语音开始时，当信号能量急剧增加时，由于自适应码书并不包含相关信号，自适应码书编码增益常常很小。然而，在开始时，波形匹配很重要，因此，如果检测到开始，α被强制为0。基于最佳固定码书增益的简单开始检测可以如下使用：α(v_m)=Oifgf_OPT＞2.0·gf_OPT-1 (等式16)

其中gf_OPT-1是在上面步骤3中为以前子帧确定的最佳固定码书增益。

当α在以前子帧中为0时，限制α的增加是很有利的。当以前的α值为0时，这可以通过简单地将α值除以一个适当的数，例如2.0来实现。由于从纯粹的波形匹配向更多能量匹配的移动造成的不自然现象因此可以避免。

而且，一旦利用等式15和16确定了平衡因子α，可以很好地通过将其与以前子帧的α值平均来过滤该值。

如上面提到的，等式6(以及等式8和9)也可以用来选择自适应和固定码书矢量ca和cf。因为自适应码书矢量ca未知，等式12和13的声音侧量值无法计算，因此等式15的平衡因子α也无法计算出来。这样，为了使用等式8和9进行固定码书和自适应码书搜索，平衡因子α最好设置为已经凭经验确定的值，从而为类似噪声信号产生期望的结果。一旦已经凭经验确定了平衡因子α，那麽可以按照上面步骤1-4设定的方式进行固定码书和自适应码书搜索，但是使用了等式8和9的准则。此外，在步骤2利用经验确定α值确定了ca和ga之后，等式12-15可以用来确定一个α值，该值在步骤3的固定码书搜索中用于等式8。

图5是根据本发明的CELP语音编码器的示例部分的方框图表示。图5的编码器部分包括一个准则控制器51，该控制器有一个输入端用于接收未编码的语音信号，并被耦合用于与固定码书61和自适应码书62通讯，并且与增益量化器码书50,54和60通讯。准则控制器51能够执行所有的与图2CELP编码器设计相关的传统操作，包括实现由上面等式1-3和10表示的传统准则，并执行上面步骤1-4中描述的传统操作。

除了上面描述的传统操作之外，准则控制器51还能够实现上面描述的涉及等式4-9和11-16的操作。准则控制器51给出一个声音确定器53，其ca在上面步骤2中确定，ga_OPT(如果使用了标量量化则为ga_Q)是通过执行上面的步骤1-4确定的。准则控制器还将反向合成滤波器H^-1施加于未编码的语音信号以确定残留信号r，该信号也输入给声音确定装置53。

声音确定装置53响应上面描述的输入来根据等式12(矢量量化)或等式13(标量量化)来确定声音电平标志v。声音电平标志v被提供给滤波器55的输入端，该滤波器对声音电平标志v进行滤波操作(如上面描述的中值滤波)，因此产生滤波后的声音电平标志v_f作为输出。对于中值滤波，滤波器55可以包括一个存储器部分56，如图所示用于存储以前子帧的声音电平标志。

来自滤波器55的滤波后的声音电平标志输出vf被输入给平衡因子确定装置57。平衡因子确定装置57利用滤波后的声音电平标志v_f来确定平衡因子α，例如以上面描述的涉及等式15(其中v_m表示图5的v_f的一个具体例子)和图4的方式。准则控制器51为当前子帧向平衡因子确定装置57输入gf_OPT，该值可以存储在平衡因子确定装置57的存储器58中用于实现等式16。平衡因子确定装置还包括一个存储器59用于存储每个子帧的α值(或至少为0的α值)以便当与以前子帧相关的α值为0时，允许平衡因子确定装置57限制α的增加。

一旦准则控制器51获得了合成滤波器系数，并且采用期望的准则来确定码书矢量和相关的量化增益值，那麽标志这些参数的信息在52从准则控制器输出，并通过通讯信道发送。

图5从概念上给出了矢量量化器的码书50，以及分别用于自适应码书增益值ga和固定码书增益值gf的标量量化器的码书54和60。如上面描述的，矢量量化器码书50包括多个纪录，每个纪录包括一对量化增益值ga_Q和gf_Q。标量量化器码书54和60的每条纪录都包括一个量化增益值。

图6以流程图的形式说明了图5的示例编码器部分的示例操作(如上面详细描述的)。当未编码语音的新子帧在63被接收，根据期望的准则，上面的步骤1-4在64处被执行以确定ca,ga,cf和gf。因此，在65，声音测量值v被确定，并且平衡因子α在66被确定。此后，在67，平衡因子被用来以波形匹配和能量匹配的形式定义用于增益因子量化的准则D_WE。如果矢量量化在68处被使用，那麽组合的波形匹配/能量匹配准则D_WE被用来在69量化全部的增益因子。如果标量量化被使用，那麽在70，自适应码书增益ga被利用等式10的D_SGQ而量化，并且在71，固定码书增益gf被利用等式11的组合波形匹配/能量匹配准则D_gfQ来量化。在增益因子量化之后，下一个子帧在63处等待。

图7是包括根据本发明的语音编码器的示例通讯系统的方框图。在图7中，根据本发明的编码器72被提供在收发机73中，该收发机通过通讯信道75与收发机74通讯。编码器72接收未编码的语音信号，并为信道75提供信息，根据该信息，收发机74中的传统解码器76(如上面参考图1描述的)可以重构原始语音信号。作为一个例子，图7的收发机73和74可以是蜂窝电话，信道75可以是通过蜂窝电话网络的通讯信道，用于本发明语音编码器72的其它应用很多并且都很容易明白。

该领域的技术人员会明白的是，根据本发明的语音编码器可以利用例如适当编程的数字信号处理器(DSP)或其它的数据处理设备很容易的实现，其中的设备可以单独使用或者与外部支持逻辑电路组合使用。

新的语音编码准则很好地组合波形谱匹配和能量匹配。因此避免了使用其中一个的需要，但是可以采用适当的混合准则。并且避免了准则间的错误模式判断问题。准则的自适应特性使得有可能平滑地调整波形和能量匹配的平衡。因此，由于急剧改变准则造成的不自然现象被控制。

在新的准则中总会保持一些波形匹配，具有较高电平的声音如噪声突发的不适当信号问题可以避免。

尽管本发明的示例实施方案已经详细描述，这并没有限制本发明的范围，本发明这可以在多个实施方案中实现。

Claims

1．一种根据原始语音信号产生多个参数的方法，根据这些参数可以重构原始语音信号的近似值，包括：

对应于原始语音信号产生另一个信号，该另一个信号旨在表示原始语音信号；

确定与原始语音信号相关的波形和与另一个信号相关的波形之间的第一差值；

确定从原始语音信号导出的能量参数和与另一个信号相关的对应能量参数之间的第二差值；以及

利用第一差值和第二差值确定至少一个所说参数，根据该至少一个所说参数可以重构原始语音信号的近似值。

2．权利要求1的方法，其中所述利用步骤包括在确定至少一个参数的步骤中为第一和第二差值分配相对的重要度。

3．权利要求2的方法，其中所述分配步骤包括计算表示第一和第二差值相对重要度的平衡因子。

4．权利要求3的方法，包括利用平衡因子来确定第一和第二加权因子，它们分别与第一和第二差值相关，所述利用第一和第二差值的步骤包括分别将第一和第二差值分别乘以第一和第二加权因子。

5．权利要求4的方法，其中所述使用平衡因子来确定第一和第二加权因子的步骤包括选择性地将其中一个加权因子设置为0。

6．权利要求5的方法，其中所述选择性地将其中一个加权因子设置为0的步骤包括在原始语音信号中检测语音开始，并对应于语音开始的检测将第二加权因子设置为0。

7．权利要求3的方法，其中所述计算平衡因子的步骤包括基于至少一个以前计算的平衡因子来计算当前平衡因子。

8．权利要求7的方法，其中所述基于至少一个以前计算的平衡因子来计算当前平衡因子的步骤包括对应于以前计算出来的、具有预定幅度的平衡因子来限制该平衡因子的幅度。

9．权利要求3的方法，其中所述计算平衡因子的步骤包括确定与原始语音相关的声音电平并按照声音电平的函数来计算平衡因子。

10．权利要求9的方法，其中所述确定声音电平的步骤包括对声音电平施加滤波操作以产生滤波后的声音电平，所述计算步骤包括按照滤波后的声音电平计算平衡因子。

11．权利要求10的方法，其中所述施加滤波操作的步骤包括施加中值滤波操作，该操作包括在一组声音电平中确定一个中值声音电平，其中的声音电平组包括施加了滤波操作后的声音电平以及多个以前确定的与原始语音信号相关的声音电平。

12．权利要求2的方法，其中所述分配步骤包括确定分别与第一和第二差值相关的第一和第二加权因子，包括确定与原始语音信号相关的声音电平，并按照声音电平的函数来确定加权因子。

13．权利要求12的方法，其中按照声音电平的函数来确定第一和第二加权因子的步骤包括对应于第一声音电平使得第一加权因子大于第二加权因子，并对应于低于第一声音电平的第二声音电平使得第二加权因子大于第一加权因子。

14．权利要求1的方法，其中所述利用步骤包括利用第一和第二差值来确定量化的增益值以用于根据码激励线性预测语音编码处理来重构原始语音信号。

15．一种语音编码装置，包括：

接收原始语音信号的输入端；

用于给出表示参数的信息的输出端，其中根据所说参数可以重构原始语音信号的近似值；

连结在所述输入端和所述输出端之间的控制器，用来对应于原始语音信号提供另一个旨在表示原始语音信号的信号，所述控制器还基于原始语音信号和所说另一个信号之间的第一和第二差值确定至少一个所述参数，其中所述第一差值是与原始语音信号相关的波形和与所说另一个信号相关的波形之间的差值，第二差值是根据原始语音信号获得的能量参数和与另一个信号相关的对应能量参数之间的差值。

16．权利要求15的装置，包括一个平衡因子确定装置，用来在确定所述至少一个参数中计算表示第一和第二差值相对重要度的平衡因子，所述平衡因子确定装置有一个输出端连结到所述控制器用来为所述控制器提供所述平衡因子以便用于确定所述至少一个参数。

17．权利要求16的装置，包括一个声音电平确定装置连结到所述输入端用来确定原始语音信号的声音电平，所述声音电平确定装置有一个输出端连结到所述平衡因子确定装置的输入端用来为平衡因子确定装置提供声音电平，所述平衡因子确定装置用来根据所述声音电平信息来确定所述平衡因子。

18．权利要求17的装置，包括连结在所述声音电平确定装置的输出端和所述平衡因子确定装置的所述输入端之间的滤波器，用来从所述声音电平确定装置接收声音电平并用来为平衡因子确定装置提供一个滤波后的声音电平。

19．权利要求18的装置，其中所述滤波器是一个中值滤波器。

20．权利要求16的装置，其中所述控制器响应所述平衡因子来确定分别与第一和第二差值相关的第一和第二加权因子。

21．权利要求20的装置，其中所述控制器用来在确定所述至少一个参数中将第一和第二差值分别乘以第一和第二加权因子。

22．权利要求21的装置，其中所述控制器用来对应于原始语音信号中的语音开始将第二差值设置为0。

23．权利要求16的装置，其中所述平衡因子确定装置用来基于至少一个以前计算出来的平衡因子来计算当前平衡因子。

24．权利要求23的装置，其中所述平衡因子确定装置用来响应具有预定幅度的以前计算的平衡因子来限制当前平衡因子的幅度。

25．权利要求15的装置，其中所述语音编码装置包括一个码激励线性预测语音编码器，其中所述至少一个参数是量化后的增益值。

26．用于通讯系统的收发机装置，包括：

接收用户输入激励的输入端；

用于为通讯信道提供输出信号以便通过通讯信道将输出信号传送给接收机的输出端，

一个语音编码装置，该装置有一个输入端与所述收发机输入端相连，其输出端与所述收发机的输出端相连，所述语音编码装置的输入端用于从所述收发机的输入端接收原始语音信号，所述语音编码装置的输出端用于为所述收发机的输出端提供表示参数的信息，根据所说参数可以在接收机处重构原始语音信号的近似值，所述语音编码装置包括一个控制器连结在所述输入端和其输出端之间用于对应于原始语音信号给出旨在表示原始语音信号的另一个信号，所述控制器还用于基于原始语音信号和岭一个信号之间的第一和第二差值确定至少一个所述参数，其中所述第一差值是与原始语音信号相关的波形和与另一个信号相关的波形之间的差值，而第二差值是根据原始语音信号得出的能量参数和与另一个信号相关的对应能量参数之间的差值。

27．权利要求26的装置，其中收发机装置形成了蜂窝电话的一部分。