CN1299503A

CN1299503A - 适用于自动语音识别系统的n最佳列表的基于知识的策略

Info

Publication number: CN1299503A
Application number: CN99805475A
Authority: CN
Inventors: T·B·沙尔克; R·S·兹默曼
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Inc
Priority date: 1998-12-29
Filing date: 1999-12-29
Publication date: 2001-06-13
Anticipated expiration: 2019-12-29
Also published as: US20030154075A1; AU2401700A; EP1070315A4; US6922669B2; WO2000039788A2; JP2002533789A; WO2000039788A3; CN1179323C; KR20010041440A; EP1070315A2

Abstract

这里描述了用于识别口呼数字串的高准确度技术。语音识别器接收并分析口呼数字串,并基于口呼数字串的匹配可能性产生以等级排列的假设数字串列表。然后,从具有最大口呼字符串匹配可能性的假设字符串开始分析各个假设字符串,以确定它们是否满足给定的约束条件。列表中满足约束条件的第一个假设字符串被选做识别出的字符串。

Description

适用于自动语音识别系统的N最佳列表的基于知识的策略

发明背景

本发明通常涉及自动语音识别(ASR)，更特别地，涉及利用适用于假设识别结果的列表的基于知识的策略来识别口呼字母串和字母数字混合串。

相关技术描述

ASR被用于各种识别任务，包括识别电话呼叫者说出的数字串。这些数字串一般表示信用卡好吗，电话号码，银行帐户号码，社会安全号码和个人身份号码(PIN)。

语音识别是一种不完善的技术。获得高准确性是很困难的，因为一般存在多个变量，包括，例如，麦克风之间，语音口音之间和说话者能力之间的差别。识别口呼数字串尤其困难，因为各个数字的持续期很短，数字间具有很高程度的声学混淆，并且相邻数字常常会一起说出。当在电话网络中进行数字串(字母或字母-数字混合)识别时，因为语音信号上的噪声和带宽限制的原因，该任务变得更加困难。正确地识别口呼数字要求每个数字被正确地识别。以高准确性识别口呼数字串要求每个数字的准确性极高：超过99％。目前的电话数字识别尝试获得大约98％的单数字准确性。电话上识别字母数字混合串更加困难，目前的技术单字符的识别准确度在75％左右。

因此，需要更准确的数字识别技术，尤其是在电话网络上识别口呼数字串。

本发明概要

本发明的一个主要目标是给出一种方法和装置用于高准确度地识别口呼数字串。

本发明的更具体的目标是给出新的技术用于识别口呼数字串，最好利用适用于假定数字串列表的基于知识的策略。

本发明的另一个更通用的目标是实现各种基于知识的策略用于控制语音识别器。

这些和其它的目标都是通过用于识别口呼数字串的方法和系统实现的。根据本发明的优选实施方案，口呼数字串由语音识别器分析，该识别器基于口呼数字串的匹配可能性产生按等级排列的假设数字串的列表(这里称做N最佳列表)。然后，从具有最大口呼字符串匹配可能性的假设字符串开始分析各个假设字符串以确定它们是否满足给定的约束条件。列表中满足约束条件的第一个假设字符串被选做识别出的字符串。

各种约束条件可以用于确认假设的数字串，包括例如校验和约束条件，正确数据串匹配约束条件等等。

根据本发明的另一个实施方案，如果在N最佳列表中没有一个假设的数字串满足特定的约束条件，那么另一种认证技术可以用于确定正确的数字串。

前面的描述大致给出了本发明的一些关键的目标和特征。这些目标应该构造为仅示例说明了本发明的一些主要特征和应用。通过以不同的方式应用所描述的发明或如将要描述的那样修改本发明，可以获得其它有益的结果。因此，通过参考下面优选实施方案的详细描述，可以更全面地理解本发明和其它的目标。

附图简要描述

为了更完整地理解本发明和其优点，应该参考下面结合附图进行的详细描述。

图1是说明根据本发明识别口呼数字串的技术的流程图。

优选实施方案详细描述

如上面讨论的，本发明针对准确识别口呼数字串的加强方法和系统。根据本发明，本发明技术可以用于已知的数字识别器或识别引擎，或与其联合使用。数字识别器或识别引擎接收口呼输入字符串并为每个口呼数字串产生多个识别假设。这是一个已知的功能，可以从多种以前技术的系统获得(即，识别系统，应用等等)，该功能包括，而不是限制，Vpro/连续语音识别引擎，VR/连续语音识别引擎，以及语音波型标准语音识别产品，都由VCSI开发并市场化。通常，任何采用维特比波束搜索技术的语音识别引擎可以被配置以这种方式提供多个假设。其它用于给出多个数字串假设的技术在当前领域中是已知的。如众所周知的，基于口呼数字串的匹配可能性，假设的数字串按等级顺序排列(N最佳列表)。根据本发明，结合各种基于知识的识别策略，这种多选择特征被用于准确地识别口呼数字串。

简要地，本发明的技术优选分析识别器的首选字符串(即，按概率划分的N最佳列表中的首项)来确定首选是否满足给定的基于知识的识别约束条件。如果满足约束条件，那么该数字串被确认，即，该项被宣布为正确号码。如果首选不满足约束条件，就会考虑第二选择，如此下去，直到正确的数字串被找到。

如果没有假设的数字串满足约束条件，那么会宣布拒绝，呼叫者会被要求重复数字串以用于新的分析。此外，如下面描述的，额外的(或补充的)认证技术被用于确定正确的数字串。

图1说明了本发明的识别过程10。首先，在步骤12，用户(可能是电话呼叫者)被提示给出口呼数字串，例如，信用卡号码。在14，系统接收口呼数字串。然后数字识别器在步骤16分析口呼数字串并基于其所具有的识别口呼字符串时的信任度产生按等级排列的假设数字串的列表(N最佳列表)。列表中的假设字符串按等级排列，该排列按照与口呼字符串的正确匹配程度从最大可能到最小可能排列。如上面讨论的，这是一种已知的功能。然后，在步骤18，列表中的第一假设字符串被分析。如果在步骤20该字符串满足给定的约束条件，那么在22该假设字符串被确认(即，被选择为正确识别的字符串)。如果约束条件不满足，在步骤24会确定列表中是否还有任何其它的假设字符串。如果这样，会在步骤26检验下一个字符串。然后流程进行到步骤20，并重复后续的步骤直到满足约束条件。如果列表中没有假设的字符串满足约束条件，那么在步骤28会认为识别过程失败了，流程会选择性地返回到步骤12要求电话呼叫者重复口呼数字串。另外可选的是，在步骤28之后，可以应用另一种认证技术(下面描述的)来确定正确的数字串。

根据本发明的一个特征，各种基于知识的策略被应用于N最佳列表以确认假设的数字串。

校验和

例如，一种基于知识的策略是校验和方法。利用校验和策略，分类后的N最佳列表中的每个假设数字串被分析直到找到校验和正确的假设数字串。该假设数字串被确认为答案。

如已知的，校验和方案常常与各种数字数据结合使用，例如，信用卡号码，银行帐户号码和其它帐户号码。为了说明，信用卡号被用做识别任务的一个例子，其中应用了校验和策略。

通常，信用卡号码包括固定数量的数字，一般为15个或16个。信用卡号码的最后一个数字被称做校验和数字，校验和数字标识信用卡号码中其它数字的数学组合。可以使用各种已知的校验和算法。

另一种已知为Luhn校验算法的校验算法通常用于信用卡号码。Luhn校验和按下述方式计算。对于具有偶数个数字的卡，每个奇数位数字被加倍，并且如果乘积大于9则从该乘积中减去9。偶数位数字以及加倍后的奇数位数字相加。结果必须是10的倍数，或该数字不是正确的卡号并被拒绝。如果该卡具有奇数个数字，会进行同样的加法，只是对偶数位的数字加倍。

利用校验和策略以及N最佳列表来确认信用卡号码极大地提高了识别准确性。例如，不使用校验和信息的信用卡号码识别在典型约束条件下产生大约75％的准确性。在同样的条件下，利用N最佳列表和校验和信息的信用卡号码识别产生大约95％的准确性。此外，对于该任务，“错误接受”率(即，识别器返回一个不正确的校验和值的情况)极低，通常低于1％。余下的错误(总数的4％)被拒绝，要求应用重新提示或返回人工介入。对于大多数应用，宁愿拒绝错误也不要错误接受。

数据库匹配

另一种基于知识的策略是与数据库匹配。许多数字识别应用(例如，邮编，许可证号码，分类销售号码，电子结算信息系统)必须访问列有正确记录的数据库。因此，除了现在的接受准则最好是与数据库中的项精确匹配之外，可用类似于利用前面描述的校验和策略那样的方式筛选N最佳列表。因为很多数据库被构造以便降低下面的可能性：键入错误会造成访问错误的记录，所以这种基于知识的策略是处理N最佳列表的强有利的工具。此外，数据库策略对于字符串也很有用。

尽管有可能将这种数据库预编辑成“语法”，并因此在识别之前应用数据库约束条件-但是这常常是不可行的，因为数据库经常变化，使得连续重新编辑很有必要。这样，当数据库很大时，语法重编译会很耗费时间。这样，例如通过使用当前技术中已知的快速匹配技术，针对数据库的N最佳列表确认常常是应用这种约束条件的唯一实际的方法。

另一种数据库匹配技术的应用特别适用于结合PIN号码使用，例如，在声控声音邮件系统或声控银行应用中使用。在这些应用中，已知的办法是用户输入帐户号码和PIN号码作为安全手段。下面是使用N最佳筛选技术的两种方法的例子。

首先，该技术仅应用于PIN号码。假定帐户号码正确，常常会在数据库中查找帐户号码，在该数据库中会访问到PIN号码。在这种情况中，可以检查N最佳列表中的每项以判断是否与PIN号码匹配以认可该记录。应用的ASR部分不需要准确地“知道”PIN号码是什么。所需要的是在N最佳筛选处理中的某一点的字符串匹配。实际的PIN号码可以被丢弃以保证安全。

其次，该技术可以同时应用于帐户号码和PIN号码。在这种情况中，帐号号码和PIN号码识别的N最佳列表都被保持。并在数据库中寻找每个帐号号码假设以访问相关的PIN号码。如果没有数据与帐户号码匹配(或者没有“模糊匹配”，该技术在下面描述)，那么该帐户号码被拒绝。如果有一个帐户号码被匹配，那么会在后面为该发音进行针对N最佳列表的PIN号码匹配。该过程会重复下去直到帐户号码和PIN号码的最佳可能组合匹配被找到为止。

数据库认证技术(对N最佳列表来说)的一个优点是它可以应用于字符串识别和字母-数字混合串识别以及纯数字串的识别(通过为字母分配一个数字值，校验和认证也可以用这种方法应用)

数字定位约束条件：

如果存在数字(或字母符号)的位置限制约束条件，N最佳列表中的答案可以被检查以确认是否实现了这些约束条件。不遵从这些约束条件的答案会被拒绝。尽管可能在识别之前应用这些约束条件，例如，使用数字“微语法”，有时时候这是不可行的。在这些情况中，这些语法约束条件可以很有利地应用于N最佳列表。

数字串长度约束条件：

类似的，数字串(或字母串或字母数字串)长度约束条件可以应用于N最佳列表方案。而且，有可能在识别时应用这些约束条件，但是有时候该信息不能得到或出于安全的原因需要被隐藏，例如，当确认PIN号码时。在这种情况中，可以为遵从已知长度约束条件的项进行N最佳列表筛选。

补充技术：

在某些情况中，基于知识的识别策略并不会产生与N最佳列表中一个记录的匹配。在这种情况中，最好是补充基于知识的策略。如果必要，本发明还尝试使用这种补充技术。

这样，例如，假定N最佳列表选择中没有一个与正被搜索的数据库中的任何记录匹配(在上面描述的精确数据库匹配技术中)。在这种情形中，应用了一种补充技术，例如“模糊”匹配方案。如众所周知的，该技术并不需要精确的数据库匹配。相反的，N最佳列表的每个答案以“模糊”的方式与正确号码(或字符或字符数字串)的数据库比较。

模糊匹配准则可以是任何一些标准技术，多数涉及众所周知的动态编程算法。例如Levenshtein距离算法(见Sankoff,D和Joseph BKruskal,”Time Warps,String Edits and Macromolecules：TheTheory and Pratice of Sequence Comparion,”(时间扭曲，串编辑和大分子：序列比较原理和应用)pp.18-21 Addison-Wesley,1988)可以被应用。在该算法中，通过确定需要将一个字符串转换成另一个的替换，删除，插入的顺序，一个字符串与另一个相匹配。两个字符串之间的“距离”是需要用于执行变换的这种校正(替换+删除+插入)的最小数目。

也可以使用加权后的Levenshtein算法，其中，某种校正被认为比其它的耗费更多。例如，当在噪声环境下进行数字识别时，对于ASR算法来说很普通的是插入一些数字-例如“0”和“8”作为假设。因此，加权后的匹配算法可以确定对这种插入比其它类的插入和/或替换、删除减轻一些(penalize)。采用这种方法，可以考虑ASR技术的特定限制以便实现更强的数据库匹配。

该方法还适用于字母和字母数字识别。对于字母识别，当存在某些对于ASR系统常常混淆的字符组时，加权的匹配准则会很有用。例如，当前技术的ASR算法很难区分E组字母(b,c,d,e,g,p,t,v)，尤其如在电话网络(固定和无线网络)中通常发生的带限情况下会是这样。在这种情况中，Levenshtein距离可以被修正以便与其它误差模式相比减轻这些字符间的替换模式。

变量：

根据本发明的另一个实施方案，来自两次识别尝试的N最佳结果可以被智能组合以确定实际的口呼字符串。采用这种“2次发音”或“重复发音”技术时，最好遵从下面的过程：

a)用户被提示输入一个号码(或字母数字串)

b)利用数字识别器对口呼发音进行识别，并得到N最佳列表(“LIST1”)

c)接着，数字识别器的“信任度”测量值被用于认可或拒绝N最佳列表中的第一个答案。如果信任度足够高，发音被接受。然而，如果信任度低于给定阈值，用户被提示重复字符串。

d)然后对重复的发音进行识别，并获得另一个N最佳列表(“LIST2”)

e)然后，LIST1被用做“数据库”以便利用上面描述的数据库匹配或模糊匹配方法确认LIST2中的一个假设。实际上，在LIST1中也出现的LIST2中的第一个假设被选出。另外可选的，检查顺序可以颠倒，即，在LIST2中也出现的LIST1中的第一个假设被选择。如果使用模糊技术，那么LIST2中与LIST1中假设最佳匹配的项(或相反)被选出。

根据本发明的另一个实施方案，如果没有假设的数字串满足特定的约束条件(例如，校验和，数据库匹配等等)，那么会采用另外的确认方法。采用这种技术，N最佳列表被用做产生其它假设的方法，然后，该列表被分析以确定它们是否满足给定的约束条件。例如，假设N最佳列表包括下面3个假设：

(1)12345

(2)42345

(3)12315

那么，通过组合这三种选择的信息，有理由假设字符串“42315”作为另一方案。即使“42315”不出现于N最佳列表中，也可以通过观察在假设(1)和(2)中第4个位置4-＞1的相近呼叫，而在假设(1)和(2)的第一个位置1-＞4的相近呼叫而合成(这些混淆模式的所有其它变更型式已经存在于N最佳列表中)。这种产生的字符串可以被计算校验和或被分析以确定是否满足特定的约束条件。

通过将来自两次识别的N最佳列表(即LIST1和LIST2)组合成一个单独的N最佳列表，假设产生技术也可以应用于上面描述的重复发音技术。然后，可以应用假设产生技术。组合列表给出更好的变换可能性。

根据本发明的数字识别算法最好包括软件，这样本发明的一个优选实现是一组指令(程序码)，该指令位于通用计算机的随机存取存储器的代码模块中。在计算机需要之前，该组指令可以存储在另一个计算机存储器中，例如在硬盘驱动器或可去除存储器如光盘(最终用于CD ROM)或软盘(用于软驱驱动器中)或者通过互连网或其它的计算机网络下载。此外，尽管所描述的各种方法可以用可被软件选择激活或重新配置的计算机很方便地实现，该领域的技术人员将意识到这些方法可以用硬件，固件或构造用来执行所需方法步骤的更特殊的装置或设备来实现。

本发明的操作可以执行的代表性计算机有一个处理器(例如Intel-，PowerPc，或基于RISC的处理器)，随机存储或其它可变存储器，磁盘存储器，具有适当显示接口的显示器，输入设备(鼠标，键盘等等)以及适当的通讯设备用于使计算机与计算机网络接口。随机存取存储器支持给出本发明功能的计算机程序。

已经描述了本发明，我们宣称的新的特点和希望受到专利保护的地方在下面的权利要求中给出。

Claims

1．识别口呼数字串的方法，包括：

(a)接收口呼数字串；

(b)分析口呼数字串以便基于口呼数字串的匹配可能性产生以等级排列的假设数字串列表；

(c)利用给定的基于知识的识别策略，从具有最大口呼字符串匹配可能性的假设字符串开始确定是否所述列表的各个假设字符串满足给定的约束条件；

(d)选出列表中满足约束条件的第一个字符串作为识别出的字符串。

2．权利要求1的方法，其中所述的基于知识的识别策略包括数据库匹配方案。

3．权利要求2的方法，其中步骤(C)包括搜索正确数据串的数据库以确定是否假设数字串中的一个与其中一个正确的数字串匹配。

4．权利要求1的方法，其中基于知识的识别策略是校验和方案。

5．权利要求4的方法，其中的口呼数字串包括一个校验和数字，其中步骤(C)包括计算假设数字串的校验和，并确定是否校验和与校验和数字的值相匹配。

6．权利要求4的方法，还包括下面的步骤：

如果没有一个假设的数字串满足约束条件：

(e)基于从列表中假设数字串收集的信息产生附加的假设数字串；

(f)分析附加的假设数字串以确定是否满足校验和方案；

(g)如果满足，确认附加假设数字串。

7．权利要求4的方法，其中的校验和方案使用了Luhn校验和算法。

8．权利要求1的方法，还包括

(e)如果没有一个假设字符串满足所述的约束条件，利用补充匹配技术选择最接近满足约束条件的假设数字串。

9．权利要求8的方法，其中的补充匹配技术是一种模糊匹配方案。

10．权利要求9的方法，其中模糊匹配方案确定将每个假设数字串与正确数字串的一个相匹配所需要的校正数。

11．权利要求10的方法，其中的校正包括数字替换，删除和相加。

12．权利要求10的方法，其中的校正被加权。

13．权利要求1的方法，其中基于知识的识别策略是数字定位策略并且这种约束条件是给定的数字位置。

14．权利要求1的方法，其中基于知识的识别策略是数字串长度策略并且约束条件是给定的数字串长度。

15．权利要求1的方法，还包括：

如果没有假设的数字串满足约束条件

(e)提示输入第二个口呼数字串，

(f)分析第二个口呼数字串以便基于匹配第二口呼数字串的可能性产生以等级排列的第二假设数字串列表，

(g)从与第二口呼字符串具有最大匹配可能性的字符串开始确定是否第二列表的各个假设字符串与步骤(b)产生的列表中的一个假设数字串匹配。

(h)选出第二列表中与步骤(b)所产生假设数字串中一个匹配的第一个字符串作为识别出的字符串。

16．权利要求1的方法，还包括：

如果没有假设的数字串满足约束条件

(e)提示输入第二个口呼数字串；

(f)分析第二个口呼数字串以便基于匹配第二口呼数字串的可能性产生以等级排列的第二假设数字串列表；

(g)从与步骤(a)接收的口呼字符串具有最大匹配可能性的字符串开始确定是否步骤(b)中产生的列表中的各个假设字符串与第二列表中的一个假设数字串匹配；

(h)从步骤(b)产生所述列表中选出与所述第二列表中的假设数字串中一个匹配的第一个字符串作为识别出的字符串。

17．权利要求1的方法，还包括如果没有假设的数字串匹配约束条件，那末重复所陈述的步骤。

18．权利要求1的方法，还包括在步骤(a)之前提示输入口呼数字串的步骤。

19．识别口呼数字串的方法，包括：

(a)提示输入口呼数字串；

(b)接收口呼数字串；

(c)分析口呼数字串以便基于匹配口呼数字串的可能性产生以等级排列的假设数字串列表；

(d)利用给定的基于知识的识别策略，确定与所述口呼字符串具有最大匹配可能性的列表中的假设字符串是否满足给定的约束条件；

(e)如果在步骤(d)满足了约束条件，则确认假设字符串，否则从列表中除去假设字符串并对所述列表中的剩余假设字符串重复步骤(d)和(e)。

20．权利要求19的方法，其中给定的约束条件是正确字符串数据库匹配。

21．权利要求20的方法，其中步骤(d)包括搜索正确数据串的数据库以便确定是否假设数字串与其中一个正确数字串匹配。

22．权利要求19的方法，其中给定的约束条件是校验和。

23．权利要求22的方法，其中的口呼数字串包括一个校验和数字，并且步骤(d)计算假设数字串的校验和并确定是否该校验和与校验和数字的值匹配。

24．权利要求22的方法，还包括：

如果没有假设的数字串满足约束条件：

(f)基于从列表中的假设数字串收集到的信息产生一个附加的假设数字串；

(g)分析附加的假设数字串以确定是否满足校验和方案，如果满足，确认附加假设数字串。

25．位于计算机可读媒体中供计算和使用的计算机程序产品，该程序产品用于识别口呼数字串，包括：

用于分析口呼数字串以便基于口呼数字串的匹配可能性产生按等级排列的假设数字串列表的装置；

基于知识的识别装置，用于从具有最大口呼字符串匹配可能性的字符串开始分析列表中的各个假设字符串，以确定它们是否满足给定的约束条件；

用于从所述列表中选出满足所述约束条件的第一字符串作为识别出的字符串的装置。