CN1299503A - 适用于自动语音识别系统的n最佳列表的基于知识的策略 - Google Patents

适用于自动语音识别系统的n最佳列表的基于知识的策略 Download PDF

Info

Publication number
CN1299503A
CN1299503A CN99805475A CN99805475A CN1299503A CN 1299503 A CN1299503 A CN 1299503A CN 99805475 A CN99805475 A CN 99805475A CN 99805475 A CN99805475 A CN 99805475A CN 1299503 A CN1299503 A CN 1299503A
Authority
CN
China
Prior art keywords
string
digit
hypothesized
constraint condition
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99805475A
Other languages
English (en)
Other versions
CN1179323C (zh
Inventor
T·B·沙尔克
R·S·兹默曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1299503A publication Critical patent/CN1299503A/zh
Application granted granted Critical
Publication of CN1179323C publication Critical patent/CN1179323C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Abstract

这里描述了用于识别口呼数字串的高准确度技术。语音识别器接收并分析口呼数字串,并基于口呼数字串的匹配可能性产生以等级排列的假设数字串列表。然后,从具有最大口呼字符串匹配可能性的假设字符串开始分析各个假设字符串,以确定它们是否满足给定的约束条件。列表中满足约束条件的第一个假设字符串被选做识别出的字符串。

Description

适用于自动语音识别系统的N最 佳列表的基于知识的策略
发明背景
本发明通常涉及自动语音识别(ASR),更特别地,涉及利用适用于假设识别结果的列表的基于知识的策略来识别口呼字母串和字母数字混合串。
相关技术描述
ASR被用于各种识别任务,包括识别电话呼叫者说出的数字串。这些数字串一般表示信用卡好吗,电话号码,银行帐户号码,社会安全号码和个人身份号码(PIN)。
语音识别是一种不完善的技术。获得高准确性是很困难的,因为一般存在多个变量,包括,例如,麦克风之间,语音口音之间和说话者能力之间的差别。识别口呼数字串尤其困难,因为各个数字的持续期很短,数字间具有很高程度的声学混淆,并且相邻数字常常会一起说出。当在电话网络中进行数字串(字母或字母-数字混合)识别时,因为语音信号上的噪声和带宽限制的原因,该任务变得更加困难。正确地识别口呼数字要求每个数字被正确地识别。以高准确性识别口呼数字串要求每个数字的准确性极高:超过99%。目前的电话数字识别尝试获得大约98%的单数字准确性。电话上识别字母数字混合串更加困难,目前的技术单字符的识别准确度在75%左右。
因此,需要更准确的数字识别技术,尤其是在电话网络上识别口呼数字串。
本发明概要
本发明的一个主要目标是给出一种方法和装置用于高准确度地识别口呼数字串。
本发明的更具体的目标是给出新的技术用于识别口呼数字串,最好利用适用于假定数字串列表的基于知识的策略。
本发明的另一个更通用的目标是实现各种基于知识的策略用于控制语音识别器。
这些和其它的目标都是通过用于识别口呼数字串的方法和系统实现的。根据本发明的优选实施方案,口呼数字串由语音识别器分析,该识别器基于口呼数字串的匹配可能性产生按等级排列的假设数字串的列表(这里称做N最佳列表)。然后,从具有最大口呼字符串匹配可能性的假设字符串开始分析各个假设字符串以确定它们是否满足给定的约束条件。列表中满足约束条件的第一个假设字符串被选做识别出的字符串。
各种约束条件可以用于确认假设的数字串,包括例如校验和约束条件,正确数据串匹配约束条件等等。
根据本发明的另一个实施方案,如果在N最佳列表中没有一个假设的数字串满足特定的约束条件,那么另一种认证技术可以用于确定正确的数字串。
前面的描述大致给出了本发明的一些关键的目标和特征。这些目标应该构造为仅示例说明了本发明的一些主要特征和应用。通过以不同的方式应用所描述的发明或如将要描述的那样修改本发明,可以获得其它有益的结果。因此,通过参考下面优选实施方案的详细描述,可以更全面地理解本发明和其它的目标。
附图简要描述
为了更完整地理解本发明和其优点,应该参考下面结合附图进行的详细描述。
图1是说明根据本发明识别口呼数字串的技术的流程图。
优选实施方案详细描述
如上面讨论的,本发明针对准确识别口呼数字串的加强方法和系统。根据本发明,本发明技术可以用于已知的数字识别器或识别引擎,或与其联合使用。数字识别器或识别引擎接收口呼输入字符串并为每个口呼数字串产生多个识别假设。这是一个已知的功能,可以从多种以前技术的系统获得(即,识别系统,应用等等),该功能包括,而不是限制,Vpro/连续语音识别引擎,VR/连续语音识别引擎,以及语音波型标准语音识别产品,都由VCSI开发并市场化。通常,任何采用维特比波束搜索技术的语音识别引擎可以被配置以这种方式提供多个假设。其它用于给出多个数字串假设的技术在当前领域中是已知的。如众所周知的,基于口呼数字串的匹配可能性,假设的数字串按等级顺序排列(N最佳列表)。根据本发明,结合各种基于知识的识别策略,这种多选择特征被用于准确地识别口呼数字串。
简要地,本发明的技术优选分析识别器的首选字符串(即,按概率划分的N最佳列表中的首项)来确定首选是否满足给定的基于知识的识别约束条件。如果满足约束条件,那么该数字串被确认,即,该项被宣布为正确号码。如果首选不满足约束条件,就会考虑第二选择,如此下去,直到正确的数字串被找到。
如果没有假设的数字串满足约束条件,那么会宣布拒绝,呼叫者会被要求重复数字串以用于新的分析。此外,如下面描述的,额外的(或补充的)认证技术被用于确定正确的数字串。
图1说明了本发明的识别过程10。首先,在步骤12,用户(可能是电话呼叫者)被提示给出口呼数字串,例如,信用卡号码。在14,系统接收口呼数字串。然后数字识别器在步骤16分析口呼数字串并基于其所具有的识别口呼字符串时的信任度产生按等级排列的假设数字串的列表(N最佳列表)。列表中的假设字符串按等级排列,该排列按照与口呼字符串的正确匹配程度从最大可能到最小可能排列。如上面讨论的,这是一种已知的功能。然后,在步骤18,列表中的第一假设字符串被分析。如果在步骤20该字符串满足给定的约束条件,那么在22该假设字符串被确认(即,被选择为正确识别的字符串)。如果约束条件不满足,在步骤24会确定列表中是否还有任何其它的假设字符串。如果这样,会在步骤26检验下一个字符串。然后流程进行到步骤20,并重复后续的步骤直到满足约束条件。如果列表中没有假设的字符串满足约束条件,那么在步骤28会认为识别过程失败了,流程会选择性地返回到步骤12要求电话呼叫者重复口呼数字串。另外可选的是,在步骤28之后,可以应用另一种认证技术(下面描述的)来确定正确的数字串。
根据本发明的一个特征,各种基于知识的策略被应用于N最佳列表以确认假设的数字串。
校验和
例如,一种基于知识的策略是校验和方法。利用校验和策略,分类后的N最佳列表中的每个假设数字串被分析直到找到校验和正确的假设数字串。该假设数字串被确认为答案。
如已知的,校验和方案常常与各种数字数据结合使用,例如,信用卡号码,银行帐户号码和其它帐户号码。为了说明,信用卡号被用做识别任务的一个例子,其中应用了校验和策略。
通常,信用卡号码包括固定数量的数字,一般为15个或16个。信用卡号码的最后一个数字被称做校验和数字,校验和数字标识信用卡号码中其它数字的数学组合。可以使用各种已知的校验和算法。
另一种已知为Luhn校验算法的校验算法通常用于信用卡号码。Luhn校验和按下述方式计算。对于具有偶数个数字的卡,每个奇数位数字被加倍,并且如果乘积大于9则从该乘积中减去9。偶数位数字以及加倍后的奇数位数字相加。结果必须是10的倍数,或该数字不是正确的卡号并被拒绝。如果该卡具有奇数个数字,会进行同样的加法,只是对偶数位的数字加倍。
利用校验和策略以及N最佳列表来确认信用卡号码极大地提高了识别准确性。例如,不使用校验和信息的信用卡号码识别在典型约束条件下产生大约75%的准确性。在同样的条件下,利用N最佳列表和校验和信息的信用卡号码识别产生大约95%的准确性。此外,对于该任务,“错误接受”率(即,识别器返回一个不正确的校验和值的情况)极低,通常低于1%。余下的错误(总数的4%)被拒绝,要求应用重新提示或返回人工介入。对于大多数应用,宁愿拒绝错误也不要错误接受。
数据库匹配
另一种基于知识的策略是与数据库匹配。许多数字识别应用(例如,邮编,许可证号码,分类销售号码,电子结算信息系统)必须访问列有正确记录的数据库。因此,除了现在的接受准则最好是与数据库中的项精确匹配之外,可用类似于利用前面描述的校验和策略那样的方式筛选N最佳列表。因为很多数据库被构造以便降低下面的可能性:键入错误会造成访问错误的记录,所以这种基于知识的策略是处理N最佳列表的强有利的工具。此外,数据库策略对于字符串也很有用。
尽管有可能将这种数据库预编辑成“语法”,并因此在识别之前应用数据库约束条件-但是这常常是不可行的,因为数据库经常变化,使得连续重新编辑很有必要。这样,当数据库很大时,语法重编译会很耗费时间。这样,例如通过使用当前技术中已知的快速匹配技术,针对数据库的N最佳列表确认常常是应用这种约束条件的唯一实际的方法。
另一种数据库匹配技术的应用特别适用于结合PIN号码使用,例如,在声控声音邮件系统或声控银行应用中使用。在这些应用中,已知的办法是用户输入帐户号码和PIN号码作为安全手段。下面是使用N最佳筛选技术的两种方法的例子。
首先,该技术仅应用于PIN号码。假定帐户号码正确,常常会在数据库中查找帐户号码,在该数据库中会访问到PIN号码。在这种情况中,可以检查N最佳列表中的每项以判断是否与PIN号码匹配以认可该记录。应用的ASR部分不需要准确地“知道”PIN号码是什么。所需要的是在N最佳筛选处理中的某一点的字符串匹配。实际的PIN号码可以被丢弃以保证安全。
其次,该技术可以同时应用于帐户号码和PIN号码。在这种情况中,帐号号码和PIN号码识别的N最佳列表都被保持。并在数据库中寻找每个帐号号码假设以访问相关的PIN号码。如果没有数据与帐户号码匹配(或者没有“模糊匹配”,该技术在下面描述),那么该帐户号码被拒绝。如果有一个帐户号码被匹配,那么会在后面为该发音进行针对N最佳列表的PIN号码匹配。该过程会重复下去直到帐户号码和PIN号码的最佳可能组合匹配被找到为止。
数据库认证技术(对N最佳列表来说)的一个优点是它可以应用于字符串识别和字母-数字混合串识别以及纯数字串的识别(通过为字母分配一个数字值,校验和认证也可以用这种方法应用)
数字定位约束条件:
如果存在数字(或字母符号)的位置限制约束条件,N最佳列表中的答案可以被检查以确认是否实现了这些约束条件。不遵从这些约束条件的答案会被拒绝。尽管可能在识别之前应用这些约束条件,例如,使用数字“微语法”,有时时候这是不可行的。在这些情况中,这些语法约束条件可以很有利地应用于N最佳列表。
数字串长度约束条件:
类似的,数字串(或字母串或字母数字串)长度约束条件可以应用于N最佳列表方案。而且,有可能在识别时应用这些约束条件,但是有时候该信息不能得到或出于安全的原因需要被隐藏,例如,当确认PIN号码时。在这种情况中,可以为遵从已知长度约束条件的项进行N最佳列表筛选。
补充技术:
在某些情况中,基于知识的识别策略并不会产生与N最佳列表中一个记录的匹配。在这种情况中,最好是补充基于知识的策略。如果必要,本发明还尝试使用这种补充技术。
这样,例如,假定N最佳列表选择中没有一个与正被搜索的数据库中的任何记录匹配(在上面描述的精确数据库匹配技术中)。在这种情形中,应用了一种补充技术,例如“模糊”匹配方案。如众所周知的,该技术并不需要精确的数据库匹配。相反的,N最佳列表的每个答案以“模糊”的方式与正确号码(或字符或字符数字串)的数据库比较。
模糊匹配准则可以是任何一些标准技术,多数涉及众所周知的动态编程算法。例如Levenshtein距离算法(见Sankoff,D和Joseph BKruskal,”Time Warps,String Edits and Macromolecules:TheTheory and Pratice of Sequence Comparion,”(时间扭曲,串编辑和大分子:序列比较原理和应用)pp.18-21 Addison-Wesley,1988)可以被应用。在该算法中,通过确定需要将一个字符串转换成另一个的替换,删除,插入的顺序,一个字符串与另一个相匹配。两个字符串之间的“距离”是需要用于执行变换的这种校正(替换+删除+插入)的最小数目。
也可以使用加权后的Levenshtein算法,其中,某种校正被认为比其它的耗费更多。例如,当在噪声环境下进行数字识别时,对于ASR算法来说很普通的是插入一些数字-例如“0”和“8”作为假设。因此,加权后的匹配算法可以确定对这种插入比其它类的插入和/或替换、删除减轻一些(penalize)。采用这种方法,可以考虑ASR技术的特定限制以便实现更强的数据库匹配。
该方法还适用于字母和字母数字识别。对于字母识别,当存在某些对于ASR系统常常混淆的字符组时,加权的匹配准则会很有用。例如,当前技术的ASR算法很难区分E组字母(b,c,d,e,g,p,t,v),尤其如在电话网络(固定和无线网络)中通常发生的带限情况下会是这样。在这种情况中,Levenshtein距离可以被修正以便与其它误差模式相比减轻这些字符间的替换模式。
变量:
根据本发明的另一个实施方案,来自两次识别尝试的N最佳结果可以被智能组合以确定实际的口呼字符串。采用这种“2次发音”或“重复发音”技术时,最好遵从下面的过程:
a)用户被提示输入一个号码(或字母数字串)
b)利用数字识别器对口呼发音进行识别,并得到N最佳列表(“LIST1”)
c)接着,数字识别器的“信任度”测量值被用于认可或拒绝N最佳列表中的第一个答案。如果信任度足够高,发音被接受。然而,如果信任度低于给定阈值,用户被提示重复字符串。
d)然后对重复的发音进行识别,并获得另一个N最佳列表(“LIST2”)
e)然后,LIST1被用做“数据库”以便利用上面描述的数据库匹配或模糊匹配方法确认LIST2中的一个假设。实际上,在LIST1中也出现的LIST2中的第一个假设被选出。另外可选的,检查顺序可以颠倒,即,在LIST2中也出现的LIST1中的第一个假设被选择。如果使用模糊技术,那么LIST2中与LIST1中假设最佳匹配的项(或相反)被选出。
根据本发明的另一个实施方案,如果没有假设的数字串满足特定的约束条件(例如,校验和,数据库匹配等等),那么会采用另外的确认方法。采用这种技术,N最佳列表被用做产生其它假设的方法,然后,该列表被分析以确定它们是否满足给定的约束条件。例如,假设N最佳列表包括下面3个假设:
(1)12345
(2)42345
(3)12315
那么,通过组合这三种选择的信息,有理由假设字符串“42315”作为另一方案。即使“42315”不出现于N最佳列表中,也可以通过观察在假设(1)和(2)中第4个位置4->1的相近呼叫,而在假设(1)和(2)的第一个位置1->4的相近呼叫而合成(这些混淆模式的所有其它变更型式已经存在于N最佳列表中)。这种产生的字符串可以被计算校验和或被分析以确定是否满足特定的约束条件。
通过将来自两次识别的N最佳列表(即LIST1和LIST2)组合成一个单独的N最佳列表,假设产生技术也可以应用于上面描述的重复发音技术。然后,可以应用假设产生技术。组合列表给出更好的变换可能性。
根据本发明的数字识别算法最好包括软件,这样本发明的一个优选实现是一组指令(程序码),该指令位于通用计算机的随机存取存储器的代码模块中。在计算机需要之前,该组指令可以存储在另一个计算机存储器中,例如在硬盘驱动器或可去除存储器如光盘(最终用于CD ROM)或软盘(用于软驱驱动器中)或者通过互连网或其它的计算机网络下载。此外,尽管所描述的各种方法可以用可被软件选择激活或重新配置的计算机很方便地实现,该领域的技术人员将意识到这些方法可以用硬件,固件或构造用来执行所需方法步骤的更特殊的装置或设备来实现。
本发明的操作可以执行的代表性计算机有一个处理器(例如Intel-,PowerPc,或基于RISC的处理器),随机存储或其它可变存储器,磁盘存储器,具有适当显示接口的显示器,输入设备(鼠标,键盘等等)以及适当的通讯设备用于使计算机与计算机网络接口。随机存取存储器支持给出本发明功能的计算机程序。
已经描述了本发明,我们宣称的新的特点和希望受到专利保护的地方在下面的权利要求中给出。

Claims (25)

1.识别口呼数字串的方法,包括:
(a)接收口呼数字串;
(b)分析口呼数字串以便基于口呼数字串的匹配可能性产生以等级排列的假设数字串列表;
(c)利用给定的基于知识的识别策略,从具有最大口呼字符串匹配可能性的假设字符串开始确定是否所述列表的各个假设字符串满足给定的约束条件;
(d)选出列表中满足约束条件的第一个字符串作为识别出的字符串。
2.权利要求1的方法,其中所述的基于知识的识别策略包括数据库匹配方案。
3.权利要求2的方法,其中步骤(C)包括搜索正确数据串的数据库以确定是否假设数字串中的一个与其中一个正确的数字串匹配。
4.权利要求1的方法,其中基于知识的识别策略是校验和方案。
5.权利要求4的方法,其中的口呼数字串包括一个校验和数字,其中步骤(C)包括计算假设数字串的校验和,并确定是否校验和与校验和数字的值相匹配。
6.权利要求4的方法,还包括下面的步骤:
如果没有一个假设的数字串满足约束条件:
(e)基于从列表中假设数字串收集的信息产生附加的假设数字串;
(f)分析附加的假设数字串以确定是否满足校验和方案;
(g)如果满足,确认附加假设数字串。
7.权利要求4的方法,其中的校验和方案使用了Luhn校验和算法。
8.权利要求1的方法,还包括
(e)如果没有一个假设字符串满足所述的约束条件,利用补充匹配技术选择最接近满足约束条件的假设数字串。
9.权利要求8的方法,其中的补充匹配技术是一种模糊匹配方案。
10.权利要求9的方法,其中模糊匹配方案确定将每个假设数字串与正确数字串的一个相匹配所需要的校正数。
11.权利要求10的方法,其中的校正包括数字替换,删除和相加。
12.权利要求10的方法,其中的校正被加权。
13.权利要求1的方法,其中基于知识的识别策略是数字定位策略并且这种约束条件是给定的数字位置。
14.权利要求1的方法,其中基于知识的识别策略是数字串长度策略并且约束条件是给定的数字串长度。
15.权利要求1的方法,还包括:
如果没有假设的数字串满足约束条件
(e)提示输入第二个口呼数字串,
(f)分析第二个口呼数字串以便基于匹配第二口呼数字串的可能性产生以等级排列的第二假设数字串列表,
(g)从与第二口呼字符串具有最大匹配可能性的字符串开始确定是否第二列表的各个假设字符串与步骤(b)产生的列表中的一个假设数字串匹配。
(h)选出第二列表中与步骤(b)所产生假设数字串中一个匹配的第一个字符串作为识别出的字符串。
16.权利要求1的方法,还包括:
如果没有假设的数字串满足约束条件
(e)提示输入第二个口呼数字串;
(f)分析第二个口呼数字串以便基于匹配第二口呼数字串的可能性产生以等级排列的第二假设数字串列表;
(g)从与步骤(a)接收的口呼字符串具有最大匹配可能性的字符串开始确定是否步骤(b)中产生的列表中的各个假设字符串与第二列表中的一个假设数字串匹配;
(h)从步骤(b)产生所述列表中选出与所述第二列表中的假设数字串中一个匹配的第一个字符串作为识别出的字符串。
17.权利要求1的方法,还包括如果没有假设的数字串匹配约束条件,那末重复所陈述的步骤。
18.权利要求1的方法,还包括在步骤(a)之前提示输入口呼数字串的步骤。
19.识别口呼数字串的方法,包括:
(a)提示输入口呼数字串;
(b)接收口呼数字串;
(c)分析口呼数字串以便基于匹配口呼数字串的可能性产生以等级排列的假设数字串列表;
(d)利用给定的基于知识的识别策略,确定与所述口呼字符串具有最大匹配可能性的列表中的假设字符串是否满足给定的约束条件;
(e)如果在步骤(d)满足了约束条件,则确认假设字符串,否则从列表中除去假设字符串并对所述列表中的剩余假设字符串重复步骤(d)和(e)。
20.权利要求19的方法,其中给定的约束条件是正确字符串数据库匹配。
21.权利要求20的方法,其中步骤(d)包括搜索正确数据串的数据库以便确定是否假设数字串与其中一个正确数字串匹配。
22.权利要求19的方法,其中给定的约束条件是校验和。
23.权利要求22的方法,其中的口呼数字串包括一个校验和数字,并且步骤(d)计算假设数字串的校验和并确定是否该校验和与校验和数字的值匹配。
24.权利要求22的方法,还包括:
如果没有假设的数字串满足约束条件:
(f)基于从列表中的假设数字串收集到的信息产生一个附加的假设数字串;
(g)分析附加的假设数字串以确定是否满足校验和方案,如果满足,确认附加假设数字串。
25.位于计算机可读媒体中供计算和使用的计算机程序产品,该程序产品用于识别口呼数字串,包括:
用于分析口呼数字串以便基于口呼数字串的匹配可能性产生按等级排列的假设数字串列表的装置;
基于知识的识别装置,用于从具有最大口呼字符串匹配可能性的字符串开始分析列表中的各个假设字符串,以确定它们是否满足给定的约束条件;
用于从所述列表中选出满足所述约束条件的第一字符串作为识别出的字符串的装置。
CNB998054755A 1998-12-29 1999-12-29 适用于自动语音识别系统的n最佳列表的基于知识的策略 Expired - Fee Related CN1179323C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/222073 1998-12-29
US09/222,073 US6922669B2 (en) 1998-12-29 1998-12-29 Knowledge-based strategies applied to N-best lists in automatic speech recognition systems

Publications (2)

Publication Number Publication Date
CN1299503A true CN1299503A (zh) 2001-06-13
CN1179323C CN1179323C (zh) 2004-12-08

Family

ID=22830703

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB998054755A Expired - Fee Related CN1179323C (zh) 1998-12-29 1999-12-29 适用于自动语音识别系统的n最佳列表的基于知识的策略

Country Status (7)

Country Link
US (1) US6922669B2 (zh)
EP (1) EP1070315A4 (zh)
JP (1) JP2002533789A (zh)
KR (1) KR20010041440A (zh)
CN (1) CN1179323C (zh)
AU (1) AU2401700A (zh)
WO (1) WO2000039788A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996629A (zh) * 2009-08-21 2011-03-30 通用汽车有限责任公司 识别语音的方法
CN101071564B (zh) * 2006-05-11 2012-11-21 通用汽车有限责任公司 把词表外语音与词表内语音区别开的方法
CN105468582A (zh) * 2015-11-18 2016-04-06 苏州思必驰信息科技有限公司 一种基于人机交互的数字串的纠正方法及装置
CN107632718A (zh) * 2017-08-03 2018-01-26 百度在线网络技术(北京)有限公司 语音输入中的数字信息的推荐方法、装置与可读介质
CN109472980A (zh) * 2018-10-18 2019-03-15 成都亚讯星科科技股份有限公司 基于NB-IoT技术的地磁车辆检测器及其检测方法

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7016827B1 (en) 1999-09-03 2006-03-21 International Business Machines Corporation Method and system for ensuring robustness in natural language understanding
DE10043499A1 (de) * 2000-09-01 2002-03-14 Bosch Gmbh Robert Verfahren zur Datenübertragung
KR100352748B1 (ko) * 2001-01-05 2002-09-16 (주) 코아보이스 온라인 학습형 음성합성 장치 및 그 방법
AUPR654401A0 (en) * 2001-07-23 2001-08-16 Transurban City Link Limited Method and system for recognising a spoken identification sequence
US7526431B2 (en) * 2001-09-05 2009-04-28 Voice Signal Technologies, Inc. Speech recognition using ambiguous or phone key spelling and/or filtering
US7505911B2 (en) * 2001-09-05 2009-03-17 Roth Daniel L Combined speech recognition and sound recording
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US7444286B2 (en) 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US7246062B2 (en) 2002-04-08 2007-07-17 Sbc Technology Resources, Inc. Method and system for voice recognition menu navigation with error prevention and recovery
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7664639B2 (en) * 2004-01-14 2010-02-16 Art Advanced Recognition Technologies, Inc. Apparatus and methods for speech recognition
US20060004574A1 (en) * 2004-06-30 2006-01-05 Microsoft Corporation Semantic based validation information in a language model to detect recognition errors and improve dialog performance
US7830900B2 (en) 2004-08-30 2010-11-09 Qualcomm Incorporated Method and apparatus for an adaptive de-jitter buffer
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US20070016460A1 (en) * 2005-07-14 2007-01-18 Vocollect, Inc. Task management system having selectively variable check data
EP2005418B1 (en) 2006-04-03 2012-06-27 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
CN100452042C (zh) * 2006-06-23 2009-01-14 腾讯科技(深圳)有限公司 数字串模糊匹配的方法
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
EP1933302A1 (en) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Speech recognition method
ATE474312T1 (de) * 2007-02-12 2010-07-15 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
EP2118885B1 (en) 2007-02-26 2012-07-11 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US8589162B2 (en) * 2007-09-19 2013-11-19 Nuance Communications, Inc. Method, system and computer program for enhanced speech recognition of digits input strings
EP2081185B1 (en) * 2008-01-16 2014-11-26 Nuance Communications, Inc. Speech recognition on large lists using fragments
DE102008007698A1 (de) * 2008-02-06 2009-08-13 Siemens Aktiengesellschaft Verfahren zur Erkennung einer Eingabe in einem Spracherkennungssystem
WO2009152124A1 (en) * 2008-06-10 2009-12-17 Dolby Laboratories Licensing Corporation Concealing audio artifacts
US8321958B1 (en) 2008-07-30 2012-11-27 Next It Corporation Detecting presence of a subject string in a target string and security event qualification based on prior behavior by an end user of a computer system
US20100281435A1 (en) * 2009-04-30 2010-11-04 At&T Intellectual Property I, L.P. System and method for multimodal interaction using robust gesture processing
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US9123339B1 (en) 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US10534931B2 (en) 2011-03-17 2020-01-14 Attachmate Corporation Systems, devices and methods for automatic detection and masking of private data
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN103188409A (zh) * 2011-12-29 2013-07-03 上海博泰悦臻电子设备制造有限公司 语音自动应答云端服务器、系统及方法
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别系统以及声音识别方法
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
WO2019220725A1 (ja) * 2018-05-18 2019-11-21 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
CN113178190A (zh) * 2021-05-14 2021-07-27 山东浪潮科学研究院有限公司 一种基于元学习提高生僻字识别的端到端自动语音识别算法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4882757A (en) * 1986-04-25 1989-11-21 Texas Instruments Incorporated Speech recognition system
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US5222187A (en) * 1989-12-29 1993-06-22 Texas Instruments Incorporated Grammar-based checksum constraints for high performance speech recognition circuit
US5119416A (en) * 1990-05-30 1992-06-02 Nynex Corporation Automated telephone number identification for automatic intercept in telephone networks
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5903864A (en) * 1995-08-30 1999-05-11 Dragon Systems Speech recognition
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6049768A (en) * 1997-11-03 2000-04-11 A T & T Corp Speech recognition system with implicit checksum
US6205428B1 (en) * 1997-11-20 2001-03-20 At&T Corp. Confusion set-base method and apparatus for pruning a predetermined arrangement of indexed identifiers
US6208965B1 (en) * 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071564B (zh) * 2006-05-11 2012-11-21 通用汽车有限责任公司 把词表外语音与词表内语音区别开的方法
CN101996629A (zh) * 2009-08-21 2011-03-30 通用汽车有限责任公司 识别语音的方法
CN101996629B (zh) * 2009-08-21 2012-10-03 通用汽车有限责任公司 识别语音的方法
CN105468582A (zh) * 2015-11-18 2016-04-06 苏州思必驰信息科技有限公司 一种基于人机交互的数字串的纠正方法及装置
CN105468582B (zh) * 2015-11-18 2018-03-02 苏州思必驰信息科技有限公司 一种基于人机交互的数字串的纠正方法及装置
CN107632718A (zh) * 2017-08-03 2018-01-26 百度在线网络技术(北京)有限公司 语音输入中的数字信息的推荐方法、装置与可读介质
CN109472980A (zh) * 2018-10-18 2019-03-15 成都亚讯星科科技股份有限公司 基于NB-IoT技术的地磁车辆检测器及其检测方法

Also Published As

Publication number Publication date
US20030154075A1 (en) 2003-08-14
AU2401700A (en) 2000-07-31
EP1070315A4 (en) 2005-07-27
US6922669B2 (en) 2005-07-26
WO2000039788A2 (en) 2000-07-06
JP2002533789A (ja) 2002-10-08
WO2000039788A3 (en) 2000-11-02
CN1179323C (zh) 2004-12-08
KR20010041440A (ko) 2001-05-25
EP1070315A2 (en) 2001-01-24

Similar Documents

Publication Publication Date Title
CN1179323C (zh) 适用于自动语音识别系统的n最佳列表的基于知识的策略
Tulyakov et al. Review of classifier combination methods
US8391614B2 (en) Determining near duplicate “noisy” data objects
Senior et al. An off-line cursive handwriting recognition system
US5933531A (en) Verification and correction method and system for optical character recognition
US7623715B2 (en) Holistic-analytical recognition of handwritten text
EP0567680B1 (en) Pattern recognition and validation, especially for hand-written signatures
CN111062376A (zh) 基于光学字符识别与纠错紧耦合处理的文本识别方法
Hu et al. Comparison and classification of documents based on layout similarity
CN1187257A (zh) 手写体输入字符识别的方法和设备
CN111062397A (zh) 一种智能票据处理系统
US20060117228A1 (en) Method and device for determining and outputting the similarity between two data strings
US7587374B1 (en) Data clustering method for bayesian data reduction
Denker et al. Image segmentation and recognition
Villegas et al. Overview of the ImageCLEF 2016 Handwritten Scanned Document Retrieval Task.
Calvo-Zaragoza et al. Hybrid hidden Markov models and artificial neural networks for handwritten music recognition in mensural notation
EP0074769B1 (en) Recognition of speech or speech-like sounds using associative memory
Huang et al. Mapping transcripts to handwritten text
CN113128504A (zh) 一种基于校验规则的ocr识别结果纠错方法、设备
Ji et al. Piano Sheet Music Identification Using Marketplace Fingerprinting.
JP2998054B2 (ja) 文字認識方法及び文字認識装置
Singh et al. Simultaneously Learning Robust Audio Embeddings and Balanced Hash Codes for Query-by-Example
US6298325B1 (en) Speech recognition system for sequence data
CN115579000B (zh) 一种用于语音识别芯片的智能修正方法及系统
CN114519856B (zh) 航空发动机叶片字符明码识别结果的后处理判断校正方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20081226

Address after: Massachusetts

Patentee after: Nuance Communications Inc.

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

ASS Succession or assignment of patent right

Owner name: WEICHA COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20081226

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee