CN1163869C

CN1163869C - 用于开发交互式语音应用程序的系统和方法

Info

Publication number: CN1163869C
Application number: CNB988069148A
Authority: CN
Inventors: 马休T・马克思; 马休T·马克思; たㄌ; 杰瑞K·卡特; S・菲利普斯; 迈克尔S·菲利普斯; せ舳特豪斯; 马克A·霍尔特豪斯; D・西伯里; 斯蒂芬D·西伯里; ぐ＠桑多-切切纳斯; 乔斯L·埃利桑多－切切纳斯; D・法纳夫; 布雷特D·法纳夫
Original assignee: VOICE ENGINEERING INTERNATIONAL CORP
Current assignee: VOICE ENGINEERING INTERNATIONAL CORP
Priority date: 1997-05-06
Filing date: 1998-05-06
Publication date: 2004-08-25
Anticipated expiration: 2018-05-06
Also published as: CN1273661A; EP1021804A1; US6173266B1; WO1998050907A1; CA2292959A1; AU7374798A; AU758006B2; EP1021804A4

Abstract

本发明公开了一种用于在语音处理系统中保存多个对话模块的系统和方法，其中各个对话模块都含有计算机可读的指令，这些指令用于在交互式语音应用程序中完成预定的交互对话任务。作为对开发者输入的响应(图7，51)，多个对话模块(图7，710，720，730)被选中以在该交互式语音应用程序中完成它们各自的交互对话任务，而且这些对话模块被相互连接起来以用于定义应用程序的通话流程(图1，110-180)。本发明还公开了一种图形用户界面，它将已保存的多个对话模块用图标的形式显示在一图形显示器中(图7)，在此图形显示器中，响应开发者的输入而选中图标，各对话模块子集的图标与交互式语音应用程序的通话流程的图形显示相互关联，并且根据此图形显示而产生交互式语音应用程序。

Description

用于开发交互式语音应用程序的系统和方法

相关申请

本专利申请要求美国临时专利申请系列NO.60/045,741的优先权(申请日为1997年5月6日)，在此结合作为参考。

技术领域

本发明一般涉及一种用于开发由计算机执行的交互式语音应用程序的系统和方法。

背景技术

基于计算机的交互式语音应用程序被设计用于提供自动交互通信，它一般用来在电话系统中应答接入的电话。这种应用程序可被设计成能够执行各种复杂的任务，例如，收集呼叫者的信息、为呼叫者提供信息、以及在电话系统内为呼叫者连接适当的对象。但是，用以前的手段来开发这些程序却十分困难。

图1显示了一个通话流程，它对由公司A用来指引一个打入电话的交互式语音应用程序100进行了说明。应用程序100由电话系统中的语音处理单元或PBX来执行。此通话流程在系统接收到一个打入电话时被激活，并且以输出一句问候“欢迎来到公司A”(110)作为开始。

然后该程序会给呼叫者列出各个有效选项(120)。本例中，程序通过播放一段事先录制好的提示音或者利用语音发生器(如文本—语音转换器)向呼叫者输出一个可听到的语音信号，例如“如果您知道受话者的名字，请先说名再说姓。如果您想与接线员讲话，请说‘接线员’”。

然后程序将等待呼叫者的响应(130)，并在接收到响应后对其进行处理(140)。如果呼叫者说，例如，“Mike Smith”，则程序必须能够识别出呼叫者所说的话并确定是否有Mike Smith，以便将电话转接给他。功能强大的系统应该能够识别出名字的一般变化和变更。例如，图1所示的程序可以鉴别出公司A雇员列表中各个雇员的全名—如，“Michael Smith”。但是，该应用程序还应知道将打电话找“MikeSmith”(假设雇员列表中只有一个雇员的名字与之相符)的人连接到列表中名为“Michael Smith”的雇员。

假设程序找到了这样一个人，则它将输出一个确认提示“您是说‘Michael Smith’？”(150)。然后程序将再次等待呼叫者的响应(160)，并且在当接收到响应时(170)，执行适当的操作(180)。本例中，如果呼叫者的应答为“是”，则程序可以在执行适当步骤以转接电话之前说“谢谢，请稍候以为您转接Michael Smith”。

图2显示了一些步骤，它们被执行以用于图1所示交互式程序的各个交互步骤。具体来说，将图2的过程应用于图1所示应用程序的第一个交互步骤，则该交互式语音应用程序将输出图1中步骤120的提示(210)。然后程序将等待呼叫者的响应(220，130)。该步骤应不仅能够完成对接收到的响应的处理，如图1中的例子所示(140)，还应能对没有响应作出处理。例如，若在一预定时间内没有接收到响应，则程序将执行“超时(”(230)并以一适当的提示来重新提示呼叫者(步骤215)，如“很抱歉，我没有听到您的响应。请重复您的回答”，然后程序将返回以等待呼叫者的响应(220，130)。

当应用程序检测到呼叫者的响应时(240)，图1中的步骤140将尝试对呼叫者的语音进行识别(一般需要记录下呼叫者的语音波形)、确定该语音波形的语音特征、并将该语音特征与已知词汇表数据库中的内容进行比较。如果程序不能确定可能符合的假设(250)，则它将重新提示呼叫者(215)并返回以等待呼叫者的响应(220)。一般来说，重新提示的内容在程序通话流程的不同点上是不一样的。例如，与在超时间隔期间未接收到响应而作出的重新提示相反，当已接收到呼叫者的响应但其并不与已知响应相符时，所产生的重新提示可以为“很抱歉，我不明白您的响应。请重复受话者的姓名，或者说‘接线员’”。

如果程序对呼叫者所说的话提供出一个或多个假设(260，270)，则它将为各个假设确定一个可信度参数，该参数反映了假设的正确性。图2显示的解释步骤(280)可被用于低可信度和高可信度的假设。例如，如果可信度等级落在被确定为“高”的范围之内(步骤260)，则可用程序直接执行适当的操作(290，180)而无需经过确认过程(150，160，170)。另外，也可以用一应用程序来为低和高可信度的假设执行确认过程。例如，图1的程序可以为呼叫者辨别出最佳假设并询问其是否正确。

如果应用程序将该假设解释为不正确(例如，若呼叫者对步骤150的确认提示作出“否”的响应)，则应用程序将拒绝此假设并重新提示呼叫者以重复他或她的响应(步骤215)。如果程序将此假设解释为正确(例如，若呼叫者对检验提示的响应为肯定)，则程序将接受该假设并采取适当的操作(290)，如图1的例子所示，此操作将输出180的提示并为呼叫者转接Michael Smith。

如通过图1和图2的应用程序100所举例说明的那样，交互式语音应用程序是很复杂的。因而要利用以前的应用程序开发工具来实现这样一种交互式语音应用程序(如图1和图2所示的程序)，就需要开发者设计程序的整个通话流程，包括对待由程序识别的各种词汇进行定义以响应程序的各种提示在内。在一些情况下，词汇的填充需要使用一些其它的应用程序，如数据库应用程序。因此，利用以前的解决手段，开发者需要耗费大量的时间，而且还要很复杂地来保证交互式语音应用程序与任何外部应用程序及其访问的数据之间的兼容性。

另外，开发者必须将通话流程设计成能够解释程序中同一提示所得到的不同类型的响应。以前的解决手段通常需要开发者定义一个待被识别的语言的语言模块，它一般包括用于对语言进行普通定义的语法规则，以及对待与呼叫者进行交谈的预期通话流程进行更为具体定义的语法规则。而这种定义工作是非常冗长乏味的。

由于在语音理解中会出现不可避免的含义模糊和错误，所以程序开发者还需提供错误恢复功能(包括错误控制功能和错误防止功能)以便于对语音模糊及错误进行适当的控制，从而不使呼叫者受挫。这就需要开发者不仅应尽量提供一个可靠的语音识别系统，还应设计出多个备选方法以从呼叫者处提取并处理所需的信息。这些备选方法可包括：设计帮助提示以表达特定情况，以及让呼叫者使用不同的方法来响应，如：允许呼叫者拼出他们的响应或允许他们利用按钮式电话的键盘来输入响应。在以前的解决手段中，程序开发者需人工准备错误控制、错误防止、以及它们所用的任何替代方法。这需要耗费大量的时间，并且有可能导致功能或重要步骤被忽略。

根据以上所述，很明显，在本领域中需要有一种能够解决上述缺陷的交互式语音开发系统和方法。

发明内容

概括起来，从一个方面来说，本发明的特征在于，它通过在一语音处理系统中保存多个对话模块，从而提供了一种由开发者构建交互式语音应用程序的计算机实现方法，其各个对话模块都含有计算机可读的指令，这些指令用于在交互式语音应用程序中完成预定的交互对话任务。作为对开发者输入的响应，多个对话模块中的至少一个对话模块被选中以在该交互式语音应用程序中完成它们各自的交互对话任务，而且这些对话模块被相互连接起来以用于定义应用程序的通话流程，这样，应用程序就被生成。

本发明的具体应用可以含有以下一个或多个功能。本发明所提供的这种方法还可包括在交互式语音应用程序执行时，将特定对话模块与用于改变此对话模块操作的配置参数相互关联。这些配置参数可响应开发者输入而被进行设置。

与对话模块相关联的交互对话任务包括向程序用户输出一个提示并从程序用户处接收响应。配置参数的例子包括：用于在提示被输出后为程序用户定义响应时间段的超时参数；用于定义一待输出提示的提示参数；用于在不能识别程序用户的响应时定义一待输出的致歉提示的致歉提示参数；以及用于指定来自程序用户的可被识别的响应的参数。

与对话模块相关联的交互对话任务含有：用于向程序用户输出一个提示的指令；用于从程序用户处接收响应的指令；以及用于和语音识别引擎(它利用识别模型来识别接收到的响应)进行交流的指令。交互对话任务还可含有用于在交互式语音应用程序执行期间根据识别到的响应对由语音识别引擎使用的识别模型进行更新的指令。

本发明所提供的方法还包括在一图形显示器中用图标来对已保存的多个对话模块进行图形化显示的功能。在此方法中，多个对话模块的图标会响应开发者输入而被选中，各对话模块的图标与交互式语音应用程序的通话流程的图形表示相互关联，交互式语音应用程序就根据此图形表示而被生成。利用图形显示器，该方法还包括将配置参数与特定对话模块相互关联的功能。各配置参数可在当此交互式语音应用程序执行时改变相应对话模块的操作。当一个具有相关配置参数的对话模块的图标被选中时，将有一个窗口被显示出来以用于响应开发者输入对该配置参数的数值进行设置。

从另一个方面来说，本发明的特征在于，它提供了一种由开发者构建供程序用户使用的交互式语音应用程序的计算机实现方法，该方法包括：提供多个对话模块模板，每个模板与预定的交互对话任务相关联；响应开发者的输入，生成交互式语音应用程序中使用的多个对话模块实例，其中每个对话模块实例都以一个对话模块模板为依据并且是该对话模块模板的一个定制版本，对话模块模板和对话模块实例均为对话模块形式；以及响应开发者的输入，建立至少两个对话模块之间的至少一种关系以定义程序用户和交互式语音应用程序之间的对话流程。

从再一个方面来说，本发明的特征在于，它提供了一种装置，该装置能够使语音应用程序开发者构建程序用户使用的交互式语音应用程序，该装置包括：提供多个对话模块的设备，其中每个对话模块包括使计算机完成预定交互对话任务的计算机可读指令；响应开发者的输入，选择多个对话模块中的至少一个对话模块来完成至少一个交互对话任务的设备；以及响应开发者的输入，建立该至少一个对话模块和除该至少一个对话模块之外的一个对话处理单元之间的至少一种关系以定义程序用户和该交互式语音应用程序之间的对话流程的设备。本发明具有如下的一个或多个优点。它提供了多个预装软件模块，每个模块都代表了一个分立的对话任务以用在交互式语音应用程序之中。因为这些“对话模块”中的每一个模块都执行一个分立的任务，所以它们具有很强的独立性，这就使应用程序开发者在制作一个客户程序时，只需简单地按所需的应用程序通话流程的顺序将这些对话模块组合起来，从而给开发者以很大的灵活性。另外，由于它们都有具体的任务，所以通过对语义、语言和声音模型进行调整，就可优化这些对话模块以提供最高的识别精度和任务完成率。

通过在预装模块中提供对话模块(Dialogue Module)模板，本发明可被用于生成各种具有内部固定软件代码的应用程序，这在具有复杂通话流程的较大程序中尤为重要。

对话模块模板具有可定制的参数，它们为开发者在制作程序时提供了高度的灵活性。例如，尽管对话模块可被用于向呼叫者提供预先录制好的“缺省”提示，开发者也可为特定的应用程序定制提示。其它的可定制功能包括：是否打开如“闯入”功能以便在程序提示运行时对呼叫者的语音进行识别；选择适当的错误控制方法和提示；以及修改或生成一个可识别词汇的数据库。

即使开发者没有受过正规的语音训练，本发明也能使开发者制作出各种交互式语音应用程序以与呼叫者进行自动交谈。

附图说明

图1是一种交互式语音应用程序的通话流程图。

图2是交互式语音应用程序中一个交互步骤的流程图。

图3是一种可应用交互式语音应用程序的计算机系统的框图。

图4是一种适用于开发交互式语音应用程序的系统的逻辑框图。

图5的流程图显示了一种含有对话模块实例的交互式语音应用程序。

图6是一个对话模块所执行步骤的流程图。

图7显示了一种用于生成和编辑交互式语音应用程序的图形用户界面(GUI)。

图8是一种使用对话模块的交互式语音应用程序的逻辑表示。

图9-16显示了多个用于生成和编辑交互式语音应用程序的图形用户界面(GUI)。

具体实施方式

在对一种用于开发交互式语音应用程序的方法和系统所作的以下说明中，为了达到说明性的目的，本文提出了多个具体细节以使本发明得到透彻的理解。但是，很明显，对于熟练人员来说，本发明可在没有这些具体细节的情况下得以实现。在其它的实例中，为了避免对本发明的理解产生不必要的障碍，一些已知的结构和设备被以框图的形式表示出来。

I·一种用于开发交互式语音应用程序的系统的概述

本发明涉及到利用计算机系统来开发交互式语音应用程序。图3的框图显示出了这样一种应用有本发明一个实施例的计算机系统300。该计算机系统300含有一条用于进行信息通信的总线302或其它通信机构，以及一个与总线302相连用于处理信息的处理器304。计算机系统300还含有一个主存储器306，如随机存取存储器(RAM)或其它动态存储器，它与总线302相连，用于保存信息和保存待由处理器304执行的指令。主存储器306还可在处理器304执行指令期间用于保存临时变量或其它中间信息。计算机系统300还含有一个只读存储器(ROM)308或其它静态存储器，它与总线302相连，用于保存静态信息和处理器304的指令。与总线302相连的还有一个用于保存信息和指令的存储装置，如磁盘或光碟。

计算机系统300还含有输出设备，如显示器312，它与总线302相连，用于向计算机用户显示信息。用于和处理器304进行信息和命令选择通信且与总线302相连的输入设备可包括：键盘314、麦克风316以及光标控制设备318(如鼠标、轨迹球或光标方向键)，光标控制设备318用于与处理器304进行方向信息及命令选择通信，并用于控制光标在显示器312上的移动。

计算机系统300还含有一个与总线302相连的通信接口320，它用于为外部计算机系统或网络提供连接。例如，如图3所示，通信接口320可为与局域网324相连的网络连接322提供双向通信连接。例如，通信接口320可以是一块综合业务数字网(ISDN)卡或是一个调制解调器，以便为相应类型的电话网线324提供数据通信连接322。作为其它的例子，通信接口320可以是一个用于在电话网络线324上提供语音和数据通信连接322的电话接口/语音卡，或者也可是一个局域网(LAN)卡以用于为兼容LAN 324提供数据通信连接。也可实施无线连接。在任何一个这样的实施中，通信接口320都能发送和接收电气、电磁或光信号，这些信号载有代表各类信息的数字数据流。

网络连接一般通过一个或多个网络来为其它数据设备提供数据通信。例如，网络链路322可以通过局域网324为计算机主机326或由互联网服务提供商(ISP)328操作的数据设备提供连接。ISP 328会顺序通过全球广域分组数据通信网络(现在一般被称为“互联网”)330以提供数据通信服务。

使用于语音系统的计算机系统各单元的其它细节在G.pelton的“语音处理”(纽约：McGraw-Hill，1993)，ISBN 0-07-049309-X，第8章(“软件开发”)中有详细的说明。

根据本发明的一个实施例所述，它利用在普通用途的计算机系统(如计算机系统300)中运行的软件来开发并执行一种交互式语音应用程序。在其它的实施例中，可以通过使用专用硬件来代替软件或者将硬件与软件结合在一起以实现本发明。因此，本发明的各实施例并不局限于任何硬件电路与软件的特定组合。

图4的功能框图显示出了一种用于开发交互式语音应用程序的系统400。在此系统中，“服务”410是一个定制的交互式语音应用程序，它被开发用于执行一个或多个对话任务以提供用户定制服务。这种服务的一个例子就是参考上述图1和图2用于接收并为打入公司A的通话选定线路的程序。

应用程序开发者生成的服务410在一个实时服务执行环境420中定义了一个通话流程，此服务执行环境420可以是向开发者提供的缺省环境或是为特定服务410而专门生成或修改的定制环境。本实施例中，服务执行环境420提供了用于执行服务410的“main( )”函数，而服务410被配置成为一个动态连接库(dll)。

服务410的通话流程说明了它与呼叫者的交谈过程，它使用了对话模块430中的一个或多个软件对话模块的“实例(instance)”功能。系统400含有多个对话模块，其每个模块都被设计用于执行一个具体的对话任务，如：输出一个提示、识别呼叫者的语音以作为预定列表中的一个识别项、识别呼叫者的语音以作为肯定或否定(是/否)响应、或者识别呼叫者拼出的字符串。在此处说明的实施例中，对话模块模板是一种编程语言(如C++)中的函数、方法、对象或子程序，当然也可以采用各种不同的编程语言。

开发者利用对话模块来完成它们在服务410中的各自对话任务。各对话模块可以使用缺省配置参数或者也可使用为特定服务定制的参数。对话模块实例的参数可以被定制为，例如，输出定制提示、响应提示而识别定制的词汇、打开或关闭特殊功能、以及设定各种附加参数。

对话模块430在服务410和语音单元440，450之间提供了一个接口，该接口执行使系统400能够对输出和输入音频信号进行控制的功能。通过提供该接口，对话模块430允许开发者在不用详细了解语音单元440，450的情况下就可以开发出一个服务410，而语音单元440，450的功能包括向呼叫者输出提示以及接收并处理呼叫者的输入语音。系统400中可含有任意数量的语音单元440，450。

在图4所示的实施例中，语音输出单元440通过电话接口单元460输出语音提示(或者其它的音频信号)。在一些情况下，语音输出单元440可以通过简单地执行一特定音频文件以输出预先录制好的语音。另外，语音输出单元440可以含有一个语音合成系统，如DECtalk^TM，它是数字设备公司(Digital Equipment Corporation)用于将文本转换为语音的一种文本—语音合成器。市场上的语音合成器通常都含有一个发音字典以及一个语音发生器，它们用于解释输入的文本串、确定其发音、以及产生并输出语音波形。另外，语音输出单元440可以含有用于在提示播放结束时输出一个音频信号(如“嘀”声)的软件，其目的是告诉呼叫者可以开始说话。语音输出单元440还可含有用于在当呼叫者的语音被判别为需要提供“闯入(barge-in)”检测和处理时停止输出提示的软件。关于闯入检测和控制的细节在(例如)美国专利申请系列No.08/651,889、题为“与语音识别系统有关的用于简化闯入的方法及装置”一文中已有说明，该申请已转让给本发明的受让人。

语音输入单元450可在服务执行期间，对通过电话接口单元460接收到的接入语音信号进行接收、记录和处理。语音输入单元450通常含有一个语音识别引擎，如在SpeechWorks^TM中所提供的语音识别引擎(Speech Recognition Engine)，它由马萨诸塞州波士顿的应用语言技术公司提供，用于对语音输入进行记录、数字化及处理。该语音识别引擎可以利用附加的单元来产生对从呼叫者接收到的接入语音信号的文字表示，这些附加单元如：用于确定一输入口语单词语音特征的声音模型，用于确定可能匹配假设的可信度的可信度关联单元。该引擎含有自然语言模型信息，如：待识别语音的语言语法规则。

电话接口单元460包括多个组成单元，如：电话卡，用于在电话线上进行通信时提供电话接口/语言板；通话频道，用于在电话线上控制多路通话；音频播放器/录音器，用于向呼叫者输出提示并记录呼叫者打入的语音；以及其它需要用来向呼叫者输出语音信号和接收语音信号的单元，还有用来控制上述各单元的软件库。

服务410(包括各对话模块实例及其下属的语音单元440，450和电话接口单元460在内)是在实时服务执行环境420内进行操作的。如上所述，在本实施例中，服务410被配置成一个动态链接库(dll)，它被提供“main( )”函数的服务执行环境420调用并执行。该库中还有附加的软件代码，其作用是控制对话模块实例及其它全局通用函数的调用。

服务执行环境420一般会调用服务410三次：服务初始化，服务执行(处理来话呼叫)，以及服务清除(在通话处理之后)。服务执行环境420各种函数的实例可以被设置成用于处理以下内容，包括：

·初始化电话接口；

·初始化通往语音单元440，450和对话模块430的接口；

·在需要时，调用为用户提供的服务初始化程序；

·等待电话打入；

·确定电话信道；

·调用为用户提供的服务执行程序；

·确保断开已经完成的通话；以及

·调用清除程序，包括：清除为用户提供的服务的程序、对话模块清除程序、以及硬件/电话资源清除程序。

II·对话模块

交互式语音应用程序通常都含有一系列的分立对话任务一它们要求呼叫者提供特定类型的信息并处理呼叫者的响应。对话模块是一些预先定义的软件单元，它们用于在应用程序内执行这些对话任务。各对话模块都能完成一个分立的任务并保存其结果，包括一个用于说明其终止条件的数值在内。例如，终止条件可以包括：SUCCESS，它说明对话任务已成功完成；TIMEOUT，它说明呼叫者未在预定的时间周期内作出响应；或ERROR，它说明系统不能识别呼叫者的响应。

如参考图4所作的上述说明，对话模块430在服务410和语音单元440，450之间提供了一个接口，它允许开发者在不用详细了解语音技术的情况下进行各种程序的开发。服务410含有对对话模块430的一系列调用，其目的是产生所需的通话流程并为特定的服务410定制特定用途。对话模块430则依次通过语音单元440，450和电话接口单元460来处理与呼叫者的通信。

此处所指的对话模块“模板(templates)”是一些预先定义好的软件模块，它们是交互式语音应用程序的组成部分，而对话模块“实例”则是模板在特定服务中使用时的版本。对话模块实例可以与它所基于的模板相同，或者也可专门为特定服务定制。实例被标以唯一的标志，在一个服务中允许使用多个对话模块模板的实例。

图5的流程框图是一种应用系统400的服务410的实例，系统400是象如图4所示并且具有参考图1和图2所述通话流程的系统。服务410以调用一个项目列表对话模块(ItemList Dialogue Module)实例520来作为开始510，其任务是辨别出呼叫者想要接通的对象。项目列表模块520以播放一段提示对象521作为开始，本实例中，项目列表模块520利用语音输出单元440和电话接口单元460输出一段语音信号以作为由图1中功能块110和120所示的定制提示，并且还接收呼叫者的语音响应。

项目列表模块520访问一个定制的已知词汇表，该词汇表具有可以辨认出由服务410所识别的人的项目。在图1的实例中，已知词汇表与公司A的各个雇员以及接线员和/或各部门的名称(如：销售部，客户服务部，等等)相对应。这个定制的词汇表一般被程序开发者用来识别一个雇员，它不仅能识别雇员的全名，还能识别出该雇员可能被识别的其它名称，如：只有姓、只有名、或只有一个昵称，也许与姓混合在一起使用。例如，如果一个雇员的姓名是Michael A.Smith，则数据库应不仅能识别“Michael Smith”，还应能识别出呼叫者喜欢用来辨认该雇员的其它名称，如“Mike Smith”，“Michael”，“Mike”以及“Smith”。可以利用如以下将要说明的词汇表编辑程序或其它适当的数据管理应用程序来生成这样一种词汇表。

在由块523所代表的确认步骤中，项目列表模块520根据由语音输入单元450确定的可信度等级而辨别出一个或多个词汇表项目以作为对呼叫者想找的人的假设。在该实施例中，如果具有最高可信度等级的假设，其可信度等级超过了一预定门限值，则项目列表模块520将认为该假设是对呼叫者响应的正确匹配。如果不存在这样的假设，则项目列表模块520将把可信度等级落在一预定范围之内的假设确定表示为可能的匹配。项目列表模块520为这些假设依次输出提示，直到其中一个假设被确认或者假设列表用完为止。更具体地说，确认步骤523接收并处理呼叫者的响应以确定该响应是肯定还是否定。

要对呼叫者的响应进行处理，就要求项目列表模块能够理解并辨别各种作为肯定或否定的响应，不仅应包括“是”和“否”，还应包括它们的同义词，如“正确”， “错误”，“对”，“错”，等等。因此，项目列表模块520还需使用一个已知词汇表以用于确认步骤，该表含有多个项目以用于对确认步骤的已识别响应，包括用于指示确认响应是肯定还是否定的各项信息。

与项目列表模块520用来辨别公司A雇员的高度专用识别词汇表不同，确认步骤523所用的识别词汇表可以在各种服务中通用。因此，确认步骤523可以利用一个预定缺省词汇表(它含有作为标准响应的项目)来实现。但是，如下所述，在需要时，程序开发者可以定制缺省数据库或对其进行更换以供特定服务使用。例如，在说西班牙语的地理区域内，可以给相应于肯定响应的数据库项目增加西班牙语词汇表。

如果项目列表模块520确定出确认步骤523已确认一个假设，则它将保存该假设以及其终止条件(SUCCESS)并返回至服务的主函数，以将通话转接给被识别出来的人530。如果项目列表模块520确定出确认步骤523未能确认一个假设或者在超时(TIMEOUT)或错误(ERROR)情况下终止，则项目列表模块520将试图重新完成其任务(重复从块521开始、输出提示并接收和处理响应的循环过程)。另外，项目列表模块520可以在ERROR条件540下终止并采取适当的终止操作。在本实例中，类似的操作可以是将呼叫者转接给当值的接线员。

尽管未在图1中示出，对话模块还可包括备选的各种后退(fallback)方法，它们用于在不能识别或不能确定呼叫者的响应时执行对话任务。这些方法的例子如：要求呼叫者拼出他或她的响应，或者要求呼叫者利用按钮式电话的键盘来输入响应。在由图5所示的服务410中，项目列表对话模块实例520为呼叫者提供了一种拼音后退方法。

在服务410执行期间，当在理解用户时出现一预定次数(可以为缺省值，也可以是由开发者定制的值)的失败尝试时，项目列表520将根据从呼叫者处接收到的拼音，采用拼音后退法522以确定词汇表中的一项。本例中，拼音后退法522使用了与项目列表模块520所使用的相同识别词汇表，并提示呼叫者先名后姓地拼出他或她想找的人的全名。拼音后退法522在接收呼叫者的拼音的同时，搜索识别词汇表并逐字符地进行转换。

拼音后退法522被用于引入一种“先行(look-ahead)”功能，该功能在(例如)美国专利申请系列号No.08/720,554、名为“用先行辨认来连续拼写语音识别的方法及装置”一文中已有说明，而且该申请也已转让给本发明的受让人。利用这种先行功能，拼音后退法522将在辨别出呼叫者所说的字符唯一符合词汇表中的一项时成功地终止，即使呼叫者尚未说完整个单词或句子。如果拼音后退法522顺利地辨别出至少一项，则它将保存结果并如上所述地继续执行确认步骤523。

如果拼音后退法522不能辨别出符合条件的人，则它将适当地保存一个TIMEOUT或ERROR终止条件，并且执行退出步骤540。出错时所采取的操作可以为不同的服务而定制。如上所述，在图1和图2所示的例子中，类似的终止操作可以是将呼叫者转接给当值接线员。

A·对话模块的一般功能

对话模块以及它们所执行的具体任务具有多变的复杂性和灵活性，其范围从简单的单步模块一直到复杂的多步骤模块。单步模块的一个例子如：是/否模块，它用于输出提示并确定用户的响应是肯定还是否定。与单步模块相比，多步骤模块的一个例子如：要求呼叫者提供地址的模块，该模块能够将呼叫者的语音转换成文本，并且还能将特定的口语单词或句子与信息的特定区段(如：街道名称、城市，州和邮编)相关联。

在各对话模块模板控制不同对话任务的同时，这些模板一般都含有用来适当地结束其对话任务或者退出的通用功能。图6的框图就显示出了一些这样的功能，包括：进行提示、收集呼叫者的响应、有选择地确认呼叫者的响应、提供后退法以用于正确识别呼叫者的响应、以及在需要时辨别清楚呼叫者所作响应的含义。

1·初始提示

大部分对话模块都执行一个涉及要求提供并处理呼叫者信息的交互对话任务，因此它们都含有一个如块610所示的初始提示，该提示用来要求呼叫者说出所需的信息。例如，对参考图1、图2和图5所述的服务来说，项目列表模块530使用的一个初始提示是要求呼叫者说出受话者的姓名。

2·收集响应

如块620所示的收集步骤是一个交互任务的下半段—即，接收呼叫者的响应。对话模块通过录下呼叫者语音的波形来收集响应。为了防止使呼叫者长时间地等待，该步骤一般都含有一个“超时”参数，该参数用于在提示输出完成后为呼叫者设定一个进行响应的预定时间段。因此，有两种可能的结果：识别一个已接收到的响应，或者在超时周期内未识别出任何响应，这两种结果分别由控制路径620b和620a代表。

在收集步骤中提供有可定制的功能。例如，如下所述，超时周期可被设定为具有不同的时间长度。另外，可以激活提示完成后发出“嘀”声的功能，它用于在完成提示输出之后超时周期开始时输出一个“嘀”声(或任何其它各类声音)以提示呼叫者开始说话。类似地，也可以打开一个声音功能，它用于在呼叫者说完应答之后输出一个声音(如：滤波噪声)，用以使呼叫者知道系统正在对响应进行处理。还可打开另一个功能，即“闯入”控制功能，该功能允许收集步骤对在执行的提示被全部输出之前所接收到的呼叫者的响应进行检测和收集，而且可以通过对如闯入门限这样的参数进行设定，以确定何时使用闯入功能。如下所述，这些参数中的每一个都可被设定为缺省值，或者也可由程序开发者定制。

3·确认响应

如果在超时周期内接收到响应，则对话模块将试图确认呼叫者的响应是否已得到正确的识别，如块630所示。本实施例中，确认步骤630涉及到试图为利用语音输入单元450记录的语音波形在专用识别词汇表中找出一个匹配项。如上所述，本实施例中，输入语音单元450含有一个语音识别引擎，它能为一个匹配确定一个或多个假设，并能根据各种模型(如语义、语言和声音模型)而为各个假设产生一个可反映其可信度等级的分数。在一个实施例中，确认步骤630为各个假设依次输出确认提示、要求呼叫者确认一给定假设是否正确，直到有一个假设被确认或所有假设全部被否决为止。

专用识别词汇表可以是一个缺省词汇表，或者也可为特定服务而定制。例如，一个对话模块模板(如：是/否模块)可以提示呼叫者作出在不同服务中所使用的相同响应。这样的模板一般都使用一个标准的缺省词汇表，但由这些模板的实例所使用的词汇表可由开发者自行定制或修改。其它一些模块(如：项目列表模块)一般都需要使用专为特定服务生成的定制词汇表。如以下较为详细的说明那样，开发者可以在开发一个服务期间，利用编辑工具来制作并生成一个定制词汇表。另外，在服务执行期间，可通过一个实时程序编程接口来对一现有词汇表进行动态更新，该接口所使用的技术在同时待审的美国专利申请系列No.08/943,557中得到了说明。该专利申请的名称为“用于动态适配一个大型词汇表语音识别系统以及用于在一个大型词汇表语音识别系统中对数据库进行限制使用的方法及装置”，它也已经转让给本申请的受让人。

确认步骤630利用各种因素来确定是否有词汇表项应被认为是可以精确代表呼叫者响应的假设。这些因素包括：由语音输入单元450的语音识别引擎所产生的可信度等级，代表需考虑假设的最大数目“n”值(n个最佳假设)，以及先前的识别信息。

更具体地说，确认步骤630将为作为一个对呼叫者响应的识别假设的各个词汇表项确定一个可信度等级分数。象图2中所建议的那样，可对通过预定门限等级进行设定以将可信度等级的分数归类为：高可信度、低可信度或无可信度等级。这些门限等级可以修改，而且它们决定了识别引擎应将哪个词汇表项作为假设。

确认步骤630所需考虑的另一个因素就是“n”值，它可被设定成缺省值或定制值。识别引擎就利用该值来限制它对n个最佳假设的考虑。

对话模块还为一给定交互任务保留有与先前识别尝试有关的信息，用以配合后面的识别尝试来有选择性地选出先前被拒绝的假设，以及有选择性地考虑重复的低可信度假设。

更具体地说，在由块610、620、630和640所构成的循环圈的第一次循环中，如果确认步骤630考虑的n个假设全部被呼叫者认为不对而加以否决，那么在下一次循环中，无论识别引擎给这些假设所确定的可信度等级是什么，确认步骤630都将不再考虑这些假设中的任何一个。相反，在该循环圈的第一次循环中，如果步骤630因为识别引擎将一个假设的可信度等级确定为落在低可信度间隔(不足以高到被认为是高可信度，也不足以低到被认为是“无可信度”而被丢弃)内而不考虑该假设，那么在下一次循环中，该假设将被再次进行辨别，确认步骤630会再次考虑该假设。

对话模块实例中可定制的功能包括：关闭确认(在一些情况下，开发者可以选择认为最佳假设总为正确)，仅在特定环境下激活确认(如：当给定假设的可信度等级低于预定门限时)，以及总是激活确认。确认步骤输出的提示也可定制。例如，如果对话模块实例被定制成：为呼叫者的响应确定两个最佳假设，则确认步骤可以通过调用一个是/否模块来确定该最佳假设是否正确，或者也可调用一个如下所述的菜单对话模块，它能列出这两个假设并请呼叫者选择其中的一个假设。

确认步骤630可以定制的其它特征包括：待使用的识别词汇表以及一个否决门限，该门限用于为一要被认为是n个最佳假设之一的词汇表项设定一个最小可信度等级。当然，仍如下所述，这些功能都可由缺省参数提供，或者也可由开发者定制。

4·辨清已确认响应的含义

如果有多个已确认的响应与词汇表项正确匹配，则如块660所示的辨义步骤将用于辨别清楚呼叫者响应的含义。例如，在图1所示的服务中，如果公司A的项目列表词汇表中有两项名为“Mike”的雇员，则确认步骤630可在当呼叫者向公司A打电话时确定出他要找“Mike”通话，但它却不能确定呼叫者要找其中的哪一个。因此，对话模块还含有一个可定制的辨义步骤660。本实施例中，该步骤输出一个定制的提示以列出可能的项目，并要求呼叫者从其中选出一个。

5·错误恢复

对话模块模板包括多种错误恢复方法，它们由开发者定制以用于各种服务中的特定实例。例如，如块640和650所代表的错误恢复步骤能在一对话模块实例成功完成一对话任务之后被执行。例如，如图6所示，当服务在超时周期内不能收集到用户的响应(如路径620a所示)、或者当服务不能确认任何与用户响应相匹配的假设(如路径630a所示)时，错误恢复步骤640，650就会被执行。

如下面所述，错误恢复过程可为服务中对话模块的特定实例而定制。例如，在块640上，对话模块将确定是利用与610相同的方法(如路径640a所示)还是利用后退方法(如路径640b至块650所示)来重新收集响应。可以定制的错误恢复参数包括：用于沿路径640a进行重试的提示610的内容，以及重试次数的门限，它用于确定何时沿路径640a重试以及何时沿路径640b使用后退方法。例如，重试次数可以包括跟随某一提示(沿路径620a)而连续超时的最大次数，在对用户对一特定提示的响应进行理解(沿路径630a)时出现连续错误的最大次数，以及对话模块实例将要重试的次数的综合最大次数。

在块640的重试步骤中，如果对话模块确定出尚未达到重试次数的门限，它将沿路径640a在块610上向呼叫者输出另一个提示。重试期间的一般再提示包括两个子类：致歉和再提示。致歉提示会对未完成任务而发出致歉，它随环境的变化而不同。例如，超时之后的致歉提示可以为“很抱歉，我没有听到您的响应”，而出现识别错误之后的致歉提示则为“很抱歉，我不明白您的意思”。类似地，跟随在致歉提示之后的再提示也可以不同。超时致歉提示之后的再提示可以说：“现在请您回答”，而识别错误致歉提示之后的再提示则可说：“现在请您重复您的回答”。根据先前失败的次数和类型，还可有其它的一些变化。例如，在第二次连续超时之后，致歉提示可以是“很抱歉，我仍未听到您的响应”，其后跟随着同样的再提示“现在请您回答”。

如果对话模块确定出已经达到重试次数的门限，则它将沿路径640b利用块650的后退方法来尝试得出一个可识别的用户响应。后退方法的例子包括：要求呼叫者拼出他或她的响应，或者要求呼叫者利用按钮式电话来输入DTMF音。例如，如图5所示，可将对话模块实例定制为：在达到识别错误的门限次数之后，退出拼音模块550。

6·终止

对话模块实例或者在块670成功终止或者在块680失败终止并且保存了终止的条件。例如，终止条件可包括：SUCCESS(成功完成对话任务)，TIMEOUT(超出超时周期的门限次数)，已及ERROR(试图识别呼叫者的响应时失败)。

本实施例中，对话模块记录下对话模块实例在终止时的执行情况信息，包括各个步骤的执行情况在内，这些步骤如：收集、确认、辨义、开始并完成提示、以及开始并完成对呼叫者所作响应的识别。被记录的信息可含有额外的信息，如：呼叫者所作响应的录音波形、时间标记、以及“n个最佳”识别假设及其可信度等级分数。

对识别结果进行记录以及保存波形，就可以在以后对服务的执行情况进行分析，以供故障寻找、升级和调谐用。另外，对话模块实例可利用这些信息通过对由语音单元440，450使用的语义、语言和声音模型进行动态调节以提高成功率。这些调节可以在不同的层次上进行。例如，可以在一个总体的层次上对对话模块实例进行调节，此总体层次能够影响对话模块实例在使用语音系统的所有服务中的执行情况。也可以类似地在呼叫者的层次上进行调节，该层次只能影响对话模块实例在服务中与一特定呼叫者进行的交流(由服务执行环境利用如打入的电话号码来进行辨别，或由服务利用一个用于呼叫者的标志如帐号或用户身份来进行辨别)。

对话模块根据已被识别出来的用户响应的含义，利用语义调节来配合由识别引擎使用的识别算法。例如，给自动航班定票服务打电话的人一般都要求提供与一周内的日期或通话日期有关的信息。可以在这种服务中使用用于识别日期的对话模块实例，该实例可先考虑出一个时间间隔(先前通话中已识别出的日期就在此间隔内)，然后考虑到以后呼叫者说出的日期很可能落在同一时间间隔内，并对由识别引擎使用的语义进行调整。

利用基于对话模块实例先前所执行的识别结果的信息，就可进行语言调节以配合由识别引擎使用的识别算法。例如，对一个用于识别城市名称的对话模块实例来说，这些信息可以包括：跟踪接入电话的号码，呼叫者对城市名称的发音和根据先前执行的对话模块实例中的那些发音而正确识别出的城市名称，以及识别词汇表中确定单词与其它单词被说出的相对频率。这些信息可以说明，例如，从波士顿区(可由接入的电话号码来辨别)打入电话的人，其类似于“Wuhstuh”的应答声可能是指Worcester城，而从普林斯顿区打入电话的人所作的同样应答则更象是指Wooster城。该信息可被对话模块实例用来配合由识别引擎使用的语言模型。例如，如果先前的识别显示出从波士顿打入电话的人所发出的类似“Wuhstuh”的响应声更象是指“Worcester”而不是“Wooster”，则语言模型可被配合用于统计性地权衡词汇表项“Worcester”和“Wooster”，从而证明当接入的电话号码是波士顿区的电话时，“Worcester”是比“Wooster”更具可能性的假设。

最后，根据从已识别语音及其在经对话模块处理的已接收的用户响应中的对应发音之间的关系，就可以在语音的层次上用声音调节来保持由识别引擎所用的统计声音模型，以将特定的声音与特定的语音关联起来。

B·对话模块模板的实例

参考图6所述的各对话模块的实例包括：

1·是/否模块：是/否模块用于输出一个初始提示、收集并确定呼叫者的响应是肯定还是否定，其依据是一个已知的识别词汇表，该表含有各种作为肯定(“是”，“没错”，“正确”，“对”，等等)和否定(“不是”，“不对”，“错”，等等)的响应。该模块能够保存终止条件，并且如果行的话，它会将结果用一个(例如)布尔值(0代表否定，1代表肯定)保存起来。

是/否模块的功能可在其它对话模块中使用。例如，如图5所示，项目列表对话模块可以在执行其确认步骤523时，使用是/否模块的功能。

2·拼音：拼音模块用于输出一个初始提示并收集作为呼叫者响应的一个或多个字母数字字符(包括符号)。在一个实施例中，该模块使用了一个含有待识别项目的特定词汇表，并且对该词汇表进行搜索以便为呼叫者所拼出的各个字符寻找匹配项。如上所述，它利用先行功能来提供对拼出的单词和句子的早期辨别。在一个备选实施例中，该模块可利用一含有多个独立字符的特定词汇表，用以最终辨别出呼叫者所拼出的字符串。当完成工作后，该模块会保存终止条件，并且如果行的话，它会将结果以一种适当的格式(如：数据对象或字符串)保存起来。

与是/否模块一样，拼音模块的功能也可在其它对话模块中得到使用。例如，如图5所示，项目列表对话模块可以在执行其后退方法522时，使用拼音模块的功能。

3·格式化代码：可以提供各种模块模板以用于识别具有特定格式的代码，如：电话号码、地址、邮编、日期、时间、货币量、帐号、以及社会保险号。这些模块引入了已知的语法并且使用各种已知的识别词汇表，这些已知词汇表中含有与多个符合所需代码格式的有效响应相对应的项目。在任务完成后，该模块会返回一个终止条件，并且如果行的话，它会将结果以一种适当的格式(如：数据对象或字符串)保存起来。

4·菜单：菜单模块能够输出一个初始提示以要求呼叫者在一系列的列表选项中进行选择、收集呼叫者的响应并将该响应与和列表选项相对应的已知识别词汇表中的至少一项进行比较。在任务完成后，该模块会返回一个终止条件，并且如果行的话，它会将结果以一种适当的格式(如：数据对象或字符串)保存起来。

5·项目列表：项目列表模块可让开发者把一列单词或项目定义为对呼叫者所作提示的可允许响应。该模块的初始提示通常不限制呼叫者的响应(与菜单模块相同)。例如，图1和图2所示服务中的项目列表模块要求呼叫者说出一个人的姓名，但并不限制呼叫者作出特定的响应。该模块使用一个已知识别词汇表，该词汇表含有与待识别项目相对应的各项。在任务完成后，该模块会返回一个终止条件，并且如果行的话，它会将结果以一种适当的格式(如：数据对象或字符串)保存起来。

III·定制服务的生成

再次参考图4，服务410可以多种方式被与对话模块430结合在一起而使用。例如，服务410可以在一个第三代编程语言(如C语言)中被配置成一个“main”函数，在此函数中，对话模块430受到按照通话流程顺序排列的C语言函数的调用。在这种配置中，“main”函数可以是一个独立的程序。另外，如上所述，服务410也可被配置成一个动态链接库(dll)，它可在服务410被初始化时与服务执行环境420相连接。在这种配置中，服务410是作为一个函数库而被使用的。服务执行环境420执行服务410中的一个或多个函数，而后者会依次调用对话模块430。

A·用户界面

可以提供各种用户界面以允许用不同的方法来生成服务。例如，一种非图形应用编程界面可允许开发者利用传统的编程方法来生成服务。另外，也可使用图形用户界面(GUI)。例如，图7所示的GUI 700，它包括有一个调色模板710，调色模板710含有多个表示状态(如：等待电话和转接电话)720及对话模块模板730的图标，该界面允许开发者通过将适当的图标“拽放”入主工作区740以生成各种对话模块的状态和实例，并进而构成该服务的通话流程。GUI 700还含有多种连接符，它们用于将状态和模板以适当的顺序链接并指定适当的条件。在该图示实施例中，调色模板710沿着GUI窗口700的左边界显示，而各种连接符的类型则存放在下拉式菜单750中。各种服务图标在窗口的主工作区740中显示。

要在服务中插入一个状态或对话模块，开发者可在调色模板710中选取适当的图标并将其放入主工作区，在主工作区740中，图标的下方显示有状态或模板的名称，而图标的上方则显示有实例的名称。一开始，GUI 700会给实例自动分配一个描述性的通用名称，如：实例#1。开发者可以通过选取并编辑文本来修改实例的名称。

菜单条750含有一个“连接符(Connector)”选项，它用于提供各类连接符，以便于根据所需的服务通话流程来连接主工作区740中的图标。例如，在主工作区740中，由一条实线所代表的一个无条件连接符连接了第一和第二个图标，它表示服务总是在第一个图标被完成之后再继续执行第二个图标。而在主工作区740中用一条虚线表示的一个有条件连接符则表示服务只有在条件被满足时才会继续执行第二个图标。

B·在服务中定制对话模块

正如参考图4所做的上述说明，各对话模块实例都根据对话模块模板来完成一个分立的对话任务，而且它们可被修改以用于特定服务。服务410与对话模块430(包括模板和实例在内)之间的关系在图8中将有更为详细的说明。

1·对话模块模板

对话模块模板810含有多个配置库，它们定义了对话模块实例850在服务840中使用时的行为。这些配置库包括一个含有缺省配置的“基线(Baseline)”配置库820，缺省配置包括：标准缺省参数，提示文件，识别词汇表，首功能，以及对话模块执行各种对话任务所用的模板。开发者通过提供一个可选的“系统”配置库830并用定制的配置覆盖基线库820中的缺省设置，就可以自行制定基本配置设定。系统库830可以提供多个设置以覆盖缺省设置的一部分或者全部。

2·服务中的对话模块实例

开发者还可以通过在服务840中定制对话模块实例580以定制一个服务。如上所述，在一个服务内调用一特定模块是通过生成一个与对话模块模板相对应的独立“实例”并对具有唯一名称的各个实例进行辨别而得以实现的。这就使得同一模板的对话模块实例能在单个服务中被进行不同的定制。例如，如图8所示，服务840对对话模块#2执行了两次独立的调用，它们分别由对话模块836和826的两个独立实例856A和856B来表示，这两个模板836和826是根据系统库设置830和未被系统库830覆盖的任何基线库设置820而被生成的。

各种对话模块的模板具有共性，如参考图6所作的上述说明。这些基本共性可以定义在多个对话模块中通用的可定制功能，它们包括：输出提示，用于识别功能的参数(如：可以考虑的识别候选者的数目)，识别词汇表，以及错误恢复参数。

在开发或执行一个服务期间可以定制各种特征。例如，开发者可以利用基于文本的配置文件来定制一个服务的特征，该配置文件允许开发者改变服务的参数(它可在服务执行期间改变服务的行为)而无需对该服务进行重新编译。另外，也可利用包含在对话模块中的实时应用编程接口来定制各种功能。在与一个图形开发环境相结合的实施例中，可以提供图形用户界面(GUI)以允许开发者通过例如复选框或插入文本来配置对话模块。

例如，利用图7所示的GUI 700，通过在主工作区740中选择一个图标(如：对话模块742)，就可定制对话模块实例。当选定该图标后，程序将打开一个对话窗口900，如图9所示。窗口900显示了对话模块910的名称并提供了四种选择：配置信息(ConfigureInformation)920，它允许开发者观看并修改实例的配置信息，这些信息以对话模块模板810的基线库(Baseline)820和系统库(SystemLibrary)830所提供的信息为依据；特征(Feature)930，它允许开发者为实例定制各种特征；词汇表(Vocabulary)940，它允许开发者观看、生成和编辑实例的已知识别词汇表；以及错误恢复(ErrorRecovery)950，它允许开发者观看并修改实例的错误恢复参数。

a·配置信息

在图9的窗口900中选择配置信息920将会出现一个如图10所示的新的对话窗口1000。窗口1000显示了基线库820和系统库830的文件路径，这两个库为对话模块实例850提供了配置信息。如果被使用的基线库820和/或系统库830多于一个，则窗口1000允许开发者在条框1010中寻找所需的库。通过选取观看(View)1020和编辑(Edit)1030选项，就可观看和/或编辑配置库的内容。

b·特征

在图9所示的窗口900中选择功能930将会打开一个如图11所示的新的窗口。该窗口显示出了各种可在特定对话模块实例850中被打开的功能。图11所示的功能包括：初始提示，是否打开“闯入”控制，设定闯入的门限(即，呼叫者必须说多大的声音才能打开闯入控制功能)，以及是否在提示完成后发出“嘀”声(即，在提示告诉呼叫者可以开始说话之后播放一个“嘀”声)。这些功能的参数一开始都按照基线库820和系统库830所提供的配置信息而被设定，但它们也可被开发者在条框1110-1140中输入的参数所覆盖。

条框1110被用于为对话模块实例指定初始提示。如图6所示，对话模块在其通话流程中通常都含有一个或多个向用户发出的提示。对话模块模板和实例所用的提示一般被称为“提示对象”，它们是一些以音频形式或文本形式(如果在含有能够利用文本来合成语音的语音单元的系统中使用的话)保存的数据对象。在本实施例中，初始输出提示可由保存着提示对象的文件路径来指定，或者也可由待被文本—语音合成器执行转换的文本来指定。一些对话模块模板可以提供一个缺省初始提示。例如，是/否模块模板可以含有一个缺省初始提示“请说是或否”。在其它情况下，对话模块模板可能会要求开发者提供一个定制的初始提示。

c·词汇表

在图9的窗口900中选择词汇表(Vocabulary)选项940将允许开发者来定制识别词汇表，该词汇表定义了对对话模块提示所作的有效响应。一些对话模块(如：是/否模块)可以使用一个已被定义好的缺省词汇表，当然这些词汇表也可被开发者自行定义或替换。尽管其它一些对话模块(如：项目列表模块)可以使用普通标准词汇表，但它们更适于使用定制的词汇表。

本实施例中，选择词汇表选项940将打开一个窗口1200，如图12所示。图12显示了一个词汇表编辑器，该编辑器用于为对话模块实例定制词汇表。这种编辑器的一个实例是由马萨诸塞州波士顿的应用语言技术公司所开发的商用SpeechWorks^TM程序中的词汇表编辑器。SpeechWorks^TM词汇表编辑器允许开发者生成或修改一个被识别词汇表，该词汇表定义了一个含有多个项目的列表，这些项目将在响应提示而被识别。图12所示的初始窗口1200含有多个菜单选项，它们用于生成一个新的词汇表文件1210、打开一个已有文件1220、或者退出1230。对任何已被打开的文件来说，该编辑器提供了三个菜单选项：项目&同义词(Item Synonyms)1240，它用于编辑被识别的项目及其同义词；发音1250，用于编辑已知识别项目及其同义词的发音；以及确认(Confirmation)1260，用于为词汇表文件定制确认设置。

图12是当项目&同义词选项1240被选中时所出现的显示，该显示提供了5种选项1241-1245以用于编辑词汇表的项目及其同义词。在本实施例中，“项目”是指词汇表中的已知识别项目，而“同义词”则是一个项目的备选项。对话模块会把同义词识别为该项目的匹配项。图12显示了三个项目：“bob dole”，“h ross perot”以及“bill clinton”。

使用如图12所示的GUI可以提供选项1241，它允许开发者增加一个新的项目；选项1242，用于为已知识别项目增加同义词；选项1243，用于编辑已有的项目和同义词；选项1244，用于删除已有的项目和同义词；以及选项1245，用于插入另一个词汇表文件。通过点亮一个已有的项目并增加同义词，就可使开发者增加将被对话模块实例识别为匹配项的项目。例如，可以增加“clinton”以作为“bill clinton”的同义词。这可以通过列出该项目下分支处的同义词而显示出来。

选择发音选项1250将打开一个如图13所示的窗口1300。在此图示实施例中，词汇表编辑器可利用一预定系统字典和一用户字典来为各项目及其同义词确定发音，上述系统字典能为待被识别语言中的常用单词提供发音，而用户字典则包括有用户为各特定单词定制的发音以及后退规则，该后退规则是用于根据单词拼音而生成发音的语音规则。

在图13中窗口1300的左侧显示了一个词汇表的项目及其同义词的各个单词1310，紧随其下一条线之后的是它们的发音1320。在本实施例中，发音被以一种颜色加亮以反映其根源。例如，从系统字典中产生的发音可以用白色加亮，从用户字典中产生的发音可以用淡蓝色加亮，被用户编辑的发音可以用深蓝色加亮，而利用语音规则产生的发音则可用红色加亮。

如图所示，菜单选项1251-1254允许开发者倾听任何项目(或同义词)的发音、编辑发音、增加备选发音、以及删除发音。选择一个由编辑选项1252或增加选项1253跟随的项目(或同义词)将会打开一个如图14所示的窗口，该窗口显示出了一个语音键盘1410以及被选中的项目1420，该项目将被增加发音或被进行发音编辑。语音键盘1410的每个键都代表了一个语音音素。按住一个键上的光标将会打开一个弹出框1430，它通过显示含有一个语音音素的常用单词而提供出相应音素声音的一个发音实例。开发者还可通过选择“显示列表(Show Table)”选项140来激活这个信息，“显示列表”选项1470将显示全部可用音素的列表以及一个用于说明它们发音的常用单词。

要对已选定的项目或同义词的发音进行修改或增补，开发者可以选择相应按键以在其发音中插入相应的音素。倾听(Listen)选项1440允许开发者倾听发音(Pronunciation)框1420中所示音素的发音，从而帮助开发者对一个发音进行检验和修改。

参考图12，词汇表编辑器还提供了一个“确认”选项1260。选取该选项将打开一个如图15所示的窗口1500。如上所述，对话模块实例可被用来确认它对呼叫者的响应所作的假设。词汇表编辑器的确认(Confirmation)窗口1500提供了一个选项1510，它允许开发者设定一个缺省参数以用于确定应在何时对一特定词汇表中的项目及同义词进行确认，该选项显示于条框1511之中。确认窗口1500还提供了一个选项1520，它允许开发者为词汇表中的单个项目及同义词设定确认参数。当该选项被选中后，一个用于单个项目和同义词的窗口1521将被打开，并且显示出有效的确认选项。

d·错误恢复参数

在图9的窗口900中选择错误恢复选项950将打开一个如图16所示的窗口1600，它允许开发者定制错误恢复参数以用于确定对话模块实例内的通话流程。如参考图6和图16进行的以上说明所述，可定制的错误恢复参数包括：超时周期，对话模块允许连续超时的最大次数，对话模块在理解呼叫者对一特定提示所作的响应时允许的最大连续识别错误次数，确认选项，以及后退选项。一开始，这些参数的缺省值由基线库820和系统库830中的配置信息来提供，也可利用如图16的窗口1600所示的GUI来为对话模块的各特定实例自行设定这些参数。

其它的错误恢复参数包括致歉提示和再提示的内容。图8显示了一套保存在基线库820和系统库830之中的提示文件822，832。这些文件含有一些用于进行标准提示的适当格式文件，上述标准提示包括：超时致歉提示、错误致歉提示、再提示、以及成功信息。也可在提示文件中提供定制的提示，或者也可将定制提示保存在能在对话模块实例内被访问到的地方。

如上所述，除了初始提示以外，还可以提供多种提示，它们包括：例如，第一和第二超时致歉提示，第一和第二错误致歉提示，以及一般的再提示提示。基线库820和系统库830所提供的用于对话模块模板810的配置数据可以含有一些缺省提示，它们包括：第一超时致歉提示“很抱歉，我没有听到您的响应”和第二超时致歉提示“很抱歉，我仍没有听到您的响应”，第一错误致歉提示“很抱歉，我不明白您的意思”和第二错误致歉提示“很抱歉，我仍不明白您的意思”。缺省提示还可包括：第一普通再提示“现在请说出您的回答”、第二普通再提示“现在请再说一遍您的回答”以及缺省成功提示“谢谢您”。

如上所述，提示可以用任何适当的形式来指定。例如，一些实施例允许利用一个给定的名称(例如：如果被命名并保存在图8所示的提示文件(Prompt Files)822，832中)而通过文件路径来指定提示，或者在使用文本—语音合成器时通过其文本来用文件路径指定提示。

一些模板(如：项目列表模块模板)要求开发者至少建立一些提示，并利用适当的服务来建立并保存这些提示，以便将它们正确地输出给呼叫者。例如，要对一个已有提示进行定制，开发者可以在一个适当的服务中打开提示文件并对其作出修改。要提供一个新的提示，开发者可以生成一个新的提示文件并向用于输出该提示的对话模块实例指明该文件的路径。另外，在使用文本—语音合成器的系统中，开发者只需简单地向对话模块实例提供该提示的文本即可。

在以上的说明中，本发明是以具体实施例为参考而得到说明的。但是，很显然，在不脱离本发明较宽的精神和范围的情况下，可以对其进行各种修改和变换。因此，本文的附图和说明书应被认为是起到说明性的作用，而不是限制性的作用。

Claims

1.一种由开发者构建供程序用户使用的交互式语音应用程序的计算机实现方法，该方法包括：

提供多个对话模块，其中各个对话模块都含有计算机可读的指令，这些指令用于完成预定的交互对话任务；

响应开发者的输入，选择多个对话模块中的至少一个模块，以完成至少一个交互对话任务；

响应开发者的输入，建立该至少一个对话模块和除该至少一个对话模块之外的一个对话处理单元之间的至少一种关系以定义程序用户和该交互式语音应用程序之间的对话流程。

2.如权利要求1所述的方法，其特征在于，它还包括：

响应开发者的输入，设置至少一个配置参数与至少一个对话模块相关联，其中的各项配置参数可在交互式语音应用程序执行时，影响相关联的对话模块的操作。

3.如权利要求2所述的方法，其特征在于，与对话模块相关联的交互对话任务包括向程序用户输出一个提示并从程序用户处接收响应，而且上述配置参数中至少有一个参数是超时参数，它用于在提示被输出后定义程序用户响应的时间段。

4.如权利要求2所述的方法，其特征在于，与对话模块相关联的交互对话任务包括向程序用户输出一个提示并接收程序用户的响应，而且上述配置参数中至少有一个参数是提示参数，它用于定义一个待被输出的提示。

5.如权利要求2所述的方法，其特征在于，与对话模块相关联的交互对话任务包括向程序用户输出一个提示并接收程序用户的响应，而且上述配置参数中至少有一个参数是致歉提示参数，它用于在不能识别程序用户的响应时定义一个待被输出的致歉提示。

6.如权利要求2所述的方法，其特征在于，与对话模块相关联的交互对话任务包括向程序用户输出一个提示并接收程序用户的响应，而且上述配置参数中至少有一个是用于指定来自程序用户的可被识别的响应的参数。

7.如权利要求1所述的方法，其特征在于，它还包括存储所选择的至少一个对话模块以及所述的至少一种关系的标识。

8.如权利要求1所述的方法，其特征在于，与对话模块相关联的交互对话任务含有：

用于向程序用户输出一个提示的指令；

用于接收程序用户响应的指令；以及

用于和一语音识别引擎进行交流的指令，该语音识别引擎利用识别模型来对接收到的响应进行识别。

9.如权利要求8所述的方法，其特征在于，与对话模块相关联的交互对话任务还含有用于在交互式语音应用程序执行期间，根据识别到的响应对由语音识别引擎使用的识别模型进行更新的指令。

10.如权利要求1所述的方法，其特征在于，它还包括：

在图形显示器中以图标方式图形化显示所述的多个对话模块，

其中：

所述选择包括接收所述至少一个对话模块的标识；以及

所述建立包括根据所述的至少一种关系将显示所述至少一个对话模块的图标与显示其它对话处理单元的图形标识进行图形化相互关联。

11.如权利要求10所述的方法，其特征在于，它还包括：

当响应开发者输入而选中一个具有相关配置参数的对话模块的图标时，在图形显示器中显示一个窗口以设置该配置参数的数值；以及

响应开发者输入，对该配置参数的数值进行设定；

其中所述配置参数在交互式语音应用程序执行时影响对话模块的操作。

12.如权利要求1所述的方法，其特征在于，所述选择包括选择至少两个对话模块。

13.如权利要求12所述的方法，其特征在于，另外的一个对话处理单元为一个选择的对话模块。

14.如权利要求13所述的方法，其特征在于，所述选择包括选择至少两个不同的对话模块，并且所述的另外一个对话处理单元不同于与其建立关系的所选对话模块。

15.一种由开发者构建供程序用户使用的交互式语音应用程序的计算机实现方法，该方法包括：

提供多个对话模块模板，每个模板与预定的交互对话任务相关联；

响应开发者的输入，生成交互式语音应用程序中使用的多个对话模块实例，其中每个对话模块实例都以一个对话模块模板为依据并且是该对话模块模板的一个定制版本，对话模块模板和对话模块实例均为对话模块形式；以及

响应开发者的输入，建立至少两个对话模块之间的至少一种关系以定义程序用户和交互式语音应用程序之间的对话流程。

16.如权利要求15所述的方法，其特征在于，它还包括：

响应开发者的输入，设置与至少一个对话模块相关联的至少一个配置参数的数值，其中的各项配置参数在交互式语音应用程序执行时影响相关联的对话模块的操作。

17.如权利要求16所述的方法，其特征在于，与对话模块相关联的交互对话任务包括向程序用户输出一个提示并接收程序用户的响应，而且上述配置参数中至少有一个是用于指定来自程序用户的可被识别的响应的参数。

18.如权利要求15所述的方法，其特征在于，它还包括：

存储至少两个对话模块以及该至少两个对话模块之间关系的标识。

19.如权利要求15所述的方法，其特征在于，与对话模块相关联的交互式对话任务包括：

向程序用户输出一个提示；

接收程序用户的响应；以及

与利用识别模型来识别所接收到的响应的语音识别引擎进行交流。

20.如权利要求19所述的方法，其中与对话模块相关联的交互对话任务还包括：在交互式语音应用程序执行期间，根据识别到的响应对语音识别引擎使用的识别模型进行更新。

21.如权利要求15所述的方法，其特征在于，它还包括在图形显示器中用图标来图形化显示多个对话模块，

其中：

生成多个对话模块实例包括：响应开发者输入而选择多个对话模块模板，以及在图形显示器中将对话模块实例图形化地显示为图标；

在至少两个对话模块中建立至少一种关系包括：根据该至少一种关系将代表对话模块的图标图形化地相互连接为交互式语音应用程序通话流程的图形显示。

22.一种装置，它能够使语音应用程序开发者构建程序用户使用的交互式语音应用程序，该装置包括：

提供多个对话模块的设备，其中每个对话模块包括使计算机完成预定交互对话任务的计算机可读指令；

响应开发者的输入，选择多个对话模块中的至少一个对话模块来完成至少一个交互对话任务的设备；以及

响应开发者的输入，建立该至少一个对话模块和除该至少一个对话模块之外的一个对话处理单元之间的至少一种关系以定义程序用户和该交互式语音应用程序之间的对话流程的设备。

23.如权利要求22所述的装置，其特征在于，用于选择的设备包括：响应开发者的输入而选择至少两个对话模块的设备。

24.如权利要求23所述的装置，其特征在于，所述对话处理单元是一个所选择的对话模块。

25.如权利要求22所述的装置，其特征在于，它还包括用于存储所选择的至少一个对话模块以及所述至少一种关系的标识的装置。