CN101004806A - 用于对合成数据进行语音呈现的方法和系统 - Google Patents

用于对合成数据进行语音呈现的方法和系统 Download PDF

Info

Publication number
CN101004806A
CN101004806A CNA200610143704XA CN200610143704A CN101004806A CN 101004806 A CN101004806 A CN 101004806A CN A200610143704X A CNA200610143704X A CN A200610143704XA CN 200610143704 A CN200610143704 A CN 200610143704A CN 101004806 A CN101004806 A CN 101004806A
Authority
CN
China
Prior art keywords
data
voice
generated data
present
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200610143704XA
Other languages
English (en)
Other versions
CN101004806B (zh
Inventor
威廉·克雷斯·博丁
德拉尔·C·索尔森
杰里·韦恩·雷德曼
戴维·贾拉米尔洛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101004806A publication Critical patent/CN101004806A/zh
Application granted granted Critical
Publication of CN101004806B publication Critical patent/CN101004806B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Abstract

公开了用于对合成数据进行语音呈现的动态韵律调节的方法、系统和产品,包括:检索将要语音呈现的合成数据;为将要语音呈现的合成数据识别特定韵律设置;根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息,来确定将要呈现的合成数据段;以及根据所识别的特定韵律设置,来呈现合成数据段。

Description

用于对合成数据进行语音呈现的方法和系统
技术领域
本发明的领域是数据处理,或者更具体地说,是用于对合成数据进行语音呈现的动态韵律调节的方法、系统和产品。
背景技术
尽管已有更多对数据的访问手段并且已有更多的设备来访问该数据,但是用户常常受时间约束。这种时间约束的一个原因是:用户通常必须利用数据类型专用应用来访问来自数据类型专用设备上异构数据源的异构数据类型的数据。由于存在任意多个外部环境,一种或多种这样的数据类型专用设备对于某一特定时刻的使用可能会变得麻烦。可能使数据类型专用设备的使用变得麻烦的外部环境的例子包括:拥挤的场所、诸如火车或汽车等的不舒适的场所、诸如步行等的用户活动、诸如驾驶等的视觉上需要专注的活动、以及如本领域技术人员所能想到的其它外部环境。因此,现在需要对于异构数据类型的数据管理和数据呈现,用于提供对统一数据类型的访问以及对来自异构数据源的内容的访问。
发明内容
公开了用于对合成数据进行语音呈现的动态韵律调节的方法、系统和产品,包括:检索将要语音呈现的合成数据;为将要语音呈现的合成数据识别特定韵律设置;根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息,来确定将要呈现的合成数据段;以及根据所识别的特定韵律设置,来呈现合成数据段。
为将要语音呈现的合成数据识别特定韵律设置还可包括:从将要语音呈现的合成数据中检索韵律标识,或根据用户指令来识别特定韵律。为将要语音呈现的合成数据识别特定韵律设置还可包括:根据用户韵律历史记录来选择特定韵律设置,或者确定用户的当前语音特征并根据用户的当前语音特征来选择特定韵律设置。
根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息来确定将要呈现的合成数据段还可包括:确定关于其中将要语音呈现合成数据的上下文的上下文信息;根据上下文信息来识别段长度;以及根据所识别的段长度来选择将要呈现的合成数据段。段长度可以是合成内容的数量。根据上下文信息来识别段长度还可包括:根据上下文信息来识别呈现时间;以及根据韵律设置和呈现时间来确定将要呈现的段长度。
从以下如附图中所示出的本发明示范性实施例的更详细描述,本发明的上述及其它目的、特征和优点将变得显而易见,其中相同的附图标记一般代表本发明示范性实施例的相同部件。
附图说明
图1阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性系统的网络图。
图2阐述了自动计算机器的框图,该自动计算机器包括可用在根据本发明实施例的异构数据类型的数据管理和数据呈现中的示范性计算机。
图3阐述了描述根据本发明的用于异构数据类型的数据管理和数据呈现的系统的框图。
图4阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性方法的流程图。
图5阐述了示出根据本发明实施例的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。
图6阐述了示出根据本发明实施例的用于从识别的数据源中检索所请求的数据的示范性方法的流程图。
图7阐述了示出根据本发明的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。
图8阐述了示出根据本发明的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。
图9阐述了示出根据本发明的用于将异构数据类型的聚集数据合成为统一数据类型的数据的示范性方法的流程图。
图10阐述了示出根据本发明的用于将异构数据类型的聚集数据合成为统一数据类型的数据的示范性方法的流程图。
图11阐述了示出根据本发明的用于根据合成数据来识别动作的示范性方法的流程图。
图12阐述了示出根据本发明实施例的用于对合成数据进行通道化的示范性方法的流程图。
图13阐述了示出根据本发明实施例的用于对合成数据进行语音呈现的示范性方法的流程图。
图14A阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。
图14B阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。
图14C阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。
图14D阐述了示出根据本发明实施例的用于识别特定韵律设置的备选示范性方法的流程图。
图15阐述了根据本发明实施例的用于根据将要语音呈现的合成数据以及关于其中将要语音再现合成数据的上下文的上下文信息来确定将要呈现的合成数据段的示范性方法的流程图。
具体实施方式
用于异构数据类型的数据管理和数据呈现的示范性体系结构
从图1开始,参考附图来描述根据本发明实施例的用于来自异构数据源的异构数据类型的数据管理和数据呈现的示范性方法、系统和产品。图1阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性系统的网络图。图1的系统一般操作用以通过以下方式根据本发明实施例来管理和呈现异构数据类型的数据:通过从异构数据源聚集异构数据类型的数据,将异构数据类型的聚集数据合成为统一数据类型的数据,根据合成数据识别动作,以及执行所识别的动作。
异构数据类型是不同种类和形式的数据。即,异构数据类型是不同种类的数据。定义异构数据类型的数据差别可以包括数据结构、文件格式、数据传输协议的差别,以及如本领域技术人员所能想到的其它差别。异构数据类型的例子包括MPEG-1音频层3(“MP3”)文件、可扩展标记语言(“XML”)文档、电子邮件文档以及如本领域技术人员所能想到的类型等等。异构数据类型通常必须在数据类型专用设备上呈现。例如,MPEG-1音频层3(“MP3”)文件通常通过MP3播放器来播放,无线标记语言(“WML”)文件通常通过无线设备进行访问,等等。
术语“异构数据源”是指异构数据类型的数据源。这种数据源可以是能够提供对异构数据类型的数据的访问的任何设备或网络位置。异构数据源的例子包括提供(serving up)文件的服务器、网站、蜂窝电话、个人数字助理(PDA)、MP3播放器以及如本领域技术人员所能想到的等等。
图1的系统包括为在网络中进行数据通信而连接的操作为异构数据源的多个设备。图1的数据处理系统包括广域网(“WAN”)110和局域网(“LAN”)120。LAN是“局域网”的缩写。LAN是覆盖较小区域的计算机网络。许多LAN被限制在单个建筑物或一组建筑物范围内。然而,一个LAN可以经由电话线和无线电波跨过任何距离而连接到其它LAN。以这种方式连接的LAN系统称为广域网(WAN)。因特网是WAN的一个例子。
在图1的例子中,服务器122操作为LAN 120和WAN 110之间的网关。图1体系结构的网络连接方面只是说明性的而非限制性的。实际上,可以把根据本发明实施例的用于异构数据类型的数据管理和数据呈现的系统连接为LAN、WAN、内联网、互联网、因特网、环球网、万维网自身或本领域技术人员所能想到的其它连接。这种网络是可用于在整个数据处理系统内连在一起的各种设备和计算机之间提供数据通信连接的媒体。
在图1的例子中,多个设备分别连接到LAN和WAN,每个设备都实现数据源,并且每个设备都在其上存储有特定数据类型的数据。在图1的例子中,服务器108通过有线连接126连接到WAN。图1的服务器108是RSS摘要(RSS feed)的数据源,其中服务器以XML文件的形式传送该RSS摘要。RSS是被新闻网站和网络日志用于网络信息聚合(syndication)的一系列XML文件格式。缩写用于指以下标准:丰富站点摘要(Rich Site Summary)(RSS 0.91)、资源描述框架(RDF)站点摘要(RSS 0.9、1.0和1.1)以及简易信息聚合(Really Simple Syndication)(RSS 2.0)。RSS格式提供网络内容或网络内容摘要以及到网络内容完整版本的链接,以及其它元数据。该信息作为被称为RSS摘要、Webfeed、RSS流或RSS通道的XML文件来传送。
在图1的例子中,另一服务器106通过有线连接132连接到WAN。图1的服务器106是被存储为Lotus NOTES文件的数据的数据源。在图1的例子中,个人数字助理(“PDA”)102通过无线连接130连接到WAN。PDA是以XHTML移动描述(XHTML MP)文档的形式存储的数据的数据源。
在图1的例子中,蜂窝电话104通过无线连接128连接到WAN。蜂窝电话是被存储为无线标记语言(“WML”)文件的数据的数据源。在图1的例子中,输入板(tablet)计算机112通过无线连接134连接到WAN。输入板计算机112是以XHTML MP文档的形式存储的数据的数据源。
图1的系统还包括数字音频播放器(“DAP”)116。DAP 116通过有线连接192连接到LAN。图1的数字音频播放器(“DAP”)116是被存储为MP3文件的数据的数据源。图1的系统还包括便携式计算机124。便携式计算机通过有线连接190连接到LAN。图1的便携式计算机124是被存储为图形交换格式(“GIF”)文件的数据的数据源。图1的便携式计算机124也是可扩展超文本标记语言(“XHTML”)文档形式的数据的数据源。
图1的系统包括便携式计算机114和智能电话118,它们每一个都在其上装有数据管理和呈现模块,用于提供对可从异构数据源得到的异构数据类型的数据的统一访问。图1的示范性便携式计算机114通过无线连接188连接到LAN。图1的示范性智能电话118也通过无线连接186连接到LAN。图1的便携式计算机114和智能电话118在其上安装有并运行通常能够通过以下方式实现异构数据类型的数据管理和数据呈现的软件:从异构数据源聚集异构数据类型的数据,将异构数据类型的聚集数据合成为统一数据类型的数据,根据合成数据识别动作,以及执行所识别的动作。
聚集数据是异构类型的数据在单个位置的聚积。聚集数据的这个位置可以是物理的,例如在包含聚集数据的单台计算机上,或者是逻辑的,例如用于提供对聚集数据的访问的单个接口。
合成数据是已被合成为统一数据类型的数据的聚集数据。可以把统一数据类型实现为从聚集数据转换的文本内容和标记。合成数据还可以包含被插入文本内容中的附加语音标记,用于添加附加语音能力。
作为选择,图1系统中被描述为源的任何设备还都可以支持根据本发明的数据管理和呈现模块。例如,如上所述的服务器106能够支持数据管理和呈现模块,该数据管理和呈现模块提供对可从异构数据源得到的异构数据类型的数据的统一访问。例如,如上所述的图1中的任何设备,如PDA、输入板计算机、蜂窝电话或如本领域技术人员所能想到的其它任何设备,能够支持根据本发明的数据管理和呈现模块。
构成图1所示示范性系统的服务器和其它设备的布置是说明性的而非限制性的。如本领域技术人员所能想到的,根据本发明各个实施例可用的数据处理系统可以包括图1中未示出的附加服务器、路由器、其它设备和对等体系结构。这种数据处理系统中的网络可以支持许多数据通信协议,包括例如传输控制协议(TCP)、网际协议(IP)、超文本传输协议(HTTP)、无线访问协议(WAP)、手持设备传输协议(HDTP)以及如本领域技术人员所能想到的其它协议。在除了图1所示硬件平台以外,也可以在多种硬件平台上实施本发明的各种实施例。
一般地,利用计算机即自动计算机器来实施根据本发明的用于异构数据类型的数据管理和数据呈现的方法。例如,在图1的系统中,在某种程度上将所有节点、服务器和通信设备至少实现为计算机。因此,为进一步说明,图2阐述了自动计算机器的框图,该自动计算机器包括可用在根据本发明实施例的异构数据类型的数据管理和数据呈现中的示范性计算机152。图2的计算机152包括至少一个计算机处理器156或中央处理器(“CPU”),以及通过系统总线160连接到处理器156和计算机其它部件的随机存储器(“RAM”)168。
RAM 168中存储了数据管理和数据呈现模块140,它是用于异构数据类型的数据管理和数据呈现的计算机程序指令,一般能够从异构数据源聚集异构数据类型的数据,将异构数据类型的聚集数据合成为统一数据类型的数据,根据合成数据来识别动作,以及执行所识别的动作。异构数据类型的数据管理和数据呈现有利地向用户提供以下能力:高效地访问和操纵从异构数据类型专用资源所收集的数据。异构数据类型的数据管理和数据呈现也提供统一数据类型,使得用户可以在单个设备上访问从异构数据类型专用资源所收集的数据。
图2的数据管理和数据呈现模块140还包括以下计算机程序指令:这些计算机程序指令用于检索将要语音呈现的合成数据;为将要语音呈现的合成数据识别特定的韵律设置;根据将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息来确定将要呈现的合成数据段;以及根据所识别的特定韵律设置来呈现该合成数据段。
RAM 168中还存储了聚集模块144,它是用于从异构数据源聚集异构数据类型的数据的计算机程序指令,一般能够从聚集过程接收数据请求,响应该数据请求而识别两个或更多异构数据源中的一个作为数据源,从所识别的数据源检索所请求的数据,以及将所请求的数据返回给聚集过程。从异构数据源聚集异构数据类型的数据有利地提供了从多个源收集数据以便合成的能力。
RAM中还存储了合成引擎145,它是用于将异构数据类型的聚集数据合成为统一数据类型的数据的计算机程序指令,一般能够接收异构数据类型的聚集数据,并将异构数据类型的聚集数据的每个数据转换为由文本内容及与文本内容关联的标记所组成的转换数据。将异构数据类型的聚集数据合成为统一数据类型的数据有利地提供了能够被单个设备所访问和操纵的统一数据类型的合成数据。
RAM 168中还存储了动作发生器模块159,它是用于根据合成数据以及常常根据用户指令来识别动作的一组计算机程序指令。根据合成数据来识别动作有利地提供了与合成数据交互并管理合成数据的能力。
RAM 168中还存储了动作代理158,它是用于控制一个或多个所识别的动作的执行的一组计算机程序指令。如本领域技术人员所能想到的,可以一旦识别出来就立即执行这种执行,在识别之后周期地执行这种执行,或者在识别之后排定(schedule)这种执行。
RAM 168中还存储了作为计算机程序指令的调度器146,用于从聚集过程接收数据请求;响应该数据请求而识别多个异构数据源之一作为数据源,从所识别的数据源检索所请求的数据,以及将所请求的数据返回给聚集过程。从聚集过程接收数据请求、响应该数据请求而识别多个异构数据源之一作为数据源、从所识别的数据源检索所请求的数据、以及将所请求的数据返回给聚集过程有利地提供了访问异构数据源以便聚集和合成的能力。
图2的调度器146还包括多个插件模块148、150,它们是用于从与插件关联的数据源检索供聚集过程之用的所请求的数据的计算机程序指令。这种插件将调度器的一般动作和特定类型的检索数据所需的专用要求隔离开。
RAM 168中还存储了浏览器142,它是用于向用户提供合成数据的接口的计算机程序指令。向用户提供合成数据的接口有利地提供了对从异构数据源检索的数据内容的用户访问,而不必使用数据源专用设备。图2的浏览器142能够实现多模交互,所述多模交互能够接收多模输入并通过多模输出与用户交互。这种多模浏览器通常支持多模网页,多模网页通过可以语音驱动的分级菜单来提供多模交互。
RAM中还存储了在Java虚拟机(JVM)155上运行的OSGi服务框架157。OSGi指的是开放服务网关组织,它是开发服务包传送规范的工业组织,该服务包是通过服务网关来提供顺应性(compliant)数据通信和服务的软件中间件。OSGi规范是一种基于Java的应用层框架,它向服务提供商、网络运营设备制造商及设备制造商的供货商提供中间应用和设备层应用程序接口(API)及函数。OSGi与多种连网技术一起工作,如以太网、蓝牙、“家庭视听互操作性标准”(HAVI)、IEEE 1394、通用串行总线(USB)、WAP、X-10、Lon Works、HomePlug及其它各种连网技术。OSGi规范可从OSGi网站www.osgi.org免费下载得到。
OSGi服务框架157是用Java语言编写的,因此通常在Java虚拟机(JVM)155上运行。在OSGi中,服务框架157是用于运行“服务”的主平台。根据上下文,本公开中的术语“服务”一般是指遵循OSGi的服务。
服务是用于生成按照OSGi的应用的主构件。服务是实现某一特征的一组Java类和接口。OSGi规范提供了多个标准服务。例如,OSGi提供了标准HTTP服务,该标准HTTP服务用于生成能够响应来自HTTP客户机的请求的网络服务器。
OSGi还提供一组被称为设备访问规范(Device Access Specification)的标准服务。设备访问规范(“DAS”)提供以下服务:识别连接到服务网关的设备,搜索该设备的驱动程序,并安装该设备的驱动程序。
OSGi中的服务以“包(bundle)”的形式与为执行服务所需的其它文件、图像及资源一起封装。包是包括一个或多个服务实现、激活程序类或清单文件的Java存档或“JAR”文件。激活程序类是服务框架用来开始和停止包的Java类。清单文件是描述包内容的标准文本文件。
OSGi中的服务框架157还包括服务注册表。服务注册表包括服务注册,该服务注册包括用于实现框架上所安装的并向服务注册表注册了的每个包的服务的服务名及类实例。包可以请求包中未包括的但在框架服务注册表中注册了的服务。为找到服务,包在框架的服务注册表上执行查询。
根据本发明实施例的数据管理和数据呈现可以有用地调用一项或多项OSGi服务。把OSGi包括进来是用于说明性的而非限制性的。实际上,根据本发明实施例的数据管理和数据呈现可以有用地采用许多不同技术,并且所有这些技术都在本发明的范围内。
RAM 168中还存储了操作系统154。可用于根据本发明实施例的计算机中的操作系统包括UNIXTM、LinuxTM、Microsoft Windows NTTM、AIXTM、IBM的i5/OSTM以及如本领域技术人员所能想到的其他操作系统。RAM 168中示出了图2例子中的操作系统154和数据管理和数据呈现模块140,但是非易失性存储器166中通常还存储了这种软件的许多部件。
图2的计算机152包括通过系统总线160耦合到处理器156和计算机152的其它部件的非易失性计算机存储器166。可以把非易失性存储器166实现为硬盘驱动器170、光盘驱动器172、电可擦除可编程只读存储器空间(所谓的“EEPROM”或“快闪”存储器)174、RAM驱动器(未示出)、或如本领域技术人员所能想到的其它任何种类计算机存储器。
图2的示例计算机包括一个或多个输入/输出接口适配器178。计算机中的输入/输出接口适配器通过例如软件驱动器或计算机硬件来实现面向用户的输入/输出,用以控制到显示设备180(比如计算机显示屏)的输出以及来自用户输入设备181(比如键盘和鼠标)的用户输入。
图2的示例计算机152包括通信适配器167,用于实现与其它计算机182的数据通信184。可以通过RS-232连接、通过外部总线(比如USB)、通过数据通信网络(比如IP网络)以及如本领域技术人员所能想到的其它方式,来串行地实施这种数据通信。通信适配器实现数据通信的硬件级,借此一台计算机直接地或通过网络向另一台计算机发送数据通信。可用于根据本发明实施例的来自异构数据源的异构数据类型的数据管理和数据呈现的通信适配器例子包括:用于有线拨号通信的调制解调器、用于有线网络通信的以太网(IEEE 802.3)适配器、以及用于无线网络通信的802.11b适配器。
为进一步说明,图3阐述了描述根据本发明的用于异构数据类型的数据管理和数据呈现的系统的框图。图3的系统包括聚集模块144,它是用于从异构数据源聚集异构数据类型的数据的计算机程序指令,一般能够从聚集过程接收数据请求,响应该数据请求而识别两个或更多异构数据源中的一个作为数据源,从所识别的数据源检索所请求的数据,以及将所请求的数据返回给聚集过程。
图3的系统包括合成引擎145,它是用于将异构数据类型的聚集数据合成为统一数据类型的数据的计算机程序指令,一般能够接收异构数据类型的聚集数据,并将异构数据类型的聚集数据的每个数据转换为由文本内容及与文本内容关联的标记所组成的转换数据。
合成引擎145包括VXML构造器222模块,它是用于将异构数据类型的聚集数据的每个数据转换为文本内容以及与文本内容关联的标记的计算机程序指令。合成引擎145还包括语法构造器224模块,它是用于产生与文本内容关联的语音标记的语法的计算机程序指令。
图3的系统包括合成数据仓库226,它是合成引擎以X+V格式所生成的合成数据的数据存储器。图3的系统还包括X+V浏览器142,它是一般能够将来自合成数据仓库226的合成数据表示给用户的计算机程序指令。表示合成数据可以包括合成数据的图形显示和音频表示。如以下参考图4所讨论的,向用户表示合成数据的一种方式是通过一个或多个通道来表示合成数据。
图3的系统包括作为计算机程序指令的调度器146模块,用于从聚集过程接收数据请求,响应该数据请求而识别多个异构数据源之一作为数据源,从所识别的数据源检索所请求的数据,并将所请求的数据返回给聚集过程。调度器146模块访问来自异构数据源的异构数据类型的数据,以供聚集模块144、合成引擎145和动作代理158之用。图3的系统包括如下所述被调度器用来访问数据的数据源专用插件148-150、234-236。
在图3的系统中,数据源包括本地数据216和内容服务器202。本地数据216是自动计算机器的存储器或寄存器中所包含的数据。在图3的系统中,数据源还包括内容服务器202。内容服务器202通过网络501连接到调度器146模块。图3的RSS服务器108是RSS摘要的数据源,服务器以XML文件的形式传送RSS摘要。RSS是被新闻网站和网络日志用于网络信息聚合的一系列XML文件格式。缩写用于指以下标准:丰富站点摘要(RSS 0.91)、RDF站点摘要(RSS 0.9、1.0和1.1)以及简易信息聚合(RSS 2.0)。RSS格式提供网络内容或网络内容摘要以及到网络内容完整版本的链接,以及其它元数据。该信息作为被称为RSS摘要、Webfeed、RSS流或RSS通道的XML文件来传送。
在图3的系统中,电子邮件服务器106是电子邮件的数据源。服务器以Lotus NOTES文件的形式传送该电子邮件。在图3的系统中,日历服务器107是日历信息的数据源。日历信息包括排程(calendared)事件及其它相关信息。服务器以Lotus NOTES文件的形式传送该日历信息。
在图3的系统中,IBM点播工作站(204)是一种对点播工作平台(“ODW”)提供支持的服务器,ODW提供开发工具和用来共享思想和专业知识、与他人合作以及寻找信息的虚拟空间。
图3的系统包括数据源专用插件148-150、234-236。对于以上列出的每个数据源,调度器都使用专用插件来访问数据。
图3的系统包括与运行RSS应用的RSS服务器108关联的RSS插件148。图3的RSS插件148为用户从RSS服务器108检索RSS摘要,并以XML文件形式将RSS摘要提供给聚集模块。
图3的系统包括与运行排程应用的日历服务器107关联的日历插件150。图3的日历插件150为用户从日历服务器107检索排程事件,并将排程事件提供给聚集模块。
图3的系统包括与运行电子邮件应用的电子邮件服务器106关联的电子邮件插件234。图3的电子邮件插件234为用户从电子邮件服务器106检索电子邮件,并将电子邮件提供给聚集模块。
图3的系统包括与运行点播工作站(“ODW”)应用的ODW服务器204关联的ODW插件236。图3的ODW插件236为用户从ODW服务器204检索ODW数据,并将ODW数据提供给聚集模块。
图3的系统还包括动作发生器模块159,它是用于根据合成数据来从动作仓库240识别动作的计算机程序指令,一般能够接收用户指令、响应该用户指令而选择合成数据、以及根据该用户指令和所选定数据来选择动作。
动作发生器模块159包含嵌入式服务器244。嵌入式服务器244通过X+V浏览器142接收用户指令。一旦从动作仓库240识别了动作,动作发生器模块159就利用动作代理158来执行该动作。图3的系统包括动作代理158,它是用于执行动作的计算机程序指令,一般能够执行动作。
异构数据类型的数据管理和数据呈现
为进一步说明,图4阐述了示出根据本发明实施例的用于异构数据类型的数据管理和数据呈现的示范性方法的流程图。图4的方法包括从异构数据源404、410聚集(406)异构数据类型的数据402、408。如上所述,异构数据类型的聚集数据是异构类型数据在单个位置的聚积。聚集数据的这个位置可以是物理的,例如在包含聚集数据的单个计算机上,或者是逻辑的,例如用于提供对聚集数据的访问的单个接口。
如以下参考图5更详细论述的,通过以下方式来实施根据图4的方法从异构数据源404、410聚集(406)异构数据类型的数据402、408:从聚集过程接收数据请求;响应该数据请求而识别两个或更多异构数据源中的一个作为数据源;从所识别的数据源检索所请求的数据;以及将所请求的数据返回给聚集过程。
图4的方法还包括将异构数据类型的聚集数据412合成(414)为统一数据类型的数据。统一数据类型的数据是已被生成为或已被转换为预定类型格式的数据。即,统一数据类型是可以在能够呈现统一数据类型的数据的设备上进行呈现的单一种类数据。将异构数据类型的聚集数据412合成(414)为统一数据类型的数据有利地导致了对于从异构数据源检索的异构数据聚集内容的单一访问点。
可用在将异构数据类型的聚集数据412合成(414)为统一数据类型的数据之中的统一数据类型的一个例子是XHTML加语音。XHTML加语音(X+V)是一种网络标记语言,用于利用语音标记来支持表示层中的语音,而来开发多模应用。X+V利用语音和视觉元素在小移动设备中提供基于语音的交互。X+V由三个主要标准组成:XHTML、VoiceXML和XML事件。假定网络应用环境是事件驱动的,则X+V结合了XML事件标准中所使用的文档对象模型(DOM)事件框架。利用该框架,X+V从HTML定义了常见事件类型,以生成视觉与语音标记之间的相关。
如以下参考图9更详细论述的,可以通过以下方式来实施将异构数据类型的聚集数据412合成(414)为统一数据类型的数据:接收异构数据类型的聚集数据,并将异构数据类型的聚集数据的每个数据转换为文本内容以及与文本内容关联的标记。在图4的方法中,可以通过将聚集数据转换为X+V或如本领域技术人员所能想到的其它任何标记语言,来实施将异构数据类型的聚集数据412合成为统一数据类型的数据。
图4的数据管理和数据呈现方法还包括根据合成数据416来识别(418)动作。动作是当被执行时实现预定义任务的一组计算机指令。可以立即或在稍后某一规定时间,根据合成数据来执行动作。可以通过以下方式来实施根据合成数据416识别(418)动作:接收用户指令,响应该用户指令而选择合成数据,以及根据该用户指令和所选择的数据来选择动作。
用户指令是响应用户的行动而接收的事件。示范性用户指令包括:接收作为用户利用键盘或小键盘输入按键组合的结果的事件,从用户接收语音,接收作为利用鼠标在可见显示器上点击图标的结果的事件,接收作为用户在触板上压按图标的结果的事件,或如本领域技术人员所能想到的其它用户指令。可以通过从用户接收语音、将语音转换为文本、并根据文本和语法确定用户指令,来实施接收用户指令。作为选择,可以通过从用户接收语音并根据语音和语法来识别用户指令,来实施接收用户指令。
图4的方法还包括执行(424)所识别的动作420。可以通过以下方式来实施执行(424)所识别的动作420:根据合成数据来调用所识别的动作对象中的成员方法,执行实现所识别的动作的计算机程序指令,以及如本领域技术人员所能想到的执行所识别的动作的其它方式。执行(424)所识别的动作420还可包括:确定为实施动作所需的通信网络的可用性,并且只有当通信网络可用时才执行动作,并且如果通信网络连接不可用则推迟执行动作。如果通信网络连接不可用则推迟执行动作可以包括:将所识别的动作排到动作队列中,存储动作直到通信网络可用为止,然后执行识别的动作。等待执行识别的动作420的另一种方式是:将描绘动作的条目插入容器中并且稍后处理容器。容器可以是适于存储描绘动作的条目的任何数据结构,如XML文件。
执行(424)所识别的动作420可以包括修改异构数据源之一的数据的内容。例如,考虑被称为deleteOldEmail()的动作,当deleteOldEmail()被执行时,它不仅删除从电子邮件转换的合成数据,而且还删除为进行数据通信而与按照本发明操作的数据管理和数据呈现模块耦合的电子邮件服务器上所存储的原始源电子邮件。
图4的方法还包括对合成数据416进行通道化(channelize)(422)。通道是要用于表示给用户的数据内容的逻辑集合。可以通过以下方式来实施对合成数据416进行通道化:识别合成数据的属性,表征(characterize)合成数据的属性,并根据表征的属性和通道分配规则来将数据分配给预定通道。对合成数据进行通道化有利地提供了向用户表示相关内容的工具。这种通道化数据的例子可以是提供工作相关内容的通道的‘工作通道’、提供娱乐内容的通道的‘娱乐通道’以及本领域技术人员所能想到的通道等。
图4的方法还可包括通过一个或多个通道向用户表示(426)合成数据416。通过一个或多个通道向用户表示(426)合成数据416的一种方式是:表示可用通道的摘要或标题。可以经由该表示来访问通过那些通道表示的内容,以便访问合成数据416。通过一个或多个通道向用户表示(426)合成数据416的另一种方式可以通过显示或播放通道中所包含的合成数据416来实现。可以在视觉上显示文本,或者可以将文本转换为模拟的语音并为用户播放该模拟语音。
聚集异构数据类型的数据
为进一步说明,图5阐述了示出根据本发明实施例的用于从异构数据源聚集异构数据类型的数据的示范性方法的流程图。在图5的方法中,从异构数据源404、522聚集(406)异构数据类型的数据402、408包括:从聚集过程502接收(506)数据请求508。可以把数据请求实现为从聚集过程去往调度器的消息,以指示调度器开始检索所请求的数据、并将所请求的数据返回给聚集过程。
在图5的方法中,从异构数据源404、522聚集(406)异构数据类型的数据402、408还包括:响应数据请求508而识别(510)多个异构数据源404、522之一作为数据源。可以用多种方式来实施响应数据请求508而识别(510)多个异构数据源404、522之一作为数据源。如以下参考图7更详细论述的,识别(510)多个异构数据源404、522之一作为数据源的一种方式可以通过以下来实现:从用户接收异构数据源的标识;以及根据该标识来为聚集过程识别异构数据源。
如以下参考图8更详细论述的,为聚集过程502识别异构数据源的另一种方式通过以下来实现:从数据请求中识别数据类型信息,并从数据源表中识别与该数据类型对应的数据源。如以下参考图8更详细论述的,识别多个数据源之一的又一种方式通过以下来实现:从数据请求中识别数据类型信息;根据该数据类型信息来搜索数据源;以及从数据源搜索所返回的搜索结果中识别与该数据类型对应的数据源。
本说明书中所描述的识别多个数据源之一的三种方法是说明性而非限制性的。实际上,有多种识别多个数据源之一的方式,并且所有这些方式都在本发明范围内。
图5的聚集(406)数据的方法包括:从识别的数据源522中检索(512)所请求的数据514。如以下参考图6更详细论述的,从识别的数据源522中检索(512)所请求的数据514包括:确定识别的数据源是否需要数据访问信息来检索所请求的数据;如果识别的数据源需要数据访问信息来检索所请求的数据,则根据数据请求中所包含的数据元素来检索数据访问信息;以及将数据访问信息表示给识别的数据源。可以通过以下方式来实施按照图5的方法检索(512)所请求的数据:在本地从存储器检索数据,从网络位置下载数据,或本领域技术人员所能想到的检索请求的数据的其它任何方式。如上所述,可以通过被设计用来从特定数据源或特定类型数据源检索数据的数据源专用插件,来实施从识别的数据源522中检索(512)所请求的数据514。
在图5的方法中,从异构数据源404、522聚集(406)异构数据类型的数据402、408还包括:将所请求的数据514返回(516)给聚集过程502。可以通过以下方式来实施将所请求的数据514返回(516)给聚集过程502:以消息形式把所请求的数据返回给聚集过程,在本地存储数据并将指向存储的数据的位置的指针返回给聚集过程,或本领域技术人员所能想到的返回所请求的数据的其它任何方式。
如以上参考图5所论述的,图5的聚集(406)数据包括从识别的数据源中检索所请求的数据。因此,为进一步说明,图6阐述了示出根据本发明实施例的用于从识别的数据源522中检索所请求的数据514的示范性方法的流程图。在图6的方法中,从识别的数据源522中检索所请求的数据514包括:确定(904)识别的数据源522是否需要数据访问信息914来检索所请求的数据514。如以上参考图5所论述的,数据访问信息是为了从某些异构数据源访问某些类型的数据所需的信息。示范性数据访问信息包括帐户名、帐号、密码或本领域技术人员所能想到的其它任何数据访问信息。
可以通过尝试从识别的数据源中检索数据并从数据源接收对于为检索数据所需的数据访问信息的提示,来实施确定(904)识别的数据源522是否需要数据访问信息914来检索所请求的数据514。作为选择,不是每当从数据源检索数据时都从数据源接收提示,而是例如可以通过用户来一次实施确定(904)识别的数据源522是否需要数据访问信息914来检索所请求的数据514,并将该确定提供给调度器,使得可以在无提示的情况下将所需的数据访问信息提供给具有任何数据请求的数据源。这种数据访问信息可以存储在例如数据源表中,该数据源表识别为从识别的数据源访问数据所需的任何对应的数据访问信息。
在图6的方法中,从识别的数据源522检索(512)所请求的数据514还包括:如果识别的数据源需要数据访问信息来检索所请求的数据908,则根据数据请求508中所包含的数据元素910来检索(912)数据访问信息914。数据请求508中所包含的数据元素910通常是数据请求508的属性值。这种值可以包括用于识别将要访问的数据类型的值,用于识别请求的数据的异构数据源位置的值,或者数据请求的属性的其它任何值。
数据请求508中所包含的这种数据元素910可用于检索为从异构数据源检索数据所需的数据访问信息。可以把用户访问数据源所需的数据访问信息有用地存储在这样的记录中,该记录与来自数据源的所有数据请求中所发现的数据元素所索引(indexed)的用户关联。因此,可以通过以下方式来实施根据图6的根据数据请求508中所包含的数据元素910来检索(912)数据访问信息914:根据数据请求中的一个或多个数据元素来从数据库中检索包含数据访问信息的记录,并从该记录中提取数据访问信息。可以把这种数据访问信息提供给数据源以检索数据。
如果识别的数据源需要数据访问信息914来检索所请求的数据908则根据数据请求508中所包含的数据元素910来检索(912)数据访问信息914可以通过以下方式来实施:识别数据请求508中所包含的数据元素910,分析这些数据元素以识别为检索请求的数据908所需的数据访问信息914,识别数据访问表中的正确数据访问信息,以及检索数据访问信息914。
图6的用于从识别的数据源522中检索所请求的数据514的示范性方法还包括:向识别的数据源522表示(916)数据访问信息914。可以通过把数据访问信息作为请求中的参数提供给请求、或者响应数据源的这种数据访问信息的提示提供数据访问信息,来实施根据图6的方法向识别的数据源522表示(916)数据访问信息914。即,可以通过调度器的选定数据源专用插件来实施向识别的数据源522表示(916)数据访问信息914,该选定数据源专用插件响应这种数据访问信息的提示而为识别的数据源522提供数据访问信息914。作为选择,可以通过调度器的选定数据源专用插件来实施向识别的数据源522表示(916)数据访问信息914,该选定数据源专用插件在无提示的情况下把用于识别的数据源522的数据访问信息914作为参数传送给请求。
如上所述,根据本发明实施例从异构数据源聚集异构数据类型的数据通常包括:为聚集过程识别异构数据源。即,在从特定数据源请求数据之前,通常为聚集过程识别该数据源。因此,为进一步说明,图7阐述了示出根据本发明实施例的用于从异构数据源404、522聚集异构数据类型的数据404、522的示范性方法的流程图,该方法包括为聚集过程502识别(1006)异构数据源1008。在图7的方法中,为聚集过程502识别(1006)异构数据源1008包括:从用户接收(1002)异构数据源的选择1004。用户通常是使用根据本发明管理和呈现来自异构数据源1008的异构数据类型数据(402、408)的数据管理和数据呈现系统的人。可以通过以下方式来实施从用户接收(1002)异构数据源的选择1004:通过数据管理和数据呈现应用的用户界面从用户接收包含异构数据源选择的用户指令,并根据该选择1004来为聚集过程502识别(1009)异构数据源404、522。用户指令是响应用户动作而接收的事件,如作为以下用户动作的结果而生成的事件:用户利用键盘或小键盘输入按键组合,从用户接收语音,接收利用鼠标对可见显示器上图标的点击,压按触板上的图标,或本领域技术人员所能想到的其它用户动作。数据管理和数据呈现应用中的用户界面可以有用地提供用于接收特定异构数据源的用户选择的工具。
在图7的例子中,由用户来实施为聚集过程识别异构数据源。也可以通过需要有限用户交互或不需要用户交互的过程,来实施识别异构数据源。为进一步说明,图8阐述了示出用于从异构数据源聚集异构数据类型的数据且需要很少或不需要用户动作的示范性方法的流程图,该示范性方法包括为聚集过程502识别(1006)异构数据源1008,包括从数据请求508中识别(1102)数据类型信息1106。异构数据类型识别不同种类和形式的数据。即,异构数据类型是不同种类的数据。定义异构数据类型的数据差别可以包括数据结构、文件格式、数据传输协议的差别,以及如本领域技术人员所能想到的其它差别。数据类型信息1106是代表定义异构数据类型的这些数据差别的信息。
可以通过从数据请求508中提取数据类型码,来实施根据图8的方法从数据请求508中识别(1102)数据类型信息1106。作为选择,可以通过推断从请求本身所请求的数据的数据类型,如通过从请求中提取数据元素并从这些数据元素来推断所请求的数据的数据类型,或通过本领域技术人员所能想到的其它方式,来实施从数据请求508中识别(1102)数据类型信息1106。
在图8的聚集方法中,为聚集过程502识别(1006)异构数据源还包括:从数据源表1104中识别(1110)与数据类型对应的数据源1116。数据源表是一种包含由从那些异构数据源检索得到的数据的数据类型所索引的异构数据源标识的表。可以通过根据所识别的数据类型对数据源表1104执行查找,来实施从数据源表1104中识别(1110)与数据类型对应的数据源1116。
在某些情况下,可能没有为数据类型找到这种数据源,或者没有这种数据源表可用于识别异构数据源。因此,在图8的方法中,包括一种为聚集过程502识别(1006)异构数据源的备选方法,该备选方法包括:根据数据类型信息1106来搜索(1108)数据源,并从数据源搜索所返回的搜索结果1112中识别(1114)与数据类型对应的数据源1116。可以通过根据数据类型信息来生成搜索引擎查询并利用所生成的查询执行搜索引擎查询,来实施根据数据类型信息1106搜索(1108)数据源。可以利用通过例如HTTP GET或HTTP POST函数传送给搜索引擎的统一资源定位符(URL)编码数据,来实施搜索引擎查询。URL编码数据是封装在URL中用于数据通信(在该情况下是用于向搜索引擎传送查询)的数据。在HTTP通信的情况下,HTTP GET和POST函数常常用于传输URL编码数据。在该上下文中,记住URL所做的并不仅仅在于请求文件传送是有用的。URL识别服务器上的资源。这种资源可以是具有文件名的文件,但是URL所识别的资源还包括例如数据库查询。这种查询的结果不必驻留在文件中,但是它们仍然是由URL和搜索引擎所识别的数据资源以及产生这种资源的查询数据。URL编码数据的例子是:
http://www.example.com/search?field1=value1&field2=value2
URL编码数据的这个例子代表通过网络提交给搜索引擎的查询。更具体地说,以上例子是承载代表搜索引擎查询的编码数据的URL,并且该查询是字符串“field1=value1&field2=value2”。示范性编码方法是由‘&’和‘=’分开的字符串字段名和字段值,并通过将“search(搜索)”包括在URL中来将编码指定为查询。示范性URL编码搜索查询是说明性的而非限制性的。实际上,不同的搜索引擎可以使用不同的句法来表示数据编码的URL中的查询,因此数据编码的特定句法可以随所查询的特定搜索引擎而变。
可以通过从搜索引擎所返回的搜索结果页中的超级链接检索数据源的URL,来实施从数据源搜索所返回的搜索结果1112中识别与数据类型对应的数据源(1116)。
对聚集数据进行合成
如上所述,异构数据类型的数据管理和数据呈现包括:将异构数据类型的聚集数据合成为统一数据类型的数据。为进一步说明,图9阐述了示出用于将异构数据类型的聚集数据41合成(414)为统一数据类型的数据的方法的流程图。如上所述,异构数据类型的聚集数据412是异构类型的数据在单个位置的聚积。聚集数据的这个位置可以是物理的,例如在包含聚集数据的单个计算机上,或者是逻辑的,例如用于提供对聚集数据的访问的单个接口。同样如上所述,异构数据类型是不同种类和形式的数据。即,异构数据类型是不同种类的数据。统一数据类型的数据是已被生成为或已被转换为预定类型格式的数据。即,统一数据类型是可以在能够呈现统一数据类型的数据的设备上进行呈现的单一种类数据。将异构数据类型的聚集数据412合成(414)为统一数据类型的数据有利地使得能够在单个设备上呈现异构数据内容。
在图9的方法中,将异构数据类型的聚集数据412合成(414)为统一数据类型的数据包括:接收(612)异构数据类型的聚集数据。可以通过从聚积了异构数据的聚集过程接收来自异构数据源的用于合成为统一数据类型的异构数据类型的数据,来实施接收(612)异构数据类型的聚集数据412。
在图9的合成方法中,将异构数据类型610的聚集数据406合成(414)为统一数据类型的数据还包括:将异构数据类型610的聚集数据的每个数据都转换为文本617内容以及与文本内容关联的标记619。根据图9的方法将异构数据类型610的聚集数据的每个数据都转换为文本617内容以及与文本内容关联的标记619包括:用文本和标记来表示聚集数据的内容,使得在聚集数据被合成之前,能够呈现文本和标记的浏览器可以从转换的数据来呈现聚集数据中所包含的相同内容。
在图9的方法中,如以下将参考图10更详细论述的,可以通过为聚集数据生成包括文本、标记、语法等的X+V文档,来实施将异构数据类型的聚集数据610的每个数据都转换(614)为文本617内容以及与文本内容关联的标记619。X+V的使用是说明性的而非限制性的。实际上,在根据本发明将异构数据类型610的聚集数据406合成(414)为统一数据类型的数据中,可以使用其它标记语言,如XML、VXML或如本领域技术人员所能想到的其它任何标记语言。
将异构数据类型的聚集数据610的每个转换(614)为文本617内容和标记619使得在聚集数据被合成之前能够呈现文本和标记的浏览器可以从转换的数据来呈现聚集数据中所包含的相同内容可以包括:在转换过程中以某种方式增加内容。即,将聚集的数据类型转换为文本和标记可能导致对数据内容的某种修改,或者可能导致对某些不能正确转换的的内容的删除。如本领域技术人员所能想到的,这种修改和删除量将随被转换的数据类型以及其它因素而变。
可以通过将聚集数据转换为文本和标记并根据数据类型对转换的内容进行分析,来实施将异构数据类型的聚集数据610的每个数据都转换(614)为文本617内容以及与文本内容关联的标记619。根据数据类型分析转换的内容意味着:识别转换的内容的结构和识别内容本身的各个方面,并生成代表所识别的结构和内容的标记619。
为进一步说明,考虑以下描述president(总统)的音频剪辑片断的标记语言描述。
<head>original file type=‘MP3’keyword=‘president’number=‘50’,
Keyword=‘air force’number=‘1’keyword=‘white house’number=‘2’>
<head>
   <content>
       关于总统的某些内容
   </content>
在以上例子中,MP3音频文件被转换为文本和标记。在以上例子中,标题识别作为从MP3音频文件转换得到的转换的数据。示范性标题还包括被包含在转换的文档的内容中的关键字、以及那些关键字出现的频率。示范性转换的数据还包括被识别为‘关于总统的某些内容’的内容。
如上所述,用于合成数据的一种有用统一数据类型是XHTML加语音(X+V)。X+V是一种网络标记语言,用于通过利用语音标记支持语音来开发多模应用。X+V利用语音和视觉元素在设备中提供基于语音的交互。通常,通过为合成数据的文本内容生成语法集,来实施支持用于根据本发明实施例的数据管理和数据呈现的合成数据的语音。语法是可以口语表达出的一组字,可以口语表达出那些字的模式,或定义被语音识别引擎所识别的语音的其它语言元素。这种语音识别引擎可用于数据管理和呈现引擎中,以便向用户提供合成数据的语音导航以及与合成数据进行语音交互。
因此,为进一步说明,图10阐述了示出用于将异构数据类型的聚集数据412合成(414)为统一数据类型数据的方法的流程图,该方法包括:为合成数据的文本内容动态地生成语法集,以便与用户进行语音交互。根据图10的方法将异构数据类型的聚集数据412合成(414)为统一数据类型的数据包括:接收(612)异构数据类型的聚集数据412。如上所述,可以通过从聚积了异构数据的聚集过程接收来自异构数据源的用于合成为统一数据类型的异构数据类型的数据,来实施接收(612)异构数据类型的聚集数据412。
图10的用于将异构数据类型的聚集数据412合成(414)为统一数据类型的数据的方法还包括:将异构数据类型的聚集数据412的每个数据转换(614)为包括文本内容以及与文本内容关联的标记的转换的数据1204。如上所述,将异构数据类型的聚集数据412的每个数据都转换(614)为文本内容以及与文本内容关联的标记包括:用文本和标记来表示聚集数据的内容,使得在聚集数据被合成之前,能够呈现文本和标记的浏览器可以从转换的数据来呈现聚集数据中所包含的相同内容。在某些情况下,将异构数据类型的聚集数据412转换(614)为文本内容和标记使得能够呈现文本和标记的浏览器可以包括:以本领域技术人员所能想到的某种方式增加或删除被转换的内容中的某些内容。
如以下将更详细论述的,在图10的方法中,可以通过为合成数据生成包括文本、标记、语法等的X+V文档,来实施将异构数据类型的聚集数据412的每个数据都转换(1202)为包括文本内容和标记的转换的数据1204。X+V的使用是说明性的而非限制性的。实际上,如本领域技术人员所能想到的,在将异构数据类型的聚集数据412的每个数据转换(614)为包括文本内容以及与文本内容关联的标记的转换的数据1204中,可以使用其它标记语言。
图10的用于将异构数据类型的聚集数据412合成(414)为统一数据类型的数据的方法可以包括:为文本内容动态地生成(1206)语法集1216。如上所述,语法是可以口语表达出的一组字、可以口语表达出那些字的模式、或定义被语音识别引擎所识别的语音的其它语言元素。
在图10的方法中,为文本内容动态生成(1206)语法集1216还包括:识别转换的数据1204中决定内容或逻辑结构的关键字1210,并将所识别的关键字包括在与转换的数据关联的语法中。决定内容的关键字是定义数据内容主题和所表示的数据内容的信息的字和短语。决定逻辑结构的关键字是建议表示数据内容信息的形式的关键字。逻辑结构的例子包括版式(typographic)结构、分层结构、关系结构以及如本领域技术人员所能想到的其它逻辑结构。
可以通过在转换的文本中搜索比某一预定义阈值更频繁出现在文本中的字,来实施识别(1208)在转换的数据1204中决定内容的关键字1210。超过该阈值的字出现频率指示该字与转换的文本的内容相关,因为预定阈值被确立为预期不仅仅是偶然出现的使用频率。作为选择,也可以把阈值确立为函数、而不是一个静态值。在这些情况下,可以利用统计测试来动态确立转换的文本中的字出现频率的阈值,该统计测试将转换的文本中的字出现频率与从更大的文集(corpus)统计得到的预期出现频率进行比较。这种更大的文集用作通用语言使用的引用。
可以通过在转换的数据中搜索决定结构的预定义字,来实施识别(1208)转换的数据1204中决定逻辑结构的关键字1210。决定逻辑结构的这种字的例子包括‘引言’、‘内容表’、‘章’、‘节’、‘索引’以及如本领域技术人员所能想到的其它许多字。
在图10的方法中,为文本内容动态生成(1206)语法集1216还包括:根据所识别的关键字1210和语法生成规则1212来生成(1214)语法。语法生成规则是用于产生语法的一组预定义指令和语法形式。可以利用来自转换的数据的脚本框架,如Java服务器页(JavaServer page)、活动服务器页(Active Server Pages)、PHP、Perl、XML,来实施根据所识别的关键字1210和语法生成规则1212来生成(1214)语法。可以在外部存储这种动态生成的语法,并在例如用于引用外部语法的X+V<grammar src=″″>标签中引用这种动态生成的语法。
图10的用于将异构数据类型的聚集数据412合成(414)为统一数据类型的数据的方法包括:使语法集1216和文本内容关联(1220)。使语法集1216和文本内容关联(1220)包括:把定义所生成的语法的标记1224插入(1218)转换的数据1204中。可以通过生成定义动态生成的语法的标记并将所生成的标记插入转换的文档中,来实施将标记插入(1218)到转换的数据1204中。
图10的方法还包括:使动作420和语法关联(1222)。如上所述,动作是当被执行时实现预定义任务的一组计算机指令。由此使动作420和语法关联(1222)提供了动作的语音启动,使得响应对语法的一个或多个字或短语的识别来调用关联的动作。
根据合成数据来识别动作
如上所述,异构数据类型的数据管理和数据呈现包括:根据合成数据来识别动作。为进一步说明,图11阐述了示出用于根据合成数据416来识别动作的示范性方法的流程图,该示范性方法包括:接收(616)用户指令620并根据合成数据416和该用户指令来识别动作。在图11的方法中,可以通过从动作列表中检索动作标识(ID)来实施识别动作。在图11的方法中,从动作列表中检索动作ID包括:根据用户指令和合成数据来从列表中检索将要执行的动作的标识(“动作ID”)。例如,可以把动作列表实现为Java列表容器、随机存储器中的表、存储在硬盘驱动器或只读光盘(CD ROM)上的结构化查询语言(SQL)数据库表,以及按本领域技术人员所能想到的其它方式来实施动作列表。如上所述,动作本身包括软件,因此可以被实现为具体动作类,例如包含在编译时导入数据管理和数据呈现模块中的Java包中的具体动作类,因此在运行期间这些具体动作类总是可用。
在图11的方法中,接收(616)用户指令620包括:从用户接收(1604)语音1502,将语音1502转换(1506)为文本1508;根据文本1508和语法1510来确定(1512)用户指令620,并根据文本1508和语法1510来确定(1602)用户指令620的参数1604。如以上参考图4所论述的,用户指令是响应用户的动作而接收的事件。用户指令的参数是进一步定义指令的附加数据。例如,用户指令‘删除电子邮件’可能包括参数‘2005年8月11日’,用于定义2005年8月11日的电子邮件是要对其执行用户指令所调用的动作的合成数据。可以通过并入到根据本发明的数据管理和数据呈现模块中的语音识别引擎来实施:从用户接收(1504)语音1502,将语音1502转换(1506)为文本;根据文本1508和语法1510来确定(1512)用户指令620,并根据文本1508和语法1510来确定(1602)用户指令620的参数1604。
根据图11的根据合成数据416来识别动作还包括:响应用户指令620而选择(618)合成数据416。可以通过选择由用户指令620所识别的合成数据,来实施响应用户指令620而选择(618)合成数据416。还可以通过根据用户指令620的参数1604选择合成数据416,来实施选择(618)合成数据416。
可以通过选择合成数据上下文信息1802,来实施响应用户指令620而选择(618)合成数据416。上下文信息是用于描述接收用户指令的上下文的数据,如当前显示的合成数据的状态信息、一天中的时刻、一周中的天、系统配置、合成数据的特性或本领域技术人员所能想到的其它上下文信息。可以有用地改为使用上下文信息,或者把上下文信息和语音中所识别的用户指令的参数相关联而使用。例如,识别出从电子邮件文档转换而来的合成数据当前正在被显示的上下文信息可以用于补充语音用户指令“删除电子邮件”,以便识别要对那个合成数据执行删除邮件动作。
根据图11的方法根据合成数据416来识别动作还包括:根据用户指令620和选择的数据622来选择(624)动作420。可以通过选择由用户指令所识别的动作,来实施根据用户指令620和选择的数据(622)选择动作420。还可以通过根据用户指令620的参数1604选择动作420,以及通过根据上下文信息1802选择动作420,来实施选择(624)动作420。在图11的例子中,通过根据一个或多个用户指令、参数或上下文信息从动作数据库1105中检索动作,来实施选择(624)动作420。
可以利用数据管理和数据呈现模块的动作代理中的switch()语句来实施执行所识别的动作。这种switch()语句可以根据动作ID进行操作,并且例如可以如以下伪代码段所示的那样来实现switch()语句:
Switch(actionID){
    Case 1:actionNumber1.take_action();break;
    Case 2:actionNumber2.take_action();break;
    Case 3:actionNumber3.take_action();break;
    Case 4:actionNumber4.take_action();break;
    Case 5:actionNumber5.take_action();break;
    // and so on
}//end switch()
该示范性switch()语句选择要对合成数据执行的动作,用以根据动作ID来执行。在该例子中,switch()所控制的任务是被命名为actionNumber1、actionNumber2等的具体动作类,每个具体动作类都具有名为‘take_action()’的可执行成员方法,可执行成员方法执行由每个动作类所实现的实际工作。
在这些实施例中,还可以利用数据管理和数据呈现模块的动作代理中的散列表,来实施执行动作。如以下伪代码例子中所示,这种散列表可以存储对动作ID所指定(keyed)的动作对象的引用。在该例子中,首先动作服务生成动作的散列表,它是对与用户指令关联的具体动作类的对象的引用。在许多实施例中,是动作服务来生成这种散列表,用与特定用户指令有关的动作对象的引用来填充该散列表,并将该散列表的引用返回给调用动作代理。
Hashtable ActionHashTable=new Hashtable();
ActionHashTable.put(″1″,new Action1());
ActionHashTable.put(″2″,new Action2());
ActionHashTable.put(″3″,new Action3());
然后,可以按照以下伪代码来实施执行特定的动作:
Action anAction=(Action)ActionHashTable.get(″2″);
If(anAction!=null)anAction.take_action();
也可以利用列表来实施执行动作。列表的功用常常类似于散列表。例如,可以按照以下伪代码来实施执行特定的动作:
List ActionList=new List();
ActionList.add(1,new Action1());
ActionList.add(2,new Action2());
ActionList.add(3,new Action3());
然后,可以按照以下伪代码来实施执行特定的动作:
Action anAction=(Action)ActionList.get(2);
If(anAction!=null)anAction.take_action();
以上三个例子利用switch()语句、散列表和列表对象来说明根据本发明实施例执行动作。这些例子中的switch()语句、散列表和列表对象的使用是说明性的而非限制性的。实际上,如本领域技术人员所能想到的,有多种执行根据本发明实施例的动作的方式,并且所有这些方式都在本发明的范围内。
为进一步说明根据合成数据来识别动作,考虑以下用户指令例子:该用户指令识别动作、动作的参数、以及将要对其执行动作的合成数据。用户当前正在观看从电子邮件转换而来的合成数据,并发出以下语音指令:“删除2005年8月15日的电子邮件”。在当前例子中,通过以下方式来实施根据合成数据识别动作:根据用户指令来选择用于删除合成数据的动作;识别删除电子邮件动作的参数,该参数确定只有一个电子邮件要删除;以及响应用户指令而选择从2005年8月15日的电子邮件转换而来的合成数据。
为进一步说明根据合成数据来识别动作,考虑以下用户指令例子,该用户指令不具体确定将要对其执行动作的合成数据。用户当前正在观看从一系列电子邮件转换而来的合成数据,并发出以下语音指令:“删除当前电子邮件”。在当前例子中,通过根据用户指令而选择用于删除合成数据的动作,来实施根据合成数据识别动作。然而,根据使用上下文信息的以下数据选择规则,来实施该例子中的选择将要对其执行动作的合成数据。
如果合成数据被显示;
则合成数据是“当前的”;
如果合成数据包括电子邮件类型代码;
则合成数据是电子邮件。
以上的示范性数据选择规则识别:如果合成数据被显示、则所显示的合成数据是‘当前的’;如果合成数据包括电子邮件类型代码,则合成数据是电子邮件。上下文信息用于识别从电子邮件转换而来的并带有电子邮件类型代码的当前显示的合成数据。因此,将数据选择规则应用于示范性用户指令“删除当前电子邮件”导致了删除具有电子邮件类型代码的当前显示的合成数据。
对合成数据进行通道化
如上所述,异构数据类型的数据管理和数据呈现常常包括对合成数据进行通道化。对合成数据416进行通道化有利地导致将合成数据分割成逻辑通道。通道被实现为合成数据的逻辑聚积,该逻辑聚积共享具有相似特性的公共属性。这种通道的例子是,用于与娱乐相关的合成数据的‘娱乐通道’、用于与工作相关的合成数据的‘工作通道’、用于与用户家庭相关的合成数据的‘家庭通道’等。
因此,为进一步说明,图12阐述了示出根据本发明实施例对合成数据(416)进行通道化(422)的示范性方法的流程图,该示范性方法包括识别(802)合成数据的属性804。合成数据的属性804是可以用于表征合成数据416的数据的各方面。示范性属性804包括数据类型、数据中存在的元数据、数据的逻辑结构、数据内容中特定关键字的存在、数据源、生成数据的应用、源的URL、作者、主题、所生成的数据等。可以通过将合成数据的内容804和预定义属性的列表进行比较,来实施识别(802)合成数据的属性804。识别合成数据的属性804的另一种方式可以通过以下来实施:把与合成数据804关联的元数据和预定义属性的列表进行比较。
图12的对合成数据416进行通道化(422)的方法还包括:表征(characterizing)(808)合成数据的属性804。可以通过评价被识别的合成数据的属性,来实施表征合成数据的属性804。评价所识别的合成数据的属性可以包括,将表征规则806应用于所识别的属性。为进一步说明,考虑以下表征规则:
如果合成数据是电子邮件;且
如果电子邮件发往“Joe”;且
如果电子邮件来自“Bob”;
则电子邮件是‘工作电子邮件’。
在以上例子中,表征规则指出:如果合成数据是电子邮件且如果电子邮件发往“Joe”且如果电子邮件发自“Bob”,则示范性电子邮件被表征为‘工作电子邮件’。
此外,可以通过为每个所识别的属性生成一个代表所识别的属性的表征的特征标签,来实施表征(808)合成数据属性804。为进一步说明,考虑以下从其中插入了特征标签的电子邮件转换而来的合成数据的例子。
<head>
original message type=‘email’to=‘joe’from=‘bob’re=‘我明天将迟到’</head>
     <characteristic>
         Characteristic=‘工作’
     <characteristic>
     <body>
         一些主体内容
     </body>
在以上例子中,合成数据是从由‘Bob’发给Joe的电子邮件转换而来的,该电子邮件具有包括文本‘明天我将迟到’的主题行。在以上例子中,<characteristic>标签识别具有‘工作’值的特征字段,该‘工作’值将电子邮件表征为与工作相关。特征标签通过识别可用于对数据进行通道化的数据特征来帮助对合成数据进行通道化。
图12的对合成数据416进行通道化(422)的方法还包括:根据表征的属性810和通道分配规则812来把数据分配(814)给预定通道816。通道分配规则812是用于根据表征的属性810来将合成数据416分配到通道中的预定指令。为进一步说明,考虑以下通道分配规则:
如果合成数据是‘电子邮件’;且
如果表征为‘工作相关电子邮件’;
则通道为‘工作通道’。
在以上例子中,如果合成数据是从电子邮件转换而来的且如果该电子邮件被表征为‘工作相关电子邮件’,则把合成数据分配给‘工作通道’。
也可以根据用户偏爱以及如本领域技术人员所能想到的其它因素,来实施将数据分配(814)给预定通道816。用户偏爱是用户对于配置的选择的集合,且常常被保持在和商业逻辑分开的数据结构中。用户偏爱提供用于根据本发明对合成数据进行通道化的附加粒度。
在某些通道分配规则812下,可以把合成数据416分配给多个通道816。即,相同的合成数据实际上可应用于多个通道。因此,可以对合成数据的单个部分多次实施将数据分配(814)给预定通道816。
图12的对合成数据416进行通道化(422)的方法还可以包括:通过一个或多个通道816向用户表示(426)合成数据416。通过一个或多个通道816向用户表示(426)合成数据416的一种方式可以通过以下来实施:在用户界面中表示可用通道的摘要或标题,以允许用户访问那些通道的内容。可以通过这种表示来访问这些通道,以便访问合成数据416。另外,通过显示或播放通道中所包含的合成数据416,来通过选择的通道向用户附加地表示合成数据。
用于对合成数据进行语音呈现的动态韵律调节
如上所述,常常根据合成数据来识别和执行动作。可用在异构数据类型的数据管理和数据呈现中的一个这种动作包括:向用户表示合成数据。可以通过对合成数据进行语音呈现来实施向用户表示合成数据,这有利地导致了用户访问合成数据的改善。对合成数据进行语音呈现允许提高常常在以下环境下访问合成数据的用户灵活性:在这些环境下,访问数据的视觉方法可能麻烦。访问数据的视觉方法可能是麻烦的环境的例子包括:在诸如火车或者汽车等的拥挤或不舒适的场所工作、从事诸如步行或者驾驶等的需要视觉上专注的活动、以及如本领域技术人员所能想到的其它环境。
因此,为进一步说明,图13阐述了示出对合成数据进行语音呈现的示范性方法的流程图,该示范性方法包括检索将要语音呈现的合成数据。如以上参考图3所论述的,可以通过从本地存储器中检索合成数据,例如从合成数据仓库中检索合成数据,来实施根据图13的方法检索(304)将要语音呈现的合成数据302。合成数据仓库是合成数据的数据存储器。
将要语音呈现的合成数据302是来自异构数据源的并已被合成为合成数据的聚集数据。合成数据的统一格式通常是一种被设计用来支持语音呈现的格式,如XHTML加语音(X+V)格式。如上所述,X+V是一种网络标记语言,用于利用语音标记来支持表示层中的语音,由此开发多模应用。X+V由三个主要标准组成:XHTML、VoiceXML和XML事件。
图13的对合成数据进行语音呈现的示范性方法还包括:为将要语音呈现的合成数据302识别(308)特定的韵律设置。韵律设置是一个或多个个性设置的集合,所述个性设置用于控制由语音引擎所实现的独特语音特征,如音节重音、声调和口语定时的变化,字间音调、语速、语音响度和停顿持续时间的变化,以及如本领域技术人员所能想到的其它独特语音特征。可以把韵律设置实现为将要呈现的合成数据中的文本和标记,实现为配置文件中的设置,或者用本领域技术人员所能想到的其它任何方式来实施韵律设置。通常,按照为语音合成标记语言而颁布的标准,如由环球网联盟所颁布的语音合成标记语言(“SSML”)、Java语音API标记语言规范(JSML)以及本领域技术人员所能想到的其它标准,用这些语音合成标记语言来实现被实现为文本和标记的韵律设置。韵律设置通常由个性语音属性组成,但是也可以把韵律设置选择为被称为语音的个性语音属性的命名集合。支持语音合成标记语言的语音合成引擎常常提供通用语音,该通用语音基于性别和年龄的模仿语音类型。这种语音合成引擎通常还支持定制语音的生成。语音合成引擎按照如上所述的韵律设置对文本进行语音呈现。这种语音合成引擎的例子包括:例如IBM的ViaVoice文本到语音(ViaVoice Text-to-speech)、Acapela多媒体TTS(Acapela Multimedia TTS)、AT&T Natural VoicesTM文本到语音引擎,以及如本领域技术人员所能想到的其它语音合成引擎。
可以用多种方式来实施识别(308)特定的韵律设置。例如,可以通过以下方式来实施识别(308)特定的韵律设置:从将要语音呈现的合成数据302中检索韵律标识;根据用户指令来识别特定韵律;根据用户韵律历史记录来选择特定韵律设置;以及确定用户的当前语音特征,并根据用户当前语音特征来选择特定韵律设置。以下参考图14A至14D,来更详细论述上述为将要语音呈现的合成数据302识别特定韵律设置的每一种方法。
图13的对合成数据进行语音呈现的方法还包括:根据将要语音呈现的合成数据302和上下文信息306,来确定(312)将要呈现的合成数据段314。合成数据段是直到且包括全部合成数据的合成数据的任何一小部分或子元素,包括:例如合成数据中的单个合成电子邮件;合成数据中的RSS摘要的头两行;来自合成数据中的RSS摘要的单个项目;来自RSS摘要的单个项目中包含关键字的两个句子;日历描述的头50个字;合成数据中的每个合成电子邮件的“To(去往):”、“From(来自):”、“Subject(主题):”和“Body(主体)”段的头50个字符;通道中的所有数据(如以上参考图12所描述的);以及如本领域技术人员所能想到的合成数据其它任何段。
上下文信息(306)是描述其中将要语音呈现合成数据的上下文的数据,例如,当前显示的合成数据的状态信息、一天中的时刻、一周中的天、系统配置、合成数据的特性或本领域技术人员所能想到的其它上下文信息306。上下文信息306常常用于确定要呈现的合成数据段314。例如,描述便携式计算机上下文的上下文信息识别出便携式计算机的盖子当前是闭合的。该上下文信息可用于确定将要语音呈现的且适于当前上下文的合成数据段。例如,与便携式计算机盖子打开时包括“To:”行、“From:”行、“Subject:”行、“Data Received(接收数据):”行、“Priority(优先级):”行和内容的整个合成电子邮件相反,这种段可以只包括合成数据中每一合成电子邮件的“From:”行和内容。
如以下将参考图15更详细论述的,根据将要语音呈现的合成数据302和上下文信息306来确定(312)将要呈现的合成数据段314例如可以包括:确定其中将要语音呈现合成数据的上下文信息306;根据上下文信息306来识别段长度;以及根据所识别的段长度来选择要呈现的合成数据段。
图13的对合成数据进行语音呈现的方法还包括:根据所识别的特定韵律设置310来呈现(316)合成数据段314。可以通过按照所识别的特定韵律设置314把合成数据段314内容作为语音进行播放,来实施根据所识别的特定韵律设置310呈现(316)合成数据段314。可以采用适于被呈现的段以及其中呈现段的上下文的方式,来向特定用户呈现这种段。
如上所述,对合成数据进行语音呈现常常包括:为将要语音呈现的合成数据302识别(308)特定韵律设置。韵律设置是一个或多个个性设置的集合,所述个性设置用于控制由语音引擎所实现的独特语音特征,如音节重音、声调和口语定时的变化,字间音调、语速、语音响度和停顿持续时间的变化,以及如本领域技术人员所能想到的其它独特语音特征。
因此,为进一步说明,图14A至14D阐述了为将要语音呈现的合成数据302识别(308)特定韵律设置的四种备选示范性方法的流程图。在图14A的方法中,为将要语音呈现的合成数据302识别(308)特定韵律设置包括:从将要语音呈现的合成数据中检索韵律标识318。这种韵律标识318可以包括:用在呈现合成数据中的个性语音属性的指定,在对合成数据进行语音呈现中将要模仿的语音的指定,语音和个性语音属性的任何组合的指定,或本领域技术人员所能想到的其它韵律标识318。个性语音属性的例子包括速率、音量、音调、范围以及如本领域技术人员所能想到的其它个性语音属性。
合成数据可以包含用于指定韵律标识的文本和标记,韵律标识常常包括个性语音属性。例如,VoiceXML 2.0格式(部分地包括X+V格式的VXML版本)支持在韵律元素下个性语音属性的指定。可以用标记标签<prosody>和</prosody>来表示韵律元素,并且可以通过把属性名和对应值包括在<prosody>标签中来指定个性语音属性,如轮廓(contour)、持续时间、音调、范围、速率和音量。VoiceXML 2.0格式也支持韵律标识318中所包括的但没有用<prosody>标签来表示的其它个性化语音属性,如由<emphasis>和</emphasis>标记标签表示的重音属性,该重音属性表示应该着重呈现文本。
为进一步说明,考虑以下包含用于实现按照特定韵律对合成数据进行语音呈现的文本和标记的语音支持合成数据的伪代码例子:
<head>
<title>头条报道</title>
      <block>
      <prosody速率=“慢”音量=“大声”>
      头条报道
      </prosody>
      </block>
</head>
<body>
<h1>地球是圆的</h1>
<p>科学家们现在发现了地球是圆的,而不是平的.</p>
      <block>
      <prosody速率=“中等”>
      科学家们现在发现了地球是圆的,而不是平的。
      </prosody>
      </block>
</body>
在以上示范性语音支持合成数据中,通过把文本“头条报道”包括在<title>和</title>标记标签之间,来将该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间,来实现对该文本的语音支持。当用语音支持的测览器进行呈现时,将把文本“头条报道”语音呈现为模拟语音。利用韵律元素来为将要语音呈现的文本指定个性语音属性。把将受影响的文本“头条报道”放在<prosody速率=“慢”音量=“大声”>和</prosody>标记标签之间。通过把短语‘速率=“慢和‘音量=“大声包括在<prosody速率=“慢”音量=“大声”>标记标签中,来指定慢速和大音量的个性语音属性。指定‘速率=“慢和‘音量=“大声的个性语音属性将导致以缓慢语速和大音量来呈现文本‘头条报道’。
在以上例子的下一部分中,通过把文本‘地球是圆的’包括在<h1>和</h1>标记标签之间,来把该文本表示为题目。该文本未被语音支持。
在以上例子的下一部分中,通过把文本‘科学家们现在发现了地球是圆的,而不是平的’包括在<p>和</p>标记标签之间,来把该文本表示为一段。通过再次把该文本包括在<block>和</block>标记标签之间,来实现对该文本的语音支持。当用语音支持的浏览器进行呈现时,将把文本‘科学家们现在发现了地球是圆的,而不是平的’语音呈现为模拟语音。利用韵律元素来为将要语音呈现的文本指定个性语音属性。把将受影响的文本‘科学家们现在发现了地球是圆的,而不是平的’放在<prosody速率=“中等”>和</prosody>标记标签之间。通过把短语‘速率=“中等包括在<prosody速率=“中等”>中,来指定中等速率的个性语音属性。指定‘速率=“中等的个性语音属性将导致以中等语速来呈现文本‘科学家们现在发现了地球是圆的,而不是平的’。
如以上所指出的,韵律标识318还可以包括在对合成数据进行语音呈现中将要模仿的语音的指定。语音的指定是被封装在一起作为用于模拟被指定语音的‘语音’的个性语音属性集合的指定。语音的指定可以包括在对合成数据进行语音呈现中将要模仿的性别和年龄的指定,性别或年龄指定的变化的指定,性别和年龄组合的变化的制定,以及一组预定义个性属性的名字的指定。
合成数据可以包含用于指定在对合成数据进行语音呈现中将要模仿的语音的文本和标记。例如,Java语音API标记语言(“JSML”)支持在其语音元素下在对合成数据进行语音呈现中将要模仿的语音的指定。JSML是一种基于XML的应用,它定义一组专用元素来标记要口语表达的文本,并定义那些元素的解释、以支持文档的语音呈现。JSML元素集包括由标签<voice>和</voice>来表示的语音元素。通过把语音属性(如‘性别’和‘年龄’)以及语音命名属性(如‘变化’和‘名字’)及对应值包括在<voice>标签中,来实施指定在对合成数据进行语音呈现中将要模仿的语音。
为进一步说明,考虑以下包含用于支持合成数据语音呈现的文本和标记的语音支持合成数据的伪代码例子:
<item>
<title>头条报道</title>
     <block>
     <voice性别=“男”年龄=“老年成年人”名字=“Roy”>
     头条报道.
     </voice>
     </block>
</item>
<item>
<title>体育</title>
     <block>
     <voice性别=“男”音量=“中年成年人”>
     体育.
     </voice>
     </block>
</item>
<item>
<title>娱乐</title>
     <block>
     <voice性别=“女性”年龄=“30”>娱乐.
     </voice>
     </block>
</item>
在以上示范性语音支持合成数据中,利用<item>和</item>标记标签来表示来自RSS形式摘要的三个项目。在第一项目中,通过把文本‘头条报道’包括在<title>和</title>标记标签之间,来把该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间,来实现该文本的语音支持。当用语音支持浏览器进行呈现时,将把文本‘头条报道’语音呈现为模拟语音。利用语音元素来为将要语音呈现的文本指定语音。把将受影响的文本“头条报道”放在<voice性别=“男”年龄=“老年成年人”名字=“Roy”>和</voice>标记标签之间。通过把短语‘性别=“男和‘年龄=“老年成年人包括在<voice性别=“男”,年龄=“老年成年人”名字=“Roy”>标记标签中,来指定老年成年男人的语音。指定老年成年男人的语音将导致利用预定义的老年成年男人个性语音属性来呈现文本‘头条报道’。<voice性别=“男”,年龄=“老年成年人”,名字=“Roy”>中所包括的短语‘名字=“Roy命名供以后使用的语音设置。
在下一项目中,通过把文本‘体育’包括在<title>和</title>标记标签之间,来把该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间,来实现该文本的语音支持。当用语音支持浏览器进行呈现时,将把文本‘体育’语音呈现为模拟语音。利用语音元素来为将要语音呈现的文本指定语音。把将受影响的文本‘体育,放在<voice性别=“男”,年龄=“中年成年人”>和</voice>标记标签之间。通过把短语‘性别=“男和‘年龄=“中年成年人包括在<voice性别=“男”,年龄=“中年成年人”>标记标签中,来指定中年成年男人的语音。指定中年成年男人的语音将导致利用预定义的中年成年男人个性语音属性来呈现文本‘体育’。
在以上例子的最后一项中,通过把文本‘娱乐’包括在<title>和</title>标记标签之间,来把该文本表示为标题。通过再次把该文本包括在<block>和</block>标记标签之间,来实现该文本的语音支持。当用语音支持浏览器进行呈现时,将把文本‘娱乐’语音呈现为模拟语音。利用语音元素来为将要语音呈现的文本指定语音。把将受影响的文本‘娱乐’放在<voice性别=“女”年龄=“30”>和</voice>标记标签之间。通过把短语‘性别=“女和‘年龄=“30包括在<voice性别=“女”年龄=“30”>标记标签中,来指定30岁女人的语音。指定30岁女人的语音将导致利用预定义的30岁女人的个性语音属性来呈现文本‘娱乐’。
现在转到图14B,图14B阐述了识别(308)用于对合成数据进行语音呈现的特定韵律设置的另一示范性方法的流程图。在图14B的方法中,识别(308)特定韵律设置包括:根据用户指令340来识别(342)特定韵律。用户指令是响应用户动作而接收的事件。示范性用户指令包括:接收作为用户利用键盘或小键盘输入按键组合的结果的事件,接收作为来自用户的语音的结果的事件,接收作为利用鼠标在可见显示器上点击图标的结果的事件,接收作为用户在触板上压按图标的结果的事件,或如本领域技术人员所能想到的其它用户指令。
可以通过以下方式来实施根据用户指令340识别(342)特定韵律:接收用户指令,从用户指令340来识别特定韵律设置;以及当呈现合成数据时实现特定韵律设置。例如,当在合成数据的语音呈现期间用户大声说出短语‘快速读’时,可以接收该短语‘快速读’,并将它和语法进行比较,以解释用户指令。匹配的语法可以具有这样的关联动作,即当该关联动作被调用时,它在语音引擎中建立特定的韵律设置‘快’,以命令语音引擎快速呈现合成数据。
现在转到图14C,图14C阐述了识别(308)用于对合成数据进行语音呈现的特定韵律设置的另一示范性方法的流程图。在图14C的方法中,识别(308)特定韵律设置还包括:根据用户韵律历史记录332来选择(338)特定韵律设置336。用户韵律历史记录332通常被实现为包括若干条目的数据结构,这些条目代表用户对合成数据进行语音呈现所使用的不同韵律设置以及其中使用这些不同韵律设置的上下文。其中使用不同韵律设置的上下文包括:在使用供合成数据语音呈现之用的不同韵律设置时周围的环境,如一天中的时刻、一周中的天、一年中的天、被语音呈现的合成数据的原始数据类型等。
用户韵律历史记录可用于在先前没有为合成数据段指定韵律设置的情况下选择韵律设置。因此,可以通过以下方式来实施根据用户韵律历史记录332来选择(338)特定韵律设置336:识别用户韵律历史记录332中最经常使用的韵律设置;并且当没有为合成数据选择其它韵律设置时,把所述最经常使用的韵律设置作为默认的韵律设置应用于合成数据的语音呈现中。
为进一步说明,考虑以下在没有韵律设置的情况下识别供合成数据语音呈现之用的特定韵律设置的例子:
IF ProsodySetting=none;
AND MostUsedProsodySettingInProsodyHistory=rate medium;
THEN Render(synthesized data)=rate medium。
在以上例子中,不存在用于呈现合成数据的韵律设置。记录了韵律设置使用的用户韵律历史记录指示当前最经常使用的韵律设置是中速语音的韵律设置。因为不存在用于对合成数据进行语音呈现的韵律设置,所以利用来自用户韵律历史记录的最经常使用的韵律设置(中速语音),来对合成数据进行语音呈现。
现在转到图14D,图14D阐述了识别(308)用于对合成数据进行语音呈现的特定韵律设置的另一示范性方法的流程图。在图14D的方法中,识别(308)特定韵律设置还包括:确定(326)用户的当前语音特征328,并根据用户当前语音特征328来选择(330)特定韵律设置310。用户语音特征包括:音节重音的变化、声调、口语定时、字间音调的变化、语速、语音响度和停顿持续时间的变化、以及如本领域技术人员所能想到的其它独特语音特征。
可以通过从用户接收语音并将语音的个性特征与具有关联韵律设置的预定语音模式描述(profile)进行比较,来实施确定(326)用户当前语音特征328。语音模式描述是被转换为值范围的如速率、重音、音量等语音特征的个性方面的集合。这种语音模式描述也具有用于语音描述的关联韵律设置。
如果用户当前语音特征328落入语音模式描述的个性范围内,则确定当前语音特征与语音模式描述相匹配。然后,选择与语音模式描述关联的韵律设置,用以对合成数据段进行语音呈现。
在没有语音模式描述的情况下,也可以通过以下方式来实施根据用户当前语音特征328选择(330)特定韵律设置310:确定语音特征的个性方面,如语速;并选择最接近地匹配用户语音特征的每个对应方面的个性特定韵律设置。换句话说,选择最接近地匹配用户语音的特定韵律设置。
如上所述,根据本发明的对合成数据进行语音呈现还包括:确定要呈现的合成数据段。合成数据段是直到且包括全部合成数据的合成数据的任一小部分或子元素。将要呈现的合成数据段不必是合成数据的连续部分。将要呈现的合成数据段可以包括合成数据的不相邻片断。通常,根据将要呈现的合成数据以及描述其中将要语音呈现合成数据的上下文的上下文信息,来实施确定将要呈现的合成数据段。
为进一步说明,图15阐述了根据将要语音呈现的合成数据302以及关于其中将要语音呈现合成数据的上下文的上下文信息306来确定(312)将要呈现的合成数据段314的示范性方法的流程图。图15的方法包括:确定(350)关于其中将要语音呈现合成数据的上下文的上下文信息306。可以通过从设备上运行的其它进程、从硬件或者从本领域技术人员所能想到的其它任何上下文信息306源接收上下文信息306,来实施确定(350)关于其中将要语音呈现合成数据的上下文的上下文信息(306)。
根据图15的方法确定(312)将要呈现的合成数据段314还包括:根据上下文信息306来识别(354)段长度362。段长度通常被实现为合成内容的数量364,如合成数据的特定字节数、文本的特定行数、文本的特定段数、内容的特定章数、或本领域技术人员所能想到的合成内容的任何其它数量364。
可以通过在段长度表中执行查找,来实施根据上下文信息306识别(354)段长度362,该段长度表包括由上下文以及常常由将要呈现合成数据的原始数据类型所索引的预定段长度。为进一步说明,考虑以下例子:当用户的便携式计算机在用户通常开车去上班的早上8点关闭时,用户说单词‘读电子邮件’。可以通过在上下文信息表中执行查找以选择用于在早上8点阅读合成电子邮件的上下文ID,来实施识别段长度。对于合成电子邮件,所选择的上下文ID具有5行的预定段长度。
可以通过以下方式来实施根据上下文信息306来识别(354)段长度362:根据上下文信息306来识别(356)呈现时间358;并根据韵律设置334和呈现时间358来确定(360)将要呈现的段长度362。呈现时间是指示为呈现合成数据段而分配的时间的值。呈现时间和韵律设置一起确定可以进行语音呈现的内容量。例如,与快语速的韵律设置相比,较慢语速的韵律设置需要较长的呈现时间来对相同数量的内容进行语音呈现。
可以通过在呈现时间表中执行查找,来实施根据上下文信息306识别(356)呈现时间358。这种呈现时间表中的每个条目都具有由韵律设置、上下文信息以及常常由合成数据的原始数据类型所索引的呈现时间。
为进一步说明,考虑呈现时间表的单个条目中所包含的示范性呈现时间表信息:
Prosody_Settings;速率=慢;
Context_Information;便携式计算机关闭
Native_Data_Type;电子邮件
Rendering_Time;30秒
在以上的示范性呈现时间表条目信息中,当将要呈现的数据的韵律设置为慢语速、便携式计算机关闭、将要呈现的合成数据的原始数据类型是电子邮件时,预先确定30秒的呈现时间用于呈现合成数据段。
根据图15的方法确定(312)将要呈现的合成数据段314还包括:根据所识别的段长度362来选择(366)将要呈现的合成数据段302。这样选择的段是具有所识别的段长度的段。如上所述,段不必是合成数据的连续段长度。将要呈现的合成数据段可以包括合成数据的非相邻段,所述非相邻段一起形成具有所识别段长度的段。
可以通过将段选择规则应用于合成数据,来实施根据所识别的段长度362来选择(366)将要呈现的合成数据段302。段选择规则是控制合成数据的选择以形成用于语音呈现的合成数据段的规则。
为进一步说明,考虑以下的示例段选择规则:
如果合成数据的原始数据类型是电子邮件,
且段长度等于5行,
则选择FROM:行,
且选择头4行内容。
在以上示例段选择规则中,如果合成数据的原始数据类型是电子邮件且段长度为5行,则将要呈现的合成数据段包括:合成电子邮件的‘FROM:’行以及合成电子邮件的头4行内容。
主要在用于管理和呈现异构数据类型的数据的全功能计算机系统的上下文信息下,描述了本发明的示范性实施例。然而,本技术领域的读者应该认识到,也可以在供任何合适数据处理系统使用的信号承载介质上所设置的计算机程序产品中体现本发明。这种信号承载介质可以是传输介质或用于机器可读信息的可记录介质,包括磁介质、光介质或其它合适介质。可记录介质的例子包括:硬盘驱动器中的磁盘或软盘、用于光驱的光盘、磁带,以及本领域技术人员所能想到的其它介质。传输介质的例子包括用于语音通信的电话网以及数字数据通信网络,例如以太网TM以及与网际协议和环球网进行通信的网络。本领域技术人员应该立即认识到,具有合适编程装置的任何计算机系统都将能够执行如程序产品中体现的本发明方法的步骤。本领域技术人员应该立即认识到,虽然本说明书中所描述的某些示范性实施例是面向安装在计算机硬件上并在计算机硬件上执行的软件,然而,被实现为固件或硬件的备选实施例也在本发明的范围内。
从上述描述应该理解,在不脱离本发明真实精神的情况下、可以对本发明各实施例进行修改和变动。本说明书中的描述仅仅是用于说明性的,而不应被认为是限制性的。本发明的范围仅受以下权利要求的语言所限制。

Claims (17)

1.一种用于对合成数据进行语音呈现的计算机实现的方法,该方法包括:
检索将要语音呈现的合成数据;
为所述将要语音呈现的合成数据识别特定韵律设置;
根据所述将要语音呈现的合成数据以及关于其中将要语音呈现所述合成数据的上下文的上下文信息,来确定将要呈现的合成数据段;以及
根据所识别的特定韵律设置,来呈现所述合成数据段。
2.根据权利要求1所述的方法,其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括:从所述将要语音呈现的合成数据中检索韵律标识。
3.根据权利要求1所述的方法,其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括:根据用户指令来识别特定韵律。
4.根据权利要求1所述的方法,其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括:根据用户韵律历史记录来选择所述特定韵律设置。
5.根据权利要求1所述的方法,其中为所述将要语音呈现的合成数据识别特定韵律设置进一步包括:
确定所述用户的当前语音特征;以及
根据所述用户的所述当前语音特征来选择所述特定韵律设置。
6.根据权利要求1所述的方法,其中根据所述将要语音呈现的合成数据以及关于其中将要语音呈现所述合成数据的上下文的所述上下文信息来确定将要呈现的合成数据段进一步包括:
确定关于其中将要语音呈现所述合成数据的上下文的所述上下文信息;
根据所述上下文信息来识别段长度;以及
根据所识别的段长度来选择要呈现的合成数据段。
7.根据权利要求6所述的方法,其中所述段长度包括合成内容的数量。
8.根据权利要求6所述的方法,其中根据所述上下文信息来识别段长度进一步包括:
根据所述上下文信息来识别呈现时间;以及
根据所述韵律设置和所述呈现时间来确定将要呈现的段长度。
9.一种用于对合成数据进行语音呈现的系统,该系统包括:
计算机处理器;以及
计算机存储器,其可操作地耦合到所述计算机处理器,该计算机存储器内置有能够实现以下内容的计算机程序指令:
检索将要语音呈现的合成数据;
为所述将要语音呈现的合成数据识别特定韵律设置;
根据所述将要语音呈现的合成数据以及关于其中将要语音呈现合成数据的上下文的上下文信息,来确定将要呈现的合成数据段;以及
根据所识别的特定韵律设置,来呈现所述合成数据段。
10.根据权利要求9所述的系统,其中所述计算机存储器还内置有能够从所述将要语音呈现的合成数据中检索韵律标识的计算机程序指令。
11.根据权利要求9所述的系统,其中所述计算机存储器还内置有能够根据用户指令来识别特定韵律的计算机程序指令。
12.根据权利要求9所述的系统,其中所述计算机存储器还内置有能够根据用户韵律历史记录来选择所述特定韵律设置的计算机程序指令。
13.根据权利要求9所述的系统,其中所述计算机存储器还内置有能够实现以下内容的计算机程序指令:
确定所述用户的当前语音特征;以及
根据所述用户的所述当前语音特征来选择所述特定韵律设置。
14.根据权利要求9所述的系统,其中所述计算机存储器还内置有能够实现以下内容的计算机程序指令:
确定关于其中将要语音呈现所述合成数据的上下文的所述上下文信息;
根据所述上下文信息来识别段长度;以及
根据所识别的段长度来选择将要呈现的合成数据段。
15.根据权利要求14所述的系统,其中所述段长度包括合成内容的数量。
16.根据权利要求14所述的系统,其中所述计算机存储器还内置有能够实现以下内容的计算机程序指令:
根据所述上下文信息来识别呈现时间;以及
根据所述韵律设置和所述呈现时间来确定将要呈现的段长度。
17.一种用于对合成数据进行语音呈现的计算机程序产品,该计算机程序产品实现在计算机可读介质上,该计算机程序产品包括:
用于执行根据权利要求1至8任一项所述的方法步骤的计算机程序指令。
CN200610143704XA 2005-11-03 2006-11-02 用于对合成数据进行语音呈现的方法和系统 Expired - Fee Related CN101004806B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/266,559 2005-11-03
US11/266,559 US8694319B2 (en) 2005-11-03 2005-11-03 Dynamic prosody adjustment for voice-rendering synthesized data

Publications (2)

Publication Number Publication Date
CN101004806A true CN101004806A (zh) 2007-07-25
CN101004806B CN101004806B (zh) 2011-11-02

Family

ID=37997638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610143704XA Expired - Fee Related CN101004806B (zh) 2005-11-03 2006-11-02 用于对合成数据进行语音呈现的方法和系统

Country Status (3)

Country Link
US (1) US8694319B2 (zh)
KR (1) KR100861860B1 (zh)
CN (1) CN101004806B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867695A (zh) * 2010-05-21 2010-10-20 中山大学 一种基于浏览器的数字电视机顶盒
CN106547511A (zh) * 2015-09-16 2017-03-29 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
CN109582271A (zh) * 2018-10-26 2019-04-05 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3924583B2 (ja) * 2004-02-03 2007-06-06 松下電器産業株式会社 ユーザ適応型装置およびその制御方法
KR100719776B1 (ko) * 2005-02-25 2007-05-18 에이디정보통신 주식회사 휴대형 코드인식 음성 합성출력장치
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7958131B2 (en) * 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8266220B2 (en) 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US20070061371A1 (en) * 2005-09-14 2007-03-15 Bodin William K Data customization for data of disparate data types
US20070061712A1 (en) * 2005-09-14 2007-03-15 Bodin William K Management and rendering of calendar data
US20070165538A1 (en) * 2006-01-13 2007-07-19 Bodin William K Schedule-based connectivity management
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
US20070192675A1 (en) * 2006-02-13 2007-08-16 Bodin William K Invoking an audio hyperlink embedded in a markup document
US20070192673A1 (en) * 2006-02-13 2007-08-16 Bodin William K Annotating an audio file with an audio hyperlink
US9135339B2 (en) * 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US9037466B2 (en) 2006-03-09 2015-05-19 Nuance Communications, Inc. Email administration for rendering email on a digital audio player
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US9274847B2 (en) * 2007-05-04 2016-03-01 Microsoft Technology Licensing, Llc Resource management platform
WO2009003281A1 (en) * 2007-07-03 2009-01-08 Tlg Partnership System, method, and data structure for providing access to interrelated sources of information
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US8249225B2 (en) * 2008-03-14 2012-08-21 International Business Machines Corporation Identifying caller preferences based on voice print analysis
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
JP2013072957A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 文書読み上げ支援装置、方法及びプログラム
US9824695B2 (en) * 2012-06-18 2017-11-21 International Business Machines Corporation Enhancing comprehension in voice communications
JP5999839B2 (ja) * 2012-09-10 2016-09-28 ルネサスエレクトロニクス株式会社 音声案内システム及び電子機器
US8856007B1 (en) * 2012-10-09 2014-10-07 Google Inc. Use text to speech techniques to improve understanding when announcing search results
US9064318B2 (en) 2012-10-25 2015-06-23 Adobe Systems Incorporated Image matting and alpha value techniques
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US9355649B2 (en) 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US9076205B2 (en) 2012-11-19 2015-07-07 Adobe Systems Incorporated Edge direction and curve based image de-blurring
US10249321B2 (en) * 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US9451304B2 (en) 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
US9135710B2 (en) 2012-11-30 2015-09-15 Adobe Systems Incorporated Depth map stereo correspondence techniques
US9208547B2 (en) 2012-12-19 2015-12-08 Adobe Systems Incorporated Stereo correspondence smoothness tool
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9214026B2 (en) 2012-12-20 2015-12-15 Adobe Systems Incorporated Belief propagation and affinity measures
US9384728B2 (en) * 2014-09-30 2016-07-05 International Business Machines Corporation Synthesizing an aggregate voice
US10423709B1 (en) 2018-08-16 2019-09-24 Audioeye, Inc. Systems, devices, and methods for automated and programmatic creation and deployment of remediations to non-compliant web pages or user interfaces
US10896286B2 (en) 2016-03-18 2021-01-19 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10444934B2 (en) 2016-03-18 2019-10-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10867120B1 (en) 2016-03-18 2020-12-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US11727195B2 (en) 2016-03-18 2023-08-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10319365B1 (en) * 2016-06-27 2019-06-11 Amazon Technologies, Inc. Text-to-speech processing with emphasized output audio
US10157607B2 (en) * 2016-10-20 2018-12-18 International Business Machines Corporation Real time speech output speed adjustment
US10586079B2 (en) 2016-12-23 2020-03-10 Soundhound, Inc. Parametric adaptation of voice synthesis
US10592203B2 (en) 2017-12-18 2020-03-17 Mitel Networks Corporation Device including a digital assistant for personalized speech playback and method of using same
CN108197115B (zh) * 2018-01-26 2022-04-22 上海智臻智能网络科技股份有限公司 智能交互方法、装置、计算机设备和计算机可读存储介质
US10902841B2 (en) 2019-02-15 2021-01-26 International Business Machines Corporation Personalized custom synthetic speech
US11741965B1 (en) * 2020-06-26 2023-08-29 Amazon Technologies, Inc. Configurable natural language output
US20230230577A1 (en) * 2022-01-04 2023-07-20 Capital One Services, Llc Dynamic adjustment of content descriptions for visual components

Family Cites Families (352)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4785408A (en) 1985-03-11 1988-11-15 AT&T Information Systems Inc. American Telephone and Telegraph Company Method and apparatus for generating computer-controlled interactive voice services
GB8918553D0 (en) 1989-08-15 1989-09-27 Digital Equipment Int Message control system
US5020107A (en) 1989-12-04 1991-05-28 Motorola, Inc. Limited vocabulary speech recognition system
US5341469A (en) 1991-05-13 1994-08-23 Arcom Architectural Computer Services, Inc. Structured text system
EP0598514B1 (en) * 1992-11-18 1999-12-29 Canon Information Systems, Inc. Method and apparatus for extracting text from a structured data file and converting the extracted text to speech
US5406626A (en) 1993-03-15 1995-04-11 Macrovision Corporation Radio receiver for information dissemenation using subcarrier
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US6088026A (en) * 1993-12-21 2000-07-11 International Business Machines Corporation Method and apparatus for multimedia information association to an electronic calendar event
CA2179523A1 (en) * 1993-12-23 1995-06-29 David A. Boulton Method and apparatus for implementing user feedback
US5564043A (en) 1994-03-24 1996-10-08 At&T Global Information Solutions Launching computer program upon download of data created by program
US5613032A (en) * 1994-09-02 1997-03-18 Bell Communications Research, Inc. System and method for recording, playing back and searching multimedia events wherein video, audio and text can be searched and retrieved
KR970002384B1 (ko) * 1994-10-26 1997-03-03 엘지전자 주식회사 휴대형 단말기의 사운드 발생 및 디스플레이 제어장치
DE4440598C1 (de) 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
AUPN520495A0 (en) * 1995-09-04 1995-09-28 Charon Holdings Pty Ltd Reading aid
US6965569B1 (en) 1995-09-18 2005-11-15 Net2Phone, Inc. Flexible scalable file conversion system and method
US5892825A (en) 1996-05-15 1999-04-06 Hyperlock Technologies Inc Method of secure server control of local media via a trigger through a network for instant local access of encrypted data on local media
US6115482A (en) * 1996-02-13 2000-09-05 Ascent Technology, Inc. Voice-output reading system with gesture-based navigation
US5953392A (en) 1996-03-01 1999-09-14 Netphonic Communications, Inc. Method and apparatus for telephonically accessing and navigating the internet
US5901287A (en) 1996-04-01 1999-05-04 The Sabre Group Inc. Information aggregation and synthesization system
US6141693A (en) 1996-06-03 2000-10-31 Webtv Networks, Inc. Method and apparatus for extracting digital data from a video stream and using the digital data to configure the video stream for display on a television set
US5903727A (en) * 1996-06-18 1999-05-11 Sun Microsystems, Inc. Processing HTML to embed sound in a web page
EP0817002A3 (en) * 1996-07-01 2001-02-14 International Business Machines Corporation Speech supported navigation of a pointer in a graphical user interface
US6434567B1 (en) 1996-07-30 2002-08-13 Carlos De La Huerga Method for specifying enterprise-wide database address formats
GB2317070A (en) 1996-09-07 1998-03-11 Ibm Voice processing/internet system
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US6006187A (en) * 1996-10-01 1999-12-21 Lucent Technologies Inc. Computer prosody user interface
US6199076B1 (en) * 1996-10-02 2001-03-06 James Logan Audio program player including a dynamic program selection controller
US5732216A (en) 1996-10-02 1998-03-24 Internet Angles, Inc. Audio message exchange system
US6233318B1 (en) * 1996-11-05 2001-05-15 Comverse Network Systems, Inc. System for accessing multimedia mailboxes and messages over the internet and via telephone
US6282511B1 (en) 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5911776A (en) 1996-12-18 1999-06-15 Unisys Corporation Automatic format conversion system and publishing methodology for multi-user network
US6317714B1 (en) 1997-02-04 2001-11-13 Microsoft Corporation Controller and associated mechanical characters operable for continuously performing received control data while engaging in bidirectional communications over a single communications channel
US6823225B1 (en) * 1997-02-12 2004-11-23 Im Networks, Inc. Apparatus for distributing and playing audio information
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
US5978463A (en) 1997-04-18 1999-11-02 Mci Worldcom, Inc. Reservation scheduling system for audio conferencing resources
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6944214B1 (en) 1997-08-27 2005-09-13 Gateway, Inc. Scheduled audio mode for modem speaker
US6487277B2 (en) 1997-09-19 2002-11-26 Siemens Information And Communication Networks, Inc. Apparatus and method for improving the user interface of integrated voice response systems
US6266664B1 (en) 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
US6959220B1 (en) * 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
US6032260A (en) 1997-11-13 2000-02-29 Ncr Corporation Method for issuing a new authenticated electronic ticket based on an expired authenticated ticket and distributed server architecture for using same
US6055525A (en) * 1997-11-25 2000-04-25 International Business Machines Corporation Disparate data loader
US6092121A (en) * 1997-12-18 2000-07-18 International Business Machines Corporation Method and apparatus for electronically integrating data captured in heterogeneous information systems
US6931587B1 (en) * 1998-01-29 2005-08-16 Philip R. Krause Teleprompter device
US6282512B1 (en) 1998-02-05 2001-08-28 Texas Instruments Incorporated Enhancement of markup language pages to support spoken queries
US6012098A (en) * 1998-02-23 2000-01-04 International Business Machines Corp. Servlet pairing for isolation of the retrieval and rendering of data
US6115686A (en) 1998-04-02 2000-09-05 Industrial Technology Research Institute Hyper text mark up language document to speech converter
US6178511B1 (en) 1998-04-30 2001-01-23 International Business Machines Corporation Coordinating user target logons in a single sign-on (SSO) environment
US6563769B1 (en) 1998-06-11 2003-05-13 Koninklijke Philips Electronics N.V. Virtual jukebox
US6446040B1 (en) 1998-06-17 2002-09-03 Yahoo! Inc. Intelligent text-to-speech synthesis
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
JP2000090151A (ja) * 1998-09-10 2000-03-31 Ibm Japan Ltd スケジュール表示方法、スケジュール変更方法、スケジュール管理装置、スケジュール管理プログラムを格納した記憶媒体
JP2000090156A (ja) 1998-09-14 2000-03-31 Ibm Japan Ltd スケジュール表示方法、スケジュール変更方法、スケジュール管理システム、スケジュール管理プログラムを格納した記憶媒体
US6266649B1 (en) 1998-09-18 2001-07-24 Amazon.Com, Inc. Collaborative recommendations using item-to-item similarity mappings
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US6839669B1 (en) 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
US20020015480A1 (en) * 1998-12-08 2002-02-07 Neil Daswani Flexible multi-network voice/data aggregation system architecture
US6859212B2 (en) 1998-12-08 2005-02-22 Yodlee.Com, Inc. Interactive transaction center interface
US8290034B2 (en) 1998-12-21 2012-10-16 Zin Stai Pte. In, Llc Video transmission and display including bit-wise sub-sampling video compression
US6802041B1 (en) 1999-01-20 2004-10-05 Perfectnotes Corporation Multimedia word processor
US6480860B1 (en) 1999-02-11 2002-11-12 International Business Machines Corporation Tagged markup language interface with document type definition to access data in object oriented database
US6272461B1 (en) * 1999-03-22 2001-08-07 Siemens Information And Communication Networks, Inc. Method and apparatus for an enhanced presentation aid
EP1100072A4 (en) * 1999-03-25 2005-08-03 Matsushita Electric Ind Co Ltd LANGUAGE SYNTHETIZATION SYSTEM AND METHOD
US6397185B1 (en) * 1999-03-29 2002-05-28 Betteraccent, Llc Language independent suprasegmental pronunciation tutoring system and methods
US6574599B1 (en) * 1999-03-31 2003-06-03 Microsoft Corporation Voice-recognition-based methods for establishing outbound communication through a unified messaging system including intelligent calendar interface
US6463440B1 (en) 1999-04-08 2002-10-08 International Business Machines Corporation Retrieval of style sheets from directories based upon partial characteristic matching
US6519617B1 (en) 1999-04-08 2003-02-11 International Business Machines Corporation Automated creation of an XML dialect and dynamic generation of a corresponding DTD
US6859527B1 (en) * 1999-04-30 2005-02-22 Hewlett Packard/Limited Communications arrangement and method using service system to facilitate the establishment of end-to-end communication over a network
US6240391B1 (en) 1999-05-25 2001-05-29 Lucent Technologies Inc. Method and apparatus for assembling and presenting structured voicemail messages
US6721713B1 (en) 1999-05-27 2004-04-13 Andersen Consulting Llp Business alliance identification in a web architecture framework
US20020032564A1 (en) 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6468084B1 (en) * 1999-08-13 2002-10-22 Beacon Literacy, Llc System and method for literacy development
US6993476B1 (en) 1999-08-26 2006-01-31 International Business Machines Corporation System and method for incorporating semantic characteristics into the format-driven syntactic document transcoding framework
US6912691B1 (en) 1999-09-03 2005-06-28 Cisco Technology, Inc. Delivering voice portal services using an XML voice-enabled web server
US6850603B1 (en) 1999-09-13 2005-02-01 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized dynamic and interactive voice services
US6611876B1 (en) 1999-10-28 2003-08-26 International Business Machines Corporation Method for establishing optimal intermediate caching points by grouping program elements in a software system
ATE494612T1 (de) 1999-11-09 2011-01-15 Nuance Comm Austria Gmbh Spracherkennungsverfahren zur aktivierung von internet-hyperlinks
US6593943B1 (en) 1999-11-30 2003-07-15 International Business Machines Corp. Information grouping configuration for use with diverse display devices
US20020130891A1 (en) * 1999-12-08 2002-09-19 Michael Singer Text display with user-defined appearance and automatic scrolling
US6563770B1 (en) * 1999-12-17 2003-05-13 Juliette Kokhab Method and apparatus for the distribution of audio data
FI113231B (fi) 2000-01-17 2004-03-15 Nokia Corp Menetelmä sanomien sisältämän informaation esittämiseksi multimediapäätelaitteessa, multimediasanomien välitysjärjestelmä ja multimediapäätelaite
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
US7437408B2 (en) 2000-02-14 2008-10-14 Lockheed Martin Corporation Information aggregation, processing and distribution system
US6532477B1 (en) 2000-02-23 2003-03-11 Sun Microsystems, Inc. Method and apparatus for generating an audio signature for a data item
US6901403B1 (en) * 2000-03-02 2005-05-31 Quovadx, Inc. XML presentation of general-purpose data sources
US6311194B1 (en) 2000-03-15 2001-10-30 Taalee, Inc. System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
US6731993B1 (en) * 2000-03-16 2004-05-04 Siemens Information & Communication Networks, Inc. Computer telephony audio configuration
US6694297B2 (en) 2000-03-30 2004-02-17 Fujitsu Limited Text information read-out device and music/voice reproduction device incorporating the same
WO2001075679A1 (en) 2000-04-04 2001-10-11 Metamatrix, Inc. A system and method for accessing data in disparate information sources
US7702995B2 (en) 2000-04-24 2010-04-20 TVWorks, LLC. Method and system for transforming content for execution on multiple platforms
US6644973B2 (en) * 2000-05-16 2003-11-11 William Oster System for improving reading and speaking
JP2001339424A (ja) 2000-05-26 2001-12-07 Nec Corp 電子メール処理システム、処理方法及び処理装置
US7346649B1 (en) * 2000-05-31 2008-03-18 Wong Alexander Y Method and apparatus for network content distribution using a personal server approach
CN1328321A (zh) * 2000-05-31 2001-12-26 松下电器产业株式会社 通过语音提供信息的装置和方法
CA2310943A1 (en) * 2000-06-02 2001-12-02 Michael J. Sikorsky Methods, techniques, software and systems for providing context independent, protocol independent portable or reusable development tools
US6816835B2 (en) 2000-06-15 2004-11-09 Sharp Kabushiki Kaisha Electronic mail system and device
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
FI115868B (fi) 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US6944591B1 (en) 2000-07-27 2005-09-13 International Business Machines Corporation Audio support system for controlling an e-mail system in a remote computer
US7185360B1 (en) 2000-08-01 2007-02-27 Hereuare Communications, Inc. System for distributed network authentication and access control
US6779022B1 (en) 2000-08-17 2004-08-17 Jens Horstmann Server that obtains information from multiple sources, filters using client identities, and dispatches to both hardwired and wireless clients
US7092370B2 (en) * 2000-08-17 2006-08-15 Roamware, Inc. Method and system for wireless voice channel/data channel integration
US7779097B2 (en) 2000-09-07 2010-08-17 Sonic Solutions Methods and systems for use in network management of content
JP2002092261A (ja) 2000-09-13 2002-03-29 Yamaha Corp コンテンツ評価方法
US7454346B1 (en) 2000-10-04 2008-11-18 Cisco Technology, Inc. Apparatus and methods for converting textual information to audio-based output
JP3661768B2 (ja) 2000-10-04 2005-06-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 音響機器およびコンピュータ装置
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
EP1197884A3 (en) 2000-10-12 2006-01-11 Siemens Corporate Research, Inc. Method and apparatus for authoring and viewing audio documents
US6636875B1 (en) * 2000-10-25 2003-10-21 International Business Machines Corporation System and method for synchronizing related data elements in disparate storage systems
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US6975988B1 (en) 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
US6728680B1 (en) * 2000-11-16 2004-04-27 International Business Machines Corporation Method and apparatus for providing visual feedback of speed production
DE60133529T2 (de) 2000-11-23 2009-06-10 International Business Machines Corp. Sprachnavigation in Webanwendungen
CA2327632C (en) * 2000-12-05 2008-10-07 Mitchell J. Shnier Methods for creating and playing a customized program of a variety of sources
GB2369955B (en) 2000-12-07 2004-01-07 Hewlett Packard Co Encoding of hyperlinks in sound signals
US7178100B2 (en) * 2000-12-15 2007-02-13 Call Charles G Methods and apparatus for storing and manipulating variable length and fixed length data elements as a sequence of fixed length integers
US7349867B2 (en) 2000-12-22 2008-03-25 Invenda Corporation Tracking transactions by using addresses in a communications network
US6823312B2 (en) 2001-01-18 2004-11-23 International Business Machines Corporation Personalized system for providing improved understandability of received speech
GB2374501B (en) * 2001-01-29 2005-04-13 Hewlett Packard Co Facilitation of clear presenentation in audio user interface
CN1156751C (zh) 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和系统
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US7664641B1 (en) * 2001-02-15 2010-02-16 West Corporation Script compliance and quality assurance based on speech recognition and duration of interaction
US7191133B1 (en) * 2001-02-15 2007-03-13 West Corporation Script compliance using speech recognition
US7194411B2 (en) 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
US20020120693A1 (en) 2001-02-27 2002-08-29 Rudd Michael L. E-mail conversion service
US7171411B1 (en) 2001-02-28 2007-01-30 Oracle International Corporation Method and system for implementing shared schemas for users in a distributed computing system
US7120702B2 (en) 2001-03-03 2006-10-10 International Business Machines Corporation System and method for transcoding web content for display by alternative client devices
US20020128837A1 (en) 2001-03-12 2002-09-12 Philippe Morin Voice binding for user interface navigation system
US6643635B2 (en) * 2001-03-15 2003-11-04 Sagemetrics Corporation Methods for dynamically accessing, processing, and presenting data acquired from disparate data sources
US6832196B2 (en) 2001-03-30 2004-12-14 International Business Machines Corporation Speech driven data selection in a voice-enabled program
EP1246142A1 (en) 2001-03-30 2002-10-02 Nokia Corporation Download of audio files to a detachable memory for playing in separate terminal
US6792407B2 (en) * 2001-03-30 2004-09-14 Matsushita Electric Industrial Co., Ltd. Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
US20020152210A1 (en) 2001-04-03 2002-10-17 Venetica Corporation System for providing access to multiple disparate content repositories with a single consistent interface
US7107533B2 (en) * 2001-04-09 2006-09-12 International Business Machines Corporation Electronic book with multimode I/O
US7039643B2 (en) 2001-04-10 2006-05-02 Adobe Systems Incorporated System, method and apparatus for converting and integrating media files
DE10119067A1 (de) 2001-04-18 2002-10-31 Bosch Gmbh Robert Verfahren zum Abspielen von Multimediadaten mit einem Unterhaltungsgerät
JP4225703B2 (ja) 2001-04-27 2009-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報アクセス方法、情報アクセスシステムおよびプログラム
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7890517B2 (en) 2001-05-15 2011-02-15 Metatomix, Inc. Appliance for enterprise information integration and enterprise resource interoperability platform and methods
JP2002351878A (ja) 2001-05-18 2002-12-06 Internatl Business Mach Corp <Ibm> デジタルコンテンツ再生装置、データ取得システム、デジタルコンテンツ再生方法、メタデータ管理方法、電子透かし埋め込み方法、プログラム及び記録媒体
US7366712B2 (en) 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
JP2002359647A (ja) 2001-06-01 2002-12-13 Canon Inc 情報提供装置及び情報処理装置及びシステムとそれらの方法
US6990451B2 (en) * 2001-06-01 2006-01-24 Qwest Communications International Inc. Method and apparatus for recording prosody for fully concatenated speech
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US7565212B2 (en) 2001-06-13 2009-07-21 Yamaha Corporation Configuration method of digital audio mixer
JP3672245B2 (ja) * 2001-06-15 2005-07-20 インターナショナル・ビジネス・マシーンズ・コーポレーション メール発信システム、メールサーバ、メール転送システム、メール転送方法、メール発信方法、メール配信方法、プログラム
US20020198714A1 (en) 2001-06-26 2002-12-26 Guojun Zhou Statistical spoken dialog system
US7609829B2 (en) * 2001-07-03 2009-10-27 Apptera, Inc. Multi-platform capable inference engine and universal grammar language adapter for intelligent voice application execution
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
JP2003037847A (ja) 2001-07-26 2003-02-07 Matsushita Electric Ind Co Ltd 画像処理システム及び撮像装置並びに画像処理装置
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US20030055835A1 (en) * 2001-08-23 2003-03-20 Chantal Roth System and method for transferring biological data to and from a database
US6985939B2 (en) 2001-09-19 2006-01-10 International Business Machines Corporation Building distributed software services as aggregations of other services
EP1303097A3 (en) 2001-10-16 2005-11-30 Microsoft Corporation Virtual distributed security system
US6987947B2 (en) 2001-10-30 2006-01-17 Unwired Technology Llc Multiple channel wireless communication system
US20030110185A1 (en) * 2001-12-10 2003-06-12 Rhoads Geoffrey B. Geographically-based databases and methods
US20030110272A1 (en) 2001-12-11 2003-06-12 Du Castel Bertrand System and method for filtering content
US7076051B2 (en) * 2001-12-12 2006-07-11 International Business Machines Corporation Promoting caller voice browsing in a hold queue
US20030110297A1 (en) 2001-12-12 2003-06-12 Tabatabai Ali J. Transforming multimedia data for delivery to multiple heterogeneous devices
US20030115289A1 (en) * 2001-12-14 2003-06-19 Garry Chinn Navigation in a voice recognition system
US7058565B2 (en) 2001-12-17 2006-06-06 International Business Machines Corporation Employing speech recognition and key words to improve customer service
US6915246B2 (en) 2001-12-17 2005-07-05 International Business Machines Corporation Employing speech recognition and capturing customer speech to improve customer service
US7046772B1 (en) 2001-12-17 2006-05-16 Bellsouth Intellectual Property Corporation Method and system for call, facsimile and electronic message forwarding
US20040068552A1 (en) 2001-12-26 2004-04-08 David Kotz Methods and apparatus for personalized content presentation
US20030126293A1 (en) 2001-12-27 2003-07-03 Robert Bushey Dynamic user interface reformat engine
US7493259B2 (en) 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US20030145062A1 (en) 2002-01-14 2003-07-31 Dipanshu Sharma Data conversion server for voice browsing system
US20030132953A1 (en) 2002-01-16 2003-07-17 Johnson Bruce Alan Data preparation for media browsing
US7159174B2 (en) 2002-01-16 2007-01-02 Microsoft Corporation Data preparation for media browsing
US7139756B2 (en) 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
US7031477B1 (en) * 2002-01-25 2006-04-18 Matthew Rodger Mella Voice-controlled system for providing digital audio content in an automobile
WO2004107094A2 (en) 2002-01-25 2004-12-09 Seurat Company Data integration system and method for presenting 360° customer views
US7149788B1 (en) 2002-01-28 2006-12-12 Witness Systems, Inc. Method and system for providing access to captured multimedia data from a multimedia player
US7139713B2 (en) 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7149694B1 (en) 2002-02-13 2006-12-12 Siebel Systems, Inc. Method and system for building/updating grammars in voice access systems
US7246063B2 (en) 2002-02-15 2007-07-17 Sap Aktiengesellschaft Adapting a user interface for voice control
US20030158737A1 (en) 2002-02-15 2003-08-21 Csicsatka Tibor George Method and apparatus for incorporating additional audio information into audio data file identifying information
US20030160770A1 (en) 2002-02-25 2003-08-28 Koninklijke Philips Electronics N.V. Method and apparatus for an adaptive audio-video program recommendation system
DE10208295A1 (de) * 2002-02-26 2003-09-04 Philips Intellectual Property Verfahren zum Betrieb eines Sprach-Dialogsystems
US7096183B2 (en) * 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
US7424459B2 (en) 2002-03-01 2008-09-09 Lightsurf Technologies, Inc. System providing methods for dynamic customization and personalization of user interface
US7712020B2 (en) 2002-03-22 2010-05-04 Khan Emdadur R Transmitting secondary portions of a webpage as a voice response signal in response to a lack of response by a user
US20030182000A1 (en) 2002-03-22 2003-09-25 Sound Id Alternative sound track for hearing-handicapped users and stressful environments
JP4088131B2 (ja) 2002-03-28 2008-05-21 富士通株式会社 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法
US20030187668A1 (en) 2002-03-28 2003-10-02 International Business Machines Corporation Group administration of universal resource identifiers
US7392102B2 (en) * 2002-04-23 2008-06-24 Gateway Inc. Method of synchronizing the playback of a digital audio broadcast using an audio waveform sample
US8611919B2 (en) 2002-05-23 2013-12-17 Wounder Gmbh., Llc System, method, and computer program product for providing location based services and mobile e-commerce
US20030225599A1 (en) 2002-05-30 2003-12-04 Realty Datatrust Corporation System and method for data aggregation
KR20030095048A (ko) 2002-06-11 2003-12-18 엘지전자 주식회사 멀티미디어 재생 방법 및 장치
US7072452B1 (en) 2002-06-24 2006-07-04 Bellsouth Intellectual Property Corporation Saving and forwarding customized messages
US20040003394A1 (en) 2002-07-01 2004-01-01 Arun Ramaswamy System for automatically matching video with ratings information
US7966184B2 (en) 2006-03-06 2011-06-21 Audioeye, Inc. System and method for audible web site navigation
US20040034653A1 (en) 2002-08-14 2004-02-19 Maynor Fredrick L. System and method for capturing simultaneous audiovisual and electronic inputs to create a synchronized single recording for chronicling human interaction within a meeting event
US20040041835A1 (en) 2002-09-03 2004-03-04 Qiu-Jiang Lu Novel web site player and recorder
US7454423B2 (en) * 2002-09-06 2008-11-18 Oracle International Corporation Enterprise link for a software database
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
US6992451B2 (en) * 2002-10-07 2006-01-31 Denso Corporation Motor control apparatus operable in fail-safe mode
WO2004034276A1 (en) 2002-10-11 2004-04-22 Matsushita Electric Industrial Co. Ltd. A method and apparatus for delivering programme-associated data to generate relevant visual displays for audio contents
US8494859B2 (en) * 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
JP2004145055A (ja) * 2002-10-25 2004-05-20 Yokogawa Electric Corp オーディオ配信システム
US20040088349A1 (en) 2002-10-30 2004-05-06 Andre Beck Method and apparatus for providing anonymity to end-users in web transactions
US7660820B2 (en) * 2002-11-12 2010-02-09 E.Piphany, Inc. Context-based heterogeneous information integration system
US7296295B2 (en) 2002-12-11 2007-11-13 Broadcom Corporation Media processing system supporting different media formats via server-based transcoding
DE10258668A1 (de) 2002-12-13 2004-06-24 Basf Ag Verfahren zur Herstellung von Flexodruckformen mittels Lasergravur unter Verwendung von fotopolymeren Flexodruckelementen und fotopolymerisierbares Flexodruckelementen
US7215743B2 (en) * 2002-12-20 2007-05-08 International Business Machines Corporation Telephony signals containing an IVR decision tree
US7349949B1 (en) * 2002-12-26 2008-03-25 International Business Machines Corporation System and method for facilitating development of a customizable portlet
US7054818B2 (en) * 2003-01-14 2006-05-30 V-Enablo, Inc. Multi-modal information retrieval system
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US7548858B2 (en) 2003-03-05 2009-06-16 Microsoft Corporation System and method for selective audible rendering of data to a user based on user input
US8392834B2 (en) 2003-04-09 2013-03-05 Hewlett-Packard Development Company, L.P. Systems and methods of authoring a multimedia file
US8145743B2 (en) 2003-04-17 2012-03-27 International Business Machines Corporation Administering devices in dependence upon user metric vectors
US20050021826A1 (en) * 2003-04-21 2005-01-27 Sunil Kumar Gateway controller for a multimodal system that provides inter-communication among different data and voice servers through various mobile devices, and interface for that controller
US20050203959A1 (en) 2003-04-25 2005-09-15 Apple Computer, Inc. Network-based purchase and distribution of digital media items
US7260539B2 (en) * 2003-04-25 2007-08-21 At&T Corp. System for low-latency animation of talking heads
CN101699505B (zh) 2003-04-25 2016-02-17 苹果公司 一种基于网络的媒体系统
US20050045373A1 (en) * 2003-05-27 2005-03-03 Joseph Born Portable media device with audio prompt menu
US7149810B1 (en) 2003-05-30 2006-12-12 Microsoft Corporation System and method for managing calendar items
JP2005012282A (ja) 2003-06-16 2005-01-13 Toshiba Corp 電子商品流通システム、電子商品受信端末、及び電子商品流通方法
US7848493B2 (en) 2003-06-24 2010-12-07 Hewlett-Packard Development Company, L.P. System and method for capturing media
US7610306B2 (en) 2003-06-30 2009-10-27 International Business Machines Corporation Multi-modal fusion in content-based retrieval
GB2418757B (en) 2003-07-07 2006-11-08 Progress Software Corp Multi-platform single sign-on database driver
CN1701561B (zh) 2003-07-11 2010-05-05 日本电信电话株式会社 基于地址的验证系统及其装置和程序
US20050015718A1 (en) * 2003-07-16 2005-01-20 Sambhus Mihir Y. Method and system for client aware content aggregation and rendering in a portal server
US7757173B2 (en) 2003-07-18 2010-07-13 Apple Inc. Voice menu system
US7313528B1 (en) 2003-07-31 2007-12-25 Sprint Communications Company L.P. Distributed network based message processing system for text-to-speech streaming data
US8200775B2 (en) 2005-02-01 2012-06-12 Newsilike Media Group, Inc Enhanced syndication
US7561932B1 (en) 2003-08-19 2009-07-14 Nvidia Corporation System and method for processing multi-channel audio
US20050043940A1 (en) * 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
KR100493902B1 (ko) 2003-08-28 2005-06-10 삼성전자주식회사 콘텐츠 추천방법 및 시스템
US20050119894A1 (en) * 2003-10-20 2005-06-02 Cutler Ann R. System and process for feedback speech instruction
US7933226B2 (en) * 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
US20050091271A1 (en) * 2003-10-23 2005-04-28 Kasy Srinivas Systems and methods that schematize audio/video data
JP2005128782A (ja) * 2003-10-23 2005-05-19 Canon Inc 情報処理装置および情報処理方法ならびにプログラム、記憶媒体
GB2407657B (en) 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
US20050152344A1 (en) 2003-11-17 2005-07-14 Leo Chiu System and methods for dynamic integration of a voice application with one or more Web services
US20050108754A1 (en) 2003-11-19 2005-05-19 Serenade Systems Personalized content application
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
CN1627311B (zh) * 2003-12-10 2010-08-11 国际商业机器公司 服务提供商个性化对于客户的事件通知的方法和系统
KR100561228B1 (ko) * 2003-12-23 2006-03-15 한국전자통신연구원 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
US20050144022A1 (en) 2003-12-29 2005-06-30 Evans Lori M. Web-based system, method, apparatus and software to manage performance securely across an extended enterprise and between entities
US7552055B2 (en) * 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US7430707B2 (en) 2004-01-13 2008-09-30 International Business Machines Corporation Differential dynamic content delivery with device controlling action
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
WO2005072405A2 (en) 2004-01-27 2005-08-11 Transpose, Llc Enabling recommendations and community by massively-distributed nearest-neighbor searching
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US7430510B1 (en) 2004-03-01 2008-09-30 At&T Corp. System and method of using modular spoken-dialog components
US7617012B2 (en) 2004-03-04 2009-11-10 Yamaha Corporation Audio signal processing system
US7162502B2 (en) * 2004-03-09 2007-01-09 Microsoft Corporation Systems and methods that synchronize data with representations of the data
US20050203887A1 (en) 2004-03-12 2005-09-15 Solix Technologies, Inc. System and method for seamless access to multiple data sources
US7613719B2 (en) 2004-03-18 2009-11-03 Microsoft Corporation Rendering tables with natural language commands
US20050251513A1 (en) 2004-04-05 2005-11-10 Rene Tenazas Techniques for correlated searching through disparate data and content repositories
US7522549B2 (en) 2004-04-16 2009-04-21 Broadcom Corporation Registering access device multimedia content via a broadband access gateway
US20070282607A1 (en) 2004-04-28 2007-12-06 Otodio Limited System For Distributing A Text Document
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US20050262119A1 (en) 2004-05-24 2005-11-24 Gary Mawdsley Data processing systems and methods
JP2005346747A (ja) 2004-05-31 2005-12-15 Pioneer Electronic Corp 情報再生装置
US7844045B2 (en) * 2004-06-16 2010-11-30 Panasonic Corporation Intelligent call routing and call supervision method for call centers
US20050288926A1 (en) 2004-06-25 2005-12-29 Benco David S Network support for wireless e-mail using speech-to-text conversion
US8156123B2 (en) 2004-06-25 2012-04-10 Apple Inc. Method and apparatus for processing metadata
US7478152B2 (en) 2004-06-29 2009-01-13 Avocent Fremont Corp. System and method for consolidating, securing and automating out-of-band access to nodes in a data network
KR20060004053A (ko) 2004-07-08 2006-01-12 삼성전자주식회사 오디오 파일의 재생모드 변경 장치 및 방법
US7540051B2 (en) * 2004-08-20 2009-06-02 Spatial Systems, Inc. Mapping web sites based on significance of contact and category
US7406329B2 (en) * 2004-09-04 2008-07-29 Varun Khurana Method and apparatus for subscribing and receiving personalized updates in a format customized for handheld mobile communication devices
US7433819B2 (en) * 2004-09-10 2008-10-07 Scientific Learning Corporation Assessing fluency based on elapsed time
US8086575B2 (en) 2004-09-23 2011-12-27 Rovi Solutions Corporation Methods and apparatus for integrating disparate media formats in a networked media system
US20060075224A1 (en) 2004-09-24 2006-04-06 David Tao System for activating multiple applications for concurrent operation
US20060085199A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for controlling the behavior of a device capable of speech recognition
US7735012B2 (en) 2004-11-04 2010-06-08 Apple Inc. Audio user interface for computing devices
US20060165104A1 (en) 2004-11-10 2006-07-27 Kaye Elazar M Content management interface
CN1773536A (zh) * 2004-11-11 2006-05-17 国际商业机器公司 生成话音纪要的方法、设备和系统
WO2006060744A2 (en) 2004-12-03 2006-06-08 Convoq, Inc. System and method of initiating an on-line meeting or teleconference via a web page link or a third party application
TW200620239A (en) * 2004-12-13 2006-06-16 Delta Electronic Inc Speech synthesis method capable of adjust prosody, apparatus, and its dialogue system
US7634492B2 (en) 2004-12-20 2009-12-15 Microsoft Corporation Aggregate data view
CA2571843C (en) 2004-12-27 2014-12-30 Bce Inc. Methods and systems for rendering voice mail messages amenable to electronic processing by mailbox owners
US20060155698A1 (en) 2004-12-28 2006-07-13 Vayssiere Julien J System and method for accessing RSS feeds
US8065604B2 (en) 2004-12-30 2011-11-22 Massachusetts Institute Of Technology Techniques for relating arbitrary metadata to media files
US20060168507A1 (en) 2005-01-26 2006-07-27 Hansen Kim D Apparatus, system, and method for digitally presenting the contents of a printed publication
US8347088B2 (en) 2005-02-01 2013-01-01 Newsilike Media Group, Inc Security systems and methods for use with structured and unstructured data
US20060190616A1 (en) 2005-02-04 2006-08-24 John Mayerhofer System and method for aggregating, delivering and sharing audio content
US20060184679A1 (en) 2005-02-16 2006-08-17 Izdepski Erich J Apparatus and method for subscribing to a web logging service via a dispatch communication system
US7561677B2 (en) 2005-02-25 2009-07-14 Microsoft Corporation Communication conversion between text and audio
US7680835B2 (en) 2005-02-28 2010-03-16 Microsoft Corporation Online storage with metadata-based retrieval
US7627811B2 (en) 2005-03-04 2009-12-01 Hewlett-Packard Development Company, L.P. Content-based synchronization method and system for data streams
US7720935B2 (en) 2005-03-29 2010-05-18 Microsoft Corporation Storage aggregator
US20060282822A1 (en) 2005-04-06 2006-12-14 Guoqing Weng System and method for processing RSS data using rules and software agents
US7729478B1 (en) * 2005-04-12 2010-06-01 Avaya Inc. Change speed of voicemail playback depending on context
US20060242663A1 (en) * 2005-04-22 2006-10-26 Inclue, Inc. In-email rss feed delivery system, method, and computer program product
US7686215B2 (en) 2005-05-21 2010-03-30 Apple Inc. Techniques and systems for supporting podcasting
US20060282317A1 (en) 2005-06-10 2006-12-14 Outland Research Methods and apparatus for conversational advertising
US9104773B2 (en) 2005-06-21 2015-08-11 Microsoft Technology Licensing, Llc Finding and consuming web subscriptions in a web browser
US7610187B2 (en) * 2005-06-30 2009-10-27 International Business Machines Corporation Lingual translation of syndicated content feeds
US7587395B2 (en) * 2005-07-27 2009-09-08 John Harney System and method for providing profile matching with an unstructured document
US9508077B2 (en) 2005-07-29 2016-11-29 At&T Intellectual Property I, L.P. Podcasting having inserted content distinct from the podcast content
US20070067309A1 (en) 2005-08-05 2007-03-22 Realnetworks, Inc. System and method for updating profiles
US7958131B2 (en) * 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8977636B2 (en) * 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US20070043735A1 (en) * 2005-08-19 2007-02-22 Bodin William K Aggregating data of disparate data types from disparate data sources
US20070061371A1 (en) * 2005-09-14 2007-03-15 Bodin William K Data customization for data of disparate data types
US20070061711A1 (en) * 2005-09-14 2007-03-15 Bodin William K Management and rendering of RSS content
US20070061712A1 (en) * 2005-09-14 2007-03-15 Bodin William K Management and rendering of calendar data
US8266220B2 (en) * 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US8103545B2 (en) 2005-09-14 2012-01-24 Jumptap, Inc. Managing payment for sponsored content presented to mobile communication facilities
US20070061132A1 (en) * 2005-09-14 2007-03-15 Bodin William K Dynamically generating a voice navigable menu for synthesized data
US20070078655A1 (en) 2005-09-30 2007-04-05 Rockwell Automation Technologies, Inc. Report generation system with speech output
US20070077921A1 (en) 2005-09-30 2007-04-05 Yahoo! Inc. Pushing podcasts to mobile devices
WO2007083194A2 (en) 2005-10-20 2007-07-26 Virtual Reach Inc. Managing content to constrained devices
US20070091206A1 (en) 2005-10-25 2007-04-26 Bloebaum L S Methods, systems and computer program products for accessing downloadable content associated with received broadcast content
US7467353B2 (en) 2005-10-28 2008-12-16 Microsoft Corporation Aggregation of multi-modal devices
US20070100836A1 (en) * 2005-10-28 2007-05-03 Yahoo! Inc. User interface for providing third party content as an RSS feed
US7793206B2 (en) * 2005-11-02 2010-09-07 Creative Technology Ltd System for downloading digital content published in a media channel
US8756057B2 (en) 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US20070101313A1 (en) * 2005-11-03 2007-05-03 Bodin William K Publishing synthesized RSS content as an audio file
US20070100629A1 (en) * 2005-11-03 2007-05-03 Bodin William K Porting synthesized email data to audio files
US20070124458A1 (en) 2005-11-30 2007-05-31 Cisco Technology, Inc. Method and system for event notification on network nodes
US7657006B2 (en) 2005-12-15 2010-02-02 At&T Intellectual Property I, L.P. Messaging translation services
US8539590B2 (en) * 2005-12-20 2013-09-17 Apple Inc. Protecting electronic devices from extended unauthorized use
US7817587B2 (en) 2005-12-22 2010-10-19 Sony Ericsson Mobile Communications, Ab Personal information management using content with embedded personal information manager data
US20070165538A1 (en) 2006-01-13 2007-07-19 Bodin William K Schedule-based connectivity management
US20070168194A1 (en) 2006-01-13 2007-07-19 Bodin William K Scheduling audio modalities for data management and data rendering
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
US20070174326A1 (en) 2006-01-24 2007-07-26 Microsoft Corporation Application of metadata to digital media
US20070192683A1 (en) 2006-02-13 2007-08-16 Bodin William K Synthesizing the content of disparate data types
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US20070192676A1 (en) 2006-02-13 2007-08-16 Bodin William K Synthesizing aggregated data of disparate data types into data of a uniform data type with embedded audio hyperlinks
US7505978B2 (en) 2006-02-13 2009-03-17 International Business Machines Corporation Aggregating content of disparate data types from disparate data sources for single point access
US20070192673A1 (en) 2006-02-13 2007-08-16 Bodin William K Annotating an audio file with an audio hyperlink
US7996754B2 (en) 2006-02-13 2011-08-09 International Business Machines Corporation Consolidated content management
US20070192675A1 (en) 2006-02-13 2007-08-16 Bodin William K Invoking an audio hyperlink embedded in a markup document
US20070192674A1 (en) 2006-02-13 2007-08-16 Bodin William K Publishing content through RSS feeds
US7827289B2 (en) 2006-02-16 2010-11-02 Dell Products, L.P. Local transmission for content sharing
US8510277B2 (en) 2006-03-09 2013-08-13 International Business Machines Corporation Informing a user of a content management directive associated with a rating
US9361299B2 (en) 2006-03-09 2016-06-07 International Business Machines Corporation RSS content administration for rendering RSS content on a digital audio player
US20070214148A1 (en) 2006-03-09 2007-09-13 Bodin William K Invoking content management directives
US9037466B2 (en) 2006-03-09 2015-05-19 Nuance Communications, Inc. Email administration for rendering email on a digital audio player
US8849895B2 (en) 2006-03-09 2014-09-30 International Business Machines Corporation Associating user selected content management directives with user selected ratings
US9092542B2 (en) 2006-03-09 2015-07-28 International Business Machines Corporation Podcasting content associated with a user account
EP2008193B1 (en) 2006-04-05 2012-11-28 Canyon IP Holdings LLC Hosted voice recognition system for wireless devices
US7668369B2 (en) 2006-04-26 2010-02-23 Hewlett-Packard Development Company, L.P. Using camera metadata to classify images into scene type classes
US20070276865A1 (en) 2006-05-24 2007-11-29 Bodin William K Administering incompatible content for rendering on a display screen of a portable media player
US7778980B2 (en) 2006-05-24 2010-08-17 International Business Machines Corporation Providing disparate content as a playlist of media files
US8286229B2 (en) 2006-05-24 2012-10-09 International Business Machines Corporation Token-based content subscription
US20070276837A1 (en) 2006-05-24 2007-11-29 Bodin William K Content subscription
US20070277088A1 (en) 2006-05-24 2007-11-29 Bodin William K Enhancing an existing web page
US20080034278A1 (en) 2006-07-24 2008-02-07 Ming-Chih Tsou Integrated interactive multimedia playing system
US7831432B2 (en) 2006-09-29 2010-11-09 International Business Machines Corporation Audio menus describing media contents of media players
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US20080162559A1 (en) 2007-01-03 2008-07-03 Bodin William K Asynchronous communications regarding the subject matter of a media file stored on a handheld recording device
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US20080162131A1 (en) 2007-01-03 2008-07-03 Bodin William K Blogcasting using speech recorded on a handheld recording device
US7873520B2 (en) * 2007-09-18 2011-01-18 Oon-Gil Paik Method and apparatus for tagtoe reminders
US8594995B2 (en) 2008-04-24 2013-11-26 Nuance Communications, Inc. Multilingual asynchronous communications of speech messages recorded in digital media files

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101867695A (zh) * 2010-05-21 2010-10-20 中山大学 一种基于浏览器的数字电视机顶盒
CN106547511A (zh) * 2015-09-16 2017-03-29 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
CN106547511B (zh) * 2015-09-16 2019-12-10 广州市动景计算机科技有限公司 一种语音播读网页信息的方法、浏览器客户端及服务器
US10714074B2 (en) 2015-09-16 2020-07-14 Guangzhou Ucweb Computer Technology Co., Ltd. Method for reading webpage information by speech, browser client, and server
US11308935B2 (en) 2015-09-16 2022-04-19 Guangzhou Ucweb Computer Technology Co., Ltd. Method for reading webpage information by speech, browser client, and server
CN109582271A (zh) * 2018-10-26 2019-04-05 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备
CN109582271B (zh) * 2018-10-26 2020-04-03 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备

Also Published As

Publication number Publication date
US20070100628A1 (en) 2007-05-03
CN101004806B (zh) 2011-11-02
US8694319B2 (en) 2014-04-08
KR20070048118A (ko) 2007-05-08
KR100861860B1 (ko) 2008-10-06

Similar Documents

Publication Publication Date Title
CN101004806B (zh) 用于对合成数据进行语音呈现的方法和系统
US8266220B2 (en) Email management and rendering
CN101021860A (zh) 用于调用嵌入在标记文档中的音频超链接的方法和系统
US7958131B2 (en) Method for data management and data rendering for disparate data types
US20070061371A1 (en) Data customization for data of disparate data types
US20070101313A1 (en) Publishing synthesized RSS content as an audio file
CN100568241C (zh) 用于集中内容管理的方法和系统
US8977636B2 (en) Synthesizing aggregate data of disparate data types into data of a uniform data type
US20070061712A1 (en) Management and rendering of calendar data
US8271107B2 (en) Controlling audio operation for data management and data rendering
US20070100629A1 (en) Porting synthesized email data to audio files
RU2360281C2 (ru) Представление данных на основе введенных пользователем данных
US8849895B2 (en) Associating user selected content management directives with user selected ratings
US8510277B2 (en) Informing a user of a content management directive associated with a rating
US20070043735A1 (en) Aggregating data of disparate data types from disparate data sources
CN1745364B (zh) 用于扩展应用程序首选项类的系统和方法
JP5607917B2 (ja) コンテキストベースのコンテンツをユーザに配信する方法
CN100565670C (zh) 用于用户模型化以增强对命名实体识别的系统和方法
CN100570735C (zh) 调用内容管理指令的方法和系统
US20070165538A1 (en) Schedule-based connectivity management
US20070168194A1 (en) Scheduling audio modalities for data management and data rendering
US20070214485A1 (en) Podcasting content associated with a user account
US20070192676A1 (en) Synthesizing aggregated data of disparate data types into data of a uniform data type with embedded audio hyperlinks
WO2007051707A2 (en) Dynamic creation of user interfaces for data management and data rendering
CN101395600A (zh) 自适应语义平台体系结构

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111102

Termination date: 20201102

CF01 Termination of patent right due to non-payment of annual fee