CN1871603A - 处理查询的系统和方法 - Google Patents

处理查询的系统和方法 Download PDF

Info

Publication number
CN1871603A
CN1871603A CNA200480031158XA CN200480031158A CN1871603A CN 1871603 A CN1871603 A CN 1871603A CN A200480031158X A CNA200480031158X A CN A200480031158XA CN 200480031158 A CN200480031158 A CN 200480031158A CN 1871603 A CN1871603 A CN 1871603A
Authority
CN
China
Prior art keywords
word
meaning
inquiry
ambiguity
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200480031158XA
Other languages
English (en)
Other versions
CN1871603B (zh
Inventor
马修·科来奇
马克·卡里尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Idilia Inc
Original Assignee
Idilia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Idilia Inc filed Critical Idilia Inc
Publication of CN1871603A publication Critical patent/CN1871603A/zh
Application granted granted Critical
Publication of CN1871603B publication Critical patent/CN1871603B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

本发明涉及一种处理数据库查询的系统和方法。所述发明包括以下步骤:获取来自用户的查询;使用知识库来获得与查询中的单词有关的可确认的词义的集合。如果集合包含多于一个的可确认的词义,则执行下面附加的步骤:从集合中选择一个词义作为一个最好的词义;利用查询的最好的词义,来确定来自数据库的有关的结果,所述数据库跟最好的词义有关;通过排除与最好的词义有关的结果,再消除集合的剩余的词义的歧义;从剩余的词义中选择下一个最好的词义;并且利用查询的这个近乎最好的词义,来确定来自数据库的相关的结果,所述数据库与所述近乎最好的词义有关。本发明还涉及为用户更新数据库,更新用户会话和与查询的最好的已被确定的结果有关的公共数据,进而通过用户来提高和个人化并发的查询的歧义消除。

Description

处理查询的系统和方法
相关申请
本申请要求2003年8月21日提交的申请号为60/496,681的美国临时专利申请的优先权。
技术领域
本发明涉及因特网搜索,尤其涉及使用语义歧义消除与扩展的因特网搜索。
背景技术
在处理庞大数据集时,例如文档数据库或因特网上的网页,可用数据的容量会造成难以找到有关信息。尝试使用了各种各样的搜索方法来在这样的信息库中找到有关信息。其中一些最好的所知的系统是网络搜索引擎,例如允许用户执行基于关键词搜索的Yahoo(商标)和Google(商标)。这些搜索通常涉及将用户输入的关键词与网页索引中的关键词进行匹配。
然而,现有的因特网搜索方法经常产生不是特别有用的结果。该搜索会返回很多结果,但仅有少量与用户的查询有关或根本没有与用户查询有关的。另一方面,所述搜索会返回少量的结果,其中没有一个是用户正在搜寻的精确结果,同时无法返回潜在的相关结果。
在执行所述搜索中会遇到一些困难的原因是在自然语言中使用的单词的产生歧义。特别是,由于一个单词会具有多种含义,所以经常遇到困难。过去通过使用被称为词义歧义消除的技术处理该所述难题,所述技术包括将单词转换成具有特定的语义的词义。例如,单词“bank”可以具有“金融机构”的含义或其他附加的定义。
第6,453,315号美国专利公开了基于词义的信息组织和检索。所述专利公开了通过概念词典与概念之间的关系来创建一个语义空间。将查询映射到表示所述查询的位置与语义空间的含义区分器。通过确定区分器之间的语义差别来确定接近度和词义来完成搜索。所述系统依赖用户,并以所述系统所确定的词义为基础来确定所述搜索或另外通过在搜索结果中所找到的节点来导航。
如现有技术中已知的,通过“精度”和“重复度”来对信息检索的有效性评价进行量化。通过用在一个搜索中找到的正确结果的数量除以结果的整体数量可以量化精度。通过用在一个搜索中找到的正确结果的数量除以可能正确的结果的整体数量可以量化重复度。可以简单地通过返回所有可能的结果来获得完全的重复度(即100%),但是这会导致非常差的精度。大多数现有的系统力争平衡精度与重复度的标准。例如通过使用同义词来提供更多的可能结果而提高重复度,必然会降低精度。另一方面,通过缩小搜索结果,例如通过选择与查询中的单词的精确顺序相匹配的结果将降低重复度。
因此需要一种解决现有技术的缺陷的查询的处理系统和方法。
发明内容
根据本发明的一个方面,提供了一种信息搜索方法,包括以下步骤:消除查询的歧义,根据关键词义消除信息的歧义并索引信息,通过使用所述查询中的关键词义和与所述查询中的关键词义语义相关的其他词义,搜索已索引的信息来找到与所述查询相关的信息,以及返回搜索结果,所述搜索结果包括包含关键词义和其他语义上相关的词义的信息。
所述方法可以应用于任何使用关键词进行索引的数据库。优选地,把所述方法应用于因特网搜索。
语义关系可以是任何逻辑上或语法上定义的两个单词之间的关系类型。这种关系的实例为同义关系、下义关系等。
消除查询的歧义的步骤包括给关键词义分配概率。类似地,消除信息的歧义的步骤包括为关键词义添加概率。
在本方法中使用的关键词义可以是比较精细的关键词义的粗略分组。
在另一方面,提供一种面向数据库的处理查询的方法。该方法包括以下步骤:获得来自用户的查询;使用知识库消除查询的歧义来获得一个与查询中单词有关的可确认的词义(或解释)的集合。而且,如果所述集合包含多于一个的可确认的词义(或解释),然后执行下面的附加的步骤:从集合中选择一个词义(或解释)作为一个最好的词义(或解释);利用最好的查询词义来确定来自与最好的词义相关的数据库的相关的结果;通过执行与最好的词义相关的结果来再消除集合中的剩余的词义的歧义;从剩余的词义中选择一个近乎最好的词义;并且利用查询的近乎最好的词义来确定来自与近乎最好的词义相关的数据库的相关结果。
在所述方法中,消除查询的歧义的步骤包括使用从下面的算法中选出的一种算法:一种样本歧义消除算法,一种n单词歧义消除算法,和一种优先歧义消除算法。
所述方法还包括:获得一个来自用户的已被选择的可确认的词义,所述用户确定一个来自可确认的词义集合的已被选择的词义;并且用数据更新知识库,所述数据是关于查询和已被选择的可确认的词义的。
在所述方法中,数据包括对于用户的数据;
在所述方法中,数据还包括对于与用户和查询相关的一个会话的数据。
在另一方面,提供一种面向数据库的处理查询的方法。所述方法包括以下步骤:获得来自用户的查询;并且使用知识库消除查询的歧义来获得与查询中单词有关的可确认的词义的一个集合。如果所述集合包括多于一个的可确认的词义。则所述方法包括:从集合中选择一个词义作为最好的词义;利用查询的最好的词义来确定来自与最好的词义有关的数据库的相关的结果;扩展最好的词义获得最好的词义的相关的词义,进而产生查询的一个扩展的最好词义;把查询的扩展的最好词义与跟数据库有关的一个索引相比较。然后通过以下方式,所述方法能够选择性地处理集合的剩余的词义:通过排除与最好的词义相关的结果来再消除集合的剩余的词义的歧义;从剩余的词义中选择下一个最好的词义;利用查询的近乎最好的词义来确定来自与近乎最好的词义有关的数据库的相关的结果;并且确定与近乎最好的词义相关的术语,所述术语把近乎最好的词义与最好词义分辨开来。接下来,所述方法包括利用扩展查询的最好的词义获得来自数据库的结果的步骤;为用户生成一个查询,利用术语来测试是否次最好词义是用户表示的意思;获得来自用户的一个响应,确定来自显示结果的一个所要表达的词义;并且利用响应来进一步的再消除词义的集合的歧义。
在所述方法中,消除查询的歧义的步骤包括使用下面的一种算法:一种样本歧义消除算法,一种n单词歧义消除算法,和一种优先的歧义消除算法。
然而在另一方面,提供处理一个面向数据库的查询的方法。所述方法包括以下步骤:从用户获得查询;和使用知识库消除查询的歧义来获得一个与查询中单词有关的可确认的词义的集合。如果集合包含多于一个的可确认的词义,则所述方法还包括以下步骤:从集合中选择一个词义作为一个最好的词义;并且有选择地处理集合中剩下的词义。所述再歧义消除通过以下方式来执行:通过排除与最好的词义有关的结果,再消除集合的剩余的词义的歧义;并且从剩余的词义中选择至少一个近乎最好词义来形成已被再歧义消除的剩余的词义的集合。对于最好的词义和已被再歧义消除剩余词义集合的每个成员,所述方法还包括以下步骤:扩展相关的词义来获得相关的词义,进而生成查询的扩展集;把扩展词义与跟数据库有关的一个索引相比较;并且利用扩展词义获得来自数据库的结果。所述方法还包括以下步骤:从用户获得一个指示性注释,所述指示性注释是查询的一种倾向性词义,是由从数据库返回的结果产生的,并且利用指示来进一步地歧义消除词义的集合。
在另一方面,提供一种修改知识库的方法,所述知识库是与查询有关的面向数据库的。所述方法包括以下步骤:使用知识库消除查询的歧义来获得与查询中的单词有关的可确认的词义的一个集合;确认来自集合的一个所表达的词义;并且用与查询和已被选择的可确认的词义相关的数据来更新数据库。
在所述方法中,消除查询的歧义的步骤利包括使用一个下面的算法:一个样本歧义消除算法。一个n单词歧义消除算法,和一个优先歧义消除算法。而且,更新知识库的步骤包括更新一个与算法相关的本地知识库。
另一方面,提供上面几个方面的集合和子集的各种各样的组合。
附图说明
通过下面对本发明的具体实施例的描述和附图,本发明的上述和其它方面将会变的更加清楚,其中,附图只是示例性地示出本发明的原理。在附图中,用相同的附图标记表示相同的单元(并且其中每个单元带有唯一的字母后缀):
图1是一个根据本发明的一个实施例提供词义歧义消除的信息检索系统的示意图;
图2是图1系统中的单词与词义的示意图;
图3A是图1系统的代表性的语义关系或单词的示意图;
图3B是用来表示图1系统的图3A的语义关系的数据结构图;
图4是由图1系统使用图2的词义以及图3A的语义关系所执行的方法的流程图;
图5是将由图1系统提供的使用词义歧义消除来处理查询的一种方法流程图;
图6是将由图1系统提供的使用词义歧义消除来处理查询的另一种方法的流程图;并且
图7是将由图1系统提供的使用个人化来处理查询的方法流程图。
具体实施方式
以下的描述,以及其中描述的实施例只是示例性地示出反映本发明原理地一个或多个具体实施例。提供这些实例的目的在于解释而非限制本发明的原理。在以下的说明中,在整个说明书与附图用相同的各个附图标记标注相同的部件。
在后续的说明中会使用以下的术语,并且所使用的术语具有以下所示的含义:
计算机可读存储介质:用于存储计算机的指令或数据的硬件。例如,磁盘、磁带、诸如CDROM那样的光学可读介质,以及诸如PCMCIA卡那样的半导体存储器。在每一种情况下,介质可以采取诸如小型磁盘、软盘、盒式磁带那样的便携物件的形式,或采取诸如硬盘驱动器、固态存储卡或RAM那样的相对较大或固定物件的形式。
信息:包含可搜索的、用户感兴趣的内容的文档、网页、电子邮件、图像描述、抄本、存储文本等,这些内容例如是,与新闻文章、新闻组消息、网络日志等有关的内容。
模块:执行特定步骤和/或处理过程的软件或硬件组件;可以在运行于通用处理器上的软件中实现。
自然语言:人而非机器或计算机所能理解的单词信息。
网络:设备的互连系统,所述设备配置成使用特定协议在通信信道上进行通信。它可以是一个局域网、广域网、因特网或类似的在通信线路上或通过无线传输工作的网络。
查询:表示一列具有期望查询结果的指示性的关键词;可以使用布尔运算符(例如“与”、“或”);可以用自然语言表示。
查询模块:处理查询的硬件或软件组件。
搜索引擎:响应来自用户的查询,提供涉及用户感兴趣的信息的搜索结果的硬件或软件组件。可以根据关联性排列和/或分类来查询结果。
参照附图1,用数字10整体表示与一个实施例有关的信息检索系统。所述系统包括一个可以通过网络14访问的信息库12。信息库12可以包括文档、网页、数据库等。优选地,网络14是因特网,而且信息库12包含网页。当网络14是因特网时,协议包括TCP/IP(传输控制协议/网络协议)。各种客户机16在物理网络情况下通过线路或通过无线发射器和接收器的方式连接到网络14。每一个客户机16包括一个为本领域技术人员所理解的网络接口。网络14为客户机16提供对信息库12中内容的访问。为了使客户机16能够在信息库12内找到特定的信息、文档、网页等,把系统10配置成允许客户机16通过提交查询来搜索信息。该查询包括至少一列关键词,而且还具有采取诸如“与”和“或”的布尔关系的形式结构。在自然语言中查询还可以由句子或问题构成。
所述系统包括搜索引擎20,搜索引擎20连接到网络14,接收来自客户机16的查询并将查询导向信息库12内的单个文档。搜索引擎20可以通过专用硬件来实现,或通过运行在通用处理器上的软件来实现。所述搜索引擎运行来定位信息库12中的文档,所述文档与来自客户机的查询相关。
搜索引擎20通常包括一个处理器22。所述引擎还可以直接连接到或通过网络或其他诸如此类的通信方式间接地连接到显示器24、接口26和计算机可读存储介质28。处理器22与显示器24和接口26耦合,接口26可以包括诸如键盘、鼠标或其他相应的用户输入设备。如果显示器24是触感式的,则可以将显示器24本身用作接口26。计算机可读存储介质28与处理器22耦合,向处理器22提供指令,以指示和/或设置处理器22,处理器22执行与搜索引擎20的操作相关的步骤或算法,下面作进一步的解释。把计算机可读存储介质28的一部分或全部在物理上设置在搜索引擎28之外以容纳例如非常大的存储量。本领域技术人员会理解可以在本发明中使用多种形式的搜索引擎。
可选地并且为了更高的计算速度,搜索引擎20可以包括多个并行处理器或其他的多处理结构。通过使用多个处理器,搜索引擎20可以对多个处理器分配任务。此外,本领域技术人员能够理解,不必将所述的多个处理器在物理上设置在相同位置上,而是可以将它们在地理位置上分离地布局,然后通过网络互连。
优选地,搜索引擎20包括数据库30,数据库30用于存储词义的索引并存储由搜索引擎20所使用的知识库。如本领域技术人员所理解的,数据库30以结构化方式存储索引以实现在计算上有效地存储和检索。可以通过添加另外的关键词义或引用另外的文档中的现有的关键词义来更新数据库30。数据库30还提供一种能够确定哪一个文档包含特定的关键词义的检索能力。为了提高效率,可以划分数据库30,并且数据库30可以在多个位置进行存储。
根据一个实施例,搜索引擎20包括一个词义歧义消除模块32,所述模块32用于处理输入文档中的单词或者对词义的查询。词义是对一个单词的解释,需要考虑单词的上下文及相邻的单词。例如,句子“我预定到纽约的航班”中的单词“book”产生歧义,因为“book”可以是一个名词或动词,每个词性都具有多个潜在的含义。歧义消除模块32进行单词处理的结果是一个已消除歧义的文档或是一个包含词义的已消除歧义的查询,而不是模糊的的或未经解释的单词。所述输入文档可以是信息库中的任何信息单元或从客户机接收到的查询中的一个。词义歧义消除模块32为文档或查询中的每个单词辨别词义。词义歧义消除模块32通过使用广泛的互连语言技术,分析上下文中的语法(例如词性、语法关系)和语义(例如逻辑关系),进而确定单词的哪一个特定含义是所期望的。词义歧义消除模块32在执行歧义消除时,使用词义库可以辅助模块12的歧义消除工作,词义库明确表述了词义之间的关系。词义库包含以下关系,如附图3A和3B所述。
搜索引擎20包括一个索引模块34,用于处理一个已消除歧义的文档来创建关键词义的索引,并在数据库30中存储所述索引。索引模块34是这样一个模块:把数据编入索引供搜索引擎20使用,比如来自文档的数据。在一个实施例中,索引模块通过检索网页来搜索文档,检索网页使用本领域中所熟知的技术。位于文档之上,索引模块把所述文档提供给歧义消除模块32,进而为文档内容提供一列词义。然后索引模块34把数据库中关于词义和文档的信息编入索引。索引包括每个关键词义的一个条目,关键词与它所在的文档有关。索引最好被分类并包含每个索引关键词义的位置指示。索引模块34通过处理已消除歧义的文档,并将每个关键词义添加到索引中来创建索引。某些关键词会出现太多次而无用和/或几乎不包含语义信息,诸如“a”或“the”。对这些关键词将不进行索引。
搜索引擎20还包括一个用于处理来自客户机16查询的查询模块36。查询模块36用于接收查询,并将它们传送到消除歧义模块32进行处理。查询模块36随后在索引中找到与已消除歧义的查询有关的结果。以下将进一步描述。所述结果包括与已消除歧义的查询中的词义在语义上相关的关键词义。查询模块36把结果提供给客户机。可以根据关联性对该结果进行排列和/或打分以帮助客户理解它们。
参考附图2,用附图标记100整体指示单词与词义之间的关系。从所述实例可见,某些单词具有多个含义。在多个其他可能性中,单词“bank”可以表示:(i)金融机构的名词;(ii)河岸的名词;或者(iii)一种存钱行为的动词。词义歧义消除模块32将带有歧义的单词“bank”分成几个具有较轻歧义的词义存储在索引中。类似地,单词“interest”具有多个含义,包括:(i)表示与一种未付的投资或贷款有关的应支付金钱数额的名词;(ii)表示对某事/某物特别注意的名词;或者(iii)表示在某事/某物中的合法权利的名词。
参考附图3A和图3B,显示了词义之间的实例语义关系。这些语义关系在含义的基础上精确地定义了两个单词之间的关系类型。此关系是在词义之间的,即单词的特定含义。
尤其是在图3A中,例如,单词“bank”(取河岸的含义时)是一种地形,单词“bluff”(取意味着一种陆地构造的名词时)也是一种地形。单词“bank”(取河岸的含义时)是一种斜坡(取地面坡度的含义)。单词“bank”取金融机构的含义时与“银行公司”或“银行中心”同义。单词“bank”还是一种金融机构,所述金融机构也是一种商业类型。根据通常所理解的银行支付存款利息并收取贷款利息的事实,单词“bank”(取金融机构的含义)涉及单词“interest”(取为投资支付的钱的含义)并且也涉及单词“loan”(取贷款的含义时)。
应当理解存在很多其他类型的可使用的语义关系。尽管在现有技术中是熟知的,但下面举出了一些单词之间的语义关系的实例:处于同义词中的单词就是彼此同义的词。上义词是这样一种关系,其中一个词表示整个一类的特定例子。例如“运输工具”是一类词的上义词,包括“火车”、“战车”、“狗拉的雪橇”和“汽车”,这些词提供该类别的特定例子。同时,下义词是这样一种关系,其中一个词是一类例子中的一个成员。根据前面的列表,“火车”是“运输工具”类别的下义词。局部词是这样一种关系,其中一个词是某事物的一个组成部分、一个成分或一个成员。例如,关于“腿”与“膝盖”之间的关系,“膝盖”是“腿”的局部词,因为膝盖是腿的一个组成部分。同时,整体词是这样一种关系,其中一个词是局部词的全部。根据前面的例子,“腿”是“膝盖”的整体词。归入这些分类的任何语义关系都可以使用。另外,任何已知的指出词义之间的特定语义和句法关系的语义关系都可以使用。
公所周知当提供关键词的字符串作为查询时在解释上存在歧义,而且查询中带有扩展的关键词列表增加了在搜索中找到的结果的数量。本实施例提供了一种系统和方法,可以为查询确定关联的、已消除歧义的关键词列表。提供这样一个按照词义所描绘的列表减少了检取到的无关信息的数量。该实施例扩展了查询语言而不会由于一个单词额外的、相关的词义而获得无关结果。这些相关的词义包括同义词。例如,扩展单词“bank”的“金融机构”的含义不会同时扩展诸如“河岸”或“存钱”的其他含义。这样信息管理软件会更精确地确定客户正在查找的信息。
扩展一个查询涉及使用以下一个或两个步骤:
1.向一个已消除歧义的查询关键词义添加其他单词以及该单词相关的含义,该单词相关的词义是指与已消除歧义的关键词的词义在语义上相关的词义。
2.通过解析其语法结构来解释该查询并将其转换成其他语义相等的查询。通过解析其语法结构来解释该查询并将其转换成其他语义相等的查询。索引包含确定对于单词的句法结果和词义的等同性。解释是本领域已知的术语和概念。
还应当认识到在搜索中使用词义歧义消除解决了检索关联性的问题。而且,用户经常如同表达语言一样表达查询。然而,由于可以以多种不同的方式描述相同的含义,所以当用户不用相同的特定方式表达一个查询时,会遇到困难,其中,在所述的相同的特定方式中对关联信息进行初始分类。
例如,如果用户正在查找有关岛屿“爪哇(Java)”的信息,并对在爪哇(岛屿)上的“假日(holidays)”感兴趣,那么用户就不会检索到使用关键词“爪哇(Java)”和“休假(vacation)”进行分类的有用的文档。将认识到,根据一个实施例,语义扩展特性解决了这个问题。已经认识到,在自然表达的查询中,为每一个关键术语衍生精确的同义词和子概念增加了关联性检索的容量。如果通过使用词库来执行检索且不执行词义歧义消除就会恶化该结果。例如,语义上扩展单词“Java”而没有首先确定其精确含义将产生大规模且难于处理的结果集合,所述集合带有潜在地已选定的基于不同的词义的结果,所述不同的词义例如“印度尼西亚”和“计算机程序设计”。还已知解释每一个单词的词义所描述的方法和随后在语义上扩展该词义的方法返回一个更全面同时具有更多目标的结果集合。
参考附图3B,为了帮助消除这种词义的歧义,本实施例利用如以上对于图3A所描述的获得单词关系的词义知识库400。知识库400与数据库30相关联,并且通过访问知识库400来帮助WSD模块32执行词义歧义消除。知识库400包含对于每个单词词义的单词的定义,还包含词义对之间关系的信息。这些关系包括词义的定义和相关词性(名词、动词等)的定义、精细的同义词、反义词、下义词、局部词、与名词相关的形容词、类似的形容词关系以及现有技术中已知的其他关系。当在系统中使用了现有技术的电子词典和词汇数据库时,例如WordNet(商标),知识库400提供增强的单词与关系的目录。知识库400包括:(i)词义之间的附加关系,例如将精细的含义归合到粗略的含义,新型的变形和派生的构词关系,以及其他特殊用途的语义关系;(ii)对出版物资源数据库中的数据错误的大规模校正;以及(iii)在其他现有技术知识库中不存在的其他的单词、词义以及相关关系。
在所述实施例中,知识库400是一种概括的图形数据结构,并作为节点表402和连接两个节点的边缘关系表404来实现。下面依次描述。在其他实施例中,知识库400还可以通过其他的数据结果来实现,比如数据链表。
在表402中,每一个节点是表402的一个行元素。每一个节点的记录可以具有如下的字段:ID字段406,类型字段408和注释字段410。在表402中存在两种类型的条目:单词与词义定义。例如,通过类型字段408A中的条目“单词”确定ID字段406A中的单词“bank”为一个单词。此外,范例表402提供单词的多个定义。为了对所述定义进行分类并区分表402中的单词条目与定义条目,可以使用标签来鉴别定义条目。例如,将ID字段406B中的条目标记为“LABEL001”。类型字段408B中的相应的定义将所述标签标记为“精细词义”的单词关系。注释字段410B中的相应的条目将所述标签标记为“名词,金融机构”。这样,现在可以将单词“bank”连接到该词义定义。此外,还可以将单词“经纪业”的条目连接到所述单词的词义定义。另一个实施例可以使用带有附加后缀的常用单词,以便辅助识别该词义定义。例如,另一种标签可以为“银行/n1”,其中后缀“/n1”表明该标签为名词并且是该名词的第一含义。应当理解可以使用其他形式的标签。可以使用其他标识符来确定形容词、副词和其他词性。在类型字段408中的条目确定了与单词相关的类型。一个单词存在多种有效的类型,包括:单词,精细的含义和粗略的含义。还可以提供其他类型。在本实施例中,当一个单词实例具有一个精细的含义时,该实例还具有注释字段410中的一个条目来提供关于该单词实例的更多细节。
边缘/关系表404包含一些记录,所述记录指出了节点表402中两个条目之间关系。表404具有以下条目:源节点ID栏412、目的节点ID栏414、类型栏416和注释栏418。栏412与栏414一起用来连接表402中的条目。栏416确定连接两个条目的关系类型。记录具有源节点和目的节点的ID、关系的类型并且可能具有基于该类型的注释。关系的类型包括“词根到单词”、“单词到精细含义”、“单词到粗略含义”、“粗略含义到精细含义”、“衍生”、“下义词”、“类别”、“与名词相关的形容词”、“类似”、“具有部分”。还可以在其中记录其他关系。注释栏418中的条目提供一个(数字)键为一个给定的词性唯一的确定一个边缘类型,所述边缘类型是从一单词节点到粗略的节点或精细的节点的边缘类型。
现在提供关于实施执行步骤的详述,所述实施利用与查询有关的一个单词的消除歧义的结果来执行。参考附图4,附图标记300整体地显示了执行这样一个搜索的过程。可以将该过程划分为两个大致阶段。第一阶段包括预先处理信息(或信息的子集合)来辅助响应查询的第二阶段。在第一阶段预处理,概括信息库中的每一个文档(或信息库的子集合),创建数据库中的索引。在步骤302中,词义歧义消除模块32对每个文档中的每个单词进行词义的区分。所述词义歧义消除模块32在前面已经定义过了。
然后在步骤304中,搜索引擎对已消除歧义的信息应用索引模块,获得关键词义的索引。索引模块34创建索引,创建索引的方式是通过处理已消除歧义的文档并将每一个关键词义添加到索引中。某些关键词会出现太多次而无用,例如“a”或“the”。优选地,对这些关键词不进行索引。应当理解,该步骤可以有效地把一个单词当作几个不同的词义进行索引。在步骤306中,词义的索引存储在数据库中。
在该处理的第二阶段,在步骤308中搜索引擎接收来自客户机中的一个客户机的查询。将所述查询解析成单词组件,然后对每个单词单独地分析所述单词的上下文,及结合所述单词相邻的单词来分析所述单词的上下文。对单词串的解析技术是本领域内熟知的,在这里就不再重复。在步骤310中,词义歧义消除模块32区分所述查询中每个单词的含义。为了帮助歧义的消除,除了查询本身中单词,模块还可以利用这样一些结果,即先前用户选择的结果或用户输入的一个先前的已被消除歧义的查询。
在优选实施例中,如步骤312所示通过使用知识库400(图3B),搜索引擎扩展所述已消除歧义的查询以包括关键词义,所述关键词义与查询中特定的关键词义语义相关。在词义基础上进行扩展并相应地产生一个词义列表,所述词义列表与查询的意义有关。所述语义关系是参照附图3A和图3B的以上描述。
然后在步骤314中,搜索引擎将已消除歧义和已扩展的查询与数据库中的词义信息进行比较。选择知识库中词义与所述查询中的关键词义相匹配的条目作为结果。如上所述,所述知识库包括索引文档的一个数据库。然后在步骤316中,搜索引擎将结果返还给客户机。在一个实施例中,可以根据词义关系对结果进行加权,所述词义关系即结果中的单词词义和查询中的关键词词义之间的关系。因此,例如,相比于结果中包含一种下义关系的词义而言,结果中包含与所述查询中的关键词义具有同义关系的词义时,可以得到更高的权重。还可以根据概率对所述结果进行加权,所述概率即在已被消除歧义的查询中和/或已被消除歧义的文档中关键词义的正确率。所述结果还可以通过与结果有关的文档或网页的其他特征进行加权,比如相关词义的频率或彼此之间的位置,或本领域人所熟知的排列结果的其他技术。
应当认识到,在与客户机交互之前,先执行第一阶段的预先计算步骤。第二阶段可以执行多次。当多次执行第二阶段时,不需要再重复第一阶段。可以偶尔或定期执行第一阶段来保持数据库的流通。数据库还可以通过下面的方式进行增量地更新,即对信息的子集合选择执行第一阶段,比如新增加的信息或新修改的信息。
整体上,所述实施例还使用对于词义标记查询的单词词义歧义消除。特别是,所述实施例对词义标记查询执行了如下功能:
1.使用单词词义歧义消除来确定查询关键词的相似词义;
2.使用单词词义歧义消除来确定查询的其它的相似的可替换的解释;
3.按照解释是所要表达的意义的可能性来排列每个解释;
4.使用可替换的解释,进而获得词义和正确解释的确认,可替换的解释来自用户的单词词义歧义消除;
5.如果需要,为给定的用户更新查询的所表达的解释;
五个功能的详述如下:
对于第一个功能,系统10使用歧义消除模块32和知识库为查询确定一个可能的单词词义。为了确定似是而非的单词词义,所述实施例使用许多词义歧义消除组件来确定单词词义,但不是必须使用所有的词义歧义消除组件。一个组件访问与单词有关的一个规则集合来确定单词词义。所述规则确定给定单词的词义与相邻单词的词义之间的任何关系的存在性。在所述实施例中,手动编码所述规则。下面是一个规则的例子:在一句话中,对于两个单词来说,如果在它们的可能的词义列表中,这两个单词有一个共同的词义,那么就确定这个共同的词义为可能的所要表达的词义。在下面的句子中,存在所述规则的一个应用,如下:“他卖掉了在公司的股份,总计25%的股份。”此处,单词“interest”和“stake”都有一个共同的词义,“权利,产权,或对某物的合法的股票”。其他实施例中可以使用自动的编码规则。
第一个功能的第二个过程,通过确定一些相关的主题来赋予单词词义,所述主题能够抓住单词的主要词义。一个主题是加权词义的一个向量。主题之间的相关性以可能性的权重来衡量,所述可能性即主题中的词义在文中出现的可能性。当文中确定了多个主题时,每个主题与其他的主题可能是协调的或矛盾的。矛盾的主题可能会指示出查询的不同的可能的解释。一个矛盾的主题是一个不同的向量具有相同单词的可替换的词义,还会导致一个很长的向量。
对第二个功能,实施例会使用或再使用一个歧义消除过程来确定可能的可替换的词义和依据其他结果每个过程的结果。下面将描述其中一些过程和算法。可以理解过程和算法是实施例的组成部分。
第二个功能的第一个过程重复对于一个查询的歧义消除过程,但是它把单词词义限制到以前没有报告过的词义上。然后所述查询的歧义消除为单词词义选择一个可替换的词义,而且可以修改剩余单词的词义。这个过程对每个单词的每个词义都要重复执行,进而得到可替换的解释集合。
另一个过程使用算法的所有集合,对于第二个功能再消除查询的歧义,但是它把算法限制到考虑可选主题中的一个最可能的结果上(排除先前确定的最可能的主题)。因此,当其他的算法执行时,它们各自的结果会发生变化。这样可以系统地重复每个已被确定的主题,进而获得可替换的解释的集合。
第二个功能的另一个算法把来自熟知的可能的词义集合中的一个词义赋给一个单词,并且消除剩下的单词的歧义。
可以分开使用第二个功能的每个算法,或结合在一起生成查询意义的可能的可替换的解释的一个列表。一些生成的解释可以相互之间复制,而且仅仅对其中的一个作进一步的处理。
对于第三个功能,对每个结果进行排序,所述的排序可以表述每个结果的准确性。例如,排序是基于每个解释的点数的数量的。可以设定一个概率阈值,并且给每个过程的结果都赋予一个概率值。如果单词词义分布值在极限之上,那么要保留这样的每个词义。如果最上面的词义与第二个词义之间的差值超过了一定的增量值,那么就不应该接受最上面的值。并且,具有被视为低概率值的解释,因为它们的概率值低于一个不能接受的极限,因此可能会被自动地丢弃。
对于第四个功能,使用单词词义歧义消除,提供两个算法来获得用户的词义的确认。第一个算法来自一个问题,所述问题是由与查询有关的系统10造成的。第二个算法被用于选择性地分组歧义消除的结果。下面依次讨论每个算法。
参考附图5,算法500如图所示,描述了第四个功能的第一个算法。当在第一个解释的基础上显示查询结果的时候,算法500会问用户是否所表达的意义是第二个可能的解释。例如,如果最初的查询包含仅有的关键字“java”,算法会确定单词“java”的一个可能的意义,与印尼有关的一个含义或一种程序语言。对于这个例子,假设“印尼”是更确切的解释,则显示这个结果。然而,作为一个附加的筛选,第一个算法为用户生成如下问题:“你说的是一种面向对象的编程语言吗?”如果用户的回答是肯定的,则会显示对于所述结果的第二个解释。
为了确定在所述问题中使用的术语,算法500具有以下特点:
1.首先,获得查询(步骤502);
2.当第一个解释使用歧义消除模块32时,消除所述查询的歧义来确定最可能的单词词义(步骤504);
3.步骤504后,并行执行路径506和路径508;
A.在路径506中,执行下面的步骤:
为语义相关的词义扩展查询;这样可以利用单词词义消除来为已确定的单词词义寻找合适的语义相关的词义(步骤510),使用描述单词词义和词义之间的语义关系的知识库;然后;
把查询词义的扩展集与文档中发现的一个索引词义相比较;所述索引是由索引模块32产生的(步骤512);
B.在路径508中,执行下面的步骤:
确定整个查询的第二个最可能的解释,所述查询为至少一个单词提供可替换的单词词义;所述执行是这样完成的,即从结果的可能的集合中消除在步骤504中已被确定的第一个最可能的单词词义的结果,然后使用歧义消除模块32再消除他们中的剩余的词义的歧义(步骤514);从选出的第二个最可能的解释中确定单词,这些单词在第一个解释和第二个解释之间存在着不同的含义(步骤516);
在最可能的解释和第二可能的解释之间,确定一个术语或组合,这个术语或组合仅在语义上与第二个单词词义有关,而与第一个词义无关。这样就把第二个词义与第一个词义区别开来。而且,所述术语会形成问题词组的一部分。在上面的例子的知识库中,“java”是一个与词组“面向对象的编程语言”有关的“类别”,并且“java”具有与“印尼”有关的一个可替换的“词性”。这样“类别”词组把“java”的第一和第二个词义区别开来(步骤518);
4.返回结果,并且产生一个问题,所述问题基于为第二个最可能的解释已确定的关键词或词组。算法500优选地使用第一个解释作为所表达的意义,除非用户选择所述问题。如果选择所述问题,则把显示搜索结果更新成第二个解释,并且也更新所表达的意义(步骤520);
5.如果选择第二个最可能的解释,那么再消除查询的歧义,使用与第二个最可能的解释有关的词义,用新的输入来重新计算单词词义的概率分布,所述新输入使用歧义消除模块32,确定第二个最可能的解释的所表达的意义(步骤522);并且
6.存储用户为了查询而选择的解释的结果,并有根据地更新知识库(步骤524);并且返回到路径506和508的开始。
在算法500的步骤516中,通过分析对于查询单词的所有的词义中的其他单词词义的每个词义关系,来确定第二个词义的描述性术语。如果这个描述性术语有语义关系,所述语义关系出现在不止一个查询单词的词义中,当所述描述性术语不能区分查询单词的词义时,则丢弃所述描述性术语。然后,剩余的语义上有关的单词词义按照它们的描述性属性和差异性属性被排序。这些属性包括:它们的语义关系类型,它们的词义频率,它们的词性,其它的语义上有关的单词词义的数量,和其它属性。
已经认识到,算法500为搜索查询提供了三个级别的细则。第一个级别是第一个在歧义消除上无限制的路径,来确定步骤504中的第一个解释。第二个级别是确定第二个最可能的解释,在忽略第一个解释的前提下来实现。第二个级别的结果可能是模糊的。当第二个级别仅考虑可选择的词义、第一个解释因为第二个级别而被有效的忽略时,当来自词义集合的第一个解释的结果被消除后,再歧义消除会更好地发现下面的最好的解释。当且仅当用户选择步骤520中的问题时,第三个级别是起作用的。在这个级别中,当用户提供关于查询的所表达的意义的反馈时(或者直接通过回答问题或间接地不回答问题),查询中的词义不再有歧义。此时获知所述单词的词义,并具有高度的确定性。然后,步骤522中的进一步的再歧义消除是仅仅基于第二个最可能的解释的,忽略步骤514中的任何附加的解释。例如,一个带有单词“java”的查询,在歧义消除的第一个级别中可能会被解释成在印尼的一个岛屿。当所述查询被再歧义消除,并且被限制到忽略那第一个解释的词义上时,歧义消除模块会确定面向对象的编程语言是“java”单词的第二个最好的解释。然而,“java”还能够指代“coffee”。因此,在最后的歧义消除中,“java”的含义被限制到一种面向对象的编程语言上,并且“java”词义的限制可以被更新成指出“java”在此处的上下文中既不是岛屿的意思也不是咖啡的意思。
在算法500的一个可选择的实施例中,在步骤504之后设置一个判断点(没有显示)。在判断点上,分析步骤504的结果,并且如果所述结果是可信的,那么采用路径506对步骤504的结果进行处理。如果所述结果不是充分可信的,那么采用路径506和路径508。
参考附图6,显示了算法600,即第四功能地第二个算法。算法600为用户提供两个或更多的查询解释,并且算法600监控用户选择了哪个结果并观察此结果,进而决定查询所表达的意义。算法600通过以下两种方法来决定查询所表达的意义:
1.在第一种方法中,生成查询单词的一个最可能的解释和至少一个查询单词的可替换的解释。然而,算法只是选择最可能的解释作为正确的解释。如果排序值在一定的极限之上,则只可以选择最可能的解释。然后,每个查询关键词的词义标记会有依据地得到确认。
2.在第二种方法中,再次生成查询单词的一个最可能的解释和至少一个查询单词的可替换的解释。当用户选择与其中一个解释有关的一个文档时,算法使用选择的文档作为上下文来再消除查询的歧义。这种方法允许在文档内容的基础上确定或纠正每个单词的词义。所述文档还能提供附加的上下文,所述上下文能够用更高的可信度,来消除在可替换解释中的其它模糊的查询单词的歧义。
简单地,算法600的主要步骤如下所示:
1.首先,获取查询(步骤602,类似于步骤502);
2.使用歧义消除模块32来消除查询的歧义(步骤604,类似步骤504);
3.确定结果的等级。在一个可选项中,把等级值的极限设置成一个最低的极限值(步骤606);
4.如果达到极限值,则执行步骤608。如果没有达到极限,则执行步骤610。
A.在步骤608中,对查询的每个解释执行如下功能:
使用歧义消除模块32进行词义歧义消除来扩展查询(步骤612,类似步骤510);然后把查询词义与索引相比较(步骤614,类似步骤512);
B.在路径610中,在步骤612和步骤614之前执行如下的功能:
使用词义歧义消除来确定查询的可替换的解释的一个列表。第一个忽略的结果生成所述列表,所述忽略的结果是与最高的被排序的结果有关的(步骤616,类似步骤514);
5.在步骤614后,返回到每个解释的结果并且等待输入(步骤618);
6.获得用户对于被选择的解释或被选择的文档的反馈(步骤620)
7.使用被选择的文档作为上下文,通过忽略其它单词词义的方式,
再消除查询的歧义(步骤622,类似步骤520);并且
8.存储解释的结果,所述解释是由用户为查询选择出来的(步骤624)。
对于算法600,使用多种方法为用户提供不同的结果组合。下面描述了三个典型的方法。第一个方法在可替换解释的单个的组合中使用结果集。每个解释的每个单词或描述都会被选择性地包括到每个组合中,使用前面所描述的方法来确定描述性单词和差异性单词,所述单词在语义上与每个解释有关。第二种方法显示了第一个解释的结果,第一个解释具有一个对于每个其它的剩余的解释的连接,可以允许用户观察相关的结果。第三种方法把来自每个解释的结果都合并到结果的一个列表中。用户没有意识到可以显示查询的多种解释,但是在用户的结果选择之上,如上所述就确定了所表达的意义。
所述实施例的另一个方面是使得对于每个用户查询的歧义消除更个人化,且可以越过每个用户会话。这些功能在算法500的步骤522中和算法600的步骤624中完成。词义歧义消除的个人化,能够使得实施例对于不同的用户把不同的词义赋给相同的或相关的查询。由于使用了自动获取和个人化信息,词义歧义消除的个人化和专用化改善了搜索结果的质量,所述搜索结果从已被改善的查询词义中获得。值得高兴地是,由于提供给每个顾客已被改善的搜索结果,个人化提高了对于特别的搜索引擎服务提供者的顾客的忠实度。
参考附图8,查询的个人化需要在数据库30中对信息跟踪。在数据库30中的查询的个人化数据库800中,跟踪信息。当实施例消除一个查询的歧义时,数据库800中的数据得自已被确定的被标记的词义。
可以理解,对于使用搜索引擎的用户,在用户和搜索引擎之间,至少有三种类型的时间关系。用户是使用一个搜索引擎的人。当用户访问一个会话中的搜索引擎时,所述会话与搜索引擎之间有一段时间的相互作用,这段时间有明确的开始和结束。这段时间就定义为一个会话。会话是一段已被定义的时间段。在会话内,会搜寻一些特殊的网站,比如,休假网站。所有用户会话的所有搜索定义了用户数据。搜索引擎的所有用户的用户数据定义了对搜索引擎的公共数据。
为了跟踪用户、会话和公共信息,把查询的个人化数据800分割成数据的三个集合:共同数据的一个集合802,所述集合是所有用户使用的与词义有关的;每个用户的数据集合804;每个用户的会话数据集合806。还可以跟踪数据的其它集合。
在充分的时间间隔中为每个数据类型,更新数据库800中的数据,每个数据的类型是带有词义查询标记或带有由相关的查询转换过来的信息的。例如,每个查询之后,都要更新每个用户会话数据806;在每个用户会话的开始或结束,可能会更新每个用户会话数据804;并且在周期性时间间隔中,会更新公共数据802。通过安装cookies文件,然后分析在用户机器上安装的cookies文件来确定用户。如果一个用户激活了几个会话,为了确定每个会话,则在用户的机器上设置几个分离的cookies文件。
公共数据802存储于查询的个人化数据库800的一个固定的公共部分中。每个用户数据804和每个用户会话数据806都存储在查询的个性化数据库800的一部分中,每个用户都有所述的这部分。词义标记查询和派生的信息都被存储在一个暂时的部分中,所述暂时的部分位于每个用户会话的系统存储器中。首先,对于每个用户和每个用户会话,都有一个公共数据的文件。当对一个查询进行歧义消除时,这些文件中的一部分数据就会被加载到系统内存中。
当在一个特定的用户会话中,为该用户消除查询的歧义时,来自查询的个人化数据库800的附加信息可能会被其它的组件同时使用。这样会导致这些组件在不同的环境下产生不同的结果。除核心的歧义消除数据库之外,来自词义已被标记查询的公共信息、每个用户信息和每个用户会话信息都被用作组件的输入。不同的数据会影响不同的查询。与一个会话有关的数据仅仅影响与此会话有关的查询。与一个用户有关的数据仅仅影响与此用户有关的查询。公共数据会影响任一个用户。
参考附图7,给出了算法700,算法700确定数据个人化的主要步骤。算法700的步骤如下所示:
1.首先,获得查询(步骤702)
2.使用个人化的数据,消除歧义查询(步骤704)
3.在步骤704之后,沿着路径706和路径704并行执行步骤;
A.在路径706中,执行下面的步骤:
为语义相关的词义扩展查询,利用知识库为确定的单词找到一个合适的语义相关的词义(步骤710);
把查询词义的已被扩展的集合与已被歧义消除的文档中的词义的索引相比较(步骤712);
返回查询的结果(步骤714);
进入步骤716,获得用户输入/反馈(步骤716)
B.在路径708中,接下来执行步骤716;
4.完成路径706和路径708之后,获得对于被选择的解释或被选择的文档的用户反馈(步骤716);并且
5.更新查询的个人化数据(步骤718)。
在算法700的步骤716和步骤718中,执行数据的个人化包括:
获取和存储与查询有关的个人化数据;和使用数据来改善词义的歧义消除查询。对每个部分依次进行讨论。
对于获取和存储数据,假定系统存在对于一个用户的词义标记初始的查询.一个有效的词义标记查询具有一个赋予给每个查询关键词的词义。系统确定单词词义,以达到单词词义代表单词所表达的意义具有很高的可信度的目的。
当用户提交给搜索引擎一个查询时,词义标记查询以及派生出的其它信息都被存储在查询的个人化数据库800中。得自词义标记查询的信息被存储在歧义消除模块32的歧义消除算法的一个文件中。歧义消除算法包括:一种优先算法;一种样本算法;一种n单词算法;一种相关算法和一种分类算法。下面将详细描述每个算法。此外还会使用其它的算法。
利用各种单词词义出现频率的历史统计数据,优先算法预知单词词义。特别地,基于单词词义在输入单词标记文本中出现的频率,算法赋予每个单词词义一个概率,首先,规范在输入词义标记文本中的词义和每个单词的词义频率分布。需要注意的是,输入词义标记文本不是正在被歧义消除的文本,而是先前已被歧义消除的文本,并且正确地确定所表达的意义的可信度是很高的。
对于最优化和执行的讨论,优先算法为来自词义标记文本的每个词义计算了一个频率数据,并且把这个频率数据作为一个文件存在数据库800中。当个人化数据库800持有词义标记查询的单词词义频率时,核心数据库包含从词义标记文本获得的频率数。并且,存在一个统一的文件,所述文件包含来自用户的词义标记查询的词义的频率数据。对于每个用户,一个单独的文件存在数据库800中,所述文件包含与此用户相关的词义标记查询的单词词义频率数据。这些文件代表了用户,用户会话和公共数据代表了查询个人化数据。文件被更新之后,执行优先算法的下一步,得自算法的最后一个执行的词义变成对知识库有用的。
最后,系统把特定的用户会话的词义标记查询的一个频率数据保存到内存或硬盘上。优选地,当消除一个具有个人化数据的查询的歧义时,这些数据是不可用的。
在此,把词义标记查询中的词义计算在内,并且首先对每个单词的词义的频率分布规格化。使用的查询集合是来自用户的所有查询、来自一个用户的所有查询或来自一个用户会话的查询。当每个查询被处理或在适当的时间间隔中时,系统更新频率数据。当消除在一个新的查询或文本中的单词的歧义时,逐字执行频率分布的规格化。
样本存储算法预知了短语的词义(或单词的顺序)。短语主要的定义是一系列连续的单词。短语的长度从两个单词到一个完整的句子不等。算法访问一个短语列表(单词序列),所述短语列表为此短语中的每个单词提供一个被视为正确的词义。首先,列表包含来自输入词义标记文本的句子片段,输入词义标记文本发生多次,此处,对于每个片段出现的词义是相同的。首先,当一个已被分析的短语包含一个单词时,这个单词有一个跟以前的词义不同的词义,以前的词义跟单词所在的以前的那个句子有关,则会拒绝在此已被分析的短语中的词义,并且不会把该词义保留在单词顺序列表中。
当消除一个新文本或新查询的歧义的时候,样本存储算法确定是否部分文本或查询与以前已被确定的重新出现的单词顺序相匹配。如果匹配的话,模块就给在新文本或新查询中的匹配单词赋予序列的词义。最初,算法搜索最长的匹配,并且如果一个单词词义与文本或查询中的已被确定的词义相矛盾时,则不赋予此词义。当分析查询时,算法搜索来自查询的句子片段的匹配,所述查询被处理成在它的相关的列表中的片段。当定位一个匹配时,把来自列表的词义赋给正在处理的片段。算法具有几个列表,并为算法的处理过程提供帮助,包括:带有正确词义的一个单词序列表,所述正确的词义来自练习输入词义标记文本;来自所有用户的词义标记查询的一个列表;来自一个用户的所有查询的一个列表;和来自一个用户会话的查询的一个列表。
为了优化和执行主题,样本存储算法存储数据,所述数据是关于单词词义重复序列的确认和作为在一个文件中的单独的数据的此种方式的频率的。通过用实施例消除新文本的歧义代替每次处理输入词义标记文本来完成上述操作。样本存储算法还存储一个文件,所述文件包含来自词义标记查询的信息。还有一个对于公共数据的文件;一个对于每个用户的文件;和一个对于每个用户会话的文件。这些文件代表了用户,用户会话和公共数据代表了查询的个人化数据。当处理一个查询的歧义消除时,需要把文件中的一部分数据加载到系统存储中。当文件被更新时,在优先算法的下一步执行中,来自算法最后执行的词义变成对知识库有用的。
通过寻找在单个单词周围的单词或词义的重复的方式,n单词算法预示了单个单词的一个词义。然而一般地,算法会注意单个的单词之前或之后的单词,特别地,n设置成两个单词。算法利用具有正确词义的单词对列表,所述正确的词义与每个单词有关。列表来自单词对,所述单词对来自出现很多次的输入词义标记文本,在此,单词对的每次出现的词义是相同的。然而,当至少一个单词的一个词义不同时,则拒绝这些单词对的词义,并把这些单词对的词义清除出列表。当消除文本的歧义时,算法与来自查询或文本的单词对匹配,所述算法或文本与算法支持的列表中的单词对一起被处理。当发现一个单词对,并且一个或两个单词的词义显示在正在处理的查询或文本中时,确定匹配。当确定一个匹配时,把与正在被处理的单词对中的第二个单词有关的词义赋给它。N单词具有以下几个列表,包括:一个具有正确词义的单词列表,所述正确词义来自练习输入词义标记文本;一个来自所有用户的词义标记查询的列表;一个来自一个用户的所有查询的列表;和一个来自一个用户访问的查询的列表。
当在单词的一个固定范围内操作时,和当仅试图一次一个地预知单个单词的一个词义时,n单词算法与样本存储算法不同。样本存储算法试图预知一个序列中的所有单词的词义。
为了优化和执行问题,n单词算法在一个单独的文件信息中存储数据,所述文件信息是关于周围单词或单词词义的重现模式和来自输入词义标记文本的此种模式的频率的。上述通过用实施例消除新文本的歧义来代替每次处理输入词义标记文本来完成。除了核心数据库中的文件外,n单词算法也把文件存储到系统存储器中:来自词义标记查询的一个信息文件;公共数据的一个文件;对于每个用户的一个文件;和对于每个用户会话的一个文件。这些文件代表用户,用户会话和公共数据代表查询的个人化数据。当处理一个查询的歧义消除时,需要把这些文件中的一部分数据加载到系统存储中。当来自一个用户的每个新的词义标记查询变成可用时,更新用户和用户会话文件中的信息。当文件被更新时,在优先算法的下一步的执行中,来自算法的最后一步执行的词义变成对知识库可用的。
相关性算法与n单词算法有相似之处,但是相关性算法生成一个句法剖析树(例如,形容词修饰名词,在名词短语中第一个形容词修饰第二个形容词等)。相关性算法作用于剖析树中的主要成分和修饰成分之间的关系。
通过把文本部分中的单词重新分组成可能的主题词义,分类算法预示了单词的一个词义。把具有最强的叠加性的词义(例如,聚集的)视为在此部分中的单词集合的最有可能的词义。可以根据几个不同的特征来衡量叠加性(例如,粗略词义,精细词义等)。文本文件范围的变化可以是从几个单词到几个句子或段落。分类算法使用在用户会话的先前的查询中的单词和单词词义作为附加的上下文,来个人化当前查询的歧义消除。把先前查询的单词词义加到可能的主题集合中。
返回到使用个人化数据来改善查询的词义歧义消除的过程上来,当消除一个查询的歧义时,每个歧义消除模块32的组件利用核心的数据库和查询个人化数据库800中的任何可用的信息。可以把每个组件都配置成,在词义歧义消除的过程中的不同的步骤中独立地和共同地访问核心数据库和查询个人化数据库800。
尽管参照了一些特定实施例来描述本发明,但是本领域技术人员很清楚在不脱离后附的权利要求中的所概括的本发明范围的情况下,可以进行多种变化。本领域技术人员对以下一个或更多的专业都具有充分的了解:计算机编程,机械知识和计算机语言学。

Claims (14)

1.一种处理面向数据库查询的方法,所述方法包括以下步骤:
从一个用户获得所述查询;
使用知识库消除所述查询的歧义,获得所述查询的单词的解释集合;
如果所述集合包含多于一个的可确认的解释,则从所述集合中选择一个解释作为一个最好的解释;
利用所述查询的最好解释来确认所述数据库的相关结果,所述数据库与所述最好的解释有关;
通过排除与所述最好解释有关的结果,再消除所述集合中的剩余的解释的歧义;
从所述剩余的解释中,选择下一个最好解释;并且
利用所述查询的所述近乎最好的解释来确定来自所述数据库的相关结果,所述数据库与所述近乎最好的解释有关。
2.根据权利要求1所述的处理面向数据库查询的方法,其特征在于,消除所述查询的歧义的所述步骤包括使用下面一种算法:一种样本歧义消除算法,一种n单词歧义消除算法,一种优先的歧义消除算法;一种相关算法和一种分类算法。
3.根据权利要求2所述的处理面向数据库查询的方法,还包括:从所述用户获得一个被选择的可确认的词义,所述用户确认来自可确认的词义的所述集合中的一个已被选择的单词词义;并且
用与所述查询和所述已被选择的可确认的词义有关的数据模型更新所述知识库。
4.根据权利要求3所述的处理面向数据库查询的方法,其特征在于,所述数据模型包括对于所述用户的数据模型。
5.根据权利要求4所述的处理面向数据库查询的方法,其特征在于,所述数据模型还包括用于一个与所述用户和所述查询有关的会话的数据。
6.根据权利要求5所述的处理面向数据库查询的方法,其特征在于,所述数据模型还包括用于所述数据库的所有查询的数据模型。
7.一种处理面向数据库查询的方法,所述方法包括以下步骤:
从一个用户获得所述查询;
使用知识库消除所述查询的歧义来获得可确认的解释的集合,所述解释与所述查询中的单词有关;
如果所述集合包括多于一个的可确认的解释:
从所述集合中选择一个词义作为一个最好的解释;
利用所述查询的所述最好解释来确定来自所述数据库的相关的结果,所述数据库与所述的最好的解释有关;
扩展所述最好解释,为所述最好解释获得相关的词义,进而产生所述查询的一个扩展的最好解释;
把所述查询的所述扩展的最好解释跟与所述数据库相关的一个索引相比较;
通过以下方式,选择性地处理所述集合的剩余解释:
通过排除与所述最好的解释有关的结果,再消除所述集合的剩余解释的歧义;
从剩余解释中,选择下一个最好解释;
利用所述查询的所述近乎最好解释来确认来自所述数据库的相关的结果,所述数据库与近乎最好解释有关;并且
确定一个与近乎最好解释有关的术语,所述术语把近乎最好词义从最好解释中分离出来;
利用所述查询的所述被扩展的最好解释,从所述数据库获得结果;
利用所述术语,产生对于所述用户的一个问题,进而测试是否近乎最好解释是用户所表达的意思;
从所述用户获得一个对于所述问题的一个响应,进而确定来自所述的一个倾向性解释;并且利用所述响应进一步再消除解释集合的歧义。
8.根据权利要求7所述的处理面向数据库查询的方法,其特征在于,消除查询的歧义的步骤包括使用下面的一种算法:
一种样本歧义消除算法,一种n单词歧义消除算法,一种优先的歧义消除算法,一种分类算法和一种相关性算法。
9.一种处理面向数据库查询的方法,所述方法包括以下步骤:
从一个用户获得所述查询;
使用知识库消除查询的歧义,进而获得可确认的词义的一个集合,所述可确认的词义与查询中的单词有关;
如果集合包括多于一个的可确认的词义,从所述的集合中选择一个词义作为一个最好的词义;
通过以下方式,选择性地处理集合中的剩余的词义:
通过排除与最好词义有关的结果,再消除集合的剩余词义的歧义;并且从所述剩余词义中,选择至少一个近乎最好词义来形成已被再消除歧义的剩余词义的一个集合;
对于所述最好词义和已被再消除歧义的剩余词义的所述集合的每个成员:
扩展和解释相关的词义来获得语义上相关的词义,进而生成查询的一个扩展的词义;
把扩展词义与所述数据库有关的一个索引相比较;并且
利用它的扩展的词义,从所述数据库中获得结果;
从所述用户获得一个指示性的注释,这个指示性注释来自从所述数据库返回的的所有结果,是对于所述查询的一个倾向性词义;并且利用所述指示来更进一步地再消除词义的所述集合的歧义。
10.一种修改与面向数据库查询有关的知识库的方法,所述方法包括以下步骤:
利用所述知识库消除所述查询的歧义,进而获得与所述查询中的单词有关的可确认的词义的一个集合;
确认来自所述集合的一个倾向性词义;并且
用关于所述查询和所述已被选择的可确认的词义的数据更新所述知识库,进而获得较佳的可确认的词义,所述词义用于消除并发的查询的歧义。
11.根据权利要求10所述的处理面向数据库查询的方法,其特征在于,消除所述查询歧义的所述步骤包括使用下面的一种算法:
一种样本歧义消除算法,一种n单词歧义消除算法,和一种优先的歧义消除算法;并且
更新所述知识库包括更新与所述算法有关的一个本地知识库。
12.根据权利要求11所述的处理面向数据库查询的方法,其特征在于,所述数据包括对于一个用户的数据。
13.根据权利要求12所述的处理面向数据库的查询的方法,其特征在于,所述数据还包括用于与所述用户和所述查询有关的一个会话的数据。
14.根据权利要求13所述的处理面向数据库查询的方法,其特征在于,所述数据还包括对于所有用户的一个公共会话的数据,所有用户访问所述的数据库。
CN200480031158XA 2003-08-21 2004-08-20 处理查询的系统和方法 Expired - Fee Related CN1871603B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US49668103P 2003-08-21 2003-08-21
US60/496,681 2003-08-21
PCT/CA2004/001529 WO2005020092A1 (en) 2003-08-21 2004-08-20 System and method for processing a query

Publications (2)

Publication Number Publication Date
CN1871603A true CN1871603A (zh) 2006-11-29
CN1871603B CN1871603B (zh) 2010-04-28

Family

ID=34216034

Family Applications (3)

Application Number Title Priority Date Filing Date
CN200480023961A Expired - Fee Related CN100580666C (zh) 2003-08-21 2004-08-20 使用消除歧义的查询搜索消除歧义信息的方法和系统
CN2004800312332A Expired - Fee Related CN1871597B (zh) 2003-08-21 2004-08-20 利用一套消歧技术处理文本的系统和方法
CN200480031158XA Expired - Fee Related CN1871603B (zh) 2003-08-21 2004-08-20 处理查询的系统和方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN200480023961A Expired - Fee Related CN100580666C (zh) 2003-08-21 2004-08-20 使用消除歧义的查询搜索消除歧义信息的方法和系统
CN2004800312332A Expired - Fee Related CN1871597B (zh) 2003-08-21 2004-08-20 利用一套消歧技术处理文本的系统和方法

Country Status (5)

Country Link
US (4) US7509313B2 (zh)
EP (3) EP1665091A4 (zh)
CN (3) CN100580666C (zh)
CA (3) CA2536262A1 (zh)
WO (3) WO2005020093A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294764A (zh) * 2012-02-29 2013-09-11 国际商业机器公司 用于从电子文档提取信息的方法和系统
CN105512291A (zh) * 2006-02-28 2016-04-20 贝宝公司 用于扩展数据库搜索查询的方法和系统
CN106294645A (zh) * 2016-08-03 2017-01-04 王晓光 不同词性在大数据搜索中的实现方法及系统
WO2018023484A1 (zh) * 2016-08-03 2018-02-08 王晓光 不同词性在大数据搜索中的实现方法及系统
CN113051898A (zh) * 2019-12-27 2021-06-29 北京阿博茨科技有限公司 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统

Families Citing this family (495)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6804662B1 (en) * 2000-10-27 2004-10-12 Plumtree Software, Inc. Method and apparatus for query and analysis
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7185271B2 (en) * 2002-08-20 2007-02-27 Hewlett-Packard Development Company, L.P. Methods and systems for implementing auto-complete in a web page
US20070136251A1 (en) * 2003-08-21 2007-06-14 Idilia Inc. System and Method for Processing a Query
US7548910B1 (en) * 2004-01-30 2009-06-16 The Regents Of The University Of California System and method for retrieving scenario-specific documents
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8972856B2 (en) * 2004-07-29 2015-03-03 Yahoo! Inc. Document modification by a client-side application
US7409402B1 (en) * 2005-09-20 2008-08-05 Yahoo! Inc. Systems and methods for presenting advertising content based on publisher-selected labels
US7856441B1 (en) * 2005-01-10 2010-12-21 Yahoo! Inc. Search systems and methods using enhanced contextual queries
US7958115B2 (en) * 2004-07-29 2011-06-07 Yahoo! Inc. Search systems and methods using in-line contextual queries
US7421441B1 (en) * 2005-09-20 2008-09-02 Yahoo! Inc. Systems and methods for presenting information based on publisher-selected labels
US7603349B1 (en) 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US20070266406A1 (en) * 2004-11-09 2007-11-15 Murali Aravamudan Method and system for performing actions using a non-intrusive television with reduced text input
US7895218B2 (en) * 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US20060101504A1 (en) * 2004-11-09 2006-05-11 Veveo.Tv, Inc. Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input
US9137115B2 (en) * 2004-12-06 2015-09-15 Bmc Software, Inc. System and method for resource reconciliation in an enterprise management system
EP1667360A1 (en) * 2004-12-06 2006-06-07 BMC Software, Inc. Generic discovery for computer networks
US7769579B2 (en) * 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US20060212433A1 (en) * 2005-01-31 2006-09-21 Stachowiak Michael S Prioritization of search responses system and method
US20060235870A1 (en) * 2005-01-31 2006-10-19 Musgrove Technology Enterprises, Llc System and method for generating an interlinked taxonomy structure
WO2006086179A2 (en) * 2005-01-31 2006-08-17 Textdigger, Inc. Method and system for semantic search and retrieval of electronic documents
US8150846B2 (en) 2005-02-17 2012-04-03 Microsoft Corporation Content searching and configuration of search results
CN1841372A (zh) * 2005-03-29 2006-10-04 国际商业机器公司 帮用户根据非结构化信息源形成结构化图表的方法和设备
US9378203B2 (en) 2008-05-01 2016-06-28 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US8849860B2 (en) 2005-03-30 2014-09-30 Primal Fusion Inc. Systems and methods for applying statistical inference techniques to knowledge representations
US9177248B2 (en) 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
US10002325B2 (en) 2005-03-30 2018-06-19 Primal Fusion Inc. Knowledge representation systems and methods incorporating inference rules
US7849090B2 (en) 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US9104779B2 (en) 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
EP1875336A2 (en) * 2005-04-11 2008-01-09 Textdigger, Inc. System and method for searching for a query
US20080195601A1 (en) * 2005-04-14 2008-08-14 The Regents Of The University Of California Method For Information Retrieval
US7962504B1 (en) 2005-05-26 2011-06-14 Aol Inc. Sourcing terms into a search engine
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US7702665B2 (en) * 2005-06-14 2010-04-20 Colloquis, Inc. Methods and apparatus for evaluating semantic proximity
KR100544514B1 (ko) * 2005-06-27 2006-01-24 엔에이치엔(주) 검색 쿼리 연관성 판단 방법 및 시스템
US7933395B1 (en) 2005-06-27 2011-04-26 Google Inc. Virtual tour of user-defined paths in a geographic information system
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
WO2007029348A1 (ja) 2005-09-06 2007-03-15 Community Engine Inc. データ抽出システム、端末装置、端末装置のプログラム、サーバ装置、及び、サーバ装置のプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7711737B2 (en) * 2005-09-12 2010-05-04 Microsoft Corporation Multi-document keyphrase extraction using partial mutual information
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
KR100724122B1 (ko) * 2005-09-28 2007-06-04 최진근 데이터의 연관성 구조를 저장하는 번들데이터베이스관리시스템 및 그 관리방법
US7958124B2 (en) * 2005-09-28 2011-06-07 Choi Jin-Keun System and method for managing bundle data database storing data association structure
JP2009510639A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US20080228738A1 (en) * 2005-12-13 2008-09-18 Wisteme, Llc Web based open knowledge system with user-editable attributes
US7681147B2 (en) * 2005-12-13 2010-03-16 Yahoo! Inc. System for determining probable meanings of inputted words
US7660786B2 (en) * 2005-12-14 2010-02-09 Microsoft Corporation Data independent relevance evaluation utilizing cognitive concept relationship
US8694530B2 (en) * 2006-01-03 2014-04-08 Textdigger, Inc. Search system with query refinement and search method
US20070185860A1 (en) * 2006-01-24 2007-08-09 Michael Lissack System for searching
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US7640234B2 (en) * 2006-02-09 2009-12-29 Ebay Inc. Methods and systems to communicate information
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
US9443333B2 (en) 2006-02-09 2016-09-13 Ebay Inc. Methods and systems to communicate information
US7849047B2 (en) * 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US7739225B2 (en) 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of an aspect-value pair
US7725417B2 (en) * 2006-02-09 2010-05-25 Ebay Inc. Method and system to analyze rules based on popular query coverage
US7739226B2 (en) * 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of the aspect rules
US7739280B2 (en) 2006-03-06 2010-06-15 Veveo, Inc. Methods and systems for selecting and presenting content based on user preference information extracted from an aggregate preference signature
US8073860B2 (en) * 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
WO2007118038A2 (en) * 2006-03-30 2007-10-18 Veveo, Inc. Method for searching content and presenting advertisements
US7624130B2 (en) * 2006-03-30 2009-11-24 Microsoft Corporation System and method for exploring a semantic file network
US7634471B2 (en) * 2006-03-30 2009-12-15 Microsoft Corporation Adaptive grouping in a file network
US9135238B2 (en) * 2006-03-31 2015-09-15 Google Inc. Disambiguation of named entities
WO2007114932A2 (en) 2006-04-04 2007-10-11 Textdigger, Inc. Search system and method with text function tagging
WO2007124436A2 (en) 2006-04-20 2007-11-01 Veveo, Inc. User interface methods and systems for selecting and presenting content based on relationships between the user and other members of an organization
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US20080004920A1 (en) * 2006-06-30 2008-01-03 Unisys Corporation Airline management system generating routings in real-time
US8255383B2 (en) * 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
US7792967B2 (en) * 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
US7698328B2 (en) * 2006-08-11 2010-04-13 Apple Inc. User-directed search refinement
US8306326B2 (en) * 2006-08-30 2012-11-06 Amazon Technologies, Inc. Method and system for automatically classifying page images
US8589869B2 (en) 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080071533A1 (en) * 2006-09-14 2008-03-20 Intervoice Limited Partnership Automatic generation of statistical language models for interactive voice response applications
US20080071744A1 (en) * 2006-09-18 2008-03-20 Elad Yom-Tov Method and System for Interactively Navigating Search Results
WO2008045690A2 (en) 2006-10-06 2008-04-17 Veveo, Inc. Linear character selection display interface for ambiguous text input
US9645993B2 (en) * 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
RU2618375C2 (ru) * 2015-07-02 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Расширение возможностей информационного поиска
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8359190B2 (en) * 2006-10-27 2013-01-22 Hewlett-Packard Development Company, L.P. Identifying semantic positions of portions of a text
US7734623B2 (en) * 2006-11-07 2010-06-08 Cycorp, Inc. Semantics-based method and apparatus for document analysis
CN100507915C (zh) * 2006-11-09 2009-07-01 华为技术有限公司 网络搜索方法、网络搜索设备和用户终端
WO2008063987A2 (en) 2006-11-13 2008-05-29 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
FI20060995A0 (fi) * 2006-11-13 2006-11-13 Tiksis Technologies Oy Luonnollisen kielen käsittely
US8635203B2 (en) * 2006-11-16 2014-01-21 Yahoo! Inc. Systems and methods using query patterns to disambiguate query intent
US8131546B1 (en) * 2007-01-03 2012-03-06 Stored Iq, Inc. System and method for adaptive sentence boundary disambiguation
EP2115630A4 (en) * 2007-01-04 2016-08-17 Thinking Solutions Pty Ltd LANGUAGE ANALYSIS
US9093073B1 (en) * 2007-02-12 2015-07-28 West Corporation Automatic speech recognition tagging
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
WO2008113045A1 (en) 2007-03-14 2008-09-18 Evri Inc. Query templates and labeled search tip system, methods, and techniques
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US20080235216A1 (en) * 2007-03-23 2008-09-25 Ruttenberg Steven E Method of predicitng affinity between entities
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US8190422B2 (en) * 2007-05-20 2012-05-29 George Mason Intellectual Properties, Inc. Semantic cognitive map
WO2008148012A1 (en) * 2007-05-25 2008-12-04 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
US20080313574A1 (en) * 2007-05-25 2008-12-18 Veveo, Inc. System and method for search with reduced physical interaction requirements
US9002869B2 (en) 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8543380B2 (en) 2007-10-05 2013-09-24 Fujitsu Limited Determining a document specificity
US8145660B2 (en) * 2007-10-05 2012-03-27 Fujitsu Limited Implementing an expanded search and providing expanded search results
US20090094210A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Intelligently sorted search results
US20090094211A1 (en) * 2007-10-05 2009-04-09 Fujitsu Limited Implementing an expanded search and providing expanded search results
US8108405B2 (en) * 2007-10-05 2012-01-31 Fujitsu Limited Refining a search space in response to user input
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US20090254540A1 (en) * 2007-11-01 2009-10-08 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US8019772B2 (en) * 2007-12-05 2011-09-13 International Business Machines Corporation Computer method and apparatus for tag pre-search in social software
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US9501467B2 (en) 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8577894B2 (en) 2008-01-25 2013-11-05 Chacha Search, Inc Method and system for access to restricted resources
CA2726576C (en) 2008-01-30 2021-09-21 Thomson Reuters Global Resources Financial event and relationship extraction
US8392436B2 (en) * 2008-02-07 2013-03-05 Nec Laboratories America, Inc. Semantic search via role labeling
US10269024B2 (en) * 2008-02-08 2019-04-23 Outbrain Inc. Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
US20090234638A1 (en) * 2008-03-14 2009-09-17 Microsoft Corporation Use of a Speech Grammar to Recognize Instant Message Input
US8180754B1 (en) * 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US8112431B2 (en) * 2008-04-03 2012-02-07 Ebay Inc. Method and system for processing search requests
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8676732B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US9361365B2 (en) * 2008-05-01 2016-06-07 Primal Fusion Inc. Methods and apparatus for searching of content using semantic synthesis
US8676722B2 (en) 2008-05-01 2014-03-18 Primal Fusion Inc. Method, system, and computer program for user-driven dynamic generation of semantic networks and media synthesis
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090307003A1 (en) * 2008-05-16 2009-12-10 Daniel Benyamin Social advertisement network
US20090326922A1 (en) * 2008-06-30 2009-12-31 International Business Machines Corporation Client side reconciliation of typographical errors in messages from input-limited devices
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US20120166414A1 (en) * 2008-08-11 2012-06-28 Ultra Unilimited Corporation (dba Publish) Systems and methods for relevance scoring
CA2734756C (en) 2008-08-29 2018-08-21 Primal Fusion Inc. Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions
GB2463669A (en) * 2008-09-19 2010-03-24 Motorola Inc Using a semantic graph to expand characterising terms of a content item and achieve targeted selection of associated content items
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
JP5598331B2 (ja) * 2008-11-28 2014-10-01 日本電気株式会社 言語モデル作成装置
US8260605B2 (en) * 2008-12-09 2012-09-04 University Of Houston System Word sense disambiguation
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10831724B2 (en) * 2008-12-19 2020-11-10 Bmc Software, Inc. Method of reconciling resources in the metadata hierarchy
US8108393B2 (en) * 2009-01-09 2012-01-31 Hulu Llc Method and apparatus for searching media program databases
US8463806B2 (en) 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US20100217768A1 (en) * 2009-02-20 2010-08-26 Hong Yu Query System for Biomedical Literature Using Keyword Weighted Queries
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统
US20110301941A1 (en) * 2009-03-20 2011-12-08 Syl Research Limited Natural language processing method and system
US8712774B2 (en) * 2009-03-30 2014-04-29 Nuance Communications, Inc. Systems and methods for generating a hybrid text string from two or more text strings generated by multiple automated speech recognition systems
GB201016385D0 (en) * 2010-09-29 2010-11-10 Touchtype Ltd System and method for inputting text into electronic devices
US20100281025A1 (en) * 2009-05-04 2010-11-04 Motorola, Inc. Method and system for recommendation of content items
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8504550B2 (en) * 2009-05-15 2013-08-06 Citizennet Inc. Social network message categorization systems and methods
US8601015B1 (en) 2009-05-15 2013-12-03 Wolfram Alpha Llc Dynamic example generation for queries
US9213768B1 (en) * 2009-05-15 2015-12-15 Wolfram Alpha Llc Assumption mechanism for queries
CN101901210A (zh) * 2009-05-25 2010-12-01 日电(中国)有限公司 词义消歧系统和方法
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8370275B2 (en) 2009-06-30 2013-02-05 International Business Machines Corporation Detecting factual inconsistencies between a document and a fact-base
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI412277B (zh) * 2009-08-10 2013-10-11 Univ Nat Cheng Kung 基於故事情節的結構化影片摘要方法
US20110040604A1 (en) * 2009-08-13 2011-02-17 Vertical Acuity, Inc. Systems and Methods for Providing Targeted Content
US9396485B2 (en) * 2009-12-24 2016-07-19 Outbrain Inc. Systems and methods for presenting content
EP2629211A1 (en) * 2009-08-21 2013-08-21 Mikko Kalervo Väänänen Method and means for data searching and language translation
US9292855B2 (en) 2009-09-08 2016-03-22 Primal Fusion Inc. Synthesizing messaging using context provided by consumers
US8380697B2 (en) * 2009-10-21 2013-02-19 Citizennet Inc. Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US11023675B1 (en) * 2009-11-03 2021-06-01 Alphasense OY User interface for use with a search engine for searching financial related documents
US9262520B2 (en) 2009-11-10 2016-02-16 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US20110119047A1 (en) * 2009-11-19 2011-05-19 Tatu Ylonen Oy Ltd Joint disambiguation of the meaning of a natural language expression
US8504355B2 (en) * 2009-11-20 2013-08-06 Clausal Computing Oy Joint disambiguation of syntactic and semantic ambiguity
US9208259B2 (en) * 2009-12-02 2015-12-08 International Business Machines Corporation Using symbols to search local and remote data stores
US8554854B2 (en) 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages
US8725717B2 (en) * 2009-12-23 2014-05-13 Palo Alto Research Center Incorporated System and method for identifying topics for short text communications
US20110161091A1 (en) * 2009-12-24 2011-06-30 Vertical Acuity, Inc. Systems and Methods for Connecting Entities Through Content
US20110197137A1 (en) * 2009-12-24 2011-08-11 Vertical Acuity, Inc. Systems and Methods for Rating Content
US10607235B2 (en) * 2009-12-24 2020-03-31 Outbrain Inc. Systems and methods for curating content
US10713666B2 (en) 2009-12-24 2020-07-14 Outbrain Inc. Systems and methods for curating content
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US20110191330A1 (en) * 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8341099B2 (en) 2010-03-12 2012-12-25 Microsoft Corporation Semantics update and adaptive interfaces in connection with information as a service
US8712979B2 (en) 2010-03-26 2014-04-29 Bmc Software, Inc. Statistical identification of instances during reconciliation process
CN102207936B (zh) * 2010-03-30 2013-10-23 国际商业机器公司 用于提示电子文档内容变更的方法和系统
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8484015B1 (en) 2010-05-14 2013-07-09 Wolfram Alpha Llc Entity pages
US9141690B2 (en) * 2010-05-14 2015-09-22 Salesforce.Com, Inc. Methods and systems for categorizing data in an on-demand database environment
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
US20110289025A1 (en) * 2010-05-19 2011-11-24 Microsoft Corporation Learning user intent from rule-based training data
US9235806B2 (en) 2010-06-22 2016-01-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US10474647B2 (en) 2010-06-22 2019-11-12 Primal Fusion Inc. Methods and devices for customizing knowledge representation systems
US8812298B1 (en) 2010-07-28 2014-08-19 Wolfram Alpha Llc Macro replacement of natural language input
US9703871B1 (en) 2010-07-30 2017-07-11 Google Inc. Generating query refinements using query components
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US9779168B2 (en) 2010-10-04 2017-10-03 Excalibur Ip, Llc Contextual quick-picks
US9418155B2 (en) 2010-10-14 2016-08-16 Microsoft Technology Licensing, Llc Disambiguation of entities
US8615434B2 (en) 2010-10-19 2013-12-24 Citizennet Inc. Systems and methods for automatically generating campaigns using advertising targeting information based upon affinity information obtained from an online social network
US8612293B2 (en) 2010-10-19 2013-12-17 Citizennet Inc. Generation of advertising targeting information based upon affinity information obtained from an online social network
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US20120124028A1 (en) * 2010-11-12 2012-05-17 Microsoft Corporation Unified Application Discovery across Application Stores
US8645364B2 (en) 2010-12-13 2014-02-04 Google Inc. Providing definitions that are sensitive to the context of a text
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US11294977B2 (en) 2011-06-20 2022-04-05 Primal Fusion Inc. Techniques for presenting content to a user based on the user's preferences
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US20120239381A1 (en) * 2011-03-17 2012-09-20 Sap Ag Semantic phrase suggestion engine
CN102682042B (zh) * 2011-03-18 2014-07-02 日电(中国)有限公司 概念识别设备和方法
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9063927B2 (en) 2011-04-06 2015-06-23 Citizennet Inc. Short message age classification
US10127296B2 (en) 2011-04-07 2018-11-13 Bmc Software, Inc. Cooperative naming for configuration items in a distributed configuration management database environment
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
CN103562907B (zh) * 2011-05-10 2016-12-07 日本电气株式会社 用于评估同义表达的设备、方法和程序
US10068022B2 (en) 2011-06-03 2018-09-04 Google Llc Identifying topical entities
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120324367A1 (en) 2011-06-20 2012-12-20 Primal Fusion Inc. System and method for obtaining preferences with a user interface
US9069814B2 (en) 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
US9002892B2 (en) 2011-08-07 2015-04-07 CitizenNet, Inc. Systems and methods for trend detection using frequency analysis
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8935230B2 (en) 2011-08-25 2015-01-13 Sap Se Self-learning semantic search engine
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9734252B2 (en) 2011-09-08 2017-08-15 Wolfram Alpha Llc Method and system for analyzing data using a query answering system
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US8996549B2 (en) * 2011-10-11 2015-03-31 Microsoft Technology Licensing, Llc Recommending data based on user and data attributes
CN102937966A (zh) * 2011-10-11 2013-02-20 微软公司 发现并消费相关数据
CN102999553B (zh) * 2011-10-11 2016-02-24 微软技术许可有限责任公司 基于用户和数据属性推荐数据
US20130091163A1 (en) * 2011-10-11 2013-04-11 Microsoft Corporation Discovering and consuming related data
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
CN103049474A (zh) * 2011-10-25 2013-04-17 微软公司 搜索查询和文档相关数据翻译
US20130106894A1 (en) 2011-10-31 2013-05-02 Elwha LLC, a limited liability company of the State of Delaware Context-sensitive query enrichment
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
US9269353B1 (en) * 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
CN103294661A (zh) * 2012-03-01 2013-09-11 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20150006155A1 (en) * 2012-03-07 2015-01-01 Mitsubishi Electric Corporation Device, method, and program for word sense estimation
US9053497B2 (en) 2012-04-27 2015-06-09 CitizenNet, Inc. Systems and methods for targeting advertising to groups with strong ties within an online social network
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US9002702B2 (en) * 2012-05-03 2015-04-07 International Business Machines Corporation Confidence level assignment to information from audio transcriptions
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9098588B2 (en) * 2012-06-27 2015-08-04 Rakuten, Inc. Information processing apparatus, information processing method, and information processing program
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9305103B2 (en) * 2012-07-03 2016-04-05 Yahoo! Inc. Method or system for semantic categorization
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9405424B2 (en) 2012-08-29 2016-08-02 Wolfram Alpha, Llc Method and system for distributing and displaying graphical items
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9575954B2 (en) 2012-11-05 2017-02-21 Unified Compliance Framework (Network Frontiers) Structured dictionary
US9009197B2 (en) 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
WO2014074317A1 (en) * 2012-11-08 2014-05-15 Evernote Corporation Extraction and clarification of ambiguities for addresses in documents
US20140156703A1 (en) * 2012-11-30 2014-06-05 Altera Corporation Method and apparatus for translating graphical symbols into query keywords
US8892597B1 (en) 2012-12-11 2014-11-18 Google Inc. Selecting data collections to search based on the query
US20140188456A1 (en) * 2012-12-27 2014-07-03 Abbyy Development Llc Dictionary Markup System and Method
US9772995B2 (en) 2012-12-27 2017-09-26 Abbyy Development Llc Finding an appropriate meaning of an entry in a text
CN103914476B (zh) * 2013-01-05 2017-02-01 北京百度网讯科技有限公司 搜索引导方法和搜索引擎
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9626629B2 (en) 2013-02-14 2017-04-18 24/7 Customer, Inc. Categorization of user interactions into predefined hierarchical categories
BR122017002795B1 (pt) * 2013-02-15 2021-05-11 Voxy, Inc sistemas e métodos para aprendizagem de idioma
US9305102B2 (en) 2013-02-27 2016-04-05 Google Inc. Systems and methods for providing personalized search results based on prior user interactions
US9972030B2 (en) 2013-03-11 2018-05-15 Criteo S.A. Systems and methods for the semantic modeling of advertising creatives in targeted search advertising campaigns
US9761225B2 (en) * 2013-03-11 2017-09-12 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
WO2014160379A1 (en) * 2013-03-14 2014-10-02 Advanced Search Laboratories, Inc. Dimensional articulation and cognium organization for information retrieval systems
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9158799B2 (en) 2013-03-14 2015-10-13 Bmc Software, Inc. Storing and retrieving context sensitive data in a management system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US10152538B2 (en) 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
WO2014182771A1 (en) * 2013-05-07 2014-11-13 Veveo, Inc. Incremental speech input interface with real time feedback
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US20140379324A1 (en) * 2013-06-20 2014-12-25 Microsoft Corporation Providing web-based alternate text options
US9582490B2 (en) 2013-07-12 2017-02-28 Microsoft Technolog Licensing, LLC Active labeling for computer-human interactive learning
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10275485B2 (en) * 2014-06-10 2019-04-30 Google Llc Retrieving context from previous sessions
US10282467B2 (en) * 2014-06-26 2019-05-07 International Business Machines Corporation Mining product aspects from opinion text
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10262060B1 (en) * 2014-07-07 2019-04-16 Clarifai, Inc. Systems and methods for facilitating searching, labeling, and/or filtering of digital media items
US10073673B2 (en) 2014-07-14 2018-09-11 Samsung Electronics Co., Ltd. Method and system for robust tagging of named entities in the presence of source or translation errors
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9519635B2 (en) * 2014-09-11 2016-12-13 Automated Insights, Inc. System and method for integrated development environments for dynamically generating narrative content
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
KR102348084B1 (ko) * 2014-09-16 2022-01-10 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US10460239B2 (en) * 2014-09-16 2019-10-29 International Business Machines Corporation Generation of inferred questions for a question answering system
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
KR102033395B1 (ko) * 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105868193A (zh) * 2015-01-19 2016-08-17 富士通株式会社 用于检测电子文本中的产品相关信息的装置和方法
US9767091B2 (en) * 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
US11106871B2 (en) 2015-01-23 2021-08-31 Conversica, Inc. Systems and methods for configurable messaging response-action engine
US11042910B2 (en) * 2015-01-23 2021-06-22 Conversica, Inc. Systems and methods for processing message exchanges using artificial intelligence
US11301632B2 (en) 2015-01-23 2022-04-12 Conversica, Inc. Systems and methods for natural language processing and classification
US11663409B2 (en) 2015-01-23 2023-05-30 Conversica, Inc. Systems and methods for training machine learning models using active learning
US11551188B2 (en) 2015-01-23 2023-01-10 Conversica, Inc. Systems and methods for improved automated conversations with attendant actions
US11100285B2 (en) 2015-01-23 2021-08-24 Conversica, Inc. Systems and methods for configurable messaging with feature extraction
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9824084B2 (en) 2015-03-19 2017-11-21 Yandex Europe Ag Method for word sense disambiguation for homonym words based on part of speech (POS) tag of a non-homonym word
US10045237B2 (en) * 2015-04-09 2018-08-07 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Systems and methods for using high probability area and availability probability determinations for white space channel identification
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
WO2016171927A1 (en) * 2015-04-20 2016-10-27 Unified Compliance Framework (Network Frontiers) Structured dictionary
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10769184B2 (en) * 2015-06-05 2020-09-08 Apple Inc. Systems and methods for providing improved search functionality on a client device
US11423023B2 (en) 2015-06-05 2022-08-23 Apple Inc. Systems and methods for providing improved search functionality on a client device
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN104978878A (zh) * 2015-06-26 2015-10-14 苏州点通教育科技有限公司 微课教学系统及方法
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9965604B2 (en) 2015-09-10 2018-05-08 Microsoft Technology Licensing, Llc De-duplication of per-user registration data
US10069940B2 (en) 2015-09-10 2018-09-04 Microsoft Technology Licensing, Llc Deployment meta-data based applicability targetting
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10275708B2 (en) * 2015-10-27 2019-04-30 Yardi Systems, Inc. Criteria enhancement technique for business name categorization
US10274983B2 (en) * 2015-10-27 2019-04-30 Yardi Systems, Inc. Extended business name categorization apparatus and method
US10268965B2 (en) * 2015-10-27 2019-04-23 Yardi Systems, Inc. Dictionary enhancement technique for business name categorization
US11216718B2 (en) * 2015-10-27 2022-01-04 Yardi Systems, Inc. Energy management system
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10460229B1 (en) * 2016-03-18 2019-10-29 Google Llc Determining word senses using neural networks
US10878191B2 (en) * 2016-05-10 2020-12-29 Nuance Communications, Inc. Iterative ontology discovery
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10191899B2 (en) 2016-06-06 2019-01-29 Comigo Ltd. System and method for understanding text using a translation of the text
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DE112016006832T5 (de) * 2016-06-29 2019-01-24 Intel Corporation Indexer für natürliche Sprache für virtuelle Assistenten
US10503832B2 (en) * 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
US20180068031A1 (en) * 2016-08-16 2018-03-08 Ebay Inc. Enhancing user queries using implicit indicators
US10102200B2 (en) 2016-08-25 2018-10-16 International Business Machines Corporation Predicate parses using semantic knowledge
CN106407180B (zh) * 2016-08-30 2021-01-01 北京奇艺世纪科技有限公司 一种实体消歧方法及装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10268734B2 (en) * 2016-09-30 2019-04-23 International Business Machines Corporation Providing search results based on natural language classification confidence information
WO2018075224A1 (en) * 2016-10-20 2018-04-26 Google Llc Determining phonetic relationships
US10120860B2 (en) * 2016-12-21 2018-11-06 Intel Corporation Methods and apparatus to identify a count of n-grams appearing in a corpus
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN106709011B (zh) * 2016-12-26 2019-07-23 武汉大学 一种基于空间定位簇的位置概念层次消解计算方法
US10140286B2 (en) * 2017-02-22 2018-11-27 Google Llc Optimized graph traversal
CN108509449B (zh) * 2017-02-24 2022-07-08 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
US10546026B2 (en) 2017-03-31 2020-01-28 International Business Machines Corporation Advanced search-term disambiguation
US10872080B2 (en) * 2017-04-24 2020-12-22 Oath Inc. Reducing query ambiguity using graph matching
US10268688B2 (en) * 2017-05-03 2019-04-23 International Business Machines Corporation Corpus-scoped annotation and analysis
CN107180087B (zh) * 2017-05-09 2019-11-15 北京奇艺世纪科技有限公司 一种搜索方法及装置
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10372824B2 (en) * 2017-05-15 2019-08-06 International Business Machines Corporation Disambiguating concepts in natural language
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10652592B2 (en) 2017-07-02 2020-05-12 Comigo Ltd. Named entity disambiguation for providing TV content enrichment
CN109271621B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10726061B2 (en) 2017-11-17 2020-07-28 International Business Machines Corporation Identifying text for labeling utilizing topic modeling-based text clustering
WO2019100167A1 (en) * 2017-11-27 2019-05-31 Retailcommon Inc. Method and system for syntactic searching
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
US11308128B2 (en) * 2017-12-11 2022-04-19 International Business Machines Corporation Refining classification results based on glossary relationships
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11361416B2 (en) 2018-03-20 2022-06-14 Netflix, Inc. Quantifying encoding comparison metric uncertainty via bootstrapping
US10915577B2 (en) * 2018-03-22 2021-02-09 Adobe Inc. Constructing enterprise-specific knowledge graphs
US11799664B2 (en) * 2018-03-26 2023-10-24 Entigenlogic Llc Verifying authenticity of content to produce knowledge
US10838951B2 (en) 2018-04-02 2020-11-17 International Business Machines Corporation Query interpretation disambiguation
CN108647705B (zh) * 2018-04-23 2019-04-05 北京交通大学 基于图像和文本语义相似度的图像语义消歧方法和装置
CN108920497B (zh) * 2018-05-23 2021-10-15 北京奇艺世纪科技有限公司 一种人机交互方法及装置
US11170770B2 (en) * 2018-08-03 2021-11-09 International Business Machines Corporation Dynamic adjustment of response thresholds in a dialogue system
CN109214007A (zh) * 2018-09-19 2019-01-15 哈尔滨理工大学 一种基于卷积神经网络的汉语句子词义消岐方法
US11226970B2 (en) * 2018-09-28 2022-01-18 Hitachi Vantara Llc System and method for tagging database properties
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US10832680B2 (en) 2018-11-27 2020-11-10 International Business Machines Corporation Speech-to-text engine customization
US11237713B2 (en) * 2019-01-21 2022-02-01 International Business Machines Corporation Graphical user interface based feature extraction application for machine learning and cognitive models
US11386130B2 (en) * 2019-01-28 2022-07-12 Entigenlogic Llc Converting content from a first to a second aptitude level
US11966389B2 (en) * 2019-02-13 2024-04-23 International Business Machines Corporation Natural language to structured query generation via paraphrasing
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing
CN109977418B (zh) * 2019-04-09 2023-03-31 南瑞集团有限公司 一种基于语义向量的短文本相似性度量方法
US11966686B2 (en) * 2019-06-17 2024-04-23 The Boeing Company Synthetic intelligent extraction of relevant solutions for lifecycle management of complex systems
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US11120227B1 (en) 2019-07-01 2021-09-14 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US10824817B1 (en) * 2019-07-01 2020-11-03 Unified Compliance Framework (Network Frontiers) Automatic compliance tools for substituting authority document synonyms
US11222057B2 (en) * 2019-08-07 2022-01-11 International Business Machines Corporation Methods and systems for generating descriptions utilizing extracted entity descriptors
US11501065B2 (en) * 2019-09-11 2022-11-15 Oracle International Corporation Semantic parser including a coarse semantic parser and a fine semantic parser
US20210141929A1 (en) * 2019-11-12 2021-05-13 Pilot Travel Centers Llc Performing actions on personal data stored in multiple databases
CN111159409B (zh) * 2019-12-31 2023-06-02 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法、装置、设备、介质
US11651156B2 (en) * 2020-05-07 2023-05-16 Optum Technology, Inc. Contextual document summarization with semantic intelligence
CN111611810B (zh) * 2020-05-29 2023-08-04 河北数云堂智能科技有限公司 一种多音字读音消歧装置及方法
US11941138B2 (en) * 2020-06-04 2024-03-26 Pilot Travel Centers, LLC Data deletion and obfuscation system
US11386270B2 (en) 2020-08-27 2022-07-12 Unified Compliance Framework (Network Frontiers) Automatically identifying multi-word expressions
US11860943B2 (en) * 2020-11-25 2024-01-02 EMC IP Holding Company LLC Method of “outcome driven data exploration” for datasets, business questions, and pipelines based on similarity mapping of business needs and asset use overlap
CA3209118A1 (en) 2021-01-27 2022-08-04 Verantos, Inc. High validity real-world evidence study with deep phenotyping
CA3220310A1 (en) 2021-05-17 2022-11-24 Verantos, Inc. System and method for term disambiguation
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content
US20230132090A1 (en) * 2021-10-22 2023-04-27 Tencent America LLC Bridging semantics between words and definitions via aligning word sense inventories
US20230185786A1 (en) * 2021-12-13 2023-06-15 International Business Machines Corporation Detect data standardization gaps
US11922126B1 (en) * 2023-07-28 2024-03-05 Intuit Inc. Use of semantic confidence metrics for uncertainty estimation in large language models

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5083571A (en) * 1988-04-18 1992-01-28 New York University Use of brain electrophysiological quantitative data to classify and subtype an individual into diagnostic categories by discriminant and cluster analysis
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5317507A (en) 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5325298A (en) 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
EP0494573A1 (en) 1991-01-08 1992-07-15 International Business Machines Corporation Method for automatically disambiguating the synonymic links in a dictionary for a natural language processing system
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
CA2102325A1 (en) * 1992-11-04 1994-05-05 Edwin R. Addison Method for resolution of natural-language queries against full-text databases
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5873056A (en) * 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5510981A (en) 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5519786A (en) 1994-08-09 1996-05-21 Trw Inc. Method and apparatus for implementing a weighted voting scheme for multiple optical character recognition systems
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US6006221A (en) * 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5761665A (en) * 1995-10-31 1998-06-02 Pitney Bowes Inc. Method of automatic database field identification for postal coding
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5907839A (en) 1996-07-03 1999-05-25 Yeda Reseach And Development, Co., Ltd. Algorithm for context sensitive spelling correction
US5953541A (en) 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
US6098065A (en) 1997-02-13 2000-08-01 Nortel Networks Corporation Associative search engine
US5996011A (en) 1997-03-25 1999-11-30 Unified Research Laboratories, Inc. System and method for filtering data received by a computer system
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6070134A (en) 1997-07-31 2000-05-30 Microsoft Corporation Identifying salient semantic relation paths between two words
US6078878A (en) 1997-07-31 2000-06-20 Microsoft Corporation Bootstrapping sense characterizations of occurrences of polysemous words
US6098033A (en) 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US6138085A (en) 1997-07-31 2000-10-24 Microsoft Corporation Inferring semantic relations
US6105023A (en) 1997-08-18 2000-08-15 Dataware Technologies, Inc. System and method for filtering a document stream
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
US6487552B1 (en) * 1998-10-05 2002-11-26 Oracle Corporation Database fine-grained access control
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6256629B1 (en) 1998-11-25 2001-07-03 Lucent Technologies Inc. Method and apparatus for measuring the degree of polysemy in polysemous words
US6189002B1 (en) 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6751606B1 (en) 1998-12-23 2004-06-15 Microsoft Corporation System for enhancing a query interface
US7089194B1 (en) 1999-06-17 2006-08-08 International Business Machines Corporation Method and apparatus for providing reduced cost online service and adaptive targeting of advertisements
US7089236B1 (en) * 1999-06-24 2006-08-08 Search 123.Com, Inc. Search engine interface
KR20010004404A (ko) 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
US6665665B1 (en) * 1999-07-30 2003-12-16 Verizon Laboratories Inc. Compressed document surrogates
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6816857B1 (en) * 1999-11-01 2004-11-09 Applied Semantics, Inc. Meaning-based advertising and document relevance determination
US6405162B1 (en) * 1999-09-23 2002-06-11 Xerox Corporation Type-based selection of rules for semantically disambiguating words
EP1221110A2 (en) * 1999-09-24 2002-07-10 Wordmap Limited Apparatus for and method of searching
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
US6965858B2 (en) * 2000-04-03 2005-11-15 Xerox Corporation Method and apparatus for reducing the intermediate alphabet occurring between cascaded finite state transducers
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US20040076139A1 (en) * 2000-07-03 2004-04-22 Kenneth Kang-Yeh Wireless name service registry and flexible call routing and scheduling
EP1170677B1 (en) 2000-07-04 2009-03-18 International Business Machines Corporation Method and system of weighted context feedback for result improvement in information retrieval
GB0018645D0 (en) * 2000-07-28 2000-09-13 Tenara Limited Dynamic personalization via semantic networks
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
WO2002017128A1 (en) 2000-08-24 2002-02-28 Science Applications International Corporation Word sense disambiguation
WO2002069202A2 (en) * 2001-02-28 2002-09-06 The Johns Hopkins University Method for determining synthetic term senses using reference text
US7174341B2 (en) 2001-05-31 2007-02-06 Synopsys, Inc. Dynamic database management system and method
US7184948B2 (en) 2001-06-15 2007-02-27 Sakhr Software Company Method and system for theme-based word sense ambiguity reduction
US7043492B1 (en) * 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US20030101182A1 (en) * 2001-07-18 2003-05-29 Omri Govrin Method and system for smart search engine and other applications
US7007074B2 (en) * 2001-09-10 2006-02-28 Yahoo! Inc. Targeted advertisements using time-dependent key search terms
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US20030078928A1 (en) * 2001-10-23 2003-04-24 Dorosario Alden Network wide ad targeting
CA2475319A1 (en) * 2002-02-04 2003-08-14 Cataphora, Inc. A method and apparatus to visually present discussions for data mining purposes
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US20050021397A1 (en) * 2003-07-22 2005-01-27 Cui Yingwei Claire Content-targeted advertising using collected user behavior data
US20030220913A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation Techniques for personalized and adaptive search services
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
US20040117173A1 (en) * 2002-12-18 2004-06-17 Ford Daniel Alexander Graphical feedback for semantic interpretation of text and images
US7403942B1 (en) * 2003-02-04 2008-07-22 Seisint, Inc. Method and system for processing data records
US20050033771A1 (en) * 2003-04-30 2005-02-10 Schmitter Thomas A. Contextual advertising system
US7260571B2 (en) * 2003-05-19 2007-08-21 International Business Machines Corporation Disambiguation of term occurrences
US8856163B2 (en) * 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US20070073678A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Semantic document profiling
EP1875336A2 (en) * 2005-04-11 2008-01-09 Textdigger, Inc. System and method for searching for a query

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512291A (zh) * 2006-02-28 2016-04-20 贝宝公司 用于扩展数据库搜索查询的方法和系统
CN105512291B (zh) * 2006-02-28 2020-05-15 贝宝公司 用于扩展数据库搜索查询的方法和系统
CN103294764A (zh) * 2012-02-29 2013-09-11 国际商业机器公司 用于从电子文档提取信息的方法和系统
CN103294764B (zh) * 2012-02-29 2016-11-16 国际商业机器公司 用于从电子文档提取信息的方法和系统
US9734297B2 (en) 2012-02-29 2017-08-15 International Business Machines Corporation Extraction of information from clinical reports
CN106294645A (zh) * 2016-08-03 2017-01-04 王晓光 不同词性在大数据搜索中的实现方法及系统
WO2018023484A1 (zh) * 2016-08-03 2018-02-08 王晓光 不同词性在大数据搜索中的实现方法及系统
CN113051898A (zh) * 2019-12-27 2021-06-29 北京阿博茨科技有限公司 一种面向自然语言搜索结构化数据的词义积累及分词方法、工具和系统

Also Published As

Publication number Publication date
WO2005020093A1 (en) 2005-03-03
EP1665091A4 (en) 2006-11-15
US20050080613A1 (en) 2005-04-14
WO2005020091A1 (en) 2005-03-03
CN1871603B (zh) 2010-04-28
CA2536265A1 (en) 2005-03-03
CN1871597B (zh) 2010-04-14
EP1661031A4 (en) 2006-12-13
CA2536270A1 (en) 2005-03-03
US7895221B2 (en) 2011-02-22
CN1871597A (zh) 2006-11-29
EP1665091A1 (en) 2006-06-07
CA2536265C (en) 2012-11-13
US7509313B2 (en) 2009-03-24
EP1665092A4 (en) 2006-11-22
EP1665092A1 (en) 2006-06-07
US20050080780A1 (en) 2005-04-14
CN100580666C (zh) 2010-01-13
CN1839386A (zh) 2006-09-27
US20110202563A1 (en) 2011-08-18
WO2005020092A1 (en) 2005-03-03
EP1661031A1 (en) 2006-05-31
CA2536262A1 (en) 2005-03-03
US20050080776A1 (en) 2005-04-14

Similar Documents

Publication Publication Date Title
CN1871603A (zh) 处理查询的系统和方法
CN1253821C (zh) 基于语言模型的信息检索方法
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
CN1198225C (zh) 关键字提取系统及采用该系统的文本检索系统
US8335787B2 (en) Topic word generation method and system
CN1165858C (zh) 应用搜索结果的自然语言处理以改进整体精度的信息检索系统的设备和方法
CN1934569A (zh) 集成有用户注释的搜索系统和方法
US20060212433A1 (en) Prioritization of search responses system and method
CN1269897A (zh) 用于选择数据集的方法和/或系统
US20050149496A1 (en) System and method for dynamic context-sensitive federated search of multiple information repositories
CN1682216A (zh) 广域网搜索中搜索列表项内容的适当性确定的自动化处理
CN1559044A (zh) 信息解析方法以及装置
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1882943A (zh) 使用超单元的搜索处理的系统和方法
CN1904896A (zh) 结构化文档处理装置、搜索装置及结构化文档系统和方法
CN101044481A (zh) 用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品
CN101051323A (zh) 一种字符输入的方法、输入法系统及词库更新的方法
CN1689001A (zh) 向用户或用户组呈现媒体内容的方法和系统
JP2005302042A (ja) マルチセンスクエリについての関連語提案
CN101055580A (zh) 用于检索文档的系统、方法及用户接口
CN1750002A (zh) 提供搜索结果的方法
CN1877583A (zh) 访问标识索引系统及访问标识索引库生成方法
CN1834964A (zh) 依照自然语言查询进行文献检索的系统和方法
CN111488453B (zh) 资源分级方法、装置、设备及存储介质
US8949254B1 (en) Enhancing the content and structure of a corpus of content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100428

Termination date: 20130820