CN101061479B - 基于文档结构的搜索结果的呈现方法和系统 - Google Patents

基于文档结构的搜索结果的呈现方法和系统 Download PDF

Info

Publication number
CN101061479B
CN101061479B CN2005800399646A CN200580039964A CN101061479B CN 101061479 B CN101061479 B CN 101061479B CN 2005800399646 A CN2005800399646 A CN 2005800399646A CN 200580039964 A CN200580039964 A CN 200580039964A CN 101061479 B CN101061479 B CN 101061479B
Authority
CN
China
Prior art keywords
document
page
structural unit
search item
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005800399646A
Other languages
English (en)
Other versions
CN101061479A (zh
Inventor
阿米塔布·K·辛格哈尔
维里施·拉特纳卡
马克西姆·里凡特塞
约瑟夫·K·奥苏利文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101061479A publication Critical patent/CN101061479A/zh
Application granted granted Critical
Publication of CN101061479B publication Critical patent/CN101061479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Abstract

一种系统识别与搜索项目相关的文档,其中该文档包括一组结构单元。该系统确定搜索项目在文档中的出现的分布,根据搜索项目在文档中的出现的分布识别结构单元之一,和呈现与识别的结构单元相关的信息。

Description

基于文档结构的搜索结果的呈现方法和系统
技术领域
与本发明的原理一致的系统和方法通常涉及信息检索,更具体地,涉及基于文档结构的作为搜索结果的文档的呈现。 
背景技术
万维网(“web”)包括大量信息。然而,定位期望部分的信息可能是富有挑战性的。这个问题很复杂,因为web上的信息量和web检索不熟练的新用户数量在迅速增长。 
搜索引擎试图将超链接返回给用户感兴趣的web文档。通常,搜索引擎将它们关于用户兴趣的确定基于用户输入的搜索项(称作搜索查询)。搜索引擎的目标是根据搜索查询将高质量的相关结果提供给用户。通常,通过匹配搜索查询中的项目与预先存储的web文档的集合(corpus),搜索引擎实现这一目标。包含用户搜索项目的web文档是“命中”(hit),并被返回给用户。现有的搜索引擎通常将命中呈现为web文档的摘录。这些摘录可以显示在作为搜索结果页面的单个web页面中。 
发明内容
根据一个方面,一种方法可以包括识别与搜索项目相关的文档,其中该文档包括一组结构单元(structural element)。该方法还可以包括确定搜索项目在文档中的出现的分布,根据搜索项目在文档中的出现的分布识别结构单元之一,和呈现(present)与识别的结构单元相关的信息。 
根据另一个方面,一种方法可以包括识别与搜索项目相关的文档,其中该文档包括一组结构单元。该方法还可以包括确定搜索项目在文档中的出现,根据搜索项目的出现的物理邻近性将搜索项目的出现组成群集,确定包括每个群集的结构单元之一,和提供与所确定的结构单元相关的信息。 
根据又一个方面,一种方法可以包括识别与搜索项目相关的文档,其中该文档包括一组结构单元,其中结构单元包括文档、一组文档部分和一组文档页面。该方法还包括识别文档的树型表示(representation),其中文档的页面对应于叶节点,文档部分对应于更高级别的节点,和该文档对应于根节点。该方法还可以包括根据叶节点是否包含搜索项目的出现将得分分配给叶节点,根据相关叶节点的得分确定更高级别的节点的得分,根据更高级别的节点的得分确定根节点的得分,根据得分选择叶节点之一、更高级别的节点之一或根节点作为选定节点,和提供与选定节点相关的信息。 
附图说明
包含在本说明书中并构成其一部分的附图说明本发明的实施例,并和说明书一起,解释本发明。在附图中: 
图1是文档的解释图; 
图2是文档的示例性结构单元的图; 
图3是示例性信息检索网络的图,其中可以实施与本发明的原理一致的系统和方法; 
图4是根据与本发明原理一致的实施方式的客户机或服务器的示例图; 
图5是根据与本发明原理一致的实施方式的图4的搜索引擎的示例性功能方框图; 
图6A和6B提供文档中的示例性命中分布以说明如何可以标识结构单元用于包括在搜索结果中; 
图7-9B是根据与本发明原理一致的实施方式的用于呈现搜索结果的示例性处理的流程图;和 
图10A-10D图示用于示例性书的示例性搜索结果。 
具体实施方式
本发明的下述详细描述参考附图。在不同附图中相同的参考标号可以标识相同或类似的单元。而且,下述详细描述并不限制本发明。 
概述 
越来越多种类的文档正在变得可以通过搜索引擎进行搜索。一些类型的文档在它们包括一组结构单元(例如部分、章节、段落、页面等)的意义上被结构化。这些类型的文档例子可以包括书、web站点、杂志、报纸、文章、专利和目录。可以扫描这些文档和通过光学字符识别(OCR)识别它们的文本。 
图1是结构化文档的示例图。在这个示例的实施方式中,文档采取书的形式。可以扫描该书或者通过其他方式以电子形式获取。典型的书可以包括多个结构单元。可以通过由出版商提供的OCR确定书的特定结构单元,或者以其它方式获取。 
图2是文档的示例性结构单元的图。如图2所示,可以以分层方式设置结构单元。图2中的结构单元可以设置成四个级别。在其它的实施方式中,可以将结构单元设置成任意数量的级别,多于或少于四个。 
如图2所示,在最高级别上的结构单元可以包括文档本身。在次高级别上的结构单元可以包括文档部分。在书的情况下,部分可以对应于书的章节。在web站点的情况下,部分可以对应于web站点的部分。在文章的情况下,部分可以对应于web站点的段落。 
在次高级别上的结构单元可以包括文档的子部分。在书的情况下,子部分可以对应于书的子章节或书的段落。在web站点的情况下,子部分可以对应于web站点的子部分。在文章的情况下,子部分可以对应于web站点的子段落。在分层结构中次高级别上的结构单元可以包括文档的页面。 
与本发明原理一致的系统和方法可以基于与底层文档相关的结 构单元和命中在文档中的分布呈现检索结果。 
示例性信息检索网络 
图3是网络300的示例图,其中可以实施与本发明原理一致的系统和方法。网络300可以包括经网络350连接到多个服务器320-340的多个客户机310。网络350可以包括局域网(LAN)、广域网(WAN)、诸如公共交换电话网(PSTN)等的电话网络、中联网、因特网、存储器设备或网络组合。为了简化,将两个客户机310和三个服务器320-340示为连接到网络350。实际上,可以存在更多或更少的客户机和服务器。而且,在一些例子中,客户机可以执行服务器的功能和/或服务器可以执行客户机的功能。 
客户机310可以包括客户机实体。可以将实体定义为设备,例如个人计算机、无线电话、个人数字助理(PDA)、笔记本或另一类型的计算或通信设备、在这些设备之一上运行的线程或过程和/或由这些设备之一可执行的目标。服务器320-340可以包括服务器实体,其以与本发明原理一致的方式收集、处理、搜索和/或保存文档。客户机310和服务器320-340可以经有线、无线和/或光连接而连接到网络350。 
在与本发明原理一致的实施方式中,服务器320可以包括可由客户机310使用的搜索引擎325。服务器320可以识别文档集合(例如通过扫描或爬行)、索引文档和将与文档相关的信息存储在文档库中。服务器330和340可以存储或保存文档,例如web页面或web站点。虽然将服务器320-340图示为分立实体,但是一个或多个服务器320-340可以执行另一个或多个服务器320-340的一个或多个功能。例如,可以将两个或多个服务器320-340实施为单个服务器。还可以将单个服务器320-340实施为两个或多个分立(或者可能分布式的)设备。 
示例性的客户机/服务器结构 
图4是根据与本发明原理一致的实施方式的可对应于一个或多个 客户机310和服务器320-340的客户机或服务器实体(在下文中称作“客户机/服务器实体”)的示例图。客户机/服务器实体可以包括总线410、处理器420、主存储器430、只读存储器(ROM)440、存储设备450、输入设备460、输出设备470和通信接口480。总线410可以包括允许在客户机/服务器实体的单元之间的通信。 
处理器420可以包括常规处理器、微处理器或解释和执行指令的处理逻辑。主存储器430可以包括存储由处理器420执行的信息和指令的随机访问存储器(RAM)或另一类型的动态存储设备。ROM 440可以包括存储由处理器420使用的静态信息和指令的常规ROM设备或另一类型的静态存储设备。存储设备450可以包括磁和/或光记录介质及其对应驱动器。 
输入设备460可以包括允许操作者将信息输入给客户机/服务器实体的常规机制,例如键盘、鼠标、笔、语音识别和/或生物测定机制等。输出设备470可以包括将信息输出给操作者的常规机制,包括显示器、打印机、扬声器等。通信接口480可以包括任一收发信机类似机制,支持客户机/服务器实体与其它设备和/或系统通信。例如,通信接口480可以包括用于通过诸如网络350等网络与另一个设备或系统通信的机制。 
如下文将要详细描述的,与本发明原理一致的客户机/服务器实体可以执行某些搜索相关操作。响应于处理器420执行在诸如存储器430等计算机可读介质中包含的软件指令,客户机/服务器实体可以执行这些操作。可以将计算机可读介质定义为物理或逻辑存储设备和/或载波。 
可以将软件指令从诸如数据存储设备450等另一个计算机可读介质或者经通信接口480从另一个设备读入到存储器430中。在存储器430中包含的软件指令可以使处理器420执行随后将要描述的处理。可替代地,可以替代软件指令或者与之组合地使用硬线电路以执行与本发明原理一致的处理。因而,与本发明原理一致的实施方式并不限制于硬件电路和软件的任何特定组合。 
示例性搜索引擎 
图5是根据与本发明原理一致的实施方式的诸如搜索引擎325的搜索引擎的示例性方框图。根据一种实施方式,在下文中描述的一个或多个功能可以由服务器320的另一部分或者与服务器320分离的实体执行,例如与服务器320或服务器330或340之一相关联的计算机。 
搜索引擎325可以包括信息检索单元510和连接到存储库530的呈现单元520。存储库530可以包括物理或逻辑存储设备,它存储与由例如服务器320(图3)或与服务器320分离的实体爬行和索引的文档相关联的信息。文档信息可以包括文档中容和相关元数据。在与本发明原理一致的实施方式中,与文档相关联的元数据可以包括关于与文档相关结构单元的信息。与文档相关的特定结构单元可以由出版商提供的OCR确定,或者以其它方式获得。 
信息检索单元510可以操作用户搜索项目以识别与项目相关的文档。存在多种技术使信息检索单元510可以用于识别与一组搜索项目相关的文档。例如,当该组搜索项目包括单个搜索项目时,信息检索单元510可以识别包含该搜索项目的文档。当该组搜索项目包括多个搜索项目时,信息检索单元510可以识别包含搜索项目作为短语的文档。可替代地或者附加地,信息检索单元510可以识别包含搜索项目但是不必需在一起的文档。可替代地或者附加地,信息检索单元510可以识别包含少于全部搜索项目或者搜索项目同义词的文档。识别相关文档的其它技术是本领域技术人员公知的。 
呈现单元520可以将由信息检索单元510识别出的文档分析为与一组搜索项目相关的。例如,呈现单元520可以从与存储库530中的文档相关的元数据识别出与这些文档相关的结构单元。呈现单元520还可以确定与文档相关的命中。例如,呈现单元520可以确定该组搜索项目出现在文档中容中的位置,可能与该文档的结构单元相关地。 
在一种实施方式中,呈现单元520可以根据其物理邻近性将这些命中群集。可以根据对邻近性阈值进行群集确定物理邻近性。阈值可 以表示两个命中必须距离多近(在物理位置方面)方被群集。该阈值可以是固定的。可替代地,可以将阈值设置得与文档中的页面、文档部分和文档子部分等的数量成正比。在这种情况下,当出现命中的页面数量大于该部分中页面总数的某个百分比时,如用阈值所表示的,可以将位于文档同一部分中的页面上的命中群集在一起。此外,可以使群集相对于位于多个结构单元中的群集而更加倾向于位于单个结构单元中的群集。对于每个群集,呈现单元520可以确定包含整个群集的最小结构单元和呈现该结构单元作为搜索结果。 
图6A图示文档中的示例性命中分布以说明可以如何识别结构单元以包括在搜索结果中。如图6A所示,命中出现在页面10、12、15、16、18、139和211上。如图6A进一步图示的,页面10、12、15、16和18位于第1章中,页面139位于第5章中,和页面211位于第9章中。根据包含命中的页面的物理邻近性,可以形成三个群集:{10,12,15,16,18}、{139}和{211}。假设设置阈值以便包含整个第一群集的最小结构单元是第1章,包含整个第二群集的最小结构单元是页139,包含整个第三群集的最小结构单元是页211。因此,可以提供涉及第1章、页139和页211的信息作为搜索结果。 
在另一个实施方式中,呈现单元520可以识别文档分层结构的树型表示,其中叶节点可以代表页面,更高级别的节点可以代表部分(例如章)和根节点可以代表整个文档。呈现单元520可以识别包含命中作为可能结果的页节点。呈现单元520可以将得分1分配给包含一个命中的每个叶节点,并将得分0分配给不包含命中的每个叶节点。可替代地,分配给包含命中的叶节点的得分可以大于1。例如,得分可以是命中重要性的函数。根据在特定页面上命中的数量和/或命中在页面上出现的位置(例如在粗体文本上的命中、在较大字体文本上的命中和/或在标题相关文本上的命中可以得分更高)可以确定重要性。 
随后,得分可以在树上向上传播,其中每个节点的得分可以包括其子节点的得分之和。如果节点得分超过阈值,则可以选择该节点作为将要提供的可能的结果,先前选择的任一子节点可能被删除,并且 可以将得分0传播给其父节点。另一方面,节点可以将其全部得分向上传播给其父节点(如果存在一个的话)。阈值可以是固定的、级别特定的或者与节点相关的页面数量的函数。 
图6B图示文档中的示例性命中分布以说明可以如何识别结构单元以包括在搜索结果中。如图6B所示,命中出现在页10、12、15、20、56和100上。如图6B进一步图示的,页10、12、15和20位于第1章中,页56位于第2章中,和页100位于第3章中。每个页面将其得分向上传播给其父节点。父节点(即,章)的得分是其页面的得分之和。在这种情况下,第1章得分为4,第2章得分为1,第3章得分为1,和第N章得分为0。 
假设将阈值设置为3。在这种情况下,第1章的得分超过阈值,则选择其作为可能的结果。此后,不再包括页10、12、15和20作为可能的结果。因为已经选择第1章作为可能的结果,它将得分0传播给其父节点(即整个文档)。第2、3和N章分别具有低于阈值的得分,因此,将其得分传播给其父节点。父节点(即文档)的得分是其章节得分之和。在这种情况下,文档具有得分2,其小于阈值。因此,可以提供与第1章、页56和页100相关的信息作为搜索结果。 
示例性处理 
图7-9B是根据与本发明原理一致的实施方式的用于呈现搜索结果的示例性处理的流程图。处理可以开始于用户提供搜索项目作为搜索文档集合的搜索查询。在一种实施方式中,文档集合包括可以从因特网获得的文档,用于搜索该集合的工具是搜索引擎,例如搜索引擎325(图3)。用户可以通过在客户机,例如客户机310(图3)上的web浏览器软件提供搜索查询。 
搜索查询可以由搜索引擎接收并用于识别与搜索查询相关的文档(例如书、web站点、报纸、文章、专利或其它类型的结构文档)(动作710和720)(图7)。存在多种技术用于识别与搜索查询相关的文档。这样的一种技术可以包括识别包含搜索项目作为短语的文档。 
另一种技术可以包括识别包含搜索项目但是并不必然在一起的文档。一种技术可以包括识别包含少于全部搜索项目或搜索项目同义词的文档。其它的技术是本领域的技术人员公知的。 
可以确定命中(在文档中容中搜索项目的出现)(动作730)。例如,可以搜索文档中容以与文档结构单元相关地识别搜索项目在文档中出现的位置。例如,可以确定搜索项目出现的部分、子部分和/或页面。 
随后,可以识别要呈现的结构单元(动作740)。根据一种实施方式,根据命中出现的页面的邻近性,可以群集命中(动作810)(图8)。如上面解释的,根据对邻近性阈值群集可以确定邻近性,所述阈值例如规定将要群集的两个页面必需相邻的距离和/或是否将群集偏向结构单元(例如是否相对于位于多个结构单元中的群集更加倾向于位于单个结构单元中的群集)。对于每个群集,可以识别包含整个群集的最小结构单元,无论该结构单元是整个文档、部分、子部分或页面。 
根据另一种实施方式,可以确定文档分层结构的树型表示,其中叶节点可以代表页面,更高级别的节点可以代表部分、子部分等,和根节点可以代表整个文档(动作905)(图9A)。可以选择包含命中的叶节点作为可能的结果(动作910)。 
随后,可以将得分分配给每个叶节点(动作915)。在一种实施方式中,可以给包含命中的叶节点分配得分1,和给不包含命中的叶节点分配得分0。在另一种实施方式中,分配给包含命中的叶节点的得分可以是命中重要性的函数,如上所述。 
随后,可以将得分沿着树向上传播给父节点(动作920)。可以确定父节点的得分(动作925)。在一种实施方式中,父节点的得分可以包括其子节点的得分之和。可以比较父节点的得分与阈值。如果父节点的得分不超过阈值(动作930),则可以确定父节点本身是否具有父节点(动作935)。如果存在这样一个父节点,则该处理可以返回动作920,其中节点将其得分向上传播给其父节点。 
如果父节点的得分超过阈值(动作930),则可以选择该节点作为可能的结果(动作940)(图9B)。随后,可以从该组可能的结果中删除任一先前选择的子节点(动作945)。随后,可以确定父节点自身是否具有父节点(动作950)。如果存在这样一个父节点,则该节点可以将得分0传播给其父节点(动作955)。随后,该处理返回到动作925,其中确定父节点的得分。如果不存在其它父节点(动作935或950),则可以识别出与选定为可能的结果的节点对应的结构单元(动作960)。 
随后,可以根据每个文档的所识别的结构单元,形成搜索结果(动作750)(图7)。换句话说,与文档相关的搜索结果在一些情况下可以包括与整个文档、部分文档、文档子部分或文档中的页面相关的信息。与整个文档相关的信息可以包括文档的标题页面(或者封面)(即使在标题页面上未出现搜索项目)。与文档部分或子部分相关的信息可以包括部分或子部分的第一页面(即使在部分或子部分的第一页面上未出现搜索项目)。与文档中页面相关联的信息可以包括页面自身(或者页面的某个部分)。 
搜索结果可以被打分和根据它们的分数进行排序。可以提供搜索结果作为HTML文档,类似于由常规搜索引擎提供的搜索结果。可替代地,可以根据由搜索引擎和客户机协定的格式提供搜索结果(例如可扩展置标语言(XML))。 
图10A-10D图示对于示例性书的示例性搜索结果。图10A图示该书的封面。可以呈现该书的封面以表示确定整个书与搜索查询相关(例如“存储器”)。图10B图示该书第3章的第一页面。可以呈现该章的第一页以表示确定整章与搜索查询相关,即使如图10B所示,搜索项目“存储器”并未出现在该页面上。图10C图示该书第4章第一节。在这种情况下,搜索项目出现在该页面上。图10D图示该书的页面52。可选择地,可以以某种方式高亮显示该搜索项目以允许用户轻易地在页面文本中识别出项目。 
结论 
与本发明原理一致的系统和方法可以根据与底层文档相关的结构单元和命中在文档中的分布生成搜索结果。 
本发明优选实施例的上述描述提供说明和描述,但是并非穷举的,也不是将本发明限制为所公开的具体格式。鉴于上述教导,可以进行修改和变化,或者可以根据实施本发明获得所述修改和变化。 
例如,虽然已经参考图7-9B描述了一系列动作,在与本发明原理一致的其它实施方式中可以修改动作顺序。此外,可以并行执行非相关的动作。 
在一种实施方式中,服务器120可以执行与图7-9B的处理相关地描述的大部分动作,如果并非全部动作的话。在与本发明原理一致的另一种实施方式中,可以由另一个实体执行一个或多个或者全部动作,例如另一个服务器330和/或340或客户机。 
对于本领域的普通技术人员而言,如上所述本发明的多个方面显然可以通过在附图中图示的实施方式中软件、固件和硬件的多种不同形式来实施。用于实施与本发明原理一致的方面的实际软件代码或专用控制硬件并不限制本发明。因而,在未参考具体软件编码的情况下描述了这些方面的操作和行为,将理解本领域的普通技术人员将能够设计软件和控制硬件以执行基于在此描述的方面。 
在本发明中使用的单元、动作或指令不应当解释为本发明关键或必需的,除非具体描述如此。而且,如在此使用的,冠词“一个”将包括一个或多个项目。在期望仅一个项目的情况下,使用术语“一个”或类似语言。此外,短语“基于”将指“至少部分地基于”,除非另有明确陈述。 

Claims (24)

1.一种用于呈现搜索结果的计算机实现的方法,包括:
从客户端装置接收搜索项目;
识别与该搜索项目相关的文档,该文档包括多个结构单元;
确定搜索项目出现在该文档中的页面;
根据搜索项目出现的页面的相对位置,将位于该文档中的所述页面组成至少一个群集;
识别包括至少一个群集的结构单元之一;
呈现与识别的结构单元之一相关的信息;以及
呈现搜索结果以便显示在所述客户端装置上。
2.根据权利要求1所述的方法,其中识别文档包括:
搜索文档的集合以识别与搜索项目相关的文档。
3.根据权利要求1所述的方法,其中该文档包括书、web站点、报纸、文章或专利之一。
4.根据权利要求1所述的方法,其中确定搜索项目出现在该文档中的页面包括:
搜索文档的内容,以相对于文档的结构单元识别搜索项目出现在该文档中的页面。
5.根据权利要求4所述的方法,其中识别结构单元之一包括:
确定包含每个群集的最小一个结构单元。
6.根据权利要求1所述的方法,其中识别结构单元之一包括:
确定包含每个群集的最小一个结构单元。
7.根据权利要求6所述的方法,其中呈现信息包括:
根据与所述最小一个结构单元相关的信息,生成搜索结果。
8.根据权利要求1所述的方法,还包括:
提供规定搜索项目出现的两页面在物理邻近性上需要有多近才被群集的阈值;和
其中所述将搜索项目出现的页面组成群集基于该阈值。
9.根据权利要求8所述的方法,其中该阈值与文档中的页面数量成比例。
10.根据权利要求1所述的方法,其中将位于该文档中的页面组成至少一个群集使位于一个结构单元中的群集优先于位于多个结构单元中的群集。
11.根据权利要求1所述的方法,其中该文档是书,结构单元包括书、书的一组章节和书的一组页面。
12.根据权利要求1所述的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中当文档是识别的结构单元之一时,与识别的结构单元之一相关的信息是文档的标题页面。
13.根据权利要求1所述的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中当该部分是识别的结构单元之一时,与识别的结构单元之一相关的信息是该部分的第一页面。
14.根据权利要求1所述的方法,其中结构单元包括文档、一组文档部分和一组文档页面;和
其中当该页面是识别的结构单元之一时,与识别的结构单元之一相关的信息是该文档的页面。
15.根据权利要求1所述的方法,其中与识别的结构单元之一相关的信息包括包含搜索项目出现的页面的一部分文档。
16.根据权利要求1所述的方法,其中与识别的结构单元之一相关的信息包括并不包含搜索项目出现的页面的一部分文档。
17.根据权利要求1所述的方法,其中所述呈现与识别的结构单元之一相关的信息包括:
在与识别的结构单元之一相关的信息中可视地区别搜索项目。
18.一种用于呈现搜索结果的系统,所述系统包括:
用于从客户端装置接收搜索项目的装置;
用于获取与该搜索项目相关的文档的装置,该文档包括多个结构单元;
用于相对于结构单元识别搜索项目出现在该文档中的页面的装置;
用于根据搜索项目出现的页面的物理邻近性,将搜索项目出现在该文档中的页面组成群集的装置;
用于识别包括每个群集的结构单元之一的装置;
用于呈现与和搜索项目出现的页面之一相关的识别的结构单元之一有关的信息的装置;以及
用于呈现搜索结果以便显示在客户端装置上的装置。
19.一种用于呈现搜索结果的系统,所述系统包括:
用于识别与搜索项目相关的文档的装置,所述文档包括多个结构单元;
用于根据结构单元确定搜索项目出现在该文档中的页面的装置;
用于根据搜索项目的出现的物理邻近性,将搜索项目出现在该文档中的页面组成群集的装置;
用于确定包括每个群集的最小一个结构单元的装置;
用于根据确定的结构单元形成搜索结果的装置;以及
用于在客户端装置的显示器上呈现所述搜索结果的装置。
20.一种用于呈现搜索结果的方法,所述方法包括:
识别与搜索项目相关的文档,该文档包括多个结构单元;
确定该搜索项目出现在该文档中的页面;
根据搜索项目的出现的物理邻近性,将搜索项目出现的页面组成群集;
确定包括每个群集的最小一个结构单元;和
根据确定的结构单元形成搜索结果;以及
在客户端装置的显示器上呈现所述搜索结果。
21.根据权利要求20所述的方法,还包括:
提供规定搜索项目出现的两页面在物理邻近性上需要有多近才被群集的阈值;和
其中所述将搜索项目出现的页面组成群集基于该阈值。
22.根据权利要求21所述的方法,其中该阈值与文档中的页面数量成比例。
23.根据权利要求20所述的方法,其中所述将搜索项目出现的页面组成群集使位于一个结构单元中的群集优先于位于多个结构单元中的群集。
24.一种用于呈现搜索结果的系统,所述系统包括:
用于从客户端装置接收搜索项目的装置;
用于识别与该搜索项目相关的文档的装置,该文档包括多个结构单元;
用于识别搜索项目出现在该文档中的页面的装置;
用于根据规定搜索项目出现的两页面在物理邻近性上需要有多近才被群集的阈值,将搜索项目出现在的页面组成群集的装置;
用于确定包含每个群集的最小一个结构单元的装置;和
用于向客户端装置呈现与最小结构单元相关的信息的装置。
CN2005800399646A 2004-09-27 2005-08-19 基于文档结构的搜索结果的呈现方法和系统 Active CN101061479B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/949,708 2004-09-27
US10/949,708 US9031898B2 (en) 2004-09-27 2004-09-27 Presentation of search results based on document structure
PCT/US2005/029691 WO2006036376A1 (en) 2004-09-27 2005-08-19 Presentation of search results based on document structure

Publications (2)

Publication Number Publication Date
CN101061479A CN101061479A (zh) 2007-10-24
CN101061479B true CN101061479B (zh) 2011-06-15

Family

ID=35414787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800399646A Active CN101061479B (zh) 2004-09-27 2005-08-19 基于文档结构的搜索结果的呈现方法和系统

Country Status (9)

Country Link
US (1) US9031898B2 (zh)
EP (1) EP1800226A1 (zh)
JP (1) JP4637181B2 (zh)
KR (1) KR100957080B1 (zh)
CN (1) CN101061479B (zh)
AU (1) AU2005290154B2 (zh)
BR (1) BRPI0517356B1 (zh)
CA (1) CA2581713C (zh)
WO (1) WO2006036376A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590657B1 (en) * 2005-06-10 2009-09-15 At&T Corp. System and method for identifying hierarchical heavy hitters in a multidimensional environment
US7475071B1 (en) * 2005-11-12 2009-01-06 Google Inc. Performing a parallel nearest-neighbor matching operation using a parallel hybrid spill tree
US7506011B2 (en) * 2006-07-26 2009-03-17 International Business Machines Corporation System and apparatus for optimally trading off the replication overhead and consistency level in distributed applications
US7660804B2 (en) 2006-08-16 2010-02-09 Microsoft Corporation Joint optimization of wrapper generation and template detection
JP4801555B2 (ja) * 2006-09-29 2011-10-26 株式会社ジャストシステム 文書処理装置、文書処理方法および文書処理プログラム
JP2008146209A (ja) * 2006-12-07 2008-06-26 Just Syst Corp 文書検索装置、文書検索方法および文書検索プログラム
US8122016B1 (en) * 2007-04-24 2012-02-21 Wal-Mart Stores, Inc. Determining concepts associated with a query
US20080270381A1 (en) * 2007-04-24 2008-10-30 Interse A/S Enterprise-Wide Information Management System for Enhancing Search Queries to Improve Search Result Quality
JP2009129013A (ja) * 2007-11-20 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
JP2009129280A (ja) * 2007-11-26 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
WO2011007935A1 (ko) 2009-07-15 2011-01-20 주식회사 네오패드 홈페이지 통합 서비스 제공 시스템 및 방법
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
CN102279856B (zh) * 2010-06-09 2013-10-02 阿里巴巴集团控股有限公司 一种网站导航实现方法及系统
WO2012012916A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Selection of main content in web pages
CN102143142A (zh) * 2010-09-30 2011-08-03 华为软件技术有限公司 Ip多媒体子系统业务中订阅处理方法和资源列表服务器
CN103218719B (zh) 2012-01-19 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及系统
EP2943892A4 (en) * 2013-01-11 2016-01-27 Presse Ltée DEVICE, METHOD AND SYSTEM FOR DISPLAYING DIGITAL EDITIONS
WO2014146265A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Method and apparatus for personalized resource recommendations
CN105005562B (zh) * 2014-04-15 2018-09-21 索意互动(北京)信息技术有限公司 检索结果的显示处理方法及装置
US9858251B2 (en) 2014-08-14 2018-01-02 Rakuten Kobo Inc. Automatically generating customized annotation document from query search results and user interface thereof
US20160239161A1 (en) * 2015-02-12 2016-08-18 Kobo Incorporated Method and system for term-occurrence-based navigation of apportioned e-book content
TW201832105A (zh) * 2017-02-17 2018-09-01 雲拓科技有限公司 專利檢索之檢索關鍵字建議方法
US20190130027A1 (en) 2017-11-02 2019-05-02 International Business Machines Corporation Data classification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943669A (en) * 1996-11-25 1999-08-24 Fuji Xerox Co., Ltd. Document retrieval device
US6105044A (en) * 1991-07-19 2000-08-15 Enigma Information Systems Ltd. Data processing system and method for generating a representation for and random access rendering of electronic documents

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6819339B1 (en) * 2000-02-24 2004-11-16 Eric Morgan Dowling Web browser with multilevel functions
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
JP2002108710A (ja) * 2000-07-24 2002-04-12 Sony Corp 情報処理システム、情報処理方法、および情報処理装置、並びにプログラム提供媒体
US6678679B1 (en) * 2000-10-10 2004-01-13 Science Applications International Corporation Method and system for facilitating the refinement of data queries
US20070226640A1 (en) * 2000-11-15 2007-09-27 Holbrook David M Apparatus and methods for organizing and/or presenting data
JP3907161B2 (ja) 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
CA2358048A1 (en) * 2001-09-25 2003-03-25 Luis Rueda A cryptosystem for data security
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
ATE466345T1 (de) * 2002-01-16 2010-05-15 Elucidon Group Ltd Abruf von informationsdaten, wobei daten in bedingungen, dokumenten und dokument-corpora organisiert sind
US20040044659A1 (en) 2002-05-14 2004-03-04 Douglass Russell Judd Apparatus and method for searching and retrieving structured, semi-structured and unstructured content
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7127469B2 (en) * 2002-06-13 2006-10-24 Mark Logic Corporation XML database mixed structural-textual classification system
US7171404B2 (en) * 2002-06-13 2007-01-30 Mark Logic Corporation Parent-child query indexing for XML databases
US7383258B2 (en) * 2002-10-03 2008-06-03 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words
JP2004157628A (ja) 2002-11-05 2004-06-03 Mitsubishi Electric Corp 文書検索方法及びその装置及びそのプログラム
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US7512615B2 (en) * 2003-11-07 2009-03-31 International Business Machines Corporation Single pass workload directed clustering of XML documents
US7523109B2 (en) * 2003-12-24 2009-04-21 Microsoft Corporation Dynamic grouping of content including captive data
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
US20050177555A1 (en) * 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
WO2006012487A1 (en) * 2004-07-22 2006-02-02 Genometric Systems Llc Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6105044A (en) * 1991-07-19 2000-08-15 Enigma Information Systems Ltd. Data processing system and method for generating a representation for and random access rendering of electronic documents
US5943669A (en) * 1996-11-25 1999-08-24 Fuji Xerox Co., Ltd. Document retrieval device

Also Published As

Publication number Publication date
CA2581713C (en) 2015-12-29
AU2005290154B2 (en) 2010-09-09
CN101061479A (zh) 2007-10-24
EP1800226A1 (en) 2007-06-27
JP2008515049A (ja) 2008-05-08
JP4637181B2 (ja) 2011-02-23
KR100957080B1 (ko) 2010-05-13
US20060074907A1 (en) 2006-04-06
KR20070058685A (ko) 2007-06-08
WO2006036376A1 (en) 2006-04-06
BRPI0517356A (pt) 2008-10-07
AU2005290154A1 (en) 2006-04-06
BRPI0517356B1 (pt) 2019-09-24
US9031898B2 (en) 2015-05-12
CA2581713A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
CN101061479B (zh) 基于文档结构的搜索结果的呈现方法和系统
CN101019119B (zh) 基于名称的url输入
CN102122295B (zh) 用于执行文档搜索的方法、服务器设备和系统
JP4814575B2 (ja) 小型スクリーンコンピューティング装置にコンテンツを表示するシステムと方法
US8301616B2 (en) Search equalizer
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
CN109690528A (zh) 用于提供可视化结果列表的系统以及方法
US20130110839A1 (en) Constructing an analysis of a document
US8332208B2 (en) Information processing apparatus, information processing method, and program
JP5083669B2 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
CN101454781A (zh) 扩展的摘录
CN101303698A (zh) 信息处理设备和信息处理方法
US20080306731A1 (en) Electronic equipment equipped with dictionary function
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
JP6433270B2 (ja) コンテンツ検索結果提供システム及びコンテンツ検索結果提供方法
JP2012141681A (ja) クエリセグメント位置決定装置
JP2005063283A (ja) 文書ブラウズ装置、文書ブラウズ方法、プログラムおよび記録媒体
US20080162433A1 (en) Browsable search system
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
JP2010282403A (ja) 文書検索方法
Miller et al. Cluster-based find and replace
EP0679999A1 (en) A method and apparatus for storage and retrieval of data
JP2011123542A (ja) 電子機器及び情報表示プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: GOOGLE Inc.