CN1641646A - 基于图像文档的索引和检索 - Google Patents

基于图像文档的索引和检索 Download PDF

Info

Publication number
CN1641646A
CN1641646A CNA2005100062210A CN200510006221A CN1641646A CN 1641646 A CN1641646 A CN 1641646A CN A2005100062210 A CNA2005100062210 A CN A2005100062210A CN 200510006221 A CN200510006221 A CN 200510006221A CN 1641646 A CN1641646 A CN 1641646A
Authority
CN
China
Prior art keywords
image
document
signature
word
produced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100062210A
Other languages
English (en)
Other versions
CN100565506C (zh
Inventor
D·M·巴杰龙
P·Y·西马德
V·C·斯里瓦斯塔瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ivalley Holding Co Ltd
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1641646A publication Critical patent/CN1641646A/zh
Application granted granted Critical
Publication of CN100565506C publication Critical patent/CN100565506C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Abstract

提供了一种便于文档检索和/或索引的系统。一个组件接收文档的图像,并且一搜索组件搜索一个或多个数据存储以找出该文档图像的匹配。该匹配是在存储于数据存储中的文档图像的单词级拓扑属性来执行的。

Description

基于图像文档的索引和检索
技术领域
本发明通常涉及通过比较存储文档的索引签名和由存储文档的打印版产生的索引签名来索引和/或检索存储的电子文档。
背景技术
计算和通信技术的发展明显改变了与通过文档传送信息有关的商业行为。现在已经可以在相当长的距离上几乎瞬间地电子化传送格式化的文档了。然而,在商业和个人环境中,大量的浏览和/或编辑是在打印文档上完成的。例如,在工作环境中的会议典型地包括分发打印文档给出席的人们。而且,许多个人宁愿在纸件上阅读和/或编辑文档而不愿在计算机屏幕上阅读和/或编辑。
在需要打印大量文档的商业或个人环境中,将这些文档索引到它们各自的电子版是存在问题的。对文档的破坏,包括污点和破损,以及在打印文档上作出的注释都会使得更难于相关打印文档到它们各自的电子版。例如,文档可以在会议上被打印和分发,并且会议服务员可以根据有关会议的思想用钢笔或类似的标记工具连同文档信息一起来注释该文档。然后该文档可能在其被放在文件夹中时被以其它方式折叠、弄脏、和/或破坏并被从会议中传送到不同的地方。此后,该文档可能躺在其它文档堆里几个小时、几天、或甚至几个月。如果想查找该打印文档的电子版,就会需要相当长的时间来查找该电子版。而且,如果找不到该文档的电子版,就需要分配资源来重新录入该文档到计算机中。
其它情形还在于,基于文档(例如打印版)的物理版来查找文档的电子版是存在问题的。例如,经销商可以准备并传真购买订单草图给顾客,并且接收到该购买订单的顾客可以通过用钢笔或其它合适标记工具物理上修改该文档来修改传真文档的内容。然后,顾客可以通过传真将修改的文档传回到经销商那里。为了查找该打印文档电子版,经销商必须手动搜索整个数据库并匹配该文档的打印版到该文档的电子版。在文档的电子版和打印版之间的相关可能需要大量的时间,尤其是在创建该文档的人员不能协助匹配打印文档到其电子副本的情况下(例如,这个人休假,退休,...)。
传统纠正与索引物理文档和对应电子文档相关的问题的系统和/或方法需要用标识信息来标记打印文档。例如,文件位置可以包括在每个打印文档中(例如,在每个打印文档的头部,可以打印与对应电子版的相关提供的文件位置来查找该电子版)。可选地,可以在每个打印文档上放置唯一条形码,其中该条形码可以被用来查找该文档的电子版。例如,可以使用条形码扫扫描仪来扫描在打印文档上的条形码,并可以基于该扫描来检索该文档的对应电子版。然而,由于这种信息弄乱了文档,因此这种标识信息在美学观点上是令人不愉快的。而且,对打印文档的破损、弄脏、注释或其它物理破坏/改变都会导致这些传统系统和或方法基本上无用。例如,如果条形码的一部分被从打印文档上撕去,那么条形码扫描仪就不能正确读取该条形码。类似地,文档上的污迹也会导致文档电子版的打印位置不可读。也可以使用光字符标识(OCR)来基于打印版查找文档的电子版。例如,打印文档可以被数字化(例如,通过扫描仪、数码相机,...),并且,计算组件可以使用OCR来标识在数码打印文档中的特定字符并匹配这些字符到在打印文档的电子版中的对应字符。然而,这种技术需要大量的计算资源。而且,数据库可能包括几百或几千个文档,并且在多个文档上进行OCR将花费大量的时间。其它用来基于打印文档查找文档的电子版的应用使用了关键词(例如,修改的数据或其它关键词)来查找电子版。然而,获得关键词是很困难的,并且包括这些关键词的文档可能是多个。
至少考虑到上面的问题,在技术上强烈需求一种能够强健索引电子文档和对应物理文档的系统和/或方法,以及能够基于文档的打印版以及与电子文档相关的信息(例如,数据库记录、工作流,...)检索电子文档的系统和/或方法。
发明内容
下面给出了本发明的简化概述以便提供对本发明某些方面的基本理解。该概述并不是本发明的详尽综述。目的不在于标识本发明的关键或决定性元素,也不在于描绘本发明的范围。其唯一目的在于以简化的形式显示本发明的某些概念作为后面显示的更详细描述的序言。
本发明便于通过比较与存储文档相关的签名和与对应于该存储文档的打印文档图像相关的签名来索引和/或检索所存储的电子文档。本发明使用文档的单词级拓扑属性来产生签名,从而能够方便强健地完成存储文档的检索,而不会有与传统系统和/或方法相关的低效率。标识存储的电子文档的签名是通过获取与在每个文档中的单词布局相关的数据来产生的。应该理解,签名可以以这样一种方式生成,该方式既使在存在噪声(例如打印噪声)时也能使签名能够标识文档。从而,由于这些签名与对文档高度专用的特征相关,所以,每个签名可以强健地标识特定的文档。例如,由于两个不同文档具有基本上相似的单词布局模式的可能性是极其小的,因此可以使用文档中的单词的至少一部分的位置以及文档中的单词的宽度来创建强健地标识文档的签名。根据本发明的一个方面,在加载包含对应于打印文档的电子文档图像的一个或多个数据存储时产生这些签名。例如,这些数据存储可以在接收到请求时被加载(并产生签名),以基于打印文档的图像查找特定电子文档。使用打印文档图像的单词布局的签名是在接收到图像时产生的,然后可以将这些签名与和电子文档相关的签名(例如,通过使用存储的电子文档产生的签名)进行比较。然后可以检索与最大程度上匹配打印文档图像签名的签名相关的电子文档。
根据本发明的一个方面,可以自动产生文档的图像,并可以产生与图像相关的签名,并在打印文档时将其存储在数据存储中。这就保证了对于每个打印文档,在指定的数据存储中存在与该文档的存储的电子版相关的签名。从而可以创建文档,并可以在打印文档时自动产生位图(或其它合适的图像格式)。在产生电子文档的图像时可以产生标识该文档的签名,并将其存储在数据存储中。之后,可修改并再次打印该文档,从而自动产生和存储与修改文档相关的签名,而无需改变与原文档相关的签名。接着可以比较代表电子文档单词布局的签名和后来所捕捉的打印文档图像的签名,从而可以检索与最大程度上匹配后来捕捉的图像签名的签名相关的文档的电子版。
然而,当打印文档包含多个注释、污点、折叠、和其它物理修改时,在匹配打印文档和该文档的电子版时会出现困难。因此,本发明在使用文档单词布局来产生签名之前查找并移除这种物理修改。在本发明中提供了用来移除注释、标记、和其它噪声的过滤器。而且,可以产生打印文档捕捉图像的灰度级图像来减少噪声。例如,对于给定的一个特定照明,具有白色背景和黑色字体的文档图像可以显示为具有黄色背景和绿色字体。灰度级图像可以有效减轻当图像没有包括合适色彩时产生的问题。
根据本发明的另一方面,电子文档的签名和/或打印文档图像的签名可以包括在获得打印文档图像时产生的旋转和/或平移的阈值容限。例如,打印文档可能不在扫描仪中被精确地对齐(例如,可以相对于图像边界来平移和/或旋转文档的图像)。如果不考虑这种误差,那么打印文档图像的签名就基本上不可能匹配对应电子文档的签名。因此,考虑在捕捉打印文档图像时产生的误差保证了对应电子文档可以被查找和检索到。
本发明还解决了与比较电子文档的许多签名和打印文档的图像的签名所需的时间量相关而产生的问题。例如,如果数据存储包括成千上万的文档或图像文档,那么就需要比期望的时间量更大的时间量来完全比较与文档或图像相关的签名。为了减轻这些问题,本发明提供了一种快速减少考虑的电子文档签名数量的系统和/或方法。可以产生文档的树形表示,其中树形表示是基于图像的特定片断是否包括一个或多个单词的图像的分层表示。例如,图像可以被划分成多个片断,并可将可以被使用来告知比较组件这些片断是否包括一个或多个单词的一个值与这些片断相关联。此后,这些片断自身可以被划分成多个片断,并且,每个片断可以与用来告知比较组件这些片断是否包括一个或多个单词的值相关。此后,可以将与打印文档的图像相关的树形表示与和多个文档的电子版相关的树形表示进行比较。这些树形表示不比签名复杂,并可以被用来快速减少签名的数量,这些签名仍在关于至少部分基于打印文档的捕捉图像查找文档的电子版的考虑之中。
根据本发明的另一个方面,电子文档的签名可以被划分成多个片断,并且打印文档的图像签名可以被类似地划分。此后,比较所存储电子文档的签名片断和与打印文档相关的图像签名的对应片断。根据本发明的一个方面,这些签名可以是散列表,并且,如果所比较的片断具有一个匹配(或阈值数量的匹配),那么保存整个散列表以供进一步的考虑。这样,片断的每一行并不都需要比较,而是整个散列表的少得多的每一行。其片断不具有与同打印文档相关的散列表的对应片断的一个匹配或阈值数量的匹配的电子文档的散列表被从考虑中丢弃。当考虑中的散列表的数量达到阈值时,就完成了在剩余散列表和与打印文档相关的散列表之间的更彻底比较。可以为剩余的每个散列表产生置信度得分(例如,可以为每个匹配行给予一个点数,并相加总点数),并且如果一个或多个散列表的置信度得分超过阈值,那么可以通过超链接、URL或其它合适的方法向用户返回与具有最高置信度得分的散列表相关的文档的电子版。如果没有剩余具有超过阈值的置信度得分的散列表,那么就可以为不同片断或片断的组合重新考虑丢弃的散列表。虽然上面的例子陈述可以将散列表用作签名,但是应该明白,可以被存储并用作电子文档的签名的任何数据结构都可以用于本发明。
为了实现前述和相关的目的,本发明包括此后在权利要求书中充分描述和特别指出的特征。下面的描述和附图详细阐述了本发明的某些说明性方面。然而,这些方面仅仅指示了可以使用本发明原理的各种方式中一些,并且本发明旨在包括所有这种方面及其等效方面。从下面考虑附图的本发明的详细描述中,本发明的其它目的、优点和新颖特征将变得更明显。
附图说明
图1是根据本发明的一个方面便于索引和/或检索电子文档的系统的框图。
图2是根据本发明的一个方面便于索引和/或检索电子文档的系统的框图。
图3是显示根据本发明的一个方面便于索引和/或检索电子文档的方法的表示性流程图。
图4是根据本发明的一个方面便于索引和/或检索电子文档的系统框图。
图5显示了根据本发明一个方面图像分辨率改变的示例。
图6显示了根据本发明一个方面定义单词位置和宽度并在这种定义中提供误差容限。
图7是根据本发明一个方面包括单词布局的示例性图像。
图8是可以与本发明结合使用的示例性散列表。
图9是图8散列表的三维图。
图10是根据本发明一个方面包括多个注释的示例性文档。
图11是根据本发明在过滤存在于文档中的噪声时的图10的文档。
图12是显示根据本发明的一个方面用来产生存储图像的签名方法的表示性流程图。
图13是显示根据本发明的一个方面用来产生打印文档的电子图像签名方法的表示性流程图。
图14显示了根据本发明一个方面的图像片断。
图15是显示根据本发明一个方面的文档图像的示例树形表示的高级框图。
图16是显示根据本发明一个方面用来比较签名的方法的表示性流程图。
图17是可以与本发明结合使用的示例性数据存储。
图18显示了本发明可以在其中起作用的示例性操作环境。
图19是与可以与本发明交互的抽样计算环境的示意框图。
具体实施方式
现在参考附图描述本发明,其中相同的参考标记都用来指代相同的部件。在下面的描述中,为了解释性的目的,阐述多个具体细节以便提供对本发明的彻底理解。然而,很明显,本发明也可以不使用这些特定细节来实施。在其它情况下,已知结构和设备以框图形式来显示以便于描述本发明。
当在本申请中使用时,术语“组件”“处理程序”“模型”“系统”等都旨在指代计算机相关的实体、硬件、硬件和软件的组合、软件或运行中的软件。例如,组件可以是运行在处理器上的处理、处理器、对象、一个可执行文件、执行线程、程序和/或计算机,但并不局限于此。作为示例,可以将运行在服务器上的应用程序和服务器作为这种组件。一个或多个组件可以存在于处理和/或执行线程中,并且组件可以位于一个计算机上和/或分布在两个或多个计算机之间。而且,这些组件可以从在其上存储有各种数据结构的各种计算机可读介质来执行。这些组件可以通过本地和/或远程处理来进行通信,例如根据具有一个或多个数据分组的信号(例如,来自一个组件的数据通过信号与本地系统、分布系统中的其它组件交互操作,和/或通过诸如因特网的网络与其它系统交互操作)。
现在转向图1,显示了至少部分基于打印文档的数字化图像来便于指定索引和/或检索电子版的系统100。应该明白,这种电子文档可以来源于文字处理器或其它类型的输入应用程序,或可选地来源于钢笔和触摸屏。系统100能够通过使用显示于文档中单词的拓扑属性匹配打印文档和该文档的电子版。系统100包括缓存组件102,其便于产生驻留在数据存储104中的电子文档的图像103。文档的电子版图像103被存储在数据存储104中以便能够以后检索这些图像以及其它相关数据(例如,文档的电子版,标识文档的电子版位置的链接URL,树形表示(在下文中具体描述),...)。例如,缓存组件102可以是当用户打印文档时用来自动产生该文档的电子图像103,然后将该文档的电子版图像103传递到数据存储204中。这样,基本上是在打印文档的相同时刻,通过缓存组件102产生该文档的位图(或其它合适的文件格式),并将该文档的电子版图像104和/或其它相关信息存储在数据存储104中。根据本发明的另一个方面,可以提供用户接口以便能够使用户选择要产生图像的特定文档。例如,可以提供能够使用户锁定在缓存组件102的指定图像所产生的特征上和/或脱离该特征的组件(例如,类似于“打印到文件”的打印选项)。
从而,数据存储104将包括多个电子文档图像103,其中电子文档的每个图像对应于先前已经被打印的文档106的至少一部分。例如,每个图像103可以对应于文档106的单个页。在打印文档106不包含用来告知用户该打印文档106的标识的清楚信息的情况中,可以使用系统100来在数据存储104中查找对应的一个或多个图像103。例如,打印文档106可能在会议上被分发,并且参加会议的人可能希望查找该文档的电子版来添加修改。类似地,用户可能已经在打印文档106上作出了各种注释,并可能仅仅希望获得不包括这些注释的文档106的电子版。打印文档106的数字图像108可以通过扫描仪、数码相机、或其它合适的设备来获得。在接收到该数字图像108时,搜索组件110搜索数据存储104来查找打印文档106的对应电子版图像103。
搜索组件110包括接收通过缓存组件102产生的图像103并便于创建与通过缓存组件102产生的每个电子图像103相关的一个或多个签名114的签名产生组件112。签名产生组件112还接收数字图像108并产生与之相关的签名116。根据本发明的一个方面,当电子文档的图像103被存储在数据存储104中时,签名产生组件112可以产生它们的一个或多个签名(例如,缓存组件102可以在将图像103转发到数据存储104中基本上相同的时刻将数字图像103转发到签名产生组件112)。由于签名114可以预先产生并且不需要产生签名114的处理时间,因此,这种实施方式具有减少搜索数据存储104所需时间的优点。根据本发明的另一个方面,签名产生组件112可以在数据存储104被加载时产生签名114。由于无需为存储图像103的签名114持续不断地分配内存,所以这种示例性实施方式可以保留数据存储104中的存储空间。从前述的示例性实施例中,应该明白,在通过缓存组件102接收到图像时的任何合适时间都可以使用签名产生组件112来产生电子文档图像103的签名114,并且上述示例性实施例不是想要限制本发明的范围。
签名产生组件112至少部分基于在电子文档图像103内的单词的拓扑属性来产生在数据存储104内的电子文档图像103的签名114。例如,可以使用单词的几何图形来产生包括这些单词的文档的签名。由于单词在低分辨率情况下与不同单词不会产生冲突,所以基于单词拓扑属性产生签名114相对于传统系统来说是一个进步(既使个别字符在低分辨率的情况下很可能被归并)。而且,与字符属性相比,基于单词拓扑属性产生签名114所需的时间更少,同时通过使用本发明所获得的方便性提高并没有抵消精确度。由于不同文档具有基本上相同单词布局的可能性相当小,因此并不会负面影响精确度。
可以通过扩张通过缓存组件102产生的电子图像103来获得电子文档图像103中单词的拓扑属性,从而,使得合并单词字符不会使得不同的单词产生冲突。例如,图像103的分辨率可以被改变指定单词的各个字符相互连接。更特定来说,所产生的图像可以被二元化,并可以计算在单词内的连接组件。此后,该连接组件被放大来合并在单词内的字符。根据本发明的一个方面,在放大通过缓存组件102产生的图像时,基于在图像103中所产生的单词块的几何属性产生签名114。例如,图像103的像素可以被视为X-Y坐标,并且单词的位置可以基于这些坐标(像素)来定义。为了减少签名产生组件112产生签名114所需的处理时间,在图像中的单词位置可以通过该单词的特定几何位置由X-Y坐标来定义。例如,每个单词的位置可以由在单词的特定角落处的X-Y位置来定义(例如,X-Y位置可以被定义为每个单词的左上角)。也可以使用单词的宽度来进一步定义不同文档的单词布局。因此,根据本发明的一个方面,签名产生组件112可以至少部分地基于在图像103内单词的X和Y坐标和单词的宽度W来定义单词的布局。更具体来说,签名产生组件112可以通过使用在电子文档图像103中的单词X、Y和W坐标来为数据存储104内的电子文档的每个图像103产生散列表。然而,应该明白,可以使用签名产生组件112来产生能够被用来区分不同图像和/或搜索和检索基本上与打印文档106相同的图像的任何合适的签名114。
根据本发明的另一个方面,签名产生组件112可以解决在数据存储104中产生电子文档图像103的签名114时发生的误差。例如,如果打印文档106被数码相机扫描或拍摄,那么所产生的图像108可以根据在数据存储104中的文档106的对应电子图像被平移和/或旋转。为了描述签名产生组件112考虑平移和/或旋转误差的一个示例性方式,可以在使用X、Y和W坐标产生签名114时考虑误差的阈值量。更具体来说,可以使用阵列[X+c,X-c]、[Y+d,Y-d]和[W+e,W-e]来产生签名,其中X和Y显示了单词至少一部分的位置,W是单词的宽度,c是单词宽度的误差容限。这样,在阵列内的任何组合值都指示单词的位置和宽度(例如,(X+c,Y-d,W+e))可以指示具有实际位置和宽度(X,Y,W)的单词的位置和宽度)。从而,签名产生组件112可以使用单词级拓扑属性来产生存储在数据存储104中的电子文档图像103的签名114,同时考虑在获取打印文档106的数字图像108中产生的可能误差。根据本发明的另一个方面,可以使用预处理技术来减轻在数字图像108中固有的平移和/或旋转。更具体来说,可以通过确定所有单词的中心(例如,连接组件)来减轻平移,并可以通过投影连接组件直到熵减少到足够小来定位所需的水平方向。而且,可以在180度完成水平方向上的匹配来进一步限制旋转和/或平移误差。
签名产生组件112可以与产生签名114基本上相同的方式创建打印文档106的数字图像108的签名116。如果需要可以改变数字图像108的分辨率来使签名产生组件112能够获得数字图像108的单词级拓扑属性。例如,数字图像108的分辨率可以被改变并且在数字图像108内的单词的特定部分(例如,左上角)的位置可以定义为X和Y坐标。接着可以使用单词的宽度W来进一步定义该单词。这样,在数字图像108中的每个图像可以存在X,Y和W值,并且签名产生组件112可以至少部分地基于单词在数字图像108内的X、Y和W值创建图像108的签名。由于前面已经考虑了在通过缓存组件102产生的图像签名114中可能的平移和/或旋转误差,因此就没必要进一步考虑在签名116中的这些误差了。然而,本发明企图考虑在签名114和116中的可能误差,考虑在签名114或签名116中误差,而不考虑在签名114或116中的错误。根据本发明的另一个方面,可以产生旋转文档的签名,并存储在数据存储104中。例如,当与电子文档的图像103相关的签名被产生并存储时,签名产生组件112可以产生该文档是否被旋转和/或平移的签名。
在签名114和116被签名产生组件112创建后,与在数据存储104内存储的电子文档相关的其中一个签名114的至少一部分应该基本上匹配于与打印文档106的数字图像108相关的签名116。搜索组件110包括接收签名116和一个或多个签名114并比较签名116和一个或多个签名114的比较组件108。例如,如果签名114和116是散列表,那么比较组件118就可以计数在对应于缓存图像的散列表条目和对应于数字图像108的散列表之间的匹配次数。接着,比较组件118可以将与具有最大数量匹配的签名114相关的电子文档返回到签名116。可选地,比较组件118可以返回与在签名116的特定部分具有最大匹配百分比的签名114相关的文档(例如,部分打印文档106可能被撕破,并且在签名部分之间的匹配百分比可以代表最好的文档)。而且,如果在签名114中没有足够的信息,那么比较组件118可以告知用户缺少足够信息。
根据本发明的一个特定方面,比较组件118可以对签名114和签名116执行多层比较。这种多层搜索在数据存储104中存储了大量电子文档图像的时候是很有益的。例如,只有部分签名114可以与签名116的基本上相同部分进行比较。如果在签名114和116之间的这些部分之间存在匹配,那么那些签名114就被保持来作进一步考虑。在这些部分内没有匹配116的签名114被排除在考虑之外。此后,可以比较签名114的更小部分和签名116的基本上相同的部分,并且包含匹配于在其小部分内的签名116的任何签名114将被考虑,而那些不包含匹配于签名116的签名114将被排除在外。签名114和116的划分可以重复直到达到阈值数量的签名114。此后,比较组件118可以确定剩余签名114中的哪一个包含匹配于签名116的最高数量和/或最高百分比。根据本发明的另一个方面,与具有匹配于签名116的最高数量和/或最高百分比的签名114相关的电子文档被返回给用户。例如,在文档打印时存在的文档的电子版被返回给用户。而且,URL和/或返回路径可以被提供给用户来使该用户能够获得在文档被打印时存在的文档的电子版。
根据本发明的一个方面,可以使用数据存储104来至少暂时存储电子文档图像103和与图像103相关的其它数据。例如,该数据存储104在原理上可以是关系数据库,其中与用户打印的页相关的页图像可以被考虑作为主要实体。此后,多个不同的数据可以与图像103相关,例如,图像114的签名,图像103的树形结构表示(下文进行描述),标识对应于其中一个图像103的文档的电子版位置的URL,在对应图像103被打印时存在的文档电子版(例如,在该文档已经被修改的情况中可能是想要的),和其它合适的信息。然而,其它实施例也是本发明所预料到的,并落入了在此所附权利要求书的范围内。例如,存储空间可能是非常珍贵的,并且永久性地存储每个打印页的电子图像是很昂贵的。在这种情况下,可以产生电子图像103并暂时存储来产生签名114。然后,签名114可以作为主要实体并与URL或其它可以被用来获取该文档的电子版(或文档的图像)的信息相关。
现在转向图2,显示了便于至少部分地基于后来所获取的打印文档自动索引和/或检索存在于文档被打印时的打印文档的电子版。系统200包括缓存组件202,其自动产生电子文档的电子图像204并将图像204转发到数据存储206。根据本发明的一个方面,缓存组件202可以产生文档的数字图像204并在与打印文档基本上相同的时刻存储图像204。从而,每个打印文档的至少部分(例如,每个打印文档的每一页)可以在数据存储206中具有相关图像204。缓存组件202还可以产生存储在数据存储206或计算机内的其它存储位置中的每个电子文档的数字图像204。还可以使用人工智能组件208与缓存组件202结合来确定哪一个电子文档具有通过缓存组件202产生的该文档的图像103。例如,人工智能组件208可以推断哪一个电子文档应该具有与其所产生的图像相关的图像。
当在此使用时,术语“推断”通常指的是推理或推断系统、环境和/或来自通过事件和/或数据捕捉的一组观测的用户。可以使用推断来标识特定内容或动作,或可以产生例如在状态上的可能性分布。推断可以是随机的——即,在基于数据和事件考虑的相关状态上的可能性分布计算。推断还可以指的是处理来自一组事件和/或数据的高级事件所使用的技术。这种推断导致了来自一组观测事件和/或存储事件数据的新事件或动作的构建,无论这些事件在临时接近程度上是否相关,和无论这些事件和数据是来自一个或多个事件和数据源。可以使用各种分类方案和/或系统(例如,支持向量机器,神经网络,专家系统,贝叶斯信念网络,模糊逻辑,数据融合引擎...)来执行在本发明主题中的自动和/或推理操作。
例如,人工智能组件208可以在时间上监视用户“学会”哪些文档被典型地由给予特定用户状态和上下关系的用户所缓存。具体来说,人工智能组件208可以推断用户只是希望产生以特定程序(例如,Microsoft Word)创建和/或保存文档的图像。在另一个例子中,人工智能组件208可以“学会”用户只是希望产生在特定时间和/或日期打印文档的图像,或者用户只是希望产生具有特定命名惯例的文档图像。这样,人工智能组件208可以减少在数据存储206中所需的存储空间量,并减少搜索数据存储206所需的时间(例如,由于存在较少的要搜索的电子文档的图像204)。
提供搜索组件210以便于搜索数据存储206来寻找基本上类似于打印文档214的数字图像212的电子文档图像204。搜索组件210包括接收所产生的图像并创建所产生图像的签名218,以及接收打印文档214的数字图像212并产生与之相关的签名220的签名产生组件216。签名218和220是基于单词级拓扑属性产生的。例如,通过缓存组件产生的图像204和数字图像212的分辨率可以被改变以使单词的字符合并,而不会使不同单词合并。此后,每个单词可以通过每个单词在图像中的X-Y坐标和每个单词的宽度来标识。这些坐标可以被签名产生组件216使用来产生与在数据存储206中的电子文档的每个图像204相关的签名,和基本上类似于与其中一个电子文档图像204相关签名的签名220。而且,签名218和/或签名220能够考虑在数字化打印文档214时产生的平移和/或旋转误差。签名产生组件216还可以前面提到的坐标和宽度与一个或多个函数结合来产生担当签名218和/或220的散列表。
根据本发明的另一个方面,人工智能组件208可以与签名产生组件216结合操作来确定缓存组件216为其在数据存储206中存储图像204和签名产生组件216为其产生签名218的特定电子文档。例如,对于一个给定的特定用户状态和上下文关系,人工智能组件208可以推断只有打印电子文档的子集具有所存储的对应图像204和所产生的签名。更具体来说,用户可以典型地尝试索引和/或检索在特定处理程序中产生的电子文档。这样,人工智能组件208就可以通知缓存组件202和签名产生组件216只处理在该处理程序中创建的电子文档。
在签名产生组件216产生签名之后,比较组件222接收签名218和220并比较与电子文档的图像204相关的签名218和数字图像212的签名220。来自基本上匹配于数字图像212的签名220的签名218的签名被比较组件222查找,并将对应于该签名的电子文档返回给用户。例如,比较组件222通过比较对应的签名218和220来查找在数据存储206中最可能匹配于打印文档214的数字图像212的电子文档图像204。然后,可以获取与最可能匹配图像204相关的URL和/或其它信息并返回给用户。告知用户文档的电子版的位置的URL和/或其它信息可以在文档的电子版没有存储在数据存储206中的情况期间返回给用户。在文档的电子版存储在数据存储206中的情况下这些文档可以直接被转发到用户。根据本发明的一个方面,比较组件222可以采用多层比较技术来查找最基本上匹配签名220的签名218的签名。例如,只有签名218的部分可以被与签名220的基本上相似的部分进行比较。签名218和222的越来越小的部分可以被比较直到签名218的阈值数保持在考虑之中。此后,签名218的剩余子集可以全面与签名220进行比较。可选地,签名218的剩余子集可以被相对于签名220随机抽查(例如,签名218的剩余子集的随机部分可以与签名220的基本上相似的随机部分进行比较)。
现在参考图3,显示了至少部分基于打印文档的数字图像自动索引和/或检索存储电子文档的方法300。虽然为了简单解释的目的,方法300被显示和描述为一系列动作,但是应该明白和理解到,本发明并不被动作的顺序所限制,根据本发明,某些动作可以不同的顺序和/或与其它来自在此所显示和描述其它动作共同来发生。例如,本领域技术人员将明白并理解到,方法可以可选地被显示为一系列内部相关的事件或动作,例如,在状态图中。而且,并不是所有显示的动作都被需要来实现根据本发明的方法。
在302,打印文档的硬拷贝。在304,产生打印文档至少部分的图像。例如,对于具有N页的文档,可以产生N个图像,其中每一页具有与之相关的图像。根据本发明的一个方面,在文档被打印时,可以使用打印驱动器来自动产生文档的图像(例如,类似于打印到文件的选项)。而且,在文档被打印之前可以产生每个电子文档的图像并存储起来。从而,对于任何要打印的文档,将在数据存储中存有对应的电子图像。在305,创建打印文档的数字图像。例如,可以使用数码相机或扫描仪来产生打印文档的数字图像。在306,所产生数字图像的分辨率和通过数码相机或扫描仪获得的打印文档的数字图像的分辨率被改变来便于使用单词级拓扑属性匹配打印文档的数字图像和在输出存储内的其中一个电子文档图像。例如,这些图像可以被放大,从而使各个字符合并在一起而不会使不同的单词连接起来。如果通过数码相机或扫描仪捕捉的图像的分辨率具有足够低的分辨率,那么就不需要作分辨率调整了。
在308,为存储在数据存储中的每个产生图像产生签名,其中这些签名使用图像单词布局来保证这些签名的是唯一的。例如,每个单词的特定部分的位置(例如一个角)可以由单词的该部分的X-Y坐标来定义。而且。单词的宽度也可以被使用来进一步定义每个文档的单词布局。由于两个不同文档具有相同单词布局的可能性基本上很小,因此,可以有效使用定义单词布局的X、Y和宽度值来产生标识每个文档的签名。根据本发明的一个方面,所产生的签名可以是散列表。由于尺寸的灵活性和用户的能力,所以散列表是可以用来在匹配速度和匹配的强健程度之间确定一个有效的折中。而且,可以定义误差阈值量,并且所产生的签名可以考虑这些误差。例如,当捕捉打印文档的数码图像时(例如,用数码相机拍摄文档),可能会发生平移和/或旋转误差。考虑这些在捕捉的文档的签名中的可能的误差保证了这些误差不会阻止在基本上匹配打印文档的数字图像的数据存储中查找特定图像。
在310,产生打印文档的图像签名。这样的签名是以与在步骤308产生所存储图像的签名基本上类似的方式产生的。这种在签名产生上的一致性提供了在签名产生和/或签名匹配上的最佳效率。例如,如果存储图像的签名是散列表,那么数字图像的签名也可以是能够在这些散列表之间进行比较的散列表。而且,由于在存储图像的签名中已经考虑平移和/或旋转误差,因此在打印文档的数字图像的签名中再考虑这些误差的是不值得的。
在312,在308和310分别产生的签名被比较来确定最接近匹配打印文档的数字图像的签名的电子文档的签名。例如,如果这些签名是散列表,那么与打印文档的图像相关的散列表的条目可以被与存储图像相关的每个散列表的每个条目进行比较。然后,可以使用具有最高数量匹配于打印文档的数字图像的散列表的存储图像的散列表来将与该散列表相关的电子文档返回给用户。更具体来说,最接近地匹配打印文档的捕捉后图像的电子文档的存储图像可以通过比较它们的签名来查找。此后,可以获得标识电子文档位置的URL或其它合适机制并返回给用户。然而,如果在数据存储中存储有很多图像(从而有很多与所存在的这些图像相关的签名),那么在散列表中一行一行地进行匹配可能需要相当长的时间。因此,根据本发明另一个方面,可以将打印文档的数字图像签名部分和与在数据存储中的电子文档图像相关的签名的基本上类似的部分进行比较。此后,具有与在该部分内打印文档的数字图像的签名的一个或多个匹配的电子文档图像的任何签名被保持来作进一步的考虑,同时没有与打印文档数字图像签名匹配的存储图像的签名不再被考虑。然后,可以以基本上类似的方式重复比较签名的更小部分来有效减少考虑的签名的数量,直到达到签名的预定阈值数量。这些剩余的签名可以被彻底与打印文档的数字图像的签名进行比较。
而且,可以使用排除搜索来基于文档的打印版加快查找打印文档的电子版。例如,可以对应于从电子文档产生的图像以及打印文档的捕捉图像来产生树形表示。更具体来说,每个图像(所产生和存储的图像或捕捉的图像)可以被划分成离散数量的片断。此后,可向包括单词的每个片断分配一个值(例如,1),而向不包括单词的每个片断分配不同值(例如,0)。每个片断可以被进一步划分成更小的片断,并且包括单词的每个片断再次被分配给一个值,而不包括单词的每个片断可以被分配给一个不同的值。每个片断可以被进一步划分,直到创建了所需数量的片断,其中每个片断被依赖于在片断内是否存在单词来被分配给一个值。从而,产生层级结构,其中每个片断与在层级结构中的一个特定层相关。例如,整个文档将处于该层级结构的顶部,第一片断与该层级结构的第二层相关,第二片断与该层级结构的第三层相关,等等。该树形表示可以与图像相关的签名产生基本上相同时刻来产生和存储。在比较签名之前,与电子文档相关的树形表示和打印文档的捕捉图像可以被比较来迅速丢弃不能匹配打印文档图像的电子文档的存储图像。例如,如果捕捉图像的片断包括单词,而所产生/存储图像的对应片断包括单词,那么所产生/存储的图像可以在进一步的考虑中丢弃。然而,应该明白,由于例如,打印文档有可能被部分撕破,并且仍然包括单词的片断由于这种撕破而在捕捉图像中反映不出来,所以当产生/存储的图像片断包括单词并且捕捉图像的对应片断不包括单词时,不丢弃所产生/存储的图像。通过图像(产生和捕捉的)的树形表示,可以减少要考虑比较的签名数量,从而减少了基于文档的捕捉图像查找电子文档所需的时间。
在314,进行有关在存储在数据存储中的签名的至少一个子集和与打印文档的数字图像相关的签名之间的匹配置信度的确定。如果存在高的置信度匹配,那么对应于匹配签名的电子文档在316返回给用户。更具体来说,最接近地匹配打印文档的捕捉后图像的电子文档的存储图像可以通过比较它们的签名来查找。此后,可以获得标识电子文档位置的URL或其它合适机制,并返回给用户。如果不存在处于阈值置信度之上的匹配,那么在318就进行有关是否使用了多层比较方法来比较文档的确定。如果多层比较还没有被使用,那么在320,用户就被告知不存在高置信度匹配。如果使用了多层比较方法,那么在322就作出有关与在数据存储中的电子文档的图像相关签名的每一部分是否已经与打印文档的图像的签名的每个有效部分进行了比较的确定。打印文档的图像签名可以包含无效的部分(例如,在由于物理损坏和/或噪声移除而产生的在签名中的空隙),因而,比较这些无效部分和与电子文档的图像相关的签名是没有益处的。如果每一个部分都被检查,那么在320,用户将被告知不存在高置信度匹配。否则,在324,可以使用签名的不同部分比较签名来保证不存在实质上的匹配。如果在打印时打印文档的部分已经被撕破,那么这种方法是很有效的,其能够使打印文档签名的至少一部分基本上不会匹配与打印文档的电子版图像相关的签名的对应部分。这样,可以选择签名的不同部分来在比较签名时保持有效,而不会需要相当长的时间来比较这些签名。接着在312,打印文档图像签名的不同部分和与电子文档的图像相关的签名的对应部分进行比较。如果发现高置信度匹配,那么在316,对应于具有最高置信度匹配于打印文档的图像签名的电子文档就被返回到用户。更具体来说,最接近地匹配于打印文档的捕捉后图像的电子文档的存储图像可以通过比较它们的签名来查找。此后,可以获得标识电子文档的位置的URL或其它合适的机制,并返给用户。
现在参考图4,显示了至少部分基于打印文档的捕捉图像便于自动索引和/或检索打印文档的图像的系统400。系统400包括自动产生电子文档的至少部分的图像404的缓存组件402。例如,可以为电子文档的每一页产生图像404,并随后存储在数据存储406中。根据本发明的一个方面,当打印文档时,缓存组件402产生并存储电子文档至少一部分的图像。这样,对于打印文档的每一页,将产生文档的该页的对应图像404,并至少暂时地被存储起来。文档404的电子版的图像404被存储在数据存储406中。可以使用数码相机、扫描仪或其它合适的机制来创建打印文档至少部分(例如,一页)的电子图像410。降噪组件412接收电子图像410,并用来减少不希望的标记和其它存在于电子图像410中的噪声。降噪组件412与用来移除没有存在于对应电子文档的图像404内的不希望的标记的过滤器414相关联。例如,过滤器414可以有助于移除下划线、灰色标记、和其它类似注释。相似地,过滤器414可以在电子图像410中搜索特定的颜色并移除该颜色的字体和/或标记。降噪组件412还可以包括自动调整文档的颜色来有助于降噪的灰度级组件416。例如,可以在黄色纸上打印文档,同时该文档的图像404具有白色背景。这样,灰度级组件416可以改变图像410的颜色来保证它们与存储的图像404一致。
在噪声已经被通过降噪组件412从电子图像410中减少之后,搜索组件418可以使用该电子图像410来搜索数据存储406并查找基本上匹配电子图像410(并从而基本上匹配打印文档408)的电子文档的其中一个图像404。搜索组件418包括接收通过缓存组件402产生的图像404并创建与之相关的签名422的签名产生组件422,其中电子文档的每个图像404与标识该图像404签名422相关。签名422是基于在所产生的图像404内的单词布局而产生的。例如,在通过缓存组件422产生的图像404中的每个单词的位置和宽度可以被签名产生组件420利用来产生签名422。签名产生组件420还接收打印文档408的电子图像410并产生与之相关的签名424。这样,如果不存在对打印文档相当大的破坏,那么签名424的至少部分就基本上匹配与在数据存储406中的电子文档的图像404相关的其中一个签名422的至少对应部分。根据本发明的一个方面,签名产生组件420可以考虑在获得打印文档408的电子图像410时可能发生的平移和/或旋转误差。一旦产生了签名424和422,与搜索组件420相关的比较组件426可以通过比较签名422和424查找对应于打印文档408的电子文档404的图像。更具体来说,最接近地匹配打印文档408的图像410的电子文档的图像404可以通过比较它们的签名422和424来查找。此后,获得标识电子文档的位置的URL或其它合适的机制,并返给用户。
现在转向图5,显示了文档图像500的示例性放大。文档500包括包含有多个字符的多个单词。传统系统和/或方法使用光学字符标识以便于匹配打印文档到对应的电子文档。然而,这种OCR需要相当长的时间,并且在多个电子图像需要搜索OCR时可能变的极度繁重。这样,本发明试图放大字符来合并这些字符而不是合并单词。例如,图像500的分辨率可以被改变来使得这些字符合并。此后,图像500将不再包括单个字符,而是单词的布局502。由于两个文档包括基本上相同单词布局的可能性非常小,因此可以基于单词布局502来为图像500产生签名。
现在参考图6,显示了包括多个合并字符的示例性单词600。在文档中单词600的位置可以通过坐标X,Y和W来定义,其中X是单词600在X方向上特定部分的像素的位置,Y是单词600在Y方向上的特定部分的像素位置,和W是单词600的宽度。根据本发明的一个方面,使用单词600的左上角作为定义单词600位置的X,Y位置。然而,应该明白可以使用在文档中的单词600的任何部分来定义单词600的位置(例如,左上角、右上角、中心,...)。
根据本发明的另一方面,可以通过提供在X,Y和W方向上的阈值容限来考虑位置中的误差。例如,X,Y和W定义了单词600的位置,并分别规定在X方向的误差容限为z,在Y方向上为q,在宽度上为p。这样,当使用这些位置来产生签名时,该位置可以被定义为([X-z,X+z],[Y-q,Y+q],[W-p,W+p])。然而,如果包括单词600的图像具有相当高的分辨率,那么满足误差容限所需的像素数量就可能变的很大(例如,为这种高分辨率的图像产生签名需要相当长的时间,存储它也需要相当大的空间)。因此,根据本发明的另一方面,可以改变图像的分辨率来降低在物理边界内的像素数量。可选地,可以提供一个或多个函数有效组合像素来降低在物理边界内的像素数量。包括多个单词的文档的签名可以通过使用类似于有关单词600显示的X,Y和W坐标来产生。这样,打印文档的电子图像签名就可以与多个缓存图像的签名进行比较,并可以查找基本上匹配打印文档签名的签名,并返给用户。
现在参考图7,显示了具有示例性单词布局的图像700。图像700包括多个单词702,单词布局可以通过定义每个单词在图像700中的位置和宽度来定义。然后,可以通过利用图像700的单词布局产生签名。例如,签名可以是具有对应于单词702在图像700中在X方向、Y方向和宽度上的位置的“TRUE”值的散列表。更具体来说,如果单词的位置是由X=3,Y=4和W(宽度)=7定义的,那么在对应于X=3,Y=4和W=7的散列表中的位置就具有TRUE值。而且,可以通过提供有关X,Y和W的容限来考虑误差。例如,如果使用容限z=q=p=2,其中z对应于X的容限,q对应于Y的容限,而P对应于W的容限,那么所有的散列表条目([3-2,3+2],[4-2,4+2],[7-2,7+2])将为TRUE(例如,(1,2,5),(2,2,5),(3,2,5),(4,2,5),...)。这样,图像700就可以拥有能够通过使用单词702带有相关容限的位置和宽度有力地标识图像700的相关签名。
现在参考图8,显示了可以使用作为文档图像签名的示例性散列表800。左栏802表示在对应于图像上的位置和图像中的单词宽度的散列表中的位置,右栏804包括与这些位置相关的“TRUE”和“FALSE”值。值“TRUE”表示单词存在于由散列表800中对应条目表示的位置和所具有的宽度(例如,“TRUE”值可以由1表示,而“FALSE”值可以由0来表示)。例如,散列表800的第一行表示单词宽度16不存在于X-Y位置(31,21)。散列表800的第二行表示单词宽度17存在于X-Y位置(31,21)。而且,散列表800可以考虑在获取打印文档的电子图像时可能发生的平移和/或旋转误差的方式来创建。例如,在位置X=51,Y=17具有宽度W=14的单词可以实际上存在于图像内。然而,散列表可以表示具有宽度13到15并处于X=[50,52]和Y=[16,18]的单词。这样,就实际上在与一个单词相关的散列表800中存在多个“TRUE”值(例如,在前面的例子中,将存在一个单词的27个“TRUE”值)。
根据本发明的另一个方面,可以提供函数来简缩散列表800(例如,该函数可以改变由散列表800表示的图像的分辨率)。例如,单词的左上角可以具有由像素(161,112)定义的位置,并且单词可以具有宽度54,其中161表示在x方向上的像素位置,112表示在y方向上的像素位置,并且单词的宽度是以像素为单位的。此后,像素位置和宽度除以一个值(栅格尺寸)来简缩和/或扩展散列表800(例如,可以由单个坐标来定义多个像素)。这样,如果栅格尺寸等于5,那么与(161,112)相关的单词的位置可以由
Figure A20051000622100251
定义。单词的宽度也可以减少相同的因子,或可选地一个不同的因子。例如,宽度减少值(widtherr)可以等于3,从而产生由 W = 54 3 定义的宽度。使用这些示例性的值,所产生的修改位置可以由值X=32,Y=22和W=18来定义(例如,余数可以被取整或丢弃)。散列表800的这种简缩有效地降低了签名的分辨率,从而,更快地完成搜索(虽然牺牲了精确度)。此后,可以通过为每个值提供容限来考虑在捕捉单位的数字图像时可能产生的平移和/或旋转误差。例如,可以在标识单词位置和宽度的每个值中提供误差容限1。这样,散列表800将包括在相关于([31,33],[21,23],[17,19])的散列表800中的位置的“TRUE”值。
根据本发明的再一个方面,可以使用函数来减轻存储对应于单词位置和宽度的需要,并用单个唯一值(此后称作密钥)来替代这种值。例如,可以在像素上定义单词的最大宽度(最大单词宽)和页的最大宽度(或调整的像素值的最大宽度)(最大页宽)的阈值值。然后,H(X,Y,W)可以被定义为等于
Y×最大页宽×最大单词宽+X×最大单词宽+W。
应该明白,由于上面的等式仅仅是个示例性的散列函数,因此最大页宽和最大单词宽可以是较大的质数。其它映射在文档中的单词位置和宽度的函数也是可以预料到的(例如,可以使用精确散列过程)。使用这种函数能够丢弃在散列表800中的X,Y和W值(从而,减少了存储和/或比较散列表800与不同散列表所需的存储器)。而且,散列表800可以丢弃所有的假值来进一步减少存储这些散列表所需的存储器(例如,散列表将只包括与“TRUE”值相关的密钥)。虽然已经将散列表800显示为能表示文档图像的签名,但是应该明白,也可以预料到其它数据格式和/或结构,并且也落入在此所附的权利要求书的范围内。而且,比传统散列表更强的近似散列表都可以被应用到本发明中。
现在转向图9,散列表800(图8)被显示为立方体900以便于更好理解这种散列表800。立方体900被限制在与散列表800相关的图像的宽度(例如在像素上)的X方向上,由与之相关的图像高度(例如在像素上)限制的Y方向,并由预定阈值在W方向上限定(例如,在像素上最大可允许的单词宽度)。这样,例如,对于具有宽度1000像素和高度1200像素,并且预定最大单词宽度为50的图像来说,立方体900的外部限制就可以是X=1000,Y=1200,和W=50。而且,立方体900的大小可以通过将图像的高度和宽度除以一个共同的值来减少,并可以通过除以宽度值来进一步减少。例如,图像的高度和宽度可以被5除,并且宽度可以被2除。从而,参考前面的例子,立方体900将具有X=200,Y=240和W=25的限制。
立方体900包括对应于在散列表800中的“TRUE”值的测定体积的区域902和904。由于在捕捉打印文档的数字图像时因平移和/或旋转而产生的误差已经被考虑了,所以测定体积区域902,904是三维的。测定体积区域的中心902和904是单词在图像内的实际位置和宽度,并且该点被误差的预定阈值所扩展。否则,这种“TRUE”值将在立方体900中作为单个点出现。当比较第二散列表和散列表800时,可以想象使用对应于第二散列表的立方体变换立方体900,并确定是否存在立方体之间发生重叠。此后,可以将在两个立方体之间的重叠数制成表格,并用来确定这些立方体是否相关于基本上类似的文档。
现在参考图10,显示了包括噪声的打印文档的示例性图像1000。文档1000包括多个单词和多个与单词相关的注释。线1002下划线图像的第一行而存在。在图像1000的第二行中的单词“can”与部分地重写该单词的注释1004相关。多个标记1006存在于整个图像1000中,其中这些标记可以来自钢笔、铅笔、灰尘、食物等等。最后,手写单词1008已经被添加到图像1000。这些注释和标记1002-1008被创建在打印文档上,而并不存在于该文档的原电子版上。因此,在产生图像1000的签名之前,移除这些注释是很有益的。从降噪中应该被“清除”的单词:没有通过注释连接的单词,没有被弄脏或不清楚的单词,等等。
现在转向图11,显示了移除注释了的图像1000(图10)。应该明白,根据图10和11所显示的降噪仅仅是示例性的,并且这种降噪可以使得图像与图11的显示不同地展现出来。线1002(图10)可以通过提供移除所有超过阈值宽度的标记的过滤器来移除。例如,可以定义单词的最大允许宽度,并可以移除任何超出允许宽度的标记。而且,可以定义单词的最小允许宽度,并可以移除任何没有满足必需最小宽度的标记。这样,由于标记1006(图10)不满足所需的宽度,所以该标记被从图像1000中滤除。类似地,可以预定定义单词的最大和最小高度来滤除图像1000中不希望的注释。可以在图像内定义边界,从而可以移除任何落在该边界外的标记。在另一个例子中,在图像内的特定颜色可以被改变和/或移除。而且,在图像1000内直接与注释(例如单词“can”)相关的单词可以被除去而不会由于文档内单词布局的唯一性和典型文档内单词的数量而影响本发明的强健性。更具体来说,多个单词可以被作为文档中的噪声移除掉,而不会影响查找对应图像的效率和/或强健性。而且,本发明可以将文档中的嵌入图像作为噪声移除,从而允许基于单词布局对该文档进行标识。本发明预料到了多种能够有效滤除打印文档的图像中的噪声(例如注释1002-1008)过滤技术。
现在转向图12,显示了用来产生被用作标识缓存图像签名的散列表。在1202,定义了可允许误差的阈值量。提供该允许误差在基于图像的签名和打印文档的图像的签名查找图像中是很重要的。如果不提供误差容限,那么就会由于平移和/或旋转误差而存在查找不到基本上类似于打印文档的图像的可能性。
在1204,确定在图像中每个单词的至少一部分的几何位置。例如,在图像中每个单词的左上角位置可以被确定并暂时存储起来。然而,应该明白,在文档中的单词的任何部分(或整个单词)都可以结合表示图像的单词布局来查找到。在1206,通过,例如计数沿着每个单词的宽度的像素数量来确定在文档中每个单词的宽度。然后,缩放以像素为单位测量宽度来产生所需大小的签名。
在1208,对应于图像中单词的布局产生“密钥”。例如,可以是一个比特或一系列比特的值“TRUE”可以根据处于与单词存在和单词的宽度相关文档内的位置来产生。这些对应于“TRUE”值的位置和宽度可以在散列表中被暂时存储或利用。而不是“TRUE”的值可以被丢弃。而且,当允许有误差容限时,可以为每个单词位置和宽度产生不只一个的密钥。例如,如果分配的误差容限是+/-2,并且单词(X,Y,W)的位置和宽度是(10,12,15),那么将产生真正的键值(8,14,15),(8,11,12),等等。然而,应该明白,“TRUE”值并不是实现本发明所必需的。例如,可以为与单词的存在和单词的宽度相关的文档中的位置产生“NULL”值。
在1210,使用密钥值来产生散列表,该表能够与其它散列表进行比较以便基于对应打印文档的捕捉数字图像查找文档的原电子版。例如,该散列表可以包括对应于与“TRUE”值相关的(X,Y,W)值的值。这样,例如,如果一个特定的图像存在100个“TRUE”值,那么该散列表就包括以标识图像内的每个位置和宽度的密钥的形式存在100个“TRUE”值。而且,可以在用来存储所有三个不必要的值的函数中利用定义位置和宽度的值。
现在参考图13,显示了用来产生打印文档的捕捉图像的签名的方法1300。在1302,捕捉打印文档的数字图像。例如,可以使用数码相机或扫描仪来捕捉该文档的图像。在1304,获得图像的灰度级。由于在获得物理实体的图像时出现的色彩化问题,因此很希望产生灰度改变图像。例如,对于给定的特定照明,图像可以显示为具有黄色背景和绿色字符。本发明预料到改变在预定颜色(例如,黄色)的颜色到希望的颜色(例如,白色)。这样,在打印文档的图像中的颜色将基本上匹配于在对应缓存的图像内的颜色。
在1306,降低了在捕捉图像内剩余的噪声。例如,可以提供一个或多个过滤器来移除存在于打印文档而没有存在于对应缓存图像中的注释。更具体来说,可以使用能够移除在预定阈值宽度和/或高度之上和/或之下的标记的过滤器。而且,可以回顾标记的频率来确定它们是否是不希望的噪声。这种过滤器还可以移除灰尘、污点、折叠标记,等。这种噪声移除有助于使得的捕捉图像基本上类似于缓存的图像。
在1308,确定图像的分辨率是否是想要的。图像的分辨率应该被改变来根据在数据存储中的那些图像正常化该图像。例如,捕捉图像和存储图像的尺寸应该基本上相同来能够优化本发明的操作。如果该分辨率不是想要的(例如,分辨率太高),那么在1310就改变分辨率。例如,需要改变高分辨率来便于很棒各个字符而不会合并图表单词。而且,分辨率可以被改变来产生所需大小的签名。如果图像的分辨率是想要的,那么在1312,就检索与图像内的单词布局相关的数据。例如,可以检索每个单词至少一部分的X-Y坐标(在图像中的像素或其它合适的单位),也可以检索每个单词的宽度。使用这些值,可以定义文档的单词布局。在1314,基于该单词布局产生散列表。例如,该散列表可以只包括对应于存在于打印文档的图像内的单词的位置和宽度的密钥值。此后,这些密钥值被放在散列表中并与不同散列图像的密钥值进行比较来确定对应这些值的图像是否基本上相同。
回顾图12和13可以看出,用来为电子文档的存储图像和打印文档的捕捉图像产生签名的方法基本上是相同的。不同之处在于发生图像和降噪的来源不同。更具体来说,捕捉图像是通过数码相机、扫描仪、传真卡等获得的。电子文档的图像来源于可以与打印驱动器相关的缓存组件。而且,噪声是被理想地从捕捉图像中移除来产生基本上类似于存储图像的图像。例如,注释、弄脏,和其它噪声可以在产生捕捉图像的签名时被移除。
现在参考图14,显示了已经根据本发明被划分的打印文档的示例性图像1400。当缓存图像的多个签名必须与打印文档的图像签名进行比较来确定哪一个缓存图像基本上类似于打印文档时,划分是很有益的。例如,可能需要相当长的时间来整体比较缓存图像的每个签名和打印文档的图像签名。这样,图像1400可以被划分成多个片断1402,1404,1406,和1408,从而,只有图像1400的签名部分被与缓存图像的签名的基本上相似部分进行比较。虽然图像1400显示为划分成四个片断,但是应该明白,可以选择任何合适数量的片断。例如,图像1400的片断数量可以是缓存图像数量的函数(例如,缓存图像的数量越大,片断数量就越多,而片断的尺寸就越小)。
这样,只有一部分多个缓存图像的签名与和其中一个片断1402-1408相关的图像1400的签名的对应部分进行比较。此后,具有在缓存签名的部分和图像1400图像签名的对应部分之间的一个匹配或阈值数量的匹配的缓存图像的任何签名将被保留作进一步考虑,而那些不包含匹配的签名将被丢弃。例如,片断1402与标识图像1400的签名的特定部分相关。接着,签名的该部分可以被与和缓存图像相关的签名的对应部分进行比较。具有在签名的该部分和图像1400的对应签名之间的一个匹配或阈值数匹配的缓存图像的签名将进一步被考虑。此后,图像1400可以被进一步划分成更小的片断,从而,最终从考虑中消除不匹配的签名,并留下基本上匹配图像1400签名的签名。然而,可能由于在降噪中的破坏和/或误差使得大多数正确匹配的签名将会由于特定片断被从考虑中排除。这种错误的排除可以通过为每个片断设定需要要考虑的图像阈值数量,并在图像数量低于阈值值时通过执行彻底检查来发现。如果彻底检查确定剩余的签名不能基本上匹配图像1400的签名,那么图像1400就可以再次被划分,并可以选择不同的部分。如果存在高置信度匹配,那么对应于签名的图像就可以返给用户。
现在转向图15,显示了至少部分文档图像的示例性树形表示1500。树形表示包括多个层1502-1506,其中每个层表示了在文档内的一层划分。更具体来说,第一层1502包括表示整个图像(例如一个文档页的图像)的单个片断1508。如果该图像包括一个或多个单词,那么就分配值1(或标识在片断1508中存在一个或多个单词的其它值)给在树形表示1500中的片断1508。可选地,如果该图像为空,那么就分配值“0”(或确认在片断1508中不存在单词的其它值)。此后,片断1508被划分成片断1510-1516,其中片断1510-1516与树形表示的第二层1504相关。作出有关是否每个片断1510-1516都包括一个或多个单词的判断。例如,如通过分配给片断1510的值1所显示的那样,在片断1510中存在一个或多个单词。在已经被分配给值0的片断1512中不存在单词。
每个片断1510-1516可以进一步在该结构中的第三层1506上被划分层多个片断1520。正如通过回顾片断1512可以确定的那样,如果该片断被分配给0,那么所有在该结构较低层中与片断1512相关的片断也将被分配给0(从而不需要包括在该树形结构中,并可以排除来提高该树形结构的存储效率)。树形表示1500可以包括任何合适数量的层以便能够使得签名的数量在减少比较期间可以被预料到。例如,基于在图像内单词的拓扑属性来产生签名。更具体来说,该签名可以基于每个单词一部分的位置和每个单词的宽度来产生。树形表示可以与产生签名基本上相同的时间来产生(对于捕捉图像和缓存图像来说),并且在基于文档打印拷贝的图像查找文档的电子版时,可以被用来快速减少要比较的签名数量。
例如,树形表示1500可以表示文档打印页的捕捉图像。树形表示1500的第二层可以于缓存图像的树形表示的对应第二层进行比较。如果对应于片断1510,1514和1516的缓存图像的片断都没有被分配给1,那么对应于缓存图像的树形表示的签名将不再被考虑。如果对应于片断1510,1514和1516的缓存图像片断都分配给1,那么对应于缓存图像树形表示的签名被保持来作进一步的考虑。而且,应该明白,对应于片断1510,1512,1514和1516的缓存图像的片断都可以被分配给1并且对应树形表示的签名将被保留作进一步考虑。既使对于被分配给0的捕捉图像的树形表示1500的片断1512,这也是真的,因为打印文档图像的该片断会由于弄脏、撕破等在物理文档中可能发生的情况而显现为空。例如,片断1512可能被污点覆盖,从而在噪声消除之后,捕捉图像的片断1512将不再包括任何单词,既使在文档打印时单词存在于文档的电子版中也是如此。而且,如果将与捕捉图像相关的树形表示1500的第二层1504与和缓存图像相关的树形表示的第二层进行的比较不足以减少要考虑的签名数量,那么就可以比较树形表示的第三层1506。树形表示可以包括足够数量的层以便能够使得剩余文档的数量低于预定的阈值数量,从而允许快速完成对签名的更彻底比较。正是由于图像签名在数据存储中与树形表示相关,所以可以在数据存储中查找树形表示,并与图像相关。
现在参考图16,显示了用来基于文档的单词布局在多个签名中查找基于上类似于打印文档的图像签名的图像签名的方法1600。在1602,产生与每个缓存图像相关的树形表示和与单元文档的捕捉图像相关的树形表示。图15显示了示例性的树形表示。树形表示可以与产生图像签名基本上相同的时刻来产生。签名是基于打印页的单词级拓扑树形来产生的,而树形表示是文档图像的分层表示;其中图像被划分层许多片断,并且每个片断被基于单词是否存在于片断中而被分配给一个值。这些片断可以进一步被划分,从而创建该分层结构表示。
在1604,与打印文档的捕捉图像相关的树形表示的层与和缓存图像相关的树形表示的对应层进行比较。例如,第一层包括表示整个图像的一个片断——从而如果捕捉图像包含一个或多个单词,那么该片断将与表示该图像包括一个或多个单词的值相关。因此,如果缓存图像不包含一个或多个单词,那么缓存图像的树形表示的第一层将包括与指示该片断不包括一个或多个单词的值相关的片断。树形表示的第二层包括多个片断,并且每个片断将与指示该片断是否包括单词的值相关。这样,通过比较与捕捉图像相关的树形表示和缓存图像的树形表示的对应层,可以迅速减少在尝试查找最能匹配于文档的打印版的文档的电子版时要考虑的签名的数量。
在1606,与具有基本上匹配于与捕捉图像相关的对应层的所需层的缓存图像相关的树形表示被保留作进一步考虑。由于弄脏、撕破、和其它对打印文档的物理破坏的产生会导致不能匹配,因此,与捕捉图像相关的树形表示的层不需要同样地匹配与缓存图像相关的树形表示的对应层。例如,片断将由于撕破而被完全移除,从而使得树形表示传达该片断并不包括任何单词。然而,如果不是撕破,那么该片断将包括一个或多个单词。这样,为了进一步考虑,在与缓存图像相关的树形表示中的片断在捕捉图像的片断包括一个或多个单词的情况期间必须匹配与捕捉图像的树形表示相关的对应片断。
在1608,作出有关是否太多的签名(从而太多的树形表示)保持在考虑中的判断。例如,匹配基于单词级拓扑属性产生的签名可能需要相当长的时间。因此减少与缓存图像相关的签名数量是很有益处的,所缓存的图像将要与捕捉图像相关的签名进行比较。如果在考虑中剩余签名的数量大于阈值数量,那么在1610,就选择在树形表示结构中的下一层进行比较。在比较签名之前,选择在树形表示结构中的下一层能够减少签名的数量。如果要考虑的签名的数量低于阈值,那么在1612,与捕捉图像相关的签名就与保持在考虑中的缓存图像的签名进行比较。至少部分基于图像中单词的拓扑属性来产生这些签名(例如在图像中的每个单词的位置和宽度)。
在1614,作出有关具有最高分的签名是否达到阈值得分要求(例如,签名是否是“高置信度”的匹配)的判断。如果与最顺利地比较打印文档的图像签名的缓存图像相关的签名是高置信度匹配,那么在1616就将对应该签名的图像返给用户。如果该签名不是高置信度匹配,那么在1618就作出有关与缓存图像相关的每个签名是否已经被与捕捉图像相关的签名进行了比较的判断。如果与缓存图像相关的每个签名已经被比较过,那么就在1620通知用户,没有高置信度匹配。当不存在对应于打印文档的缓存图像时,和当打印文档已经被破坏到标识该文档极其成问题的程度时,可能会发生这样的情况。否则,在1622,可以通过重新考虑在前一层丢弃的文档来重新考虑签名基于它们相关的树形表示从考虑中丢弃的签名。例如,假设比较树形表示的第五层需要减少要比较的签名的数量到阈值值。然而,当比较捕捉图像的签名时,与剩余树形表示相关的签名不会产生高置信度的匹配。因此,根据本发明的一方面,可以比较在树形表示的第四层中仍然处于考虑之中的所有签名。
在已经重新考虑了基于树形表示的特定层丢弃的签名之后,方法1600继续到1612。而且,应该明白,当在1612直接比较签名时,签名可以被划分成多个部分,与捕捉图像相关的签名的部分可以与捕捉图像相关的签名部分进行比较。这在知道与捕捉图像相关的签名部分将由于在捕捉图像的特定部分被移除的噪声而没有匹配的情况下是很有益的。这基本上可以加快匹配的过程。
现在转向图17,显示了根据本发明一个方面的示例性数据存储1700及其内容。数据存储1700可以被看作关系数据库,其中电子文档页的图像1702是在数据存储1700中的“主要”条目。虽然只是显示了示例性数据存储1700包括单个图像1702,但是应该明白数据存储1700典型地将包含多个图像和与之相关的数据。相关数据的例子包括标识对应于该电子文档页的图像1702的电子文档位置的URL1704。在基于后来捕捉的对应打印页搜索图像1702的数据存储1700时,该URL可以被提供给用户。更具体来说,签名1706与图像1702相关,并且该签名1706被与和打印页相关的签名比较。一旦比较这些签名并确定图像1702最接近地匹配打印文档的图像,相关URL1704就可以被转发给用户。而且,结构树1708也可以与图像1702相关来便于如前述的那样方便地从搜索中排除图像1702。其它相关数据1710也可以与图像1702相关,例如,图像1702的OCR,有关页图像在数据存储1700中已经被访问频率的衡量,顾客记录,工作流程信息(例如工作流历史),支付信息,和其它可以与电子文档相关的合适数据。然而,应该明白,并不需要图像1702的永久性存储器来操作本发明的主题。例如,图像1702可以被产生并暂时存储,并可以从图像1702中产生签名1706。此后,图像1702可以被丢弃来增加在数据存储1700中的可用空间。签名1702可以与标识对应于图像1702的电子文档的位置的URL相关。其它在数据存储1700中的元素也可以与签名1706相关。
参考图18,实施本发明各方面的示例性环境1810包括计算机1812。计算机1812可以是任何合适的计算设备(例如,个人数字助理,膝上型计算机,服务器,台式计算机,...)。计算机1812包括处理单元1814,系统存储器1816,和系统总线1818。系统总线1818连接系统组件,这些组件包括到处理单元1814的系统存储器1816,但不限制于此。处理单元1814可以是任何一种可用的处理器。也可以使用双微处理器和其它多处理器结构来作为处理单元1814。
系统总线1818可以是多种总线结构中的任何一种,包括使用任何可用总线结构的存储器总线或存储器控制器,外设总线或外部总线,和/或本地总线,包括8位总线,工业标准体系(ISA),微通道体系(MSA),扩展ISA(EISA),智能驱动电子(IDE),VESA本地总线(VLB),外设组件接口(PCI),通用串行总线(USB),高级图像端口(AGP),个人计算机存储卡工业协会总线(PCMCIA),和小型计算机系统接口(SCSI),但不局限于此。
系统存储器1816包括易失性存储器1820和非易失性存储器1822。包含用来在计算机1812内的组件之间传送信息的基本例程的基本输入/输出系统(BIOS),例如在启动期间,被存储在非易失性存储器1822。作为示例,并不是限制,非易失性存储器1822可以包括只读存储器(ROM),可编程ROM(PROM),电可编程ROM(EPROM),电可擦除ROM(EEPROM),或闪存。易失性存储器1820包括随机访问存储器(RAM),其担当维持缓冲存储器。作为示例,但不是限制,RAM有多种可用形式,例如同步RAM(SRAM),动态RAM(DRAM),同步DRAM(SDRAM),双数据速率SDRAM(DDR SDRAM),增强SDRAM(ESDRAM),同步链接DRAM(SLDRAM),和直接Rambus RAM(DARRAM)。
计算机1812还包括可移动/非可移动,易失性/非易失性计算机存储介质。图18显示,例如磁盘存储器1824。磁盘存储器1824包括如磁盘那样的设备,软盘驱动器,磁带驱动器,Jaz驱动器,Zip驱动器,LS-100驱动器,闪存卡,或存储棒,但不局限于此。此外,磁盘存储器1824可以包括分离的存储器介质,或与其它存储器介质组合的存储器介质,包括光盘驱动器,例如紧凑盘ROM设备(CD-ROM),CD可记录驱动器(CD-R Drive),CD可重写驱动器(CD-RW Drive)或数字多样盘ROM驱动器(DVD-ROM),但不局限于此。为了便于磁盘存储器设备1824连接到系统总线1818,可移动或非可移动接口典型地使用例如接口1826。
应该理解到,图18描述了在用户和以合适操作环境1810描述的基本计算机资源之间担当媒介的软件。该软件包括操作系统1828。可以被存储在磁盘存储器1824上的操作系统1828用来控制和分配计算机系统1812的资源。系统应用程序1830通过操作系统1828利用存储在系统存储器1816或磁盘存储器1824上的程序模块1832和程序数据1834进行资源管理。应该理解到,本发明可以使用各种操作系统或操作系统的组合来实施。
用户通过输入设备1836将命令或信息输入到计算机1812。输入设备1836包括诸如鼠标、跟踪球、铁笔、触摸垫、键盘、麦克风、游戏杆、游戏垫、卫星盘、扫描仪、TV调谐卡、数码相机、数字视频照相机、网络照相机等等之类的指示设备,但不限制于此。这些和其它输入设备经过接口端口1838通过系统总线1818连接到处理单元1814。接口端口1838包括,例如,串行端口、并行端口、游戏端口、和通用串行总线(USB)。输出设备1840使用和输入设备1836相同的一些端口。这样,例如,USB端口可以被用来提供到计算机1812的输入,并从计算机1812向输出设备1840输出信息。输出适配器1842被提供来显示存在一些象监视器、喇叭、和打印机等需要特殊适配器的输出设备1840。输出适配器1842包括在输出设备1840和系统总线1818之间提供连接手段的视频和声音卡,作为例子,但不限制于此。应该注意到,其它设备和/或系统设备提供了输入和输出的能力,例如一个或多个远程计算机1844。
计算机1812可以工作在使用到一个或多个远程计算机的逻辑连接的组网环境,例如一个或多个远程计算机1844。远程计算机1844可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的家电、等同设备或其它网络节点等等,并典型地包括多个或所有的根据计算机1812描述的元件。为了简化的目的,只显示了具有内存存储设备1846的远程计算机1844。远程计算机1844被逻辑上通过网络接口1848连接到计算机1812,然后同通信连接1850来物理连接。网络接口1848包括诸如本地局域网(LAN)和广域网(WAN)的通信网络。LAN技术包括光纤分布数据接口(FDDI),同轴电缆分布数据接口(CDDI),以太网/IEEE802.3,令牌环/IEEE802.5等等。WAN技术包括点到点链接,诸如综合业务数字网及其各种变体的电路交换网,分组交换网,和数字用户线(DSL),但不限制于此。
通信连接1850指的是用来连接网络接口1848到总线1818的硬件/软件。虽然通信连接1850为了清楚示例的目的显示于计算机1812内,但是它也可以置于计算机1812的外部。到网络接口1848的连接所需的硬件/软件包括仅作为示例目的的内部和外部技术,例如包括常规电话级调制解调器、电缆调制解调器和DSL调制解调器,ISDN适配器和以太网卡的调制解调器。
图19是与本发明可以交互操作的抽样计算环境1900的示意性框图。系统1900包括一个或多个客户机1910。客户机1910可以是硬件和/或软件(例如,线程,处理,计算设备)。系统1900还包括一个或多个服务器1930。服务器1930也可以是硬件和/或软件(例如,线程,处理,计算设备)。服务器1930通过使用本发明例如,可以容纳执行变换的线程。在客户机1010和服务器1930之间的一个可能通信可以是适于在两个或多个计算机处理之间传输的数据包形式。系统1900包括可以用来便于在客户机1910和服务器1930之间通信的通信框架1950。客户机1910可操作地连接到一个或多个可以被用来存储到客户机1910本地的信息的客户机数据存储1960。类似地,服务器1930可操作地连接到一个或多个可以使用来存储到服务器1930本地的信息的服务器数据存储器1940。
上面所描述的包括本发明的例子。当然,为了描述本发明,不可能描述每一个可以想到的组件组合或方法,但是本领域普通技术人员可以意识到,本发明的许多进一步的组合和变换都是可以的。因此,本发明旨在包含所有这些落入所附权利要求书的精神和范围内的改变、修改和变化。而且,就术语“包括”用于详细说明书或权利要求书来说,该术语旨在包括在与术语“包含”在被用作在权利要求中的过渡词语时被解释的类似方式中。

Claims (42)

1.一种用于文档检索和/或索引的系统,其特征在于,它包括:
一接收物理文档的至少一部分的已捕捉图像的组件;以及
一查找与所述文档的匹配的搜索组件,所述搜索是在产生的图像的单词级拓扑属性上执行的,所产生的图像是一个或多个电子文档的至少一部分的图像。
2.根据权利要求1所述的系统,其特征在于,它还包括:一产生对应于一个或多个所产生的图像的一个或多个签名、并产生对应于所述文档的已捕捉图像的签名的组件,所述签名标识所产生的图像的单词布局,并且所述搜索是通过比较所产生的图像的签名和所捕捉的文档的图像的签名来执行的。
3.根据权利要求2所述的系统,其特征在于,所述签名是散列表和近似散列表中的至少一个。
4.根据权利要求3所述的系统,其特征在于,所述散列表和近似散列表中的至少一个包括一与在所产生的图像和所述文档的图像中的至少其中一个内的单词的位置和宽度相关联的密钥。
5.根据权利要求2所述的系统,其特征在于,它还包括一计分组件,其分配对应于被搜索的所产生的图像的子集的置信度得分。
6.根据权利要求5所述的系统,其特征在于,一具有最高置信度得分的所产生的图像被选择作为与所述文档的已捕捉图像的匹配。
7.根据权利要求2所述的系统,其特征在于,对应于所述一个或多个产生的图像的所述签名包括一误差容限。
8.根据权利要求2所述的系统,其特征在于,与所述一个或多个产生的图像相关联的所述签名的一部分被与所捕捉的文档的图像的签名的对应部分进行比较。
9.根据权利要求8所述的系统,其特征在于,对应于所述一个或多个产生的图像的所述签名被保留以供进一步考虑,所述产生的图像具有阈值数量的与所述文档的已捕捉图像的签名的对应部分的匹配。
10.根据权利要求9所述的系统,其特征在于,它还包括一当阈值数量的签名被保留以供进一步考虑时分配置信度得分的组件。
11.根据权利要求2所述的系统,其特征在于,对应于所述一个或多个产生的图像的签名和所捕捉的文档的图像的签名是分别至少部分地基于在所产生的图像和所捕捉的文档的图像中的每个单词的至少一部分的位置产生的。
12.根据权利要求11所述的系统,其特征在于,对应于所述一个或多个产生的图像的签名和所述文档的已捕捉图像的签名也是分别至少部分地基于在所捕捉的图像和所产生图像中的每个单词的宽度产生的。
13.根据权利要求2所述的系统,其特征在于,它还包括:
一产生与所产生的图像和所述文档的已捕捉图像相关的树形表示的组件,所述树形表示是所产生的图像和所述文档的已捕捉图像的分层表示,其中,所述树形表示传达了所产生的图像的哪些片断和所述文档的图像的哪些片断包括单词;以及
一将与所产生的图像相关的树形表示和与所述文档的已捕捉图像相关的树形表示相比较的比较组件。
14.根据权利要求1所述的系统,其特征在于,它还包括一减少在所述文档的已捕捉图像中的噪声的组件。
15.根据权利要求1所述的系统,其特征在于,它还包括一产生所述文档的已捕捉图像的灰度级图像的组件。
16.根据权利要求1所述的系统,其特征在于,它还包括一连接组件,它连接在所产生的图像和所捕捉的图像的单词内的字符,而不连接所产生的图像和所捕捉的图像的单词。
17.根据权利要求16所述的系统,其特征在于,所产生的图像和所捕捉的图像是二元图像,所述连接组件对所述二元图像执行像素扩张。
18.根据权利要求17所述的系统,其特征在于,所述连接组件改变所述文档的已捕捉图像的分辨率,以便于连接在所述文档的已捕捉图像的单词内的字符而不会连接在所述文档的已捕捉图像内的不同单词。
19.根据权利要求1所述的系统,其特征在于,它还包括一在电子文档被打印时自动产生该电子文档的图像的缓存组件。
20.根据权利要求19所述的系统,其特征在于,它还包括一推断哪些打印文档应该具有相关联的存储图像的人工智能组件。
21.根据权利要求1所述的系统,其特征在于,它还包括一人工智能组件,它至少部分地基于用户状态、用户环境和用户历史中的其中一个从搜索中排除所产生的图像的一个子集。
22.根据权利要求1所述的系统,其特征在于,所产生的图像的至少一个与一数据存储中的条目相关联,所述条目包括电子文档页面的一个或多个图像、和一标识该页面的图像的签名,所述签名至少部分地基于该页面的图像内单词的拓扑属性。
23.根据权利要求22所述的系统,其特征在于,所述电子文档的页面的一个或多个图像和标识该页面的图像的所述签名与以下的一个或多相关联:一标识所述电子文档的位置的URL、所述电子文档、所述电子文档的页面的图像的分层树形表示、所述页面的图像的OCR、与所述页面的图像的访问次数相关的数据、顾客记录、支付信息、和工作流信息。
24.一种便于索引和/或检索文档的方法,其特征在于,它包括:
产生电子文档的多个图像,所述电子文档的图像的至少一个对应于一打印文档;
在一文档被打印之后,捕捉该打印文档的图像;
接收一请求检索对应于所述打印文档的图像的电子文档的查询;
产生对应于一个或多个所产生的图像的至少一部分的一个或多个签名,所述签名是至少部分地基于所述图像内的单词布局产生的;
产生一对应于所捕捉的图像的至少一部分的签名,所述签名是至少部分地基于所捕捉的图像内的单词布局产生的;以及
将对应于所述一个或多个产生的图像的一个或多个签名和对应于所捕捉的图像的签名进行比较。
25.一种便于索引和/或检索文档的方法,其特征在于,它包括:
接收文档的至少一部分的已捕捉图像;以及
搜索数据存储来寻找对应于所捕捉的图像的电子文档,所述搜索是通过比较在所捕捉的图像内的拓扑单词属性和对应于多个电子文档的产生的图像的拓扑单词属性来执行的。
26.根据权利要求25所述的方法,其特征在于,它还包括:
产生对应于所产生的图像的签名,所述签名至少部分地基于所产生的图像内的每个单词的位置和宽度;
产生对应于所述文档的已捕捉图像的签名,所述签名至少部分地基于所捕捉的图像内的每个单词的位置和宽度;以及
将对应于所产生的图像的签名和对应于所述文档的已捕捉图像的签名进行比较。
27、根据权利要求25所述的方法,其特征在于,它还包括:
将所述文档的已捕捉图像划分成多个片断;
将所产生的图像划分成基本上类似于所述文档的已捕捉图像的片断的片断;以及
仅在对应于所述文档的已捕捉图像和所述一个或多个数据存储内的图像的对应片断中,将所述文档的已捕捉图像的单词布局与所产生的图像的单词布局进行比较。
28.根据权利要求27所述的方法,其特征在于,它还包括:
至少部分地基于所捕捉的图像的单词布局和所产生的图像的单词布局之间的相似性向对应于所产生的图像的签名分配置信度得分。
29.根据权利要求25所述的方法,其特征在于,它还包括:
划分所述文档的已捕捉图像来创建一片断分层结构;
划分所述产生的图像来创建一对应于和文档的已捕捉图像相关的所述片断分层结构的片断分层结构;
当所述片断包括单词时,向所述文档的已捕捉图像中的片断和所产生的图像内的片断分配第一值;
当所述片断不包括单词时,向所述文档的已捕捉图像中的片断和所产生的图像中的片断分配第二值;
比较所述片断分层结构;以及
当与一个或多个所产生的图像相关联的片断被分配第二值并且与所述文档的已捕捉图像相关联的对应片断被分配第一值时,即不再考虑所述一个或多个产生的图像。
30.根据权利要求25所述的方法,其特征在于,它还包括在搜索所述一个或多个数据存储之前,降低所述文档的已捕捉图像内的噪声。
31.根据权利要求30所述的方法,其特征在于,所述降噪包括以下的一个或多个:
提供用来移除具有大于阈值宽度的宽度的标记的过滤器;
提供用来移除具有小于阈值宽度的宽度的标记的过滤器;
提供用来移除具有大于阈值高度的高度的标记的过滤器;
提供用来移除具有小于阈值高度的高度的标记的过滤器;
32.根据权利要求25所述的方法,其特征在于,它还包括在搜索所述一个或多个数据存储之前,产生一所捕捉图像的灰度级图像。
33.一种用来索引和/或检索文档的系统,其特征在于,它包括:
用来在打印电子文档时产生该电子文档的图像的装置;
用来在打印所述文档之后捕捉该文档的图像的装置;
用来检索所述电子文档的装置,所述装置至少部分地基于所捕捉的图像内的单词位置和宽度与所产生的图像内的单词的位置和宽度的比较。
34.根据权利要求33所述的系统,其特征在于,它还包括:
用来产生一包括对所产生的图像高度专用的特征的签名的装置;以及
用来产生一对应于所捕捉的图像的签名的装置,所述签名包括对所捕捉的图像高度专用的特征。
35.根据权利要求34所述的系统,其特征在于,它还包括用来将对应于所产生的图像的签名与对应于所捕捉的图像的签名进行比较的装置。
36.根据权利要求34所述的系统,其特征在于,它还包括用来考虑在捕捉所打印的文档的图像时产生的误差。
37.根据权利要求33所述的系统,其特征在于,它还包括:
用来将所产生的图像划分成多个片断的装置;
用来将所捕捉的图像划分成多个基本上相似的片断的装置;以及
用来将所存储的图像的片断与所捕捉的图像的对应片断进行比较的装置。
38.一种便于索引和/或检索文档的方法,其特征在于,它包括:
一查询组件,用来接收一打印文档的图像;
一缓存组件,用来在所述查询组件接收所述打印文档的图像之前产生并存储对应于所述文档图像的图像;以及
一比较组件,用来通过将所存储的图像内的单词的位置和宽度的至少一个与所述打印文档的图像内的单词的位置和宽度进行比较,来检索所存储的图像。
39.一种计算机可读介质,在其上存储有计算机可执行指令,该指令可以至少部分地基于对应于所述打印文档的已捕捉的图像的拓扑单词属性将电子文档的一个或多个存储的图像返回给用户。
40.一种在其上具有数据结构的计算机可读介质,其特征在于,所述数据结构包括:
一用来接收一打印文档的至少一部分的一个或多个图像的组件;以及
一用来便于检索电子文档的搜索组件,所述电子文档对应于所述打印文档的一个或多个图像,所述检索在比较所述打印文档的一个或多个图像与所述电子文档的产生的图像时至少部分地基于相似单词级拓扑属性。
41.一种包括权利要求1所述的系统的个人数字助理。
42.一种具有便于索引和/或检索文档的一个或多个数据分组的信号,其特征在于,它包括:
一检索电子文档的至少一部分的存储图像的请求;
一对应于所请求的存储电子文档的图像签名的打印文档的电子图像签名,所述签名至少部分地基于所述图像的单词布局;以及
一便于所述打印文档的图像的签名与所请求的存储文档的图像的签名的比较的组件。
CNB2005100062210A 2004-01-15 2005-01-17 基于图像文档的索引和检索 Active CN100565506C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/758,370 2004-01-15
US10/758,370 US7475061B2 (en) 2004-01-15 2004-01-15 Image-based document indexing and retrieval

Publications (2)

Publication Number Publication Date
CN1641646A true CN1641646A (zh) 2005-07-20
CN100565506C CN100565506C (zh) 2009-12-02

Family

ID=34620698

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100062210A Active CN100565506C (zh) 2004-01-15 2005-01-17 基于图像文档的索引和检索

Country Status (5)

Country Link
US (1) US7475061B2 (zh)
EP (1) EP1555626A3 (zh)
JP (1) JP4718841B2 (zh)
KR (1) KR101027851B1 (zh)
CN (1) CN100565506C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
CN102693253A (zh) * 2011-01-26 2012-09-26 波音公司 图像管理和呈现
CN101292258B (zh) * 2005-08-23 2012-11-21 株式会社理光 混合介质环境的创建和使用的系统和方法
CN102955784A (zh) * 2011-08-19 2013-03-06 北京百度网讯科技有限公司 一种基于数字签名对多个图像进行相似判断的设备和方法
US8867779B2 (en) 2008-08-28 2014-10-21 Microsoft Corporation Image tagging user interface
US9020183B2 (en) 2008-08-28 2015-04-28 Microsoft Technology Licensing, Llc Tagging images with labels
CN109167977A (zh) * 2018-10-28 2019-01-08 广州中元软件有限公司 一种监控视频仿生长期保存方法
CN109740007A (zh) * 2018-08-27 2019-05-10 广州麦仑信息科技有限公司 一种基于图像特征签名的静脉图像快速检索方法
CN109933691A (zh) * 2019-02-11 2019-06-25 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质

Families Citing this family (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082427B1 (en) * 2000-05-24 2006-07-25 Reachforce, Inc. Text indexing system to index, query the archive database document by keyword data representing the content of the documents and by contact data associated with the participant who generated the document
US7330850B1 (en) 2000-10-04 2008-02-12 Reachforce, Inc. Text mining system for web-based business intelligence applied to web site server logs
US8694510B2 (en) * 2003-09-04 2014-04-08 Oracle International Corporation Indexing XML documents efficiently
US8229932B2 (en) * 2003-09-04 2012-07-24 Oracle International Corporation Storing XML documents efficiently in an RDBMS
US7475061B2 (en) 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
JP4380400B2 (ja) * 2004-04-16 2009-12-09 キヤノン株式会社 文書処理装置及びその制御方法、並びにコンピュータプログラム
JP2007538320A (ja) * 2004-05-18 2007-12-27 シルバーブルック リサーチ ピーティワイ リミテッド 製品アイテムを追跡する方法およびコンピュータシステム
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US7523098B2 (en) * 2004-09-15 2009-04-21 International Business Machines Corporation Systems and methods for efficient data searching, storage and reduction
US8725705B2 (en) * 2004-09-15 2014-05-13 International Business Machines Corporation Systems and methods for searching of storage data with reduced bandwidth requirements
US9405751B2 (en) * 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US9171202B2 (en) * 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8369655B2 (en) * 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8005831B2 (en) * 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US9530050B1 (en) * 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8385589B2 (en) * 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8949287B2 (en) * 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US7669148B2 (en) * 2005-08-23 2010-02-23 Ricoh Co., Ltd. System and methods for portable device for mixed media system
US8156427B2 (en) 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8838591B2 (en) * 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9384619B2 (en) * 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US7551780B2 (en) 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US7885955B2 (en) * 2005-08-23 2011-02-08 Ricoh Co. Ltd. Shared document annotation
US7917554B2 (en) * 2005-08-23 2011-03-29 Ricoh Co. Ltd. Visibly-perceptible hot spots in documents
US8195659B2 (en) * 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US7991778B2 (en) * 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US10192279B1 (en) * 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US7587412B2 (en) * 2005-08-23 2009-09-08 Ricoh Company, Ltd. Mixed media reality brokerage network and methods of use
US8144921B2 (en) 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US7639387B2 (en) * 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US7920759B2 (en) * 2005-08-23 2011-04-05 Ricoh Co. Ltd. Triggering applications for distributed action execution and use of mixed media recognition as a control input
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US8086038B2 (en) * 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US8176054B2 (en) * 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US7672543B2 (en) * 2005-08-23 2010-03-02 Ricoh Co., Ltd. Triggering applications based on a captured text in a mixed media environment
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8489583B2 (en) * 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
JP4455358B2 (ja) * 2005-01-31 2010-04-21 キヤノン株式会社 画像処理装置およびその方法
US10127130B2 (en) 2005-03-18 2018-11-13 Salesforce.Com Identifying contributors that explain differences between a data set and a subset of the data set
US10176338B2 (en) * 2005-11-23 2019-01-08 Salesforce.Com Secure distributed storage of documents containing restricted information, via the use of keysets
US8782087B2 (en) 2005-03-18 2014-07-15 Beyondcore, Inc. Analyzing large data sets to find deviation patterns
US7546524B1 (en) * 2005-03-30 2009-06-09 Amazon Technologies, Inc. Electronic input device, system, and method using human-comprehensible content to automatically correlate an annotation of a paper document with a digital version of the document
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
JP4688542B2 (ja) * 2005-03-31 2011-05-25 株式会社日立製作所 計算機システム、ホストコンピュータ及びコピーペア処理方法
US20060242568A1 (en) * 2005-04-26 2006-10-26 Xerox Corporation Document image signature identification systems and methods
US20060282430A1 (en) * 2005-06-10 2006-12-14 Diamond David L Fuzzy matching of text at an expected location
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
US8762410B2 (en) * 2005-07-18 2014-06-24 Oracle International Corporation Document level indexes for efficient processing in multiple tiers of a computer system
US20070030523A1 (en) * 2005-08-02 2007-02-08 Kabushiki Kaisha Toshiba System and method for identifying a submitter of a printed or scanned document
JP4533273B2 (ja) * 2005-08-09 2010-09-01 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム
US7861307B2 (en) * 2005-08-17 2010-12-28 Kurzweil Educational Systems, Inc. Unlocking digital content on remote systems
US10296854B2 (en) * 2005-08-17 2019-05-21 Cambium Learning, Inc. Techniques for protected viewing of digital files
US10733308B2 (en) * 2005-08-17 2020-08-04 Cambium Learning, Inc. Tags for unlocking digital content
US9009078B2 (en) * 2005-08-17 2015-04-14 Kurzweil/Intellitools, Inc. Optical character recognition technique for protected viewing of digital files
KR100980748B1 (ko) * 2005-08-23 2010-09-07 가부시키가이샤 리코 혼합 미디어 환경을 생성 및 사용하는 시스템 및 방법
US7769772B2 (en) * 2005-08-23 2010-08-03 Ricoh Co., Ltd. Mixed media reality brokerage network with layout-independent recognition
EP1917635A4 (en) * 2005-08-23 2008-12-03 Ricoh Kk INSERTING HOT POINTS IN ELECTRONIC DOCUMENTS
EP2482210A3 (en) * 2005-08-23 2013-10-16 Ricoh Company, Ltd. System and methods for creation and use of a mixed media environment
EP1917637A4 (en) * 2005-08-23 2008-12-03 Ricoh Kk DATA ORGANIZATION AND ACCESS FOR A MIXED MEDIA DOCUMENT SYSTEM
WO2007023992A1 (en) * 2005-08-23 2007-03-01 Ricoh Company, Ltd. Method and system for image matching in a mixed media environment
US20070061319A1 (en) * 2005-09-09 2007-03-15 Xerox Corporation Method for document clustering based on page layout attributes
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
JP2007102545A (ja) * 2005-10-05 2007-04-19 Ricoh Co Ltd 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
US8095876B1 (en) 2005-11-18 2012-01-10 Google Inc. Identifying a primary version of a document
US8949455B2 (en) 2005-11-21 2015-02-03 Oracle International Corporation Path-caching mechanism to improve performance of path-related operations in a repository
JP4742839B2 (ja) * 2005-12-09 2011-08-10 富士ゼロックス株式会社 ワークフロー処理のためのプログラム及びシステム
KR100767114B1 (ko) * 2005-12-16 2007-10-17 삼성전자주식회사 인쇄할 문서와 관련문서를 함께 인쇄하는 방법 및 그에사용되는 호스트와 프린터
US20070226321A1 (en) * 2006-03-23 2007-09-27 R R Donnelley & Sons Company Image based document access and related systems, methods, and devices
US10152712B2 (en) * 2006-05-10 2018-12-11 Paypal, Inc. Inspecting event indicators
CA2652986A1 (en) * 2006-05-19 2007-11-29 Sciencemedia Inc. Interactive learning and assessment platform
JP2008009572A (ja) * 2006-06-27 2008-01-17 Fuji Xerox Co Ltd ドキュメント処理システム、ドキュメント処理方法及びプログラム
US20080033967A1 (en) * 2006-07-18 2008-02-07 Ravi Murthy Semantic aware processing of XML documents
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9063952B2 (en) * 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US8676810B2 (en) * 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8073263B2 (en) * 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US20080046738A1 (en) * 2006-08-04 2008-02-21 Yahoo! Inc. Anti-phishing agent
KR100834293B1 (ko) * 2006-11-06 2008-05-30 엔에이치엔(주) 문서 처리 시스템 및 방법
JP4310356B2 (ja) * 2006-11-13 2009-08-05 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及び記録媒体
JP4352274B2 (ja) * 2006-11-16 2009-10-28 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及び印刷方法並びに制御プログラム
US8290203B1 (en) * 2007-01-11 2012-10-16 Proofpoint, Inc. Apparatus and method for detecting images within spam
US8290311B1 (en) 2007-01-11 2012-10-16 Proofpoint, Inc. Apparatus and method for detecting images within spam
US20090232032A1 (en) * 2007-01-17 2009-09-17 Verbal World, Inc. Methods and Apparatus for the Manipulation of Conferenced Data
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US8254692B2 (en) * 2007-07-23 2012-08-28 Hewlett-Packard Development Company, L.P. Document comparison method and apparatus
US20090031203A1 (en) * 2007-07-26 2009-01-29 Hewlett-Packard Development Company, L.P. Hyperlinks
JP4960796B2 (ja) * 2007-08-03 2012-06-27 キヤノン株式会社 画像処理装置、画像処理方法ならびにそのプログラム及び記憶媒体
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US8166042B1 (en) * 2008-04-14 2012-04-24 Google Inc. Height based indexing
US8724930B2 (en) * 2008-05-30 2014-05-13 Abbyy Development Llc Copying system and method
US8538941B2 (en) * 2008-07-31 2013-09-17 Adobe Systems Incorporated Visual information search tool
US8249343B2 (en) * 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
TW201027375A (en) * 2008-10-20 2010-07-16 Ibm Search system, search method and program
JP2010134700A (ja) * 2008-12-04 2010-06-17 Toshiba Corp 画像評価装置および画像評価方法
US8385660B2 (en) * 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US7953679B2 (en) 2009-07-22 2011-05-31 Xerox Corporation Scalable indexing for layout based document retrieval and ranking
US9367523B2 (en) 2009-09-25 2016-06-14 Adobe Systems Incorporated System and method for using design features to search for page layout designs
US8606789B2 (en) 2010-07-02 2013-12-10 Xerox Corporation Method for layout based document zone querying
US9262390B2 (en) 2010-09-02 2016-02-16 Lexis Nexis, A Division Of Reed Elsevier Inc. Methods and systems for annotating electronic documents
US8559765B2 (en) 2011-01-05 2013-10-15 International Business Machines Corporation System and method for image storage and analysis
US8458796B2 (en) 2011-03-08 2013-06-04 Hewlett-Packard Development Company, L.P. Methods and systems for full pattern matching in hardware
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
JP5742545B2 (ja) * 2011-07-27 2015-07-01 ブラザー工業株式会社 画像処理プログラム、情報処理装置および画像処理方法
US8831350B2 (en) 2011-08-29 2014-09-09 Dst Technologies, Inc. Generation of document fingerprints for identification of electronic document types
US11055334B2 (en) * 2011-09-23 2021-07-06 Avaya Inc. System and method for aligning messages to an event based on semantic similarity
US9317544B2 (en) * 2011-10-05 2016-04-19 Microsoft Corporation Integrated fuzzy joins in database management systems
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US10796232B2 (en) 2011-12-04 2020-10-06 Salesforce.Com, Inc. Explaining differences between predicted outcomes and actual outcomes of a process
US10802687B2 (en) 2011-12-04 2020-10-13 Salesforce.Com, Inc. Displaying differences between different data sets of a process
US8687886B2 (en) 2011-12-29 2014-04-01 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
US9111140B2 (en) 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US8942515B1 (en) * 2012-10-26 2015-01-27 Lida Huang Method and apparatus for image retrieval
US9906608B2 (en) * 2013-04-30 2018-02-27 International Business Machines Corporation Intelligent adaptation of mobile applications based on constraints and contexts
JP6242087B2 (ja) * 2013-06-07 2017-12-06 キヤノン株式会社 文書管理サーバ、文書管理方法、コンピュータプログラム
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
US20150163545A1 (en) * 2013-12-11 2015-06-11 Echostar Technologies L.L.C. Identification of video content segments based on signature analysis of the video content
WO2015175824A1 (en) * 2014-05-16 2015-11-19 AppCard, Inc. Method and system for improved optical character recognition
KR101713197B1 (ko) * 2015-04-01 2017-03-09 주식회사 씨케이앤비 서버 컴퓨팅 장치 및 이를 이용한 콘텐츠 인식 기반의 영상 검색 시스템
US9411547B1 (en) * 2015-07-28 2016-08-09 Dst Technologies, Inc. Compensation for print shift in standardized forms to facilitate extraction of data therefrom
US10095920B2 (en) * 2016-07-28 2018-10-09 Intuit Inc Optical character recognition utilizing hashed templates
US11416680B2 (en) * 2016-08-18 2022-08-16 Sap Se Classifying social media inputs via parts-of-speech filtering
JP6906946B2 (ja) * 2016-12-22 2021-07-21 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム
GB201708767D0 (en) * 2017-06-01 2017-07-19 Microsoft Technology Licensing Llc Managing electronic documents
US11106867B2 (en) 2017-08-15 2021-08-31 Oracle International Corporation Techniques for document marker tracking
US10599761B2 (en) * 2017-09-07 2020-03-24 Qualtrics, Llc Digitally converting physical document forms to electronic surveys
CN112868001A (zh) * 2018-10-04 2021-05-28 昭和电工株式会社 文档检索装置、文档检索程序、文档检索方法
CN109960738B (zh) * 2019-03-15 2020-12-08 西安电子科技大学 基于深度对抗哈希学习的大规模遥感影像内容检索方法
CN109960737B (zh) * 2019-03-15 2020-12-08 西安电子科技大学 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
US11449545B2 (en) 2019-05-13 2022-09-20 Snap Inc. Deduplication of media file search results
US20210319136A1 (en) * 2020-04-02 2021-10-14 UST Global (Singapore) Pte. Ltd. Verifying authenticity of content of electronic documents
US11908053B2 (en) * 2020-05-29 2024-02-20 Camelot Uk Bidco Limited Method, non-transitory computer-readable storage medium, and apparatus for searching an image database
US11734445B2 (en) * 2020-12-02 2023-08-22 International Business Machines Corporation Document access control based on document component layouts
JP2022170799A (ja) * 2021-04-30 2022-11-11 コニカミノルタ株式会社 文書検索システム、文書検索方法および文書検索プログラム
US11783605B1 (en) * 2022-06-30 2023-10-10 Intuit, Inc. Generalizable key-value set extraction from documents using machine learning models

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1095393A (en) * 1912-12-07 1914-05-05 Harry C Gerlach Safety switch-chain.
US1165070A (en) * 1915-04-12 1915-12-21 Fred O Lake Knife-sharpener.
US1171064A (en) * 1915-08-11 1916-02-08 Lyon Metallic Mfg Company Shelving.
JPS5035379B1 (zh) * 1970-05-25 1975-11-15
US4955066A (en) * 1989-10-13 1990-09-04 Microsoft Corporation Compressing and decompressing text files
US5109433A (en) * 1989-10-13 1992-04-28 Microsoft Corporation Compressing and decompressing text files
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5526444A (en) * 1991-12-10 1996-06-11 Xerox Corporation Document image decoding using modified branch-and-bound methods
US5499294A (en) * 1993-11-24 1996-03-12 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Digital camera with apparatus for authentication of images produced from an image file
US6869023B2 (en) * 2002-02-12 2005-03-22 Digimarc Corporation Linking documents through digital watermarking
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US5542006A (en) * 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
US5812698A (en) * 1995-05-12 1998-09-22 Synaptics, Inc. Handwriting recognition system and method
US5867597A (en) * 1995-09-05 1999-02-02 Ricoh Corporation High-speed retrieval by example
US6587217B1 (en) * 1997-09-15 2003-07-01 International Business Machines Corporation Method for organizing files in a library in a network printing system
US6658623B1 (en) * 1997-09-15 2003-12-02 Fuji Xerox Co., Ltd. Displaying in a first document a selectable link to a second document based on a passive query
JPH1178176A (ja) * 1997-09-17 1999-03-23 Seiko Epson Corp 印刷物発行管理システム、印刷物発行管理方法及びプリンタ
US6009198A (en) * 1997-11-21 1999-12-28 Xerox Corporation Method for matching perceptual shape similarity layouts across multiple 2D objects
US7062497B2 (en) * 1998-01-22 2006-06-13 Adobe Systems Incorporated Maintaining document state history
US6487301B1 (en) * 1998-04-30 2002-11-26 Mediasec Technologies Llc Digital authentication with digital and analog documents
JPH11328417A (ja) * 1998-05-20 1999-11-30 Toshiba Corp 画像処理装置、画像処理方法及び画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
US6523134B2 (en) * 1998-09-18 2003-02-18 International Business Machines Corporation Selective undo
US6363381B1 (en) * 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
US6580806B1 (en) * 1998-11-20 2003-06-17 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage
US6397212B1 (en) * 1999-03-04 2002-05-28 Peter Biffar Self-learning and self-personalizing knowledge search engine that delivers holistic results
US6546385B1 (en) * 1999-08-13 2003-04-08 International Business Machines Corporation Method and apparatus for indexing and searching content in hardcopy documents
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
US6594393B1 (en) * 2000-05-12 2003-07-15 Thomas P. Minka Dynamic programming operation with skip mode for text line image decoding
US7058223B2 (en) * 2000-09-14 2006-06-06 Cox Ingemar J Identifying works for initiating a work-based action, such as an action on the internet
US6928548B1 (en) * 2000-09-29 2005-08-09 Intel Corporation System and method for verifying the integrity of stored information within an electronic device
US7266765B2 (en) * 2001-08-31 2007-09-04 Fuji Xerox Co., Ltd. Detection and processing of annotated anchors
US7747943B2 (en) * 2001-09-07 2010-06-29 Microsoft Corporation Robust anchoring of annotations to content
GB2380277B (en) * 2001-09-28 2005-12-14 Hewlett Packard Co A solid state memory device and a method of document reproduction
US7120299B2 (en) * 2001-12-28 2006-10-10 Intel Corporation Recognizing commands written onto a medium
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
CA2375355A1 (en) * 2002-03-11 2003-09-11 Neo Systems Inc. Character recognition system and method
US7243301B2 (en) * 2002-04-10 2007-07-10 Microsoft Corporation Common annotation framework
JP2003337683A (ja) * 2002-05-17 2003-11-28 Fuji Xerox Co Ltd 印刷物発行管理システム、印刷物検証装置、コンテンツ管理装置
JP2004040246A (ja) * 2002-06-28 2004-02-05 Canon Inc 情報処理装置、情報処理方法
US7360093B2 (en) * 2002-07-22 2008-04-15 Xerox Corporation System and method for authentication of JPEG image data
US20040090439A1 (en) * 2002-11-07 2004-05-13 Holger Dillner Recognition and interpretation of graphical and diagrammatic representations
JP2004180278A (ja) * 2002-11-15 2004-06-24 Canon Inc 情報処理装置、サーバ装置、電子データ管理システム、情報処理システム、情報処理方法、コンピュータプログラム及びコンピュータ読み取り可能な記憶媒体
US7486294B2 (en) * 2003-03-27 2009-02-03 Microsoft Corporation Vector graphics element-based model, application programming interface, and markup language
US7218783B2 (en) * 2003-06-13 2007-05-15 Microsoft Corporation Digital ink annotation process and system for recognizing, anchoring and reflowing digital ink annotations
US7475061B2 (en) 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297319B (zh) * 2005-08-23 2013-02-27 株式会社理光 在电子文档中嵌入热点
CN101292258B (zh) * 2005-08-23 2012-11-21 株式会社理光 混合介质环境的创建和使用的系统和方法
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
US9020183B2 (en) 2008-08-28 2015-04-28 Microsoft Technology Licensing, Llc Tagging images with labels
US8867779B2 (en) 2008-08-28 2014-10-21 Microsoft Corporation Image tagging user interface
CN102132312B (zh) * 2008-08-28 2016-07-06 微软技术许可有限责任公司 用标签标记图像的方法和计算设备
CN102693253A (zh) * 2011-01-26 2012-09-26 波音公司 图像管理和呈现
CN102693253B (zh) * 2011-01-26 2017-08-25 波音公司 图像管理和呈现
CN102955784A (zh) * 2011-08-19 2013-03-06 北京百度网讯科技有限公司 一种基于数字签名对多个图像进行相似判断的设备和方法
CN109740007A (zh) * 2018-08-27 2019-05-10 广州麦仑信息科技有限公司 一种基于图像特征签名的静脉图像快速检索方法
CN109740007B (zh) * 2018-08-27 2022-03-11 广州麦仑信息科技有限公司 一种基于图像特征签名的静脉图像快速检索方法
CN109167977A (zh) * 2018-10-28 2019-01-08 广州中元软件有限公司 一种监控视频仿生长期保存方法
CN109167977B (zh) * 2018-10-28 2020-10-23 广州中元软件有限公司 一种监控视频仿生长期保存方法
CN109933691A (zh) * 2019-02-11 2019-06-25 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质
CN109933691B (zh) * 2019-02-11 2023-06-09 北京百度网讯科技有限公司 用于内容检索的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
EP1555626A2 (en) 2005-07-20
US7475061B2 (en) 2009-01-06
JP4718841B2 (ja) 2011-07-06
CN100565506C (zh) 2009-12-02
JP2005251169A (ja) 2005-09-15
EP1555626A3 (en) 2006-02-15
KR20050075301A (ko) 2005-07-20
US20050165747A1 (en) 2005-07-28
KR101027851B1 (ko) 2011-04-07

Similar Documents

Publication Publication Date Title
CN100565506C (zh) 基于图像文档的索引和检索
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
CN1625741A (zh) 可以通过手写检索查询来检索的电子文件管理系统
Nagy Twenty years of document image analysis in PAMI
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US6178417B1 (en) Method and means of matching documents based on text genre
JP4577931B2 (ja) ドキュメント処理システム及びインデックス情報獲得方法
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
US20090116746A1 (en) Systems and methods for parallel processing of document recognition and classification using extracted image and text features
EP1993064A2 (en) Image processing apparatus and image retrieval method
EP1917627B1 (en) Classifying regions defined within a digital image
CN1542656A (zh) 信息处理装置、信息处理方法、存储介质及程序
US20110194736A1 (en) Fine-grained visual document fingerprinting for accurate document comparison and retrieval
CN1900933A (zh) 图像搜索系统、图像搜索方法和存储介质
JP2009022009A (ja) 書類セキュリティ又は注釈のためのインビジブルジャンクション特徴の認識
JP2011018316A (ja) 文書区分識別用の区分モデルを生成するための方法及びプログラム、文書の区分を識別するための方法及びプログラム、及び画像処理システム
CN104346415A (zh) 图像文档命名的方法
CN1336604A (zh) 中文古籍数字化及内容检索自动化方法和系统
US20060176521A1 (en) Digitization of microfiche
CN1577382A (zh) 文档交接系统以及文档交接方法
WO2001013279A9 (en) Word searchable database from high volume scanning of newspaper data
CN1107280C (zh) 中英文表单的识别系统及识别方法
CN1112653C (zh) 图像处理方法及设备
JP2005149323A (ja) 画像処理システム及び画像処理装置並びに画像処理方法
JP4047222B2 (ja) 画像処理装置及びその制御方法、プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160801

Address after: Grand Cayman, Georgetown, Cayman Islands

Patentee after: IValley Holding Co., Ltd.

Address before: Washington State

Patentee before: Micro soft technique license Co., Ltd