CN1106620C - 信息处理方法和设备 - Google Patents

信息处理方法和设备 Download PDF

Info

Publication number
CN1106620C
CN1106620C CN95107055A CN95107055A CN1106620C CN 1106620 C CN1106620 C CN 1106620C CN 95107055 A CN95107055 A CN 95107055A CN 95107055 A CN95107055 A CN 95107055A CN 1106620 C CN1106620 C CN 1106620C
Authority
CN
China
Prior art keywords
character
codes
picture
candidate
character code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN95107055A
Other languages
English (en)
Other versions
CN1121605A (zh
Inventor
椎山弘隆
正木克己
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1121605A publication Critical patent/CN1121605A/zh
Application granted granted Critical
Publication of CN1106620C publication Critical patent/CN1106620C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

当由OCR识别的文本被寄存且这些文本被一个检索字检索时,可消除一种状况,即在用OCR识别时依靠错误识别不能进行检索的状况。本发明之目的在于实现这样一种处理:不因上述状况而把负担加于操作者或设备。在此提供一种OCR处理器(2),用于识别储存的图象信息和输出识别的结果,同时按照似然度转换将作为识别结果而输出的候选字符数;和一种资料检索器(3),用于形成字符串以便从识别结果检索且作为检索文件而寄存。

Description

信息处理方法和设备
本发明涉及一种信息处理方法和设备,它利用一种字符识别功能,例如OCR(光学字符识别)功能或类似功能,把输入图象信息转换成一种文本。
本发明还涉及另一种信息处理方法和设备,它能够从一种文本形成一个检索数据库,该文本是利用一种字符识别功能,例如OCR功能或类似的功能,通过转换输入图象信号而得到的;它还能够检索所需要的数据。
至今,当一个输入图象被一种OCR功能或类似功能识别并被转换成一种文本时,对于一个其中仅得出低相似性候选字符的输入字符,作为一种错误识别用的对策,就把相似性低的事实通知操作者,他可判断该候选字是正确还是错误。当它为错误时,就敦促操作者手工校正该错误的字符,并输入一个正确的字符。
然而,根据这样一种方法,操作者必须不仅输入一个要转换成文本的图象,而且还要进行校正操作,因此存在着操作者感觉有负担的缺点。
还有一种方法,藉此不仅可输出字符识别的结果,还可把由该字符识别得出的一个候选字符对照一本字典或一个知识库,从而校正一个被错误地识别的字符,而不必求助于操作者。
然而,上述方法也存在一些缺点:该字典或知识库必须存入校正过程用的一个存储器,并且这样一种使用它们的校正过程是复杂的,所花时间长,成为该设备的负担。
本发明的一个目的在于消除操作者或设备的负担,用于把一个在OCR操作或类似操作的字符识别过程中可能产生的被错误地识别的字符校正成一个正确的字符;并使它能够有效地用于其他过程。
本发明的另一个目的在于形成一个能够高质量地检索的数据库,而不必执行一种额外负担的过程,例如对在OCR操作或类似操作的字符识别过程中可能发生的被错误地识别的字符进行校正的过程。
本发明提供了一种图像数据处理方法,包括步骤:输入包含字符图像数据的图像数据;从输入的图像数据中提取一个字符图像;确定多个字符代码作为所提取字符图像的可能候选;产生一个线性的字符代码串,该代码串包括多个选字符代码以及一个与所提取字符图像相邻的字符图像的字符代码;存储该线性的字符代码串。
本发明还提供了一种图像数据处理方法,包括步骤:输入包含字符图像数据的图像数据;将从输入的图像数据中提取的字符图像与字典数据相比较,以得到多个字符代码以及所提取字符图像的字符代码的似然性;确定对应于每个所提取字符图像的多个候选字符代码,该多个候选字符代码根据在所述比较步骤中得到的似然性来确定;根据按照所得到的似然性确定的多个候选字符代码,和按照与所提取字符图像相邻的字符图像的字符代码确定的多个候选字符代码的组合,生成多个字符代码串;利用所输入的图像数据来存储多个生成的字符代码串,用作搜索密钥,以搜索和恢复输入图像数据。
此外,本发明提供了一种图像数据处理设备,包括:输入包含字符图像数据的图像数据的装置;从输入的图像数据中提取一个字符图像的装置;确定多个字符代码作为所提取字符图像的可能候选的装置;产生一个线性的字符代码串的装置,该代码串包括多个选字符代码以及一个与所提取字符图像相邻的字符图像的字符代码;存储该线性的字符代码串的装置。
本发明还提供了一种图像数据处理设备,一种图像数据处理设备,包括:输入包含字符图像数据的图像数据的装置;将从输入的图像数据中提取的字符图像与字典数据相比较,以得到多个字符代码以及所提取字符图像的字符代码的似然性的装置;确定对应于每个所提取字符图像的多个候选字符代码的装置,该多个候选字符代码根据在所述比较步骤中得到的似然性来确定;根据按照所得到的似然性确定的多个候选字符代码,和按照与所提取字符图像相邻的字符图像的字符代码确定的多个候选字符代码的组合,生成多个字符代码串的装置;利用所输入的图像数据来存储多个生成的字符代码串,用作搜索密钥,以搜索和恢复输入图像数据的装置。
根据如上所述的本发明,可避免在OCR识别似然值低和判字该识别没有把握的情况下,识别候选者被缩减为一个的状况;可选择相应于识别似然值的多个最佳识别候选者;并可储存有效识别候选者信息,加以有效利用,而不必放弃它。
如上所述,根据本发明,可免除识别结果的手工校正操作,可在操作者不介入的情况下进行通过OCR的从图象输入到图象数据与文本数据储存的处理,可减轻设备的处理负担,可提高处理速度,并可提供便宜的设备。
如上所述,根据本发明,在存在用于一个字符的一个输入图象的多个识别候选者的情况下,诸字符结合于那些在上述字符前后的字符,并且它们被发展,且多个索引被形成;因此能够减少由于错误识别引起的检索漏失。
图1是一个OCR处理用的流程图;
图2是一个用于资料检索的检索文件形成过程的流程图;
图3是一个资料检索处理用的流程图;
图4是一个实施例中信息处理设备的结构方块图;
图5是一个在没有事先形成检索文件的情况下检索处理用的流程图。
现在在下文详细描述本发明的一个实施例。
图4是一个本实施例中处理系统的构造方块图。
一个图象扫描器1是对用作识别目标的资料的初始图象进行光学读出用的图象输入装置。输入图象的方法不限于这样一种用图象扫描器或类似装置对图象进行光学读出的方法,而是也可能对用数字化仪、鼠标器或能够输入坐标系的类似装置这样的输入装置输入的手写字符图象进行输入。一个键盘/鼠标器5是用于操作者输入各种命令或指令信息的输入装置。该键盘或鼠标器还输入一个检索字和一个检索过程中的检索条件。一个显示器6是象CRT(阴极射线管)或液晶显示器之类的显示装置,用于显示从键盘/鼠标器5输入的信息、从图象扫描器1或类似装置输入的图象信息、该过程的进展、和该过程的结果。一个外存储器4是存储装置,用于存储从图象扫描器输入的图象数据、文本信息和检索文件。一个计算机10通过一个CPU(中央处理机)10-1的控制进行各种信息处理。将在下文描述的流程图所示各种信息处理的控制程序,已被存入一个存储器10-2。CPU10-1按照该控制程序执行和控制各种处理。一个用于字符识别的字典也已存入存储器10-2。一个按照需要由外存储装置或类似装置读出的控制程序,也能作为存入存储器10-2的控制程序而被使用。在本实施例中,提供一个OCR处理器2和一个资料检索器3,以执行由计算机10执行的主要处理,现在解释本实施例。字符识别方法不限于OCR处理,只要一个字符是由数字化仪、鼠标器或类似装置输入的笔画组成的手写字符,就足以提供一种处理单元,以便进行一种适合这样一个字符的在线字符识别。
一种把用图象扫描器1或类似装置输入的初始图象的图象数据转换成文本信息的处理,示于图1流程图中,现在予以描述。
把存入外存储器4、由图象扫描器1或类似装置输入的图象数据,输入到OCR处理器2(S1)中。作一种检验,看字符数据是否包含于输入图象数据中(S2)。如果是,就提取一个字符的图象数据(S3)。把所提取的一个字符对照字典,从此得出多个用作识别结果的字符代码,和一个作为与每个字符代码所指示的字典数据的相似性的似然值(likehood)LH(S4)。在作为S4中识别结果得出的字符代码中,使最大似然值LHMAX对照一个存入存储器10-2的预定有效似然性判断阈值Th1(S5)。当似然值等于或大于Th1时,就判定该识别结果是正确的,并且把这样一个在多个字符代码中的字符代码作为识别结果而输出(S6)。当在S5中似然值小于Th1时,为了存储用于一个字符代码图象数据的多个识别结果,一个定界符就作为标识(下文叫作ID)信息而输出(S7)。在S8中,处理流程根据操作者指定的方式,或由系统或S4中所得似然值设定的方式,进到S9或S11。在S9,在S4中所得的多个似然值中,一个对应于大于存储器10-2中所存的一个预定低识别似然性判断阈值Th2的似然值的字符代码,作为一个相应于字符代码图象数据的结果而输出。在S11,在S4中得出的多个字符代码中,最大识别候选者数目Nmax的字符代码,作为相应于一个字符代码图象数据的结果,按照来自有最大似然性的字符代码的顺序,相继地输出的。当相应于一个字符代码图象数据的结果被输出时,就输出一个定界符,作为指示字符结果结束的ID信息(S10)。
当一个字符代码图象数据的识别和其结果的输出被完成时,重复S3至S11中的处理,同时更新用作目标的图象数据,直至在S2中判定不包含剩余的字符数据为止。
在S6至S11中输出的这种代码信息是作为文本信息相继地存入外存储器中的。
通过这样的处理,可避免这样一种状况,即识别结果在OCR识别似然值低且在识别中存在不可置信的情况下缩为一个;能够选择多个相应于识别似然性的最佳识别候选者;并且能够有效地储存和使用有效识别候选者信息,而不必放弃它。在指令形成一个检索文件以便由上述处理储存的文本信息能够用于尔后检索的情况下,一种检索文件形成过程示于图2流程图中,且将予以描述。
在指令形成用于外存储器4中储存的文本信息的检索文件的情况下,在指定的文本数据被寄存于检索文件时索引用的一种字符键被指定(S21)。把指定的文本信息从外存储器4装入资料检索器3(S22)。从装入的文本信息读出一个字符代码的数据(S24)。当判定该字符代码表示一个定界符时(S25),直到下一个定界符的多个候选者与到此为止的字符串相结合,从而得出多个字符键。当在S25中判定字符代码不表示一个定界符时,就把这样一个字符代码在其终端加到字符键的字符串中(S27)。重复进行S25至S27中的处理,直至在S28中判字符键被完成为止。
当在S28中判定字符键被完成时,把形成的字符键(单个或多个)加到外存储器4中的检索文件中的索引信息中(S29)。
重复进行S24至S29中的处理,直至在S23中处理完全部字符数据为止,从而完成该装入文本信息的检索文件的形成。
通过这样一些处理,使多个识别候选者字符结合于那些在来自通过识别输入图象得出的文本信息的字符前后的字符,并且按照要使用的那种索引字符键发展出字符串,从而预先形成一个索引。因此,可能减少由于错误识别而引起的检索漏失。
通过使用按上述方法形成的检索文件而执行的检索处理,示于图3的流程图中,现在予以描述。
按照检索处理指令输入一个检索字(S31)。把该输入检索字分析成适合于检索处理的检索键(S32)。使该检索键比较外存储器4中的检索文件(S33)。当找到一个与该检索键匹配的索引时,相应于这样一个索引的资料地址信息就返回到应用侧(S34)。
由资料地址信息规定的且存在外存储器4中的图象数据,是作为检索结果显示于显示器6的。
图5的流程图说明这样一些处理:使字符结合于那些在来自文本信息的识别候选者字符组前后的字符,并且每当指令进行检索处理时使其发展,从而比较所输入的检索字,而不必预先形成检索文件。
在指令要形成用于在外存储器4中存储的文本信息的检索文件的情况下,一种在所指令文本数据被寄存于检索文件时索引用的字符键被指定(S41),一个检索字被输入(S42)。所输入的检索字被分析成适合于检索处理用的检索键(S43)。把所指令的文本信息从外存储器4装入资料检索器3(S44)。从所装入的文本信息中读出一个字符的数据(S46)。当判字该字符代码表示定界符时(S47),多个直到下一个定界符的候选者便同到此为止的字符串相结合,从而发展出多个字符键。当在S47中判定不包含定界符时,就把这样一个字符在其终端加到字符键的字符串中(S49)。重复进行S47到S49中的处理,直到在S50中判定字符键被完成为止。
当在S50中判定已完成字符键时,所形成的字符键(单个或多个)和在S43中得出的检索键被比较(S51)。当它们相同时(S52),一个其中作为检索结果而储存的资料图象数据的资料地址被输出(S53)。
至于数据库,通过类似于上述处理的处理,还形成多个记录,因此通过使用该数据库,可能以小的漏失率进行检索。
现在说明一个具体的实例。
现在假定,在一份资料中包含一个如“DATA”的句子。
现在假定,当上述句子由图象扫描器1输入,且在初始识别步骤S4中由OCR处理器2识别“T”时,尽管事实上其他字符的识别似然值都等于或大于Th1,但这样一个字符的识别似然值小于Th1。还假定,识别候选者具有类似的小于Th2的似然值。结果,在S8中选择S11的处理,并且按照来自具有高似然值的候选者的顺序依次地输出诸Nmax候选者。
假定因此而输出4个候选者“I”、“T”、“Y”和“J”。
OCR处理器2按下述格式描述上述多个候选者字符。在这个实例中,当要在S7和S10中输出的定界符假定为☆时,得出下述格式。
☆〔候选者数〕〔候选者字符1〕
〔候选者字符2〕〔候选者字符3〕
                           …☆
因此,在实例中相应于“T”输出上述4个候选者,并且在S5中判定,其他字符的似然值都大于Th1。在有着最大似然值的一个字符在S6中作为一个候选字符而被输出的情况下,“DATA”表达式如下所示。
“DA☆4ITYJ☆A”这样一个字符代码组是作为文本信息而存入外存储器的。
另一方面,资料检索器3解释该格式,并按图2流程形成一个检索文件。
DAIA
DATA
DAYA
DAJA
因此,当从键盘输入象“DATA”这样的检索字并且资料检索器3按照该检索字执行资料检索处理时,还能检索该资料。
在本实施例中,虽然解释了用于资料检索的例子,但本发明还能够用于使用数据库的检索。
本发明也能用于通过OCR析取资料关键字,页键字,或类似字。
此外,对于借助OMR(光标记阅读器)或条形码的光阅读装置的部分信息的识别似然性为低的情况,也能通过一种类似的方法应用本发明。

Claims (30)

1.一种图像数据处理方法,包括步骤:
输入包含字符图像数据的图像数据;
从输入的图像数据中提取一个字符图像;
确定多个字符代码作为所提取字符图像的可能候选,其中这些候选字符代码具有预定值之内的多个似然性值;
产生一个线性的字符代码串,该代码串包括多个选字符代码以及一个与所提取字符图像相邻的字符图像的字符代码;
存储该线性的字符代码串。
2.根据权利要求1的方法,其中有多个与所提取字符图像相邻的字符图像,并且所产生的线性字符代码串包括每个相邻字符图像的字符代码。
3.根据权利要求1的方法,其中所述存储步骤存储所产生的线性字符串,以用于将在输入图像数据上执行的搜索处理。
4.根据权利要求1的方法,其中根据将各个字符代码的似然性与一个阈值相比较所得到的结果,来确定多个候选字符代码。
5.根据权利要求1的方法,还包括产生与多个候选字符代码中的字符代码数量相关的信息。
6.根据权利要求1的方法,其中该线性字符代码串上的多个候选字符代码是通过ID信息来区别的,该ID信息可以识别对应于所提取字符图像的信息。
7.根据权利要求1的方法,还包括:
将该多个候选字符代码中的每一个和与所提取字符图像相邻的字符图像的字符代码相组合,以形成相应的候选字;
将相应的候选字与一个指定检索字相比较;以及
识别对应于相应候选字的输入图像数据,其中相应的候选字对应于该指定检索字。
8.根据权利要求1的方法,其中通过光学字符识别方法,将该多个字符代码确定为可能的候选。
9.根据权利要求1的方法,其中通过在线字符识别方法,将该多个字符代码确定为可能的候选。
10.一种图像数据处理方法,包括步骤:
输入包含字符图像数据的图像数据;
将从输入的图像数据中提取的字符图像与字典数据相比较,以得到多个字符代码以及所提取字符图像的字符代码的似然性;
确定对应于每个所提取字符图像的多个候选字符代码,该多个候选字符代码根据在所述比较步骤中得到的似然性来确定;
根据按照所得到的似然性确定的多个候选字符代码,和按照与所提取字符图像相邻的字符图像的字符代码确定的多个候选字符代码的组合,生成多个字符代码串;
利用所输入的图像数据来存储多个生成的字符代码串,用作搜索密钥,以搜索和恢复输入图像数据。
11.根据权利要求10的方法,其中通过将所述似然性与一个阈值相比较得到的结果,来确定所述多个候选字符代码。
12.根据权利要求10的方法,其中利用所述输入图像数据存储的多个所生成的字符代码串通过ID信息,与利用输入图像数据存储的其他信息区别开,该ID信息可以识别对应于所提取的字符图像的信息。
13.根据权利要求10的方法,其中将所述存储的多个生成字符代码中与一个指定搜索字相比较,并且识别利用字符代码串所存储的图像数据,其中该字符代码对应于所述搜索字。
14.根据权利要求10的方法,其中通过光学字符识别方法,来比较所述的字符图像以及所述的字典数据。
15.根据权利要求10的方法,其中通过在线字符识别方法,来比较所述的字符图像以及所述的字典数据。
16.一种图像数据处理设备,包括:
输入包含字符图像数据的图像数据的装置;
从输入的图像数据中提取一个字符图像的装置;
确定多个字符代码作为所提取字符图像的可能候选的装置,其中这些候选字符代码具有预定值之内的多个似然性值;
产生一个线性的字符代码串的装置,该代码串包括多个选字符代码以及一个与所提取字符图像相邻的字符图像的字符代码;
存储该线性的字符代码串的装置。
17.根据权利要求16的设备,其中有多个与所提取字符图像相邻的字符图像,并且所产生的线性字符代码串包括每个相邻字符图像的字符代码。
18.根据权利要求17的设备,其中所述存储装置存储所产生的线性字符串,以用于将在输入图像数据上执行的搜索处理。
19.根据权利要求16的设备,其中根据将各个字符代码的似然性与一个阈值相比较所得到的结果,来确定多个候选字符代码。
20.根据权利要求16的设备,还包括产生与多个候选字符代码中的字符代码数量相关的信息。
21.根据权利要求16的设备,其中该线性字符代码串上的多个候选字符代码是通过ID信息来区别的,该ID信息可以识别对应于所提取字符图像的信息。
22.根据权利要求16的设备,还包括:
将该多个候选字符代码中的每一个和与所提取字符图像相邻的字符图像的字符代码相组合,以形成相应候选字的装置;
将相应的候选字与一个指定检索字相比较的装置;以及
识别对应于相应候选字的输入图像数据的装置,其中相应的候选字对应于该指定检索字。
23.根据权利要求16的设备,其中通过光学字符识别方法,将该多个字符代码确定为可能的候选。
24.根据权利要求16的设备,其中通过在线字符识别方法,将该多个字符代码确定为可能的候选。
25.一种图像数据处理设备,包括:
输入包含字符图像数据的图像数据的装置;
将从输入的图像数据中提取的字符图像与字典数据相比较,以得到多个字符代码以及所提取字符图像的字符代码的似然性的装置;
确定对应于每个所提取字符图像的多个候选字符代码的装置,该多个候选字符代码根据在所述比较步骤中得到的似然性来确定;
根据按照所得到的似然性确定的多个候选字符代码,和按照与所提取字符图像相邻的字符图像的字符代码确定的多个候选字符代码的组合,生成多个字符代码串的装置;
利用所输入的图像数据来存储多个生成的字符代码串,用作搜索密钥,以搜索和恢复输入图像数据的装置。
26.根据权利要求25的设备,其中通过将所述似然性与一个阈值相比较得到的结果,来确定所述多个候选字符代码。
27.根据权利要求25的设备,其中利用所述输入图像数据存储的多个所生成的字符代码串通过ID信息,与利用输入图像数据存储的其他信息区别开,该ID信息可以识别对应于所提取的字符图像的信息。
28.根据权利要求25的设备,其中将所述存储的多个生成字符代码中与一个指定搜索字相比较,并且识别利用字符代码串所存储的图像数据,其中该字符代码对应于所述搜索字。
29.根据权利要求25的设备,其中通过光学字符识别方法,来比较所述的字符图像以及所述的字典数据。
30.根据权利要求25的设备,其中通过在线字符识别方法,来比较所述的字符图像以及所述的字典数据。
CN95107055A 1994-06-16 1995-06-16 信息处理方法和设备 Expired - Fee Related CN1106620C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP134194/94 1994-06-16
JP134194/1994 1994-06-16
JP6134194A JPH087033A (ja) 1994-06-16 1994-06-16 情報処理方法及び装置

Publications (2)

Publication Number Publication Date
CN1121605A CN1121605A (zh) 1996-05-01
CN1106620C true CN1106620C (zh) 2003-04-23

Family

ID=15122638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN95107055A Expired - Fee Related CN1106620C (zh) 1994-06-16 1995-06-16 信息处理方法和设备

Country Status (5)

Country Link
US (1) US5905811A (zh)
EP (1) EP0687991B1 (zh)
JP (1) JPH087033A (zh)
CN (1) CN1106620C (zh)
DE (1) DE69519256T2 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678683B1 (en) 1996-12-27 2004-01-13 Canon Kabushiki Kaisha Document management system using an access-limited character train and password, and a method and computer-readable medium therefor
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JP3566478B2 (ja) * 1996-12-27 2004-09-15 キヤノン株式会社 文書セキュリティ管理システム、文書セキュリティ管理方法および文書検索装置
US6269188B1 (en) * 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6243501B1 (en) 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
JP4125273B2 (ja) * 2004-08-24 2008-07-30 キヤノン株式会社 画像処理装置及びその方法、プログラム
JP4561474B2 (ja) * 2005-05-24 2010-10-13 株式会社日立製作所 電子化文書保管システム
CN100356392C (zh) * 2005-08-18 2007-12-19 北大方正集团有限公司 一种字符识别的后处理方法
US8155444B2 (en) * 2007-01-15 2012-04-10 Microsoft Corporation Image text to character information conversion
JP2010146185A (ja) * 2008-12-17 2010-07-01 Sharp Corp 画像処理装置、画像読取装置、画像送信装置、画像処理方法、プログラムおよびその記録媒体
US8280196B2 (en) * 2009-05-12 2012-10-02 Canon Kabushiki Kaisha Image retrieval apparatus, control method for the same, and storage medium
JP5230525B2 (ja) * 2009-05-25 2013-07-10 キヤノン株式会社 画像検索装置およびその方法
JP5507962B2 (ja) * 2009-11-05 2014-05-28 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
CN101788849B (zh) * 2009-12-31 2011-11-16 优视科技有限公司 一种用于移动通讯设备系统的光学字符识别输入方法
JP5820236B2 (ja) 2011-10-28 2015-11-24 キヤノン株式会社 画像処理装置及びその制御方法
CN103697838A (zh) * 2013-12-24 2014-04-02 天津森宇科技发展有限公司 一种基于机器视觉技术的贴片件pin针平整度检测设备
JP7017027B2 (ja) 2017-03-17 2022-02-08 富士フイルムビジネスイノベーション株式会社 検索装置、検索プログラム、および検索システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0463471A2 (en) * 1990-06-13 1992-01-02 National Computer Systems, Inc. Image processing system for documentary data
EP0531060A2 (en) * 1991-08-29 1993-03-10 Canon Kabushiki Kaisha Image processing method and apparatus

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
DE68928703T2 (de) * 1988-07-20 1998-12-10 Fujitsu Ltd Buchstabenerkennungsvorrichtung
US5265174A (en) * 1989-03-03 1993-11-23 Canon Kabushiki Kaisha Pattern recognition apparatus
US5261112A (en) * 1989-09-08 1993-11-09 Casio Computer Co., Ltd. Spelling check apparatus including simple and quick similar word retrieval operation
US5369577A (en) * 1991-02-01 1994-11-29 Wang Laboratories, Inc. Text searching system
US5237627A (en) * 1991-06-27 1993-08-17 Hewlett-Packard Company Noise tolerant optical character recognition system
JP3190074B2 (ja) * 1991-09-11 2001-07-16 株式会社東芝 手書き入力装置
US5315668A (en) * 1991-11-27 1994-05-24 The United States Of America As Represented By The Secretary Of The Air Force Offline text recognition without intraword character segmentation based on two-dimensional low frequency discrete Fourier transforms
EP0555024B1 (en) * 1992-02-07 2000-05-17 Canon Kabushiki Kaisha Method and apparatus for pattern recognition
US5454046A (en) * 1993-09-17 1995-09-26 Penkey Corporation Universal symbolic handwriting recognition system
US5524066A (en) * 1994-03-31 1996-06-04 Xerox Corporation Text recognition by predictive composed shapes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0463471A2 (en) * 1990-06-13 1992-01-02 National Computer Systems, Inc. Image processing system for documentary data
EP0531060A2 (en) * 1991-08-29 1993-03-10 Canon Kabushiki Kaisha Image processing method and apparatus

Also Published As

Publication number Publication date
US5905811A (en) 1999-05-18
EP0687991A3 (zh) 1996-01-03
CN1121605A (zh) 1996-05-01
DE69519256T2 (de) 2001-04-05
DE69519256D1 (de) 2000-12-07
EP0687991A2 (en) 1995-12-20
JPH087033A (ja) 1996-01-12
EP0687991B1 (en) 2000-11-02

Similar Documents

Publication Publication Date Title
CN1106620C (zh) 信息处理方法和设备
US6950533B2 (en) Sorting images for improved data entry productivity
US6917709B2 (en) Automated search on cursive records not having an ASCII index
JP4364914B2 (ja) 画像文書処理装置、画像文書処理方法、プログラム、及び記録媒体
JP2726568B2 (ja) 文字認識方法及び装置
JP2713622B2 (ja) 表形式文書読取装置
US6178417B1 (en) Method and means of matching documents based on text genre
US20010053252A1 (en) Method of knowledge management and information retrieval utilizing natural characteristics of published documents as an index method to a digital content store
KR100487386B1 (ko) 부수 모델에 기초한 초서체 한자 수기 주석의 검색법
CN1488120A (zh) 用于识别手写字符的方法、装置和计算机程序
JP3452774B2 (ja) 文字認識方法
CN86105459A (zh) 输入处理系统
JPH1055371A (ja) 文書探索および検索システム
JP4649512B2 (ja) 文字列検索方法およびその装置
CN115116082B (zh) 一种基于ocr识别算法的一键成档系统
JPH07152774A (ja) 文書検索方法および装置
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JP3673553B2 (ja) ファイリング装置
Nagasudha et al. Key word spotting using HMM in printed Telugu documents
JPH113401A (ja) 情報処理装置及びその方法
JPH06223121A (ja) 情報検索装置
JP2009110204A (ja) 文書処理装置、文書処理システム、文書処理方法及び文書処理プログラム
CN117909760A (zh) 一种视频文本处理方法、装置和电子设备
JP2006343932A (ja) 情報検索システム及び検索方法
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20030423

Termination date: 20140616

EXPY Termination of patent right or utility model