CN1095145C

CN1095145C - 特征提取方法

Info

Publication number: CN1095145C
Application number: CN95117537A
Authority: CN
Inventors: 内山幸央
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1994-11-18
Filing date: 1995-11-17
Publication date: 2002-11-27
Anticipated expiration: 2015-11-17
Also published as: JPH08194780A; CN1151056A; US5911005A

Abstract

本发明公开了一种特征提取方法，其是为抑制因格网大小带来值的变化，而对在各被分割的格网区域提取的特征量进行适当的加权。其中，区域分割部在格网区域中分割输入图形，各区域的分割位置存储在分割位置存储部不同区域特征量提取部从格网区域提取特征向量，不同区域特征量加权部依据各格网区域的各边的长度、对角线的长度、及面积进行特征量的加权。

Description

特征提取方法

本发明涉及一种在字符识别中适当地进行特征量加权的特征提取方法。

将输入字符图形分成格网区域，提取每一格网区域的特征量，将这些特征量集中做为字符图形整体的特征量的字符识别方法是公知的。例如，计算作为特征量而包含在各格网区域内的黑象素的个数，或者对构成字符图形的轮廓的象素图形指定定向码，并使用根据计算包含在各格网区域内的各定向码的数目而做成的定向码直方图来识别字符。

在用这样的特征量进行识别时，重要的是，在相同的字种之间，黑色素和定向码总是设置在同样的格网中，然而，特别是在手写字符时，由于图形的变形。有可能使被设置的格网区域不同。对此用图5来进行说明，图5(a)、图5(b)是对同是“井”字符图形，进行4×4的区域分割。在图形(a)和图形(b)中，不含黑象素的格网以及设置有竖2画，横2画的格网有很大不同。也就是说，尽管图形(a)和图形(b)是同一字，但它们的特征量却偏离很大，由此成为降低识别率的原因。

作为解决这种问题的一种方法，可以利用“山田博三等的非线性归一化的改善”，昭和63年电子情报通信学会全国春季大会，D-439，P.1-182”以及特开平1-116892号公报中记载的非线性归一化。这种非线性归一化是将字符图形的稠密的地方展开，并将突出的线段缩小，由此进行图形整形。对图5的图形(a)和图形(b)进行非线性归一化后，分别被整形为图6(a)、(b)所示的那样，“井”字符图形设置在大致相同的格网上。因此，降低了特征量的偏离。

然而，过去的非线性归一化方法是以局部性的不同倍率来改变图像的倍率，而使字符线的连接变的不自然，使轮廓混乱并出现杂波等，很多都使图形失去了平滑度。为了解决这种问题，需要进行函数值的插值和施行一些图象处理来弥补平滑度，由此，也导致出现处理时间变长和增大计算装置这样的问题。例如，在特开平3-286390号公报中所述字符的非线性归一化方法中，提出了平滑的非线性变换的方案，但为此必须求出如花键函数那样的插值函数。

另一方面，不用进行图形的整形，而是根据字符图形变动格网区域的分割位置，也能够抑制特征量的偏离。图7(a)、图7(b)中，在图形密集处缩小格网的宽度，并在稀疏处扩大格网的宽度而进行分割，其结果，1个图形被设置在大致相同的格网上。

作为一带有这种变动的区域分割方式的一个例子，提出特开昭63-14291号公报及特开昭63-16394号公报中所述的方法。用这种方法，首先，提取字符图形的特征(例如指定定向码等)，然后，在子区域中分割字符指定图形。并均等地分配特征量。在这里，子区域与格网区域相比被分割成数目更多更细小。图4(a)是进行4×4区域分割的例子，为了均等地分配特征量，在子区域段可以得到对应字符图形局部的疏密的分割。

在上述发明中，根据特定的规则，通过在各个格网区域中，分配1个以上的子区域，并通过在特定相邻的格网区域中分配1个以上共同的子区域。将子区域汇集中在比其更少的格网区域里。例如，可以从图4(a)的子区域集中于(b)中所示3×3的格网区域。由此，通过在适当的位置上对应字符图形进行区域分割，并且通过在相邻的格网间带有相当于子区域的宽度重叠，而将带有变形和脱位的图形设置在适当的格网上。

但是，用上述变动分割位置的方法，由于一般各个格网区域的大小不同，所以各格网区域中提取的特征量的值域将产生偏离。做为特征量的例子，考虑包含在各个格网区域内的黑象素的数目，其可取值是从零到各格网的面积(即包含在格网中的全部象素的数目)。

因此，关于2种图形，在比较一定的格网时，既使都是全部被黑色素占据的情况，如果格网的大小不同，则特征量的值也将不相同。相反，尽管2种图形规定的格网的大小不同，若任一个格网都含有相同数目的黑色素则认为他们具有相同的特征量值。

这样出现的问题是，一旦特征量的值受格网大小的影响，将会在同一字间，特征量的值也产生大的偏离，其结果，导致降低识别率，变动区域分割的效果并未充分地发挥。

本发明的目的是提供一种特征提取方法，在进行相互大小不同的区域分割的特征提取方法中，对于由各自的格网区域提取的特征量，为了抑制随格网大小的值的变动，而进行适当的加权。

为达到上述目的，本发明采取的技术方案如下：

本发明提供一种特征提取方法，将输入字符图形分割成矩形的格网区域，将从被分割的各格网区域提取出的特征向量汇集后，做为所述输入字符图形的特征向量，其特征在于：在从上述被分割的各格网区域提取出特征向量后，根据构成上述被分割的各格网区域的边或对角线的长度，进行特征向量的加权，然后汇集特征向量，做为输入字符图形的特征向量。

本发明的另一种特征提取方法，将输入字符图形分割成矩形的格网区域，将从被分割的各格网区域提取出的特征量汇集后做为所述输入字符的图形的特征量，其特征在于：在从上述被分割的各格网区域提取出特征向量后，根据上述被分割的各格网区域的面积，进行特征向量的加权，然后汇集特征向量，做为输入字符图形的特征向量。

以均匀地分配在将输入字符图形投影到水平轴和垂直轴时的黑象素数目的积分分布，来进行所述格网区域的分割的。

以均匀地分配在将输入字符图形投影到水平轴和垂直轴时的字符轮廓象素数目的积分分布，来进行所述格网区域的分割。

以均匀地分配在将输入字符图形投影到水平轴和垂直轴时的笔划数的积分分布，进行所述格网区域的分割。

上述格网区域的分割是通过在比特征量被均匀地分配那样的格网区域数更多的子区域中分割输入字符图形，并在邻近的格网区域中分配共同的子区域，而将所述子区域汇集于格网区域中的区域分割方法。

本发明具有以下优良的效果：

如以上的说明，根据本发明，既使分割的格网区域的大小不同由于适当地进行特征量的加权，在匹配部可以正确估算特征量的值。特别是因为可以抑制相同字符间特征量的偏离。所以能够降低错误识别。并且，由于不需用以不同局部的倍率来改变图形的倍率，而是用特征量加权这种简单的计算就可得到相等于变倍的效果，因此可以省去非线性归一化程序，并可以不需用进行字符图形整形的时间和装置。

以下，参照附图对本发明的实施例做具体说明。

图1是表示本发明实施例的构成框图。

图2是区域分割的流程图。

图3是表示区域分割的实例。

图4(a)表示子区域的例子，(b)表示将子区域集中于格网区域的实例。

图5(a)、图5(b)表示4×4区域中被分割字符图形的实例。

图6(a)、图6(b)表示经整形的字符图形的实例。

图7(a)、图7(b)表示对应字符图形变化区域的分割位置的实例。

图8(a)-图8(d)表示4个方向的定向码。

图9(a)、图9(b)表示“木”字的图形。

图10表示黑象素数的分布。

图11表示轮廓象素数的分布。

图12表示笔画数的分布。

以下，以附图来说明本发明的一个实施例。

图1表示本发明实施例的构成。字符图形输入部101由扫描器等构成，读取图像并将字符图形以数字图像输入。前处理部102除去输入字符图形的杂波，进行必要的归一化等前处理。接着，特征提取部(103-107)提取输入字符图形的特征量。

在制作辞库时，图形辞库制作部108，用提取的输入字符图形的特征量，将代表各类字的特征量记录到图形辞库109中。在进行字符识别时，匹配部110进行输入图形的特征量和图形辞库109的匹配，将候选字符群或放弃码等送到识别结果输出部111。

针对特征提取部进行详细说明，区域分割部103，先根据一定的规则(例如，前面提到的公报中揭示的方法)，在格网区域中分割输入图形。这时，各区域的分割位置存储到分割位置存储部107。接着，不同区域特征向量提取部104，从被分割的各格网区域提取特征向量。

不同区域特征向量加权部105，依据用存储的分割位置求得的各格网区域的各边长度、对角线长度或面积，对各格网的特征向量或者特征向量的各成分进行加权。特征向量汇集部106，将各格网区域的特征向量当作输入字符图形整体的特征量汇集，并送到辞库制作部108或者匹配部110。

实施例1

图8(a)表示：在水平方向，定向码＝1的各状态，图8(b)表示在垂直方向，定向码＝2，的各状态，图8(c)表示在右上斜方定向码＝3的各状态，图8(d)表示在右下斜方定向码＝4的各状态。

作为特征向量，将字符图形的轮廓线在水平方向、垂直方向、右上斜、右下斜4个方向量化的定向码，在在各格网区域内分码计算所述定向码的定向码直方图为例。首先，扫描字符图形，注目象素是白象素，而且，当与其上下左右相邻的4个象素是图8中所示的任一种状态时，对此注目象素，根据图8(a)-图8(d)指定1-4个的码(图中的黑色表示黑象素)。例如，注目象素为白色，当其左右的象素和其上方的象素为白色、注目象素的下方的象素为黑象素时(图8的301状态)，指定为码1。

以下进行图形的区域分割，这里为了简单，设格网相互不重叠，且是被分割成3×3的9个矩形。在分割为9个内的区域i(i＝1，2，…，)中，提取的特征向量Xi是4次元，其成分Xi(k)(k＝1，2，3，4)是：

Xi(1)＝(区域i里的码1的个数)

Xi(2)＝(区域i里的码2的个数)

Xi(3)＝(区域i里的码3的个数)

Xi(4)＝(区域i里的码4的个数)

以往就那样汇集这些特征向量(例如、单纯连结Xi，作为36次元的特征向量(X1(1)，X1(2)，X1(3)，X1(4)，…X9(1)，X9(2)，X9(3)，X9(4))，作为字符图形整体的特征量。

图9表示相同“木”字的2个图形。图9(a)中：定向码1的个数是14，定向码2的个数是1，黑象素的个数是7；图9(b)中：定向码1的个数是18，定向码2的个数是1，黑象素的个数是9如果注意右上带有阴影的格网区域，就知道，图9(a)、图9(b)都是“水平字符线从左端一直伸到格网中心附近”。并且，由于字符线的上侧轮廓象素(注目象素)相当于图8(a)的状态301，则被指定定向码1；由于字符线的下侧的轮廓象素(注目象素)相当于图8(a)的状态302，所以被指定定向码1。而且，字符线前端的轮廓象素相当于图8(b)的状态303，则被指定定向码2。

然而，包含在图9(a)中该区域里的定向码1的个数XA是14，而在图9(b)中此区域里的定向码1的个数是18，尽管因变化区域分割得到相互类似的部分图形，而特征量的比XB/XA＝1.29，存在30％之差。

因此，在本实施例中，关于表示水平轮廓的定向码1，在格网宽度上进行加权。因为图9(a)的格网宽度是12，图(b)的格网宽度是16，则：

WA＝XA/12＝14/12＝1.17

WB＝XB/16＝18/16＝1.13加权后的特征量之比：WB/WA＝1.13/1.17＝0.97，修正成接近值1。

同样，有关表示垂直轮廓的定向码2，在格网的纵向长度上进行加权。因为在图9的例中，图(a)，图9(b)的定向码2的数都是1，格网的纵向长度也同样是13，因此，特征量之比在加权前后没有变化。

另外，有关表示倾斜轮廓的定向码3、定向码4，在格网对角线的长度上进行加权。图9(a)的加权为：图9(b)的加权为 (并且，由于此图，所述格网里不存在定向码3，4，尽管加权，特征量仍是零)。

或者在计算对角线的长度时，为了避免进行2次根的计算，对于向定码3、定向码4，也可以用格网的纵和横的长度之和。这时，图9(a)为12+13＝25，图(b)为16+13＝29的加权。当然，也可以将边和对角线的长度相除以后的特征量乘以适当的常数。

将上述的加权以式子表示，则从与格网i相关的定向码直方图Xi(1)-Xi(4)使用该格网横向长度LHi及纵向长度Lvi得到：Wi[1]＝C1·Xi[1]/LHiWi[2]＝C2·Xi[2]/LVi

Wi [3] = C 3 \cdot Xi [3] / \sqrt{{(LHi)}^{2} + {(LVi)}^{2}}

或C3·Xi[3]/(LHi+LVi)

Wi [4] = C 4 \cdot Xi [4] / \sqrt{{(LHi)}^{2} + {(LVi)}^{2}}

或C4·Xi[4]/(LHi+LVi)

加权直方图Wi(1)～Wi(4)。C1-C4为与格网无关的常数。这样，集中各加权格网区域的特征向量(例如单纯的连接)，得到字符图形整体的特征向量。

另外，上述实施例中，有关用定向直方图、其量化方向为4个方向、格网的形状为矩形、以及3×3的分割，这都只是一个例子，本发明并不仅限定于这些。并且，本发明也能够适用于其他的特征提取方法。

实施例2

作为其另外的特征向量，用包含于各格网区域里的黑象素的个数。在此，为了简单，设格网不带有相互重叠，被分割成3×3的9个矩形。

在图9的实施例中，有关加了阴影的右上方的格网，尽管得到图9(a)、图9(b)都相类似的部分图形，在图9(a)中被计算出的黑象素个数XA是7；而图9(b)的黑象素个数X B是9，特征量之比XB/XA＝9/7＝1.29，相差近30％。

另一方面，比较格网的面积，图9(a)的格网面积SA＝12×13＝156；图(b)的格网面积SB＝16×13＝208，因为他们的比率是SB/SA＝1.33，若是类似的图形，自然图(b)的黑象素个数要多30％。因此，以格网的面积进行下面这样的加权。WA＝XA/SA＝7/156＝0.045WB＝XB/SB＝9/208＝0.043

加权之后的特征量之比是WB/WA＝0.043/0.045＝0.96，修正到相当接近值1。当然，还可以将适当的常数，乘以面积相除之后的特征量。

用式子表示上述的加权，格网i的黑象素个数Xi用格网的面积Si得到：Wi＝C·Xi/Si

加权特征量Wi。C为与格网无关的常数。汇集Wi(例如连结成(W1、W2、…、W9))，得到字符图形整体的特征向量。

另外，在本实施例，用黑象素的个数作为特征量、在3×3的矩形里进行区域分割等只是一个实例，本发明并不限于这些。本发明还可以适用于别的特征提取方法。

实施例3

本实施例3是在互不重叠的3×3的矩形格网区域里分割输入图形的实施例。图2是区域分割的流程图。

首先，沿水平(X轴)及垂直(Y轴)方向1线扫描图形，检测出表示图形密度特征量(步骤201)。本实施例相当于特征量的是黑象素，通过计算每线上的黑象素个数，得到黑象素个数的分布函数(H(y)、V(x)(步骤202)。H(y)是将水平的一条线上的黑象素数在y轴上投影得到的；V(x)是将垂直的一条线上的黑象素数投影于X轴得到的。作为实例，图10展示了代表“木”字图形的黑象素数的分布函数。

下面，分别在y、x轴上累积分布函数H(y)、V(x)，并求出累积函数CH(y)和CV(x)(步骤203)。也就是，CH(y)是在幅度设y的区间从图形上端起累积H(y)的，CV(x)是在宽度X的区间从图形左端起累积V(x)的，由下式求出。

CH(y)＝H(t)从t＝1到y求和：

CV(X)＝V(t)从t＝1到y求和、

由于，CH(y)、CV(x)是单调增加的，他们的最大值CHmax、CVmax是在Y、X上代入字符图形的大小而求得的(步骤204)。例如，假设是64象素X64象素的图形，CHmax＝CH(64)，CVmax＝CV(64)，

并且，确定将累积函数3等分的点(步骤205)。即是，求出CV(X)的值为CVmax的1/3及2/3时的点X1、X2和CH(y)的值是CHmax的1/3及2/3的点y1、y2。然而，由于x、y是整数，采用下式。x1＝min(x|CV(x)≥(1/3)·CVmax}x2＝min{x|CV(x)≥(2/3)·CVmax}y1＝min{y|CV(y)≥(1/3)·CHmax}y2＝min{y|CH(y)≥(2/3)·CHmax}

如关于上述X1的式子意味着CV(x)在超过(1/3)·CVmax的X值范围内。X1是最小的。关于x2、y1、y2也是一样的。

这些等分点作为区域分割位置。图3表示区域分割的具体实例。这种分割中，各分割区间中的分布函数的积分相同。就是说，在x＜x1、x1≤x＜x2和≥x2这3个区间中，各个区间内的分布函数CV(x)的积分是相等的或是近似相等的。同样在y＜y1、y1≤y＜y2、和y≥y2这3个区间内，各个区间内的分布函数CH(y)的积分也是相等或是近似相等的。

由此，对应图形的密度决定的分割位置X1、X2、Y1和Y2存储在分割位置存储部107，分割处理结束(步骤206)。并且，在区域分割之后，在被分割的各区域内提取特征向量，采用实施例1或2进行特征向量的加权。

另外，本发明不限于上述的实施例，既使邻近区域带有重叠部分也可以，而且在水平方向和垂直方向的分割数也可以不同。另外，格网的形状不一定非是矩形，也可以是这样的分割方式，即利用将图形投影在水平轴和垂直轴以外的方向轴上的分布函数。

实施例4

在本实施例里，以字符图形的轮廓象素作为表示图形密度的特征量，来决定区域分割位置。首先，扫描沿水平、垂直方向一线的图形。当是白象素，并且其上下左右的象素是图8中所示的任一状态时，通过将该象素当作轮廓象素计算，求轮廓象素数的的分布函数Hy、V(x)。做为例子，图11表示关于“木”字图形的轮廓象素数的分布函数。图中的灰色网点部分代表字符图形的黑象素，其周围的黑线表示轮廓象素。图2中的步骤203以后的处理。与实施例3是一样的。另外，这里所用的字符轮廓象素的定义是一个例子，当用其他的定义时，也可以适用于本发明。

实施例5

该实施例里，用字符图形的笔划数作为表示图形密度的特征量。来决定区域分割位置。先扫描沿水平、垂直方向一线的图形，通过将与字符线交叉的次数作为笔划数，求笔划数的分布函数H(y)、V(x)。作为具体例子，图12表示关于“木”字图形的分布函数。图2的步骤203以后的处理与实施例3一样。

实施例6

首先，提取字符图形的特征量，接着作成子区域，其带有均等分配特征量的分割位置。分割子区域可以就用在实施例3-5说明的格网分割方法。可先用提取的特征量作为表示图形密度的特征量，求出特征量的分布函数H(y)、V(x)。

例如，若是将黑象素作为特征量，则分割子区域可以回到实施例3，若是将定向码直方图作为特征量。则可以采用实施例4的方法。当然，这里所得到的不是格网区域，而是比其更细小的数目多的子区域。

图4(a)表示子区域的示例。这里，将4×4的子区域A～P由参量P(i)、Q(i)、R(i)(i＝1、2、3)及下面的规则汇集在3×3的格网区域里。

所述的汇集规则是指：“从左起第m列，从上起第n行的格网区域是由包含于从左起第P(m)列～第Q(m)列、并且从上起第R(n)行～第S(n)行之中的子区域组成的规则。

在图4(b)中，使用以下参量。

P(1)＝1、Q(1)＝1、R(1)＝1、S(1)＝1

P(2)＝2、Q(2)＝3、R(2)＝2、S(2)＝3

P(3)＝3、Q(3)＝4、R(3)＝3、S(3)＝4

由此，例如，图4(b)的格网区域2是由同图(a)的子区域B和C构成，格网区域6是由子区域G、H、K和L构成的。这样，在格网里分割图形之后，提取第一被分割格网区域的特征向量。并采用前述的实施例1、实施例2进行特征向量的加权。另外，有关本分割方式及其他的汇集规则的具体例子，记载在前面提到的特开昭63-14291公报中。

Claims

1、一种特征提取方法，将输入字符图形分割成矩形的格网区域，将从被分割的各格网区域提取出的特征向量汇集后，做为所述输入字符图形的特征向量，其特征在于：在从上述被分割的各格网区域提取出特征向量后，根据构成上述被分割的各格网区域的边或对角线的长度，进行特征向量的加权，然后汇集特征向量，做为输入字符图形的特征向量。

2、一种特征提取方法，将输入字符图形分割成矩形的格网区域，将从被分割的各格网区域提取出的特征量汇集后做为所述输入字符的图形的特征量，其特征在于：在从上述被分割的各格网区域提取出特征向量后，根据上述被分割的各格网区域的面积，进行特征向量的加权，然后汇集特征向量，做为输入字符图形的特征向量。

3、如权利要求1或2所述的特征提取方法，其特征在于：以均匀地分配在将输入字符图形投影到水平轴和垂直轴时的黑象素数目的积分分布，来进行所述格网区域的分割的。

4、如权利要求1或2所述的特征提取方法，其特征在于：以均匀地分配在将输入字符图形投影到水平轴和垂直轴时的字符轮廓象素数目的积分分布，来进行所述格网区域的分割。

5、如权利要求1或2所述的特征提取方法，其特征在于：以均匀地分配在将输入字符图形投影到水平轴和垂直轴时的笔划数的积分分布，进行所述格网区域的分割。

6、如权利要求1或2所述的特征提取方法，其特征在于：上述格网区域的分割是通过在比特征量被均匀地分配那样的格网区域数更多的子区域中分割输入字符图形，并在邻近的格网区域中分配共同的子区域，而将所述子区域汇集于格网区域中的区域分割方法。