CN1734472A

CN1734472A - 生成劣化字符图像的方法和装置

Info

Publication number: CN1734472A
Application number: CNA2004100581716A
Authority: CN
Inventors: 孙俊; 胜山裕; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-08-13
Filing date: 2004-08-13
Publication date: 2006-02-15
Anticipated expiration: 2024-08-13
Also published as: US20060056697A1; US7480409B2; CN100377171C; JP2006053568A

Abstract

本发明提供了一种用于在不同劣化水平下自动生成劣化字符图像的方法和装置，在本发明中，首先将字符图像绘制在景物平面上；根据不同的参数对景物平面进行平移和旋转；根据不同的参数确定字符图像在图像平面的投影区域；生成像素区域掩码；并且通过超级采样生成最终的劣化图像。从而可以在不同的劣化条件下生成各种劣化字符图像。所生成的合成字符可用于光学字符识别(OCR)中的性能评定和训练数据的扩充。

Description

生成劣化字符图像的方法和装置

技术领域

本发明涉及自动生成劣化字符图像的方法和装置，更明确地说，涉及一种以视角转换和超级采样为基础的劣化图像生成方法和装置。所生成的劣化字符图像可以用于光学字符识别中的性能评定和训练数据扩充。

背景技术

随着数字成像装置的快速普及，视频字符的识别变得越来越重要。与传统的扫描文件相比，视频文件中的字符通常会出现大幅劣化，不便于识别。自动视频字符图像生成方法对于视频字符的识别非常有用。生成的模式可以用于评估光学字符识别引擎在视频劣化条件下的工作性能。另外，合成的视频字符图像可以加入训练数据中来建立劣化光学字符识别词典，从而改进真实视频字符的识别效果。

关于劣化模式的生成有很多发表过的论文和专利，例如：

P.Sarkar，G.Nagy，J.Zhou，and D.Lopresti.Spatial samplingof printed patterns.IEEE PAMI，20(3)：344-351，1998

E.H.Barney Smith，X.H.Qiu，Relating statisticai imagedifferences and degradation features.LNCS 2423：1-12，2002

T.Kanungo，R.M.Haralick，I.Phillips.“Global and LocalDocument Degradation Models，”Proceedings of IAPR 2^ndInternational Conference on Document Analysis and Recognition，Tsukuba，Japan，1993pp.730-734

H.S.Baird，“Generation and use of defective images in imageanalysis”.美国专利No.5,796,410。

这些方法可以生成多种类型的劣化字符模式。但是，Sarkar的方法只有在目标图像的分辨率比原始图像低得多的时候才有效。Kanungo的劣化模型缺少一种清晰的自然背景。Baird的发明只集中在扫描过程所导致的劣化上。这些方法都没有解决由视频成像所导致的模式劣化问题。

发明内容

本发明的目的即是解决由视频成像所导致的模式劣化问题。

根据本发明的目的，在本发明的一个方面，提供了一种在不同劣化水平上形成字符图像的方法，该方法包括如下步骤：将字符图像绘制在景物平面上；根据不同的参数对景物平面进行平移和旋转；根据不同的参数确定字符图像在图像平面的投影区域；生成像素区域掩码；以及通过超级采样生成最终的劣化图像。

在本发明的另一个方面，提供了一种在用于不同劣化水平上形成字符图像的劣化字符图像的装置，该装置包括：字符图像绘制部，其将字符图像绘制在景物平面；景物平面变换部，其根据不同的参数对景物平面进行平移和旋转；投影区域确定部，其根据不同的参数确定字符图像在图像平面的投影区域；像素区域掩码生成部，用于生成像素区域掩码；以及劣化图像生成部，其通过超级采样生成最终的劣化图像。

根据本发明的方法，可以在不同的劣化条件下生成劣化字符。

本发明的方法和装置生成的字符图像可以用于劣化图像显示或词典编制。从生成的劣化字符图像得来的词典对于真正的坏损字符识别非常有效。

附图说明

图1是根据本发明一个实施例的劣化图像生成装置所执行的方法的流程图。

图2是根据本发明一个实施例的劣化图像生成处理的图例。

图3示出了原始字符图像的一个例子。

图4示出了字符图像绘制结果的一个示例。

图5示出了景物平面平移结果的一个示例。

图6示出了景物平面旋转结果的一个示例。

图7示出了字符图像在图像平面的投影区域示例。

图8示出了景物平面上的像素区域掩码示例。

图9是所生成的最终劣化字符图像的一个示例。

具体实施方式

下面结合附图对本发明的自动生成劣化字符图像的方法和装置的优选实施例进行说明。

图1示出了本发明的劣化图像生成装置的一个优选实施例所执行的方法的流程图。

本发明的劣化图像生成装置的输入是原始字符图像101，原始字符图像101通常采用二值的格式。首先，字符图像绘制部102将原始图像描绘在一个二维景物平面上。景物平面变换部103对景物平面进行平移和旋转。然后投影区域确定部104确定字符图像在图像平面上的投影区域。接着像素区域掩码生成部105生成像素区域掩码。最后，劣化图像生成部106通过超级采样生成劣化图像，并将所得到的劣化字符图像输出，作为本发明的劣化图像生成装置的输出。

本发明的劣化图像生成装置可以由恰当编程的处理器和相关的存储器构成。根据本发明，本领域普通技术人员可以容易地构造出本发明的劣化图像生成装置。因此，为清楚起见，不再对本发明的劣化图像生成装置的各个构件的结构进行更多说明。

在本发明的劣化图像生成装置和方法中有两个关键问题，即如何确定生成图像在不同参量设定下的区域，以及如何确定生成的字符图像中每一像素点的像素值。

对于第一个问题，需要通过视角转换将原始字符图像的4个顶点映射在图像平面上。这4个投射的顶点所形成的四边形区域就是劣化图像的生成区域。至于第二个问题则是由于劣化字符图像中的像素与原始图像中的像素不存在一对一的对应关系而造成的，劣化图像中的每一个像素实际上都是与景物平面中的一个四边形区域相对应的。因此，图像平面中的像素灰度值应该由景物平面中四边形区域的平均灰度值来确定。

下面结合图2至图9对本发明的劣化图像生成装置和方法的一个优选实施例进行更加详细的说明。

首先，字符图像绘制部102把原始字符图像绘制在景物平面上。图2示出了将原始图像绘制到一个二维景物平面上的一个示例。景物平面是一个二维平面。在图2所示的示例中，景物平面与x-y面重叠，景物平面的原点(0，0)与整体坐标原点(0，0，0)重合。为了简便起见，假设视点P₃在z轴上，像素坐标为P_s＝(0，0，d)。字符图像绘制部102把原始图像绘制在该景物平面上。由于现实中的视频字符并不总是二值的，可以根据具体需要对笔画像素和后台像素的灰度值进行调整。因此，绘制出的图像就变成了灰度图像。图3示出了一个典型的原始字符图像。字符图像的大小为640×640像素。图4示出了绘制结果的一个例子。图像中后台点的灰度值调整为196。图像中笔画点的灰度值设定为0。

接着，景物平面变换部103对景物平面进行变换。这一变换包括2个部分：平移和旋转。首先在x-y面内对景物平面进行平移，然后再绕坐标原点旋转。平移度由x轴方向的平移量t_x和y轴方向的平移量ty确定。旋转度由绕z轴的旋转角度ψ、绕y轴的旋转角度θ和绕x轴的旋转角度φ确定。图5示出了平移的一个例子，其中t_x＝400，t_y＝300。图6示出了图5按旋转角度ψ＝10度，θ＝20度，φ＝30度旋转后的结果。

假设P₀是初始景物平面上的一点，它的景物坐标为(x₀，y₀)，三维空间中的像素坐标为(x₀，y₀，0)。P₁是景物平面变换后的同一点。P₁在三维空间中的像素坐标为(x₁，y₁，z₁)。假设景物平面的平移向量为t＝[t_x，t_y，0]^T，将x-y平面变换成景物平面的旋转矩阵是分别对应x轴、y轴和z轴的Rx，Ry和Rz。P₀与P₁的关系是：

P₁＝R_zR_yR_xP₀+t (1)

其中P₁＝[x₁，y₁，z₁]^T，P₀＝[x₀，y₀，0]^T，

R_{x} = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos φ & - \sin φ \\ 0 & \sin φ & \cos φ \end{matrix}],

R_{y} = [\begin{matrix} \cos θ & 0 & \sin θ \\ 0 & 1 & 0 \\ - \sin θ & 0 & \cos θ \end{matrix}],

R_{z} = [\begin{matrix} \cos ψ & - \sin ψ & 0 \\ \sin ψ & \cos ψ & 0 \\ 0 & 0 & 1 \end{matrix}],

φ、θ和ψ分别是绕x轴、y轴和z轴的旋转角度。

在景物平面变换部103对景物平面进行变换之后，投影区域确定部104基于一个固定的视点(例如，摄像头的中心)和一个固定的图像平面(即形成最终劣化图像的平面)，确定绘制好的字符图像在图像平面上的投影区域。

图像平面是一个与z轴垂直的二维平面。P₃到图像平面的距离就是焦距f。图像平面中的所有点都具有相同的z坐标值。在确定视点之后，景物平面上的每一点通过视角转换都会在图像平面上产生一个投影。景物平面上的所有字符图像点在图像平面上的投影就组成了投影字符图像，也就是本发明的装置和方法的输出。

具体来讲，假设TL、TR、BL、BR这4点分别是绘制好的字符图像经景物平面变换之后的左顶点、右顶点、左底点和右底点，图像平面上的4个投射点TL’、TR’、BL’、BR’的像素坐标可以通过下面所述的公式(4)和(5)得出。这4个点会形成一个不规则的四边形，可以视作字符图像投影区域。

下面对将景物平面上的点投影到图像平面上的处理进行详细说明。

假设P₂是P₁在图像平面上的投射点。P₁、P₂和P₃同在一条直线上。根据三角形的相似性，可以得出如下等式：

(x₃-x₂)/(x₃-x₁)＝(z₃-z₂)/(z₃-z₁) (2)

(y₃-y₂)/(y₃-y₁)＝(z₃-z₂)/(z₃-z₁) (3)

在(1)～(3)中共有5个等式。已知变量是：x₃＝0，y₃＝0，z₃＝0，z₂＝d-f。未知变量是x₀，y₀，x₁，y₁，z₁，x₂，y₂。给定景物坐标x₀，y₀，可以通过求解(1)～(3)得出其在图像平面上的对应坐标x₂，y₂：

x_{2} = \frac{f (\begin{matrix} t_{x} \cos θ \cos ψ - t_{y} \cos φ \sin ψ + t_{y} \sin φ \sin θ \cos ψ \\ - y_{o} \cos φ \sin ψ + x_{0} \cos θ \cos ψ + y_{0} \sin φ \sin θ \cos ψ \end{matrix})}{(d + t_{x} \sin θ - t_{y} \sin φ \cos θ + x_{0} \sin θ - y_{0} \sin φ \cos θ)} - - - - (4)

y_{2} = \frac{f (\begin{matrix} t_{x} \cos θ \sin ψ + t_{y} \cos φ \cos ψ + t_{y} \sin φ \sin θ \sin ψ \\ + y_{0} \cos φ \cos ψ + x_{0} \sin θ \sin ψ + y_{0} \sin φ \sin θ \sin ψ \end{matrix})}{(d + t_{x} \sin θ - t_{y} \sin φ \cos θ + x_{0} \sin θ - y_{0} \sin φ \cos θ)} - - - - (5)

给定x₂，y₂则x₀，和y₀的计算公式为：

x_{0} = - t_{x} - \frac{(\begin{matrix} x_{2} d \cos ψ \cos φ + x_{2} d \sin ψ \sin φ \sin θ + \\ y_{2} d \sin ψ \cos φ - y_{2} d \cos ψ \sin φ \sin θ \end{matrix})}{(\begin{matrix} - f \cos ψ \cos ψ \cos θ \cos φ - f \sin ψ \sin ψ \cos θ \cos φ + \\ x_{2} \sin ψ \cos θ \cos θ \sin φ + x_{2} \cos ψ \sin θ \cos φ + \\ x_{2} \sin ψ \sin θ \sin θ \sin φ - y_{2} \cos ψ \cos θ \cos θ \sin φ + \\ y_{2} \sin ψ \sin θ \cos φ - y_{2} \cos ψ \sin θ \sin θ \sin φ \end{matrix})} - - - - (6)

y_{0} = - t_{y} + \frac{(d \cos θ (x_{2} \sin ψ - y_{2} \cos ψ))}{(\begin{matrix} - f \cos ψ \cos ψ \cos θ \cos φ - f \sin ψ \sin ψ \cos θ \cos φ + \\ x_{2} \sin ψ \cos θ \cos θ \sin φ + x_{2} \cos ψ \cos θ \cos φ + \\ x_{2} \sin ψ \sin θ \sin θ \sin φ - y_{2} \cos ψ \cos θ \cos θ \sin φ + \\ y_{2} \sin ψ \sin θ \cos φ - y_{2} \cos ψ \sin θ \sin θ \sin φ \end{matrix})} - - - - (7)

由此，字符投影区域确定部104确定了变换后的字符图像在图像平面上的投影区域。图7显示了图像平面上的字符图像投影区域的一个示例。

在确定图像平面上的投影区域之后，由像素区掩码生成部105生成像素区掩码。通常，在景物平面像素与图像平面像素之间并不存在像素到像素的对应关系。图像平面上的一个像素对应着景物平面上的一个多边形区域。图像平面上的像素灰度值由景物平面上多边形区域的平均灰值来确定。在本发明中，假设图像平面上投影区域内的每一像素都用一个单独的正方形来表示。假设正方形的4个顶点分别是P_TL、P_TR、P_BL、P_ER，这4点通过公式(6)和(7)的计算得出景物平面上的对应点P_TL’、P_TR’、P_BL’、P_BR’。这样，图像平面上的单位正方形就被绘制成景物平面上的一个由P_TL’、P_TR’、P_BL’、P_BR’四点连结而成的四边形区域。这一区域就被称为像素区域掩码。图8表明了图7在景物平面上的所有像素区域掩码。

最后，由劣化图像生成部106根据相应像素区域掩码中的平均灰度值来计算字符图像投影区域中某一点的像素值。

对于字符图像投影区域中的每一个像素来说，通过像素区域掩码生成部105确定了其在景物平面上的对应区域。劣化图像生成部106将图像平面丄像素的灰度值设定为对应掩码区域的平均灰度值，从而输出最终的劣化字符图像107。图9示出了最终生成劣化字符图像的结果(扩大了4倍)。

至此，本发明的劣化图像生成装置完成了劣化字符图像的生成处理。可见，本发明的劣化图像生成装置和方法可以根据不同的劣化条件生成不同的劣化字符图像。例如，可以通过景物平面的平移量、绕3个轴的旋转量，以及景物平面与图像平面的位置等，确定不同的劣化条件，从而可以得到各种劣化条件下的劣化字符图像。

另外，以上通过本发明的一个优选实施例对本发明进行了说明。但是可以理解，本发明并不限于上述的具体细节。在权利要求所限定的范围之内，可以对本发明的劣化图像生成装置和方法进行各种形式和细节上的变化。

Claims

1.一种在不同的劣化水平上形成劣化字符图像的方法，该方法包括如下步骤：

将字符图像绘制在景物平面上；

根据不同的参数对景物平面进行平移和旋转；

根据不同的参数确定字符图像在图像平面的投影区域；

生成像素区域掩码；以及

通过超级采样生成最终的劣化图像。

2.根据权利要求1所述的方法，其中，所述字符图像绘制步骤包括：

在一个二维平面上绘制字符图像；以及

变换字符笔画和背景的灰度值。

3.根据权利要求1所述的方法，其中，所述景物平面平移和旋转步骤包括：

沿x轴和y轴的方向平移所述景物平面；以及

绕x、y、z轴旋转所述景物平面。

4.根据权利要求1所述的方法，其中，确定字符图像在图像平面上的投影区域这一步骤包括：

确定字符图像在景物图像中的4个顶点；

计算这4个顶点投影在图像平面上的像素坐标；

用这4个投影顶点在图像平面上构建一个四边形的区域，将该四边形围起来的区域作为字符图像的投影区域。

5.根据权利要求1所述的方法，其中，在景物平面生成像素区域掩码这一步骤包括：

将图像平面中字符图像投影区域内的每一个点描绘成一个规则多边形；

将所述规则多边形的各个顶点投影在景物平面上；

将由景物图像中的各个投影顶点形成的多边形区域作为图像平面中像素在景物图像中的像素区域掩码。

6.根据权利要求1所述的方法，其中，生成劣化图像的步骤包括：

针对图像平面上字符图像投影区域中的每一个点，在像素区域掩码限定的区域内部选定景物平面中的所有像素；

计算出所选像素的平均灰度值，将其作为图像平面中的像素值。

7.一种用于在不同的劣化水平上形成劣化字符图像的装置，包括：

字符图像绘制部，其将字符图像绘制在景物平面上；

景物平面变换部，其根据不同的参数对景物平面进行平移和旋转；

投影区域确定部，其根据不同的参数确定字符图像在图像平面的投影区域；

像素区域掩码生成部，其生成像素区域掩码；以及

劣化图像生成部，其通过超级采样生成最终的劣化图像。

8.根据权利要求7所述的装置，其中，所述字符图像绘制部在一个二维平面上描绘字符图像，并变换字符笔画和背景的灰度值。

9.根据权利要求7所述的装置，其中，所述景物平面变换部沿x轴和y轴的方向平移景物平面，并绕x、y、z轴旋转景物平面。

10.根据权利要求7所述的装置，其中，所述投影区域确定部确定字符图像在景物图像中的4个顶点；计算这4个顶点投影到图像平面上的像素坐标；用这4个投影顶点在图像平面上构建一个四边形的区域，将该四边形围起来的区域作为字符图像的投影区域。

11.根据权利要求7所述的装置，其中，像素区域掩码生成部将图像平面中字符图像投影区域内的每一个点描绘成一个规则多边形；将该规则多边形的各个顶点投影在景物平面上；并将由景物图像中的各个投影顶点形成的多边形区域作为图像平面中像素在景物平面中的像素区域掩码。

12.根据权利要求7所述的装置，其中，所述劣化图像生成部针对图像平面上字符图像投影区域中的每一个点，在像素区域掩码限定的区域内部选定景物平面中的所有像素；计算出所选像素的平均灰度值，将其作为图像平面中的像素值。