CN1214349C - 处理视觉图像的方法和装置以及图像压缩方法 - Google Patents

处理视觉图像的方法和装置以及图像压缩方法 Download PDF

Info

Publication number
CN1214349C
CN1214349C CNB018051618A CN01805161A CN1214349C CN 1214349 C CN1214349 C CN 1214349C CN B018051618 A CNB018051618 A CN B018051618A CN 01805161 A CN01805161 A CN 01805161A CN 1214349 C CN1214349 C CN 1214349C
Authority
CN
China
Prior art keywords
pixel
image
value
sequence
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB018051618A
Other languages
English (en)
Other versions
CN1430767A (zh
Inventor
弗雷德里克·沃里克·迈克·斯腾蒂福特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP00301262A external-priority patent/EP1126411A1/en
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN1430767A publication Critical patent/CN1430767A/zh
Application granted granted Critical
Publication of CN1214349C publication Critical patent/CN1214349C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Abstract

本发明通过测量在寻找该场景内邻域之间的相似性时的困难来识别视觉场景中的最重要特征,不需预先训练。与该场景中大多数其余部分相似的区域内的像素获得视觉关注的低的量度。另一方面,拥有许多与该图像的其它部分不相似之处的区域将引起视觉关注的高的量度。本发明利用试错过程以找到图像各部分之间的不相似之处并且不需要有关可能会出现的异常的特性的预先知识。本发明避免了使用像素之间的处理相关性并能够对每个像素直接并行实现。本发明可以广泛应用于寻找健康检查中的异常图案,品质控制过程以及用于评定标记和广告的可视性的视觉人类工程学分析。本发明向图像处理器提供了重要特征的量度以便提供可变比率图像压缩。

Description

处理视觉图像的方法和装置以及图像压缩方法
技术领域
本发明涉及一种用于定位包含在一静态图像或一视频序列内的突出对象的系统,尤其是,但不是排它地,由图像压缩系统使用的系统。
背景技术
人的视觉眼-脑知觉系统擅长于识别所呈现的场景中的最重要特征,或是对在某些方面与背景或周围的对象总体存在差别的对象的识别,而无需多数自动化系统所需的预先训练。然而,有某些应用期望自动化,例如其中工作重复性强的以及数据量很大的这些应用。一个具体的例子是为了识别癌细胞而进行的对医学涂片样品的检查。在这一情形中,大量的样品需要被检查并且异常的很少,人类观察者会变得疏忽,而没有注意到所寻找的特别的特征。
出于许多其它目的,例如在一视觉场景中的主要主题的位置的识别,信息标记的设计与定位,和作为用于视觉显示设备的冗长的和昂贵的人员因素试验的替代物,还期望一种自动识别一图像内的区别性对象的系统。
用于测定视觉关注(visual attention)的现有系统从图像中提取先前指定的特征(例如颜色,强度,方位),然后训练分类器(例如神经网络)以识别高度关注的区域。这些可训练模型很大程度地依赖于对在图像内要搜寻的特征的选择,并且不具有处理那些与用于设计和测试该系统的视觉资料具有很少相似性的新视 觉资料的方法。荒谬地,一个特征也许仅仅是太异常了以至不能由一训练系统来如此识别。这样的系统还需要相当多的计算资源以便处理预选定的特征,此外当程序的范围被扩展并且更多的特征被加入时,这无限制地增加了负担。
多数公知图像压缩系统所存在的缺陷是,它们仅能以恒定的压缩比压缩图像,因此压缩质量是不变的。公知的可变比率压缩系统不能根据图像中感兴趣的区域来自动改变压缩比。多数情况下,仅仅高质量地压缩感兴趣的区域而对其余图像部分(诸如背景)进行低质量地压缩就已经足够了。由于压缩质量与图像文件的大小彼此相互依存,因此这将减小用于被压缩图像文件的空间需求总量。专业Web设计者所使用的技术之一是在用JPEG压缩图像背景之前简单地把它们弄模糊。这就迫使该背景由连续的色调组成从而降低了图像中的高空间频率的数量。根据与未弄模糊图像相比的模糊量,按照那种方式预处理过的图像能够使其存储需求减少30%。手工地把图像弄模糊是一项劳动密集度很强的工作并且依赖于图像,它可能并没有节省下值得这样做的足够的空间。
联合图像专家组致力于一种新的图像压缩标准,JPEG 2000,它也允许指定图像中感兴趣的区域以便用比该图像的其余部分高的质量来压缩它们。然而,对感兴趣的区域的自动识别仍然是个问题。
发明内容
根据本发明,提供了处理视觉图像的方法,用于识别视觉关注区域,包括步骤:
把一图像存储为一像素阵列,每个像素具有一个值;
从该阵列中选择测试像素;
对于每个测试像素,选择一个或多个邻近该测试像素的邻近像素序列;
从该阵列中选择对照像素;
识别一个邻近一选定对照像素的像素序列,该像素序列对该对照像素具有的相应位置关系与一选定的邻近像素序列对该测试像素具有的相应位置关系相同;
按照一预定的匹配标准比较该测试像素的选定的邻近序列的值与该对照像素的被识别出的邻近序列的值;
根据为每一个测试像素所做的比较中导致不匹配的比较数目,为该测试像素生成视觉关注的一个量度,其中高的不匹配数表示该测试像素是值得视觉关注的对象的一部分。
该方法也可应用于一个图像序列。
在一优选的安排中,对于每个对照像素,如果邻近该测试像素的一个或多个选定像素具有与邻近该对照像素的相应像素基本上不相似的强度值,那么该测试像素的一个异常值被加1,利用具有相同测试像素的更多的对照像素来重复该过程,直到选定一个对照像素,对于该对照像素,所有选定的像素具有基本上相似于邻近该测试像素的对应像素的强度值,在此情形中一个另外的邻近序列被选定并重复该过程。
已经发现,如果具有先前生成的高异常值的邻近像素序列被选定用于随后的测试像素的分析,那么该过程能够更为有效地操作。因此,最好是,该过程包括以下步骤:存储已为其生成一高异常值的邻近序列图案,以及为随后的测试像素选择一个邻近序列,该邻近序列具有与所存储的邻近序列相同的对随后的测试像素的相应位置关系。
根据本发明的另一个方面,提供了一种图像压缩方法,包括:
根据本发明的处理视觉图像的方法来处理一图像以找到视觉关注区域的位置;
使用具有可变压缩比的压缩方法对该图像编码,其中根据被定位的视觉关注区域对该图像编码,使得对高度视觉关注的图像区域进行编码所使用的压缩率比对低视觉关注的图像区域进行编码所使用的压缩率低。
根据本发明的另一个方面,提供了用于处理一视觉图像或此类图像的一个序列的装置,用于定位视觉关注的区域,包括:
用于把一图像存储为一像素阵列的装置,每个像素具有一个值;以及
用于执行以下操作的控制装置:
从该阵列中选择测试像素;
选择邻近该测试像素的邻近像素序列;
从该阵列中选择对照像素;
识别邻近一选定对照像素的像素序列,该像素序列对该对照像素具有的相应位置关系与一选定的邻近像素序列对该测试像素的相应位置关系相同;
按照一预定的匹配标准比较该测试像素的选定的邻近序列的值与该对照像素的被识别出的邻近序列的值;
根据识别一不匹配序列的比较的数目,为每个测试像素生成视觉关注的一个量度,其中高的不匹配数表示该测试像素是值得视觉关注的对象的一部分。
本发明还可用于通过对含有具有最大异常值的像素的区域的识别来识别视觉场景中的主要主题。本发明可用于通过比较为代表一个给定对象的像素所生成的异常值与为一个视觉场景的其它部分所生成的异常值来确定给予该视觉场景中的该给定对象的视觉关注的量度。
该过程的重复特征适用于并行处理,应当理解可以彼此并行地处理几个测试像素,并且对于每个测试像素,几个邻近像素序列也可以并行处理。
为了顾及一个场景的元素之间的仅强度上的微小变化,数值的比较最好允许在两个像素之间数值上的小的差异被认为是一个匹配,并且以上所用术语“基本上相似”应当在该范围中理解。这个阈值差的值可以为不同循环而改变,那些在元素之间产生一适当差别的值被存储并再次用在该过程的后续循环上。
对于彩色图像,强度值可以是三元(红,绿,兰)矢量。或者也可以使用其它颜色空间,如色度(hue),饱和度,亮度等等。
本发明通过度量在寻找场景中的邻近阈之间的相似性时的困难来识别视觉场景中的突出特征。与场景的其余部分中的大部分相似的区域中的像素因此将获得低的视觉关注的量度,所以被认为是不值得注意。另一方面,拥有许多与该图像的其它部分不相似处的区域将引起高的视觉关注的量度,因为所获得的异常值将很大。
本发明利用试错过程来寻找图像各部分之间的不相似之处,并且无需关于异常的特性的预先知识来确定突出特征。本发明避免了像素之间的处理相关性的使用,并能够对每个像素直接并行实现。
附图说明
现在通过举例,参照附图来描述一较佳实施例,其中
图1示意地说明该过程;
图2a表示用本发明方法处理的图像,说明了用于两个像素集xj,yj的比较过程;
图3a表示用本发明方法处理的第二图像;
图2b和3b是为这些图像生成的异常值的映像;
图4示意地说明能够执行本发明的通用计算机的基本组成部分;
图5a和5b说明本发明的一图像编码器;
图6a,6b和6c说明本发明的一图像解码器;
图7说明4∶1∶1下抽样技术;
图8说明把图像分成块的分割以及块填充;
图9说明折线扫描(zig-zag scanning);
图10说明图像从底部向上以及从左至右的处理;
图11示出一未被交织的数据流的例子;以及
图12示出选择对照像素组以便加快处理速度的例子。
具体实施方式
图4所举例说明的组成部分包括:一输入装置41,诸如一扫描器;一中央处理单元(CPU)42;一输出单元,如视觉显示单元(VDU)或打印机43;一存储器44;以及一计算处理器45。该存储器包括存储器440,444-446,寄存器441,447-449以及计数器442,443。数据及用于控制计算机的程序被存储在存储器44内。CPU 42利用该信息控制计算机的机能。
现在考虑图1和4,要被分析的图像40由输入装置41访问并以数字形式存储在一图像存储器440内,作为一个像素x的阵列A,其中每个像素都具有被认为是属于它的颜色强度(rx,gx,bx),在灰度级图像的情况下,为一单独的灰度级强度值tx
然后从阵列A中选出一像素x(步骤1),并把其强度值(rx,gx,bx)或tx存储在一测试像素寄存器441内。可以并行处理几个测试像素,但是出于说明目的这里只考虑一个。
存储在一异常计数器442内的一个异常计数值cx,以及像素比较的数目的计数值Ix(存储在一比较计数器443内)均被置为0(步骤2)。
然后由CPU 42选择一搜索策略(步骤3,4,5)并提供给一邻近组定义存储器444。每一个这样的策略都包括一组色差阈值(Δrx,Δgx,Δbx),(或者在灰度级图像的情况下为一单一的阈值Δti),(步骤3)以及一邻近组定义(步骤4,5)。
在运行于色度,饱和度,纯度(value)(HSV)空间内的彩色图像上的本发明的另一实施例中,如稍后将详细描述的,采用Δhx,Δsx,Δvx色差阈值。在用于彩色图像的本发明一个实施例中使用的这些阈值取决于在其中执行像素间的比较的颜色空间。
在本发明的其它实施例中,色差阈值被预先确定并且不随每个新邻近组定义策略的选择而改变。
最初,搜索策略将由CPU 42随机生成,——如果该策略不适合于识别差异,那么此循环将被拒绝(下面的步骤9)并且一新的策略被选定。成功的策略可以被存储在一搜索策略存储器445内用于随后的再次使用(步骤11)。
在步骤3选定的色差阈值确定两个像素是否被看作是相似的。该色差阈值必须超过某个最小值否则将检测不到相似性,但是如果这些色差阈值过大就将找到很多相似处。
为了定义一邻近组,在确定范围内随机选择一半径ux(步骤4)。该值确定x的邻域范围,在该范围内将由计算处理器45作出像素的相似比较。ux上的边界由建立视觉关注的特征的比例来确定,其将依赖于对图像进行分析的目的。与色差阈值一样,该选择是在这些限制内随机的,未能提供差别的选择被拒绝(步骤9)。
在测试像素x的邻域内的一个n个像素xj的序列被从图像存储器440中选出(步骤5)。同样,该选择是随机的,该选择是这样的:
dist(xj,x(j-1))<ux
其中j=1,---,n并且x0=x
由于该选择是随机的,因此这一像素序列不必邻近另外一个或在任何意义上是邻接的。
这一序列的一个例子示于图2,其中测试像素(用方框示出)具有与其相关的一个序列(用阴影示出)。典型地n=3,并且ux=1。在某些情形下ux可以随j而变化:这允许像素被从一宽的范围内选出同时保证某些选定的像素接近于该测试像素xj。dist(xj,x(j-1))的值可用各种适合的单位来定义,诸如像素大小。邻近序列的定义被存储在邻近组定义存储器444内。
在本发明的另一实施例中,在测试像素x的邻域内的一个n个像素xj的序列被从图像存储器440中选出(步骤5),该选择是这样的:
dist(x0,x(j))<ux
其中j=1,---n并且x0=x
由于在先前测试像素上取得一高异常得分(将被论述的步骤11),先前生成的搜索策略,包括邻近像素序列定义xj以及存储在搜索策略存储器445内的相关的色差阈值(Δrx,Δgx,Δbx),可以优先地由CPU 42选定,当这种存储的标准的供给被用尽时,才由处理器42把随机生成的侯选者提供给当前的邻近组定义存储器444。此机制减少了该过程的失败迭代的数目,并通过重新使用使当前图像中的不匹配突出的特征而增强了在关注的对象附近的异常值。
类似地,当处理许多相似图像(例如在一移动图像,或任何其它相似图像(诸如医学涂片测试)的大的集合中)时,已经在先前测试上取得高的异常得分的测试序列可以被从搜索策略存储器445中检索出来。
像素y被随机地选为(步骤6)当前的对照像素(在图2中也用方框示出)其特性(identity)被存储到一对照像素寄存器447内。
存储在比较计数器443内的Ix的值递增1(步骤7)。然后邻近组定义寄存器444的内容由计算处理器45使用来定义构成一测试组xj(寄存器448)的一组像素以及构成一对照组yj(寄存器449)的一组像素,对照组的每一像素yj与对照像素y的位置关系都与测试组中的相应像素xj与测试像素x的位置关系一样(步骤9)。然后该计算处理器45利用从邻近组定义存储器444检索出的阈值,把每个像素xj(图2中的阴影部分)与对应的像素yj(同样用阴影示出)进行比较。
像素y被识别为与测试像素x相似,条件是:
|ry-rx|<Δrx,|gy-gx|<Δgx,以及|by-bx|<Δbx
对于灰度级图像|ty-tx|<Δtx
在其中该计算是在HSV色彩空间内执行的另一实施例中,像素y被识别为与测试像素x相似,条件是:
|vy-vx|<Δvx,|sy-sx|<Δsx,以及|hy-hx|<Δhx
其中Δhx=Z*(2-vx)*(2-sx)。Z被存储在取决于hx的阈值的一个经验表内。这就导致对于vx和sx的低值的较大Δhx值。
为了加快用于二进制图像的本发明方法的操作,对照像素y可以被选定以匹配测试像素x(即,通过忽略背景像素,不管它们是“白”或“黑”)。
对于彩色或灰度级图像,通过从可存储在一对照像素存储器446内的一对照组中选出对照像素y,可以加快操作速度。可以如图12所示来选出该对照组。一旦已经为该对照组内的所有像素生成视觉关注的量度,一个新的对照组可从一些像素中选出,这些像素接近于已生成视觉关注的高量度的那些像素。
如果测试组内的所有像素xj与其相应的对照组内的像素yj相似,那么通过选择新的比较标准(步骤4,5)以及一新的对照像素y(步骤6)来重复该过程。如果(如图2所说明的)测试组内的一个或多个像素xj与对照组内的相应像素yj不相似,根据上述相似定义,那么存储在异常计数寄存器442内的计数值cx递增1(步骤10)。另一个对照像素y被随机地选定并存储到对照像素寄存器447内(返回步骤6),并且从邻近组定义存储器444内检索出的邻近组定义被用来向对照组寄存器449提供一新的比较邻近组,用于与存储在测试组寄存器448内的测试组比较。像素集xj被保留在测试组寄存器448内,只要其继续未能与该图像的其它部分匹配。这一集合代表了x的位置的一个区别特征一未能匹配出现的越多,区别就越大。测试像素x未能提供匹配的对照像素y越多,存储在异常计数器442内的异常值cx就变得越高。反之,测试像素x生成的匹配越多,当由比较计数器443达到阈值L时异常值的数值就越低。由于每次做1次对比,因此由该过程产生的异常值cx可被视为是那些将不能提供对测试像素x的匹配的随机选定像素的比例的一个量度。
随着该过程继续进行,成功的搜寻标准(即Δrx,Δgx,Δbx以及ux的值的组合,以及生成高数值cx的邻近序列)将变为明显。如果n个像素xj的一个序列以及相应的色差阈值(Δrx,Δgx,Δbx)使存储在异常计数器442内的cx的异常值在找到匹配之前达到阈值M,那么存储在邻近组定义存储器444内的搜索策略被复制到搜索策略存储器445内(步骤11)用于将来使用,如果其还没有被存储的话。因此,具有所生成的高异常值的该标准对于搜索策略存储器445在将来循环中选择适合值(步骤4,5)是很有用的。一旦找到一个匹配,通过从搜索策略存储器445内检索或是随机生成,该过程从一个存储在邻近组定义存储器444内的新的搜索策略(色差阈值以及邻近集)再次开始(步骤9)。
当存储在比较计数器443内的迭代值Ix达到阈值L时,该迭代过程停止(步骤8),并且存储在异常计数器442内的当前的异常值cx在输出单元43上被输出作为用于像素x的异常值。该最终的异常值cx是用于测试像素x的视觉关注的量度,并且是其中像素x的随机选定邻近值的固有特性(即颜色)未能与随机选定像素y的相应邻近值匹配的尝试数目(在总共L次尝试中)。cx的高数值表明像素x与该图像的其余部分的高度不匹配,并因此表明像素x是值得视觉关注的对象的一部分。
输出单元43典型地是一种存储了用于通过打印机,视觉显示单元等等显示的,或是用于随后处理的(例如如稍后将参照图5-11所描述的图像压缩)各个像素的异常值的存储介质。
应当理解,尽管已参照具有三值(R,G,B/H,S,V)或单值点(灰度级图像)的二维图象对本发明进行了描述,但是本发明可以扩展到具有p个值点的n维图象。
对于p个值点的使用来说,如上所述用于灰度级R,G,B及H,S,V图像的,用于在步骤9评估两个像素是否相似的功能被扩展为比较该p个值。
对于n维图象来说,利用一n维距离测量来进行邻近像素的选定以便在步骤5选择邻近组。这样有可能把本发明方法应用到在一视频序列内的一个连续帧序列上,其中所用的维数之一与时间有关。
现在将描述使用中的本发明的两个简化的例子。图2a说明具有若干垂直特征和一个对角特征的单色图像。从图2a可看出,构成与来自垂直特征之一的一个像素邻近的像素集的一组像素将与来自其它垂直特征的那些邻近像素匹配。不过,一个构成对角特征的一部分的像素不太可能获得与来自其它特征的像素匹配。如果测试像素或是对比像素的邻近像素扩展超过该特征的末端,那么即使在该对角特征上另外一处的像素也将不能产生匹配。因此,对于构成对角特征的一部分的像素,获得对于任何邻近集的一个匹配的可能性远小于在对于构成垂直特征之一的一部分的像素的情况下获得匹配的可能性。
在此说明性的实施例中,由像素构成了一个规则的直线棋盘形布置,但是该过程适合于其它的像素布置。如果该阵列是不规则的,那么各个像素yj与对照像素y的位置关系不完全与各个像素xj与测试像素x的位置关系相同,但是每一个都将是与完全对应位置尽可能最接近的。
该过程具有若干优于其它过程之处。首先该过程不做出关于图像内容的假设,并能够提取与作为度量过程一部分的内容有关的有用特征,并因此能够适合于任何图像内的资料。第二,该过程等同地适用于任何像素结构,不管像素被布置在矩形阵列,螺旋形阵列,还是不规则图案内。第三,该过程可以适用于各个像素xi,而不需依赖于任何与其它像素有关的计算,并因此而可以同时并行地应用于许多像素。这就意味着利用并行实现,可以实时地从视频资料中获得结果,或者甚至更快。第四,该算法是以渐进程序为基础,具有的优点是,试验的准备不必利用通常严格坚苦的软件过程来进行。某些循环可能不产生有用的结果,例如由于它们含有明显的冗余(例如不止一次包含相同像素的邻近像素xj的一个序列)。用和任何其它未能识别区别特征的循环相同的方式来拒绝这样的循环,无需对于识别这样的序列所必需的专门拒绝过程。这有效地减除了精确构造用于试验的可行候选者所需的计算负担。
在下面的简化例子中,该过程已应用于全部由1和0组成的黑白图像。在此情形中Δti=1/2,n=3,L=100,以及ui=1。第一个例子(图2a,图2b)举例说明了典型的“突出”(popout)问题,其中某些形状类型如果被不同形状包围则表现得突出。
归因于图2a中的各个像素的视觉关注量度示于图2b内的图表中。纵坐标表示各个像素的异常值(用尝试数目L的百分数来表示)。能够看出斜线的异常值ci远高于竖线的异常值ci
图3a说明在视觉关注上集结的效果,其中竖线的一个聚集组被放在被分隔很远的其它线之间。采用本发明过程的结果示于图3b。再一次,该集结线产生了较高的异常分数。
需注意,该过程不需要任何被搜寻的异常性质的先前知识。该异常可以是在方位(如图2a所示),间隔(如图3a所示),形状,长度,颜色或任何其它特性上的。
本发明在许多领域具有广泛的应用。首先,视觉场景中主要主题的识别是未被过滤的视觉内容的分类中的首要阶段—它也是最难的。一旦完成该步骤,其后可以进行人工标记,或一定范围的模板匹配或其它用于对如此识别的特征进行鉴别的自动技术。
现在将参照图5-11描述使用本发明方法的一种图像压缩方法;首先,将参照图5a和5b提供本发明图像数据压缩方法的概述。
利用离散余弦变换(DCT)的图像压缩是公知的。许多图像压缩算法,诸如JPEG,使用这种压缩并且已被证实是工作良好的。使用DCT的原理是,一个图像中的像素可以被视为一个2维信号,这些像素通过DCT被变换到频域。图像中颜色和亮度变化很小的区域是具有低空间频率的区域,反之,在颜色和亮度上有较大变化的区域是具有高空间频率的区域。研究表明,人眼对于高空间频率不是很敏感,这一事实被用于压缩。具有关于低空间频率的信息要相对重要得多,这样就不必为了恢复具有合理品质的原始图像而发送或存储高空间频率。对于高压缩比,使用了人类敏感度对空间频率的一个模型,该模型可以被视为用于一定频率的一个滤波器。
标准压缩算法不能使感兴趣的区域在图像中被自动指定,从而使感兴趣的区域可以以比背景高的品质被压缩,所以这种压缩不是最佳的。如果一个图像需要有n字节的大小,那么整个图像被用同一品质压缩以满足所要求的文件大小,这在某些情形下可能意味着品质很差并且不能令人满意。图像中总是存在很感兴趣的部分以及不怎么感兴趣的部分。设想该图像为一幅肖像。通常该肖像中的人物是使人感兴趣的,而背景则不。因此用很高的压缩比(低品质)来压缩背景而用很低的压缩比(高品质)来压缩图像的其余部分是非常有利的。如果平均压缩比与用恒定压缩比压缩的图像相同,那么所得到的文件大小将是相同的。不过,用可变压缩比压缩的图像将给观看者带来这样的印象,即该图像看起来比用恒定压缩比来压缩整个图像而得到的图像要好。
本发明方法允许用户对图像的不同部分使用不同品质等级来压缩。利用如早先所创建的视觉关注映像(VA-map)30来确定用于图像中某一区域的品质等级。压缩后,该视觉关注映像30将构成被压缩图像数据的一部分。
输入图像是一RGB图像,即其像素是用红,绿,兰三基色的总和来表示。三基色中的每一个用0和255之间的一个整数数字来表示,尽管单色图像也能够同样好地被使用。
输入图像被转换为YCbCr颜色空间,并且同时被分解为亮度(Y)和色度(Cb及Cr)分量。由于人眼对亮度变化的敏感性大于对颜色变化的敏感性,因此用4∶1∶1的下抽样方案来对Cb和Cr这两个颜色分量下抽样。
之后这些分量被分割成8×8的像素块32,其中每一个块被该压缩算法单独处理。对于全部分量(Y,Cb,Cr),每个方向上的抽样数必须是8的倍数以向随后的过程提供完整的像素块。如果输入图像不符合这一要求,那么人工地创建附加的抽样以填充块内的空像素空间。由于下抽样,因此对于Y分量,x和y方向上的块数必须是2的倍数,如将在稍后解释的。
利用FDCT(正向DCT)14来把一个块变换到频域。然后用量化器16来量化所得到的系数。该量化使得数据减少并且是图像压缩的关键。量化后,该图像不再能够被无差错地重建。不过,通过利用体现了人对空间频率的敏感度的量化表18,能够使该差错小到不易察觉。量化等级受量化系数20的影响,量化系数被用来根据用于图像的视觉关注映像30创建变化的品质等级。
量化后,利用折线扫描器22把各个块转换成一64维的矢量。这把用于低空间频率的系数放到该矢量的开始(低指数)并把用于高空间频率的系数放到末尾(高指数)。由于作为量化的结果,用于高空间频率的系数一般变为0,因此通过折线扫描过程创建了0的长序列。然后用行程-长度编码器24编码该折线矢量并把结果存储到两个阵列中,行程长度阵列26和等级阵列28。最后,当所有块都已被处理时,用熵编码器50对这两个阵列进行熵编码并把所得字节阵列52与视觉关注映像30以及关于该图像的总信息一起写入一输出文件。稍后将描述该文件格式。
现在参照图6a和6b描述图像的解码(解压缩),然后将参照图7-11描述编码器和解码器的单独部件的功能。
图像数据的解码以及图像的重建与上述编码过程相反。字节阵列52内的图像数据首先通过熵解码器60进行熵解码,并且结果被分割成用于单个8×8块的阵列。然后由行程-长度解码器62对用于单个块26,28的阵列进行行程-长度解码,利用反向折线扫描器64重新排序为一个8×8-抽样矩阵,以及由解量化器66利用适当的量化表18以及从VA-Map 30获取的信息一起来解量化。然后利用反向离散余弦变换器67把该数据从频域变换回分量抽样值,并把结果存储在用于各个分量的不同阵列内。最后,该三个分量阵列被用于合成最终的图像。利用线性插值滤波器68,69对Cb和Cr分量上抽样。所得到的图像很可能比原始图像要大,这是由于块填充的缘故,并且该图像必须被裁剪为其原来的大小。
现在将参照图7和8详细描述从原始R,G,B图像形成8×8像素块32(图5和6)。
用下列等式把RGB值变换为Y,Cb,Cr值:
Y=rnd(0.299·R+0.587·G+0.114·B)
Figure C0180516100192
R,G,B在[0,255]的范围内,Y,Cb,Cr也在[0,255]的范围内,R,G,B以及Y,Cb,Cr为整数。
利用4∶1∶1下抽样方案对Cb和Cr分量下抽样。在x和y方向上每隔一个像素,存储全部三个分量。对于其余的像素,仅存储Y分量。这意味着对于每四个Y抽样存在一个Cb抽样和一个Cr抽样。在图7中示意性地说明该下抽样。因此,Cb和Cr阵列仅仅是Y阵列大小的四分之一。这是能够做到的,因为人眼对于亮度(Y)的变化比对于颜色(Cb,Cr)的变化更为敏感。
所述的下抽样减少了二分之一的数据量。
由于下抽样以及所有的分量被分成8×8的像素块这一事实,因此后继过程所需的抽样数对于所有分量在x和y方向上都必须是8的倍数。
如从图7可看出的,为了形成一个8×8的抽样块,需要一个8×8的输入抽样(RGB-抽样)阵列用于Y分量,而对于Cb和Cr分量则需要一个16×16的输入抽样(RGB-抽样)阵列。16×16输入抽样阵列可以被称作为宏块。对于一颜色分量的兴趣等级被定义为在形成宏块的4个抽样块的VA映像中定义的最大兴趣等级。
在x和y方向上的8×8像素块的数目用下列等式给出:
Figure C0180516100202
Figure C0180516100203
这些等式中,宽度是在输入图像的x方向上的输入抽样(像素)数,高度是在y方向上的输入抽样(像素)数。抽样被加到边界上后图像中所需的抽样总数可以如下计算:
sxcb,cr=bxcb,cr·8
sycb,cr=bycb,cr·8
sxY=bxY·8
syY=byY·8
加到边界上的抽样数可以计算为:
pxY=sxY-宽度
pyY=syY-高度
应当增加额外的抽样以使得不生成高空间频率。这是通过用边界抽样来扩展它而作出的。这很容易实现,并且自动地不产生水平频率或是不产生垂直频率。不过,根据图像边界上的图像内容,仍然会产生在一个方向上的高频。首先,所有的行被用边界上的最后抽样值填充,之后列也被随后填充。从图像形成8×8像素块的过程示意性地示于图8中。
对于图像的解压缩,上述颜色变换的逆变换定义如下:
R=rnd(Y+1.402·(Cr-128))
G=rnd(Y-0.34414·(Cb-128)-0.71414·(Cr-128))
B=rnd(Y+1.772·(Cb-128))
对于颜色变换的逆变换,由于舍入,因此R,G,B的结果值可能超出[0,255]的有效范围。因此,超出值被分别固定到最小值和最大值。
离散余弦变换被用来把抽样变换到频域。由变换器14使用的正向离散余弦变换(FDCT)由如下定义:
S u , v = 1 4 C ( u ) C ( v ) Σ x = 0 7 Σ y = 0 7 s x , y cos ( 2 x + 1 ) uπ 16 cos ( 2 y + 1 ) vπ 16
u,v=[0,7]
C ( i ) = 1 2 ; i = 0 1 ; else
i=[0,7]
在FDCT计算之前,通过从各个抽样中减去128对分量抽样sx,y进行DC-电平-移位从而把它们集中在0周围。
对于图像的解压缩,由反向离散余弦变换器67使用的反向离散余弦变换由如下定义:
S x , y = 1 4 Σ u = 0 7 Σ v = 0 7 C ( u ) C ( v ) s u , v cos ( 2 x + 1 ) uπ 16 cos ( 2 y + 1 ) vπ 16
x,y=[0,7]
C ( i ) = 1 2 ; i = 0 1 ; else
i=[0,7]
为了反向DC-电平-移位,在IDCT的计算后128被加到各个抽样sx,y上。
量化器16的操作如下。来自变换器16的64个DCT系数中的每一个被量化器16用存储在量化表18内的值量化。通过把来自量化表的相应元素Qu,v的值乘以一量化系数来计算出对于各个系数的量化步长Su,v,该量化系数代表由视觉关注映像30所定义的品质等级。该量化表反映了人眼的空间频率敏感度,并根据经验得出。采用了两个不同的量化表,一个用于亮度分量(Y),另一个用于色度分量(Cb和Cr)。一般地,用于色度系数的量化的步长大于用于亮度系数的量化的步长,这是由于人眼对亮度上的误差比对色度上的误差更为敏感。
量化定义如下:
S u , v q = rnd ( S u , v Q u , v · c q , l )
c q , l = 0.5 + q l 32
q1=[0,255]
cq,l=[0.5,8.46875]
其中因子q1入是如视觉关注映像10所定义的品质等级因子。在本发明的此实施例中,该视觉关注映像支持四种品质等级,它们用两位来存储,这些等级被映射到定义该品质等级因子的适当的数字。用于品质的各个等级的该品质等级因子被存储在压缩图像文件中。
对于图像的解压缩,用下列等式给出反量化函数:
S u , v d = S u , v q · c q , l · Q u , v
在本发明的此实施例中,用于亮度系数的量化表定义如下:
  v↓   u→   0   1   2   3   4   5   6   7
  0   16   12   14   14   18   24   49   72
  1   11   12   13   17   22   35   64   92
  2   10   14   16   22   37   55   78   95
  3   16   19   24   29   56   64   87   98
  4   24   26   40   51   68   81   103   112
  5   40   58   57   87   109   104   121   100
  6   51   60   69   80   103   113   120   103
  7   61   55   56   62   77   92   101   99
用于色度系数的量化表定义如下:
 v↓ u→  0  1  2  3  4  5  6  7
 0  17  18  24  47  99  99  99  99
 1  18  21  26  66  99  99  99  99
 2  24  26  56  99  99  99  99  99
 3  47  66  99  99  99  99  99  99
 4  99  99  99  99  99  99  99  99
 5  99  99  99  99  99  99  99  99
 6  99  99  99  99  99  99  99  99
 7  99  99  99  99  99  99  99  99
量化后,该64个系数将包含许多0,尤其对于高频系数。为了建立0的长序列,把该64个系数从一8×8矩阵转换为一个64维的矢量z,并由折线扫描器22重新排序为折线序列,如图9所示意性示出的。
由于从折线扫描得到的该矢量包括0的长序列,因此使用行程-长度编码来减少数据量。
该矢量中的每个值用两个输出值(称作行程-等级组合)来表示,该两个输出值中的一个定义前面0的数目,另一个定义0序列之后的非0值的等级(值)。如果矢量内最后一个行程-长度-编码值之后的所有值都为0,那么使用一个(0,0)的特定的行程-长度组合。该特定的行程-长度组合被称作块结束(EOB)组合。
由于离散余弦变换的特性,该矢量的第一个元素是该被变换图像数据的DC系数。对该DC系数的处理不同于对AC系数的处理。将被编码的值是当前DC项与先前DC项的差。这将产生较小的被编码的数,将有助于减少随后的熵编码中的数据量。用于行程及等级的这两个值由行程长度编码器42输出为两个阵列,行程-长度阵列26和等级阵列28,一旦所有8×8像素块已被处理,就由熵编码器50使用这两个阵列来进一步减少数据量。
如下计算等级:
lDC(k)=z0(k)-lDC(k-1)
lAC,i(k)=zi(k)
其中
zi(k)=块k的折线矢量的元素i
i=[1,63]
k=块号=[0,1,2...]
lDC(-1)=0
对于解压缩,反等级编码如下计算:
z0(k)=lDC(k)+lDC(k-1)
zi(k)=lAC,i(k)
其中
zi(k)=块k的折线矢量的元素i
i=[1,63]
k=块号=[0,1,2...]
lDC(-1)=0
行程-长度编码的一个例子如下:本例中的行程-等级-组合写为(r,1),其中r是0的行程-长度,1是在0之后的等级。设用于行程-长度-编码的输入矢量为
{-126,26,43,2,2,1,1,0,0,0,1,0,0,-1,-1,0,0,0,0,0,---,0}(一共64个值)
以及在前的DC项-119。则该行程-长度-编码数据将是
(0,-7),(0,26),(0,43),(0,2),(0,2),(0,1),(0,1),(3,1),(2,-1),(0,-1),(0,0)
两个输出矢量将会看起来象这样(灰度值是来自先前块的值):
{---,2,4,0,23,0,0,0,0,0,0,0,0,3,2,0,0}(行程矢量)
以及
{---,-1,1,2,-1,0,-7,26,43,2,2,1,1,1,-1,-1,0}(等级矢量)
在行程-长度-编码后,由熵编码器将该行程矢量与等级矢量组合并进行熵编码,如先前在图5b示出的。这将减少每一像素的比特数。利用用于最频繁出现的行程-等级-组合的修改的Huffman表来进行熵编码。行程-等级-组合出现的越频繁,用于表示频繁组合的码的位数越低。为了把图像文件的大小保持为最小,使用了一个固定的表。已经从大量测试图像的集合中根据经验得出该表。对于某些图像,动态Huffman码表将使得文件大小更小,但是在多数情形中,在本发明的此实施例中使用的Huffman码表将使文件大小为最小。
利用下述方案对所有行程-等级组合进行编码:
·如果在Huffman码表中存在用于要编码的行程-等级组合的条目,那么来自该表的代码将被使用。为了编码正和负等级,把一符号位放在从该表取出的代码之前。
·如果在Huffman码表中不存在用于某一行程-等级组合的条目,那么必须使用下述标准编码方案。
通过把符号位置为1,后跟两个可能的Escape(ESC1,ESC2)标记之一来实现标准编码。其次的6位把行程-长度表示为无符号的二进制码,最后接着的是该等级。该等级将被编码为带符号的二进制码。
如果该等级在[-127,127]内,那么使用ESC1标记并且用8位来编码该等级。
如果该等级在[-255,255]内,那么使用ESC2标记并且用9位来编码该等级。
在此阶段,该等级不能超过[-255,255],这就是为什么仅需最大9比特就足够用来编码该等级的原因。事实上,一个系数的最大绝对值将甚至小于200。
对于多数普通的行程-等级组合,将使用如下表定义的Huffman码。该表用行程和等级来排序,并可以用于编码。编码器使用行程-等级-组合来查找对应的Huffman码。
行程  等级  码长  Huffman码字  16位代码(二进制)
0  1  2  11  0000 0000 00000011
0  2  4  0100  0000 0000 00000100
0  3  5  00101  .
0  4  7  0000110  .
0  5  8  00100110  .
0  6  8  00100001
0  7  10  0000001010
0  8  12  000000011101
0  9  12  000000011000
0  10  12  000000010011
0  11  12  000000010000
0  12  13  0000000011010
0  13  13  0000000011001
0  14  13  0000000011000
0  15  13  0000000010111
0  16  14  00000000011111
0  17  14  00000000011110
 0  18  14  00000000011101
 0  19  14  00000000011100
 0  20  14  00000000011011
 0  21  14  00000000011010
 0  22  14  00000000011001
 0  23  14  00000000011000
 0  24  14  00000000010111
 0  25  14  00000000010110
 0  26  14  00000000010101
 0  27  14  00000000010100
 0  28  14  00000000010011
 0  29  14  00000000010010
 0  30  14  00000000010001
 0  31  14  00000000010000
 0  32  15  000000000011000
 0  33  15  000000000010111
 0  34  15  000000000010110
 0  35  15  000000000010101
 0  36  15  000000000010100
 0  37  15  000000000010011
 0  38  15  000000000010010
 0  39  15  000000000010001
 0  40  15  000000000010000
 1  1  3  011
 1  2  6  000110
 1  3  8  00100101
 1  4  10  0000001100
 1  5  12  000000011011
 1  6  13  0000000010110
 1  7  13  0000000010101
 1  8  15  000000000011111
 1  9  15  000000000011110
 1  10  15  000000000011101
 1  11  15  000000000011100
 1  12  15  000000000011011
 1  13  15  000000000011010
 1  14  15  000000000011001
 1  15  16  000000000010011
 1  16  16  000000000010010
 1  17  16  000000000010001
 1  18  16  000000000010000
 2  1  4  0101
 2  2  7  0000100
 2  3  10  0000001011
 2  4  12  000000010100
 2  5  13  0000000010100
 3  1  5  00111
 3  2  8  00100100
 3  3  12  000000011100
 3  4  13  0000000010011
 4  1  5  00110
 4  2  10  0000001111
 4  3  12  000000010010
 5  1  6  000101
 5  2  10  0000001001
 5  3  13  0000000010010
 6  1  6  000111
 6  2  12  000000011110
 6  3  16  0000000000010100
 7  1  6  000100
 7  2  12  000000010101
 8  1  7  0000111
 8  2  12  000000010001
 9  1  7  0000101
 9  2  14  00000000010001
 10  1  8  00100111
 10  2  13  0000000010000
 11  1  8  00100011
 11  2  16  0000000000011010
 12  1  8  00100010
 12  2  16  0000000000011001
 13  1  8  00100000
 13  2  16  0000000000011000
 14  1  10  0000001110
 14  2  16  0000000000010111
 15  1  10  0000001101
 15  2  16  0000000000010110
 16  1  10  0000001000
 16  2  16  0000000000010101
 17  1  12  000000011111
 18  1  12  000000011010
 19  1  12  000000011001
 20  1  12  000000010111
 21  1  12  000000010110
 22  1  13  0000000011111
 23  1  13  0000000011110
 24  1  13  0000000011101
 25  1  13  0000000011100
 26  1  13  0000000011011
 27  1  16  0000000000011111
 28  1  16  0000000000011110 .
 29  1  16  0000000000011101 .
 30  1  16  0000000000011100 .
 31  1  16  0000000000011011 0000 0000 00011011
 EOB  S=0  2  10 标记
 ESC1  S=1  2  10 标记
 ESC2  S=1  6  000001 标记
同样的信息被用于图像数据的解码。此处示出,用码长来排序上述表格。该表由熵解码器60(图6b)使用,其使用收到的代码及其码长来查找行程-等级-组合。
行程  等级  码长  Huffman码字 16位代码(二进制)
0  1  2  11 0000 0000 00000011
EOB  S=0  2  10 标记
ESC1  S=1  2  10 标记
1  1  3  011 0000 0000 00000011
0  2  4  0100 0000 0000 00000100
2  1  4  0101 .
0  3  5  00101 .
3  1  5  00111 .
4  1  5  00110
1  2  6  000110
5  1  6  000101
6  1  6  000111
7  1  6  000100
ESC2  S=1  6  000001 标记
0  4  7  0000110
2  2  7  0000100
8  1  7  0000111
9  1  7  0000101
0  5  8  00100110
 0  6  8  00100001
 1  3  8  00100101
 3  2  8  00100100
 10  1  8  00100111
 11  1  8  00100011
 12  1  8  00100010
 13  1  8  00100000
 0  7  10  0000001010
 1  4  10  0000001100
 2  3  10  0000001011
 4  2  10  0000001111
 5  2  10  0000001001
 14  1  10  0000001110
 15  1  10  0000001101
 16  1  10  0000001000
 0  8  12  000000011101
 0  9  12  000000011000
 0  10  12  000000010011
 0  11  12  000000010000
 1  5  12  000000011011
 2  4  12  000000010100
 3  3  12  000000011100
 4  3  12  000000010010
 6  2  12  000000011110
 7  2  12  000000010101
 8  2  12  000000010001
 17  1  12  000000011111
 18  1  12  000000011010
 19  1  12  000000011001
 20  1  12  000000010111
 21  1  12  000000010110
 0  12  13  0000000011010
 0  13  13  0000000011001
 0  14  13  0000000011000
 0  15  13  0000000010111
 1  6  13  0000000010110
 1  7  13  0000000010101
 2  5  13  0000000010100
 3  4  13  0000000010011
 5  3  13  0000000010010
 10  2  13  0000000010000
 22  1  13  0000000011111
 23  1  13  0000000011110
 24  1  13  0000000011101
 25  1  13  0000000011100
 26  1  13  0000000011011
 0  16  14  00000000011111
 0  17  14  00000000011110
 0  18  14  00000000011101
 0  19  14  00000000011100
 0  20  14  00000000011011
 0  21  14  00000000011010
 0  22  14  00000000011001
 0  23  14  00000000011000
 0  24  14  00000000010111
 0  25  14  00000000010110
 0  26  14  00000000010101
 0  27  14  00000000010100
 0  28  14  00000000010011
 0  29  14  00000000010010
 0  30  14  00000000010001
 0  31  14  00000000010000
 9  2  14  00000000010001
 0  32  15  000000000011000
 0  33  15  000000000010111
 0  34  15  000000000010110
 0  35  15  000000000010101
 0  36  15  000000000010100
 0  37  15  000000000010011
 0  38  15  000000000010010
 0  39  15  000000000010001
 0  40  15  000000000010000
 1  8  15  000000000011111
 1  9  15  000000000011110
 1  10  15  000000000011101
 1  11  15  000000000011100
 1  12  15  000000000011011
 1  13  15  000000000011010
 1  14  15  000000000011001
 1  15  16  0000000000010011
 1  16  16  0000000000010010
 1  17  16  0000000000010001
 1  18  16  0000000000010000
 6  3  16  0000000000010100
 11  2  16  0000000000011010
 12  2  16  0000000000011001
  13   2   16   0000000000011000
  14   2   16   0000000000010111
  15   2   16   0000000000010110
  16   2   16   0000000000010101
  27   1   16   0000000000011111
  28   1   16   0000000000011110 .
  29   1   16   0000000000011101 .
  30   1   16   0000000000011100 .
  31   1   16   0000000000011011 0000 0000 00011011
Huffman码的一些例子如下:
行程,等级 S  Huffman码/标记 行程  等级
(0,-130) 1  0000001(ESC2) 000000  1 0111 1110
(26,-127) 1  10(ESC1) 011010  1000 0001
(0,-1) 1  11
(0,1) 0  11
(10,1) 0  00100111
(0,0) 0  10
被本发明该实施例中所用方法压缩的所有图像分量被以底部-上部-左-至-右的方式处理。这意味着一个分量的第一个块在输入图像的左下角,下一个块在其右边,等等直到块线的末尾。下一个块线在先前块线的上面,并且所有块线都始于左端。该过程示于图10。
由于每个块都被单独地处理,一直到进行熵编码,因此有许多建立块数据流的不同方式。由于在实际接收全部图像数据之前不需要对图像解码,因此一个非交织结构被选用,因该结构简化了算法并且减少了处理时间。这意味着Y分量的所有块首先被处理及存储,其后是用于Cb分量的所有块,最后是用于Cr分量的所有块。渐进解码/编码也是可能的,稍后将进行描述。所得到的数据流示于图11。
利用本发明方法压缩的图像在本实施例中以下述文件格式存储(这里称作VACIMG文件)。
本发明的此实施例利用视觉关注映像来压缩图像,该映像定义了图像中的不同区域以用不同的兴趣等级压缩。此实施例中使用了4个等级,尽管如所期望的能够使用更多的(或更少的)等级。对应于各个兴趣等级的区域中的每一个都用其自己的压缩比来压缩,从而允许用比该图像的其它部分高的压缩比(以及较低的品质)来压缩背景。然后把被压缩的图像存储到一文件中,其同样包括该视觉关注映像。由于高压缩比是本发明此实施例的目标之一,因此仅有必须的很少的有关该图像的信息被存储在此文件中。有关该图像的所有普通信息首先进入到文件中,后面是视觉关注映像,然后是压缩的图像数据。有关该图像的普通信息包括在x和y方向上的抽样数以及用于所有四个可能等级的品质等级。为了允许应用程序检测一个文件是否为VACIMG文件,把一个文件签名插到该普通图像信息的前面。
下表提供VACIMG图像所用的文件格式的概述。
字节数  名称 字节长度 功能
0-5  - 6 文件签名:“VACIMG”
6-7  宽度 2 在x方向上的抽样数
8-9  高度 2 在y方向上的抽样数
10  0级 1 用于0级的量化因子(背景)
11  1级 1 用于1级的量化因子(前景,低i)
12  2级 1 用于2级的量化因子(前景,中i)
13  3级 1 用于3级的量化因子(前景,高i)
14-i  VA Map K 视觉关注映像
i-n  数据 D 图像数据
利用字节中的标准窗口位对准来把全部字节写入到文件内。该文件从表示字符‘V’,‘A’,‘C’,‘I’,‘M’和‘G’的6个字节开始。之后是抽样数,宽度和高度,二者都被存储为未加符号的16位整数。首先到的是最高有效字节。其后是4个品质等级,它们被存储为未加符号的8位整数。接下来是视觉关注映像,VA Map,它存储了兴趣等级(以及由此代表的压缩等级)。该视觉关注映像用每8×8像素块两比特来表示。在x和y方向上的块数用早先所示的等式给出,其被用于如下计算该视觉关注映像所使用的字节数:
k = bx Y · by Y 4
最后,是所有被压缩的图像数据。用于该被压缩图象数据的字节数不为解码器所知。解码器必须使用被提供用来重建图象的所有字节,并且一旦已到达文件的末尾就自动终止解码。
利用视觉关注映像可以允许图像的渐进解码,其中最关注的图像部分首先被解码。取代使用非交织结构来存储图像分量的DCT系数,可以使用交织结构,因此用来重建一个块的所有信息聚拢在数据流中。这就允许接收器在已收到完整的文件之前开始解压缩和建造所接收的图像。这对于诸如万维网,无线应用协议(WAP)电话或者甚至视频电话技术来说非常有用。JPEG已经提供了渐进编码,但是还有能够从使用基于视觉关注的图像压缩得出的优点。被视为最重要的块(3级块)可以被首先发送,接着的是2级块,1级块,最后是背景块(0级块)。这意味着接收器能够更早地得到图像的“消息”,并且一旦已收到足够的信息他甚至可以决定切断数据流。在多数应用中,按照固定的像素顺序来发送图像,例如在左下角开始并逐行地向上扫描图像。因此为了得到图像的“消息”,你将必须等待直到整个图像被发送和重建。使用视觉关注映像将使你能够先发送重要的像素,接着是下一个重要像素,等等,因此一旦有足够的信息以得到该消息你就可以切断数据流。该项技术使视频流的传输,甚至在窄带宽网络中也能够具有比较好的品质。尤其是,对于视频电话,该项技术将以损失一些背景信息为代价来在较低的带宽上提供图像。
如果带宽过窄以至不能传送整个图像,那么解码器和编码器可以在任何时间停止块的传送,因此只传送最重要的块。为了在接收器上得到一改进的图像,整个图像同样应当被间或地传送以更新背景。不过,多数时间仅仅替换最重要的块就足够了,并且当它们不能被新的块替换时就使用先前图像的背景块。
由于VA-map中的一个低视觉关注等级,同样有可能自动地弄模糊已经用低量化级解码的块。这就不用存储或带宽开销而改进了被解码图象的感知品质。
本发明的其它应用包括在告警标记(例如道路标记)的设计和定位上的人类工程学考虑,以便使它们变得明显,这通常是一试错过程,在此阶段期间对于公众是有危险的。视觉关注的一个目标量度(换言之,识别该标记,或其他的东西是否是在其建议环境中预定观众对该标记的视野内的主要主题)将改进设计过程并降低由不足够突出的试验标记所引起的事故风险。其它标记,例如广告,以及显示器屏幕如因特网“网站”的输出的视觉效果也能够利用该过程来优化以最大化在特定位置上的视觉关注。
本发明还能够识别在某些方面与背景或周围总体不同的物体。例如,通过其所具有的不存在于周围健康细胞中的特征来识别出癌细胞。由肉眼做出的这种异常识别目前是一项劳动密集强度很大的过程,这是由于大量的抽样将被检查以及癌细胞的比较稀少性。已经知道由于眼睛的紧张和疲劳而使观察者未能注意到异常细胞。
作为另一个例子,在被粒子物理学家使用的泡沫室像片中,粒子轨迹的新的以及异常的图案可被该过程识别出来。由于所最关心的轨迹是这些由迄今未发现的具有未知属性的粒子所生成的轨迹,因此不可能设计一个模板来寻找它们。
作为又一个例子,在纹理的视觉呈现内的缺陷的目标检测将改进织物的生产过程,微芯片的设计以及其它避免表面缺陷的过程的质量保证。
在其它应用中,对与其周围环境不匹配的目标的识别在安全监视领域具有很多的应用。如果这种目标不引起警戒人员的提早注意,那么可能构成严重的危害。类似地,出现在卫星图像中的异常目标可能透露出有价值的情报信息或是生态学上的局部变化。
本发明还可以用作为一个应用于很多任务的人类视觉感知模型,其中需要模仿人类性能来作为漫长的和昂贵的人员因素试验的替代。
本发明可以获得应用的其它方面包括用于视频资料的改进再现,其中具有感知重要性的区域用更为详细的,增强的教材来再现以集中学生的注意力,在图像编辑方面提供用于高度关注的目标的轮廓,因此例如它们可以被剪切并用于组合,以及在通过对视觉关注等级的自动监控而对铁路或道路上的安全信号/标记进行自动检查方面。

Claims (13)

1.一种处理视觉图像的方法,用于识别视觉关注的区域,包括步骤:
把一图像存储为一像素阵列,每个像素具有一个值;
从该阵列中选择测试像素;
对于每个测试像素,选择一个或多个邻近该测试像素的邻近像素序列;
从该阵列中选择对照像素;
识别一个邻近一选定对照像素的像素序列,该像素序列对该对照像素具有的相应位置关系与一选定的邻近像素序列对该测试像素具有的相应位置关系相同;
按照一预定的匹配标准比较该测试像素的选定的邻近序列的值与该对照像素的被识别出的邻近序列的值;
根据为每个测试像素所做的比较中导致不匹配的比较数目,为该测试像素生成视觉关注的一个量度,其中高的不匹配数表示该测试像素是值得视觉关注的对象的一部分。
2.根据权利要求1的方法,其中,对于每个对照像素,如果邻近该测试像素的一个或多个选定像素具有与邻近该对照像素的相应像素的值基本上不相似的值,那么该测试像素的异常值被递增1,并且利用具有相同测试像素的更多的对照像素来重复该过程直到选定一个对照像素,对于该对照像素,所有选定的像素具有基本上相似于邻近该测试像素的对应像素的值,在此情形中一个另外的邻近序列被选定并重复该过程。
3.根据权利要求1或2的方法,其中多个测试像素被同时分析。
4.根据权利要求1或2的方法,其中同时把多个对照像素与一给定测试像素进行比较。
5.根据权利要求1或2的方法,其中该值为表示一彩色图像的三元矢量。
6.根据权利要求1或2的方法,其中除了邻近序列外,还选定更多的可变搜寻标准。
7.根据权利要求6的方法,其中该更多的可变搜寻标准包括用于确定两个像素值是否基本上相似的一个阈值。
8.根据权利要求1或2的方法,该方法包括以下步骤:存储用于搜寻标准的值,其中已为该标准生成一高的不匹配数,以及为随后的测试像素选择该相同的搜寻标准。
9.根据权利要求1或2的方法,其中通过对含有具有最大不匹配数的像素的区域的识别来识别视觉场景中的主要主题。
10.根据权利要求2的方法,其中给予一视觉场景中的给定对象的视觉关注的量度通过比较为代表该对象的像素所生成的异常值与为该场景的其它部分所生成的异常值来确定。
11.一种图像压缩方法,包括:
根据权利要求1或2来处理一图像以找到视觉关注区域的位置;
使用具有可变压缩比的压缩方法对该图像编码,其中根据被定位的视觉关注区域对该图像编码,使得对高度视觉关注的图像区域进行编码所使用的压缩率比对低视觉关注的图像区域进行编码所使用的压缩率低。
12.根据权利要求11的图像压缩方法,其中该被定位的视觉关注区域被用于选择用来编码该图像的一个量化等级。
13.一种用于处理一视觉图像或此类图像的一个序列的装置,用于定位视觉关注的区域,包括:
用于把一图像存储为一像素阵列的装置,每个像素具有一个值;以及
用于执行以下操作的控制装置:
从该阵列中选择测试像素;
选择邻近该测试像素的邻近像素序列;
从该阵列中选择对照像素;
识别邻近一选定对照像素的像素序列,该像素序列对该对照像素具有的相应位置关系与一选定的邻近像素序列对该测试像素具有的相应位置关系相同;
按照一预定的匹配标准比较该测试像素的选定的邻近序列的值与该对照像素的被识别出的邻近序列的值;
根据识别一不匹配序列的比较的数目,为每个测试像素生成视觉关注的一个量度,其中高的不匹配数表示该测试像素是值得视觉关注的对象的一部分。
CNB018051618A 2000-02-17 2001-02-08 处理视觉图像的方法和装置以及图像压缩方法 Expired - Lifetime CN1214349C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP00301262.2 2000-02-17
EP00301262A EP1126411A1 (en) 2000-02-17 2000-02-17 Visual attention location system
EP00307771.6 2000-09-08
EP00307771 2000-09-08

Publications (2)

Publication Number Publication Date
CN1430767A CN1430767A (zh) 2003-07-16
CN1214349C true CN1214349C (zh) 2005-08-10

Family

ID=26073010

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB018051618A Expired - Lifetime CN1214349C (zh) 2000-02-17 2001-02-08 处理视觉图像的方法和装置以及图像压缩方法

Country Status (8)

Country Link
US (1) US6934415B2 (zh)
EP (1) EP1281164B1 (zh)
JP (1) JP4732660B2 (zh)
KR (1) KR100821847B1 (zh)
CN (1) CN1214349C (zh)
AU (1) AU2001232029A1 (zh)
CA (1) CA2400085C (zh)
WO (1) WO2001061648A2 (zh)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2400085C (en) * 2000-02-17 2008-02-19 British Telecommunications Public Limited Company Visual attention system
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
US6870956B2 (en) 2001-06-14 2005-03-22 Microsoft Corporation Method and apparatus for shot detection
DE60303138T2 (de) 2002-03-22 2006-08-31 British Telecommunications P.L.C. Vergleichen von mustern
EP1488413B1 (en) 2002-03-22 2012-02-29 BRITISH TELECOMMUNICATIONS public limited company Anomaly recognition method for data streams
US7098117B2 (en) * 2002-10-18 2006-08-29 The Regents Of The University Of Michigan Method of fabricating a package with substantially vertical feedthroughs for micromachined or MEMS devices
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7274741B2 (en) 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
US7130461B2 (en) * 2002-12-18 2006-10-31 Xerox Corporation Systems and method for automatically choosing visual characteristics to highlight a target against a background
GB0229625D0 (en) 2002-12-19 2003-01-22 British Telecomm Searching images
US7164798B2 (en) * 2003-02-18 2007-01-16 Microsoft Corporation Learning-based automatic commercial content detection
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
US7369167B2 (en) * 2003-06-02 2008-05-06 Micron Technology, Inc. Photo diode ID for CMOS imagers
US7400761B2 (en) * 2003-09-30 2008-07-15 Microsoft Corporation Contrast-based image attention analysis framework
US7471827B2 (en) 2003-10-16 2008-12-30 Microsoft Corporation Automatic browsing path generation to present image areas with high attention value as a function of space and time
JP4396430B2 (ja) * 2003-11-25 2010-01-13 セイコーエプソン株式会社 視線誘導情報生成システムおよび視線誘導情報生成プログラム、並びに視線誘導情報生成方法
AU2004233453B2 (en) * 2003-12-03 2011-02-17 Envysion, Inc. Recording a sequence of images
GB0328326D0 (en) 2003-12-05 2004-01-07 British Telecomm Image processing
JP4207883B2 (ja) * 2004-03-24 2009-01-14 セイコーエプソン株式会社 視線誘導度算出システム
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
JP5222556B2 (ja) * 2004-09-03 2013-06-26 ユカンシ インコーポレイテッド 視覚認知を改善するためのシステム、装置および作動方法
ATE404938T1 (de) 2004-09-17 2008-08-15 British Telecomm Analyse von mustern
US7562056B2 (en) * 2004-10-12 2009-07-14 Microsoft Corporation Method and system for learning an attention model for an image
EP1732030A1 (en) 2005-06-10 2006-12-13 BRITISH TELECOMMUNICATIONS public limited company Comparison of patterns
EP1908013B1 (en) 2005-07-28 2014-04-23 BRITISH TELECOMMUNICATIONS public limited company Image analysis
US20070297612A1 (en) * 2005-10-21 2007-12-27 Meir Feder Method, device and system of encrypted wireless communication
US8559525B2 (en) * 2005-10-21 2013-10-15 Amimon Ltd. Apparatus and method for uncompressed, wireless transmission of video
EP1938624A4 (en) * 2005-10-21 2009-10-28 Amimon Ltd APPARATUS AND METHOD FOR WIRELESS TRANSMISSION OF UNCOMPRESSED VIDEO
US7860180B2 (en) * 2005-10-21 2010-12-28 Amimon Ltd OFDM modem for transmission of continuous complex numbers
US7773813B2 (en) * 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8180826B2 (en) 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
EP1798961A1 (en) 2005-12-19 2007-06-20 BRITISH TELECOMMUNICATIONS public limited company Method for focus control
US20070156382A1 (en) * 2005-12-29 2007-07-05 Graham James L Ii Systems and methods for designing experiments
US7599918B2 (en) * 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
JP2007241479A (ja) * 2006-03-06 2007-09-20 Toshiba Corp 変動領域検出装置及びその方法
US7809170B2 (en) * 2006-08-10 2010-10-05 Louisiana Tech University Foundation, Inc. Method and apparatus for choosing and evaluating sample size for biometric training process
TWI324326B (en) * 2006-11-03 2010-05-01 Univ Nat Taipei Technology A mura defect detection algorithm for flat panel displays
US8132096B1 (en) * 2007-03-26 2012-03-06 Hewlett-Packard Development Company, L.P. Image composition evaluation
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
US20090012847A1 (en) * 2007-07-03 2009-01-08 3M Innovative Properties Company System and method for assessing effectiveness of communication content
KR101669384B1 (ko) 2007-07-03 2016-10-25 쓰리엠 이노베이티브 프로퍼티즈 컴파니 배정된 컨텐츠의 효과를 측정하기 위해 컨텐츠를 시간 슬롯 샘플에 배정하는 시스템 및 방법
US9947018B2 (en) * 2007-07-03 2018-04-17 3M Innovative Properties Company System and method for generating time-slot samples to which content may be assigned for measuring effects of the assigned content
EP2101503A1 (en) 2008-03-11 2009-09-16 British Telecommunications Public Limited Company Video coding
US8326061B2 (en) * 2008-05-12 2012-12-04 Google Inc. Fast visual degrading of images
WO2010039966A1 (en) * 2008-10-03 2010-04-08 3M Innovative Properties Company Systems and methods for optimizing a scene
WO2010080722A2 (en) * 2009-01-07 2010-07-15 3M Innovative Properties Company System and method for concurrently conducting cause-and-effect experiments on content effectiveness and adjusting content distribution to optimize business objectives
KR101584115B1 (ko) * 2009-03-31 2016-01-12 삼성전자주식회사 시각적 관심맵 생성 장치 및 방법
US8649606B2 (en) * 2010-02-10 2014-02-11 California Institute Of Technology Methods and systems for generating saliency models through linear and/or nonlinear integration
US8542875B2 (en) 2010-09-17 2013-09-24 Honeywell International Inc. Image processing based on visual attention and reduced search based generated regions of interest
US8504912B2 (en) * 2011-07-15 2013-08-06 Neodata Group S.R.L. System to forecast performance of online news articles to suggest the optimal homepage layout to maximize article readership and readers stickiness
CN102568016B (zh) * 2012-01-03 2013-12-25 西安电子科技大学 基于视觉注意的压缩感知图像目标重构方法
US9042648B2 (en) * 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
US8705870B2 (en) 2012-03-02 2014-04-22 Microsoft Corporation Image searching by approximate κ-NN graph
US9710493B2 (en) 2013-03-08 2017-07-18 Microsoft Technology Licensing, Llc Approximate K-means via cluster closures
US9866900B2 (en) 2013-03-12 2018-01-09 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to detect shapes
US9128994B2 (en) * 2013-03-14 2015-09-08 Microsoft Technology Licensing, Llc Visually representing queries of multi-source data
US10074034B2 (en) 2013-06-14 2018-09-11 Intel Corporation Image processing including adjoin feature based object detection, and/or bilateral symmetric object segmentation
US9245192B2 (en) 2013-09-20 2016-01-26 Here Global B.V. Ad collateral detection
US9373057B1 (en) 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US10026010B2 (en) 2014-05-14 2018-07-17 At&T Intellectual Property I, L.P. Image quality estimation using a reference image portion
EP3475785A4 (en) * 2016-04-22 2020-05-13 SZ DJI Technology Co., Ltd. SYSTEMS AND METHODS FOR PROCESSING IMAGE DATA BASED ON A USER'S INTEREST
US10452951B2 (en) 2016-08-26 2019-10-22 Goodrich Corporation Active visual attention models for computer vision tasks
US10685432B2 (en) * 2017-01-18 2020-06-16 Ricoh Company, Ltd. Information processing apparatus configured to determine whether an abnormality is present based on an integrated score, information processing method and recording medium
US10901726B2 (en) 2018-10-12 2021-01-26 International Business Machines Corporation Intelligent visual regression system
US20200160089A1 (en) * 2018-11-15 2020-05-21 International Business Machines Corporation Visual pattern recognition with selective illumination for assisted inspection
CN111079740A (zh) * 2019-12-02 2020-04-28 咪咕文化科技有限公司 图像的质量评价方法、电子设备和计算机可读存储介质
WO2023203493A1 (en) * 2022-04-18 2023-10-26 Lean Ai Technologies Ltd. Similarity map-based outliers detection
CN115171328B (zh) * 2022-06-30 2023-11-10 国网北京市电力公司 基于视频压缩编码的烟火识别方法、装置、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113454A (en) * 1988-08-19 1992-05-12 Kajaani Electronics Ltd. Formation testing with digital image analysis
US5200820A (en) * 1991-04-26 1993-04-06 Bell Communications Research, Inc. Block-matching motion estimator for video coder
JPH08248303A (ja) * 1995-03-07 1996-09-27 Minolta Co Ltd 焦点検出装置
JP3580670B2 (ja) * 1997-06-10 2004-10-27 富士通株式会社 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
US6078680A (en) * 1997-07-25 2000-06-20 Arch Development Corporation Method, apparatus, and storage medium for detection of nodules in biological tissue using wavelet snakes to characterize features in radiographic images
US6282317B1 (en) * 1998-12-31 2001-08-28 Eastman Kodak Company Method for automatic determination of main subjects in photographic images
CA2400085C (en) * 2000-02-17 2008-02-19 British Telecommunications Public Limited Company Visual attention system
EP1126411A1 (en) 2000-02-17 2001-08-22 BRITISH TELECOMMUNICATIONS public limited company Visual attention location system

Also Published As

Publication number Publication date
CA2400085C (en) 2008-02-19
EP1281164A2 (en) 2003-02-05
CA2400085A1 (en) 2001-08-23
JP4732660B2 (ja) 2011-07-27
WO2001061648A3 (en) 2002-03-21
US20020081033A1 (en) 2002-06-27
WO2001061648A2 (en) 2001-08-23
US6934415B2 (en) 2005-08-23
CN1430767A (zh) 2003-07-16
EP1281164B1 (en) 2015-05-27
KR100821847B1 (ko) 2008-04-11
KR20020075918A (ko) 2002-10-07
AU2001232029A1 (en) 2001-08-27
JP2003523587A (ja) 2003-08-05

Similar Documents

Publication Publication Date Title
CN1214349C (zh) 处理视觉图像的方法和装置以及图像压缩方法
CN1207897C (zh) 图象处理方法和设备
CN1253010C (zh) 图像压缩方法及装置、图像编码装置及图像编码方法
CN1458791A (zh) 分段分层的图像系统
CN1174344C (zh) 数字摄像机图像中字符定位的方法及装置
CN100446540C (zh) 彩色图像压缩方法和装置
CN1280709C (zh) 退色补偿的参数化
US7782339B1 (en) Method and apparatus for generating masks for a multi-layer image decomposition
CN1898700A (zh) 图像处理
US8150177B2 (en) Image processing apparatus, image processing method, defect detection method, semiconductor device manufacturing method, and program
CN101163188B (zh) 图像处理装置和方法、图像读取装置和图像形成装置
CN1453747A (zh) 聚类
CN101046848A (zh) 图像处理设备和图像处理方法
CN1617143A (zh) 用于文档检索和相似性匹配的特征
CN1547724A (zh) 使用golomb-rice的无损失帧内编码
CN1180627C (zh) 图像编码/解码方法,图像编码装置和图像解码装置
CN1604647A (zh) 给数字视频加水印的方案
Cheng et al. Document compression using rate-distortion optimized segmentation
CN101061514A (zh) 可见性数据压缩方法、解压缩方法、解码器、压缩系统
US7106908B2 (en) Method and apparatus for selecting a format in which to re-encode a quantized image
US20030026476A1 (en) Scaled image generating apparatus and method, image feature calculating apparatus and method, computer programs therefor, and image data structure
CN1316161A (zh) 基于区域的规模可变的图像编码
CN1729694A (zh) 小波图像编码方法和相应的译码方法
JP3977291B2 (ja) 画像再生方法及び画像処理装置
CN1220803A (zh) 一个数字化图像的向量量化和逆向量量化的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20050810