毕业设计论文-彩色图像中文本提取的算法研究.doc-

中北大学信息商务学院1 绪论随着互联网和多媒体技术的快速发展，世界进入了一个崭新的信息化时代。以图像、动画、视频为主要元素的各种多媒体信息构成了信息传播的主力。最近几年以来随着既有拍照功能的便携式电子设备，比如智能手机，平板电脑等，随着技术的不断更新升级，人们急需一种方便的应用程序来提取处理图像中内嵌的文本信息。这都使得彩色图像下的文本的提取成为一个很有意义的研究课题。彩色图像中的文本提取即为彩色图像中文本定位，是很困难的问题。由于其广泛的应用领域越来越受到人们的重视。因此，将图像中的文本提取出来将便于不停国家，不同文化之间的交流。 1.1研究意义和背景随着计算机技术、多媒体技术和通讯技术的发展，以图像、声音和视频为主的多媒体信息的应用越来越广泛，图像中的文本信息对检索和浏览有十分重要的意义。在彩色图像中，文本信息包含了丰富的高层语义信息1。文本可以作为图像的内容标识和索引，是图像内容重要程度的判断依据，例如出现醒目文字的帧，可以抽取出来作为对应的图像的代表帧。如果这些文字信息能自动准确的被检测、分割、识别出来，则对图像高层语义的自动理解、索引和检索是非常有价值的。随着技术的不断发展，人们对彩色图像中文字提取进行了广泛的研究，并已有许多成熟的技术应用在各个领域，如交通管理中的汽车牌照识别和港口货物管理的集装箱编码识别等。但自然场景中的文本分割依然面临着许多复杂的问题，主要原因是：(1)文字和其他自然景物混杂在一起，如树、窗户和房屋建筑等，背景复杂；(2)文字的颜色多种多样；(3)文字的字体和大小复杂多变；(4)光照的变化等。因此从自然场景图像中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为四类:(1)基于边缘的方法(2)基于纹理的方法(3)基于连通域的方法(4)基于学习的方法。在各种自然彩色图像中，往往可以见到各种各样的文字，这些文字一般和该图像的语义内容相关，或者提供了某种定位辅助信息。若能准确的将这些文字信息定位出来，并进行处理，使之能够被传统的OCR软件识别并被转化成为机器内码，结合自然语言处理，文本检索，文本翻译，语音合成等技术可以被应用到各种领域实现。1.2课题发展现状针对图像、视频文本检测和提取的研究，主要有以下算法：Rainer Lienhart2利用文字颜色的单一性、文本区域的大小约束、同一文本会在连续几个视频帧出现等特点，对文本进行检测和定位。首先对视频帧使用分裂合并算法，将视频帧分解成颜色一致的连通元（connected component）。然后通过匹配算法，对连通元进行多帧跟踪，去除那些没有连续多帧出现的连通元。最后通过对比度的分析，形状分析等去除非文本的连通元。该算法要对每一个视频帧进行分裂合并算法，而且视频中生成的连通元绝大部分都不会是文本，因此算法复杂度太高，系统效率低。Boon -Lock Yeo3提出利用场景变化来检测视频文本的出现和消失。算法对相邻两个视频帧取差值，在差值图像中寻找高亮区域。这种算法只能提取高亮的视频字幕，而不能提取非高亮度的字幕，而且也会受到较亮的物体的干扰。Byung4提出用字符的拓扑结构特征来提取字符文本区域，然后对视频字幕区域进行复原。该算法是基于单个视频帧图像的字幕提取，效果并不明显。Marco Bertin5利用角点特征来进行的视频字幕检测。这种算法实质上类似于基于灰度边缘的算法等。王辰等6等通过灰度边缘检测来定位文本区域。首先提取视频帧的灰度边缘，然后合并相邻的边缘，生成候选文本区域，最后用一些启发式规则来去除虚假的文本区域。该算法不能提取灰度值和背景接近的文本。王勇等7提出一种基于边缘点密度的视频字幕自适应检测算法。采用基于边缘检测的方法，结合文字图像区域本身的特点，在对原图像进行边缘检测和形态学膨胀后，对其在水平和垂直方向的边缘密度投影采用一种自适应的检测算法，从而检测得到字幕图像区域。该算法的优点是可以检测出各种字体大小的文本行。但是算法不能提取灰度值和背景接近的文本。郭丽等8提出一种基于颜色边缘点和游程平滑的视频文本提取算法。黄晓东等15综合应用小波变换和颜色聚类技术来提取视频帧中的字幕区域。首先，通过小波变换计算视频中的局部能力特征，能量高的区域作为候选字幕区域。然后利用字幕颜色一致的特征，进行邻域颜色聚类算法，从背景中分离出字幕。最后利用字幕属性特征消除噪声。但是该算法容易受到颜色一致的物体的干扰。处理图像的时间较长。1.3本文主要研究方向课题的主要目标就是在彩色图像下提取文本信息，二值化分割进而识别文字这一特定语义对象。在各种彩色图像中，往往可以见到各种各样的文字，这些文字一般和该图像的语义内容相关，或者提供了某种定位辅助信息。若能准确的将这些文字信息定位出来，并进行处理，使之能够被传统的OCR软件识别并被转化成为机器内码，结合自然语言处理，文本检索，文本翻译，语音合成等技术可以被应用到各种应用领域。对图像中文字的提取首先确定包含文字的图像区域，滤除非文本背景的干扰，把彩色图像中的文本区域定位出来，这是文字提取工作中最难、最关键的环节，确定包含文字图像的区域后，利用文本特征制定启发式规则，滤除非文本区域，得到二值化文本字符，为了方便后面的文字抽取，在字符抽取前进行一次文字区域图像质量的改善也很有必要，对文字提取后，最终采用OCR技术对字符进行识别。1.4本文主要内容与安排论文从课题出发，第一章绪论中阐述了彩色图像中文本信息提取的四种方式，然后比较对于不同场景和复杂背景各种方式的可操作性。并将完整的文字提取系统划分为文字定位、文字分割和文字识别三个阶段，指出前两部分是本文所要解决的问题所在。第二章主要介绍了文本定位与提取方法综述，简单的介绍文本提取原理，对文本粗提取与细提取的步骤进行了阐述。第三章文本预处理，主要介绍了对文本的灰度化，直方均衡，和图像降噪等等，使提取出来的图像对后面的文本细定位做了准备。第四章结合边缘检测和数学形态学特征对文字进行定位，边缘检测算法中5种算子的比较，基于边缘的图像文本处理技术。应用了基于彩色图像的canny算子边缘的方法。结合数学形态学中各种运算做了文本细定位。第五章介绍文字分割典型的常见手法并且加以比较，针对彩色图像中文本定位提取的问题，对文本区域进行字符提取，成功提取出单个字符串。第六章展望与总结。2. 彩色图像文本特征分析与提取人们识别文本的过程不是有规律的基于逻辑的思维方式，而是一种无规则的基于直觉的思维方式。目前电脑还达不到模拟人类直觉思维方式的水平,它只能利用大量的运算来逼近人们的类比识别过程，因此某一些特定的数学运算并不足以适应多种情况下大的需要，并且对于图像中的目标文本而言，文本不单单以一种特定形式表现，而是根据不同的情况存在有不同的表现方式，比如颜色、梯度、纹理、边缘等等。2.1彩色文本提取常用方法目前存在的很多图像文本提取技术有很强的针对性，对于不同的文本特征，比较适用的提取方法如表2.1所示。表2.1文本提取技术及其对应的文本特征文本提取技术对应文本特征具体实现方案基于连通分量的技术颜色、灰度值阈值化方法，颜色聚类，颜色量化基于边缘的技术边缘和梯度边缘检测算子基于纹理的技术纹理和梯度K-mean方法基于学习的技术像素灰度值、彩色梯度神经网络，支持向量机目前文字识别各种技术相对成熟并已经投入实际应用。相比之下，如何准确的将文字区域提取出来目前还处于探索阶段。其主要的难点在于:文本存在于复杂背景之中难以区分；文本存在严重的形变和几何畸变；自然环境下由于照度的不均匀、阴影、反射等原因等造成的文本图像的亮度变化。由于存在这些难点，才使得图像文字提取成为一个值得深入研究的课题。通常情况下根据文本对象的存在形式将文本分为人工文本和场景文本。目前的研究主要集中于对人工文本的研究，而场景文本的研究刚刚起步。文本提取的研究思路主要集中于应用各种图像处理的方法将文字区域的边角特征、色彩特征和纹理特征突出，然后根据一定的分类算法来划分候选的区域，经过进一步的后处理来最终确定实际的文本区域。在本文将文本的定位、定位与提取、作为文本区域提取整体来讨论，包含预处理、特征提取、分类(定位)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题。在本文将文本的定位、定位与提取、作为文本区域提取整体来讨论，包含预处理、特征提取、分类(定位)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题。彩色图像文本提取流程如下图所示。字符识别图像采集字符分割文字定位图像预处理图2.1 彩色图像文本提取文本信息提取流程包含了文字定位、文字分割和光学字符识别(OCR)三个串联的阶段。本文主要介绍文字定位和文字分割。在第一部分图像采集中，主要通过CCD 摄像头与计算机的视频捕捉卡直接相连来完成图像采集。该部分功能可简单调用计算机视频捕捉卡厂商提供的各种软件开发包工具即可实现。彩色图像中的文本提取的关键在于后四部分。首先要对采集到的图像进行预处理，而文本定位又决定其后的文本字符识别，因此文本域定位是关键，文本区域定位就是从包含整个图像中找到文本所在区域的位置。目前，已经提出了很多种方法，一个共同的出发点是：通过文本的特征来判断区域，利用的文本特征主要包括：文本区域内的边缘灰度直方图统计“特征”、文本的几何特征、文本区域的灰度分布特征、文本区域水平或垂直投影特征、文本形状特征和频谱特征。2.2 图像预处理根据三基色原理，世界上任何色彩都可以由红绿蓝（RGB）三色不同比例的混合来表示，如果红绿蓝（RGB）三个信号分别由一个字节表示，则该图像颜色位数就达到二十四位真彩，也就是说在二十四位真彩的数字图像中每个像素点由三个字节来表示，根据数字图像水平和垂直方向像素点数（即图像分辨率）可计算出一幅图像实际位图大小。通常文字在字体、大小、颜色、对齐方式和排列方向上常常有很大的变化，文字背景复杂，图像分辨率低，图像噪声高，而且很多系统在应用上还要求算法有较高的处理速度，这些都使得从图像中有效地提取出文字变得异常困难。但我们可以对图像根据不同应用特点进行识别前的预处理，尽最大可能提高文本正确识别率，这些图像预处理包括图像平滑、倾斜校正、直方图均衡化、灰度修正等。 2.3 文字定位彩色图像往往是在复杂的环境中得到的，图像中往往有很大的形变，如何在复杂背景中准确、快速找出文本的位置成为文本识别中的难点10。目前已有不少学者在这方面进行了研究。总结起来主要有如下几类方法：(1) 基于水平灰度变化特征的方法，这种方法主要在文本定位以前，需要对图像进行预处理，将彩色图像转换为灰度图像。(2) 基于边缘检测的定位方法，这种方法是利用文本区域丰富的边缘特征进行文字定位11，能够进行检测的方法有多种，如Roberts 边缘算子、Prewitt 算子、Sobel 算子以及拉普拉斯边缘检测；(3) 基于颜色特征的定位方法，这种方法主要是应用图像的纹理特征、形状特征和颜色特征即利用字符和底色具有明显的反差特征来排除干扰进行文字的定位；(4) 基于数学形态学的定位方法，这种方法是利用数学形态学图像处理的基本思想，利用一个结构元素来探测一个图像，看是否能将这个结构元素很好的填放在图像内部，同时验证填放元素的方法是否有效。腐蚀、膨胀、开启和关闭是数学形态学的基本运算。这些方法各有优缺点，本文结合数学形态学的特征和边缘检测对文本进行定位，对于提高文本定位准确率提供更有利的保障。该方法包括文字区域的粗定位和细定位两个步骤。在粗定位阶段中采用了基于数学形态学的定位方法，在得到定位图像后进行细定位，在细