华中科技大学 硕士学位论文 一种基于灰度分级的新型字符分割算法 姓名:周彦 申请学位级别:硕士 专业:通信与信息系统 指导教师:刘文予 20090601 I 华华 中 科中 科 技技 大 学 硕 士 学 位 论大 学 硕 士 学 位 论 文文 摘摘 要要 OCR 字符辨识是使用计算机对纸质材料或其他材料上的文字进行识别并电子信 息流化的过程。 由以往的研究表明,字符辨识系统的识别效果,与文本图像的预处理,如二值化 处理、平滑处理,及文字分割处理都密切相关。错误的二值化或者分割将直接导致 错误的字符辨识。因此,近年来,二值化方法以及文字的分割方法,成为了 OCR 领 域中最大热点之一。 本文首先介绍了图像的二值化方面的内容,对现今的较为常用的二值化方法,按 全局 Threshold 化法与局部 Threshold 化方法的分类进行了分析和比较。之后介绍了 字符分割的常用算法,从以往的传统分割方法到较前沿的识别类分割方法,进行了 分析和比较。本文还重点介绍了在字符分割领域应用较多的 Drop-fall 算法等热门算 法,在 Gray-scale Image 的基础上,对 Drop-fall 算法进行了优化,提出了基于此优化 算法的字符分割算法。 此改进方法是先将灰度的文本图像进行基于灰度的 Segment 化,再根据 Segment Connected domain 的概念把这个对象拟合为树的结构,然后确定主节点层,根据已有 的算法在若干节点上进行更多的后期处理,最终得到最优化的分割结果。对于该方 法中所使用的各类处理方法,文中都进行了较为详实的介绍,并给出了仿真结果的 演示。在最后的仿真结果表明,该方法对 Image 质量较差(例如混合文本、图像模糊 有断裂字等)的文本图像,有着比常规算法更加优质的结果。 关键词关键词:二值化 字符分割 字符辨识 II 华华 中 科中 科 技技 大 学 硕 士 学 位 论大 学 硕 士 学 位 论 文文 Abstract Optical Character Recognition (OCR) is to use the computer to recognize paper-based materials or other materials and identify the text. From previous research it shows that the result of character recognition system is closely related to the pretreatment of text images, such as binarization processing, smoothing, and text partition processing. Binarization errors or partition will be a direct result of character recognition errors. Therefore, in recent years, methods of binarization methods, as well as the division of the text have become the most hot spots in the field of OCR problems. This paper first introduces Binarization image content, todays more commonly used methods of Binarization by global thresholding method and the local threshold of the classification methods are analyzed and compared. Introduced after the popular character segmentation algorithm, from the past, the traditional segmentation method to identify the type of the more cutting-edge segmentation method, analyzed and compared. This article also focuses on the application in the field of character segmentation Drop-fall more popular algorithms such as algorithms, in the Gray-scale Image based on the Drop-fall algorithm is optimized, the optimization algorithm based on the segmentation of the characters. This improved method is the first gray-scale images based on the text of the Segment of gray, and then based on the concept of Segment Connected domain object to the Tree structure for the fitting, and then determine the master node layer, on the basis of the algorithm in a number of nodes on more post-processing, and ultimately receive the optimal segmentation results. For the method used in the treatment of various types of paper have carried out a more detailed description and simulation results of the demonstration. In the final simulation results show that the method of images of poor quality (such as mixed text, image fuzzy word fracture, etc.) the text of the image, with more quality than the conventional method results. Keywords: Image Binarization Character Segmentation Character Recognition 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保 密,在_年解密后适用本授权书。 不保密。 (请在以上方框内打“”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 1 华华 中 科中 科 技技 大 学 硕 士 学 位 论大 学 硕 士 学 位 论 文文 1 引引 言言 1.1 应用背景应用背景 在 OCR(Optical Character Reader)领域,Printing 汉字 Recognition 已经商业化, 并且向着更高更好的方向成长。电子信息流化工作已成为现代信息社会的必然大势。 在现代化的社会中,信息产业高速的膨胀与发展,如电子杂志,门户网站等电子媒 体网页正在慢慢的代替传统媒体。Printing 材料依然在不停的增加,这是一个事实。 而特殊的专业的部门依然在以纸质材料为主, 毕竟阅读 Printing 材料更为符合人的传 统方式和习惯。同时,网络资源的大幅增加,上网速度依然较慢等,都是获取电子 信息流化信息的阻碍要素。因此,电子信息流化与 Printing 材料是互相依存的,在未 来的很长一段时间内都无法互相取代。 1.2 研究意义研究意义 OCR 简而言之就是利用光学相关的技术,把纸张或者其他 Printing 材料上的信 息读出,通过计算机进行转换,而得到一种可以使用计算机语言表达的格式。通常 OCR 的 Recognition 过程如图 1.1 所示2: 2 华华 中 科中 科 技技 大 学 硕 士 学 位 论大 学 硕 士 学 位 论 文文 图图 1.1 OCR 系统的工作步骤系统的工作步骤 大部分 OCR 系统的主要算法都是 Recognition 一个方块字,因此对完整的 OCR 系统而言,就要做到能够懂得和认出 Image 中的信息,再进一步对其进行分割得到 可以 Recognition 的每个元素的框架 Image,才是需要做到和完善的。使用扫描仪或 其他光学系统进行输入,我们实际上获得的是一个 Image,Image 里又会包含很多种 成份。Layout Analysis 的主要内容就是让电脑将其识别出来,分离开,得到之间的相 应关系。总的来说,字符分割也是属于 Layout Analysis 的范畴。对于完整的 OCR 系 统而言,其 Recognition 单个字符的过程与用什么方法提供输入的对象没有直接的关 系,所以可以区分开 Recognition 和 Layout Analysis 这两大块内容。不过,两者也有 很多内在的联系。 因此,Layout Analysis 与字符 Recognition 都非常重要。Layout Analysis 为字符 Recognition 提供了数据支持与预处理资料,是提高 Recognition 率的基础和保证。同 时,Layout Analysis 所确定的版面结构是把字符 Recognition 的结果用于实际工作中 的必要信息。在现今的情况上,Layout Analysis 的质量好坏对字符 Recognition 的有 3 华华 中 科中 科 技技 大 学 硕 士 学 位 论大 学 硕 士 学 位 论 文文 着很大的影响,所以选择分割算法作为研究的对象是很有意义的。 在 Layout Analysis 的技术中,对于不同对象有着对技术要求的特殊性。对于普 通文本,主要是对单个的字符进行分割,区分版面格式等。 Layout Analysis 属于 Image 分割的一个分支。很多 Image 切分的原理和技术对 Layout Analysis 有很好的指引意义,可以应用到其中。但比较之下,Layout Analysis 技术的应用性更加多一些,有更多方面的发展潜力。 而对于票据类的扫描文档,Layout Analysis 的主要技术环节则在于对扫描 Image 中的表格以及相关信息进行分割处理。相比之下,针对具体用途的 Layout Analysis 有着更多的意义以及值得研究的东西。 基本上,需要用到字
