基于决策树和adaboost孟加拉文数字识别的研究-

学位论文独创性声明本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成果据我所知，除文中已经注明引用的内容外，本论文不包含其他个人已经发表或撰写过的研究成果对本文的研究做出重要贡献的个人和集体，均已在文中作了明确说明并表示谢意作者签名：7 良壶变日期：耐7 I I 专D学位论文授权使用声明本人完全了解华东师范大学有关保留、使用学位论文的规定，学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅有权将学位论文的内容编入有关数据库进行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在解密后适用本规定学位论文作者签名：侦递交导师签名：V 队饬日期：迦 J l 立立日期：砩m 岁9O r i g i n a l i t yN o t i c eI np r e s e n t i n gt h i st h e s i si np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t sf o rt h eM a s t e r sd e g r e ea tE a s tC h i n aN o r m a lU n i v e r s i t y ，1w a r r a n tt h a tt h i st h e s i si so r i g i n a la n da n yo ft h et e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v eb e e n f i g u r e do u tb ym e A n yo ft h er e f e r e n c e st ot h ec o p y r i g h t ，t r a d e m a r k ，p a t e n t ，s t a t u t o r yr i g h t ，o rp r o p r i e t yr i g h to fo t h e r sh a v e b e e ne x p l i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h eR e f e r e n c e ss e c t i o na tt h ee n do ft h i st h e s i s S i g n a t u r e向蝴D a t e ：J：C o p y r i g h tN o t i c eIh e r e i na g r e et h a tt h eL i b r a r yo fE c N 【IS h a l lm a k ei t sc o p i e sf r e e l ya v a i l a b l ef o ri n s p e c t i o n If u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h et h e s i si sa l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ，i np a r t i c u l a r ，s t o r i n gt h ec o n t e n to ft h i st h e s i si n t or e l e v a n td a t a b a s e s ，a sw e l la sc o m p i l i n ga n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s ，c o n s i s t e n tw i t hf a i ru s e a sp r e s c r i b e di nt h eC o p y r i g h tL a wo fT h eP e o p l e sR e p u b l i co fC h i n a S i g n a t u r e ：华东师范大学硕士学位论文第一章绪论第1 章绪论1 1 论文的研究背景随着科学技术的发展和信息时代的到来，信息交流的手段越来越多，且越来越先进。然而，最古老信息交流手段之一的信函不仅不降反而逐年上升。如美国每年的信函量达到一千七百多亿件，我国的信函量也逐年递增，目前已达到一百亿件，经济发达地区如上海的年入均信函量己达到六十一封。为了及时处理信件，快速传递信息，信函自动分拣系统的研制成为一种必需。从上世纪六十年代开始，各工业发达国家相继开展了信函分拣系统的研究和制造。我国从1 9 7 8 年开始了对信函设备的研制，由于当时邮政编码刚刚开始推行，邮政编码的正确书写率很低，并且信封的标准化程度很差，这批设备仅在些邮局作了功能性试验，没能推广使用。从9 0 年代初我国开始引进信函分拣设备，刚开始引进的是全自动O C R 信函分拣机、独立的O B R 分拣机、红框理信机、以及人工条码打印台等配套设备。由于这些设备功能单一，运行效率较低，我国国家邮政局上海研究院( 原邮电部第三研究所) 于上世纪七十年代开始进行了信函分拣系统的研究，先后研制了全自动O C R 信函分拣机，具有5 个自动供信、人工按键分拣的半自动信函分拣机，以及配套使用的红框理信机等一批设备在1 9 9 2 年国家邮政局上海研究院和当时的A L C A T E 公司合作研制功能比较齐全、符合我国国情的将O C R 功能和V I D E O 功能合在一起的O V C S 信函分拣机，在这个系统中加入了独创的邮政编码补码技术，就是把O C R 不能处理的信上邮政编码重新组合，根据人机功能学的研究将重新组合的邮政编码分成4 个一组送给视屏台人工处理这样就大大提高了系统的处理效率，系统处理率从原来的7 0 左右一下子提高到9 5 左右，受到了各用户局的欢迎。同时国家邮政局确定了以O V C S 功能为主的信函分拣机技术标准和信函分拣机引进规范。各制造厂商以此为标准进行生产，并同时对以前没有O V C S 功能的设备进行了改造。现在，各种高效的信函分拣系统已广泛应用于各地的信函处理中，f i , ，大大地节省了人力和物力，提高了劳动生产率。经过近三十年的努力，国家邮政局上海研究院技术水平已经达到了国际先进华东师范大学硕士学位论文第一章绪论水平。在2 0 0 5 年，国家邮政局上海研究院又在孟加拉国邮政信函自动分拣机项目国际招标中中标，实现了中国邮政大型设备进入国际市场零的突破，标志着中国邮政拥有自我知识产权的高新技术大型设备从此打开了世界市场之门。竞标过程中国家邮政局上海研究院以切合孟加拉国邮政实际的技术方案和信函自动分拣机的高性价比优势击败了德国西门子及美国D o w B e l l - - H o w e l l 公司等竞争对手。信函自动分拣是邮政自动化的一个重要环节，是O C R 技术在实际应用领域的一个成功范例。信函自动分拣系统的功能模块图如图1 1 所示。注：c 令表示信函流的流向，表示信息流的流向图l - I 、信函自动分拣机的功能模块图如图l - l 所示，信函分拣机的作业流程是：在供信模块处以吸风分离的方式使信函以相同的间距依次送入机器；经过图像采集模块，应用光电转换原理把信封图案编程图像，然后将图像信息送到图像预处理模块；信封图像在预处理模块经过二值化、倾斜矫正等预处理之后，将图像分割成不同的目的区域，以文本行的形式列出，并分成不同的块，找出正确的地址块和邮政编码块，从地址块图像中提取字符称为单字分割；经识别模块处理后，得到邮政编码，并将拒识字符的图像送到视屏台，由人工键入正确结果；通过邮政编码，并结合地名字典就可以得到比较可靠的分拣信息送到控制模块：最后，将信函送入指定的集堆器或格口，从而完成了信函的分拣。目前我国应用的各类信函自动分拣机都是根据信封左上角的6 个红框分割出邮政编码数字的图像，然后进行O C R 识别，并按照其识别结果控制信函的分拣，因此对图像的处理和识别都是针对信封左上角进行的。而对于孟加拉信函，信封的大小小于我国的标准信封，另外它只有四个邮编，其邮编的位置处于信封的2华东师范大学硕士学位论文第一章绪论右下方。而且由于孟加拉数字的独特结构，有必要重新研制一种专门针对孟加拉国邮政信函分拣机的邮政编码定位分割及识别技术。如上所述，一个信函自动分拣系统的图像信息流程主要包括以下环节：信封图像采集、图像预处理、版面分析、定位邮政编码块、邮政编码提取、数字识别、后处理、组合邮编结果、分拣到指定格口。其中软件部分主要包括信封图像的预处理、版面分析与邮政编码定位、邮政编码分割和识别。其中字符识别技术直接决定了整个分拣系统的最终性能，也是信函分拣系统的一个重要的衡量标准。1 2 字符识别概述字符识别是模式识别的一个传统研究领域。从5 0 年代开始，许多的研究者就在这一研究领域开展了广泛的探索，为模式识别的发展带来了的很多积极的影响。字符识别一般可分为两类：联机手写字符识别和光学字符识别( O c R ) 或称离线字符识别0 1 。在联机手写字符识别中，计算机能够通过与计算机相连的手写输入设备获得输入字符笔划的顺序、方向以及字符的形状，相对O C R 来说它更容易识别一些。但联机字符识别有一个重大的不足就是要求输入者必须在指定的设备上书写，而在现实生活中人们的大部分书写情况都是不满足这一要求的，比如填写各种表格资料，开具支票等等。若要计算机去认识这些已经成为文字的东西就需要O C R 技术。O C R 是2 0 世纪2 0 年代逐步发展起来的一门自动化技术，是图像处理领域的一个重要分支。它涉及模式识别、图像处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等多门学科，是一门综合性技术，在中文信息处理、办公自动化、机器翻译、人工智能等高科技领域，都有着重要的实用价值和理论意义。它的目的就是把图像作一个转换，使图像内的图形、表格继续保存，图像内的文字和表格中的资料一律变成计算机文字。从而达到减少图像资料的储存量、循环利用已识别出的文字以及节省因键盘输入而浪费人力与时间的目的。比起联机字符识别，O C R 不要求书写者在特定输入设备上书写，任何介质都可以作为书写的工具，而且时间上也不要求同时性，比如可以整理多次完成的报表进行一次性识别。因此O C R 技术的应用更为广泛。O C R所采用的输入设备可以是任何一种图像采集设备，如C C D 、扫描仪、数字相机等。通过实用这类采集设备，O C R 系统将书写者已写好的文字作为图像输入到计算机中，而后由识别系统去加以识别。由于O C R 输入的只是简单的一幅图像，它就不能像联机输入那样比较容易地从物理上获得字符笔划的顺序信息，因而O C R 是一个更具挑战性的问题o 】【”。脱机手写字符识别是整个O C R 领域中最困难的部分。字符识别处理的信息华东师范大学硕士学位论文第一章绪论可分为两大类：一类文字信息，处理各国家、各民族的文字( 如汉字、英文等)手写或印刷的文本信息，目前在印刷体和联机手写识别方面，技术已趋向成熟，并推出了很多应用系统，但对于手写体字符，离人的识别能力还有一定的距离；另一类是数据信息，主要是各种数字及少量特殊符号组成的各种编号和统计数据，如，邮政编码、统计报表、财务报表、银行票据等等，处理这类信息的核心技术是手写体数字的识别。若能通过手写体数字识别技术实现信息的自动录入，无疑会给这些应用的处理速度有质的提高，从而大大地节约人力物力。因此手写体数字识别研究有着重大的现实意义，一旦研究成功并投入应用，将产生巨大的社会效益和经济效益。在各种应用中，由于相关软硬件技术性能的不断提升，新的方法理论不断涌现