硕士学位论文无字库智能造字系统在计算机上的实现作者姓名黄 坚学科专业模式识别与智能系统指导教师皮佑国 教授所在学院自动化科学与工程学院论文提交日期2010 年 5 月 16 日The realization of Chinese character intelligent formation system without font on computerA Dissertation Submitted for the Degree of MasterCandidate:Huang JianSupervisor:Prof. Pi YouguoSouth China University of TechnologyGuangzhou, China分类号:TP317 学校代号:10561 学 号:200720111363 华南理工大学硕士学位论文无字库智能造字系统在计算机上的实现作者姓名:黄 坚 指导教师姓名、职称:皮佑国 教授申请学位级别:工学硕士 学科专业名称:模式识别与智能系统研究方向:图像处理与模式识别论文提交日期: 年 月 日 论文答辩日期: 年 月 日学位授予单位:华南理工大学 学位授予日期: 年 月 日答辩委员会成员:主席: 委员: 华南理工大学华南理工大学学位论文原创性声明学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外) ;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人电子文档的内容和纸质论文的内容相一致。本学位论文属于:保密,在 年解密后适用本授权书。不保密,同意在校园网上发布,供校内师生和与学校有共享协议的单位浏览。(请在以上相应方框内打“”)作者签名: 日期:指导教师签名: 日期:I摘要摘要到目前为止,中文信息处理系统都采用字库方式,GB18030-2005 是目前国家发布的包含汉字数量最大的字符集标准,基本满足了汉字信息化的需要。但是汉字是不断变化发展的,字库总是很难跟上汉字的变化发展。每增加一个汉字,就需要增加相应的编码来表示这个汉字,字库也要相应地进行更新,不利于中文信息的交流和传播,不能满足整个社会的各个领域的应用需求。因此很难为汉字信息化建立长期稳定和规模合理的字库标准。此外,字库方式还有不能很好地传承汉字文明、不符合汉字认知机理、与教育脱节等弊端。对这些问题如果能找到一种一劳永逸的解决办法,将会给汉字信息化作出重大贡献。文献23根据认知心理学原型匹配理论,将计算机比作人脑,提出了无字库智能造字的概念,明确了智能造字系统中汉字的编码方式和造字方式,完全有别于传统的从字库选字方式。作者进一步的研究提出了系统的结构框架,由网格获取汉字的结构知识,汉字编码使用结构加基元的表示方式。由基元库、知识库和智能组字模块等单元构成无字库智能造字系统。本文的主要内容是基于上述理论实现智能造字系统,包括:(1) 通过对组成智能造字系统结构框架的各个部分的详细阐述,展示了智能造字的原理。通过分析汉字与基元的关系,以当前广泛使用 GB18030-2005 字符集为实验对象,把汉字部首和汉字部件作为基元的主要来源,实验研究和分析后,最终提取出1085 个汉字基元和 18 种汉字结构。所有汉字都用“汉字结构+基元”的方式来进行编码。仿射变换是系统组字的重要技术手段,基元之间通过仿射变换拼合起来组成汉字。仿射变换参数通过 SIFT 算法获取。智能造字的知识库由汉字的编码知识、结构知识、基元知识以及基元的映射知识组成,是智能造字系统的数据基础。2. 把智能造字系统划分为三个模块:输入模块,造字模块和显示模块。对各个模块编写了详细的功能需求,根据模块的数据特点精心设计了数据结构,并在算法效率上进行了理论分析。输入模块实现了微软 windows 系统的 IME 接口,既可以作为智能造字系统的输入,也可以作为一个独立的系统输入法。造字模块使用了编码校验算法对输入的编码进行了检查,再通过解析程序分离结构编码和基元编码,然后使用仿射变换组字。显示模块使用了编码转换算法和排版算法,在用户界面设计上借鉴了windows 记事本。II3. 在 windows 平台上运行智能造字系统,记录系统加载知识库等数据占用的内存情况。测试在系统中各级结构的汉字的输入情况。测试了系统显示界面的排版显示效果。关键词:关键词:输入法;汉字基元;汉字结构;排版算法IIIAbstractSo far, all Chinese informationlization processing systems are implemented by font. The GB18030-2005 Chinese character set is the biggest standard character set issued by country and it almost meets the need of Chinese informationlization. The evolution of Chinese character happens all the time and current font cannot follow the process. When a new word arises, it needs a new code to represent the word, and the font also should be updated, which hinders the communication and transformation of Chinese information. It is hard to establish a reasonable size Chinese character set which will be stable for a long time. Plus, the font cannot reflect Chinese civilization, not conforms to Chinese character recognition mechanism, and is out of touch with education. It will be a great contribution to the Chinese informationlization if a solution to solve all the problems is found.Literature 23 According to the prototype matching theory of cognitive psychology, compare computer to be human brain, proposed the concept of Chinese character formation system without font, defined the coding and formation method which completely differed from the traditional font. The author brought forward to the framework of the system, acquiring the Chinese character structure by grid, coding the word with the form of Chinese character structure plus Chinese character prototype. The system was composed by Chinese character prototype set, knowledge base and intelligent formation unit. Base on the above theory implemented the Chinese character intelligent formation system as following:(1) Detailed descriptions of all parts of the Chinese character intelligent formation system demonstrated the theory of the system. Analyzing the relationship between Chinese character and prototype, using the generally used GB18030-2005 Chinese character set as experimental subject, we chose Chinese radicals and Chinese character components as the major source of prototype. After experiment and analyzing, we finally extracted 1085 prototypes and 18 structures. All Chinese characters coding followed the form of structure plus prototype. Affine transformation was an important formation technology in the system. Chinese character was formed by the prototypes and affine transformation. Affine transformation coefficients were acquired with SIFT algorithm. The knowledge base of the system was composed by prototype coding knowledge, structure coding knowledge, Chinese character coding knowledge and affine transformation coefficients, which was the most important part of the system.(2) Divided the system into three modules: input meth
