资源预览内容
第1页 / 共34页
第2页 / 共34页
第3页 / 共34页
第4页 / 共34页
第5页 / 共34页
第6页 / 共34页
第7页 / 共34页
第8页 / 共34页
第9页 / 共34页
第10页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
计算机应用技术专业优秀论文计算机应用技术专业优秀论文 汉字字形形式化描述方法及应用研汉字字形形式化描述方法及应用研究究关键词:汉字字形关键词:汉字字形 形式化描述形式化描述 笔段网格笔段网格 比对计算比对计算 部件自动发现算法部件自动发现算法摘要:在汉字信息处理领域,现有的各种汉字字形形式化描述方法主要以文字 研究和汉语教学研究中描写汉字形体结构的结构分析法为基础,采用人认知的 结构类型、部件、笔画等构形单位对汉字字形进行分层描述。这些方法在字形 拆分规则、结构类型划分、描述基元选取等方面存在着歧义和描述缺失,无法 满足统一描述各种汉字(包括错字、古籍异体字、民俗拼合字)字形的需要,也 无法支持字形自动比对计算处理,不能满足以字形比对计算分析为基础的各种 应用需要,如教学研究中错字描述及偏误定量分析、古籍字形描述及比对分析、 数字图书中生僻字形检索等。 基于统计机器学习的汉字识别模型,对事先无 法收集样本的错字、异体字、拼合字等特殊汉字,由于没有训练样本可学习, 无法支持这类汉字的分类计算。对于可收集训练样本的一般汉字,识别模型中 采用的字形统计特征难以逻辑解析来与人认知的字形结构类型、部件、笔画建 立对应关系,是一种“黑盒”字形描述模型,无法支持面向人的各种字形比对 分析应用需要。 上述问题归结为汉字缺少统一有效的字形形式化描述和字形 比对计算方法。本文工作围绕这一核心问题展开,面向字形比对分析应用建立 了一种汉字字形描述方法及一组相关的字形比对算法和实用工具。主要创新性 工作包括: 1)提出一种笔段网格汉字字形形式化描述方法,用预先定义好长 度、方向的直线段笔段作为描述字形的基元,基元颗粒度适当、规范、无 歧义,能统一描述一切可能今文字(包括错字、异体字、拼合字)字形骨架的异 同。论证实验表明,这种方法与相同基元量点阵字形相比,描述同一汉字所需 的有效基元更少,字形比对计算效率更高;描述不同汉字的字形间区分度大, 有利于提高字形比对计算的准确性和可靠性,具有较高的性能代价比。 2)基 于笔段网格字形描述方法,本文进一步提出一组字形比对算法。其中,笔段上 下文字形比对算法,以笔段为比对单位,在 GB2312 字符集汉字和部分错字、异 体字上的测试实验表明,算法无需进行训练就能比对字形相似性,字形相似性 比对结果受汉字结构类型、笔画划分影响小,在输入字形和比对字形网格大小 一致时比对准确率可达 100;基于笔段组合的字形比对算法,在笔段网格字 形描述基础上,能自动提取简单笔画、复合笔画,既能按简单笔画为单位进行 字形比对,也能按复合笔画、简单笔画自适应进行字形比对。在同样测试汉字 集上实验表明,基于简单笔画和复合笔画的字形比对算法无需训练就能进行字 形相似度比对计算,比对结果对输入字形整体大小变化、斜笔画不同变形的敏 感性降低,对依照约束描画的结构规范字形,比对准确率很高,可达到 100;比对单位大,比对效率高,可以适应大规模汉字字形的比对、查找;比 对单位容易与人认知的构字单位建立对应关系,是一种“白盒”字形相似度比 对计算方法,既适用整体字形比对,也适用局部字形比对,对结构比例失调较 大的不规范字形能发现与结构规范字形的差异性,适合面向字形分析的应用需 要。 此外,建立了基于笔画关系矩阵的汉字结构关系描述和计算方法,可用 于支持汉字结构类型的自动判别。 3)由于汉字部件在汉字形体结构研究中的 重要性,本文提出了在笔段网格描述的简单笔画上,附加组合关系标注的部件描述方法及部件自动发现算法,实验表明,该算法能很准确发现包含特定部件 的汉字,而不受部件在字形中位置和大小的影响。 4)本文还改进了汉字信 息字典的汉字结构描述体系,提出了基于结构描述的字形相似度比对算法, 实验表明,该法找到的相似字结构类型一致性好,与人认知的相似字吻合度较 高(96以上),适合结构类型划分无歧义汉字的相似性计算。 5)本文最后设 计实现了一个实用软件系统汉字字形描述和自动比对分析工具,采用大众 化手写描画方法来建立笔段网格字形描述,可以输入各种可以想见的汉字,包 括错字、异体字和拼合字及其它相关信息,能自动将笔段网格字形转换成对应 TrueType 字模,与标准字符集内汉字一样被处理。对笔段网格字形可以自动进 行整字、局部的字形比对,找出按相似度大小排序的相似字。采用这一工具完 成了 GBK 字符集 20902 个汉字及北京语言大学留学生错字的描述,字形库应用 于汉字教学错字偏误分析。 这些工作有益于汉字字形描述的标准化,在基于 汉字字形计算的各种应用领域:如标准字符集外汉字的输入、我国数字图书馆 建设、汉语教学研究和国际推广、汉字文化历史研究、社会管理信息化等具有 应用前景。正文内容正文内容在汉字信息处理领域,现有的各种汉字字形形式化描述方法主要以文字研 究和汉语教学研究中描写汉字形体结构的结构分析法为基础,采用人认知的结 构类型、部件、笔画等构形单位对汉字字形进行分层描述。这些方法在字形拆 分规则、结构类型划分、描述基元选取等方面存在着歧义和描述缺失,无法满 足统一描述各种汉字(包括错字、古籍异体字、民俗拼合字)字形的需要,也无 法支持字形自动比对计算处理,不能满足以字形比对计算分析为基础的各种应 用需要,如教学研究中错字描述及偏误定量分析、古籍字形描述及比对分析、 数字图书中生僻字形检索等。 基于统计机器学习的汉字识别模型,对事先无 法收集样本的错字、异体字、拼合字等特殊汉字,由于没有训练样本可学习, 无法支持这类汉字的分类计算。对于可收集训练样本的一般汉字,识别模型中 采用的字形统计特征难以逻辑解析来与人认知的字形结构类型、部件、笔画建 立对应关系,是一种“黑盒”字形描述模型,无法支持面向人的各种字形比对 分析应用需要。 上述问题归结为汉字缺少统一有效的字形形式化描述和字形 比对计算方法。本文工作围绕这一核心问题展开,面向字形比对分析应用建立 了一种汉字字形描述方法及一组相关的字形比对算法和实用工具。主要创新性 工作包括: 1)提出一种笔段网格汉字字形形式化描述方法,用预先定义好长 度、方向的直线段笔段作为描述字形的基元,基元颗粒度适当、规范、无 歧义,能统一描述一切可能今文字(包括错字、异体字、拼合字)字形骨架的异 同。论证实验表明,这种方法与相同基元量点阵字形相比,描述同一汉字所需 的有效基元更少,字形比对计算效率更高;描述不同汉字的字形间区分度大, 有利于提高字形比对计算的准确性和可靠性,具有较高的性能代价比。 2)基 于笔段网格字形描述方法,本文进一步提出一组字形比对算法。其中,笔段上 下文字形比对算法,以笔段为比对单位,在 GB2312 字符集汉字和部分错字、异 体字上的测试实验表明,算法无需进行训练就能比对字形相似性,字形相似性 比对结果受汉字结构类型、笔画划分影响小,在输入字形和比对字形网格大小 一致时比对准确率可达 100;基于笔段组合的字形比对算法,在笔段网格字 形描述基础上,能自动提取简单笔画、复合笔画,既能按简单笔画为单位进行 字形比对,也能按复合笔画、简单笔画自适应进行字形比对。在同样测试汉字 集上实验表明,基于简单笔画和复合笔画的字形比对算法无需训练就能进行字 形相似度比对计算,比对结果对输入字形整体大小变化、斜笔画不同变形的敏 感性降低,对依照约束描画的结构规范字形,比对准确率很高,可达到 100;比对单位大,比对效率高,可以适应大规模汉字字形的比对、查找;比 对单位容易与人认知的构字单位建立对应关系,是一种“白盒”字形相似度比 对计算方法,既适用整体字形比对,也适用局部字形比对,对结构比例失调较 大的不规范字形能发现与结构规范字形的差异性,适合面向字形分析的应用需 要。 此外,建立了基于笔画关系矩阵的汉字结构关系描述和计算方法,可用 于支持汉字结构类型的自动判别。 3)由于汉字部件在汉字形体结构研究中的 重要性,本文提出了在笔段网格描述的简单笔画上,附加组合关系标注的部件 描述方法及部件自动发现算法,实验表明,该算法能很准确发现包含特定部件 的汉字,而不受部件在字形中位置和大小的影响。 4)本文还改进了汉字信 息字典的汉字结构描述体系,提出了基于结构描述的字形相似度比对算法, 实验表明,该法找到的相似字结构类型一致性好,与人认知的相似字吻合度较高(96以上),适合结构类型划分无歧义汉字的相似性计算。 5)本文最后设 计实现了一个实用软件系统汉字字形描述和自动比对分析工具,采用大众 化手写描画方法来建立笔段网格字形描述,可以输入各种可以想见的汉字,包 括错字、异体字和拼合字及其它相关信息,能自动将笔段网格字形转换成对应 TrueType 字模,与标准字符集内汉字一样被处理。对笔段网格字形可以自动进 行整字、局部的字形比对,找出按相似度大小排序的相似字。采用这一工具完 成了 GBK 字符集 20902 个汉字及北京语言大学留学生错字的描述,字形库应用 于汉字教学错字偏误分析。 这些工作有益于汉字字形描述的标准化,在基于 汉字字形计算的各种应用领域:如标准字符集外汉字的输入、我国数字图书馆 建设、汉语教学研究和国际推广、汉字文化历史研究、社会管理信息化等具有 应用前景。 在汉字信息处理领域,现有的各种汉字字形形式化描述方法主要以文字研究和 汉语教学研究中描写汉字形体结构的结构分析法为基础,采用人认知的结构类 型、部件、笔画等构形单位对汉字字形进行分层描述。这些方法在字形拆分规 则、结构类型划分、描述基元选取等方面存在着歧义和描述缺失,无法满足统 一描述各种汉字(包括错字、古籍异体字、民俗拼合字)字形的需要,也无法支 持字形自动比对计算处理,不能满足以字形比对计算分析为基础的各种应用需 要,如教学研究中错字描述及偏误定量分析、古籍字形描述及比对分析、数字 图书中生僻字形检索等。 基于统计机器学习的汉字识别模型,对事先无法收 集样本的错字、异体字、拼合字等特殊汉字,由于没有训练样本可学习,无法 支持这类汉字的分类计算。对于可收集训练样本的一般汉字,识别模型中采用 的字形统计特征难以逻辑解析来与人认知的字形结构类型、部件、笔画建立对 应关系,是一种“黑盒”字形描述模型,无法支持面向人的各种字形比对分析 应用需要。 上述问题归结为汉字缺少统一有效的字形形式化描述和字形比对 计算方法。本文工作围绕这一核心问题展开,面向字形比对分析应用建立了一 种汉字字形描述方法及一组相关的字形比对算法和实用工具。主要创新性工作 包括: 1)提出一种笔段网格汉字字形形式化描述方法,用预先定义好长度、 方向的直线段笔段作为描述字形的基元,基元颗粒度适当、规范、无歧义, 能统一描述一切可能今文字(包括错字、异体字、拼合字)字形骨架的异同。论 证实验表明,这种方法与相同基元量点阵字形相比,描述同一汉字所需的有效 基元更少,字形比对计算效率更高;描述不同汉字的字形间区分度大,有利于 提高字形比对计算的准确性和可靠性,具有较高的性能代价比。 2)基于笔段 网格字形描述方法,本文进一步提出一组字形比对算法。其中,笔段上下文字 形比对算法,以笔段为比对单位,在 GB2312 字符集汉字和部分错字、异体字上 的测试实验表明,算法无需进行训练就能比对字形相似性,字形相似性比对结 果受汉字结构类型、笔画划分影响小,在输入字形和比对字形网格大小一致时 比对准确率可达 100;基于笔段组合的字形比对算法,在笔段网格字形描述 基础上,能自动提取简单笔画、复合笔画,既能按简单笔画为单位进行字形比 对,也能按复合笔画、简单笔画自适应进行字形比对。在同样测试汉字集上实 验表明,基于简单笔画和复合笔画的字形比对算法无需训练就能进行字形相似 度比对计算,比对结果对输入字形整体大小变化、斜笔画不同变形的敏感性降 低,对依照约束描画的结构规范字形,比对准确率很高,可达到 100;比对 单位大,比对效率高,可以适应大规模汉字
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号