分类号:分类号: 密密 级:级:硕士专业学位论文(全日制)硕士专业学位论文(全日制)基于异构数据的简报高效自动生成基于异构数据的简报高效自动生成 方法研究方法研究姓姓 名名学学 号号专业学位类专业学位类型型指指 导导 教教 师师培培 养养 单单 位位二一六年五月摘要摘要办公自动化一直都是计算机应用的一个重要领域,电子文稿技术是这个领域很重要的一个分支。狭义的电子文稿指的是可以在电子设备上阅读、编辑或者出版印刷的数字稿件,而广义的电子文稿可以指一切多媒体的数字文件。电子简报是一种专门用作汇报说明用的特殊电子文稿,在电信、交通、金融、教育、地质等各个领域都得到了广泛应用。这种电子文稿是一种功能性的文稿,而同类功能的电子文稿在内容和形式上都有极大的相似之处,甚至有时除了数据以外,其他内容几乎完全一样。而简报编写又经常会花去大量的人力劳动时间,简报自动生成方法的研究工作是非常有意义的。简报的自动生成工作可以划分为三个层面:数据组织、简报内容生成、格式排版。在传统的应用系统中,数据源往往会选择关系型数据库,而关系型数据库的高度事务一致性和简单易用性也是毋庸置疑的。但现代的电子简报大多不再是以小规模的数据进行统计再编写的,而是基于大量的多源异构数据。显然传统的关系型数据库作为现代简报自动生成系统的数据源是不适合的。现有的大部分简报生成系统内容生成方式大致可以分成两种。一种是利用编程语言从头到尾自动生成简报的内容;另一种是通过占位符替换的方式生成简报内容,简单地说就是利用模板生成内容。因为大部分流行的文档格式都属于私有格式,所以以往的简报生成系统都是通过调用第三方 API 的方式实现电子文档的排版工作,但是经常会因为系统不完全兼容或帮助文档不全等原因导致排版效果不尽人意。为了弥补以往简报生成方法的不足之处,本文提出一种以 NoSQL 数据库为数据源,通过动态脚本生成简报内容,以 Office OpenXML 标准的定制简报格式的简报自动生成方法。相较以往的的简报生成方法,该方法具有支持海量异构数据,内容生成方式灵活可扩展,简报格式稳定且兼容性高的特点。最后本文还通过该方法成功设计并开发了一套用于全国地质灾害通报生成的简报自动生成系统。该系统具有良好的稳定性、操作性和扩展性。关键词:关键词:异构数据 脚本语言 文档生成 OpenXMLAbstractOffice automation has been one of the most important fields in computer application, and the electronic document technology is a very important branch in this field. The narrow sense of electronic document refers to the digital document which can be read, edited or published in electronic equipment, and the generalized electronic document can refer to all multimedia digital documents. Electronic briefing is a kind of special electronic manuscript which is used to report and explain. It has been widely used in many fields such as telecommunication, transportation, finance, education, geology and so on. Electronic documents that have similar purpose are analogous in content and form, and sometimes the content is exactly the same expect data. Briefing preparation often takes a lot of labor time, which make it very meaningful to research on the method of the automatic generation of briefing. The automatic generation of briefing on the work can be divided into three levels: data organization, content generation and formatting. In the traditional application system, data sources often choose relational database which has High transaction consistency and easy to use. Most of modern electronic briefings are no longer based on the small-scale data, but based on a large number of multi-source heterogeneous data. It is obvious that the traditional relational database is not suitable for the data source of the automatic generation system of the modern briefing. Most of the existing content generation method can be roughly divided into two types. One is using programming language to generate the content of briefing automatically from the beginning to the end. Another is by replacing placeholder to generate presentations. In a simple way, contentsare generated by using templates. Most popular document formats are proprietary formats. So previous briefings generating system is called the third party API to achieve the layout of electronic document. But not fully compatible of system or help document incomplete often causes unsatisfactory typesetting.In order to make up for the deficiencies of the previous methods of briefing generation, this paper proposes a method of presentation automatic generation that use NoSQL database as data source, generate briefing content by dynamic script and use Office OpenXML as standard. Compared to the previous generation method, this method has the advantages of supporting massive heterogeneous data, flexible and scalable content generation, stable and high compatibility. At last, this paper designs and develops a set of stable extensible operable automatic generation system for the “National Geological Disaster Report“.KeyWords: Heterogeneous Data Script Language Document Generation OpenXML 目录目录第一章绪论11.1选题来源、目的和意义.11.1.1选题来源11.1.2选题目的和意义.11.2国内外研究现状21.3主要研究目标与内容31.4本文章节安排.3 第二章相关理论与技术52.1电子文档52.2地学大数据62.2.1大数据的定义62.2.2地学大数据的性质与特点72.3NOSQL 数据库82.3.1关系型数据库的特点.82.3.2NoSQL 数据库的特点.92.3.3NoSQL 基本理论92.3.4NoSQL 数据库的分类112.4LUCENE分词索引框架.142.4.1Lucene 的介绍142.4.2倒排索引技术.142.4.3文本分析技术.162.5开放文档标准172.5.1开放文档标准现状概述172.5.2Office OpenXML 标准18 第三章简报自动生成方法中的关键技术.203.1基于倒排索引的键值数据库的设计与实现 .203.1.1键值数据库的设计总述203.1.2索引的创建与底层数据的管理.233.1.3数据对象的封装与转换263.1.4线程安全问题的处理.273.2DOCX 格式文档内容嵌入功能的设计与实现273.2.1OOXML 模板制定273.2.2文档内容注入.283.2.3DOCX 格式打包293.3文档控制脚本的设计与脚本语言处理器的实现303.3.1语言处理器的处理过程313.3.2分词器设计323.3.3语法分析器的设计363.3.4解释器的设计.383.3.5添加函数.42 第四章简报自动生成系统的建设.444.1简报自动生成系统需求分析与功能设定444.2简报自动生成系统总体架构.474.2.1系统结构.474.2.2技术路线及业务模型.494.3应用层设计与实现504.3.1程序包结构504.3.2业务逻辑.504.3.3用户界面.524.3.4控制器554.4持久化层的设计与实现.554.4.1DAO 层的设计564.4.2数据交换格式与数据提取.57 第五章结论与展望.615.1总结615.2论文创新点.625.3对未来的展望62 致谢63 参考文献64中国地质大学硕士专业学位论文(全日制) 1第一章第一章 绪论绪论1.1 1.1 选题来源、目的和意义选题来源、目的和意义1.1.1 选题来源该课题来源于中国地质环境监测院“地质环境数据仓库及业务支撑平台数据立方建设”项目。随着计算机技术的普及,办公自动化越来越广泛的被应用到人们的工作和生活中。在工作和生活中,人们在完成一项任务时,通常会将工作的基本情况、工作中取得的经验教训、存在的问题以及今后工作设想等通过做报告的方式反应给领导以及同事,以便今后更好地工作和进步。简报作为一种规范格式的简短报告文档,具有汇报性、交流性、规范性和指导性等特点。在地质环境方面,相关工作人员以简报的形式发布地质灾害信息,如
