资源预览内容
第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
第9页 / 共10页
第10页 / 共10页
亲,该文档总共10页全部预览完了,如果喜欢就下载吧!
资源描述
攻读硕士学位研究生硕士学位论文开题报告题目:电子化加油数据仓库的建立及其数据挖掘的研究姓名:学号:院系:软件学院专业:软件工程研究方向:数据挖掘指导教师:1 一、开题报告情况报告要求:须就论文选题意义、文献资料掌握情况、论文研究方法、论文总体设计等方面进 行详细的公开及书面报告,提请指导小组予以审查 开题报告审查记录 论文题目: 电子化加油数据仓库的建立及其数据挖掘的研究 时间:地点: (一)论文选题意义及创新点 油是汽车源动力,加油站则是车开启的一把钥匙,目前较多加油站还 是现金方式交易,随着电脑信息化在各行各业的不断推进,加油站也开始采用 电子化的付款方式。大量的消费数据开始向数据中心进行集中,现行系统只是 简单记录汽车加油消费的情况,并通过银行集中进行代发代扣,大量的消费数 据只是做为简单报表的数据源,其中真正的价值并未体现。数据仓库和数据挖 掘作为决策支持新技术在近些年来得到了迅速的发展。本课题主要是为满足对 加油消费过程中的数据分析决策需要,通过对消费的油量油费油种类的历史数 据抽取、转换、装载到数据仓库,从时间、油类、消费单位、加油商户多个维 度进行数据立方体的建立,通过切片、切块、钻取和旋转的方法来对数据进行 分析。对于数据仓库中的消费信息,采用数据挖掘的聚类方法,分析其分布规 律,可以找出异常的数据并对其复查,分析其中的问题。对不同商户的消费记 录进行数据挖掘,分析出是否应该在附件新建加油站来缓解加油滞泻,同时可 以缓解交通路况,另外可以分析出某些零星加油次数加油站存在的不必要性, 建议拆除。分析不同种类油的消费情况,帮助宏观油量调度供应。(二)国内、外相关文献掌握程度和研究方法的可靠性 1 林宇. 数据仓库原理与实践 . 人民邮电出版社, 2003 2 W.HInmon. 数据仓库(原书第三版). 王志海,林友芳等译 . 机械工业出 版社, 2003 3 赵晓东 . 数据挖掘技术在石化企业加油IC 卡 CRM 中的应用研究 . 硕士学 位论文, 2009 4 Bud Endress. Implementing the OLAP Option to the Oracle9i Database. Oracle Corporation,2002 5 Paulraj Ponniah. Data Warehousing Fundamentals. Wiley Publishing,Inc, 2004. 6 S.chaudhuri, U.Dayal. An Overview of Data Warehousing and OLAP Technology. ACM SSGMOD Record,1997,26(1) 7 魏云巍,裴军杰,申红茹 . 加油站库存信息化建设的思考. 物流科技,2007 8 Pang-Ning Tan, Michael Steinbach, Vipin Kumar. 数据挖掘导论 . 范明 范宏 建等译 . 人民邮电出版社, 2006 数据仓库和数据挖掘现有的研究资料十分丰富,但收集整理适用于本论文研究 方向的文献还需要一段时间。通过对现有业务数据建立数据仓库和数据挖掘的 成功案例很多,有充足的案例供参考。2 (三)论文总体设计的科学性 论文计划设计成以下框架: 1) 引言,包括本文的研究背景, 数据仓库和数据挖掘技术的国内外研究动态, 课题的主要研究内容。 2) 基本理论概述,介绍与本文研究相关的数据仓库和数据挖掘技术。 3) 基于电子化加油消费数据的数据分析,包括主题域的提取及相应数据仓库 的建立。初步确定使用Oracle 的 Analytic Workspace Manager来建立数据立 方体,并用来做分析。 4) 数据仓库上的数据挖掘。对数据立方体切片、钻取,提取感兴趣维度上的 数据进行数据挖掘,并提炼出有价值的知识。 5) 结论与展望(四)存在的主要不足 1) 本论文研究的源数据是来各大单位所属个人的加油消费数据库,数据中存 在单位用户等信息, 由于数据涉及个人信息, 故需对个人基本信息进行过滤 处理。数据来源于历史数据, 与现行情况存在一定的差别, 分析结果反应历 史特性。 2) 建立数据仓库后的数据分析和数据挖掘暂时未定使用的软件,可能利用 Oracle 的 Analytic Workspace Manager 现有的分析工具完成,也可能利用 Weka或者 matlab连接到数据做分析,存在一点技术应用风险,但估计通过 查找相关的开发资料可以解决。 3) 现掌握和阅读的相关文献未够充分,但通过互联网和图书馆的资源不断补 充完善。记录人签名:年月日3 二、考核意见导 师 意 见签名: 年月日 指 导 小 组 意 见签名: 年月日 审 查 建 议1合格,同意正式进入论文阶段2不合格,建议重新开题指导小组组成姓名职称所在单位签字组长成员院(系、所、中心)审核意见:负责人签名:年月日4 三、书面开题报告及文献名录(可另附页)硕士学位论文开题报告一 论文题目电子化加油数据仓库的建立及其数据挖掘的研究二 选题的意义加油站作为各机动车,非机动车延续动力之源的手段,在交通运输物流行业中显得极为 重要。传统加油站收费以现金为主,随着电脑技术的出现,各行各业信息化进度的不断深入, 加油站收费逐渐传为电子化的收费方式。加油用户可在网内加油站进行刷卡,刷卡分为预存 与信用。预存指卡需有余额才可以进行刷卡消费,信用方式则为可以预支刷卡,在指定期限 内进行还款的方式。系统除了联网刷卡加油外,系统还维护单位,商户信息,对消费流水进 行代扣,同时还可以进行单位金额代发。随着越来越多的单位及加油商户加入应系统,随着 每天加油流水的不断增加,系统保存了越来越多的用户,商户,消费记录。系统对这些数据 只是做一些查询,一些对帐单,一些简易报表。这些数据的价值仅仅不限此,对这些数据进 行数据挖掘,可对其进行宠观上的决策分析。对加油过程的信息化无法对个人,单位,商户 正真意义上的改进,只有对消费流水信息提炼出有价值,才可以对企业,个人,商户实现三 盈。 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广 泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用 于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。数据挖掘和数 据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的 效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成 为数据仓库应用中极为重要和相对独立的方面和工具。 数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振 奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从 数据库 “ 奴隶” 到数据库 “ 主人” 转变的企业最终用户的通途。 本课题主要是为满足工作中的数据分析决策需要,对数据库中部分值得研究的加油量和 加油拥挤程序进行提取,建立与加油单位及商户业务相适应的数据仓库,并通过对数据仓库 中的信息的分析和数据挖掘,提取有价值或者过往没有发现的信息,为企业决策提供指导。三 国内外研究现状1) 数据仓库技术数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独5 立的一系列新的应用技术。使用这些技术建设的信息系统我们称为数据仓库系统。随着数据 仓库技术应用的不断深入,近几年数据仓库技术得到长足的发展。典型的数据仓库系统,比 如:经营分析系统,决策支持系统等等。也随着数据仓库系统带来的良好效果,各行各业的 单位,已经能很好的接受“ 整合数据,从数据中找知识,运用数据知识、用数据说话” 等新的 关系到改良生产活动各环节、提高生产效率、发展生产力的理念。 数据仓库创始人W.H.Inmon 是这样定义数据仓库的:数据仓库是面向主题的、集成的、 时变的、非易失的数据集合,用以支持管理决策。自从数据仓库的概念提出以后,它就在飞 速地发展。数据仓库不是简单的对数据进行存储,而是对数据进行再组织,它的目的是要建 立一种体系化的信息存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来, 使分散的、不一致的数据转换成集成的、统一的数据,不同用户通过运用其中的数据进行分 析,发现新的问题、新的想法、进而开发出行之有效的决策系统。 本论对用户在消费过程产生的数据进行数据仓库的建立2) 数据挖掘技术数据挖掘 (Data Mining) 是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐 含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成 是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注 的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找 出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和 超大规模的数据集合。四 主要研究内容1) 数据仓库的设计和建立建立数据仓库是为数据分析和数据挖掘服务的,建立电子化加油数据仓库必须要结合单 位、商户的数据特点,确定源数据库哪些表和数据需要抽取,以及抽取的方法和策略,把历 史数据重新组织。电子化加油数据仓库的设计包括概念模型设计、逻辑模型设计和物理模型 设计。数据来源 系统不是对所有用户都可以进行电子化加油,用户需要归属特定单可以才进行电子化加 油,故系统实现单位下指定用户实现指定范围内商户加油站的电子化加油。 a) 各大单位与银行相关中间业务部门进行协商,签定合作协议,单位才可以在系统进行 单位信息的注册,作为电子化加油的前提。 b) 单位注册后,需指定对应该项目,本论文重点对加油时产生数据进行数据仓库的建立 及对加油消费数据进行数据挖掘,所以项目即加油项目。 c) 单位下的用户可以提交进行电子化加油功能申请,并提交用户信息至系统,系统生成 相应卡号,制成相应实体加油IC 卡,并发到用户。 d) 各大加油站欲向用户提供电子化加油功能,加油站需向系统提交加油站信息,系统注 册加油站信息,并安装相应刷卡POS,与本系统相连 e) 用户至系统注册的加油站进行刷卡消费,系统记录消费流水,进行实现扣款或信用扣6 款 数据属性 1) 单位信息包括单位在地区、单位名称、单位对公银行账号(用于扣款) 2) 单位项目信息包括单位主键,项目信息 3) 用户信息包括单位主键、卡号、单辆信息 4) 加油站信息包括加油站所在地区,加油站地址 加油交易流水信息包括卡号主键、加油站信息、交易金额、加油交易信息(油号,加油 升数) 、单位主键、项目主键概念模型设计数据仓库的概念模型设计即是选定分析主题域,界定系统边界,按照分析要求确定主题 域的公共键码、联系以及属性组,然后分析原有业务系统的数据组织、分布等,形成关于主 题域的完整概念模型。 电子化加油数据主要取自于综合专用卡管理系统,其数据库是数据仓库源数据抽取和转 换的主要对象。根据分析的需求,建立以下二个主题。 a) 加油量加油及金额 本论文主要对用户在加油过程中产生的消费信息数据进行分析,用户在消息过程不断 产生不同的消费量及消费金额,所以加油量加油及金额是在这一次过程产生主题域。 b) 消费次数 用户可能习惯于在某个加油进行电子化加油,也有可能由于时间,事件等原因随机的 找一个加油站进行加油,在用户的消费所有过程中,用户在不同维度的消费次数形成一 主题域。逻辑模型的设计数据仓库的逻辑模型描述了数据仓库主题的逻辑实现,也就是每个主题所对应的关系表 的关系模式定义,是数据仓库由概念模型到物理模型转换的桥梁。逻辑模型应该是按主题域 组织起来的,主题域之间的关联关系可以引申到各主题下各个逻辑模型之间的关联关系,不 但可以很容易满足现有的一些跨主题查询需求,还可能产生大量有价值,但尚未提出需求的 分析。并且,在逻辑模型设计还应尽可能充分地考虑各主题的
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号