资源预览内容
第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
第9页 / 共12页
第10页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘论文题 目:数据挖掘技术在电子商务中的应用 系 别: 计算机学院 专 业: 11网络工程1班 学生姓名: 黄坤 学 号: 1110322111 指导教师: 江南 2014年 11月06 日 数据挖掘技术在电子商务中的应用一、研究原因电子商务在现代商务活动中的正变得日趋重要,随着大数据时代的到来,商务信息显得尤为重要,在电子商务中谁掌握了有利的市场信息,谁就能在这个竞争激烈电商行业中占据绝对的优势。而数据挖掘技术是获取信息的最有效的技术工具。本文讨论了数据挖掘的主要方法,具体阐述了数据挖掘技术在电子商务中的作用及应用。在信息经济时代,对企业来说,谁对市场变化反应速度快,谁将在激烈的市场竞争中占据有利的地位,竞争的结果最终将促使企业价值从市场竞争输家转移到赢家,这样就使企业面临一个问题:如何才能把大量的数据资源,转化成自身价值呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。二、2.1 国内研究现状KDD(从数据库中发现知识)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD 系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。不仅如此,由美国人工智能学会主办的KDD国际研讨会规模由原来的专题讨论会发展到国际学术大会,研究重点也逐渐从发现方向转向系统应用,注重多重发现策略和技术集成,以及多种学科之间的相互渗透,并且有很多学校和科研机构也正投入大量资金进行数据挖掘技术的进一步开发和深入研究。国内对数据挖掘的研究稍晚,没有形成整体力量。但是国内的高校,例如清华大学、中科院计算机技术研究所等,都已开展了不同程度的知识发现的基础理论及其应用研究。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究。与国外相比,我国对数据挖掘领域的研究仍处于初级阶段,绝大多数工作集中于局部算法设计,进行综合的系统集成设计却寥寥无几。由于核心技术的欠缺,使得数据挖掘在国内一些领域只是初步应用,如银行、金融、GIS等领域。所以研究数据挖掘技术,并将其应用到科研、经济、教育等领域的重要性是可见一斑的。电子商务(E-Commerce)是以指利用电子数据交换(Electronic Data Interchange,EDI)、电子邮件(E-mail)、电子资金转账(Electronic Funds Transfer,EFT)和Internet等主要技术在个人、企业和国家之间进行无纸化的信息交换,包括商品信息及其订购信息、资金信息及其支付信息、安全及其认证信息等,即以现代信息技术为手段,以经济效益为中心的现代化商业运转模式。其最终目标是实现商务活动的网络化、自动化与智能化。随着Internet的迅速发展,电子商务的应用不断深入。在电子商务应用系统中,相关的用户数据日益增多,数据挖掘技术具有从大量复杂数据中发现特定规律的能力。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入了解客户需求信息和购物行为特征的可能性。2.2 数据挖掘技术2.2.1 统计技术统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假定了一个分步或者概率的模型(比如一个正态分布),然后根据模型采用相应的方法进行挖掘。2.2.2 关联规则数据关联是数据库中存在的一类很重要的可以发现的知识。若两个或者多个变量的取值之间存在某种规律性,就成为关联。关联可分为简单关联,时序关联,因果关联。关联分析的目的是找出数据库中隐含的关联网,优势并不知道数据库中的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。2.2.3 基于历史的分析MBR(Memory-based Reasoning)MBR的本质是:现根据经验知识寻找相似情况,然后再将这些情况的信息应用于当前的例子中。使用的三个问题是:寻找确定的历史数据;决定表示历史数据的最有效方法;决定距离函数、联合函数和邻近的数量。2.2.4 遗传算法GA(Genetic Aigorithms)该算法是基于进化理论,并采用遗传结合、遗传变异及自然选择等方法优化结果。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。规则的适合度(Fitness)是对训练样本分类准确性的评估。2.2.5 聚集检测将物理或者抽象对象的集合,分组成为由类似的对象组成的多个类的过程被成为聚类。在由聚类生成的数据对象集合中,这些对象具有相似性,并与其他集合中的对象具有相异性。这种相异度是根据描述对象的属性值来计算的,距离是经常被采用的度量方法。2.2.6 连接分析它的基本理论是图论,图论的思想是寻找一个可以得出好的结果但不是完美结果的算法。这种不完美但是可行的思想模式,可以使之运用到更广的用户群中。2.2.7 决策树决策树是能够被看成一棵树的预测模型。树的每个分支都是一个分类的问题,内部节点表示在一个属性上的测试,树叶代表类或者分布。决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法,也可将它看作是一个布尔函数。它是以实例为基础的归纳学习算法,通过对一组训练数据的学习,构造出决策树形式的只是表示,在决策树的内节点进行属性值的比较并根据不同的属性值判断从该节点向下的分枝,从而在决策树叶节点得到结论。所以从根到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组吸取表达式规则。2.2.8 神经网络神经网络是指由大量神经元互联而成的网络,类似于服务器互联而成的因特网。它主要由“神经元”的互联,或按组织的结点构成。通常神经网络模型由三个层次组成:输入层,中间层,输出层。在神经元求得输入值后,再汇总计算总输入值;由过滤机比较总输出值,确定网络的输出值。可以通过模拟判断,来不断修正计算的“权值”来达到学习的目的,增加判断的正确性。2.2.9 粗糙集粗糙值是一种研究不确定性问题的工具,它根据已有的给定问题的知识,对问题论域进行划分,然后对划分后的每个组成部分确定其对某个概念的支持程度。它用于从数据库中发现分类规则的基本思路是将数据库中的属性分为条件属性和结论属性。对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。2.2.10 回归分析回归分析分为线性回归、多元回归和非线性回归。线性回归中,数据是用直线建模;多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多个项式项形成为线性回归模型。1. 数据挖掘阶段分析数据挖掘阶段作为整个项目的重中之重,通常数据挖掘的流程包括项目理解、数据理解、数据准备、建立模型、模型评估和模型发布等。3.1 项目理解阶段此阶段主要确定项目目标,订立项目成功的标准,完成项目形势评估及制定项目执行计划等等。项目成功的标准是模型的准确率达到多少、纯度达到多少等,而形式评估则主要对项目实施未来可能遇到的问题作一个简单的评估,业务及行业规则不断变化,模型在应用过程中会遇到各种问题等。至于项目计划则是对整个项目需要的时间,资源作一个整体的规划把控。除此之外,此阶段还需要对相关专业术语进行解释说明等。3.2 数据理解和数据准备数据挖掘对数据的依赖性非常高,为了能够实现数据挖掘的目标,要求收集的数据足够全,质量尽量高。通常在这个阶段花费的时间占整个项目的一半还多。原始数据采集完后,还需要对数据进行描述和处理,比如进一步探查已选变量与目标变量之间是否存在关系,各变量数据的基本探查,如空值数目、唯一值数目、最小最大值的统计以及数据质量检验等。数据准备数据集描述清洗数据构造数据选择数据格式化数据整合数据 3.3 建立模型阶段数据挖掘项目的建立模型都要经过三个阶段:建立模型,测试并调整模型,应用模型。建立模型,就得选择相应的建模技术,可能应用到决策树、神经网络及回归分析等统计技术,在项目运营的各个阶段,数据不同,运营宣传方式也不同,这就可能利用模型的组合,各个项目阶段采用不同的模型进行预测分析。3.4 模型评估阶段模型的应用通常需要较长周期的检验才能准确的评估其是否满足商业标准,在传统行业,这个评估通常在模型应用一年后作出。此外,对于设计的模型,不但要评估模型的准确性和通用性,还要努力找出相关商业理由解释说明模型的欠缺,把生成的结果与建模初订立的标准进行对比,同时根据目前的状况对数据仓库变量做适当的修正调整,以满足日常数据分析需要。数据挖掘运营分析调研验证3.5 模型发布阶段在模型通过评估满足商业目标情况后,进入模型发布阶段。模型发布阶段的内容主要包括相关模型检测和维护计划(常规调整和适应性的调整),以确保模型的准确预测和预警。同时,还要利用模型指导日常运营发布相关数据分析报告。确定研究目标提出策略意见分析数据现象与目标的关联找出真实原因2. 数据挖掘技术在电子商务中的应用4.1电子商务中数据挖掘技术的适用价值目前对于数据挖掘的对象和使用的方法层出不穷,随着电子商务的兴起,电子商务将是未来数据挖掘的主要发展方向之一,它在各种商业领域都存在广泛的使用价值。4.1.1客户细分随着以客户为中心的经营理念不断深入人心,分析客户、了解客户并引导客户的需求己成为企业经营的重要课题。通过对电子商务系统收集的交易数据进行分析,可以按各种客户指标(如自然属性、收入贡献交易额、价值度等)对客户分类,然后确定不同类型客户的行为模式以便采取相应的营销措施促使企业利润的最大化。4.1.2客户获得比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买什么型号的该种商品等等。也许很多因素表面上看起来和购买该种商品不存在任何联系,但数据挖掘的结果却证明他们之间有联系。在采用了数据挖掘后,针对目标客户发送的广告的有效性和回应率将得到大幅度的提高,推销的成本将大大降低。4.1.3客户保持数据挖掘可以把你大量的客户分成不同的类,在每个
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号