4.0数据挖掘应用工具与实例-

主要内容主要内容1. 概述概述2. 数据数据仓库与与OLAP技技术3. 数据挖掘技数据挖掘技术4. 数据挖掘在数据挖掘在电信信领域的域的应用用5.数据挖掘工具数据挖掘工具6. 数据挖掘数据挖掘实例例4数据挖掘在数据挖掘在电信信领域的域的应用用4.1 CRM与 ERP4.2 数据挖掘在电信领域的应用 4.1 CRM与与ERPCRM CRMCustomer Relationship Management，客户关系管理，作为一种旨在改善企业与客户之间关系的新型管理机制。 CRM系统以数据仓库技术为根底，数据挖掘技术为核心。 4.1 CRM与与ERPERP ERPEnterprise Resource Planning，即企业资源规划，是前几年国内外兴起的一种企业运作管理软件，它的侧重点是对企业内部的业务流程以及企业的资源进行管理。解决的是企业内部各环节的协调问题，如财务、生产、采购和仓储等部门间的协调关系。4.1 CRM与与ERPERP与CRM两者的关系同样作为现代企业的管理软件，ERP与CRM在企业运营过程中，处于不同的位置，担任不同的角色。一个面向后台，一个面向前台。一个保证企业生产出更高质量的产品，而另一个帮助企业理顺与客户的关系，向客户提供最好的效劳。这是企业在剧烈的市场竞争保证胜利的不可或缺的两个环节。 4.1 CRM与与ERP 通过ERP与CRM系统的紧密集成，把企业供给商和效劳商等都联成一个有机的整体，真正形成一个以客户为核心进行运作的虚拟企业，并最大限度地满足客户需要和最大限度地降低企业本钱。CRM的应用数据挖掘在CRM中的市场营销，业务分析，客户效劳等方面都有广泛的应。例如：开展客户、提升客户价值、挽留客户等。CRM的应用开展客户每一个企业都希望能更快地开展新的客户，更多的客户意味着更大的市场占有率和更好的规模效益。数据挖掘技术可以帮助更准确地发现有价值的潜在客户，从而可以显著地降低开展新客户的本钱，提高市场拓展的投入产出比ROI。 CRM的应用例如，假设一个电信业务提供商利用邮寄宣传材料开拓市场，一份宣传材料的本钱是￥1.00。如果漫无目的地随机分发10000份，将有150人成为该公司用户，而其中能给公司带来利润的仅有100人。也就是说投入￥10000，得到了100个有价值的客户。现在采用数据挖掘技术，根据以前随机分发的数据或者新取样500人分发获取数据而后建立模型，根据该模型，发现前面的10000人中只有5000人值得投资，对此5000人邮寄宣传材料后有95人成为客户，其中90人可带来利润。结果是投入￥5500，获得了90个有价值的客户，显著地提高了投入产出比。CRM的应用挽留客户据一般经验估计，留住一个老客户地本钱是开展一个新客户本钱的35倍。留住有价值的客户保持利润的有力手段。而在电信行业，客户的频繁换网现象churn十分严重，留住客户比其它行业更加困难。数据挖掘在此问题上也有较好的应用。 CRM的应用要挽留客户首先要找出可能离网的客户，因此数据挖掘解决该问题的第一步即是建立离网客户预测模型。该模型可以利用已离网客户的历史资料包括个人信息、消费行为等来获得。第二步当然还得判断该客户是否值得挽留，这也用到预测模型，因为有些客户虽然目前是有微弱价值的但是最终毫无价值，有些客户那么可能恰恰相反。CRM的应用提升客户价值提升现有客户的价值是提高利润的重要手段。在电信行业，客户价值提升包括交叉销售、增值销售和根本业务价值提升。数据挖掘是发现交叉销售/增值销售时机和分析根本业务价值提升可能性的重要手段。 CRM的应用发现交叉销售/增值销售时机涉及到两个模型。第一个模型用来确定哪些用户可以进行推销，哪些用户那么不希望被打搅。如果屡次对第二类用户进行推销，那么可能失去该用户。第二个模型那么用来发现对特定的用户推销哪些产品。显然，即使不考虑推销本钱，屡次向客户推销他并不想要的产品肯定会降低他对该企业的满意度。关联规那么可能是第二个模型的重要组成局部。CRM的应用根本业务价值提升要考虑的重要问题是预测用户在企业采取某种措施后其利润的变化情况。例如假设某个电信运营商采取某特定用户群亲友费减半的优惠策略来刺激消费，那么必须要求这些用户的消费额增加或者能增加市场占有率公司才可能获得效益。4.2 电信信领域的域的应用用4.2.1 客户行为与潜在客户分析 4.2.2 用户信用度分析 4.2.3 黑名单、红名单 4.2.4 优惠策略 4.2.5 甄别欺诈 4.2.6 趋势预测4.2 电信信领域的域的应用用目的利用成熟的数据挖掘工具或算法，对用户帐务数据、行为数据、根本信息数据，以及各营业点的销售记录等进行分析挖掘，找出各种数据之间的潜在关系，为企业经营者制定销售策略提供科学依据。数据源用户帐务数据库、用户行为数据库话单数据、用户根本信息库等。 4.2.1 用用户行行为分析分析对于企业的某一类或几类产品/业务来说，大致可将其用户分为四类：1潜在用户目前还不是公司任何一项产品/业务的用户，但有使用该产品/业务的潜在趋势，这是市场竞争初期的重要营销对象。2增量用户是公司某项产品或业务的使用者，并且有增加使用量的趋势。 4.2.1 用用户行行为分析分析3交叉增量用户是企业某一产品/业务的使用者，并且有使用本公司另一类产品/业务的可能性。4挽留客户目前是公司的某一类或几类产品/业务的使用者，但有终止使用或转向别的产品/业务提供者转移的可能性。 4.2.1 用用户行行为分析分析用户行为分析的根本思想将用户的行为分为假设干类别，对具有某一类行为特征的用户，分析其根本信息，以期找出用户行为和客户根本特征两者之间的假设干潜在关系。实现步步骤第一步采用聚类算法对用户行为进行分类，根据得到的类别模型与客户行为信息库对个客户行为进行评分，结果写回客用户行为信息库。衡量用户行为的主要特征指标包括：客户ID 时段工作日性质-工作日和非工作日消费金额业务类型重要指长话，市话等通话业务，目的重要指本地，长途，我网他网等信息实现步步骤第二步统计分析各类别的行为特性，首先按照各行为类别的利润奉献大小对各类别进行排序。例如：类别利润计算公式类别平均利润=各行为消费金额/类别行为个数实现步步骤类别行为特性按不同主题有多种考察重点，如某一种业务或业务组合在各类别行为中出现的百分比，各行为的时间段分布情况等；这里得到两类类别统计信息表：按类别组织和按各种主题如业务类型，业务量组织。 4.2.1 用用户行行为分析分析主要包括两方面的分析：群体分析利用聚类或分类算法，将企业客户根据某种规那么分为假设干群体。行为分析又称倾向建模根据客户以前的消费行为，分析某几类有显著特征的行为模式，并据此对客户未来的行为进行预测。 4.2.1 用用户行行为分析分析上述两种建模技术均可以被用来提高企业营销目标对象的准确性并提高相应的收益。为到达这个目的，目前有很多的分析工具被应用，如：交叉报表工具基于机器学习的数据挖掘工具工具。如 Minset、Integent Miner等基于统计学的分析工具，如SAS、SPSS；神经网络 4.2.2 用用户信用度分析信用度分析用户信用度等级描述详细描述用户信用度等级的具体含义。信用等级分布表示客户的利润、客户的根本信息和行为分类如时间段、业务类型等的分布表示。类似于客户行为分析。信用度的相关分析分析影响用户信用度的因素之间的概率依赖关系、强度及其可信度。这一方面用于预测客户信用度的开展趋势，当发生变化时，对其信用等级进行相应的调整。4.2.2 用用户信用度分析信用度分析利用上述分析结果，给出从一个信用度等级到另一个信用度等级变化可能性大的客户。可能决策者主要关心从高等级到低等级最低等级和从低等级到最高等级可能性大的用户群。4.2.2 用用户信用度分析信用度分析根据影响用户信用度的主要因素，对用户的帐务数据进行分类，建立分类模型，并对用户进行评分，给出用户的信用度级别类别。影响用户信用度的主要因素包括：1交费的及时度2用户的社会性质3用户的通话业务量4用户申请的业务数量5用户申请的业务种类和用户的投诉情况4.2.2 用用户信用度分析信用度分析用户信用度分析的实现系统初装时，没有用户的信用度级别信息，这时采用聚类算法，按照用户的帐务行为信息将其分为假设干类。在此根底上，依照每类各指标的统计数据和一定的等级评定规那么，将各类的信用度赋于上下级别; 在系统运转过程中，用户指本系统用户可能会对用户已有信用度级别提出异议，或加以修改，这样，对做了相应级别修正后的用户数据，采用有监督的分类学习，就会得到更为准确的分类模型，而且这个模型也是不断在更新的。相应的，随着用户信用行为特征的变化，其信用级别也会不断变动。 4.2.2 用用户信用度分析信用度分析信用度类别分类依据的用户帐务信息数据包括：开户平均时长欠费次数金额(如本月欠费，那么为欠费金额，此值为负，如本月不欠费，那么为通话费用，此值非负) 欠费时长帐务人社会性质步骤步骤1 用户信用度初始化用户信用度初始化数据抽数据抽样抽样的原那么样本尽量具有代表性，且数据量能保证学习耗时不是太多。例如，可采用一个随机数产生器随机产生要抽取的样本。数据抽样数据抽样步骤步骤2 信用度模型更新信用度模型更新步骤步骤3 用户信用度级别更新用户信用度级别更新步步骤4 新开用新开用户信用度信用度设定定用户的信用度级别设定是由用户的帐务信息决定的，而新开用户没有任何帐务记录，故根据已有的信用度模型没法设置其信用度。考虑到有不同帐务行为的用户有不同的根本信息，即某种信用等级的用户具有相似的根本信息，我们可以分析新开户的根本信息，与各个信用等级的用户根本信息做比较，以确定他属于哪个信用级别，分为以下两步：1分类模型确定 (2新开户信用等级评定步骤步骤4 新开用户信用度设定新开用户信用度设定4.2.3 黑名黑名单、红名名单黑名单与红名单管理是在信用度管理的根底上，按照一定的规那么，将信用度较高或较低的某些用户列入红名单或黑名单。根据信用度的评定规那么可知，红名单中用户交费及时，消费量大，是电信部门保证利润的最重要客源，也是最应该保持的一局部客户；而黑名单上的用户那么是对电信部门利润增长奉献较小或最有可能有欺诈行为倾向的用户。黑名单与红名单是优惠策略管理和反欺诈管理的重要依据，并且也是电信部门较为关心的重要信息。 4.2.4 优惠策略分析惠策略分析优惠策略包括营销优惠策略和话费优惠策略主要完成：1定义优惠规那么和优惠方式；2用户优惠规那么参数化处理；3对已有优惠策略的性能分析；4优惠套餐的设置；5各种优惠和业务、以及其他信息分布关系的展示功能。 4.2.4 优惠策略分析惠策略分析优惠惠规那么分那么分为：时段段优惠惠用用户可可享享受受国国家家规定定的的时段段优惠惠外外，系系统还应提提供供有有各各个个公公司司制制定定的的适适用用于于本本地的地的时段段优惠措施惠措施总量量优惠惠对用用户的的业务量量到到达达一一定定的的程程度度后后，给予不同的予不同的优惠措施。惠措施。4.2.4 优惠策略分析惠策略分析次数次数优惠惠对用用户的的通通话次次数数到到达达一一定定的的数数量量后，后，给予不同的予不同的优惠措施。惠措施。伙伴伙伴优惠惠对用用户的的通通话性性质进行行区区分分，对于于呼呼叫叫某某类或或某某部部的的用用户，给予予不不同同的的优惠措施。惠措施。 4.2.4 优惠策略分析惠策略分析优惠方式包括：惠方式包括：基于客户性质类别的优惠基于呼叫地区类别的优惠基于营业地区类别的优惠基于信用等级的优惠综合的优惠套餐等4.2.4 优惠策略分析惠策略分析优惠方式分析惠方式分析对于各种于各种优惠方式惠方式( (包括包括优惠套餐惠套餐) )，给出其受益客出其受益客户的的类别、信用度、信用度类别分布、欺分布、欺诈情况和投情况和投诉类别分布等。例如，分布等。例如，优惠策略的行惠策略的行为类别分布及其分布及其柱状柱状图和和饼状状图等。等。新新优惠套餐惠套餐设置分析。置分析。给出新的出新的优惠套餐的惠套餐的设置与置与客客户群的分析及利群的分析及利润分析。分析。优惠套餐的惠套餐的设置参置参数必数必须在以前的在以前的优惠策略中出惠策略中出现过，分析，分析优惠惠套餐使用者的其他各套餐使用者的其他各项属性的概率，从而属性的概率，从而给出出这种种优惠惠资费的客的客户群体。同群体。同时可以可以查找最找最优化的化的优惠惠设置。置。4.2.4 优惠策略分析惠策略分析优惠策略或优惠套餐潜在客户分析。优惠策略的性能分析。通过分析优惠策略和业务量和收入之间的关系，给出优惠策略的性能。 4.2.5 甄甄别欺欺诈当前恶意欠费客户给电信运营商造成了巨大的利润损失，如何减少欺诈行为带来的损失是每一家电信企业所必须面对的问题。在识别欺诈客户，降低经营风险方面数据挖掘已经不少有了成功的应用案例。 4.2.5 甄甄别欺欺诈识别欺诈客户的主要途径：第一是区分用户的信用度，通过建立用户信用打分模型把用户分成不同的信用度等级，给不同的等级确定不同的月高额限制，超出限额的认为是潜在恶意欠费客户。第二是建立恶意欠费客户的消费识别模型，如果某一客户的消费模式吻合欺诈消费模式，那么认为是潜在恶意欠费客户。 4.2.5 甄甄别欺欺诈甄别欺诈策略分析类似优惠分析，建立在信用度管理的根底之上。分析防欺诈策略的相关变量：高额话费额度、欠费停机额度和用户具有不同的欠费停机额度等。指定防欺诈策略分析信用度、客户的满意程度、高额花费警告额度和停机额度之间的关系。根据分析结果调整用户的根本信息。分析信用度、客户的满意程度和用户催缴周期、催缴频度之间的关系。 4.2.6 预测预预测测主主要要指指业业务务预预测测，是是针针对对电电信信量量开开展展的的短短期期预预测测。它它建建立立在在对对大大量量数数据据业业务务资资料料数数据据、社社会会根根底底资资料料数数据据、市市场场调调查查资资料料、其其他他运运营营者者资资料料数数据据统统计计分分析析的的根根底底上上，通通过过模模型型运运算算、统统计计分分析析等等数数据据处处理理手手段段，完完成成对对电电信信业业务务的的业业务务开开展展、用用户户需需求求数数量量、用用户户分分布布、市市场场占占有有率率等等几方面的几方面的预测预测分析。分析。4.2.6 预测从上面介从上面介绍绍的数据挖掘在的数据挖掘在电电信信领领域的域的各种各种应应用可以看出，信用度分析及客用可以看出，信用度分析及客户户行行为为分析是其他各种分析是其他各种应应用的根底。用的根底。数据挖掘的数据挖掘的认识误区区u 挖掘出的结果都是正确的数据挖掘得出的结果一般都是经验性的，它并不是一条经过严格数学证明的定理事实上数据挖掘得出的规那么绝大多数不可证明。例如数据挖掘号称能通过历史数据的分析来预测客户的行为，而事实上客户自己可能都不明确自己下一步要作什么。挖掘算法并不保证结果的完全正确，挖掘出的结果只具有概率上的意义，只具有参考价值。数据挖掘的数据挖掘的认识误区区u 挖掘获得的模型可普遍适用普遍适用数据挖掘仅仅根据它所处理的数据得出结果，结果的适用范围受限于数据的选择。我们不能保证一个在美国运行得非常成功的银行信用卡客户信用评级模型在中国也同样可信；当然我们也不能保证一个零售业的客户利润分析模型同时适用于电信行业。数据挖掘的数据挖掘的认识误区区u 数据挖掘可以完全自动化当然数据挖掘可以做到完全的自动化，但是，挖掘结果对商业目标的价值不是挖掘算法所能判断的，用户需要在他们能理解的背景环境中，观察挖掘输出的结果并与之交互。很多时候一个挖掘目标的完成需要屡次叠代的挖掘过程才能完成。在一定的意义上，一个半自动的数据挖掘环境可能是更好的。数据挖掘的数据挖掘的认识误区区数据挖掘是一个工具，而不是魔杖。它不会坐在数据库上一直监视着数据库，然后当发现有意义的模型时给管理者发一封电子邮件。它仍然需要了解用户的业务，理解用户的数据，弄清分析方法。数据挖掘只是帮助专业人士更深入、更容易的分析数据。而无法告知某个模型对企业的实际价值。而且数据挖掘中得到的模型必须在现实生活中进行验证。主要内容主要内容1. 概述概述2. 数据数据仓库与与OLAP技技术3. 数据挖掘技数据挖掘技术4. 数据挖掘在数据挖掘在电信信领域的域的应用用5.数据挖掘工具数据挖掘工具6. 数据挖掘数据挖掘实例例5 数据挖掘工具数据挖掘工具5.1 概述5.2 几种数据挖掘工具比较5.3 典型工具介绍 5.3.1 DBMiner 5.3.2 Admocs 5.3.3 PredictiveCRM 5.3.4 SAS/EMEnterprise Miner 5.3.5 Weka5.1 概述概述目前，世界上比较有影响的典型数据挖掘系统包括：Enterprise Miner SAS公司Intelligent Miner IBM公司SetMiner SGI公司Clementine SPSS公司Warehouse Studio Sybase公司See5 RuleQuest Research公司CoverStoryEXPLORAKnowledge Discovery WorkbenchDBMinerQuest等5.1 概述概述该网站提供了许多数据挖掘系统和工具的性能测试报告。5.1 概述概述IBM Intelligent MinerA wide range of data mining algorithmsScalable mining algorithmsToolkits: neural network algorithms, statistical methods, data preparation, and data visualization toolsTight integration with IBMs DB2 relational database systemSAS Enterprise Miner A variety of statistical analysis toolsData warehouse tools and multiple data mining algorithmsMirosoft SQLServer 2000Integrate DB and OLAP with miningSupport OLEDB for DM standard5.1 概述概述SGI MineSet Multiple data mining algorithms and advanced statisticsAdvanced visualization toolsClementine (SPSS)An integrated data mining development environment for end-users and developersMultiple data mining algorithms and visualization toolsDBMiner (DBMiner Technology Inc.)Multiple data mining modules: discovery-driven OLAP analysis, association, classification, and clustering Efficient, association and sequential-pattern mining functions, and visual classification toolMining both relational databases and data warehouses5.2 几种数据挖掘工具比几种数据挖掘工具比较较产品产品公司公司主页主页版本版本ClementineIntegral Solutions, Ltd.http:/www.isl.co.uk/clem.html4.0DarwinThinking Machines, Corp.http:/www.think.com/html/products/products.htm3.0.1Enterprise MinerSAS Institutehttp:/www.sas.com/software/components/miner.htmlBetaIntelligent MinerIBMhttp:/www.software.ibm.com/data/iminer/2PRWUnica Technologies, Inc.http:/www.unica-usa.com/prodinfo.htm2.1ScenarioCognoshttp:/www.cognos.com/busintell/products/index.html2平台和数据平台和数据库连接方式的比接方式的比较产品产品单机版单机版C/S版版数据源数据源ClementinePC和UNIX无ODBCDarwin无Unix Server/PC ClientODBCEnterprise MinerPCUnix Server/PC Client和NTServer/PC ClientODBC 和Native Database DriversIntelligent MinerPCUnix Server/PC ClientNative Database DriversPRWPC无ODBCScenarioPC无仅支持数据库文件（Debase、excel 、csv等）算法方面的比算法方面的比较算法算法ClementineDarwinEnterprise MinerIntelligent MinerPRWScenario决策树决策树有有有有无有神经网络神经网络有有有有有无回归分析回归分析有无有有有无Radial Basis Functions无有无有有无最近邻最近邻无无有无有无最近均值最近均值无无无无有无 Kohonen Self-Organizing Maps有无有无无无聚类聚类有无无有有无关联规则关联规则有无无有无无比比较与分析与分析在算法参数控制和扩展功能选项方面，比照这些产品可以发现, Enterprise Miner和PRW对参数控制实现的较好，而Intelligent Miner在这方面较弱。几乎所有的产品都提供对决策树的实数值的处理和图形展示等扩展功能，但只有Clementine和Scenario较好地实现了树的修剪选项功能。此外，神经网络的扩展功能方面也有较大差异。易用性方面的比易用性方面的比较产品产品数据装载和数据装载和操纵操纵模型模型建立建立模型理模型理解解技术技术支持支持总体总体感觉感觉ClementineDarwinEnterprise MinerIntelligent MinerPRWScenario可可视化方面的比化方面的比较 Intelligent Miner、Enterprise Miner和Scenario都有图形化的树展示，而Clementine和Darwin那么提供基于文本的规那么说明。此外，对于柱状图、饼图和曲线等这些工具的支持程度也各有不同。挖掘挖掘过程自程自动化的比化的比较产品产品对自动化的支持对自动化的支持Clementine可视化编程和编程语言支持Darwin编程语言支持Enterprise Miner可视化编程和编程语言支持Intelligent Miner仅提供向导界面，不支持编程PRW有一个实验管理组件，支持宏Scenario自动化支持较弱，很多过程需手工完成小小结这六种工具都是非常优秀的数据挖掘工具，但每一种可能适用于不同的环境。IBM的Intelligent Miner在市场上比较领先并有良好的技术支持；SAS的Enterprise Miner明显地偏向统计因此更适用于适合统计的环境；在不清楚那种算法更好的情况下Unica的PRW是较好的选择，Cognos的Scenario那么是其数据仓库系列产品的重要组件。如何如何选择数据挖掘工具数据挖掘工具商用数据挖掘系统各不相同不同的数据挖掘功能和方法数据集的类型可能完全不同多维视图数据类型关系型的, 事务型的, 文本的, 时间序列, 空间的?系统问题支持一种还是多种操作系统?C/S 架构?提供Web接口，且允许输入/输出 XML 数据?如何如何选择数据挖掘工具数据挖掘工具数据源ASCII文件、文本文件, 多个关系型数据源支持 ODBC 连接 (OLE DB, JDBC)?数据挖掘功能与方法实现多种数据挖掘功能每种功能提供多种实现方法提供更多的数据挖掘功能和实现方法将使用户具有更大的灵活性和更强大的分析能力与数据库或数据仓库的耦合性四种耦合方式: 非耦合, 松散耦合, 半紧密耦合和紧密耦合理想情况下, 数据挖掘系统应该与数据库是紧密耦合的如何如何选择数据挖掘工具数据挖掘工具可伸缩性Row (or database size) scalabilityColumn (or dimension) scalabilityCurse of dimensionality: it is much more challenging to make a system column scalable that row scalable可视化工具“A picture is worth a thousand wordsVisualization categories: data visualization, mining result visualization, mining process visualization, and visual data mining数据挖掘查询语言与图形用户界面Easy-to-use and high-quality graphical user interface Essential for user-guided, highly interactive data miningDBMiner 的主要功能Discovery-driven, OLAP-based multi-dimensional analysisAssociation and frequent pattern analysisClassification (decision tree analysis)Cluster analysis3-D cube viewer and analyzer其他功能OLAP service, cube exploration, statistical analysis Sequential pattern analysis (under development)Visual classification (under development)5.3.1 典型工具典型工具DBMinerDBMiner Data and Mining Views (Working Panel)OLAP (Summarization) Display Using MS/Excel 2000Market-Basket-Analysis (Association)Ball graphDisplay of Association Rules in Rule Plane FormDisplay of Decision Tree (Classification Results)Display of Clustering (Segmentation) Results3D Cube BrowserDBMiner的开展的开展Evolving from DBMiner2.0 to DBMiner2.5 Smooth integration of relational database and data warehouse systems Support Microsoft OLEDB for Data MiningAdding fast association mining and sequential pattern mining methodsAdding visual classification methodsTowards RetailMiner, WeblogMiner, WebMiner, GeoMiner, MultiMediaMiner, and DNAMiner相关相关链接接访问以下网址可获得DBMiner免费试用 90天DBMiner 2.0 is downloadable at 5.3.2 典型工具典型工具Amdocs 在多年前电信行业已经开始利用数据挖掘技术进行网络出错预测等方面的工作，而近年来随着CRM理念的盛行，数据挖掘技术开始在市场分析和决策支持等方面得到广泛应用。市场上更出现了针对电信行业的包含数据挖掘功能的软件产品。比较典型的有Amdocs和Slp Infoware。 5.3.2 典型工具典型工具Amdocs Amdocs提供了整个电信运营企业的软件支撑平台。在其Clarify CRM产品组件中，利用数据挖掘技术支持以下应用：客户流失管理churn management 终身价值分析lifetime value analysis 产品分析product analysis 欺诈甄别fraud detection。 Amdocs产品中的数据分析和数据分析应用曾获得三届KDD杯奖。 5.3.3 典型工具典型工具Predictive CRM Slp Infoware开发的Predictive CRM软件是一个面向电信行业的CRM平台软件，其中应用了大量的数据挖掘和统计学技术。其数据挖掘局部实际上是把SAS Institute、SPSS和UNICA等公司的数据挖掘产品加以二次开发以适应电信行业的需要。数据挖掘在P-CRM中的应用包括客户保持、交叉销售、客户流失管理、欺诈甄别等方面。 5.3.4 典型工具典型工具SAS/EM 利用SAS软件技术进行数据挖掘可以有三种方式： 1使用SAS软件模块组合进行数据挖掘 2将假设干SAS软件模块联结成一个适合需求的综合应用软件 3使用SAS数据挖掘的集成软件工具SAS/EM 5.3.4 典型工具典型工具SAS/EM SAS/EM是一个图形化界面，菜单驱动的，对用户非常友好且功能强大的数据挖掘集成软件，集成了：数据获取工具数据取样工具数据筛选工具数据变量转换工具数据挖掘数据库数据挖掘过程多种形式的回归工具建立决策树的数据剖分工具决策树浏览工具人工神经元网络数据挖掘的评价工具 5.3.4 典型工具典型工具SAS/EMSAS/EM数据数据获取工具取工具通过对话框指定要使用的数据集的名称，并指定要在数据挖掘中使用的数据变量。变量分为两类：区间变量Interval Variable 是指那些要进行统计处理的变量。对于这样一些变量，在数据输入阶段你就可以指定它们是否要作最大值、最小值、平均值、标准差等的处理。还可给出该变量是否有值的缺漏，缺漏的百分比是多少等。利用这些指定可对输入数据在获取伊始就进行了一次检查，并把结果告诉你，你可初步审视其质量如何。SAS/EM数据数据获取工具取工具分类变量Class Variable 区间变量以外的变量称之为分类变量。在数据输入阶段将会提供给你每个分类变量共有多少种值可供分类之用。SAS/EM数据取数据取样工具工具对获取的数据，可再从中作取样操作。取样的方式是多种多样的。主要包括：随机取样等距取样分层取样从起始顺序取样分类取样 SAS/EM数据取数据取样工具工具随机取样在采用随机取样方式时，数据集中的每一组观测值都有相同的被取样的概率。如按10%的比例对一个数据集进行随机取样，那么每一组观测值都有10%的时机被取到。等距取样如按5%的比例对一个有100组观测值的数据集进行等距取样，那么有：100 / 5 = 20，等距取样方式是取第20、40、60、80和第100等五组观测值。 SAS/EM数据取数据取样工具工具分层取样在这种取样操作时，首先将样本总体分成假设干层次或者说分成假设干个子集。在每个层次中的观测值都具有相同的被选用的概率，但对不同的层次你可设定不同的概率。这样的取样结果可能具有更好的代表性，进而使模型具有更好的拟合精度。从起始顺序取样从输入数据集的起始处开始取样。取样的数量可以给定一个百分比，或者就直接给定选取观测值的组数。 SAS/EM数据取数据取样工具工具分类取样在前述几种取样方式中，取样的单位都是一组观测值。分类取样的单位是一类观测值。这里的分类是按观测值的某种属性进行区分。如按客户名称分类、按地址区域分类等。显然在同一类中可能会有多组观测值。分类取样的选取方式就是前面所述的几种方式，只是取样以类为单位。 SAS/EM数据数据筛选工具工具通过数据筛选工具可从观测值样本中筛选掉不希望包括进来的观测值。对于分类变量可给定某一类的类值说明此类观测值是要排除于取样范围之外的。对于区间变量可指定其值大于或小于某值时的这些组观测值是要排除于取样范围之外的。通过数据筛选使样本数据更适合数据挖掘的目标。 SAS/EM数据数据变量量转换工具工具利用此工具可将某一个数据进行某种转换操作，然后将转换后的值作为新的变量存放在样本数据中。转换的目的是为了使数据和将来要建立的模型拟合的更好。例如，原来的非线性模型线性化、加强变量的稳定性等。可进行取幂、对数、开方等转换。当然，也可给定一个公式进行转换。 SAS/EM建立数据建立数据库在进行数据挖掘分析模型的操作之前，要建立一个数据挖掘的数据库DMDB，其中放置此次要进行操作的数据。因为此后可能要进行许多复杂的数学运算，在这里建立一个专门的数据集可提高工作效率。在处理之前，可对所选取的各个变量预先进行诸如最大、最小、平均、标准差等处理。对一些要按其分类的变量的等级也先放入Meta Data之中，以利后继操作。总之在这个数据库中为数据挖掘建立一个良好的工作环境。 SAS/EM为建立决策建立决策树的数据剖分工具的数据剖分工具对数据集进行聚类、建立决策树，是近来数据处理，进行决策支持常用的方法。在SAS/EM中亦支持这一功能。在建立决策树的过程中可有多种数据聚类、剖分的方法可供选择。SAS/EM为建立决策建立决策树的数据剖分工具的数据剖分工具图形化界面的交互式操作，可分成六个层：1对数据挖掘数据库中选定数据集的操作 2对数据集中的变量的处理 3聚类、剖分时的根本选择项 4聚类、剖分时的进一步操作选择项 5模型的初步确定6结果的评价 SAS/EM决策决策树浏览工具工具最后作出来满意的决策树可能是个枝繁叶茂的架构。SAS/EM提供了可视化的浏览工具。这一点很重要，一个复杂的决策树假设难以观察，那么会影响实施决策的效率，甚至是有效性。决策树浏览工具包括：决策树根本内容和统计值的汇总表决策树的导航浏览器决策树的图形显示决策树的评价图表SAS/EM数据挖掘数据挖掘评价工具价工具在SAS/EM的评价工具中，提供了一个通用的数据挖掘评价的架构，可以比较不同的模型效果；预报各种不同类型分析工具的结果。在进行了各种比较和预报的评价之后，将给出一系列标准的图表，供用户进行定量评价。可能用户会有自己独特的评价准那么，在SAS/EM的评价工具中，还可以进行客户化的工作，对那些标准的评价图表按你的具体要求进行更改。因此，评价工作可能会更有意义。 Random infoWeka Waikato Environment for Knowledge AnalysisWeka native New Zealand birdDeveloped in Java multi-platform capabilityUsed for research, education, and applications5.3.5 典型工具典型工具WekaWeka InterfacesCommand-lineExplorerpreprocessing, attribute selection, learning, visualiationKnowledge Flowvisual design of KDD processcapabilities ExplorerExperimentertesting and evaluating machine learning algorithmsPreprocessClassifyClusterAssociateSelect attributeVisualiseWeka的功能的功能PreprocessingPreprocessingdata checkingfiltering, e.g.attribute-based - normalise, discretise instance-based remove, randomise select training dataselect test dataPreprocessingImport from files: ARFF, CSV, C4.5, binaryImport from URL or an SQL database (using JDBC)Preprocessing filtersAdding/removing attributesAttribute value substitution Discretization (MDL, Kononenko, etc.)Time series filters (delta, shift)Sampling, randomizationMissing value managementNormalization and other numeric transformationsAttribute SelectionVery flexible: arbitrary combination of search and evaluation methodsBoth filtering and wrapping methodsSearch methodsbest-firstgeneticranking .Evaluation measuresReliefFinformation gaingain ratio .Demo: weather_nominal.arff PCP + ranker searchalgorithm 1, rudimentary rules1R one level decision tree just using best first-level rulesalgorithm 2, statistical modellingNaive Bayes - uses prior probability of class combined with instance probability assumes attributes are independentalgorithm 3, decision treesID3 / C4.5 decision tree induction information gain or gain ratio calculated at each node to decide which branch to go down maximise the separation of classesalgorithm 4, covering rulesrules found to cover all instances of each class attribute-value pair to maximise the classification rule PRISM methodalgorithm 5, association ruleslooking for item sets with high coverage and specified minimum confidence works for nominal values Apriori algorithmalgorithm 6, linear modelsnumeric prediction linear regression to minimise difference between actual and predicted valuesalgorithm 7, instance-based learningEuclidean distance of attribute sets found to calculate the nearest neighbour algorithm filtering k-nearest matches ClassifyingClassifyingalgorithmsrudimentary rules1R one level decision tree just using best first-level rulesstatistical modellingNaive Bayes - uses prior probability of class combined with instance probability assumes attributes are independentdecision treesID3 / C4.5 decision tree induction information gain or gain ratio calculated at each node to decide which branch to go down maximise the separation of classescovering rulesrules found to cover all instances of each class attribute-value pair to maximise the classification rule PRISM methodassociation ruleslooking for item sets with high coverage and specified minimum confidence works for nominal values Apriori algorithmlinear modelsnumeric prediction linear regression to minimise difference between actual and predicted valuesinstance-based learningEuclidean distance of attribute sets found to calculate the nearest neighbour algorithm filtering k-nearest matches ClassificationPredicted attribute is categoricalImplemented methodsNave Bayesdecision trees and rulesneural networkssupport vector machinesinstance-based classifiers Demo: iris.arff, mushroom_simple.arff Evaluationtest setcrossvalidation .ClusteringClusteringestimation maximisation (EM)simple k meanscobwebfarthest firstClusteringImplemented methodsk-MeansEMCobwebX-meansFarthestFirstClusters can be visualized and compared to “true clusters (if given)RegressionPredicted attribute is continuousImplemented methods(linear regression)neural networksregression trees Demo: goods.arff, cpu.arffAssociation DiscoveryWorks only with discrete attributesImplemented methodsAPRIORITERTIUSLimited capabilities GUHADemo: baskets1n.arffProsextensibilityfeaturesmethodsKDD phasesmultimodal use and interfacescriptingfree (GPL)Consdocumentation(kitchen sink syndrome)AssociationsAssociationsaprioritertiusSelect attributesAttribute evaluator e.g.classifier subset evaluatorchi squared attribute evaluatorSearch method e.g.best firstrandom firstOutputOutputdepends on what methods usedRulesClassesTrees - visualisedClustersAssociationsError checks - visualisedDemonstrationWekaweather relationopen file/data/weather.arff (numerical and nominal data)preprocess/colour outlook play/attributes|1.5|classify/choose/trees/j48/(class by play)/startclassifier output/j48 pruned tree/visualize treeweather relationopen file/weatherNominal.arff (nominal data)preprocess/colour outlook play/attributes|1.5|classify/choose/trees/j48/(class by play)/startclassifier output/j48 pruned tree/visualize treetest options/supplied test set/set/open file/weatherNominalTest.arffDemonstrationWekawBase geotechnical data relationopen file/data/wBase-14x773num.arff (numerical and nominal data)preprocess/colour class/attributes|1.14|/namesclassify/choose/lazy/lBk/()/startcluster/simpleKmeans/start/visualize cluster assignmentscluster/EM/start/visualize cluster assignmentsclassifier output/j48 pruned tree/visualize treeData PreparationData formatSpreadsheet filesCSV filesData format - headerData format files saved as Filename.arffarff = attribute relation file formatRows of data seperated by commasHeader information about attributesrelation weather-1attribute outlook sunny, overcast, rainyattribute temperature realattribute humidity realattribute windy TRUE, FALSEattribute play yes, nodata relation name attribute name list of attributes real indicates a number more attributesData format - dataData format indicates start of data block attribute-values separated by commas missing values indicated by ?datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yes.sunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,?,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,nodatacanbehundredsorthousandsoflinesanynumberofattributesaccommodatedbut.miningalgorithmsjustaseffectiveonselectedattributes.sodataanalysisandpreparationessential!Generating CSV fileSave spreadsheet file in relationFile.csv format (comma separated value)Open Word or any text processorInsert (import) the relationFile.csv fileCarry out any data processingSave in a plain text format relationFile.txtChange file name to relationFile.arff 主要内容主要内容1. 概述概述2. 数据数据仓库与与OLAP技技术3. 数据挖掘技数据挖掘技术4. 数据挖掘在数据挖掘在电信信领域的域的应用用5.数据挖掘工具数据挖掘工具6. 数据挖掘数据挖掘实例例小结目前，虽然已经有了许多成熟的商业数据挖掘工具，但这些工具一般都是一个独立的系统，不容易与电信企业现业务支撑系统集成；而且由于数据挖掘技术本身的特点，一个通用的数据挖掘系统可能并不适用于电信企业。切实可行的方法是借鉴成熟的经验，结合自身特点开发专用的数据挖掘系统。北京邮电大学计算机科学与技术学院郑岩副教授/博士后 Email：Mobile：