客户流失模型.docx-－金锄头文库

利用ClementineC5.0模型预测CDMA客户流失摘要：该文针对目前电信行业中一个日益严峻的问题：客户离网进行研究，通过收集客户的基本数据、消费数据和缴费行为等数据，建立客户流失预测模型，进行客户流失分析及预测。通过对大量相关技术和统计方法的研究，最终确定了clementine的C5.0模型作为电信客户流失的预测模型。此模型对客户流失预测有较高的准确性，为电信经营分析系统作了有益的尝试与探索。关键词：数据挖掘；客户流失；统计分析；C5.0模型；CDMA客户 1 概述以中国电信云南某公司的项目支撑为基础，从统计数据来看，维持5%的老用户增长，给电信公司带来的利润将远远超过85%，而要想把一位非电信用户发展成客户，其成本将比保留一位老客户的成本高得多，统计数据表明成本是4倍左右，此时，客户对电信的忠实程序也将发生强烈的变化，由此给企业造成的损失将大大增加。从项目的实施情况来看，为了保证成功向客户推销运营商的产品，多数人都只愿意向老客户推销。因为由此付出的代价比用户要小得多，成功率也要高得多。通过这些数据我们可以看到防范老客户的流失相比发展新用户来说就显得尤为重要了，这也是普遍企业最为关注的问题之一。 2 研究现状及C5.0模型特点在我们国内，很多运营商为了应对市场的竞争，多数都己经建立了 “电信经营分析系统”，这在一定程序上为深层次的数据分析提供了良好的数据处理分析平台。而目前国内在数据利用上确远远不及国外的层次深，国内的数据应用主要集中在固定报表处理、查询分析和个人的主观探索，在更高领域的应用如数据挖掘还不太成熟，更谈不上深层次的应用。而这些在国外，很多知名的电信运营商却已经能够很好地利用数据挖掘技术，以便通过建立客户流失的模型，提升利润空间及对一些流失概率比较高的客户进行有针对的保留工作，这样做的目的可能有效地控制入网用户的流失。 Clementine作为一个数据挖掘软件，给运营商创造了很好的数据处理应用平台，在此平台下，运营商可以有效地使用一些商业技术准确、快捷地建立预测的模型，而后把由此模型生成的数据使用在推销应用领域。参照行业执行标准CRISP-DM模型，我们可以有效地改进决策过程，这不仅可以数据到更优商业成果的数据挖掘。而且还可以这样可以分析出哪些属性是影响客户流失的重要因素。现在比较流行的流程包括决策树、神经网络、逻辑回归、聚类关联性分析等。本文选择的是C5.0模型节点来进行电信的客户流失预测。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本，目标字段必须为分类字段,允许进行多次多于两个子组的分割。它通常会根据不同的字段再次分割由第一次分割定义的每个子样本，且此过程会重复下去直到无法继续分割子样本。 C5.0可以生成两种模型： 1）决策树是对由算法建立的分割的简单描述，每个终端（或“叶”）节点可描述训练数据的特定子集，而训练数据中的每个观测值都完全属于树中的某个终端节点。 2）规则集则是尝试对单个记录进行预测的一组规则，规则集源自决策树，并且在某种程度上表示在决策树中建立的经简化或提取的信息版本。对于所存在的问题，例如缺失数据和大量输入字段，C5.0模型十分稳健，通常不需要花费很长的训练时间用于估计。同时C5.0模型与其他模型类型相比更容易理解，解释起来更简明易懂。 3 建构并应用C5.0模型在clementine中使用C5.0模型进行电信客户流失预测的过程包括：找到数据源：本例中数据源为基于Excel的电子表格，打开Clementine，在对话框中选择数据源项，可以直接双击我们要使用的Excel进行编辑，在导入文件中选择要用的数据源。然后在选项板中选择字段节点，进行类型编辑，设置客户流失项为输出项。接下来在建模里根据需要选择合适的特征选项，此时，该节点会根据设置的条件（如缺失的百分比）筛选出可删除的字段，如预测变量，依据我们的挖掘需求，保留的预测变量，并按重要性进行排序。生成过滤节点后，在里面可看到保留了对输出（也就是客户的流失标志）有影响的项，去掉了对输出没什么影响的项。总的挖掘过程和过滤如图1-图2所示接着我们在模型里面选择C5.0模型，编辑模型的选项，有四种用于构建C5.0模型的训练方法：1.输出类型：指定希望生成的结果模型是决策树还是规则集，根据CDMA客户的性质和要预测的是流失项，在此选用决策树模型。2.群体字符：如果选中此选项，C5.0将试图组合输出字段中具有相似样式的符号值。3.使用推进：这是C5.0算法的一个特殊方法用于提高其准确率。工作原理是在序列中构建多个模型，第一个模型按常规方式进行构建；构建第二个模型时，将焦点集中于由第一个模型误分类的记录；构建第三个模型时，将焦点集中于第二个模型的错误，依此类推。最后，通过将整个模型集应用到观测值，并使用加权投票过程将单独的预测组合为一个总预测来分类观测值。推进可以显著提高C5.0模型的准确性，但也需要更长的训练时间。4.交互验证：此项使用一组模型（根据训练数据的子集构建）来估计某个模型（根据全部数据集构建）的准确性，可以指定用于交互验证的折叠次数或模型数。 C5.0有两种模式提供选择：1.简单模式：将试图生成尽可能精确的树，但有时可能会导致过度拟合，从而在将此模型应用于新数据时导致性能偏低。2.专家模式有以下几点：a.修剪严重性：确定对生成的决策树或规则集的修剪程度,增加该值可获得一个更简洁的小型树，减小该值可获得一个更精确的树。b.每个子分支的最小记录数：可使用子组的大小限制树的任何分支中的分割数，增加该值有助于防止使用噪声数据进行过度训练。c.使用全局修剪：分两个阶段修剪树，第一个阶段是本地修剪，此时将检查子树并折叠分支以提高模型的准确性。第二个阶段是全局修剪，在此阶段中将把树视作一个整体并折叠虚弱的子树。d.辨别属性：此项将在开始构建模型之前检查预测变量的有效性，如果发现不相关的预测变量，系统会自动把它从模型构建过程中排除。这个选项对于那些具有很多预测变量字段的模型非常有效，而且还可以有效地防止数据过于拟合。单击对话框下面的“执行”按钮后，这样会在右面的窗口中生成的C5.0的模型，打开此模型，我们可看到统计后的数据及此模型的准确度和时间等信息，另外我们还可以在该模型中导出PMML或者SQL等。如果模型的准确度已经达到我们的要求，接下来将生成的模型导入到业务支撑系统中，根据需要在导出模板中选择数据库，输入服务器地址及数据库名称。模型选项和导入SQL数据库如图3-图4所示。 4 数据分析和总结经过上面的操作，再对其进行分析整理后，可以看出CDMA客户流失的一些特征，如在使用彩铃的客户群中，有24%的流失率，远远超过不使用彩铃的用户，而在这些客户群中，使用彩铃并且在网时长大于25的客户，其流失率更高，达46%以上。这是要重点关注的用户群。分析结果如图5所示。而在FEE_ALL这一项中，高端客户的流失率较低，CDMA流失最严重的客户群在月消费为10至40的客户，流失率在22%以上，这也是占比最多的一部分。如果CDMA用户捆绑有其他业务，如我的e家等，则流失率较低。而在网时长这一项中，在网时长小于15的客户是流失率较小。由本研究不难看出，目前电信的客户流失率是一个非常值得关注的问题，对运营商造成影响是非常大的，因此电信运营商应该特别注意容易流失的客户群。挽留老客户，发展新用户。经过多个数据样本分析处理得出本文整体的技术路线是非常可行的，C5.0模型对电信客户流失预测的准确性是相当高的，可以为该电信分公司的经营分析支撑系统提供很好的参考实施价值。参考文献： 1 段云峰,吴唯宁,李剑威,等.数据仓库及其在电信领域中的应用M.北京:电子工业出版社, 2 邵峰晶,于忠清.数据挖掘原理与算法M.北京:中国水利水电出版社,2003. 3 颜昌沁,胡建华,周海河.基于Clementine神经网络的电信客户流失模型应用J.电脑应用技术,