资源预览内容
第1页 / 共635页
第2页 / 共635页
第3页 / 共635页
第4页 / 共635页
第5页 / 共635页
第6页 / 共635页
第7页 / 共635页
第8页 / 共635页
第9页 / 共635页
第10页 / 共635页
亲,该文档总共635页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
,大数据技术在企业创新背景下高校物流人才培养中的转化与应用,1.数据挖掘概论,聊点别的,作为老师,你能在开课之初第一次课一眼扫过教室,就知道该给这个班这个班好不好教、该什么样的教学方式? 经过几周,你会逐渐了解这个班的80/15/5人群,你会相应的调整分别对这些学生怎么教学,不费力还能讨好? 甚至有些学生会跟你做朋友,你永远都懂得他们想听什么,他们也觉得你特别懂他们,你在内心中狂喜。 有时候你也会跟他们讲三岁看老的道理、也会拿着作业本就侃侃而谈他将来哪里会顺哪里会痛,而这些好像还真的被你“算”对了!你给她们描绘的美好的前途激励了学生们学习的激情和兴趣。,你准备好应对大数据时代了,身处,大数据时代,!,我们已经处在大数据时代,可能还浑然不知,维克托教授将带我们一窥大数据时代的全景,时间就是生命!,省钱是硬道理!,处理数据理念的思维变革,01,云计算能便宜、有效、高速地的对信息存储、分享和挖掘,采样分析是信息缺乏时代和信息流通受限制时代的产物,a,更多,而是全体数据,不是随机样本,b,更杂,不求精确、更多混杂非结构,c,更好,而是相关关系,不是因果关系,挖掘数据价值的商业变革,02,大数据时代的重要价值在数据深挖掘,数据的价值来源于万物数据化和数据交叉复用,a,数据化,01码转可量化、交叉复用,b,价值,之不竭、开放,取之不尽,用,c,角色定位,思维的三足鼎立,数据、技术与,面对数据风险的管理变革,03,需要新的规章制度应对大数据时代的各种隐忧,危险不再是隐私的泄露,而是被预知的可能性,b,掌控,的信息管理,责任与自由并举,a,风险,一切的隐忧,让数据主宰,初识数据分析,现实中的问题,你的产品更新是否达到了你的预期效果? 你的流量发生波动的原因是哪些? 你如何控制你的成本? 你如何去预测你未来的流量,收入,或是成本? 面对一堆数据,你该如何下手?,大数据(Big Data),数据分析:进行数据收集、整理、分析、并依据数据做出评估和预测 BIG DATA: Big data is like teenage sex, everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it .,数据分析流程:SEMMA,EXCEL-数据分析的基础,常用的分析技术 描述统计(平均数、标准误差、中位数、众数、标准差、方差等) 相关系数(可以使用相关系数分析工具来检验每对测量值变量,以便确定两个测量值变量是否趋向于同时变动,检测两个变量是否相关以及关联的程度有多强) T检验(双样本 t-检验”分析工具基于每个样本检验样本总体平均值的等同性,检测两组数据是否有差异) 回归(回归分析工具通过对一组观察值使用“最小二乘法”直线拟合来执行线性回归分析。本工具可用来分析单个因变量是如何受一个或多个自变量影响的。),数据分析还能做什么?,对用户或者渠道进行等级分类(聚类分析) 对渠道是否作弊进行判断(逻辑回归,支持向量机等) 对不同推广方式的有效性进行检测(方差分析) 对广告位或者推广价格的精准制定(回归分析) 商品推荐(关联分析) 。,数据挖掘的应用关于数据挖掘的故事,14,2021/6/3,历史性的大数据时代 东东比萨店的电话铃响了,客服人员拿起电话。 客服: 东东比萨店,您好,请问有什么需要我为您服务? 顾客: 你好,我想要 客服: 先生,请把您的AIC会员卡号码告诉我。 顾客: 135259XXXXXX 。 客服: 陈先生,您好,您是住在XX街一号12楼1205室,您家电话是2039XXXX 。对吗?(1.客户数据库) 顾客: 为什么你知道我的电话号码? 客服: 陈先生,因为我们有AIC会员系统。,15,2021/6/3,顾客: 我想要海鲜比萨 客服: 陈先生,海鲜比萨不适合您。 顾客: 为什么? 客服: 根据您的医疗记录,您有高血压和胆固醇偏高。(2.医疗数据库) 顾客: 那你们有什么可以推荐的? 客服: 您可以试试我们的低脂健康比萨。 顾客: 你怎么知道我会喜欢吃这种的? 客服: 您上星期一在中央图书馆借了一本低脂健康食谱。(3.图书借阅数据库) 顾客: 好那我要一个家庭号特大比萨,要付多少钱?,16,2021/6/3,客服: 99元,这个足够您一家六口吃了,但是您母亲应该少吃,因为她上个月刚做了心脏搭桥手术,处在恢复期。(2.医疗数据库) 顾客: 可以刷卡吗? 客服: 陈先生,对不起,请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。(4.金融数据库-信用卡) 顾客:“喔!那我先去附近的提款机领钱。” 客服:“陈先生,根据您的记录, 您已经超过今日提款机提款限额。” (5.金融数据库-现金卡) 顾客: 算了。你们直接把比萨送到我家吧,家里有现金。你们多久会送到? 客服: 大约三十分钟,如果您不想等,可以自己骑车来。,17,2021/6/3,顾客: 什么? 客服: 根据AICCRM系统全球定位系统的实时自动跟踪系统的记录,目前您正骑着这辆车,离我们店并不远。(1.客户数据库) 顾客: XXX 客服: 陈先生,请您说话小心点儿,您曾在2004年4月1日用脏话侮辱XX,被拘役10天,罚款200元。如果您不想重蹈覆辙,就请您礼貌回复。(6.刑事刑案数据库) 顾客: 那算了,我什么都不要了,那份比萨也不要了! 客服: 谢谢您的电话光临,下星期三是您太太的生日,你不想预订一份生日比萨吗?提前一周预订可以享受8折优惠。(1.客户数据库) 顾客: ,18,CRM Road MAP,数据挖掘所能解决的典型商业问题包括: 银行:反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测等。 电信:流失预警、客户分群、关联销售。 网上销售点:购物车交叉销售、网上商品布局。,2021/6/3,19,数据挖掘在企业中的应用,DM在信用卡欺诈交易中的应用:通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合,描述出持卡人最近交易的大概轮廓,从而评估出是否与持卡人的交易习惯相符,发现交易异常明显痕迹,发卡行需要联系持卡人,以确定其信用卡账户最近是否正常,是否被以任何方式遭受损害。,2021/6/3,20,DM在大型零售企业中的应用 优化商品组合布局,正确安排商品进货与库存:从众多的商品中发现创造价值最大的商品,据此调整商品的结构,安排商品的库存和定货;商品布局管理通过商品摆放位置促进销售,如超级市场的厨房用品是按照女性的视线高度来摆放。如美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130-135公分之间。 精准制定营销策略:(1)通过对市场同类产品和销售情况、顾客情况的收集和分类分析,明确细分市场,确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。(业绩分析);(2)正确安排商品进货与库存,降低库存成本 DM在交叉销售中的应用:拥有汽车的新婚夫妻购买儿童专用汽车椅时通过数据挖掘推荐购买儿童专用汽车椅颜色,以便在新婚夫妻购买汽车的时候销售给他们合适儿童专用汽车椅。,2021/6/3,21,DM在管理优化与支持 市场分析和管理:针对销售(target marketing), 顾客关系管理, 购物篮分析, 交叉销售(cross selling), 市场分割(market segmentation) 风险分析与管理:预测, 顾客关系, 改进保险, 质量控制, 竞争能力分析 欺骗检测与管理,DM在其他应用 文本挖掘 (新闻组, email, 文档资料) 流数据挖掘(Stream data mining) DNA 数据分析 运动领域:IBM Advanced Scout分析NBA的统计数据 ( 阻挡投篮, 助攻, 和犯规 ) 获得了对纽约小牛队(New York Knicks)和迈艾米热队( Miami Heat )的竞争优势 天文领域:借助数据挖掘,JPL 和 Palomar Observatory 发现22 颗类星体(quasars) Internet Web Surf-Aid:IBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志, 以发现顾客喜爱的页面, 分析Web 销售的效果, 改进Web 站点的组织, 等.,Top 10数据挖掘工具,1. RapidMiner 2. SAS Data Mining(SAS ) 3. WEKA 4.Teradata 5. Orange 6. KNIME 7. NLTK 8. JHepWork 9. Pentaho 10. OracleData Mining,24,2021/6/3,PMT:一款基于Python的数据挖掘工具,数据挖掘与数据仓库,数据挖掘的社会需求,现实情况:人类积累的数据量以每月高于15%的速度增加 1.信息过量,难以消化; 2.信息真假难以辨识; 3.信息安全难以保证; 4.信息形式不一致,难以统一处理。,数据挖掘的内容和本质 随着DMKD研究逐步走向深入,其研究工作已经形成了三根强大的技术支柱:DB、AI和数理统计。 DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。 DM所发现的知识最常见的有以下五类:广义知识(Generalization);关联知识(Association);分类知识(ClassificationClustering);预测型知识(Prediction);偏差型知识(Deviation),CH5,数据挖掘的技术基础 (1)超大规模数据库的出现 (2)先进的计算机技术 (3)经营管理的需要 (4)对数据的精深计算能力,数据挖掘,数据挖掘的技术定义 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。,数据挖掘和信息检索的比较 信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。 区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。数据挖掘则寻找现象之间事先未知的关系和关联 。,数据挖掘的商业定义 数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。 数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。,大数据的4V特点 大量化(Volume) 多样化(Variety) 快速化(Velocity) 价值(Value),数据挖掘的分类,数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学 。,数据挖掘受多门学科影响的示意图,数据挖掘的分类,数据挖掘过程图,数据挖掘的应用领域,(1) 金融领域 (2) 营销领域 (3) 电子政务领域 (4) 电信领域 (5) 工业生产领域 (6) 生物和医学领域,(1) 金融领域,贷款偿还预测 客户信用政策分析 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常行为分析,(2)营销领域,关联分析-市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略; 序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率; 聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号