统计学基本知识介绍PPT-

数据化运营与决策统计学的基本介绍与应用,客户关系管理中心沈冬冬 2015年3月,2,目录,什么是统计学数据分析（挖掘）主要方法及其一些应用如何养成统计学思维和品质常用的统计学书籍与软件,3,Part One:什么是统计学？,人类发现了统计，统计改变了世界。统计学的故事第一章标题（1）统计学的定义（2）统计学起源（3）统计学与其他学科的区别（4）统计模型（5）总结：统计学是一门什么样的学科,4,（1）统计学的定义,定义：统计学是一门研究随机现象，以推断为特征的方法论科学，“由部分推及全体”的思想贯穿于统计学的始终。具体地说，它是研究如何搜集、整理、分析反映事物总体信息的数字资料，并以此为依据，对总体特征进行推断的原理和方法。此外，统计学也是于收集、整理、分析和解释统计数据的科学，是一门认识方法论性质的科学，其目的是探索数据内在的数量规律性，以达到对客观事物的科学认识。用统计来认识事物的步骤是：研究设计抽样调查统计推断结论。这里，研究设计就是制定调查研究和实验研究的计划，抽样调查是搜集资料的过程，统计推断是分析资料的过程。显然统计的主要功能是推断，而推断的方法是一种不完全归纳法，因为是用部分资料来推断总体。,5,（2）统计学起源,两个源头：概率论 VS 国情学一、概率论： 16世纪，概率论的体系渐渐发展起来，而这要从一种和掷骰子有关的赌博活动说起。虽然这个起源并不是很光彩，而且有待考证，但是在欧洲兴起并兴盛的骰子赌博活动，引起了一批好奇的学者的关注。掷骰子得到的点数直接决定赌局的输赢，于是开始研究各种点数出现的机遇的大小，胜率的大小，最早开始数量研究并且给概率下定义的学者已经无从考证了，可是有一些著作的问世和问题的讨论对概率统计的发展产生了重大的影响，比如卡丹诺的机遇博弈、惠更斯的机遇的规律、伯努利的推测数、著名的分赌本问题、帕斯卡和费马之间的通信，在这期间，古典概型得到了极大的发展，概率、期望、二项分布、中心极限定理等概念被相继提出。结论：赌博也是把双刃剑！,6,二、国情学：统计学的英文是“statistic”，其实它是源于意大利文的“stato”，意思是“国家”、“情况”，也就是后来英语里的state（国家），在十七、十八世纪，统计学很多时候都是以国情学的姿态出现的。而且很长一段时间，都是在研究人口统计，尤其是生男生女的比例问题。概率论和国情学的融合，统计学渐渐发展也是从这开始。在这期间时，一些重要的理论被发现，如二项分布和大数定律。结论：统计学起源于国家的实际应用。,7,一个关于生男生女的问题：,从生物学角度来说，XX染色体与XY染色体结合是随机的，故孕妇生男生女的概率均是1/2。已知一对夫妇有两个孩子，且其中一个是男孩，问另外一个是女孩的概率是多少？ A: 1/3 B: 1/2 C: 2/3 D: 3/4 你知道答案吗？,8,（3）统计学与其他学科的异同,一、统计学与概率论的异同：不是废话的废话：概率论是统计学的基础，统计学是概率论的发展。区别：概率论就好比是给你一个模型，你可以知道这个模型会产生什么样的数据；而统计则是给你一些数据，你来判断是由什么样的模型产生的。 For example，概率论研究的是一个透明箱子，你知道这个箱子的构造（里面有几个红球、几个白球，也就是所谓的分布函数），然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子，你只看得到每次摸出来的是红球还是白球，然后需要猜测这个黑箱子的内部结构，例如红球和白球的比例是多少？（参数估计）能不能认为红球40%，白球60%？（假设检验）,9,二、统计分析与数据挖掘的异同：（当前比较热门的话题）,何为数据挖掘（Data Mining）？（1）是个什么样的学科：是在多个学科的基础上发展起来的。包括数据库、人工智能、机器学习、统计学、数据可视化等一系列学科交叉结合。（2）为什么会发展起来：随着数据库技术的发展，数据的积累快速膨胀，导致简单的查询和统计已经无法满足企业的商业需求（尤其是在互联网公司），急需革命性的技术去挖掘数据背后的信息。（3）如何发展起来：随着计算机领域人工智能的巨大进步，进入机器学习的阶段，故人们将数据库和机器学习相结合，用数据库管理系统存储数据，用计算机分析数据，产生了一门新的学科：数据库中的知识发现(Knowledge Discovery in Databases,KDD)。综上：数据挖掘则是知识发现的核心部分，指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的过程，这些信息的表现形式为：规则、概念、规律以及模式等。,10,二、统计分析与数据挖掘的异同,相同点：（1）都是对数据做分析与发现。“不管是白猫还是黑猫，抓住老鼠才是好猫”。在实战中，分析问题解决问题的首要考虑是思路，其次才是筛选与思路相匹配的分析挖掘技术；（2）二者的理论来源很多是同根同源。数据挖掘中的技术有相当比例是依靠统计分析中的多变量分析来支撑；（3）更有观点认为，数据挖掘是统计分析技术的延伸和发展，用于处理更大规模的数据（几十万行、几百万行的数据）不同点：（1）“统计分析”得出的结论是人的智能活动结果，而“数据挖掘”得出的结论是机器从学习集（或训练集、样本集）发现的知识规则；（2）相对于重视理论和方法的统计分析而言，数据挖掘更强调应用，毕竟数据挖掘的目的是方便企业用户的使用；（3）“统计分析”不能建立数学模型，需要人工建模，而“数据挖掘”直接完成了数学建模。如传统的控制论建模的本质就是描述输入变量与输出变量之间的函数关系，“数据挖掘”可以通过机器学习自动建立输入与输出的函数关系，根据KDD得出的“规则”，给定一组输入参数，就可以得出一组输出量。,11,（4）统计模型,模型的作用：预测 or 理解产生数据的机制。如何寻找模型：（1）对数据进行初步探索性分析，利用图形和各种统计量（比较简单的如期望、方差等）作基础分析，了解数据的分布，必要的话对部分数据（缺失值、异常值等）进行清洗或者转换处理；（2）根据具体业务需求选定因变量（目标变量、响应概率）和自变量（解释变量），分析变量与变量之间的关联性、相关性、线性性、共线性等各种关系；（3）选定变量后就要寻找合适的模型和算法（已有的模型或自己建立新的模型）；（4）对多个模型进行比较分析，选择最合适的模型，并对模型不断优化，解释其中的各个变量。（5）对模型进行检验，是否具有稳健性，对业务是否真的有帮助。 PS：一个好的模型应该是模型能很好的拟合数据，而不是让数据来拟合模型。,12,（5）总结,统计学究竟是一门什么样的学科？一千个读者眼里有一千个哈姆雷特，一千个学者眼里也有一千种统计学看法。数学？社会科学？自然科学概率学？ My view: 数学不可证伪，可脱离现实，不是科学。应用科学是对科学的应用，不是科学本身，应该算作工程学。 = 统计学是应用数学。,13,Part Two: 数据分析（挖掘）主要方法,若想了解上帝在想什么，我们就必须要学统计，因为统计学就是在量测他的旨意。现代护理学奠基人南丁格尔回归分析关联分析主成分分析聚类分析参数估计与假设检验,14,（1）回归分析(Regression),回归分析包括两项主要内容：多元线性回归 Logistic 回归,15,（1）回归分析(Regression),一. 多元线性回归描述的是一个因变量（y）如何随着一批自变量（）的变化而变化，它的回归公式（即回归方程）就是因变量与自变量关系的数据反映。多元线性回归方程： ps: 当p=1时，就是最简单的一元线性回归方程，即通过一个自变量来解释因变量。：自变量的系数。：残差，一般假设为满足正态分布，如何解释因变量的变化： a. 系统性变化，这个是由自变量引起的（也就是可以用自变量进行解释）； b. 随机变化，不能由自变量进行解释，由残差所造成。,16,（1）回归分析(Regression),二、Logistic回归：描述：相比于线性回归，Logistic回归在日常应用和数据化运营中有更频繁的作用，因为该分析技术预测的因变量(y)是介于0和1之间的概率，因此能够很好的回答诸如预测、分类等更常见的“二选一”问题。（比如“买”或“不买”，客户“流失”或“不流失”的概率有多少等） Logistic 回归方程：其中：p(y=1)为响应概率（也就是顾客买的概率），p(y=0)为不响应概率。其余变量解释和线性回归类似。,17,（2）关联分析(Association Analysis),描述：所谓关联分析，主要目的就是寻找数据集中频繁模式，通俗的说也就是两个或多个变量多次同时出现的关系。应用：应用关联分析最经典的案例就是“购物篮分析”，通过分析顾客购物篮中物品之间的关联，可以挖掘顾客的购物习惯，从而帮助零售商更好的制定有针对性的营销策略。（当当网、亚马逊等常用的推荐算法Apriori）一个生活常识：男人去超市买尿不湿时会顺便去买瓶啤酒。婴儿尿不湿啤酒支持度=10%，置信度=70% 上述式子表明，在所有顾客中，有10%（支持度）同时购买了婴儿尿不湿和啤酒，而在所有购买了尿不湿的顾客中，占70%（置信度）还同时购买了啤酒。 =X对Y的支持度：事物全体中包含的事物百分比。主要衡量规则的有用性，若太小说明只是偶然事件。 =X对Y的置信度：既包含了X又包含了Y的事物总量占所有包含了X的事物数量的百分比。衡量的是规则的确定性，或者说是可预测性。,18,（2）关联分析(Association Analysis),“啤酒和尿不湿”营销案例：沃尔玛超市发现了上述啤酒与尿不湿之间的关联性后，决定把这两样东西摆放在一起进行销售，结果明显的提高了二者的销售额，这就是经典的“啤酒与尿不湿”营销案例。,19,（3）主成分分析（Principal Components Analysis),描述：属于传统的统计分析技术范畴。通过线性组合将多个原始变量合并成若干个主成分，这样每个主成分都变成了原始变量的线性组合。这种转变的目的，一方面是可以大幅度降低原始数据的维度，同时也在此过程中发现原始数据属性之间的关系。基本思想：设法将原来众多具有一定相关性（比如n个指标），重新组合成一组新的互不相关的综合指标（如m个，mn）来代替原来的指标。,20,example:,以影响房地产价格的因素为例：线性组合,人口数量（x1）、人口密度（x2）、城市化程度（x3）、社会稳定情况（x4）、,X=a1*x1+a2*x2+a3*x3+a4*x4 社会因素,国民经济水平（y1）、税率（y2）、平均工资（y3）、银行利率（y4）、,地理位置（z1）、城市功能区（z2）、交通情况（z3）、,Y=b1*y1+b2*y2+b3*y3+b4*y4 经济因素,Z=c1*za+c2*z2+c3*z3 区域因素,21,（4）聚类分析（Clustering Analysis),描述：所谓聚类，就是俗话说的“物以类聚，人以群分”。针对几个特定的指标，可以将观察对象的群体按照相似性和差异性进行不同群组的划分。经过划分后，每个群组内部各对象间的相似度会很高，而在不同群组之间的对象彼此将会差异较大。聚类的方法：聚类分析的算法比较多，其中最简单也最常用的方法就是k-means方法。所谓k-means方法，通俗的说就是通过你周围k个人的平均情况从而来判断你是属于什么情况。具体的原理是：a.首先随机选择K个对象，并且所选择的每个对象都代表一个组的初始均值； b.对剩余的每个对象，根据其与各个组初始均值的距离，将它们分配给最近的（即最相似的）的小组 c.然后重新