南开大学复习资料-数据科学导论0001.docx-

数据科学课程期末复习资料一、客观部分：（单项选择、判断）（一）、选择部分1、通过构造新的指标-线损率，当超出线损率的正常范围，则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的（C）简单函数变换B.规范化 C.属性构造 D.连续属性离散化2、实体识别属于以下哪个过程（B）A.数据清洗 B.数据集成C.数据规约D.数据变换3、数据质量检验的主要任务就是检查原始数据中是否存在“脏数据”，概括性来说，脏数据不包括以下（A）A.普通值 B.异常值 C.不一致的值D.重复值4、决策树在什么情况下结点需要划分（D）A. 当前结点所包含的样本全属于同一类别当前属性集为空，或是所有样本在所有属性上取值相同当前结点包含的样本集为空还有子集不能被基本正确分类5、系统日志收集的基本特征不包括（D）A.高可用性 B.高可靠性C.可扩展性D.高效率6、k近邻法的基本要素不包括（C）oA.距离度量B.k值的选择C.样本大小D.分类决策规则7、一元回归参数估计的参数求解方法不包括（D）。A,最大似然法B.距估计法C.最小二乘法 D,欧式距离法8、下列选项不是BFR的对象是（B）A.废弃集 B.临时集 C.压缩集 D.留存集9、聚类的主要方法不包括（D）A.划分聚类B.层次聚类C.密度聚类D.距离聚类10、以下哪一项不是特征选择常见的方法（D）A.过滤式 B.封装式 C.嵌入式 D.开放式 11、以下哪一项不是特征工程的子问题（D）A.特征创建B.特征提取C.特征选择 D.特征识别12、比如一张表，从业务上讲，一个用户应该只会有一条记录，那么如果某个用户出现了超过一条的记录，这就产生了（C）A,异常值B.不一致的值C.重复值D.缺失值13、对于相似性与相异性的度量方法，基于距离的方法，以下哪一项不符合要求（D）A.欧氏距离B.曼哈顿距离C.马氏距离 D.对角距离14、通过变量标准化计算得到的回归方程称为（A）oA.标准化回归方程B.标准化偏回归方程C.标准化自回归方程D.标准化多回归方程15、一元线性回归中，真实值与预测值的差称为样本的（D）。A.误差 B.方差C.测差 D.残差16、在回归分析中，自变量为（），因变量为（D）。A.离散型变量，离散型变量 B.连续型变量，离散型变量C.离散型变量，连续型变量 D.连续型变量，连续型变量17、为了解决任何复杂的分类问题，使用的感知机结构应至少包含（B）个隐含层。A. 1 B. 2 C. 3D.418、BFR聚类用于在（A）欧氏空间中对数据进行聚类A.高维 B.中维 C.低维 D.中高维19、层次聚类对给定的数据进行（B）的分解。A.聚合 B.层次 C.分拆 D.复制（二）、判断部分1、当维度增加时，特征空间的体积增加得很快，使得可用的数据变得稀疏。（V ）2、数据分析师的任务：用模型来回答具体问题，了解数据，其来源和结构。（X ）3、探索性数据分析的特点是研究从原始数据入手，完全以实际数据为依据。（V ）4、特征的信息增益越大，则其越重要。（J）5、随着特征维数的增加，样本间区分度提高。（X）6、多层感知机的学习能力有限，只能处理线性可分的二分类问题。（X）7、给定一组点，使用点之间的距离概念，将点分组为若干簇，不同簇的成员不可以相同。（J）8、给定关联规则A-B,意味着：若A发生，B也会发生。（X）9、Jaccard系数只关心个体间共同具有的特征是否一致这个问题。（J）10、集中趋势能够表明在一定条件下数据的独特性质与差异。（X）11、利用K近邻法进行分类时，使用不同的距离度量所确定的最近邻点都是相同的。（X）12、利用K近邻法进行分类时，k值过小容易发生过拟合现象。（J）13、神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。（J ）14、单层感知机对于线性不可分的数据，学习过程也可以收敛。（X）15、聚合方法是自底向上的方法。（）16、如果一个候选集至少有一个子集是非频繁的，根据支持度的反单调属性，这样的候选项集肯定是非频繁的o （V）17、在k近邻方法中，k值增大意味着整体模型变得复杂。（X）18、朴素贝叶斯分类器有简单、高效、健壮的特点，但某些属性可能会降低分类。（J）二、主观部分：（一）、填空部分1、二分类问题常用的评价指标是精确率、召回率。2、朴素贝叶斯分类器建立在一个类条件独立性假设一基础之上。3、在决策树生成算法中，最关键的是如何在每一轮的迭代中选择最优特征。4、一个关联规则同时满足最小支持度和最小置信度，我们称之为强关联规则5、数据科学的过程包括获取数据、数据预处理、数据探索、数据建模、结果展示。6、Pearson线性相关系数要求连续变量的取值服从正态分布。7、欧氏距离越小，两个点的相似度就越大，欧氏距离越大，两个点的相似度就越1、08、数据散度分析表示一组数据离数据中心的距离，多用标准差、方差以及极差进行衡量。9、在k近邻法中，选择较大的k值时，学习的“近似误差”会增大， “估计误差”会减小。10、在k近邻法中，通常采用交叉验证法来选取最优的k值。11、划分聚类采取互斥簇的划分,即每个对象必须恰好属于一个簇。12、在线性回归分析中，根据自变量的维度不同可以分为一元线性回归和多元线性回归。13、反向传播算法的基本思想为，通过输出层得到输出结果和期望输出的误差，间接调整箜层_的权值。14、多层感知机中，隐含层和输出层都是拥有激活函数的功能神经元。15、神经网络中最基本的成分是神经元模型。16、密度分类法中，单维的变量可以通过其分布峰的个数来确定K值。17、在聚类中，使用距离测量来定义相似性18、Apriori核心算法有两个关键步骤为连接步和剪枝步。（二）、简答1、为什么需要标准化偏回归系数？标准化偏回归系数与普通的偏回归系数之间的关系是什么？在实际问题中，各自变量都有各自的计量单位以及不同的变异程度，所以不能直接用普通的偏回归系数的大小来比较方程中各个自变量对因变量y的影响大小，可以利用标准化偏回归系数来衡量。通过变量标准化计算得到的回归方程称为标准化回归方程，相应的回归系数即为标准化偏回归系数。标准化偏回归系数与普通的偏回归系数关系如下：W = Wj 侈）其中1式j式d2、简单介绍决策树算法流程决策树算法流程：1. 首先计算训练数据集的信息滴；计算各特征对数据集的信息增益；选取信息增益最大的特征为最优特征；将数据集按照最优特征进行划分；2. 循环2, 3, 4直到结点不能划分。3、一般的关联规则学习的步骤是什么？关联规则学习的步骤：1、找出所有的频繁项集；2、根据频繁项集生成频繁规则；3、根据置信度等指标进一步过滤筛选规则；4、请简述K-means聚类的优缺点。优点：容易实现。缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。5、请简述在使用反向传播算法训练多层感知机时，应该如何设置学习的停止条件？在使用反向传播算法训练多层感知机时，设置学习的停止条件常见的方法有两种。第一种为设置最大迭代次数，比如使用数据集迭代100次后停止训练；第二种为将数据分为训练集与验证集，当训练集的误差降低而验证集的误差升高，则停止训练。6、请简述k近邻法中k的取值对模型的影响。对于k近邻法中k的取值：选择较小的k值，相当于用较小的邻域中的训练实例进行预测，学习的“近似误差会减小，估计误差会增大，预测结果会对近邻的点实例点非常敏感。 k值减小意味着整体模型变得复杂，容易发生过拟合。选择较大的k值，学习的“近似误差”会增大，“估计误差”会减小，与输入实例较远（不相似）的训练实例也会对预测起作用。k值增大意味着整体模型变得简单。在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选取最优的k值。7、简答特征选择的四个步骤？特征选择的四个步骤：1. 子集产生子集评估停止条件子集验证8、探索性数据分析有哪些特点？探索性数据分析的特点：1. 研究从原始数据入手，完全以实际数据为依据；分析方法从实际出发，不以某种理论为依据；分析工具简单直观，更易于普及。9、单变量分析的方法主要包括非图形化方法和图形化方法两种，其中非图形化方法中主要求出哪些常量？非图形化方法中主要求出的变量有：均值、方差、标准差和峰度系数10、请简述，对于多层感知机，为什么无法通过简单感知机的学习规则对隐含层进行误差估计。因为对于各隐含层的节点来说，它们并不直接与外界相连，即不存在期望输出。所以无法通过简单感知机的学习规则对隐含层进行误差估计。(三) 、计算题1、已知二维空间有三个点Xi = (2,1)丁，x2 = (5,4)二 x3 = (6,2)。要求：求出在p = l, 2, 3时，上距离下的最近邻点，并得出相应结论。妇距离计算公式如下：p = l时，Li(x“ X2)= Zf=Jx)-xf)卜6, L(X1，X3) =-x?) =5,此时最近邻点为x3;1P = 2 时，LQi，x2)=(看=1 xg) - X?)I =4. 24 , LQi，x3) =(Z=jx?)- x?)2=4. 12,此时最近邻点为x3；p = 3 时，LxCxp x2） =（f=i X?）- X?）3 =3. 78 , LXp x3） =（=x）_1X?）| ）3=4. 02,此时最近邻点为X2；由此可知，由不同的距离度量所确定的最近邻点是不同的。2、设变量y,和乂2的普通线性回归方程为y = 4xi - 0.5*2 + 22,其中勺的标准差S*i = 0.2, *2的标准差Sx2 = 2.5, y的标准差S、= 0.8。要求：请写出y, Xi和*2的标准化回归方程，并分析和哪个变量对V的影响强度更大。标准化偏回归系数与普通的偏回归系数关系为因此W； = W2W； = W2W； = W20.2 = 4、2.5一05於=-1.5625因此标准化回归方程为y = Xi - 1.5625x2 + 22从标准化偏回归系数可以看出|w；| |w；|,由此可知X2对y的影响强度更大（四）、论述题1、在特征选择问题上，贪心算法依据搜索策略的不同可以分为几种？并简述每种策略是如何进行的？贪心算法依据搜索策略的不同可以分为3种，分别是前向搜索、后向搜索和双向搜索。前向搜索：特征子集从空集产生，迭代的从特征全集中选择特征加入子集。只能加入特征而不能去除特征。后向搜索：特征子集从全集产生，迭代的从子集中删除无关或冗余的特征。只能去除特征不能加入特征。双向搜索：从某个随机的特征子集开始，使用前向搜索向子集中增加新特征, 同时使用后向搜索从子集中删除无关或冗余的特征，当两者搜索到一个相同的特征时停止搜索。2、请简述隐含层神经元个数对于神经网络训练过程的影响。通过增加其神经元个数，可以提高神经网络的训练精度。神经元数过少时，网络不能很好的学习，训练的迭代次数较多，训练精度不高。神经元数过多时，网络功能更强大，精确度更高，但训练的迭代次数也更大，并且可能会出现过拟合现象。由此，神经网络中，隐含层神经元个数的选取原则是：在能够解决问题的前提下，再增加1到2个神经元，以加快误差下降速度即可。