商务智能复习题要点-

一、选择题(本题共5 道小题，每小题 2 分，共 10 分)1. 数据仓库是随着时间变化的，下面的描述不正确的是( C ) 。A. 数据仓库随时间的变化不断增加新的数据内容B. 捕捉到的新数据会覆盖原来的快照C. 数据仓库随事件变化不断删去旧的数据内容D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合2. 有关数据仓库的开发特点，不正确的描述是( B ) 。A. 数据仓库使用的需求在开发初期就要明确B. 数据仓库开发要从数据出发C. 数据仓库的开发是一个不断循环的过程,是启发式的开发D. 在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活，且没有固定的模式3. 在有关数据仓库测试，下列说法不正确的是( D ) 。A. 在完成数据仓库的实施过程中，需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试。B. 当数据仓库的每个单独组件完成后，就需要对他们进行单元测试。C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。D. 在测试之前没必要制定详细的测试计划。4. 关于基本数据的元数据是指( D )。A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息B. 基本元数据包括与企业相关的管理方面的数据和信息C. 基本元数据包括日志文件和简历执行处理的时序调度信息D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息6. 下面关于数据粒度的描述不正确的是( C )。A. 粒度是指数据仓库小数据单元的详细程度和级别B. 数据越详细，粒度就越小，级别也就越高C. 数据综合度越高，粒度也就越大，级别也就越高D. 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量6. 关于 OLAP 的特性，下面正确的是： ( D )(1) 快速性(2)可分析性(3)多维性(4)信息性(5)共享性A. (1) (2) (3)B. (2) (3) (4)C. (1) (2) (3) (4)D. (1) (2) (3) (4) (5)7. 关于 OLAP 和 OLTP 的区别描述，不正确的是： ( C )A. OLAP 主要是关于如何理解聚集的大量不同的数据，它与OTAP 应用程序不同。B. 与 OLAP 应用程序不同， OLTP 应用程序包含大量相对简单的事务.C. OLAP 的特点在于事务量大，但事务内容比较简单且重复率高.D. OLAP 是以数据仓库为基础的，但其最终数据来源与 OLTP 一样均来自底层的数据库系统，两者面对的用户是相同的。8. 关于 OLAP 和 OLTP 的说法，下列不正确的是： ( A )A. OLAP 事务量大，但事务内容比较简单且重复率高B. OLAP 的最终数据来源与OLTP 不一样C. OLTP 面对的是决策人员和高层管理人员D. OLTP 以应用为核心,是应用驱动的9. OLAP 技术的核心是( D)。A. 在线性B. 对用户的快速响应C. 互操作性D. 多维分析10 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？ ( A )A. 关联规则 B. 聚类C. 分类D. 自然语言处理11. 分析型 CRM 的( C )功能可以让CRM 对所进行的销售活动相关信息进行存储和管理，将客户所发生的交易与互动事件转化为有意义、高获利的销售商机。A. 促销管理B. 个性化和标准化 C. 客户分析和建模 D. 客户沟通12. 运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤( A ) 。A. 确定关键成功领域、确定关键绩效要素、确定关键绩效指标B. 计划目标、实施目标、评价结果、反馈C. 确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高D. 确定长期整体目标、确定短期目标13. 什么是KDD ？ ( A )A. 知识发现B.领域知识发现C. 文档知识发现D.动态知识发现14. 呼叫中心是一种基于(D)的一种新的综合信息服务系统。A IT 技术 B CTI 技术 C WEB 技术D CRM 技术15. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？ (C )A. 频繁模式挖掘B. 分类和预测 C. 数据预处理D. 数据流挖掘16. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？ ( B )A. 分类B. 聚类 C. 关联分析 D. 隐马尔可夫链17. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？( A )A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则18. 为数据的总体分布建模，把多维空间划分成组等问题属于数据挖掘的哪一类任务？ (B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则19. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？ ( C )A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则20. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？ ( A )A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则21. 下面哪种不属于数据预处理的方法？( D )A. 变量代换B. 离散化 C. 聚集 D. 估计遗漏值22. 下面哪个不属于数据的属性类型( D )。A.标称B.序数C. 区间D.相异23. 在上题中，属于定量的属性类型是( C ) 。A.标称B.序数C. 区间D.相异24. 只有非零值才重要的二元属性被称作( C ) 。A. 计数属性B. 离散属性C. 非对称的二元属性D. 对称属性25. 以下哪种方法不属于特征选择的标准方法( D )。A. 嵌入 B. 过滤C. 包装D. 抽样26. 下面不属于创建新属性的相关方法的是( C )。A. 特征提取B. 特征修改C. 映射数据到新的空间 D. 特征构造27. 下面哪个属于映射数据到新的空间的方法？ ( A )A. 傅立叶变换B. 特征加权C. 渐进抽样D. 维归约28. 企业所建立的预测模型的好坏取决于模型在 ( A )上的表现效果。A. 得分集B. 训练集C. 测试集 D. 评价集29. 客户在经济活动中具有多重身份，下面哪一种不是其身份之一( C )。A. 行为身份B. 所有权身份C. 学习身份D. 决策身份30. 下列四条描述中，正确的一条是( B )。A. 企业实施数据挖掘，必须要有数据仓库。B. 企业要实施数据挖掘最好的方式是请编外专家。C. 企业购买现成数据挖掘模型的一个先决条件是：该企业的产品、客户、市场定位和所买来的现成模型设计之初的假设相吻合。D. 在建模的时侯，增益最高的模型就是最好的模型。31. 数据挖掘算法以( D ) 形式来组织数据。A. 行 B. 列 C. 记录D. 表格32. 企业要建立预测模型，需准备建模数据集，以下四条描述建模数据集正确的是( B )。A. 数据越多越好。B. 尽可能多的适合的数据。C. 得分集数据是建模集数据的一部分。D. 以上三条都正确。33. K 均值类别侦测要求输入的数据类型必须是( B )。A. 整型B. 数值型C. 字符型D. 逻辑型34. 在决策树和累计增益图的关系转化过程图中，决策树上某一页节点的增益与累计增益图上的 ( D )相对应。D. 相对应的线段斜率A. 线段长度B . 线段斜率 C. 相对应的线段长度35. 企业为提升每个客户的价值，应实现( C )最优化。A. 促销活动B. 预算最优化 C. 客户最优化 D. 三者都不是36. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了 ( C )数据挖掘方法。A. 分类B. 预测C. 组合或关联法则 D. 聚类37. 企业成功实施数据挖掘，需要以下 ( B )知识或技术。A. 预先的规划 B. 对商业文体的理解C. 综合商业知识和技能D. 都需要38. 下列哪个不是专门用于可视化时间空间数据的技术( B )。A. 等高线图 B. 饼图 C. 曲面图 D. 矢量场图39. 在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是( D )。C. 分层抽样D. 渐进抽样A. 有放回的简单随机抽样B. 无放回的简单随机抽样40. 设 X=1 ， 2 ， 3 是频繁项集，则可由 X 产生 ( C )个关联规则。A. 4 B. 5 C. 641. 概念分层图是( B)图。A. 无向无环B. 有向无环42. 以下哪些算法是分类算法(D. 7C. 有向有环D. 无向有环B )。A. DBSCAN B. C4.5 C. K-Mean D. EM43. 以下哪些分类方法可以较好地避免样本的不平衡问题( A ) 。A. KNN B. SVM C. Bayes D. 神经网络44. 以下关于人工神经网络( ANN )的描述错误的有( A ) 。A. 神经网络对训练数据中的噪声非常鲁棒B. 可以处理冗余特征C. 训练 ANN 是一个很耗时的过程D. 至少含有一个隐藏层的多层神经网络45. 通过聚集多个分类器的预测来提高分类准确率的技术称为 ( A ) 。A. 组合 (ensemble) B. 聚集 (aggregate) C. 合并 (combination) D. 投票 (voting)46. 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作( B ) 。A. 层次聚类B. 划分聚类C. 非互斥聚类D. 模糊聚类47. 在基本 K 均值算法里，当邻近度函数采用( A )的时候，合适的质心是簇中各点的中位数。A. 曼哈顿距离B. 平方欧几里德距离C. 余弦距离D. Bregman 散度48.( C )是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。A. 边界点 B. 质心C. 离群点 D. 核心点48. 检测一元正态分布中的离群点，属于异常检测中的基于( A )的离群点检测。A. 统计方法B. 邻近度C. 密度 D. 聚类技术49. DBSCAN 在最坏情况下的时间复杂度是( B ) 。A. O(m) B. O(m2) C. O(log m) D. O(m*log m)50. 关于 K 均值和 DBSCAN 的比较，以下说法不正确的是( A ) 。A. K 均值丢弃被它识别为噪声的对象，而DBSCAN 一般聚类所有对象。B. K 均值使用簇的基于原型的概念，而DBSCAN 使用基于密度的概念。C. K 均值很难处理非球形的簇和不同大小的簇， DBSCAN 可以处理不同大小和不同形状的簇。D. K 均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN 会合并有重叠的簇。51. 使用交互式的和可视化的技术，对数据进行探索