资源预览内容
第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
亲,该文档总共7页全部预览完了,如果喜欢就下载吧!
资源描述
数据挖掘考试题目聚类一 、填空题1、密度的基于中心的方法使得我们可以将点分类为: 、 、2、DBSCAN 算法在最坏的情况下,时间复杂度是 、空间复杂度是 3、DBSCAN 算法的优点是 、 。4、DBSCAN 算法的缺点是处理 、 的数据效果不好。5、DBSCAN 算法的参数有: 、 。6、簇的有效性的非监督度量常常可以分为两类: 、 ,它常采用的指标为 。7、簇的有效性的监督度量通常称为 ,它度量簇标号与外部提供的标号的匹配程度主要借助 。8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是 。9、DBSCAN 算法的参数确定的基本方法是观察 的特性。10、不引用附加的信息,评估聚类分析结果对数据拟合情况属于 技术。答案:1、核心点边界点 噪声点2、O(n2)O(n)3、耐噪声能够处理任意大小和形状的簇4、高维数据变密度的5、EPS MinPts6、簇的凝聚性 簇的分离性 均方差 (SSE)7、外部指标监督指标的熵8、块对角的9、点到它的第 K 个最近邻的距离( K- 距离)10、非监督二、选择题1、DBSCAN 算法的过程是( B )。 删除噪声点。 每组连通的核心点形成一个簇。 将所有点标记为核心点、边界点和噪声点。 将每个边界点指派到一个与之关联的核心点的簇中。 为距离在 Eps 之内的所有核心点之间赋予一条边。A:B:C:D :2、 如果有 m 个点, DBSCAN 在最坏的情况下的时间复杂度度为(C)。2A O(m)B O(mlogm)C O(m )D O(logm)3、在基本 DBSCAN 的参数选择方法中,点到它的 K 个最近邻的距离中的 K 选作为哪一个 参数( B)。A EpsB MinPtsC 质心D 边界4、当采用K-距离的方法选择 DBSCAN的Eps和MinPts参数时,如果设置的 K的值太大,则小簇(尺寸小于 K 的簇)可能会被标记为( A)。A 噪声B 核心簇C 边界簇D 以上都不对5、如果处理以下形状的数据时,适宜采用DBSCAN 的是( B)A 球形B SS 形C 椭球形D 方形D)6、DBSCAN 之所以难以有效处理高维数据,其主要原因是(A 数据的形状太复杂 B 簇的大小未知C 噪声点过多D 开销过大7、簇评估能够做到( D ) 确定数据集的聚类趋势。 确定正确的簇个数。 比较两个簇集,确定那个更好。 不引用附加信息,评估聚类分析结果对数据拟合情况A B C D 8、 如果不考虑外部信息,聚类结构的有良性度量应当采用(A )。A 均方差B 方差C 中位数D 均值9、比较不同的聚类或簇时,通常采用相对的簇评估度量,相对的簇评估以()来评价不同的聚类或簇。A SSE 或熵 B 簇的大小C 簇的形状D 簇的密度10、对于 DBSCAN ,参数 Eps 固定,当 MinPts 取值较大时,会导致( B)A 能很好的区分各类簇B 只有高密度的点的聚集区划为簇,其余划为噪声C 低密度的点的聚集区划为簇,其余的划为噪声D 无影响三、判断题1、DBSCAN 的参数 Eps 固定时, MinPts 的值越大越好。 (错)2、 DBSCAN 会把所有点划分到各自的簇中。(错)3、在所有核心点的 Eps 半径邻域内的点数都不少于 MinPts 阈值。(对)4、 SSE 在无监督的簇评估中能起到很好的作用。(对)对)。5、 在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的, 说明具有明显分离的簇6、 DBSCAN 能够很好的区分原始数据的形状,但受限于用户指定的参数。(对)7、判断簇的个数不属于簇评估。 (错)8、 在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。(对)9、DBSCAN的空间复杂度始终都是 0(m)。(对)10、 K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并 有重叠的簇。(对)四、简答题1、描述DBSCAN的算法过程。 将所有点标记为核心点、边界点和噪声点。 删除噪声点。 为距离在Eps之内的所有核心点之间赋予一条边。 每组连通的核心点形成一个簇。 将每个边界点指派到一个与之关联的核心点的簇中。2、简答DBSCAN的优点与不足。答,优点:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇,缺点:当簇的密度变化过大时,DBSCAN就很难敏感的发现数据集中的簇。同时,DBSCAN在处理高维数据时,会有很大的开销。3、简述DBSCAN算法的核心思想。DBSCAN算法的核心思想是一个簇中除了边界点,每个点在给定的半径Eps内必须包含不少于PinPts个数据点,这样的点称为核心点。4、确定DBSCAN参数的基本的方法是什么。答:观察点到它的 K个最近邻的距离的特性。对于某个 K,计算所有点的 K距离,以递增 的次序排序,绘制排序后的值。在图中找到曲线拐点,拐点处的函数值为Eps半径,K的值为 Minpts。5、簇评估的主要任务是什么。答:确定数据集的聚类趋势。 确定正确的簇个数。 不引用附加的信息,评估聚类分析结果对数据的拟合情况。 将聚类分析结果与已知的客观结果比较。 比较两个簇集,确定哪个更好。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号