南开大学21春《大数据开发技术》在线作业二满分答案_15-

南开大学21春大数据开发技术在线作业二满分答案1. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案：C2. 以下不可以使用分治法求解的是( )。A.棋盘覆盖问题B.选择问题C.归并排序D.0/1背包问题参考答案：D3. 回溯法搜索解空间树时，常用的两种剪枝函数为约束函数和限界函数。( )A.错误B.正确参考答案：B4. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案：B5. 分治法与动态规划法的不同点是：适合于用动态规划法求解的问题，经分解得到的子问题往往不是互相独立的。而用分治法求解的问题，经分解得到的子问题往往是互相独立的。( )A.错误B.正确参考答案：B6. Mllib实现了一些常见的机器学习算法和应用程序，包括( )A.分类B.聚类C.降维D.回归参考答案：ABCD7. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案：B8. 聚类分析(Cluster analysis)简称聚类(Clustering)，是把数据对象划分成子集(类)的过程，每个子集称为一个簇(Cluster)。( )A.对B.错参考答案：A9. 拉斯维加斯算法找到的解不一定是正确解。( )A.错误B.正确参考答案：A10. 在集成期间，当一个数据库的属性与另一个数据库的属性匹配时，必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案：A11. 以下哪个函数可以对RDD进行去重( )A.sortByB.filterC.distinctD.intersection参考答案：C12. 下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?( )A.ggplot2B.networkC.ggmapsD.animation参考答案：D13. RDD的union函数会将两个RDD元素合并成一个并且去处重复元素。( )A.正确B.错误参考答案：B14. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案：AC15. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案：C16. 大数据技术也能帮助政府进行支出管理，透明合理的财政支出将有利于提高公信力和监督财政支出。( )A.对B.错参考答案：A17. RDD是一个( )的数据结构A.可读写B.只读的C.容错的D.可进行并行操作的参考答案：BCD18. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征。( )A.错误B.正确参考答案：A19. Graph类中如果根据边数据创建图，数据需要转换成RDDEdgeED类型，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValueD.GraphLoader.edgeListFile(sc,filename)参考答案：B20. var a=10; do a+=1; while(a20) 共循环了( )次A.9B.10C.11D.12参考答案：B21. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息，构造最优解。( )A.错误B.正确参考答案：A22. Storm中Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作。( )A.正确B.错误参考答案：A23. 文件块的大小和副本个数只能由系统指定。( )A.正确B.错误参考答案：B24. Scala中重写一个非抽象方法必须使用( )修饰符。A.extendsB.overrideC.extendD.overrides参考答案：B25. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案：BCD26. MapReduce设计的一个理念就是( )，因为移动数据需要大量的网络传输开销。A.数据向计算靠拢B.计算向数据靠拢C.计算向网络靠拢D.计算与数据并行参考答案：B27. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除。( )T.对F.错参考答案：T28. 数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?( )A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段参考答案：A29. 贪心选择性质是贪心算法可行的第一个基本要素，也是贪心算法与动态规划算法的主要区别。( )A.错误B.正确参考答案：B30. Storm中如果要保证相同字段的Tuple分配到同一个Task中，应该采用哪种Stream Groupings( )。A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案：D31. Scala函数组合器中flatmap结合了map和flatten的功能，接收一个可以处理嵌套列表的函数，然后把返回结果连接起来。( )A.正确B.错误参考答案：A32. 使用Amazon云环境部署Hadoop的说法中错误的是( )。A.Hadoop不仅可以运行在企业内部的集群中，也可以运行在云计算环境中B.Hadoop自带有一套脚本，用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案：D33. Dstream输出操作中( )方法在Driver中打印出DStream中数据的前12个元素。A.printB.saveAsTextFilesC.saveAsObjectFilesD.saveAsHadoopFiles参考答案：C34. Graph类中如果要根据边数据创建图，边数据需要加载为二元组，可以选择是否对边分区，应该用( )方法A.Graph(vertices,edges, defaultVertexAttr)B.Graph.fromEdges(RDDEdgeED, defaultValue)C.Graph.fromEdgeTuples(rawEdges: RDD(VertexId, VertexId), defaultValue,)D.GraphLoader.edgeListFile(sc,filename)参考答案：C35. Scala中如果函数无返回值，则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案：D36. Hadoop在配置伪分布式时需要修改哪几个配置文件( )。A.hbase-site.xmlB.hdfs-site.xmlC.core-site.xmlD.map-site.xmlE.mapr-site.xml参考答案：BC37. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案：BC38. RDD的subtract用于用于将前一个RDD中在后一个RDD出现的元素删除。( )A.正确B.错误参考答案：A39. 如果numPartitions是分区个数，那么Spark每个RDD的分区ID范围是( )A.0，numPartitionsB.0，numPartitions-1C.1，numPartitions-1D.1，numPartitions参考答案：B40. 用分支限界法设计算法的第二步是( )。A.针对所给问题，定义问题的解空间(对解进行编码)B.确定易于搜索的解空间结构(按树或图组织解)C.以广度优先或以最小耗费(最大收益)优先的方式搜索解空间D.在搜索过程中用剪枝函数避免无效搜索参考答案：B41. 分支限界法是一种只带有系统性的搜索算法。( )A.错误B.正确参考答案：A42. 实现大整数的乘法是利用( )的算法。A.贪心法B.动态规划法C.分治策略D.回溯法参考答案：C43. GraphX中( )是存放着Edg对象的RDDA.RDDEdgeB.EdgeRDDC.RDD(VertexId,VD)D.VertexRDD参考答案：A44. 数据归约(Data Reduction)主要有( )。A.维度规约B.样本规约C.数据聚集D.离散化概念分层参考答案：ABCD45. Scala中可以用( )方法来连接两个或多个列表A.:B.#:C.List.:( )D.List.concat( )参考答案：BCD46. 数据仓库、专家系统产生于大数据发展的成熟期。( )A.正确B.错误参考答案：B47. Spark SQL可被视为一个分布式的SQL查询引擎，并且提供了一个叫做DataFrame的可编程抽象数据模型。( )A.正确B.错误参考答案：A48. Pig是Hadoop项目中一种数据仓库工具。( )A.正确B.错误参考答案：B49. Spark中DataFrame的( )方法是进行条件查询A.whereB.joinC.limitD.apply参考答案：A50. 备忘录方法是哪种算法的变形?( )A.分治法B.动态规划法C.贪心法D.回溯法参考答案：B51. 解决0/1背包问题可以使用动态规划、回溯法和分支限界法，其中不需要排