资源预览内容
第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
第9页 / 共11页
第10页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
南开大学21春大数据开发技术离线作业一辅导答案1. 图结构中如果任意两个顶点之间都存在边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:A2. MapReduce的main函数中设置输出类型的方法有( )。A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC3. 传统的数据处理流程的前提是( )。A.存储的数据是旧的B.存储的数据是实时的C.需要用户主动发出查询D.不需要用户主动发出查询参考答案:AC4. 阿里云RDS中一个实例可以创建多个数据库,在实例内数据库命名唯一,所有数据库都会共享该实例下的资源,如CPU、内存、磁盘容量等。( )A.正确B.错误参考答案:A5. 实现合并排序利用的算法是( )。A.分治策略B.动态规划法C.贪心法D.回溯法参考答案:A6. Spark Streaming中时间片也可称为批处理时间间隔(batch interval),时间片是人为地对数据进行定量的标准,作为拆分数据的依据,一个时间片的数据对应一个RDD实例。( )A.正确B.错误参考答案:A7. 在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。( )A.对B.错参考答案:A8. 请问RDD的( )操作用于将相同键的数据聚合A.joinB.zipC.combineByKeyD.collect参考答案:C9. 任何可用计算机求解的问题所需的时间都与其规模无关。( )A.错误B.正确参考答案:A10. MapReduce中最优的Reduce任务个数取决于集群中可用的( )的数目。A.SplitB.SlotC.MapD.Shuffle参考答案:B11. 用户可以在Apache Mesos上运行Spark。( )T.对F.错参考答案:T12. Scala函数组合器可以对集合中的元素进行分组操作,结果得到的是一个Map的方法是( )A.filterB.flattenC.groubyD.flatmap参考答案:C13. 回溯法解旅行售货员问题时的解空间树是( )。A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A14. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作。( )A.正确B.错误参考答案:A15. 以下哪个函数可以对两个RDD进行合并( )A.unionB.substractC.intersectionD.cartesian参考答案:A16. 分布式离线分析可以实现秒级别的实时分析响应。( )A.正确B.错误参考答案:B17. 设计动态规划算法的主要步骤不包括根据计算最优值时得到的信息,构造最优解。( )A.错误B.正确参考答案:A18. spark-submit配置项中( )表示executor内存大小A.-num-executors NUMB.-executor-memory MEMC.-total-executor-cores NUMD.-executor-coures NUM参考答案:B19. 以下哪个函数可以求两个RDD差集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:B20. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值。( )A.正确B.错误参考答案:B21. ( )可以解决图计算问题A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:C22. 设计动态规划算法的主要步骤有5步。( )A.错误B.正确参考答案:A23. Scala函数组合器中foreach和map类似,有返回值。( )A.正确B.错误参考答案:B24. 下面是贪心算法的基本要素的是( )。A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C25. Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。( )T.对F.错参考答案:F26. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60%。( )A.对B.错参考答案:B27. 分支限界法与回溯法的求解目标相同。( )A.错误B.正确参考答案:A28. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D29. Hive提供了大数据批处理计算功能。( )A.正确B.错误参考答案:B30. UMP系通过( )来实现实现数据路由的基本功能A.Controller服务器B.Proxy服务器C.愚公系统D.Agent服务器参考答案:B31. SQL Azure体系结构层中哪层是存储节点集群,相当于普通Web系统的数据库层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:C32. 在Storm的工作流程中,对于Supervisor说法错误的是( )。A.Supervisor会去Zookeeper集群上认领自己的TaskB.Supervisor节点首先将提交的Topology进行分片,分成一个个Task,分配给相应的NimbusC.Supervisor会将Task和相关的信息提交到Zookeeper集群上D.Supervisor会通知自己的Worker进程进行Task的处理参考答案:B33. 优点是性能好(高并发),灵活性高,复杂性低,数据结构灵活 提供嵌入式文档功能的数据库是( )A.列族数据库B.键值数据库C.图数据库D.文档数据库参考答案:D34. Storm框架是实时计算系统,所以不能使用数据库。( )A.正确B.错误参考答案:B35. HBase的客户端并不依赖Master,而是通过( )来获得Region位置信息,大多数客户端甚至从来不和Master通信,这种设计方式使得Master负载很小A.MasterB.RegionC.ZookeeperD.Chubby参考答案:C36. 已得到广泛应用的分布式文件系统主要包括( )。A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD37. 图的结构通常表示为:G(V,E),其中,E是图G中( )A.顶点B.顶点的集合C.边D.边的集合参考答案:D38. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值。( )T.对F.错参考答案:F39. Scala中元组是是一种可迭代的键值对(key/value)结构。( )A.正确B.错误参考答案:B40. UMP系统的哪个功能实现了负载均衡( )A.读写分离B.资源隔离C.资源调度D.可扩展参考答案:A41. Spark支持使用( )语言编写应用A.ScalaB.PythonC.JavaD.R参考答案:ABCD42. 流计算的采集阶段需要保证( )。A.实时性B.大量C.低延迟D.稳定可靠参考答案:ACD43. HDFS中当一些数据节点不可用时,会导致一些数据块的副本数量( )冗余因子A.大于B.小于C.等于D.大于等于参考答案:B44. 关于分布式并行编程,以下说法错误的是( )。A.“摩尔定律”,CPU性能大约每隔12个月翻一番B.“摩尔定律”逐渐失效后,人们开始借助于分布式并行编程来提高程序性能C.分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力D.谷歌公司最先提出了分布式并行编程模型MapReduce参考答案:A45. UMP系统借助于( )来实现高效和可靠的协同工作A.MnesiaB.LVSC.RabbitMQD.Zookeeper参考答案:D46. 以下哪个函数可以求两个RDD交集 ( )A.unionB.substractC.intersectionD.cartesian参考答案:C47. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD48. ( )是Spark的数据挖掘算法库A.Spark CoreB.BlinkDBC.GraphXD.Mllib参考答案:D49. PairRDD的( )方法,可以把两个RDD中键相同的元素组合在一起,合并为一个RDD。A.joinB.unionC.substractD.intersection参考答案:A50. 以下是机器学习的常用算法的是( )A.回归算法B.聚类算法C.降维算法D.分类算法参考答案:ABCD
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号