南开大学21春《并行程序设计》离线作业1辅导答案57-

南开大学21春并行程序设计离线作业1辅导答案1. 两个矩阵相乘，将矩阵划分为固定大小的子矩阵，变元素运算为子矩阵运算，是使用利用数据访问的_达到更高的cache命中率。A.时间局部性B.空间局部性C.计算局部性D.混合局部性参考答案：A2. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖参考答案：D3. OpenMP是( )的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答案：C4. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案：C5. CPU时钟频率1GHz，每个时钟周期两个计算单元可执行4条指令，内存延迟125ns，进行向量点积运算，无cache情况下，计算能力为( )A.8MFlopsB.125MFlopsC.1GFlopsD.4GFlops参考答案：A6. _执行pthread_sem_post操作，当前线程会唤醒阻塞线程。_执行pthread_sem_post操作，当前线程会唤醒阻塞线程。A.当信号量已加锁时B.当信号量为0时C.当信号量已超过阈值时D.当信号量已销毁时参考答案：B7. 全球500强超算在CPU、网络等硬件上越来越体现出采用( )的趋势。A.特殊硬件B.通用硬件C.非公开硬件D.廉价硬件参考答案：B8. MMX有( )个专用寄存器。A.4B.8C.16D.32参考答案：B9. 记并行时间为T，串行时间为T&39;，处理器数量为p，并行效率E的定义是_。记并行时间为T，串行时间为T，处理器数量为p，并行效率E的定义是_。A.T-TB.T/TC.T/pTD.pT-T参考答案：C10. 现代CPU中都具有指令乱序执行功能，其目的不包括_。现代CPU中都具有指令乱序执行功能，其目的不包括_。A.消除指令依赖，更充分利用多流水线B.提高cache效率C.改变计算结果D.消除资源冲突参考答案：C11. 静态线程编程模式的缺点是_。静态线程编程模式的缺点是_。A.线程管理开销高B.系统资源利用率低C.线程负载不均D.线程通信开销高参考答案：B12. 在使用条件变量之后必须对其进行_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：D13. Flynn分类法中，下面哪种体系结构在实际中几乎没有意义?( )A.SISDB.SIMDC.MISDD.MIMD参考答案：C14. OpenMP不能实现的是( )。A.负责创建和管理线程B.隐藏栈管理C.提供同步机制D.自动并行化参考答案：D15. 伸缩性的含义不包括( )。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案：A16. 在矩阵乘法之前将第二个矩阵转置，其作用不包括_。A.增大访存空间局部性B.减少运算次数C.优化SIMD访存D.以上皆错参考答案：B17. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D18. 单程序多数据流模式是针对_架构的。A.SISDB.SIMDC.MISDD.MIMD参考答案：D19. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B20. 在编写使用n个线程进行n个数求和的OpenMP的程序时采用临界区技术，则多线程版本_串行版本。A.肯定快于B.肯定慢于C.可能快于D.以上皆错参考答案：B21. 对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。A.竞争条件B.数据依赖C.资源泄漏D.死锁参考答案：D22. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.#include B.#pragma omp parallelC.#ifdef _OPENMPD.#define _OPENMP参考答案：C23. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案：C24. SSE寄存器A和B中元素分别为A1 A2 A3 A4和B1 B2 B3 B4(均为由低到高)，则执行C=blend(A，B，0x05)后，C中元素为( )。A.A1 A2 B3 B4B.B1 B2 A3 A4C.A1 B2 A3 B4D.B1 A2 B3 A4参考答案：D25. R*=1.3; G+=1.8; B+=1.2; X*=1.1，此程序片段可进行SIMD并行化吗?( )A.不可以B.可以C.不确定D.以上皆错参考答案：A26. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案：A27. 在分布式内存架构编程中，进程间不能( )。A.进行通信B.进行同步C.发送和接收消息D.通过读写变量交换数据参考答案：D28. 和一对多广播对应的组通信操作是( )。A.多对一收集B.多对多收集C.多对一归约D.多对多归约参考答案：C29. MPI基本原语不包括_。A.MPI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案：A30. SSE intrinsics _mm_load_pd命令的功能是_。SSE intrinsics _mm_load_pd命令的功能是_。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案：C31. OpenMP编译指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案：A32. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案：D33. 每个SSE寄存器宽度为_位。每个SSE寄存器宽度为_位。A.32B.64C.128D.256参考答案：C34. SIMD并行化时遇到对齐问题，高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理到对齐边界，然后进行SIMD对齐访存参考答案：D35. 每个MMX寄存器宽度为_位。每个MMX寄存器宽度为_位。A.32B.64C.128D.256参考答案：B36. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C37. 循环需满足特定条件才能进行OpenMP并行化，下列哪个条件是错误的?( )A.循环变量应为带符号整数B.终止检测必须是与循环不变量的比较C.循环变量每步递增/递减一个循环不变量D.循环体无进/出控制流参考答案：B38. 在使用互斥量之后必须对其进行_。在使用互斥量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：D39. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A40. 以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案：B41. OpenMP主要是通过( )来更高层抽象的多线程编程。A.设计实现新的语言B.为现有语言提供大量库函数C.为现有语言扩展编译指示D.新编译器实现自动并行化参考答案：C42. SSE有_个专用寄存器。A.4B.8C.16D.33参考答案：B43. 主线程创建了4个从线程然后打印一条信息，从线程打印各自的线程号，未使用任何同步，则主线程打印的消息和从线程打印的线程号的相对顺序_。A.必然主线程前、从线程后B.必然从线程前、主线程后C.必然相互交织D.各种顺序皆有可能参考答案：D44. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_store_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点数D.未对齐标量存双精度浮点数参考答案：C45. n个数求和的串行程序，通过一个循环将每个数累加到全局变量sum中，其多线程版本简单将循环范围改变为每个线程负载的范围，存在的问题是_。n个数求和的串行程序，通过一个循环将每个数累加到全局变量