资源预览内容
第1页 / 共35页
第2页 / 共35页
第3页 / 共35页
第4页 / 共35页
第5页 / 共35页
第6页 / 共35页
第7页 / 共35页
第8页 / 共35页
第9页 / 共35页
第10页 / 共35页
亲,该文档总共35页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
中国科学院合肥分院浪潮集群使用浪潮集群使用规范范Inspur group2集群的集群的软硬件配置硬件配置Inspur group硬件信息硬件信息管理节点管理节点NF5220*1 2*146G SAS raid1NF5220*1 2*146G SAS raid1登录节点登录节点NF5220*1 2*146G SAS raid1NF5220*1 2*146G SAS raid1I/OI/O节点节点NF5220*1 2*146G SAS raid1NF5220*1 2*146G SAS raid1网格节点网格节点NF5220*2 5*300G SAS raid5NF5220*2 5*300G SAS raid5计算节点计算节点NX7140N*112 64G SSDNX7140N*112 64G SSD胖节点胖节点NF560D2*2 1*146G SASNF560D2*2 1*146G SAS存储存储AS400 8*1T raid5 AS400 8*1T raid5 (1 1 热备盘)热备盘)管理网络管理网络H3CH3C千兆以太网千兆以太网计算网络计算网络Qlogic 9120Qlogic 9120软件信息软件信息操作系统操作系统RedHat AS 5 update3 RedHat AS 5 update3 (内核(内核2.6.18-1282.6.18-128)编译器编译器/ /数学库数学库Intel C+/Fortran Intel C+/Fortran 编译器编译器/ Intel MKL/ Intel MKL数学核心库数学核心库应用软件应用软件Gaussian vasp Wien2kGaussian vasp Wien2kMPIMPI实现实现intel mpi 3.1intel mpi 3.1作业调度作业调度TSJM/PBSTSJM/PBS集群管理集群管理浪潮天梭监管软件浪潮天梭监管软件2.12.13集群物理拓扑集群物理拓扑图Inspur group图例:图例:图例:图例:4Inspur group内容提要内容提要账号的申请和使用登录、退出系统连接属主目录使用计算任务投放存储空间使用软件安装及使用规范关机和启动维护人员联系方式5一:账号的申请和使用一:账号的申请和使用1. 严禁使用集群账号及计算、存储资源进行与账号所属项目无关的任何活动和行为,违者必究并将视影响、损失轻重予以锁闭账号等处理。2. 主机资源申请,联系系统管理员进行申请。管理员联系方式见本指南维护人员联系方式。3. 建议避免公用账号,避免项目移交的时候数据混乱。4. 人员发生调动时,请调动人员做好数据移交,并及时通知管理员申请权限改动。5. 临时用户项目结束或阶段性完成时,请及时通知管理员清理/锁闭/注销临时账号及项目组成员账号。6. 注销账号时请整理好用此账号建立的所有数据,做好移交及备份清理工作,并至少提前一天通知管理员。7. 数据和程序(非公用程序)文件一律存放于自己的属主目录下,计算临时文件存放于工作目录下(lustre),计算临时文件不得存放于自己的属主目录下。8. 个人账号只限个人使用,严禁将帐号和密码泄露给外单位和项目组外人员,公共组账号由管理员负责控制和使用分发。9. 密码应定期(三个月)更换,建议8位以上并注意加强密码复杂度。Inspur group6二:登录、退出系统连接二:登录、退出系统连接1. 登录方式 SSH: 缺省提供,该登录方式有一定强度的加密安全保证 软件可以使用Putty等2. 文件上传与下载 SFTP: 缺省提供,暂不提供FTP方式 软件可以使用SecureFX、WinSCP等3. 登录系统后的必要操作 使用mail命令,检查系统发送给用户的通知和信息 在属主目录下使用命令 du -kh | sort -n ,查看异常或较大的文件,并做相应的清理Inspur group7二:登录、退出系统连接二:登录、退出系统连接4. 长时间误操作,请结束访问,避免占用系统资源5. 结束系统访问必要操作 非停电、断网等意外设备故障导致,严禁在终端上直接关闭访问窗口或直接关闭终端电源实现结束系统访问。 SSH访问必需主动使用exit命令一到多次确保最终结束连接。 Inspur group8登陆天梭集群系统 ssh -l (your count) 202.127.207.132第一次登陆设置环境变量 vi /.bashrc source /opt/intel/impi/3.1/bin64/mpivars.sh source /opt/intel/cce/10.1.021/bin/iccvars.sh source /opt/intel/fce/10.1.021/bin/ifortvars.sh source /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.sh 保存退出后 source /.bashrc使用命令 du -kh | sort -n ,查看异常或较大的文件2024/8/20Inspur group二:登录、退出系统连接二:登录、退出系统连接9三:属主目录使用三:属主目录使用1. 属主目录为登录后缺省进入的目录: /home/2. 属主目录用于系统存放管理用户的登陆和所使用软件配置文件,严禁用户随意存放执行程序的临时文件和非相关的文件,避免占用和耗费宝贵的系统存储资源,影响登陆连接服务。每次登陆后在属主目录下使用命令 du -kh | sort n主动检查。异常或较大的文件并作相应清理。 3. 属主目录可以安装个人所需软件,如果软件所占空间较大,请联系管理员,修改属主目录文件配额。Inspur group10四:计算任务投放四:计算任务投放1.不论任务有多紧急,请务必先检测提交程序的正确性以及资源占用的合理适度,通过小批量测试数据预估占用CPU、内存和存储资源,强烈建议进行代码优化以减少CPU、内存、I/O资源占用,及时释放申请的内存,优化文件目录读写访问等I/O功能,避免资源和计算时间的浪费。 2. 大规模资源占用(占用实际内存超过1/4)或紧急任务时务必先联系管理员协调。 3. 计算任务提交后,应注意定时查看自己任务状态,当需要杀死自己进程或删除任务时,以用qdel命令, 如果无法删除必要时联系主机组协助。4. 应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。5. 不能在属主目录(登陆目录)下存放任务临时文件,必须在工作目(lustre)录中存放临时文件。6. 不能在登陆节点上直接运行任务,只能在登陆节点做简单的 vi编辑、查看、管理自己的数据以及程序。7. 刀片节点单个任务不能超过24GB内存。大内存任务投放至fuque上。Inspur group11PBS基本组件pbs command:用于提交、监视、修改和删除作业。pbs server: 提供基本的批处理服务,例如接收/创建一个批处理作业,管理维护作业队列,管理输出结果等。pbs mom:是一个守护进程,从pbs server处接收作业后放入其执行队列中等待执行。scheduler(maui): 对用户提交的作业进行调度Inspur group四:计算任务投放四:计算任务投放12Torque应该如何使用?熟悉Torque提供的几个命令编写作业提交脚本了解使用注意事项PBS命令qsub 作业提交脚本qstat 参数qdel 作业号Inspur group四:计算任务投放四:计算任务投放13PBS命令详解提交作业的命令 qsub 作业提交脚本此命令执行后,会给出个作业号查询作业命令 qstat 参数 其中参数可为:-q 列出系统队列信息-Q:列出队列的一些限制信息-an:列出队列中的所有作业-r:列出正在运行的作业-f jobid:列出指定作业在信息 -Qf queue:列出指定队列的所有信息-B:列出PBS服务器的相关信息Inspur group四:计算任务投放四:计算任务投放14PBS命令详解作业删除命令 qdel 作业号其中作业号为qsub提交后系统所给出的一个号码注意事项 1、非root用户只能查看、删除自己提交的作业 2、在提交作业时一定要根据自己的使用的机器数估算内存,把其写进作业提交脚本里。 3、root用户无法提交作业4、检查PBS脚本是否正确,任务投放到testque上 Inspur group四:计算任务投放四:计算任务投放15Inspur group四:计算任务投放四:计算任务投放作业脚本的编写基本参数#!/bin/bash#PBS -d /lustre/ISSP2/dyliu/workdir#PBS -o /lustre/ISSP2/dyliu/output#PBS -e /lustre/ISSP2/dyliu/error#PBS -l nodes=2:ppn=8#PBS -l walltime=240:00:00#PBS -l mem=4gb#PBS -q allque16Inspur group四:计算任务投放四:计算任务投放配置MPI环境(VASP) ulimit -s unlimitedsource /opt/intel/Compiler/11.1/046/bin/intel64/iccvars_intel64.shsource /opt/intel/Compiler/11.1/046/bin/intel64/ifortvars_intel64.shsource /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.shsource /opt/intel/impi/3.1/bin64/mpivars.shEXEC=/opt/issp2/vasp_4.6.2817Inspur group四:计算任务投放四:计算任务投放配置MPI环境(VASP)NP=cat $PBS_NODEFILE | wc -lNN=cat $PBS_NODEFILE | sort | uniq | tee /tmp/nodes.$ | wc -lcat $PBS_NODEFILE /tmp/nodes.$sed -i s/$/-ib:8/ /tmp/nodes.$mpdboot -n $NN -f /tmp/nodes.$ -r sshmpiexec -genv I_MPI_DEVICE rdma -machinefile /tmp/nodes.$ -n $NP $EXECmpdallexitrm -f /tmp/nodes.$18Inspur group四:计算任务投放四:计算任务投放配置环境wien2kalias lsi=ls -aslp *.in*alias lso=ls -aslp *.ou*alias lsd=ls -aslp *.defalias lsc=ls -aslp *.cl*alias lss=ls -aslp *.sc*alias lse=ls -aslp *.erroralias pslapw=ps -ef |grep lapwalias cdw=cd $curdirexport EDITOR=xterm -e viexport SCRATCH=$curdir19Inspur group四:计算任务投放四:计算任务投放配置环境wien2kexport WIENROOT=/opt/issp2/wien2kexport W2WEB_CASE_BASEDIR=$curdirexport STRUCTEDIT_PATH=$WIENROOT/SRC_structeditor/binexport PDFREADER=acroreadexport PATH=$PATH:$WIENROOT:$STRUCTEDIT_PATH:.export OCTAVE_EXEC_PATH=$PATH:export OCTAVE_PATH=$STRUCTEDIT_PATH:export PATH=$PATH:$WIENROOT:.ulimit -s unlimitedalias octave=octave -p $OCTAVE_PATH20Inspur group四:计算任务投放四:计算任务投放配置环境wien2k EXEC=/opt/issp2/wien2k/runsp_lapw -ec 0.00001 -cc 0.00001 -i 400 -pcat $PBS_NODEFILE nodelist.$sed -i s/$/-ib/ nodelist.$echo # .machinesecho granularity:1 .machinesecho lapw0:sed -n 1p nodelist.$ .machinesfor i in cat nodelist.$do echo 1:$i .machinesdoneecho extrafine:1 .machinesrm -f nodelist.$EXEC21Inspur group四:计算任务投放四:计算任务投放配置环境Gaussian export GAUSS_EXEDIR=/opt/issp2/g03export g03root=/opt/issp2/export PATH=/opt/issp2/g03:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATHexport GAUSS_SCRDIR=/lustre/ISSP2/dyliu/g03tmpexport LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8source /opt/issp2/g03/bsd/g03.profile/opt/issp2/g03 $FILENAME22作业脚本注意事项为减少资源消耗,系统配置采用autofs,20分钟无操作,即会卸载目录,因此,在脚本中,需使用绝对路径,保证任务可以正常运行作业脚本参考VASPWien2kg03castepdmol3espressoInspur group四:计算任务投放四:计算任务投放23Inspur group提交作业查询作业(1)四:计算任务投放四:计算任务投放作作业管理管理24查询作业(2)Inspur group查询作业(3)作作业管理管理四:计算任务投放四:计算任务投放25删除作业Inspur group作作业管理管理四:计算任务投放四:计算任务投放26五:存储空间使用五:存储空间使用1. 系统使用lustre并行文件系统提高I/O性能,作为工作目录,由于其承载压力较大,容易出现硬盘故障,因此,该目录只存放计算中的临时文件,请及时将结果文件备份回属主目录中。 2. 属主目录只允许存放最终结果文件,严禁将运算临时目录指向属主目录,如违规操作,造成属主目录损坏,管理员有权追究其责任。 3. 属主目录有磁盘配额限制,如需扩大容量(例如需要安装专用软件),可向管理员申请协调。4. 应及时清除临时文件和计算中程序设计生成的监控跟踪记录文件。临时性文件存放不要超过三个月。重要数据应打包或再压缩存放。5. 工作目录(lustre)中存放的临时文件,请及时清除,管理员会定期清理长时间无访问文件,如因未及时备份而被误删,管理员不承担任何责任。6. 严禁在属主目录中存放无关文件,如发现违反,管理员将调低该用户磁盘配额。Inspur group27五:存储空间使用五:存储空间使用1. 工作目录:/lustre/yourid(总容量9.6TB ,单用户无容量限制,作为运算临时文件目录,请及时删除临时文件,30天无访问文件将被删除)2. 属主目录:/home/yourid(每用户默认限制容量为50GB,用于安装自用软件,备份文件,保存计算结果文件)Inspur group28六:软件安装及使用规范六:软件安装及使用规范1. 系统默认安装了部分公用软件,位置在 /opt 下,主要为Intel 编译器、MPI及数学库。2. 各研究室公用应用软件分别安装在 /opt/ 目录下 3. 用户如果有特殊软件需求,可以申请安装于公用目录下,也可以安装于自己属主目录下,如果该软件使用人员较多,推荐安装于公用目录下,减少对属主目录的空间占用。4. 使用时,应注意用户的环境变量,修改属主目录下的.bashrc文件,设置正确的用户环境变量。5. 作业脚本中,应使用软件绝对路径指明应用软件所在位置。6. 严禁未经许可擅自修改公用软件。Inspur group29六:软件安装及使用规范六:软件安装及使用规范用户环境变量配置举例:vi /.bashrc# g03 #export GAUSS_EXEDIR=/opt/issp2/g03export g03root=/opt/issp2export PATH=/opt/issp2/g03/:/opt/issp2/g03/linda7.2/opteron-linux-I8/bin:$PATHexport GAUSS_SCRDIR=/lustre/ISSP2/export LINDA_PATH=/opt/issp2/g03/linda7.2/opteron-linux-I8source /opt/issp2/g03/bsd/g03.profile# intel #source /opt/intel/impi/3.1/bin64/mpivars.shsource /opt/intel/cce/10.1.021/bin/iccvars.shsource /opt/intel/fce/10.1.021/bin/ifortvars.shsource /opt/intel/mkl/10.2.2.025/tools/environment/mklvarsem64t.shInspur group30六:软件安装及使用规范六:软件安装及使用规范名称名称版本版本安装路径安装路径Intel C/C+Intel C/C+Compiler (32bit/64bit)Compiler (32bit/64bit)10.1.02110.1.021/opt/intel/cc/10.1.021 /opt/intel/cc/10.1.021 /opt/intel/cce/10.1.021/opt/intel/cce/10.1.021Intel C/C+Intel C/C+Compiler Compiler 11.1.04611.1.046/opt/intel/Compiler/11.1/046/opt/intel/Compiler/11.1/046/Intel Fortran Compiler (32bit/64bit)Intel Fortran Compiler (32bit/64bit)10.1.02110.1.021/opt/intel/fc/10.1.021/opt/intel/fc/10.1.021/opt/intel/fce/10.1.021/opt/intel/fce/10.1.021Intel Fortran Compiler Intel Fortran Compiler 11.1.04611.1.046/opt/intel/Compiler/11.1/046/opt/intel/Compiler/11.1/046/Intel MKLIntel MKL9.1.0189.1.018/opt/intel/mkl/9.1.018/opt/intel/mkl/9.1.018Intel MKLIntel MKL10.1.2.02410.1.2.024/opt/intel/mkl/10.1.2.024/opt/intel/mkl/10.1.2.024Intel MKLIntel MKL10.2.2.02510.2.2.025/opt/intel/mkl/10.2.2.025/opt/intel/mkl/10.2.2.025Intel MPIIntel MPI3.13.1/opt/intel/impi/3.1/opt/intel/impi/3.1Perl Perl 5.8.85.8.8/usr/bin/usr/binPythonPython2.4.32.4.3/usr/bin/usr/binInspur group31六:软件安装及使用规范六:软件安装及使用规范Inspur group名称名称版本版本安装路径安装路径GaussianGaussianE01E01/opt/issp2/g03/opt/issp2/g03VASPVASP4.6.264.6.26/opt/issp2/vasp/opt/issp2/vaspMaterial StudioMaterial Studio4.44.4/opt/issp2/Accelrys/MaterialsStudio44/opt/issp2/Accelrys/MaterialsStudio44wien2kwien2k/opt/issp2/wien2k/opt/issp2/wien2k应用软件按照各研究室安装于/opt/目录下,如issp2:32七:关机和启动七:关机和启动1. 遇有紧急情况和计划性维护工作时,系统将关机,请各用户接获通知后,应注意保证投放的任务能够在预定的关机时间前结束。2. 系统重新启动后,具体应用项目组应安排人员及时启动相应服务。紧急关机并重新启动后,请各自应检查关机前计算任务的状态和结果,注意确保计算结果的无误和完整,并注意文件和目录(特别是高度重要的数据)是否出现的访问异常情况。Inspur group33八:维护人员联系方式八:维护人员联系方式1. 电话: 137392230322. 邮件: dyliutheory.issp.ac.cn gywutheory.issp.ac.cnInspur group34AQ&Inspur group352024/8/20Inspur group谢谢大家!Inspur group
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号