资源预览内容
第1页 / 共32页
第2页 / 共32页
第3页 / 共32页
第4页 / 共32页
第5页 / 共32页
第6页 / 共32页
第7页 / 共32页
第8页 / 共32页
第9页 / 共32页
第10页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
资料编码产品名称IBM小型机使用对象产品线产品版本编写部门集成产品部资料版本V1.0IBM小型机故障处理指导书拟 制:日 期:审 核:日 期:审 核:日 期:批 准:日 期:华 为 技 术 有 限 公 司版权所有 侵权必究华为机密,未经许可不得扩散IBM小型机故障处理指导书文档密级:内部公开修订记录日期修订版本描述作者2005-3-28V1.0整合HACMP故障处理到文档中李静IBM小型机故障处理指导书文档密级:内部公开目 录第1章故障的定义1第2章故障信息的收集12.1收集故障信息对于判断诊断故障原因修复系统非常重要12.2系统故障记录(errorlog)12.3控制面板上的LED 代码32.4SMS (System Management Service) 故障记录42.5MAIL42.6运行故障诊断程序(Diagnostic) 对系统硬件进行检查和诊断42.7其他用于收集系统信息的命令4第3章硬件故障定位方法73.1IPL 流程73.2系统的启动顺序:73.3系统不能启动83.4系统停在551555或55783.5CDE图形界面挂死93.6系统dump10第4章7133-D40SSA磁盘柜的故障定位12第5章软件故障定位方法125.1文件系统空间不够125.2检查文件系统的完整性135.3查看卷组信息(lsvg-lvg_name)135.4检查内存交换区(pagingspace)使用率(lsps-s)135.5小型机内存泄漏问题13第6章常用的系统状态查询命令15第7章网络故障定位方法167.1网络不通的诊断过程167.2网络配置的基本方法16第8章HACMP环境下的排错178.1了解问题的存在178.2判断问题的出处17第9章附常用命令列表19华为机密,未经许可不得扩散关键词:故障处理 IBM AIX HACMP摘 要:缩略语清单:参考资料清单:IBM小型机故障处理指导书文档密级:内部公开第1章 故障的定义根据以下这些方面来考虑故障定位:弄清楚系统发生了什么问题系统现在能做什么不能做什么故障什么时候发生的有没有做平时不同的操作故障有没有规律定时还是不定时发生的频率有多高是一台机器出现故障还是多台机器故障故障现象是否相同最近有没有做改动如安装了新的硬件软件改变了系统的一些设置第2章 故障信息的收集2.1 收集故障信息对于判断诊断故障原因修复系统非常重要2.2 系统故障记录(errorlog)errdemon 进程在系统启动时自动运行记录包括硬件软件及其他操作信息故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析errpt 命令的使用(普通用户权限也可使用)#errpt |more 列出简短出错信息ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION192AC071 0723100300 T 0 errdemon Error logging turned off0E017ED1 0720131000 P H mem2 Memory failure9DBCFDEE 0701000000 T 0 errdemon Error logging turned on038F2580 0624131000 U H scdisk0 UNDETERMINED ERRORAA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATIONTIMESTAMP: MMDDHHMMYY (月日时分年T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视C 分类: H 硬件; S 软件; O 用户; U未知#errpt -d H 列出所有硬件出错信息#errpt -d S 列出所有软件出错信息#errpt -aj ERROR_ID 列出详细出错信息# errpt -aj 0502f666 - ERROR_ID用大小写均可例LABEL: SCSI_ERR1ID: 0502F666Date/Time: Jun 19 22:29:51Sequence Number: 95Machine ID: 123456789012Node ID: host1Class: HType: PERMResource Name: scsi0Resource Class: adapterResource Type: hscsiLocation: 00-08VPD: 选高级诊断Advance Diagnostic) 选问题诊断Problem Determination) 或选系统检查System Verification)(选PD 会对系统错误记录进行分析)diag运行后会给出SRN 代码故障设备名称及百分比地址代码等对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析2.7 其他用于收集系统信息的命令lsdev -C 系统设备信息#lsdev -Cc diskhdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drivehdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drivehdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drivelspv 查看物理卷信息#lspvhdisk0 0007821160af3d76 rootvghdisk1 000782117f571294 rootvghdisk2 0000000045c45bde datavglsvg 查看卷组信息#lsvg datavgVOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458bVG STATE: active PP SIZE: 4 megabyte(s)VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabytMAX LVs: 256 FREE PPs: 1 (4 megabytes)LVs: 3 USED PPs: 2168 (8672 megabytOPEN LVs: 2 QUORUM: 2TOTAL PVs: 1 VG DESCRIPTORS: 2STALE PVs: 0 STALE PPs: 0ACTIVE PVs: 1 AUTO ON: yesMAX PPs per PV: 2032 MAX PVs: 16#lsvg -l rootvgrootvg:LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINThd5 boot 1 1 1 closed/syncd N/Alv00 jfs 51 102 1 closed/stale /ibmcxxlv01 jfs 1 1 1 open/syncd /cics_regionslv02 jfs 4 4 1 open/syncd /var/mqmlslpp 查看文件组信息# lslpp -L |grep 23100020devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本lsattr 查看设备参数设置# lsattr -El ent2busio 0x7fffc00 Bus I/O address Falsebusintr 9 Bus interrupt level Falseintr_priority 3 Interrupt priority
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号