AIX+HACMP+orcle+rac一节点故障重启

系统环境:AIX 5.3 / HACMP 5.5.0.8 /ORACLE和RAC都是10.0.2.5故障现象:2013年12月23日 5:40左右rac一个节点主机被自动重启,系统报ent1网卡错误,该网卡是channel en4网卡的其中一块,这网卡是rac的私网心跳网卡,错信息如下:zfyw_paydb02:/#errpt -dH  IDENTIFIER TIM...显示全部
系统环境:AIX 5.3 / HACMP 5.5.0.8 /ORACLE和RAC都是10.0.2.5
故障现象:2013年12月23日 5:40左右rac一个节点主机被自动重启,系统报ent1网卡错误,该网卡是channel en4网卡的其中一块,这网卡是rac的私网心跳网卡,错信息如下:
zfyw_paydb02:/#errpt -dH  
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
4FC185D1   1223054113 T H ent1           TRANSMIT FAILURE
=====================================================
zfyw_paydb02:/#errpt -aj 4FC185D1
---------------------------------------------------------------------------
LABEL:          GOENT_TX_ERR
IDENTIFIER:     4FC185D1
Date/Time:       Mon Dec 23 05:41:27 BEIST 2013
Sequence Number: 1286
Machine Id:      00C9CD464C00
Node Id:         zfyw_paydb02
Class:           H
Type:            TEMP
Resource Name:   ent1            
Resource Class:  adapter
Resource Type:   14108902
Location:        U789D.001.DQD5D3G-P1-C4-T2
VPD:            
      2-Port 10/100/1000 Base-TX PCI-X Adapter:
        Part Number.................03N5297
        FRU Number..................03N5297
        EC Level....................H13845
        Manufacture ID..............YL1021
        Network Address.............00215E8ADF0B
        ROM Level.(alterable).......DV0210
Description
TRANSMIT FAILURE
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
FILE NAME
line: 2266 file: goent_tx.c
PCI ETHERNET STATISTICS
04AC B586 0063 081B 0000 0001 0000 0001 0000 0000 0000 0000 0000 0000 0000 0118
0000 000D 7F2C D294 0000 3922 B5DC 13F4 0000 0004 AAE3 5656 0000 0000 0001 7378
0000 000C 49F8 DEF9 0000 32EB 614D 5F99 0000 0000 0000 0000 0000 0003 0007 CA38
0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0861 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 BB87 1830 0068 0C00 0000 0000 01A0 0000 0000
0230 0156 0009 F007 0443 0009 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000
DEVICE DRIVER INTERNAL STATE
2222 2222 49F8 DEF9 0000 00C8
SOURCE ADDRESS
0021 5E8A DF0B
我也看到有类似的一个帖子出现,但没有了下文,我和那个帖子的问题特别相似,从nmon监控上卡cpu、mem、i/o都没有特大的波动,请教各位专家,是什么造成心跳网卡出现临时性报错的呢,为什么会重启了节点呢?收起
参与11

查看其它 9 个回答xiao8577034的回答

xiao8577034xiao8577034系统运维工程师重庆市公安局交通巡逻警察总队
先确认AIX硬件是否异常,这种情况一般都是RAC故障引起的
我遇到过类似,请先确认AIX及HACMP都正常,再修改RAC心跳相关的时间参数
互联网服务 · 2013-12-23
浏览2446

回答者

xiao8577034
系统运维工程师重庆市公安局交通巡逻警察总队

xiao8577034 最近回答过的问题

回答状态

  • 发布时间:2013-12-23
  • 关注会员:1 人
  • 回答浏览:2446
  • X社区推广