AIX 系统集群打补丁造成节点驱逐

2021-07-23 00:00:00 集群 这个问题 安装 补丁 驱逐

这个系统安装了很久,中间七七八八出过好几个问题,因为不是自己负责,只是再群里看了下讨论,感觉第三方的工程师以及技术支持技术还是到位的,
后来在安装2021年4月份的RU后,一个节点集群出现驱逐,第三方通过重启网卡临时解决了,但是还是担心后续系统是不是稳定,后续经过工程师检查
发现补丁一边为rolling状态,也就是非正常状态。这个问题还是得解决。

针对打完补丁造成节点集群出现驱逐问题,经过分析发现4月份RU存在已知的问题,很可能是bug导致
参考如下文档
Oracle Database 12.2.0.1 Release Update & Release Update Revision April 2021 Known Issues (Doc ID 12202104.9)
在这个文档中Oracle给出了已知问题描述和解决方法
If the GI RU 12.2.0.1.210420 has been applied, then when using Real Application Clusters (RAC), ONMD and OCSSD may crash cue to a network issue.
解决方法
To prevent the problem, Oracle recommends that you apply interim one-off Patch 30118419 to correct this problem(s) in the RU indicated in the third column of this row.
这个问题就是通过one-off Patch 30118419 解决

后面的操作就是rollback之前安装的补丁,包括RU和one-off,在打one-offPatch 30118419,后再打RU,RU打补丁成功,没有再出现集群驱逐的情况。

下面是现场工程师的记录
补丁安装的问题:
1)集群补丁状态检查为 "ROLLING PATCH" ,我们早上做了修复,
crsctl query crs activeversion -f
2)应该是bug 30118419 导致补丁安装集群出现驱逐,导致 opatchauto 补丁失败(打补丁过程中遇到一些问题,担心环境有问题,下次安装补丁是否还会出现问题)。
3)后面的补丁手工安装步骤是不正确的,虽然补丁打上了,但是后面会不会出问题,现在也不好说。

建议:
1)选择1套环境进行补丁回滚,进程 one-off patch 修复后再进行 RU 20210420 安装,好处是,验证我们在打补丁的过程中遇到的是这个bug ,
2)如果在按照正确的方法在操作一次,成功了我们后面对环境就可以放心了,
3)手工安装步骤的步骤是错误的,后面会不会出问题,现在也不好说,这个做一次之后这个问题可以避免。

先回退之前的one-offPatch 30118419再重新打
32540149
/grid/12.2/OPatch/opatchauto rollback /home/grid/32579057/32540149
/grid/12.2/OPatch/opatchauto apply /home/grid/32579057/32540149

/grid/12.2/crs/install/rootcrs.sh -deconfig -force
/grid/12.2/root.sh

/grid/12.2/bin/crsctl start crs


one-off patch 安装简要步骤:


/grid/12.2/crs/install/rootcrs.sh -prepatch

/grid/12.2/OPatch/opatch apply -oh /grid/12.2 -local /home/grid/30118419/30118419


/oracle/12.2/OPatch/opatch apply -oh /oracle/12.2 -local /home/grid/30118419/30118419


# /grid/12.2/rdbms/install/rootadd_rdbms.sh

/grid/12.2/crs/install/rootcrs.sh -postpatch


打RU
$ /grid/12.2/OPatch/opatch apply -oh /grid/12.2 -local /home/grid/32579057/32540149/31802727
$ /grid/12.2/OPatch/opatch apply -oh /grid/12.2 -local /home/grid/32579057/32540149/32507738
$ /grid/12.2/OPatch/opatch apply -oh /grid/12.2 -local /home/grid/32579057/32540149/32231681
$ /grid/12.2/OPatch/opatch apply -oh /grid/12.2 -local /home/grid/32579057/32540149/26839277
$ /grid/12.2/OPatch/opatch apply -oh /grid/12.2 -local /home/grid/32579057/32540149/32542421


$ /home/grid/32579057/32540149/31802727/custom/scripts/prepatch.sh -dbhome /oracle/12.2

$ /oracle/12.2/OPatch/opatch apply -oh /oracle/12.2 -local /home/grid/32579057/32540149/31802727
$ /oracle/12.2/OPatch/opatch apply -oh /oracle/12.2 -local /home/grid/32579057/32540149/32507738

$ /home/grid/32579057/32540149/31802727/custom/scripts/postpatch.sh -dbhome /oracle/12.2

# /grid/12.2/rdbms/install/rootadd_rdbms.sh


# /grid/12.2/crs/install/rootcrs.sh -postpatch

相关文章