导读:本期聚焦于小伙伴创作的《RAC节点1重启后,节点1的资源为何没有failover到节点2?》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《RAC节点1重启后,节点1的资源为何没有failover到节点2?》有用,将其分享出去将是对创作者最好的鼓励。

在Oracle RAC集群的运维场景中,节点1重启后资源未正常failover到节点2是常见的高可用相关问题,下面我们先通过一张示例图了解RAC集群的基本结构。

RAC节点1重启后,节点1的资源为何没有failover到节点2?

常见原因排查

1. 资源故障转移策略配置错误

RAC中每个资源都有对应的故障转移属性,如果配置不当会导致资源无法自动切换。可以通过CRSCTL命令查看资源的故障转移配置:

# 查看指定资源的属性,替换resource_name为实际资源名
crsctl stat res resource_name -p | grep "FAILOVER"

如果输出中FAILOVER的值为0,说明该资源未开启自动故障转移,需要手动修改配置:

# 开启资源的自动故障转移
crsctl modify res resource_name -attr "FAILOVER=1"

2. 集群心跳检测异常

RAC集群依赖网络心跳和磁盘心跳检测节点状态,如果心跳链路在节点1重启期间出现异常,集群可能无法正确判断节点1的状态,导致不会触发资源转移。可以通过以下命令检查心跳状态:

# 查看集群心跳状态
crsctl check cluster -all
# 查看网络心跳详情
oifcfg getif

如果心跳网络存在丢包、中断的情况,需要先修复网络问题,再重启集群服务让配置生效。

3. 资源依赖关系未正确设置

部分资源存在依赖关系,比如数据库实例依赖ASM实例,如果ASM实例的故障转移配置未同步,或者依赖的资源未先完成切换,会导致上层资源无法转移。可以查看资源的依赖关系:

# 查看资源的依赖关系,替换resource_name为实际资源名
crsctl stat res resource_name -p | grep "DEPENDENCIES"

如果存在未正确配置的依赖项,需要调整依赖顺序,确保底层资源先完成故障转移。

4. 节点驱逐机制触发异常

如果节点1重启是因为被集群主动驱逐,而驱逐的原因未被正确处理,集群可能会将节点1标记为不稳定状态,暂时不允许资源重新分配或者转移到其他节点。可以查看集群的告警日志定位驱逐原因:

# 查看集群告警日志路径,根据安装路径调整
tail -f $GRID_HOME/log/hostname/alerthostname.log

常见的驱逐原因包括节点负载过高、IO超时、内存不足等,解决对应的问题后,手动触发资源重新分配即可。

问题验证方法

完成上述排查和修复后,可以通过以下方式验证资源是否能正常failover:

  • 手动重启节点1的集群服务,观察资源是否自动转移到节点2
  • 查看资源运行状态,确认资源已经在节点2上正常启动
  • 验证业务连接是否正常,确认资源切换后业务不受影响

如果以上步骤都验证通过,说明资源failover的问题已经解决,集群高可用能力恢复正常。

RAC节点failover资源切换集群高可用修改时间:2026-05-24 23:36:01

免责声明:已尽一切努力确保本网站所含信息的准确性。网站部分内容来源于网络或由用户自行发表,内容观点不代表本站立场。本站是个人网站免费分享,内容仅供个人学习、研究或参考使用,如内容中引用了第三方作品,其版权归原作者所有。若内容触犯了您的权益,请联系我们进行处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。前端、网络、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握网站开发与运维所需的核心技术栈。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端逻辑,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。