更改服务器主机名是日常运维中常见的操作,但是不少用户在修改服务器名后发现CRS(Cluster Ready Services)集群服务无法正常启动,导致整个Oracle集群无法对外提供服务,影响业务系统的正常运行。

问题核心原因分析
CRS服务启动时会校验多个维度的节点信息,修改服务器名后常见的不匹配场景有以下几种:
- OCR(Oracle Cluster Registry)中存储的节点名称和当前服务器名不一致,导致服务识别节点失败
/etc/hosts文件或者DNS解析中的主机名和当前实际主机名不匹配,集群网络通信校验不通过- CRS的节点配置文件
crsconfig_params中保留的是旧服务器名,未同步更新 - 集群的 votedisk 或者 OCR 中记录的节点信息未被正确更新,存在版本冲突
故障排查与解决步骤
步骤1:确认当前服务器名与OCR记录的一致性
首先查看当前服务器的主机名,然后对比OCR中存储的节点信息:
# 查看当前服务器主机名 hostname # 查看OCR中记录的节点信息,需要以grid用户执行 ocrconfig -export /tmp/ocr_export.log grep -i "nodename" /tmp/ocr_export.log
如果发现OCR中的节点名和当前主机名不一致,需要先停止所有集群服务,再重新配置OCR的节点信息。注意如果OCR是镜像模式,需要先确保所有OCR副本都处于可用状态。
步骤2:修正网络解析配置
检查/etc/hosts文件,确保其中配置的主机名、IP映射和当前服务器名完全一致,同时确认/etc/sysconfig/network(CentOS/RHEL系统)或者/etc/hostname(Ubuntu/Debian系统)中的主机名配置正确:
# 查看/etc/hosts配置,确保当前主机名和IP对应正确 cat /etc/hosts # CentOS/RHEL系统查看网络配置中的主机名 cat /etc/sysconfig/network | grep HOSTNAME # Ubuntu/Debian系统查看主机名配置 cat /etc/hostname
如果/etc/hosts中存在旧主机名的记录,需要删除或者修改为当前正确的主机名,同时确保所有集群节点的/etc/hosts配置都同步更新,避免节点间通信校验失败。
步骤3:更新CRS节点配置文件
CRS的配置文件crsconfig_params中存储了节点初始化的相关参数,需要同步更新旧主机名的记录:
# 查找crsconfig_params文件位置,通常在$GRID_HOME/crs/install/目录下 find $GRID_HOME -name crsconfig_params # 编辑该文件,将文件中所有旧主机名替换为当前新主机名 vi $GRID_HOME/crs/install/crsconfig_params
修改完成后保存退出,注意不要修改其他无关参数,避免引发其他配置错误。
步骤4:重新启动CRS服务
完成上述配置修正后,尝试重新启动CRS服务,观察启动日志排查是否还有报错:
# 以root用户执行,启动CRS服务 crsctl start crs # 查看CRS启动状态 crsctl check crs # 查看集群节点状态 crsctl status resource -t
如果启动过程中仍然报错,可以查看$GRID_HOME/log/节点名/crsd/crsd.log日志文件,根据具体报错信息进一步排查,常见的问题还有OCR权限不足、 votedisk 损坏等场景。
修改服务器名前的规范操作建议
为了避免更改服务器名后出现CRS无法启动的问题,建议在修改前按照以下流程操作:
- 先停止所有运行在集群上的数据库实例和业务服务
- 停止整个集群的CRS服务,确保所有节点都停止后再修改主机名
- 修改主机名后,先同步更新所有节点的
/etc/hosts、主机名配置文件 - 重新配置OCR和 votedisk 的节点信息,再启动CRS服务
- 启动完成后验证集群所有资源状态正常,再恢复业务服务
如果修改主机名前没有停止CRS服务,很可能造成OCR信息损坏,此时需要先通过OCR备份恢复配置,再按照上述步骤修正参数,才能正常启动服务。