适用于:
Oracle Database - Enterprise Edition - 版本 11.2.0.1 和更高版本本文档所含信息适用于所有平台
用途
本文档的目的是总结可能导致 RAC 实例崩溃的最常见的5种问题以及较早版本(如 10.2.0.5)报告的常见问题。
适用范围
问题 1 到 5 仅适用于 11gR2 RAC。<版本>的问题 仅适用于提及的版本。
详细信息
问题 1:ORA-29770 LMHB 终止实例
症状:
LMON (ospid: 31216) waits for event 'control file sequential read' for 88 secs. Errors in file /oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc (incident=2329): ORA-29770: global enqueue process LMON (OSID 31216) is hung for more than 70 seconds LMHB (ospid: 31304) is terminating the instance. 或 LMON (ospid: 8594) waits for event 'control file sequential read' for 118 secs. ERROR: LMON is not healthy and has no heartbeat. ERROR: LMHB (ospid: 8614) is terminating the instance.
可能的原因:
LMON 等待读取控制文件,导致LMHB 使实例崩溃 Bug 11890804 LMHB crashes instance with ORA-29770 after long "control file sequential read" waits
解决方案:
Bug 8888434 已在 11.2.0.2 及以上版本 中得到修正 Bug 11890804 已在 11.2.0.3及以上版本中得到修正 请参阅 Document 1197674.1, Document 8888434.8 和 Document 11890804.8 了解详细信息
问题 2:ORA-481 导致的实例崩溃
症状:
1. PMON (ospid: 12585): terminating the instance due to error 481 LMON 进程跟踪文件显示: Begin DRM(107) (swin 0) * drm quiesce <kjxgmrcfg: Reconfiguration started, type 6 LMS<x> 进程跟踪文件显示: 2011-07-05 10:53:44.218905 : Start affinity expansion for pkey 81885.0 2011-07-05 10:53:44.498923 : Expand failed: pkey 81885.0, 229 shadows traversed, 153 replayed 1 retries 2. PMON (ospid: 4915562): terminating the instance due to error 481 Sat Oct 01 19:21:37 2011 System state dump requested by (instance=2, osid=4915562 (PMON)), summary=[abnormal instance termination].
可能的原因:
1. Bug 11875294 LMS gets stuck during DRM, Instance crashed with ORA-481 2. HAIP 在部分集群节点上离线,或者 HAIP 在所有集群节点上都在线,但是无法通过其进行通信,例如ping操作失败。
解决方案:
1. Bug 11875294 已在 11.2.0.3 中得到修正,绕过问题的方法是: 通过设置 _gc_read_mostly_locking=FALSE 来禁用read mostly。 请参阅 < Document 11875294.8> 了解详细信息。 2. 修正 HAIP 问题,请参阅 Document 1383737.1
问题 3:ORA-600[kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]、ORA-600 [kjbrasr:pkey] 导致的实例崩溃
症状:
由于 ORA-600 [kjbmprlst:shadow]、ORA-600[kjbrref:pkey]、ORA-600[kjbmocvt:rid]、[kjbclose_remaster:!drm] 或 ORA-600 [kjbrasr:pkey] 导致 RAC 实例崩溃
可能的原因:
这一组 ORA-600 与 DRM(dynamic resource remastering)消息或 read mostly 锁有关。涉及多个 bug,包括: Document 9458781.8 Missing close message to master leaves closed lock dangling crashing the instance with assorted Internal error Document 9835264.8 ORA-600 [kjbrasr:pkey] / ORA-600 [kjbmocvt:rid] in RAC with dynamic remastering Document 10200390.8 ORA-600[kjbclose_remaster:!drm] in RAC with fix for 9979039 Document 10121589.8 ORA-600 [kjbmprlst:shadow] can occur in RAC Document 11785390.8 Stack corruption / incorrect behaviour possible in RAC Document 12408350.8 ORA-600 [kjbrasr:pkey] in RAC with read mostly locking Document 12834027.8 ORA-600 [kjbmprlst:shadow] / ORA-600 [kjbrasr:pkey] with RAC read mostly locking
解决方案:
上述大部分 bug 都在 11.2.0.3 中得到了修正,安装 11.2.0.3 补丁集应该可以避免这些 bug,除了 Bug 12834027,此 bug 将在 12.1 中进行修正。绕过这个 bug 的方法是: 禁用 DRM 或 禁用read mostly 例如:设置 "_gc_read_mostly_locking"=FALSE 有关每个 bug 的说明和解决方案,请参阅上述相关文档。
问题 4:启用flash cache后产生kcldle/kclfplz/kcbbxsv_l2/kclfprm,导致实例崩溃
症状:
警报日志中报告了 ORA-7445[kcldle] ORA-7445[kclfplz] ORA-7445[kcbbxsv_12] ORA-744[kclfprm]
可能的原因:
它们是由不同的 bug 引起的,而这些bug都归结为 基础bug Bug 12337941 Dumps on kcldle / kclfplz / kcbbxsv_l2 / kclfprm using flash
解决方案:
此 bug 已在 11.2.0.3 中得到修正,请安装补丁集或使用以下方法绕过这个问题:禁用 Flash Cache 请参阅 Document 12337941.8 ,了解更多详细信息
问题 5:LMS 报 ORA-600 [kclpdc_21]错误,实例崩溃
症状:
警报日志中报告了 ORA-600[kclpdc_21]
可能的原因:
Document 10040035.8 LMS gets ORA-600 [kclpdc_21] and instance crashes
解决方案:
此 bug 已在 11.2.0.3 中得到修正
10.2.0.5 的问题
症状:
1. LMS进程 报 ORA-600[kjccgmb:1]错误导致实例崩溃, LMS<n>: terminating instance due to error 484 2. 由于以下原因导致实例崩溃: Received an instance abort message from instance 2 (reason 0x0) Please check instance 2 alert and LMON trace files for detail. LMD0: terminating instance due to error 481
可能的原因:
1. Bug 11893577 - LMD CRASHED WITH ORA-00600 [KJCCGMB:1] 2. Bug 9577274 - 1OFF:UNABLE TO VIEW REQUEST OUTPUT AND LOG AFTER APPLYING FIX TO ISSUE IN BUG 9400041
解决方案:
1. 对于 10.2.0.5.0,安装合并的补丁 12616787 2. 对于 10.2.0.5.5,安装合并的补丁 13470618 撰写本文时,只有特定平台才有可用补丁。对于任何 10.2.0.5.x 版本,不需要同时安装上述两个补丁。