集群中的故障恢复

故障恢复是 HCL Domino®服务器在出现故障后清除故障并重新启动的一种能力。故障恢复在 Domino® 集群中很有用。如果没有可以故障转移到的 Domino® 服务器,故障恢复仍旧可以确保用户能够连续访问其数据。即使用户故障转移到其他集群服务器,故障恢复仍然可以增加可用性,因为有故障的服务器会再次变得可用。此外,根据所设置的工作负载均衡参数,有些用户在打开新数据库时会故障返回到原始服务器。

关于此任务

如果同时使用操作系统集群和 Domino® 集群,则判断是否要使用故障恢复取决于用户配置操作系统集群的方式。如果将操作系统集群配置成仅在出现硬件故障时进行故障转移,则故障恢复能正常运行。故障恢复将重新启动当前服务器上的 Domino®,并且不会发生操作系统故障转移。

如果将操作系统集群配置成在出现硬件故障和软件错误时进行故障转移,则不需要故障恢复,因为操作系统集群会重新启动集群中其他服务器上的 Domino®。实际上,应禁用故障恢复,以便当操作系统集群重新启动 Domino® 时,Domino 不会再次自行重新启动。

缺省情况下,故障恢复处于禁用状态。可以在服务器文档中将其启用。

过程

  1. Domino® Administrator 或 Web Administrator 中,单击配置选项卡。
  2. 任务窗格中,展开服务器,然后单击所有服务器文档
  3. 结果窗格中,选择所需的“服务器”文档并单击编辑服务器,然后单击基本选项卡。
  4. 故障恢复部分的发生故障/崩溃后自动重新启动服务器字段中,单击已启用
  5. 可选: 填写下列所需的任意字段。
    • 服务器发生故障/崩溃后运行此脚本字段中,输入清除脚本的名称。
      注: 不要尝试通过该字段激活 NSD,您可以从运行 NSD 以收集诊断信息字段来激活 NSD。
    • 运行 NSD 以收集诊断信息字段中,选择已启用,以便在系统出现故障或崩溃时激活 NSD。
    • 清除脚本/NSD 最大执行时间字段中,输入终止之前清除脚本要运行的最长时间。可以指定的最大时间为 1,800 秒。
    • 最大错误限制字段中,输入在指定时期内允许重新启动的最多次数。如果重新启动次数超过了此限制,服务器将不重新启动。
    • 将故障通知通过邮件发送给字段中,输入服务器每次重新启动时接收电子邮件通知的人员或组的名称。
  6. 对“服务器”文档进行其他所需的更改,然后单击保存并关闭