常见问题 HP/惠普服务器的常见问题>>

HP ProLiant 300/500/700 服务器 - 如何为内存相关问题进行故障排除?

发布时间:2010-07-26 10:47:24

答案:

详细情况

  1. 下载服务器的维护和维修指南。 请到惠普主页(或 SAW 主页,若用户可访问惠普内网)并搜索特定服务器型号的维护和维修指南。 例如,如果您需要针对 DL585G5 型号服务器的维护和维修指南,则搜索 DL585 Generation 5 Maintenance and Service Guide。

  2. 状态指示灯

    基于用户查看的 ProLiant 类型,可能为状态指示灯、DIMM 指示灯或 Systems Insight Display。 查看维护和维修指南以确定适用于特定服务器的说法。

    若服务器前边面板显示红色状态指示灯,则检查 DIMM 指示灯和/或 Systems Insight Display 是否存在错误。 请在下次重新启动过程中注意红色指示灯是否熄灭或在检测到错误时仅再次亮起红色指示灯。 并非所有内存错误均为持续出现的错误,因此重新启动后不一定会亮起红色指示灯。 继续执行故障排除故障对于确定是否为 DIMM 故障非常重要。

  3. 若服务器停止响应或系统崩溃,启动设备并记录下启动期间屏幕上显示的任意开机错误。

  4. 日志文件

    查看 Integrated Management 日志错误(可通过 HP Online Diagnostics、Integrated Management Log (IML) 查看器或 ILO 执行)。

    使用 HP Online Diagnostics 生成测试。 在测试页中选择 "高级" 并在顶部的下拉菜单中选择 "全部"。

    若服务器中未安装 HP Online Diagnostics,可通过HP Smart Start CD 中的 HP Offline Diagnostics 生成测试。 在测试页中选择 "高级" 并在顶部的下拉菜单中选择 "全部"。

    此测试列出安装于服务器的所有 DIMM。 还将列出 DIMM SPD 数据(内存内部序号检测装置)的信息。

    DIMM 发现不可修正的错误或可修正的错误跨阈存在,则将其写入 DIMM SPD 数据。 测试列出的 SPD 数据可显示 DIMM 之前是否存在不可修正的错误或跨阈的可修正错误。

    查看测试时请注意:不可修正的错误列于“多位数量”中,而可修正的跨阈凑无列于“单位阈数量”中。

    不会在此时清理 SPD 数据。 若将错误写入 SPD 数据的 DIMM 移至其他插槽或其他服务器,则因此错误已写入 DIMM 本身而跟随其移动。

    通过将获取自状态指示灯、开机错误、Integrated Management Log (IML) 及测试的数据相结合,可确定导致此问题的原因并确定发生故障的特定 DIMM。

  5. 离线诊断

    若无法通过上述步骤收集的数据确定存在故障的 DIMM,可通过从 HP Smart Start CD 启动服务器运行湖畔离线诊断的内存测试。

    选择快速测试和内存针对最常见的错误执行快速检查。 通过快速测试菜单执行一次环路内存测试仅需不到 5 分钟。

    选择自定义或完整测试以执行更多扩展测试。 大多数测试为针对 DIMM 的实时测试。 通过自定义或完整测试执行的 ECC 测试除外。 ECC 测试检查 IML 中的历史记录数据,若 IML 中记录了 ECC 错误会报错。

    这表示若之前出现过 ECC 错误且更换过 DIMM,但 IML 中仍保留此错误导致此测试可能仍显示此错误。 如需避免此情况发生,保存和清理 IML 是十分重要的;否则更换写入 ECC 错误的 DIMM 可能导致 IML 将实际错误标记为已修复。

  6. 背景信息和其他需要考虑的事情。

    若服务器配有大容量内容会经常发生可修正内存错误。 ECC 机构会修正此类错误并确保服务器不受影响。 若 DIMM 在有限时间段内出现可修正错误的数量不正常,则会记录为可修正错误阈数量过多且需在方便时更换特定 DIMM。

    不可修正内存错误会导致服务器停止响应或崩溃。 发生过不可修正错误的 DIMM 可能在重新启动后正常运行,但应尽快更换此 DIMM 以免导致服务器停止响应或崩溃。

    极少数情况下,其他类型问题可能导致错报内存错误。

    如需查看服务器是否受此类问题影响,请到以下 URL:

    点击此处访问技术文章: www.hp.com ,支持和驱动程序、下载驱动程序和软件并输入服务器名称。 选择适当的操作系统及 System ROMPAQ 并点击版本注释标签。 适用于特定服务器的所有 BIOS 版本版发布注释均在此处列出。 若服务器显示为受可能导致错报内存错误问题影响,则升级 BIOS 并密切监视此服务器是否发生新错误。

极少数情况下,其他类型问题可能导致错报内存错误。

如需查看服务器是否受此类问题影响,请到 www.hp.com,支持和驱动程序、下载驱动程序和软件并输入服务器名称。 选择适当的操作系统及 System ROMPAQ 并点击版本注释标签。 适用于特定服务器的所有 BIOS 版本版发布注释均在此处列出。

若服务器显示为受可能导致错报内存错误问题影响,则升级 BIOS 并密切监视此服务器是否发生新错误。

请注意:BIOS 升级无法删除已经列于测试的内存错误,因为直接通过 DIMM 本身读取此类错误。

注意:始终推荐升级至最新版本的 BIOS。

惠普正在与多个制造商协作提供惠普品牌的 DIMM。 惠普质量流程会确保所有相同部件编号的 DIMM 规格完全一致,且在 ProLiant 中使用不同制造商生产的 DIMM 完全没有问题。

向惠普致电时,可要求提供 DIMM 的高分辨率图片。 此图片可用于确认与 DIMM 制造相关的日期编码和其他数据。 此图片还可用于查看 DIMMs 是否为真品 HP DIMM(市场上可能销售伪造的 DIMM)。

我有HP Proliant ML的问题要问

本FAQ适用范围

下一步您可以:
查看HP/惠普服务器产品 >>
查看服务器产品 >>
查看HP/惠普服务器常见问题 >>