如何检查服务器硬盘健康数据和错误历史

直接答案

要检查服务器硬盘健康，使用Linux上的smartctl或Windows上的CrystalDiskInfo等S.M.A.R.T.工具。关键检查属性：重新分配扇区计数（应为零）、当前待处理扇区计数（零）和温度（低于60°C）。查看错误日志是否有增长错误，并运行供应商特定诊断。设置自动监控，对关键阈值发出警报。

关键结论

监控S.M.A.R.T.属性如重新分配扇区计数、当前待处理扇区计数和温度；非零值通常表示即将发生故障。
在Linux上使用smartctl或在Windows上使用供应商工具访问详细的健康数据和错误日志。
设置带有阈值的自动监控并集成到警报系统，以便及早捕获故障。

硬盘健康监控简介

服务器硬盘驱动器（HDD）是存储和检索数据的关键组件。随着时间的推移，机械磨损、环境因素和制造缺陷可能导致故障。使用S.M.A.R.T.（自我监控、分析和报告技术）和错误日志进行主动健康监控对于数据中心可靠性至关重要。本指南介绍如何访问和解读这些数据源，重点关注企业级SATA和SAS硬盘。

现代硬盘报告各种健康指标。然而，并非所有属性都同等重要，阈值因制造商而异。始终与驱动器的官方数据表交叉参考。目标是识别早期退化迹象，例如重新分配扇区或待处理错误，在它们导致停机之前。

理解S.M.A.R.T.属性

S.M.A.R.T.属性是反映硬盘健康的数值。关键属性包括：重新分配扇区计数（原始值表示已重新映射的扇区数；任何非零值可能表示即将发生故障）、当前待处理扇区计数（等待重新映射的扇区；应为零）、不可纠正扇区计数（无法恢复的扇区）和温度（超过60°C会加速磨损）。其他重要属性包括启动时间、启停计数和加载/卸载循环计数。

每个属性都有一个归一化值（通常为0-100或0-253）和一个阈值。当归一化值低于阈值时，驱动器被认为即将发生故障。然而，原始值通常提供更多洞察。例如，一个驱动器上的重新分配扇区计数原始值为10可能可接受，而另一个则可能表明问题。始终检查制造商的解释。

在Linux上访问S.M.A.R.T.数据

在Linux上，smartmontools包提供smartctl和smartd。要查看驱动器的S.M.A.R.T.数据（例如/dev/sda），运行：smartctl -a /dev/sda。这将显示所有属性、错误日志和自检结果。使用smartctl -H /dev/sda快速检查健康状态。对于持续监控，配置smartd在属性超过阈值时发送警报。

对于SAS驱动器，smartctl使用不同的命令：smartctl -a -d sat /dev/sda（如果使用SAT直通）或smartctl -a -d scsi /dev/sda。SAS驱动器报告的属性较少，但包括重要的读写错误计数器。注意，某些虚拟化环境可能无法正确传递S.M.A.R.T.数据。

在Windows Server上访问S.M.A.R.T.数据

在Windows Server上，使用CrystalDiskInfo、HDDScan或内置WMIC命令等工具。例如，wmic diskdrive get status,model返回状态（OK、Pred Fail等）。然而，WMIC可能不显示所有属性。第三方工具通常提供更多细节。对于企业环境，供应商特定工具如Dell OpenManage或HP Smart Storage Administrator集成了S.M.A.R.T.监控。

PowerShell也可以通过Storage Spaces中的Get-PhysicalDisk检索S.M.A.R.T.数据，但这有限。对于全面分析，使用专用HDD工具。始终确保工具支持驱动器接口（SATA或SAS）和固件版本。

解读错误日志

S.M.A.R.T.错误日志记录最近的错误，例如读/写失败和寻道错误。SMART错误日志（通过smartctl -l error访问）显示最后几个错误及其时间戳和LBA地址。错误数量增长表明驱动器即将发生故障。SMART自检日志（smartctl -l selftest）显示离线测试和短测试的结果。

对于SAS驱动器，使用smartctl -l error -d scsi /dev/sda。SAS日志包括感知键和附加感知码，可以精确定位问题，如介质错误或硬件故障。定期查看这些日志有助于检测可能尚未影响正常操作的间歇性问题。

供应商特定健康工具

主要硬盘制造商提供专有工具：Seagate SeaTools、WD Data Lifeguard Diagnostics、Toshiba Storage Diagnostic Tool和HGST（现为WD）Drive Fitness Test。这些工具通常运行扩展测试并提供通过/失败结果。它们还可以更新固件，这可能解决已知问题。始终使用供应商官方网站上的最新版本。

对于企业级驱动器，供应商特定工具可能提供更深入的洞察，例如记录磁头飞行高度或振动水平。然而，这些工具可能不兼容所有RAID控制器。在RAID环境中，检查控制器的管理软件（例如LSI MegaRAID Storage Manager）以获取驱动器健康信息。

主动监控和警报

使用Linux上的smartd或Windows任务计划程序设置自动监控，并编写解析S.M.A.R.T.属性的脚本。定义关键属性的阈值：例如，如果重新分配扇区计数原始值在一周内增加超过5，或温度超过55°C，则发出警报。与监控系统（如Nagios、Zabbix或Prometheus）集成。

同时监控驱动器的通电小时数（POH）。企业级硬盘的额定寿命通常为100-200万小时MTBF，但实际寿命各不相同。更换超过5年或显示持续错误增长的驱动器。保持固件更新并记录任何异常以进行趋势分析。

常见陷阱和误解

一个常见错误是仅依赖S.M.A.R.T.整体健康状态（PASSED/FAILED）。许多驱动器在没有警告的情况下发生故障，并且某些属性可能直到为时已晚才触发故障阈值。始终检查原始值和趋势。另一个陷阱是忽略待处理扇区；它们通常变成重新分配扇区或导致读取错误。

此外，请注意RAID控制器可能屏蔽S.M.A.R.T.数据。使用直通模式或检查控制器自身的健康报告。最后，不要混淆S.M.A.R.T.和诊断测试；短自检可能通过，而驱动器存在潜在问题。结合S.M.A.R.T.监控和定期扩展测试以获得最佳结果。

结论

检查服务器硬盘健康数据和错误历史是维护数据完整性和正常运行时间的重要实践。通过理解S.M.A.R.T.属性、错误日志和使用供应商工具，管理员可以及早检测故障。实施自动监控和定期审查以最小化风险。始终参考驱动器的官方文档以获取特定阈值和推荐操作。

请记住，没有监控工具可以预测所有故障。维护备份并制定更换策略。如需进一步指导，请参考制造商的支持资源或联系像元芯内存这样的可信供应商，获取企业级存储解决方案。

常见问题

对于硬盘健康，最重要的S.M.A.R.T.属性是什么？

重新分配扇区计数至关重要。任何非零原始值表示驱动器遇到坏扇区并已重新映射。计数增长通常表明即将发生故障。

在RAID控制器上能否访问S.M.A.R.T.数据？

可以，但取决于控制器。某些RAID卡会阻止直接S.M.A.R.T.访问。使用直通模式或控制器自身的管理软件查看驱动器健康。

服务器硬盘应该多久运行一次扩展自检？

对于关键驱动器，每月运行一次扩展自检。对于非关键驱动器，每季度一次足够。始终在低I/O时段安排测试以避免性能影响。

核验来源

作出采购决定前，请核对最新制造商数据表与目标服务器或存储平台指南。

SNIA 存储标准