直接答案

要在部署前读取NVMe SSD的SMART数据,请在Linux或Windows上使用'nvme smart-log'命令检索SMART/健康信息日志。需要检查的关键字段:关键警告(必须为0)、已用百分比(应<1%)、可用备用(应为100%)、温度(在工作范围内)和介质错误(0)。还要检查通电小时数和通电次数是否有先前使用的迹象。始终验证供应商特定日志并更新固件。

关键结论

  • 始终检查关键警告字段;健康硬盘必须为0。
  • 新NVMe SSD的已用百分比应<1%,可用备用为100%。
  • 使用供应商特定日志获取详细NAND健康信息;部署前更新固件。

NVMe SMART数据简介

NVMe SSD通过NVMe-MI(管理接口)以日志页的形式暴露健康信息,其中最关键的是SMART/健康信息日志(日志标识符2)。该日志提供标准化的字段,如温度、已用百分比和可用备用容量,这些对于部署前验证至关重要。

在生产环境中部署NVMe SSD之前,评估其健康状态至关重要。新硬盘应显示最小磨损,但存储条件、搬运或先前测试等因素可能影响指标。本指南涵盖需要检查的关键SMART属性、如何解读它们以及平台特定注意事项。

访问NVMe SMART数据

NVMe SMART数据可通过Linux上的nvme-cli、Windows上的nvme.exe或供应商特定工具等标准命令行工具获取。例如,在Linux上,命令'sudo nvme smart-log /dev/nvme0'返回SMART/健康信息日志。在Windows上,'nvme smart-log /device nvme0'提供类似输出。确保安装最新的NVMe驱动程序以获得准确读数。

一些企业服务器提供带外管理(如iDRAC、iLO、IPMI),无需启动操作系统即可查询NVMe SMART数据。这在暂存环境中进行部署前检查非常有用。始终验证SSD上的固件版本是否为最新,因为旧固件可能报告错误或不完整的数据。

部署前健康检查的关键SMART属性

NVMe SMART/健康信息日志包括几个关键字段:温度(开尔文)、可用备用(剩余备用块百分比)、已用百分比(基于NAND磨损的寿命估计)和关键警告(指示温度超限或可靠性降级等问题的位掩码)。对于新硬盘,已用百分比应为0%或非常接近0,可用备用应为100%。

其他重要字段包括通电小时数、通电次数和意外关机次数。虽然新硬盘的通电小时数可能很低,但任何显著的通电次数或意外关机次数都可能表明先前处理不当。还要检查介质和数据完整性错误字段;任何非零值都表明可能存在NAND问题。错误信息日志(日志标识符1)可提供最后命令错误的详细信息。

解读已用百分比和可用备用

已用百分比是供应商特定的寿命估计,通常基于NAND编程/擦除周期和磨损均衡。新硬盘应为0%。然而,一些制造商可能对硬盘进行预条件写入,导致非零但较低的值(例如0.1%)。可接受阈值取决于供应商;请查阅数据表。新硬盘的已用百分比超过1%可能需要进一步调查。

可用备用表示剩余NAND备用块的百分比。企业级NVMe SSD通常从100%开始,随着坏块替换而减少。新硬盘应显示100%。如果较低,硬盘可能经过大量测试或物理损坏。一些平台将其报告为原始备用容量的百分比,因此99%的值仍可接受,但低于90%的值应仔细检查。

关键警告和温度监控

关键警告字段是一个位掩码:位0表示可靠性降级,位1表示温度超限,位2表示备用容量低于阈值,位3表示NVM子系统可靠性降级,位4表示只读模式。对于健康的新硬盘,此字段应为0。任何非零值意味着硬盘存在活动警告,不应在未经调查的情况下部署。

温度以开尔文报告,应在硬盘的工作范围内,通常消费级为0-70°C,企业级为0-85°C。部署前温度读数应为环境温度;如果硬盘刚通电,温度可能较低。通过短期压力测试监控温度,确保其保持在限制内。高温会加速磨损并导致降速。

供应商特定的SMART属性和日志页

除了标准日志外,NVMe硬盘可能支持供应商特定的日志页(例如日志标识符0xC0-0xFF),提供详细的NAND健康、擦除计数和坏块表。例如,三星PM9A3硬盘提供包含磨损均衡信息的“供应商唯一”日志。这些未标准化,因此必须参考制造商文档。使用'nvme get-log'并指定适当的日志标识符来访问它们。

一些供应商还提供“设备健康”日志,包括写入放大因子和总写入字节数等额外指标。虽然部署前非必需,但这些有助于评估硬盘是否被使用过。始终检查供应商数据表中推荐的部署前检查。对于来自较小制造商的硬盘,请求详细的SMART解读指南。

平台特定考虑和常见陷阱

不同的服务器平台可能以不同方式解读SMART数据。例如,某些BIOS版本可能无法正确初始化NVMe硬盘,导致温度或通电小时数错误。始终将服务器固件和NVMe控制器驱动程序更新到最新版本。此外,一些RAID控制器(如Broadcom Tri-Mode)可能将NVMe硬盘置于控制器之后,这会改变SMART访问方法。

常见陷阱包括错误解读已用百分比字段:它不是剩余寿命的线性指标,可能突然跳变。此外,可用备用字段是快照;单次低读数可能是瞬态条件导致。始终在断电重启后多次读取。如果硬盘显示任何意外值,请与同一批次的其他硬盘比较。如果差异持续存在,请联系供应商更换。

部署前验证工作流程

推荐的工作流程:1) 检查物理状况是否有损坏。2) 将硬盘安装在已知良好的插槽并通电。3) 使用操作系统或带外工具检索SMART数据。4) 验证关键警告=0、已用百分比<1%、可用备用=100%、温度在范围内、通电小时数<10(除非经过预测试)、介质错误=0。5) 运行短期压力测试(例如使用fio进行顺序写入)并重新检查温度和错误。6) 如果所有检查通过,硬盘即可部署。

记录每个硬盘的基线SMART值。这有助于未来的故障分析。对于大规模部署,考虑使用自动化脚本收集和比较SMART数据。如果任何硬盘未通过检查,请隔离并请求退货授权。请记住,SMART数据是预测工具,而非保证;某些故障可能毫无预警地发生。然而,彻底的部署前检查可显著降低早期故障风险。

常见问题

NVMe SMART数据中的已用百分比是什么意思?

已用百分比是供应商基于NAND磨损对硬盘寿命消耗的估计。新硬盘应为0%或非常低(例如0.1%)。它不是线性指标;请查阅制造商文档进行解读。

如何在无操作系统的服务器上访问NVMe SMART数据?

使用带外管理工具,如Dell iDRAC、HPE iLO或IPMI,它们可以通过存储控制器或直接查询NVMe SMART数据。某些工具要求NVMe硬盘位于特定插槽。

如果关键警告字段非零,我该怎么办?

非零的关键警告表示存在活动问题。不要部署该硬盘。检索错误信息日志,检查温度、备用容量和可靠性状态。如果硬盘是新的,请联系制造商进行退货授权。

核验来源

作出采购决定前,请核对最新制造商数据表与目标服务器或存储平台指南。

相关资源