如何檢查伺服器硬碟健康數據和錯誤歷史

直接答案

要檢查伺服器硬碟健康，使用Linux上的smartctl或Windows上的CrystalDiskInfo等S.M.A.R.T.工具。關鍵檢查屬性：重新分配扇區計數（應為零）、當前待處理扇區計數（零）和溫度（低於60°C）。查看錯誤日誌是否有增長錯誤，並運行供應商特定診斷。設置自動監控，對關鍵閾值發出警報。

重點結論

監控S.M.A.R.T.屬性如重新分配扇區計數、當前待處理扇區計數和溫度；非零值通常表示即將發生故障。
在Linux上使用smartctl或在Windows上使用供應商工具訪問詳細的健康數據和錯誤日誌。
設置帶有閾值的自動監控並集成到警報系統，以便及早捕獲故障。

硬碟健康監控簡介

伺服器硬碟驅動器（HDD）是存儲和檢索數據的關鍵組件。隨著時間的推移，機械磨損、環境因素和製造缺陷可能導致故障。使用S.M.A.R.T.（自我監控、分析和報告技術）和錯誤日誌進行主動健康監控對於數據中心可靠性至關重要。本指南介紹如何訪問和解讀這些數據源，重點關注企業級SATA和SAS硬碟。

現代硬碟報告各種健康指標。然而，並非所有屬性都同等重要，閾值因製造商而異。始終與驅動器的官方數據表交叉參考。目標是識別早期退化跡象，例如重新分配扇區或待處理錯誤，在它們導致停機之前。

理解S.M.A.R.T.屬性

S.M.A.R.T.屬性是反映硬碟健康的數值。關鍵屬性包括：重新分配扇區計數（原始值表示已重新映射的扇區數；任何非零值可能表示即將發生故障）、當前待處理扇區計數（等待重新映射的扇區；應為零）、不可糾正扇區計數（無法恢復的扇區）和溫度（超過60°C會加速磨損）。其他重要屬性包括啟動時間、啟停計數和加載/卸載循環計數。

每個屬性都有一個歸一化值（通常為0-100或0-253）和一個閾值。當歸一化值低於閾值時，驅動器被認為即將發生故障。然而，原始值通常提供更多洞察。例如，一個驅動器上的重新分配扇區計數原始值為10可能可接受，而另一個則可能表明問題。始終檢查製造商的解釋。

在Linux上訪問S.M.A.R.T.數據

在Linux上，smartmontools包提供smartctl和smartd。要查看驅動器的S.M.A.R.T.數據（例如/dev/sda），運行：smartctl -a /dev/sda。這將顯示所有屬性、錯誤日誌和自檢結果。使用smartctl -H /dev/sda快速檢查健康狀態。對於持續監控，配置smartd在屬性超過閾值時發送警報。

對於SAS驅動器，smartctl使用不同的命令：smartctl -a -d sat /dev/sda（如果使用SAT直通）或smartctl -a -d scsi /dev/sda。SAS驅動器報告的屬性較少，但包括重要的讀寫錯誤計數器。注意，某些虛擬化環境可能無法正確傳遞S.M.A.R.T.數據。

在Windows Server上訪問S.M.A.R.T.數據

在Windows Server上，使用CrystalDiskInfo、HDDScan或內置WMIC命令等工具。例如，wmic diskdrive get status,model返回狀態（OK、Pred Fail等）。然而，WMIC可能不顯示所有屬性。第三方工具通常提供更多細節。對於企業環境，供應商特定工具如Dell OpenManage或HP Smart Storage Administrator集成了S.M.A.R.T.監控。

PowerShell也可以通過Storage Spaces中的Get-PhysicalDisk檢索S.M.A.R.T.數據，但這有限。對於全面分析，使用專用HDD工具。始終確保工具支持驅動器接口（SATA或SAS）和固件版本。

解讀錯誤日誌

S.M.A.R.T.錯誤日誌記錄最近的錯誤，例如讀/寫失敗和尋道錯誤。SMART錯誤日誌（通過smartctl -l error訪問）顯示最後幾個錯誤及其時間戳和LBA地址。錯誤數量增長表明驅動器即將發生故障。SMART自檢日誌（smartctl -l selftest）顯示離線測試和短測試的結果。

對於SAS驅動器，使用smartctl -l error -d scsi /dev/sda。SAS日誌包括感知鍵和附加感知碼，可以精確定位問題，如介質錯誤或硬件故障。定期查看這些日誌有助於檢測可能尚未影響正常操作的間歇性問題。

供應商特定健康工具

主要硬碟製造商提供專有工具：Seagate SeaTools、WD Data Lifeguard Diagnostics、Toshiba Storage Diagnostic Tool和HGST（現為WD）Drive Fitness Test。這些工具通常運行擴展測試並提供通過/失敗結果。它們還可以更新固件，這可能解決已知問題。始終使用供應商官方網站上的最新版本。

對於企業級驅動器，供應商特定工具可能提供更深入的洞察，例如記錄磁頭飛行高度或振動水平。然而，這些工具可能不兼容所有RAID控制器。在RAID環境中，檢查控制器的管理軟件（例如LSI MegaRAID Storage Manager）以獲取驅動器健康信息。

主動監控和警報

使用Linux上的smartd或Windows任務計劃程序設置自動監控，並編寫解析S.M.A.R.T.屬性的腳本。定義關鍵屬性的閾值：例如，如果重新分配扇區計數原始值在一週內增加超過5，或溫度超過55°C，則發出警報。與監控系統（如Nagios、Zabbix或Prometheus）集成。

同時監控驅動器的通電小時數（POH）。企業級硬碟的額定壽命通常為100-200萬小時MTBF，但實際壽命各不相同。更換超過5年或顯示持續錯誤增長的驅動器。保持固件更新並記錄任何異常以進行趨勢分析。

常見陷阱和誤解

一個常見錯誤是僅依賴S.M.A.R.T.整體健康狀態（PASSED/FAILED）。許多驅動器在沒有警告的情況下發生故障，並且某些屬性可能直到為時已晚才觸發故障閾值。始終檢查原始值和趨勢。另一個陷阱是忽略待處理扇區；它們通常變成重新分配扇區或導致讀取錯誤。

此外，請注意RAID控制器可能屏蔽S.M.A.R.T.數據。使用直通模式或檢查控制器自身的健康報告。最後，不要混淆S.M.A.R.T.和診斷測試；短自檢可能通過，而驅動器存在潛在問題。結合S.M.A.R.T.監控和定期擴展測試以獲得最佳結果。

結論

檢查伺服器硬碟健康數據和錯誤歷史是維護數據完整性和正常運行時間的重要實踐。通過理解S.M.A.R.T.屬性、錯誤日誌和使用供應商工具，管理員可以及早檢測故障。實施自動監控和定期審查以最小化風險。始終參考驅動器的官方文檔以獲取特定閾值和推薦操作。

請記住，沒有監控工具可以預測所有故障。維護備份並制定更換策略。如需進一步指導，請參考製造商的支持資源或聯繫像元芯內存這樣的可信供應商，獲取企業級存儲解決方案。

常見問題

對於硬碟健康，最重要的S.M.A.R.T.屬性是甚麼？

重新分配扇區計數至關重要。任何非零原始值表示驅動器遇到壞扇區並已重新映射。計數增長通常表明即將發生故障。

在RAID控制器上能否訪問S.M.A.R.T.數據？

可以，但取決於控制器。某些RAID卡會阻止直接S.M.A.R.T.訪問。使用直通模式或控制器自身的管理軟件查看驅動器健康。

服務器硬碟應該多久運行一次擴展自檢？

對於關鍵驅動器，每月運行一次擴展自檢。對於非關鍵驅動器，每季度一次足夠。始終在低I/O時段安排測試以避免性能影響。

核實來源

作出採購決定前，請核對最新製造商數據表及目標伺服器或儲存平台指南。

SNIA 儲存標準