本篇文章給大家分享的是有關怎樣預測硬盤的失效,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
我們都知道,目前大部分的主流廠商都宣傳自己可以實現HDD的故障預測,這樣可以在HDD發生故障前,提前把數據預COPY出來,避免RAID重構帶來的性能下降和數據丟失風險。
大家都知道,HDD的固件里面都有硬盤參數提供的一些數據,叫Self-Monitoring, Analysis, and Reporting Technology (SMART)。所有的陣列廠商都說,根據S.M.A.R.T參數來預測硬盤的失效,但沒有一個廠商肯告訴你采用哪些參數,啥算法做出的預測。其實,這個預測算法才是真正的核心機密,對預測的準確性非常關鍵。硬盤沒有壞你預測壞了,對客戶和自己都是損失,因為需要提前更換硬盤。硬盤快壞了你預測不出來,給客戶帶來風險。這些預測,需要大量的使用去驗證,而且不斷完善預測算法。我們看到很多新進入存儲的廠商也宣傳具備預測硬盤失效的功能,但沒有一定的積累是很難發揮價值的。
今天帶大家了解一下美國的云存儲服務商BACKBLAZE的研究成果。BACKBLAZE現在有4萬塊硬盤,100PB的數據,因此,他們的統計還是有一點說服力的。
BACKBLAZE不知道大家是否還有印象,西瓜哥以前分享過他們對各個硬盤廠商的壞盤率的統計數據。簡單看,好像希捷的硬盤故障率最高,后來很多大V寫了各種分析,希捷應該也做了緊急公關,因此,應該對希捷沒有造成太大的影響,否則希捷Q3的增長不會這么快。
下面這個統計其實對大家還是有一些價值,第一年的硬盤故障率是5.1%,第二年是1.4%,第三年急升到11.8%??磥?,云存儲的服務商的硬盤3年后故障率老高了。當然,由于業務模型不同,企業應用應該沒有惡化這么厲害。
SMART一共有200多個參數,由于沒有一個標準,很多參數都是廠商定義的,因此,存儲廠商必須和硬盤生產廠商深度合作,挖掘里面對自己有用的信息。
BACKBLAZE經過研究發現,200多個參數里面,只有下面5個參數和硬盤失效強相關。BACKBLAZE也只用這5個參數來預測硬盤是否失效。
比如這SMART 187,表示不可恢復的讀錯誤個數(ECC也不行恢復)。這個值大于0,硬盤就快失效了。這個值越大,平均年故障率最高。
而SMART 12這個參數,代表硬盤電源開關的次數。BACKBLAZE發現,硬盤的電源開關次數和硬盤故障率沒有線性關系,因此沒有用這個參數來預測硬盤故障。
這個其實也給很多做冷存儲的廠商吃了一顆定心丸,因為這些存儲有休眠的功能,當某些機柜的硬盤不用的時候,可以讓硬盤休眠,甚至可以關掉電源。原來還擔心頻繁開關電源對硬盤壽命產生影響,現在看好像關系不大。
今天分享這些知識,就是告訴大家,其實HDD的水很深。所有新進入存儲的廠商,都會在HDD的使用上交過很多學費。因此,也給大家幾個建議:
從可靠性考慮,存儲大廠都要求必須購買自己的硬盤。因為不同硬盤廠商不同固件對SMART值的定義都不同。很多用戶都不理解,為啥都是希捷硬盤,不能我自己去購買?了解這些知識,相信你就理解了這個行業的“潛規則”;
如果有可能,盡量選擇出貨量大的廠商。只有出貨量大,才能和硬盤廠商進行深度的合作,拿到SMART數據的更多細節。并且出貨量大,說明這些存儲廠商的硬盤壽命預測功能已經得到市場的驗證,其預測算法應該是比較有效的。
當然,如果用SDD,就沒有這么麻煩的問題了,這也是SDD的優勢,壽命預測更加準確。
以上就是怎樣預測硬盤的失效,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。