网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
成为超级会员,使用一键签到
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
08月28日
漏签
0
天
图那丁吧
关注:
29,802
贴子:
548,041
看贴
图片
吧主推荐
游戏
1
2
下一页
尾页
36
回复贴,共
2
页
,跳到
页
确定
<<返回图那丁吧
>0< 加载中...
[翻译]从S.M.A.R.T数据我们能知道什么
只看楼主
收藏
回复
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
!!!转载翻译内容请注明出处!!!
翻译自backblaze博客
原文地址
https://www.backblaze.com/blog/what-smart-stats-indicate-hard-drive-failures/
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
能让硬盘在狗带之前告诉你它马上就要狗带了吗?Backblaze每天统计Sacramento数据中心67,814块硬盘的S.M.A.R.T,S.M.A.R.T全称“自我监控、分析、报告技术”(Self-Monitoring, Analysis and Reporting Technology),是硬盘内部的监控系统,能报告硬盘各个属性的状态。
我们之前已经介绍过了S.M.A.R.T(
https://www.backblaze.com/blog/hard-drive-smart-stats/
),这次我们将研究那些与硬盘生死密切相关的S.M.A.R.T项并分享一些有趣的结果。
我们使用Smartmontools(
http://www.smartmontools.org/
)来读取S.M.A.R.T数据,这个软件会每天读取每块硬盘的状况,并加入一些标签如硬盘型号、序列号来为每块硬盘生成一份日志,你可以在这里下载这些文件(
https://www.backblaze.com/b2/hard-drive-test-data.html
),那些挂掉的硬盘已经被标出,他们的日志较短。不过有些硬盘并不是因为损坏而被更换的,比如我们用4TB硬盘升级1TB硬盘,因此1TB硬盘的日志虽然偏短但并不代表它坏了。
2025-08-28 18:40:38
广告
不感兴趣
开通SVIP免广告
原味欧耶
45nmqua
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
楼主下面呢?
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
我们用S.M.A.R.T来预测硬盘的生死
在过去的五年里我们用以下5个S.M.A.R.T数据作为辅助手段来预测硬盘是否将要坏掉。
S.M.A.R.T值 含义
05 重分配扇区数
BB 无法恢复错误计数
BC 通信超时
C5 等待重映射的扇区数
C6 无法校正扇区计数
当这五个值中任何一个超过0,就有必要调查一下原因。我们也监测RAID阵列,Backblaze Vault阵列以及Backblaze内部日志来确定潜在的硬盘问题。这个工具通常只会报告例外情况,因此即使我们有接近70,000块硬盘,每天会遇到的问题也不多。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
让我们回到S.M.A.R.T数据,来看看下面这张表格,列出了已经损坏和仍在运行的硬盘中某项S.M.A.R.T数据大于零的百分比。
注意,没有哪一块坏掉的硬盘是只有一个S.M.A.R.T警告的,这也是为什么我们将这五组数据放在一起研究。
4.2%正在运行的硬盘在这五个S.M.A.R.T中有至少一个不为零
76.7%已经损坏的硬盘在这五个S.M.A.R.T中有至少一个不为零
这也就是说有23.3%的损坏硬盘没有在这5个我们统计的S.M.A.R.T中有计数。这些数据有用吗?这取决于你是否愿意相信高达76.7%的概率。如果你认为这些数据是有价值,请继续往下看。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
告诉你某一刻一块硬盘的状态出现警告并不能说明什么,比如一块硬盘的05读数为2,说明有2个扇区已经被重新映射,在结合考虑其他各种因素之前这些值并没有什么太大意义。事实上对于硬盘状态评估这已经给出了一个明显的信号那就是这块硬盘即将损坏。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
下面的这张图帮助我们处理多个S.M.A.R.T项同时警告的情况。图表标明了在我们跟踪统计的数据中分别有1、2、3、4和全部5个S..M.A.R.T项警告的硬盘比率。
注意,图中的“1”意思是在5个被统计的S.M.A.R.T项中有1个读数不为零,同样的,“5”表示5个被跟踪的S.M.A.R.T项都不为零。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
但是,在我们下结论之前再来看看下面这张图,给出了各个S.M.A.R.T各个错误之间的相关关系。
在大多数情况下,这些问题没有相关性且能被分别对待。只有SMART 197和198高度相关,意味着我们应该把它们视作“一个问题”而不是“两个”。但为什么我们仍然分别记录SMART 197和SMART 198?有两个原因:1) 不是完全相关联的,中间仍有出错空间。2) 并不是所有制造商的硬盘都同时报告这两个值。
2025-08-28 18:34:38
广告
不感兴趣
开通SVIP免广告
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
如何理解这些相关性/不相关性以及SMART信息对我们的用处?比如说一块硬盘报告SMART 5的值为10并且SMART 197的值为20,这些信息让我们知道这块硬盘的状态已经恶化并应该计划更换。而如果一块硬盘SMART 197为5,SMART 198为20且没有其他错误,我们会暂不更换并关注后续的错误信息,比如后续错误发生的频率。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
问题归类
到现在为止看起来我们只要检测到硬盘的SMART数据有足够多项大于0就把硬盘扔掉,但我们也必须考虑时间因素。在我们跟踪的SMART数据中除197外都是累积增长的,意味着我们需要考虑每次错误发生之间的时间间隔。
比如说,让我们对比一块在一天内无法恢复错误计数(187)就从0跳到20的硬盘,和另一块SMART187为60但平均一个月才增加1已经用了5年的硬盘,哪一个先死很明显。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
文章中关于SMART 189-磁头写入高度的部分,因为绝大部分非企业硬盘压根就没有这个数据,所以跳过,感兴趣的可以自己去看原文。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
SMART 12 – 通电循环
对家用电脑而言参考性不大,因为服务器硬盘用到死也才几十通电循环,而大家手头正在用的硬盘随便都是几百通电循环的。不过如果你手头有一个NAS或是小型服务器且能保证不意外断电的话,保持开机并在系统设置里关闭硬盘休眠让硬盘保持旋转是个更好的选择。
awpak78
32nmi3
13
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
最后数据源的下载地址已经在一楼给出,如果你有能力可以下载来分析处理以得到你的结论,或发掘出有趣的现象。
全文完
你在即喜
32nmi7
15
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
精品贴+1
2025-08-28 18:28:38
广告
不感兴趣
开通SVIP免广告
您的名称未注册
65nmqua
9
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
前排占个位
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示