[an error occurred while processing this directive]
smartctlでSSDを監視するとフリーズかも

第164日目:smartctlでSSDを監視するとフリーズかも

こんにちは、( ,_ノ` )です。

yutori7.2ch.net としてデビューしたSSDサーバー2号機ですが、
smartmontools でSSDの状態を監視していたところ、SSDサーバー1号機
(gimpo.2ch.net)でも見られたフリーズ現象が見られましたのでご報告します。

原因は smartmontools のコマンド smartctl にあるかもしれません。

smartctl は、ハードディスクの自己診断機能(S.M.A.R.T.)を表示するコマンドで、
SSD では「メディア消耗指数」(=データの書き換え可能回数)を調べる事が出来ます。

yutori7.2ch.net のデータ移動完了後、smartctl でSSDの状態を観察していた所、
S.M.A.R.T.の情報が表示された後にコンソールが反応しなくなり、ウェブページも
表示する事が出来ない状態となりました。

コンソールの復帰後、dmesg を見ると以下のメッセージが記録されていました。

ad8: FAILURE - SMART timed out LBA=12734217

SSDサーバー2号機でフリーズが発生する前も定期的に smartctl で SSD の情報を
見ていましたが、smartctl を実行すると必ずフリーズするという訳ではないので、
何かのタイミングと重なるとフリーズが発生するんじゃないかと思います。

この問題について、現在構築中のSSDサーバーで検証していきます。

【17:17追記】
テストサーバーで同じ現象を確認しました。

再現状況
1、他のサーバーから1GBのデータを転送する
2、データ転送中に別のコンソールで smartctl -a /dev/adxx を連続で実行する

# smartctl -a /dev/ad2
smartctl version 5.37 [i386-portbld-freebsd7.0] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     INTEL SSDSA2M080G2GC
Serial Number:    *************
Firmware Version: 2CV102HD
User Capacity:    80,026,361,856 bytes

〜省略〜

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG   VALUE WORST THRESH TYPE     UPDATED RAW_VALUE
  3 Spin_Up_Time            0x0020 100   100   000    Old_age  Offline 0
  4 Start_Stop_Count        0x0030 100   100   000    Old_age  Offline 0
  5 Reallocated_Sector_Ct   0x0032 100   100   000    Old_age  Always  0
  9 Power_On_Hours          0x0032 100   100   000    Old_age  Always  37
 12 Power_Cycle_Count       0x0032 100   100   000    Old_age  Always  18
192 Power-Off_Retract_Count 0x0032 100   100   000    Old_age  Always  6
225 Load_Cycle_Count        0x0030 200   200   000    Old_age  Offline 866
226 Load-in_Time            0x0032 100   100   000    Old_age  Always  2224
227 Torq-amp_Count          0x0032 100   100   000    Old_age  Always  0
228 Power-off_Retract_Count 0x0032 100   100   000    Old_age  Always  2005452880
232 Unknown_Attribute       0x0033 100   100   010    Pre-fail Always  0
233 Unknown_Attribute       0x0032 099   099   000    Old_age  Always  0
184 Unknown_Attribute       0x0033 100   100   099    Pre-fail Always  0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

〜フリーズが発生(約10分)〜

Error SMART Read Selective Self-Test Log failed
Smartctl: SMART Selective Self Test Log Read Failed
#

コンソールの復帰後、dmesgを実行すると以下のメッセージが記録されていました。
もちろんSSDサーバー2号機以外で検証しましたが、記録されているメッセージは
SSDサーバー2号機と同じです。

ad2: FAILURE - SMART timed out LBA=12734217
ad2: FAILURE - SMART timed out LBA=12734217
ad2: FAILURE - SMART timed out LBA=12734217
ad2: FAILURE - SMART timed out LBA=12734217
ad2: FAILURE - SMART timed out LBA=12734217
ad2: FAILURE - SMART timed out LBA=12734217

合計6回この現象を確認しましたが、その度に同じメッセージが記録されていました。

フリーズが発生したのはデータ転送を行っている最中に smartctl を実行した場合で、
データ転送を行っていない時に実行した場合ではフリーズは確認できませんでした。

検証方法や実行回数などの問題はあると思いますが、
「smartctl で SSD の情報を表示すると良くない事が起こる」
という事は言えると思います。

【11:02追記】
特化型スレでご依頼いただきました方法をテストサーバーで検証してみます。
結果はこの日記でお知らせしますので少々お待ちくださいです。

【17:11追記】
昨日と同じ条件で smartctl -d ata -A /dev/adxx を試してみました。

方法
1、他のサーバーから1GBのデータを転送する
2、データ転送中に smartctl -d ata -A /dev/adxx を連続で実行する

smartctl -d ata -A /dev/adxx ではフリーズを確認する事が出来ませんでした。

# smartctl -d ata -A /dev/ad2
smartctl version 5.37 [i386-portbld-freebsd7.0] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG   VALUE WORST THRESH TYPE     UPDATED RAW_VALUE
  3 Spin_Up_Time            0x0020 100   100   000    Old_age  Offline 0
  4 Start_Stop_Count        0x0030 100   100   000    Old_age  Offline 0
  5 Reallocated_Sector_Ct   0x0032 100   100   000    Old_age  Always  0
  9 Power_On_Hours          0x0032 100   100   000    Old_age  Always  60
 12 Power_Cycle_Count       0x0032 100   100   000    Old_age  Always  18
192 Power-Off_Retract_Count 0x0032 100   100   000    Old_age  Always  6
225 Load_Cycle_Count        0x0030 200   200   000    Old_age  Offline 1791
226 Load-in_Time            0x0032 100   100   000    Old_age  Always  2225
227 Torq-amp_Count          0x0032 100   100   000    Old_age  Always  0
228 Power-off_Retract_Count 0x0032 100   100   000    Old_age  Always  2005454294
232 Unknown_Attribute       0x0033 100   100   010    Pre-fail Always  0
233 Unknown_Attribute       0x0032 099   099   000    Old_age  Always  0
184 Unknown_Attribute       0x0033 100   100   099    Pre-fail Always  0

なお smartctl -d ata -a /dev/adxx で試してみた所、フリーズが発生しました。
-a オプションで全ての情報を表示しようとするとダメなのかなー?


163日目に戻る。   165日目に続く。

目次に戻る
1日目 2日目 3日目 4日目 5日目 6日目 7日目
8日目 9日目 10日目 11日目 12日目 13日目 14日目
15日目 16日目 17日目 18日目 19日目 20日目 21日目
22日目 23日目 24日目 25日目 26日目 27日目 28日目
29日目 30日目 31日目 32日目 33日目 34日目 35日目
36日目 37日目 38日目 39日目 40日目 41日目 42日目
43日目 44日目 45日目 46日目 47日目 48日目 49日目
50日目 51日目 52日目 53日目 54日目 55日目 56日目
57日目 58日目 59日目 60日目 61日目 62日目 63日目
64日目 65日目 66日目 67日目 68日目 69日目 70日目
71日目 72日目 73日目 74日目 75日目 76日目 77日目
78日目 79日目 80日目 81日目 82日目 83日目 84日目
85日目 86日目 87日目 88日目 89日目 90日目 91日目
92日目 93日目 94日目 95日目 96日目 97日目 98日目
99日目 100日目 101日目 102日目 103日目 104日目 105日目
106日目 107日目 108日目 109日目 110日目 111日目 112日目
113日目 114日目 115日目 116日目 117日目 118日目 119日目
120日目 121日目 122日目 123日目 124日目 125日目 126日目
127日目 128日目 129日目 130日目 131日目 132日目 133日目
134日目 135日目 136日目 137日目 138日目 139日目 140日目
141日目 142日目 143日目 144日目 145日目 146日目 147日目
148日目 149日目 150日目 151日目 152日目 153日目 154日目
155日目 156日目 157日目 158日目 159日目 160日目 161日目
162日目 163日目 164日目 165日目 166日目 167日目 168日目
169日目 170日目 171日目 172日目 173日目 174日目 175日目
176日目 177日目 178日目 179日目 180日目 181日目 182日目
183日目 184日目 185日目 186日目 187日目 188日目 189日目
190日目 191日目 192日目 193日目 194日目 195日目 196日目
197日目 198日目 199日目 200日目 201日目 202日目 203日目
204日目 205日目 206日目 207日目 208日目 209日目 210日目
211日目 212日目 213日目 214日目 215日目 216日目 217日目
218日目 219日目 220日目 221日目 222日目 223日目 224日目
225日目 226日目 227日目 228日目 229日目 230日目 231日目
232日目 233日目 234日目 235日目 236日目 237日目 238日目
239日目 240日目 241日目 242日目 243日目 244日目 245日目
246日目 247日目 248日目 249日目 250日目 251日目 252日目
253日目 254日目 255日目 256日目 257日目 258日目 259日目
260日目 261日目 262日目 263日目 264日目 265日目 266日目
267日目 268日目 269日目 270日目 271日目 272日目 273日目
274日目 275日目 276日目 277日目 278日目 279日目 280日目
281日目 282日目 283日目 284日目 285日目 286日目 287日目
288日目 289日目 290日目 291日目 292日目 293日目 294日目
295日目 296日目 297日目 298日目 299日目 300日目 301日目
302日目 303日目 304日目 305日目 306日目 307日目 308日目
309日目 310日目 311日目 312日目 313日目 314日目 315日目
316日目 317日目 318日目 319日目 320日目 321日目 322日目
323日目 324日目 325日目 326日目 327日目 328日目 329日目
330日目 331日目 332日目 333日目 334日目 335日目 336日目
337日目 338日目 339日目 340日目 341日目 342日目 343日目
344日目 345日目 346日目 347日目 348日目 349日目 350日目
351日目 352日目 353日目 354日目 355日目 356日目 357日目
358日目 359日目 360日目 361日目 362日目 363日目 364日目

いま一番お得なページ! 解析
[an error occurred while processing this directive]