[an error occurred while processing this directive]
■ 【ぷろじぇくと ぞうさん】 〜E-Bananaサーバ 構築日記〜

目次に戻る
1日目 2日目 3日目 4日目 5日目 6日目 7日目
8日目 9日目 10日目 11日目 12日目 13日目 14日目
15日目 16日目 17日目 18日目 19日目 20日目 21日目
22日目 23日目 24日目 25日目 26日目 27日目 28日目
29日目 30日目 31日目 32日目 33日目 34日目 35日目
36日目 37日目 38日目 39日目 40日目 41日目 42日目
43日目 44日目 45日目 46日目 47日目 48日目 49日目
50日目 51日目 52日目 53日目 54日目 55日目 56日目
57日目 58日目 59日目 60日目 61日目 62日目 63日目
64日目 65日目 66日目 67日目 68日目 69日目 70日目
71日目 72日目 73日目 74日目 75日目 76日目 77日目
78日目 79日目 80日目 81日目 82日目 83日目 84日目
85日目 86日目 87日目 88日目 89日目 90日目 91日目
92日目 93日目 94日目 95日目 96日目 97日目 98日目
99日目 100日目 101日目 102日目 103日目 104日目 105日目
106日目 107日目 108日目 109日目 110日目 111日目 112日目
113日目 114日目 115日目 116日目 117日目 118日目 119日目
120日目 121日目 122日目 123日目 124日目 125日目 126日目
127日目 128日目 129日目 130日目 131日目 132日目 133日目
134日目 135日目 136日目 137日目 138日目 139日目 140日目
141日目 142日目 143日目 144日目 145日目 146日目 147日目
148日目 149日目 150日目 151日目 152日目 153日目 154日目
155日目 156日目 157日目 158日目 159日目 160日目 161日目
162日目 163日目 164日目 165日目 166日目 167日目 168日目
169日目 170日目 171日目 172日目 173日目 174日目 175日目
176日目 177日目 178日目 179日目 180日目 181日目 182日目
183日目 184日目 185日目 186日目 187日目 188日目 189日目
190日目 191日目 192日目 193日目 194日目 195日目 196日目
197日目 198日目 199日目 200日目 201日目 202日目 203日目
204日目 205日目 206日目 207日目 208日目 209日目 210日目
211日目 212日目 213日目 214日目 215日目 216日目 217日目
218日目 219日目 220日目 221日目 222日目 223日目 224日目
225日目 226日目 227日目 228日目 229日目 230日目 231日目
232日目 233日目 234日目 235日目 236日目 237日目 238日目
239日目 240日目 241日目 242日目 243日目 244日目 245日目
246日目 247日目 248日目 249日目 250日目 251日目 252日目
253日目 254日目 255日目 256日目 257日目 258日目 259日目
260日目 261日目 262日目 263日目 264日目 265日目 266日目
267日目 268日目 269日目 270日目 271日目 272日目 273日目
274日目 275日目 276日目 277日目 278日目 279日目 280日目
281日目 282日目 283日目 284日目 285日目 286日目 287日目
288日目 289日目 290日目 291日目 292日目 293日目 294日目
295日目 296日目 297日目 298日目 299日目 300日目 301日目
302日目 303日目 304日目 305日目 306日目 307日目 308日目
309日目 310日目 311日目 312日目 313日目 314日目 315日目
316日目 317日目 318日目 319日目 320日目 321日目 322日目
323日目 324日目 325日目 326日目 327日目 328日目 329日目
330日目 331日目 332日目 333日目 334日目 335日目 336日目
337日目 338日目 339日目 340日目 341日目 342日目 343日目
344日目 345日目 346日目 347日目 348日目 349日目 350日目
351日目 352日目 353日目 354日目 355日目 356日目 357日目
358日目 359日目 360日目 361日目 362日目 363日目 364日目
第73日目:【花子】コツコツとリビルド実行中です・・・

どうも、('A`)です。
今日は短めの日記になりますが、ちょっと報告を。
先週末の社員研修という名の「強化合宿」から無事帰ってきました。
ふだんはそんなに気にならないのですが、あまり体を使っていないんだなあ、という事が
いろんな所で改めてひしひしと感じました。。。
(少し体を鍛えないとなあ・・・)

サーバ達も順調に稼働していましたが、唯一「花子」(banana3000)だけがぐずっていまして。
どうも0番〜15番まであるHDDのうち、6番が壊れました。
しかも、たちの悪い事に、完全に壊れたのなら、ホットスペアと切り替わって切り離されて
隔離されるのですが、時々アクセスできる状態に戻ってしまうようで、何度も何度も
リビルドしようと処理が繰り返される、という動きをしていました。
花子スレ」でも何度かメッセージが書き込まれていましたが、繰り返し同じ様な
メッセージだったので、「おかしいなあ」と思われた方も多いようです。

で、今朝(8/11:月曜日)の午前10時50分から以下の方法でおかしくなった6番HDDの
交換処理を行ないました。
その時の「花子」の状態遷移をスレ上のメッセージを使って以下で説明しますね。

1) 6番HDDが「DRIVE ERROR」で利用できない状態として認識される
589 :花子 ★:2008/08/11(月) 10:51:22 ID:???0 ?PLT(15002)
3ware 3DM2 alert -- host: banana3000.maido3.com

20080811015117 - Controller 0
ERROR - Drive timeout detected: port=6

2) 6番HDDを本体から取り外す
590 :花子 ★:2008/08/11(月) 10:52:54 ID:???0 ?PLT(15002)
3ware 3DM2 alert -- host: banana3000.maido3.com

20080811015246 - Controller 0
WARNING - Drive removed: port=6

3) すると「6番HDDが故障しているよー(degrated)」と認識される
591 :花子 ★:2008/08/11(月) 10:52:54 ID:???0 ?PLT(15002)
3ware 3DM2 alert -- host: banana3000.maido3.com

20080811015248 - Controller 0
ERROR - Degraded unit: unit=0, port=6

4) するとホットスワップがRAID 6を構成しているユニットに追加され、
リビルド処理が始まる
592 :花子 ★:2008/08/11(月) 10:53:54 ID:???0 ?PLT(15002)
3ware 3DM2 alert -- host: banana3000.maido3.com

20080811015351 - Controller 0
INFORMATION - Rebuild started: unit=0

5) 空になっている6番HDDに新しいHDDを差し込む
593 :花子 ★:2008/08/11(月) 10:58:23 ID:???0 ?PLT(15002)
3ware 3DM2 alert -- host: banana3000.maido3.com

20080811015811 - Controller 0
INFORMATION - Drive inserted: port=6

なんでこんな事をしたのかと言いますと、ホットスワップとして待機している
HDDをRAID 6を構成しているユニットに入れる為に、6番HDDが「完全に壊れている」と
RAIDコントローラーに認識させないといけないからです。
先週末の時には6番HDDにアクセスできない(タイムアウトになる)状況が何度か発生
しましたが、HDDそのものはサーバ内に存在し、通電された状態になっていました。
その後「何故か良く判らないけれど」何度かのリトライ後にアクセスできた時に
「一時的にアクセスできなくなっていたみたいだから、改めて復旧かけておこう」と
RAIDコントローラーが認識し、6番HDDに対してリビルドが行われていました。
なので、ホットスペアはそのまま組み入れられる状態にならなかったのです。
で、 2) で行なった様に「物理的に」HDDを本体から取り除く事で、RAIDコントローラが
「ああ、6番HDDは"本当に"ダメになったのね。じゃあホットスワップを使いましょ」と
認識し、4) の処理が実行開始されるようになるのです。

4) の段階ではRAID 6本体は15本構成になりますが、ホットスペアは無い状態になるので
5) で新しいHDDを6番HDDのポートに差し込みます。
但しこの場合ただ単にHDDを差し込んだらホットスペアにはなりません。
日記の「ささやき作戦(第4、第7、第8日目 参照)」でも書きましたが、管理システム
(3dm2とか)を使って設定して、初めてホットスワップとして使える様になります。

で、リビルドの進捗状況はどうなっているか見てみますと・・・時間がかかっています。
(今日の午前11時〜午後3時の4時間で、約3%終了したところです。)
リビルド処理が全部終わるには数日かかる見込みです。

[15:30時点のリビルド進捗状況]
banana3000# tw_cli
//banana3000> info c0

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
----------------------------------------------------------------
u0 RAID-6 REBUILDING 3%(A) - 64K 6053.47 ON OFF
u1 SPARE OK - - - 465.753 - OFF

Port Status Unit Size Blocks Serial
----------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 6QG15YS8
p1 OK u0 465.76 GB 976773168 6QG14N85
p2 OK u0 465.76 GB 976773168 6QG0T4RJ
p3 REBUILDING u0 465.76 GB 976773168 6QG0TLHT
p4 OK u0 465.76 GB 976773168 6QG16SGK
p5 OK u0 465.76 GB 976773168 6QG15EYR
p6 OK u1 465.76 GB 976773168 9QG3956R
p7 OK u0 465.76 GB 976773168 6QG15DFL
p8 OK u0 465.76 GB 976773168 6QG12MYG
p9 OK u0 465.76 GB 976773168 6QG12NSB
p10 OK u0 465.76 GB 976773168 6QG15YP4
p11 OK u0 465.76 GB 976773168 6QG14N7G
p12 OK u0 465.76 GB 976773168 6QG10SS5
p13 OK u0 465.76 GB 976773168 6QG14N66
p14 OK u0 465.76 GB 976773168 6QG14N34
p15 OK u0 465.76 GB 976773168 6QG10PGX

//banana3000>

まあ、RAID 6本体(記録可能領域:5.7TB)には約2.5TBのデータが格納されていますから
データの再編成及びパリティデータの再作成を行なう範囲は膨大になる訳で、時間が
かかるのは仕方が無いです。
Webサーバ(Apache)をオンライン状態にしていますが、たとえApacheを一時的に停止に
しても、たいして変わりません・・・

最近では動物園の飼育係の人たちと同じ様に「花子」とつきあっている心境です。
とりあえずはリビルド処理が終わるまで様子を観察しながら、気長に待ちます('A`)
で、それと並行してIPv6のお勉強を進めようかな、と思っています。
(人に説明するにも、どうもイメージがいま一つ掴みづらいところがあるので・・・)
まあ、お盆の時期を迎えますので、本屋巡りの時間もできるかなあ、と。
それでは、また。

[17:30 追記]
「IPv6のお勉強をしようかな」と思ったら、背後から(^_^;)が現れまして・・・
なんでも花子が最近頻繁にダウンしているから、そろそろ「改造」を考えないか、と。
で、今どこをどう改造すれば良いか、原案を考え中です。。。
ハードウェアもそうですが、ソフト(OS)の入れ替えもちょっと検討してみます。
あ、でも7.0Rのカーネルではドライバ(twa0)は標準に対応しているのかなあ?
ちょっと調べてみますが、誰か詳しい人がいたら、教えて下さい。
なお「改造」は何段階かに分けて、極力ダウンタイムが短くなる様に努力しますです・・・

[18:10 追記]
えーと、花子のリビルドの進捗状況を見ているのですが、結構時間がかかりそうです。
泣きたい位に遅いです・・・
今日のだいたい午前11時からスタートで、現在午後6時(つまり7時間経過)ですが、
全体の5%リビルドが終わったところです。
で、この進捗率を基にリビルド処理全体にかかる時間を計算すると、140時間とでます。
(5日と20時間です、ハイ)
とすると・・・リビルド処理が終わるのは日曜日(8/17) 午前7時頃になる
見込みです。あくまでも今のペースでリビルドが進めば、の話ですが。。。
まあ、花子自体は現在も正常にデータにアクセスできる状態ですので安心なのですが、
これから1日数回のペースで1週間観察を続ける必要が出てきました。
(何か小学校の頃のアサガオの観察日記を付ける感覚に陥りそう・・・)

[8/18 13:45 追記]
花子のリビルドですが、当初予定されたよりも早く、8/16(土) 17:02に完了しました。
(終了の際に、花子の方からスレ上に「ささやき」がありました。)
その後、昨日(8/17 日曜日)の13:47前後にセクタ修復の知らせが1度入りましたが、
現在は全HDD正常に稼働しています。御安心下さい。
それにしても、昨年末に花子のリビルド試験(「ささやき作戦」の事です、ハイ)の
時と比べると、結構時間がかかりました。
まあ、当時と比べると格納されているデータ量が違いますから、リビルドの際に
生成されるパリティデータや、細分化されたデータもかなりの量あったはずです。
ただ、時間がかかったとは言え、「サービスを稼働させた状態」でデータ復元できる
という事はとてもありがたい機能です。
引き続き花子については監視を続けます。これでしばらくは順調に稼働し続ける事を
願うばかりです。


72日目に戻る。   74日目に続く。

目次に戻る
1日目 2日目 3日目 4日目 5日目 6日目 7日目
8日目 9日目 10日目 11日目 12日目 13日目 14日目
15日目 16日目 17日目 18日目 19日目 20日目 21日目
22日目 23日目 24日目 25日目 26日目 27日目 28日目
29日目 30日目 31日目 32日目 33日目 34日目 35日目
36日目 37日目 38日目 39日目 40日目 41日目 42日目
43日目 44日目 45日目 46日目 47日目 48日目 49日目
50日目 51日目 52日目 53日目 54日目 55日目 56日目
57日目 58日目 59日目 60日目 61日目 62日目 63日目
64日目 65日目 66日目 67日目 68日目 69日目 70日目
71日目 72日目 73日目 74日目 75日目 76日目 77日目
78日目 79日目 80日目 81日目 82日目 83日目 84日目
85日目 86日目 87日目 88日目 89日目 90日目 91日目
92日目 93日目 94日目 95日目 96日目 97日目 98日目
99日目 100日目 101日目 102日目 103日目 104日目 105日目
106日目 107日目 108日目 109日目 110日目 111日目 112日目
113日目 114日目 115日目 116日目 117日目 118日目 119日目
120日目 121日目 122日目 123日目 124日目 125日目 126日目
127日目 128日目 129日目 130日目 131日目 132日目 133日目
134日目 135日目 136日目 137日目 138日目 139日目 140日目
141日目 142日目 143日目 144日目 145日目 146日目 147日目
148日目 149日目 150日目 151日目 152日目 153日目 154日目
155日目 156日目 157日目 158日目 159日目 160日目 161日目
162日目 163日目 164日目 165日目 166日目 167日目 168日目
169日目 170日目 171日目 172日目 173日目 174日目 175日目
176日目 177日目 178日目 179日目 180日目 181日目 182日目
183日目 184日目 185日目 186日目 187日目 188日目 189日目
190日目 191日目 192日目 193日目 194日目 195日目 196日目
197日目 198日目 199日目 200日目 201日目 202日目 203日目
204日目 205日目 206日目 207日目 208日目 209日目 210日目
211日目 212日目 213日目 214日目 215日目 216日目 217日目
218日目 219日目 220日目 221日目 222日目 223日目 224日目
225日目 226日目 227日目 228日目 229日目 230日目 231日目
232日目 233日目 234日目 235日目 236日目 237日目 238日目
239日目 240日目 241日目 242日目 243日目 244日目 245日目
246日目 247日目 248日目 249日目 250日目 251日目 252日目
253日目 254日目 255日目 256日目 257日目 258日目 259日目
260日目 261日目 262日目 263日目 264日目 265日目 266日目
267日目 268日目 269日目 270日目 271日目 272日目 273日目
274日目 275日目 276日目 277日目 278日目 279日目 280日目
281日目 282日目 283日目 284日目 285日目 286日目 287日目
288日目 289日目 290日目 291日目 292日目 293日目 294日目
295日目 296日目 297日目 298日目 299日目 300日目 301日目
302日目 303日目 304日目 305日目 306日目 307日目 308日目
309日目 310日目 311日目 312日目 313日目 314日目 315日目
316日目 317日目 318日目 319日目 320日目 321日目 322日目
323日目 324日目 325日目 326日目 327日目 328日目 329日目
330日目 331日目 332日目 333日目 334日目 335日目 336日目
337日目 338日目 339日目 340日目 341日目 342日目 343日目
344日目 345日目 346日目 347日目 348日目 349日目 350日目
351日目 352日目 353日目 354日目 355日目 356日目 357日目
358日目 359日目 360日目 361日目 362日目 363日目 364日目

いま一番お得なページ! 解析
[an error occurred while processing this directive]