[an error occurred while processing this directive]
■ 【ぷろじぇくと ぞうさん】 〜E-Bananaサーバ 構築日記〜

目次に戻る
1日目 2日目 3日目 4日目 5日目 6日目 7日目
8日目 9日目 10日目 11日目 12日目 13日目 14日目
15日目 16日目 17日目 18日目 19日目 20日目 21日目
22日目 23日目 24日目 25日目 26日目 27日目 28日目
29日目 30日目 31日目 32日目 33日目 34日目 35日目
36日目 37日目 38日目 39日目 40日目 41日目 42日目
43日目 44日目 45日目 46日目 47日目 48日目 49日目
50日目 51日目 52日目 53日目 54日目 55日目 56日目
57日目 58日目 59日目 60日目 61日目 62日目 63日目
64日目 65日目 66日目 67日目 68日目 69日目 70日目
71日目 72日目 73日目 74日目 75日目 76日目 77日目
78日目 79日目 80日目 81日目 82日目 83日目 84日目
85日目 86日目 87日目 88日目 89日目 90日目 91日目
92日目 93日目 94日目 95日目 96日目 97日目 98日目
99日目 100日目 101日目 102日目 103日目 104日目 105日目
106日目 107日目 108日目 109日目 110日目 111日目 112日目
113日目 114日目 115日目 116日目 117日目 118日目 119日目
120日目 121日目 122日目 123日目 124日目 125日目 126日目
127日目 128日目 129日目 130日目 131日目 132日目 133日目
134日目 135日目 136日目 137日目 138日目 139日目 140日目
141日目 142日目 143日目 144日目 145日目 146日目 147日目
148日目 149日目 150日目 151日目 152日目 153日目 154日目
155日目 156日目 157日目 158日目 159日目 160日目 161日目
162日目 163日目 164日目 165日目 166日目 167日目 168日目
169日目 170日目 171日目 172日目 173日目 174日目 175日目
176日目 177日目 178日目 179日目 180日目 181日目 182日目
183日目 184日目 185日目 186日目 187日目 188日目 189日目
190日目 191日目 192日目 193日目 194日目 195日目 196日目
197日目 198日目 199日目 200日目 201日目 202日目 203日目
204日目 205日目 206日目 207日目 208日目 209日目 210日目
211日目 212日目 213日目 214日目 215日目 216日目 217日目
218日目 219日目 220日目 221日目 222日目 223日目 224日目
225日目 226日目 227日目 228日目 229日目 230日目 231日目
232日目 233日目 234日目 235日目 236日目 237日目 238日目
239日目 240日目 241日目 242日目 243日目 244日目 245日目
246日目 247日目 248日目 249日目 250日目 251日目 252日目
253日目 254日目 255日目 256日目 257日目 258日目 259日目
260日目 261日目 262日目 263日目 264日目 265日目 266日目
267日目 268日目 269日目 270日目 271日目 272日目 273日目
274日目 275日目 276日目 277日目 278日目 279日目 280日目
281日目 282日目 283日目 284日目 285日目 286日目 287日目
288日目 289日目 290日目 291日目 292日目 293日目 294日目
295日目 296日目 297日目 298日目 299日目 300日目 301日目
302日目 303日目 304日目 305日目 306日目 307日目 308日目
309日目 310日目 311日目 312日目 313日目 314日目 315日目
316日目 317日目 318日目 319日目 320日目 321日目 322日目
323日目 324日目 325日目 326日目 327日目 328日目 329日目
330日目 331日目 332日目 333日目 334日目 335日目 336日目
337日目 338日目 339日目 340日目 341日目 342日目 343日目
344日目 345日目 346日目 347日目 348日目 349日目 350日目
351日目 352日目 353日目 354日目 355日目 356日目 357日目
358日目 359日目 360日目 361日目 362日目 363日目 364日目
第4日目:花子が鳴いた!〜「ささやき作戦」(その1)〜

どうも、誤字脱字ばかりの('A`)です。
前回は外伝として「mamonoサーバ」のお話をしましたが、今回から再び「ぞうさん」に戻ります。

ココをご覧に なるとある程度判るのですが、「ぞうさん」(今は花子という名前まで頂きました)に
障害が発生した時に
  ・検知・通報できる仕組みができないか
  ・「RAIDの再構築」って実際どう動くのか
というのを確かめるのが今回の作戦の目的でした。
まあ、今となっては目的は達成されたのですが、ここまでの道のりは正直長かったです。
しかも「RAID再構築」の実験では当初の想定(前提)が狂ってしまい、「ぞうさん」が本当に
悲鳴を上げる(そして(^_^;)さんや('A`)まで悲鳴を上げる)局面まで行ってしまいました。
今回お話しするのは「ぞうさん」がスレで鳴ける様に仕掛けを作る所までをお話します。


「ぞうさん」を鳴かせる為に、今回は2つの準備を行ないました。

[「ぞうさん」側]
1) 「ぞうさん」側に管理ツール(3dm2、tw_cli)をインストールし、「メール通知機能」を
 有効にする。
2) 通知する事象は「エラー発生時(ERROR)」とし、その際に「秘密基地」(サーバ)の
 「あるメールアドレス」宛にメールが送られる様に設定する。

[「秘密基地」側]
1) 「秘密基地」(サーバ)の「あるメールアドレス」宛にメールが受信されたら、
  あるスクリプト(「いななき Ver1.0」)が起動される様にqmailを設定しておく。
2) スクリプト(「いななき Ver1.0」)では届いたメールの本文を編集し、
 「あるスレッド」に編集結果を書き込む。
(管理ツール 3dm2 と tw_cliの詳細はココを参照して下さい。)

スクリプトの方はroot兄(以下、(・∀・))に書いてもらって、早速テストメールを送信!
すると・・・・
25 :ぞうさん ★:2007/12/14(金) 23:46:14 ID:???0
This is a test e-mail generated by 3ware 3DM2

('A`):「やったー、書けたぞー!うわーい!」
(・∀・):「・・・」
('A`):「ん、どしたの?」
(・∀・):「今回はうまく書けたか・・・」
('A`):「え、え、どういう事?」
(・∀・):「今回は「魔の2分間」に引っかからなかっただけだ。」
('A`):「ま、ま、「魔の2分間」って?」
(・∀・):「qb5には「魔の2分間」があるんだ。例えば10分の間を1単位とすると、8分間は
    正常に書き込みできるんだ。でも「魔の2分間」のタイミングで書き込みをすると、
    何故か書き込めなかったり、書き込めたり、、、あるいは中途半端に書けたり。
    とにかく、その時間帯以外だったらちゃんと書き込めるけどね。」
('A`):「それって、どうにかならないの?」
(・∀・):「今は無理。ってかどうしてそうなるのか、何故「魔の2分間」が起きるのか、
    実はよく判っていなかったりする。。。」
('A`):「うへー」
(・∀・):「じゃあ、後は任せたよw」

まあテストメールでの書き込み動作の確認はできたから、いよいよ実際に
RAID部分のHDDを取ったり付けたりして「ぞうさん」が鳴くか確かめよう。

('A`):「(^_^;)さーん、テストOKです。準備できましたー」
(^_^;):「おーし!じゃあ「ぞうさん」の電源をOffにしてHDDを引き抜こう!」
('A`):「はーい、じゃあ早速Brian( ^ω^)に連絡しますー」
(^_^;):「ういうい」

( ^ω^)にサーバルームのケージに移動してもらって、以下の作業を実行しました。
1) 「ぞうさん」の電源をOffにして、RAIDのHDDを1本抜く
2) 「ぞうさん」の電源をOnにして、サーバが立ち上がるか確認する
3) もう1度「ぞうさん」の電源をOffにして、RAIDのHDDをもう1本抜く
4) 「ぞうさん」の電源をOnにして、サーバが立ち上がるか確認する
5) もう1度「ぞうさん」の電源をOffにして、RAIDのHDDを更に1本抜く
6) 「ぞうさん」の電源をOnにして、サーバが立ち上がるか確認する

すると( ^ω^)から「なんかー、3本抜いたら立ち上がらないよ。「手動でfsckしろっ」て
メッセージが表示されているけど、、、」と連絡が入った。
うーん、元に戻そう。

で、今度は電源のOn・Offを繰り返しながら1本づつ戻していった。
そして( ^ω^)から「RAID戻ったよー」と連絡が。
3本とも戻った時点でRAIDの管理情報を見るとこんな感じだった。

banana3000# tw_cli
//banana3000> info c0

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
---------------------------------------------------------------
u0 RAID-6 OK - - 64K 6053.47 ON OFF
u1 RAID-6 INOPERABLE - - 64K 6053.47 OFF OFF

Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 OK u0 465.76 GB 976773168 6QG15YS8
p1 OK u0 465.76 GB 976773168 6QG15DFL
p2 OK u0 465.76 GB 976773168 6QG11Z7M
p3 OK u0 465.76 GB 976773168 6QG15ZP5
p4 OK u0 465.76 GB 976773168 6QG16SGK
p5 OK u0 465.76 GB 976773168 6QG15EYR
p6 OK u0 465.76 GB 976773168 6QG16SAM
p7 OK u1 465.76 GB 976773168 6QG14N85
p8 OK u0 465.76 GB 976773168 6QG12MYG
p9 OK u0 465.76 GB 976773168 6QG12NSB
p10 OK u0 465.76 GB 976773168 6QG15YP4
p11 OK u0 465.76 GB 976773168 6QG14N7G
p12 OK u0 465.76 GB 976773168 6QG10SS5
p13 OK u0 465.76 GB 976773168 6QG14N66
p14 OK u0 465.76 GB 976773168 6QG14N34
p15 OK u0 465.76 GB 976773168 6QG10PGX

//banana3000>

('A`):「うん、ステータスOKだから、大丈夫だな。」

この判断が後日オンライン中のリビルド実験で「ぞうさん」を瀕死状態に追い込み、
(^_^;)さんや('A`)が右往左往する羽目になるとはこの時夢にも思いませんでした・・・
(u0とu1のUnitStatusの部分を見てピンと気づいたら、こんな事にはならなかったのに。)

(^_^;):「なんか「ぞうさん」がちゃんと鳴かないんだけど・・・」
('A`):「えーと、サーバ起動時にRAIDカードの方で障害検知して、一通りの対処が
    行なわれてからOSが起動するので、管理ソフト(3dm2とか)が動いた時には
    エラー状況が解消されてしまっていて、鳴かないんだと思います。」
(^_^;):「うーん、じゃあ活線挿抜のテストをしないと判らないか・・・」
('A`):「え、、、、「活線挿抜」って何ですか?」
(^_^;):「「活線挿抜」っていうのは、マシンが動いている状態でHDDの抜き差しをやる
    事を言うんだよ。覚えておくように。」
('A`):「はーい。」

さあ、いよいよマシン稼動中にHDDを抜き差しする実験に進みます。
今となってはすごく良い経験をしましたが、当時は(^_^;)さんと一緒に底なし沼に
はまっている感覚でした。。。
次回はその時の実験の様子を中心にお話します。

[3dm2、tw_cliについて]
3WARE社のRAIDカードでは管理用ソフトとして「3dm2」と「tw_cli」というのがあります。
どちらもRAIDで作られたストレージの管理ソフトですが、「3dm2」はWebを使ってリモートで
管理するツールです。
一方「tw_cli」はコマンドラインでの管理ツールです。(Webが使えない環境だったら、
こちらのツールを使うのが良いかも、です。)
まあ使いやすい方を選んで使用するのが良いと思います。
ちなみに障害時にメールで通知する機能は「3dm2」に搭載されています。

さて気になるインストール方法ですが、FreeBSDではPortsで提供されています。
('A`)の場合はpkg_addコマンドでバイナリーを一発インストールしています。
(あまりにもそっけなくて、スミマセン・・・)

参考までにWebを使って「3dm2」を操作する際に表示される代表的な画面をご紹介します。


まずは起動画面。
ここでadministrator(管理者)でログインするか、User(一般)でログインするかを選択します。
RAIDのメンテナンスをしたり設定変更するなら管理者でログインして下さい。


次にUnit情報画面。
ここではRAIDコントローラーで定義した各Unit(RAID)の状態が確認できます。
(ホットスペアを作る場合には別Unitを定義してタイプを「SPARE」とします。)


これはユニット内Drive情報画面。
Unit情報画面でUnit番号(一番左の項目)をクリックすると、そのユニット内のHDDの状態が
表示されます。


似たような情報としてDrive情報画面。
ここではRAIDコントローラーに接続されている全HDDの状態が表示されます。
障害が発生したり、再編成が行なわれたりするとStatusの箇所が「DEGRADED」とか
「Rebuilding」とか表示されます。


そしてメンテナンス画面。
ここはHDDの出し入れ等でRAIDのユニット編成が変わったり、論理的にユニットとの間の
追加・排出を行なう場合に使用します。特にホットスペアを復元する時には必須。
(自動で復元できれば良いんだけど、まだマニュアル読んでも方法が見つからないです・・・)


最後に3dm2の設定画面
ここは障害発生時にメールで知らせる「メール通知機能」の設定や、ユーザパスワードの変更
とかを行なう画面です。
「メール通知機能」は画面の1番目の設定項目で指定しますが、障害などのイベント事象を
「Notyfy on」の所で選択して指定する事ができます。
(致命的なエラーの時には「ERROR」、リビルドの開始・終了等も含める場合は「INFO」を選ぶと
動きます。)
また、送信先のメールアドレスは「Recipient(s)」で、送信元の所に表示したいメールアドレスは
「Sender」で指定します。
なおメールサーバはサーバ内部のメールシステム(sendmailみたいなの)を使う場合には
「localhost」と指定します。


3日目に戻る。   5日目に続く。

目次に戻る
1日目 2日目 3日目 4日目 5日目 6日目 7日目
8日目 9日目 10日目 11日目 12日目 13日目 14日目
15日目 16日目 17日目 18日目 19日目 20日目 21日目
22日目 23日目 24日目 25日目 26日目 27日目 28日目
29日目 30日目 31日目 32日目 33日目 34日目 35日目
36日目 37日目 38日目 39日目 40日目 41日目 42日目
43日目 44日目 45日目 46日目 47日目 48日目 49日目
50日目 51日目 52日目 53日目 54日目 55日目 56日目
57日目 58日目 59日目 60日目 61日目 62日目 63日目
64日目 65日目 66日目 67日目 68日目 69日目 70日目
71日目 72日目 73日目 74日目 75日目 76日目 77日目
78日目 79日目 80日目 81日目 82日目 83日目 84日目
85日目 86日目 87日目 88日目 89日目 90日目 91日目
92日目 93日目 94日目 95日目 96日目 97日目 98日目
99日目 100日目 101日目 102日目 103日目 104日目 105日目
106日目 107日目 108日目 109日目 110日目 111日目 112日目
113日目 114日目 115日目 116日目 117日目 118日目 119日目
120日目 121日目 122日目 123日目 124日目 125日目 126日目
127日目 128日目 129日目 130日目 131日目 132日目 133日目
134日目 135日目 136日目 137日目 138日目 139日目 140日目
141日目 142日目 143日目 144日目 145日目 146日目 147日目
148日目 149日目 150日目 151日目 152日目 153日目 154日目
155日目 156日目 157日目 158日目 159日目 160日目 161日目
162日目 163日目 164日目 165日目 166日目 167日目 168日目
169日目 170日目 171日目 172日目 173日目 174日目 175日目
176日目 177日目 178日目 179日目 180日目 181日目 182日目
183日目 184日目 185日目 186日目 187日目 188日目 189日目
190日目 191日目 192日目 193日目 194日目 195日目 196日目
197日目 198日目 199日目 200日目 201日目 202日目 203日目
204日目 205日目 206日目 207日目 208日目 209日目 210日目
211日目 212日目 213日目 214日目 215日目 216日目 217日目
218日目 219日目 220日目 221日目 222日目 223日目 224日目
225日目 226日目 227日目 228日目 229日目 230日目 231日目
232日目 233日目 234日目 235日目 236日目 237日目 238日目
239日目 240日目 241日目 242日目 243日目 244日目 245日目
246日目 247日目 248日目 249日目 250日目 251日目 252日目
253日目 254日目 255日目 256日目 257日目 258日目 259日目
260日目 261日目 262日目 263日目 264日目 265日目 266日目
267日目 268日目 269日目 270日目 271日目 272日目 273日目
274日目 275日目 276日目 277日目 278日目 279日目 280日目
281日目 282日目 283日目 284日目 285日目 286日目 287日目
288日目 289日目 290日目 291日目 292日目 293日目 294日目
295日目 296日目 297日目 298日目 299日目 300日目 301日目
302日目 303日目 304日目 305日目 306日目 307日目 308日目
309日目 310日目 311日目 312日目 313日目 314日目 315日目
316日目 317日目 318日目 319日目 320日目 321日目 322日目
323日目 324日目 325日目 326日目 327日目 328日目 329日目
330日目 331日目 332日目 333日目 334日目 335日目 336日目
337日目 338日目 339日目 340日目 341日目 342日目 343日目
344日目 345日目 346日目 347日目 348日目 349日目 350日目
351日目 352日目 353日目 354日目 355日目 356日目 357日目
358日目 359日目 360日目 361日目 362日目 363日目 364日目

いま一番お得なページ! 解析
[an error occurred while processing this directive]