OracleRACトラブル発生!!(物語風実話)

昨日の朝だった。
開発S木:hateさん、CV.netユーザの○○さんのサーバが調子悪いんですけど。。
Linuxなんで自分分からないんで見て貰っていいですか?
hate666:いいよ。じゃぁ昼間見ておくよ。
開発S木:db01が調子悪いんで再起動お願いしたいんですよ。
hate666:わかった。db01の様子見てみて再起動かけとくから。

これが悪夢の始まりだった...

このユーザのサーバはLinux上のOracle RACで動いていて、うちの会社でOSやらOracleやらをインストールしたので、全部面倒を見なければならない。

7/29昼ぐらい
hate666:(なんかOracleインスタンス終了できないな...
サーバプロセスも数百個起動してるし...異常だな。
とりあえずOSから再起動してみるか...)
db01(Red Hat Linux AS4)のOSをリブート。
hate666:(そろそろ立ち上がったかな?
あれ?Oracleインスタンスが起動してない。ASMインスタンスも!
どうなってんの???)


...こうして、db01のOracleインスタンスはお亡くなりになりました...
まだdb02が生きてるから取りあえずは処理ができるだろうと思っていたら...
db02も重くなり、徐々におかしくなり始める...

昼ぐらいにOracleサポートにリクエストを投げる。MetaLinkというやつ。
https://metalink.oracle.com/
最初とりあえず簡単な内容を説明
「RAC2台構成で、いままで稼働していたdb01をリブートしたところ、ASMインスタンスおよびDatabaseインスタンスが起動しなくなった。」

7/29夜
開発S木:代替機を急遽用意するか、うちのサーバを使うかしないとヤバいですよ!
POSの取り込みもできないし自動更新も走らないですよ!
hate666:....
開発S木:へんなロックも残ってるんで取引データが全く取り込めないんですよ!
hate666:db02を見てみてセッションかプロセスを切ってみるか...

このとき一時光明が見えたが、結局ダメだった。

hate666:明日、db01,db02の復旧作業をして最悪db02だけでも動くようにしてみるよ。

7/30朝
目覚めると同時にサーバの事を思い出しどんよりとなる。
正直何とかなる気がしない。解決策がまったく思いつかない...
hate666:(ユーザに電話)あ、O部長ですか。すいませんがデータセンターへの入館申請お願いしたいんですけど。現地に行ってサーバ復旧してきます。
ユーザO部長:わかった。すぐに申請する。入館できるようになったらすぐ連絡するから。
hate666:お願いします。

そして、「Oracle Database 10g Release 2 RAC 実践管理ガイド」をカバンに入れてデータセンターへ向かう。最近、ここまで緊急のプレッシャーをかけられたことが無かったので、復旧できなかったときのことを思うと胃が痛くなってきた...
Oracle Database 10g Release 2 RAC 実践管理ガイド

データセンターでOS画面を見ながら、Oracle Metalinkに必要なログを送る。
ASM,CRS,DB,OS各ログを送るのにかなりの時間を使う。
その間も、RAC本を読みながら原因追及のためにログを見たりコマンドをたたいたりしてみる。
OracleのMetalinkに「現在RACサーバでの稼働が困難な状態で、影響大です。」と書き込む。

膠着状態だった事態が動いたのは5:00ぐらいだった。
なんと日本オラクルのサポートから電話がかかってきて状況が分かったというのだ!
「状況が見えました。それはKROWN XXXXXのCRS リソースの状態チェックエラーを意味します。」
「今から復旧手順を言いますので、それに従って作業して下さい」
ラクル、かっこいいぞ。。。お前。


...それから作業終了し無事Oracleの起動を確認したのが19:00ぐらい。


今までOracleのサポートは反応が鈍くてダメダメだと思っていたが、Oracleのサポートはスゴイ!Metalinkの緊急度を1にしてもらうと対応が早い!
送ったログは圧縮して100MB以上あったのに...
Oracleサポート契約をしておいてホント良かったと思った事件でした。



MEMO(PageViewCounter:146657)