障害情報(復旧済み)クラウド版2019年03月06日

障害発生のお詫びとご報告

拝啓 貴社におかれましては益々ご清栄のこととお喜び申しあげます。
平素より、弊社サービスをご愛顧いただき誠にありがとうございます。
 
この度、2月28日ご利用中のChatLuckクラウドサービスにおいて、リアルタイム通信の障害が発生いたしました。
お客様には、ご迷惑並びにご心配をお掛けいたしましたこと、深くお詫び申しあげます。
 
以下に原因及び対処についてご報告いたします。
 

敬具

 

 
 
障害発生時間:
2019年 2月28日(木)17時55分 - 2019年 3月 1日(金) 9時25分

障害の内容:
対象サーバーにおいてリアルタイム通信ができない状態となりました。障害時には、リアルタイム通信アイコンが消灯状態で「✕」となり、管理者画面に「リアルタイム通信のリクエストに失敗しました。」のメッセージが表示されました。
サービスへのログイン等の利用は可能でしたが、リアルタイム通信による表示処理がタイムアウトとなるため、チャットルームに書き込んだ後の表示処理が遅延するとともに、エラーとなることで、あたかも書き込みが失敗しているかのような状態になりました。
 
発生の原因:
対象サーバーのシステム領域が一時的に枯渇状態になったため、お客様毎に起動しているリアルタイム通信プロセスがエラー状態となり、それ以降のリアルタイム通信が正常に行えない状態となったことが原因となります。
障害発生時にも、サービスへのアクセスが可能でログインも正常にできたことにより、監視システムで異常が検知されず、障害の発見と状況の把握・対処に長時間を要してしまいました。
 
障害の復旧:
臨時処理としてシステム領域を拡張してスペースを確保した後に、各リアルタイム通信プロセスを再起動することで、復旧いたしました。
 
恒久対応策:
(1)システム領域の確保
臨時メンテナンスを実施し、前述のシステム領域に対して、オンラインでストレージの拡張をした後、一部環境を移動することで十分なスペースを確保いたしました。
また今後のリソース管理において、監視の閾値を下記の通り見直しました。
 

閾値

従来

通知

備考

75%

90%

監視サイト

2週間以内に対策を実施

90%

95%

監視サイト+メール

5営業日以内に対策を実施

95%

監視サイト+メール+電話通知

電話は運用責任者への輪番設定

  
(2)障害の早期発見と状況把握のための対策
本サービスの監視システムにおいて、今回のケースのようなリアルタイム通信プロセスのみが停止することを想定出来ておらず、障害の認知と状況の把握・対処までに長時間を要してしまいました。
この対策として、リアルタイム通信の稼働状況を検証し、外部からそれを確認する仕組みを構築し、早急に監視対象へと組み込むこととします。

以上

技術サポートお問合せ