2018年07月02日【6月27日に発生した障害について】障害発生のお詫びとご報告

拝啓 お客様におかれましては益々ご清栄のこととお喜び申しあげます。
平素より、弊社サービスをご愛顧いただき誠にありがとうございます。

表記の件、6月27日にChatLuckクラウドサービスにおいて、接続障害が発生いたしました。
お客様にはご迷惑ならびにご心配をおかけいたしました事、深くお詫び申しあげます。

以下に原因及び対処に関して報告させていただきます。ご確認の程、よろしくお願い申しあげます。

敬具

障害発生時間:
①2018年6月27日(水)3時28分 - 6月27日(水)10時46分
②2018年6月27日(水)11時46分 - 6月28日(木)4時00分

障害の内容:
①の時間帯においてサービスを提供しているサーバへの通信が不安定になり、接続ができない状況が発生いたしました。
②の時間帯においてサービスを提供しているサーバの負荷が高い状態となり、サービスに繋がり難い、または繋がらない等の状況が発生いたしました。

発生の原因:
①クラウドで利用中のサーバにて管理情報の不整合が発生したため、サーバへの通信状態が不安定になり、サービスに接続できない状態となりました。
② ①の復旧のための再起動等の対応後一時は通信が可能となりましたが、障害状態の解消のためにクラウド基盤側で再同期処理が実行され、断続的な高負荷状態となりました。

障害の復旧:
①サーバ環境の復元と再起動により復旧しました。
②再同期処理に時間が掛かったため、夜間に緊急メンテナンスを実施、管理情報の不整合を統合すると共に再同期処理が終了し、高負荷状態が解消、復旧いたしました。

今後の対応:
管理情報の不整合は、既に管理情報の統合により解消しております。発生原因については 調査を継続しますが、管理情報の整合性確認手順を追加することで同様の障害を防ぎます。 またクラウド基盤側に再発防止対策を要求すると共に、連絡・連携体制を見直し、障害の 抑止と、検知から復旧までの時間を最小化するよう努めて参ります。

この度は6月11日の障害に引き続き、長時間のサービス停止を招いたこと、重ねてお詫び申し上げます。今回の事態を真摯に受け止め、今後このような障害を起こさぬよう、再発防止の仕組みと対策の検討を進めて参ります。

以上