7月6日から4日間に渡ってメンテナンスにより「Zenlogic」のサービスを全面停止したファーストサーバは、7月17日に障害の事象や原因、対応状況等についての報告書を公開した。
クラウド基盤を担当するヤフーからの報告を含めて作成された報告書では、6月19日以降「ストレージシステムのキャパシティプランでの想定を上回る負荷上昇による一時的な高負荷状態」があったとし、7月6日(金)20時頃から7月9日(月)23時頃まで、外部ネットワークとの接続を遮断し、緊急メンテナンスを実施。また、ストレージを最適化する内部通信に対してネットワークトラフィック制限を実施したが、「この際のネットワーク設定が一部、不適切な設定となっていたことにより、ストレージシステム全体がスローダウンしました」とのことで、ネットワーク設定にも問題があったという。その上で、「複数回のストレージシステム増強や、設定値変更に伴い、ストレージシステム内部でこれまでになく大量のデータ移動が発生したこと、および2項のネットワーク設定の一部が不適切な設定となっていたことにより、データ移動完了まで時間を要しました」とのことで、ストレージの高負荷状態が継続したことで、メンテナンスの時間が当初よりも伸びたことも明らかにされた。
再発防止策として、7月13日にはヤフーと共にストレージシステムのキャパシティプランを見直し、システム状態をより的確に監視するためのシステム性能監視指標を設定。両社で共通の性能監視指標に基づき想定を超える高負荷に対しても速やかに適切な対策を実施する。さらに7月12日にはヤフーにおいては、ネットワークトラフィック制限を実施する処理プログラムに、設定値が正しいことをチェックする処理を追加改修を行なった。これら2点はすでに実施済みで、報告書が公開された7月17日8時30分の時点で「ヤフー株式会社からの障害報告、および安定稼働の継続をもって、本障害の復旧確認を完了」とされている。
さらに「障害期間中の利用料金は品質保証制度(SLA)の基準とは別の基準でご返金させていただくことを準備中でございます」という対応予定も追加されている。詳細なご案内は7月末頃までに、ユーザーに個別に連絡される予定となっている。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります