週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

Datadog Makes You Happy!Really?

Datadogの導入でNRIのサービス運用は幸せになったのか?

2019年02月14日 07時00分更新

 2019年1月22日に開催されたDatadogの勉強会では、野村総合研究所(NRI)での導入事例が披露された。「Datadog Makes You Happy」と題されたセッションでは、自社サービスのモニタリングのためにDatadogを導入した吉江 瞬氏が、サービスの現状やモニタリングの課題、そしてDatadogに行き着くまでの道のりを生々しく説明した。

Datadog Makes You Happyだぞ!

フルAWS・アジャイル開発の現場に最適なモニタリングとは?

 NRIセキュアテクノロジーズでセキュリティエンジニアとして勤めてきた吉江氏。昨年約十年ぶりにNRIに復帰し、現在はビッグデータイノベーション推進部で自社サービス運用の最適化を進めているという。NRIに復帰した吉江氏が担当する「TRAINA(トレイナ)」のサービスについて現状把握を行なったところ、サービスはAWS上に載っており、しかもアジャイルで開発されていた。とはいえ、インフラ側とアプリ側の連携ができておらず、監視サーバーの台数が少ないのでモニタリングツールの保守料が高いのが課題だった。その他、モニタリングされていないコンテナがあったり、パフォーマンス監視がなかったり、S3に貯まったログやURL監視もなく、アラートがあってもメールが飛んでこないとわりと問題も山積。そのため、新たにモニタリングツールを導入し、本来必要なメトリックスやログまできちんと監視しようというのが、吉江氏の野望だ。

NRI 吉江 瞬氏

 ご存じの通り、NRIには自社製の監視ツールもあるが、今回は導入を見送った。「サービス開発がフルAWS・アジャイルなのに、モニタリング元がオンプレミスで、設定変更に数営業日かかるのがツラい」(吉江氏)というのが理由だ。他の選択肢としては、過去に使ったことのあるはてなのMackerelもあった。Datadogのイベントにもかかわらず、「週1で機能追加リリースしてくれるし、ユーザーの要望もいち早く取り込んでくれる。はてなのエンジニアはホントに優秀」とまさかのMackerel推しコメントを披露した吉江氏だったが、サーバーのみではなく、コンテナの監視も必要だったため、今回は採用は見送ったという。

豊富なインテグレーション、運用負荷の軽減、複数画面も統合できる

 こうした製品選定を経て、たどり着いたのがDatadogだった。採用の理由としては、まず豊富な製品の連携(インテグレーション)が挙げられる。吉江氏は、「有名どころのサービスはもちろん、CNCF Landscapeにリストされている製品をウォッチし、今後インテグレーションしていく会社の方向性が気に入った」と語る。

 また、ダッシュボードのカスタマイズが容易なのも魅力。「セキュリティエンジニアだったので、DatadogでSIEM(統合ログ監視)のような使い方をしたかった」(吉江氏)とのことで、触ってみたらできそうという感触も得た。その他、サーバーレスも含めた事例が豊富なこと、「やたら犬を推してくる友人がいる(笑)」というのも選定の大きな理由だったという。

犬好きな友人のススメもあった

 とはいえ、モニタリングツールはいくつか運用におけるつらみがあり、アウトソーシングしている場合は設定変更に時間がかかるし、自社運用の場合はモニタリング設定を手作業で追加するのも面倒。そもそもモニタリングツール自体のサーバーやセキュリティ運用も大変なので、可能な限りSaaSを使いたかったという。

 画面を1つにしたいというのも切実な願いだった。「前職ではSOCの中に入って、お客様のシステム状態を見ていたのですが、ファイアウォール、WAF、IDS、ロードバランサ、標的型攻撃防御サービス、SIEMなどダッシュボードだらけになって、つらいんですよね」(吉江氏)。また、製品やサービスが違うので、同じ時刻でなにが起こったかを調べられないのもストレスだった。これに対して、Datadogであれば、SaaSなので運用も事業者に任せることができ、ダッシュボードをどこからでもチェックできるのがメリットだ。

すぐに使えるDatadogはエンジニアも魅了する

 こうしてDatadogを検証すべく、14日間のフリーアカウントを試した。検証アカウントを作成し、開発環境用のAWSアカウントを連携するだけで、モニタリングが開始される。この段階で、「横で見ていた監視サービス担当者がすげえなと言い始めた」(吉江氏)。さらにAWSのサービスを追加すると、稼働しているインスタンスのリソースがこれまた自動でモニタリングされるようになり、「横の担当者はなんだかキャッキャ言い始めた」(吉江氏)とのこと。監視項目の追加が大変だったモニタリングサービスとは一線を画す使い勝手に、他のエンジニアもすぐ気づいてきたという。

 結局、2回の延命依頼を経て、アプリケーションのインテグレーションやログ分析まで検証。短期間の検証においても、「もともとDatadogはダッシュボードは白ベースだけど、黒にも変えられる。だから、本番環境は白に、検証用は黒に使い分ける」といういい感じのTIPSまで得て、社内プレゼンを経た後に本番導入まで進んだ。

Datadogでの検証

 現在は、標準的なAWSサービスやGuardDuty、Windows Serverのインテグレーションなどを試しつつ、URLの内外監視やダッシュボード作成などの機能も検証し、特定監視項目の監視のオン/オフなどの運用検証を進めている。既存の監視ツールからExcelデータをコンバートし終えたのが、まさに登壇の前日というステータスだった。本番環境での使いこなしは、今後のDatadog勉強会でまた明らかにされていくだろう。

 その後、イベントではピザと飲み物を堪能しつつ、リクルートテクノロジーズの北野太郎氏が「リクルートのサービスが動くオンプレミス環境の監視をDatadogへ刷新した話」、ユニファの鈴木進吾氏が「DatadogをTerraformでさわってみた」というLTを楽しんだ。100名以上のDatadogファンが知見を共有した勉強会は、今後も継続的に開催していくという。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう