サービスのモニタリングはどうしてる?各社のDevOpsの工夫について聞いてみた。

2020.03.26

2020年1月末日、4社合同によるエンジニアの勉強会「うちのDevOps事情〜大規模サービスのモニタリングあれこれ〜」が、TECH PLAY SHIBUYAの会場にて開催されました。当日登壇したのは、ヤプリ、LINE Growth Technology、クラスメソッド、ミクシィの4社。

ミクシィからはモンスト事業部 開発室 室長の白川が「モンスターストライクにおける監視システムのあれこれ」のタイトルで登壇しました。白川の登壇内容を中心にレポートいたします。

※本記事は、コロナウィルスによるイベント自粛要請前に実施された2020年1月のイベントの様子をレポートしております。

 

各社の登壇内容

会場には100名前後の来場者が集まり、大変な熱気。サービスの安定稼働のためには、挙動がおかしい場合、事前に察知し不慮の事故を防ぐのは当然のこと。そのために工夫している各社の手法やノウハウにはどのような取り組みがあるのか、と参加されている皆さんも興味津々なはずです。

3社からはそれぞれ下記のテーマにて発表がありました。
※当日の登壇資料も掲載しております。

左から 株式会社ヤプリ 望月 真仁氏 LINE Growth Technology株式会社 黒木 亮太氏 クラスメソッド株式会社 塩谷 啓氏

株式会社ヤプリ 望月 真仁
【ゼロから始めるDatadogによるモニタリングの勘所】


 

LINE Growth Technology株式会社 黒木 亮太
【LINEにおけるCI/CDとMonitoring】

 

クラスメソッド株式会社 塩谷 啓
【塹壕よりDevOpsとSRE ~第1部 : 割れ窓ふさぐべし、慈悲はない~】

 

「監視体制をどのように構築していくのか」「CIツールDroneを実用化に向けた試み」「OpsとDevの関係性について」など、サービスやプロダクトにおける安定稼働を実現するための、ツール、社内組織・カルチャーなど様々な視点からアプローチがありました。

 

続いて、弊社白川が、「モンスターストライクにおける監視システムのあれこれ」というテーマにて登壇。

まずは、ミクシィの監視運用体制から説明がスタート。「ミクシィのモンスターストライク(以下モンスト)では、システム障害に備えて、アラートが発生したら15分以内に対応できるように24時間365日監視できる体制を築いている。2名1組で当番制にしており、いかなるときもサービスの安定稼働を目指している」とのこと。「モンストのサーバは、オンプレとクラウドのハイブリッドで運用していることもあり、自社で運用でき、細かくカスタマイズできるものをツールとして利用している。また、SNS「mixi」で培ったノウハウや実績を活かしながら運用体制を構築している」と、監視ツール『CloudForecast』でAppのリソースをモニタリングしているスライドに投影しながら説明しました。

利用している『Kibana』『elasticsearch』『Grafana』『InfluxDB』などのツールの紹介をしつつ、「そもそも皆さんは、サービスを監視して何を実現したいのか。」と来場者に質問。「将来起きるであろうインシデントや障害に、予め防衛策を検討できるのが理想であるはず。そのためには監視ツールを利用ししっかり可視化することが大切。また、グラフなどに可視化したデータを常日頃から見る癖をつけて、トラフィックの増減を把握し、サービス全体の傾向をしっかりつかんでおくことが重要だ」と力説していました。

最後に「デプロイは必ず共有ツールで確認してから実行する」「まずは1次対応を最優先とする」など障害対応における社内ルールを紹介しながら、登壇内容は終了しました。

※詳細を確認したい方は下記の資料をご覧ください。

株式会社ミクシィ 白川 裕介

【モンスターストライクにおける監視システムのあれこれ】


 

あっという間に4名の登壇は終了。登壇者と参加者は、懇親会にて質疑応答や意見交換を交わし、本イベントは終了となりました。参加されていた方に有益な機会となったのであれば幸いです。

 

最後に

2020年3月現在、コロナウィルスの影響で全国的に勉強会やカンファレンスといったオフラインイベントが相次ぎ中止・延期となっておりますが、ブログや動画などのオンラインにて可能な限り発信していきます。お時間がある際にチェックしていただけますと幸いです。

YouTubeチャンネル:  mixi Tech Talk

medium:mixi-developers

 

人気の記事はこちら