Treasure Agent MonitoringをProduction環境で使い始めた件
あけましておめでとうございます。最近ジョインした新兵の @bash0C7です。広告系の技術サイドを担当しています。
新年一発目のエントリーとして、昨年末にbetaリリースされたTreasure Agent Monitoringを速攻でProduction環境で使い始めている件について共有します。
Treasure Agent Monitoringとは
Treasure Data社が提供している、Fluentd/td-agentのモニタリングサービスです。 2013/12/13開催のFluentd Casual Talks #3で発表され、同日よりベータリリース中です。
詳細はベータリリースのアナウンススライドをご覧ください。
セットアップ方法
fluentd-plugin-for-td-monitoringのgithubのREADMEをご参照ください。 プラグインとして提供されているので、いつものようにインストールしたのち、ベータリリースのアナウンススライドでの解説の通り、td_monitor_agentをsourceに指定+カウントを取りたい箇所をtd_counterで括るだけで完了です。簡単!
何ができるようになるのか
大きくは下記2点をTreasure Dataのコンソールから見れるようになります。
1. td_monitor_agentが取得したCPU利用率、メモリ利用量などのシステム状況
我々の場合、強力な仲間たちによってすでにモニタリング体制が整っているためあまり参照することはないですが、そこまで手がまわらないよという方にはカジュアルに確認できるいい手段になると思います。
2. td_counterで括った箇所のバッファ状況、emit状況
普段はもっぱらこちらをみています。日々それぞれのグラフをみて、稼働状況のトレンドを把握したり、例外的な事態が起きていないか観測したりしています。状況を常に確認でき、心の平穏を保つことができます。
現状の使い道と今後の展開
現在のところ、td_counterは、私が担当している広告配信系サブシステムのログ集約サーバから、別サーバで稼働しているログ分析基盤に転送するところに差し込んでいます。
初期導入以来、とくに問題も発生せず、処理のオーバーヘッドを感じることも無かったので、このログ集約サーバで直列に複数つなげて稼働させているFluentdプロセスのインターフェイスとなる部分にもそれぞれtd_counterを設定して、総合的な稼働状況の追跡箇所を密にしていきます。
その上で引き続き試用を重ね、その成果はピクシブで運営している他のサービスにもフィードバックし、展開を図っていこうと考えています。
Treasure Agent Monitoringに興味を持ったならば
詳しくはTreasure Data社にお問い合わせください。