メリークリスマス、id:skozawa です。
こちらの記事は Gunosy Advent Calendar 2024 の 25 日目の記事です。 昨日はテックリードの役割定義の話をさせてもらいました。 今日はその役割であるテクノロジーマネジメントの一部となる SRE についてお話しします。
背景
これまで Gunosy には SRE チームがあり、インフラ整備やセキュリティ対応などを主導してもらっていましたが、メンバーの入れ替えなどもあり、組織体制の変更が必要となりました。 SRE チームを存続させることも検討しましたが、役割委譲が可能だと考え、SRE チームを解体し、テックリード(TL)を中心とした SRE 体制へと移行することにしました。
SRE の組織パターン
SRE を組織に実装するパターンはいくつかあり、組織の状況に応じて実装されています。 大きく分けると以下の 3 パターンになります。
- Platform SRE / Central SRE
- プロダクト横断的な SRE チームで、共通基盤の構築などを担当。
- EKS の構築や生産性を上げるツールの提供なども担当
- Enabling SRE
- Platform SRE と同様にプロダクト横断的な SRE チームだが、主にプロダクトチームに SRE の機能や文化を浸透させる。
- Embedded SRE / Product SRE
- プロダクトチームに所属し、信頼性の向上に取り組む。
サイバーエージェントさんでは Product SRE、Embedded SRE、Platform SRE、SRE Center of Practice、Movable Embedded SRE の 5 パターンで実装されていたり、マネーフォワードさんでは Platform SRE、Enabling SRE、Product SREs の 3 パターンが実装されているようです。
developers.cyberagent.co.jp moneyforward-dev.jp
Gunosy での SRE のこれまでとこれから
これまでの Gunosy の SRE チームは Platform SRE もしくは Enabling SRE として活動してきましたが、組織体制の変更に伴い、Enabling を進めつつ Embedded SRE の体制を目指しました。 Embedded SRE 体制に移行するために色々と自動化を進めつつ、TL を主体に SRE の役割を担っていく体制に変更しました。
TL が集まる会
これまでは SRE がハブとなり、技術的な相談や知見交換が行われてきましたが、Embedded SRE にするとハブがなくなり知見の集約が難しくなります。 そこで TL が集まる会を開催し、各チームの技術課題やセキュリティ対応状況などの知見交換をする場を設けました。
アジェンダとしては以下のようなものです。
- 各チームの SLO 振り返り
- 障害の確認と対応に対するレビュー
- 相談・ディスカッション
- 技術ネタ雑談
まだできていませんが、各チームの技術的意思決定や大きめのシステム設計のレビューなどもできると良さそうだなと感じています。
まとめ
SRE の役割を各チームに委譲し、TL を中心に運用していく体制に変更しました。 今のところ、大きな問題なく運用できていますが、SRE の専門性に明るいというわけではないので、専門的な知識をどのようにカバーしていくかは今後の課題です。 SRE の役割も組織のフェーズに応じて変わるため、体制自体も柔軟に考えていきたいです。
さて、無事アドベントカレンダーを完走できました!お疲れ様でした。