アプリ開発者とインフラ技術者間のSRE的なコミュニケーション改善に役立つインフラ基盤とは:SREの考え方で“運用”を変えるインフラ基盤 大解剖(3)(3/3 ページ)
本連載では、「インフラの、特に基盤寄りの立場からSRE(Site Reliability Engineering)の活動を行い、Webサービスの価値を高めるためにはどうしたらいいか」について、リクルートの新たなインフラ基盤を例に見ていきます。今回は、インフラ基盤の技術的解説とともに、出始めている成果、今後の展望についてお話しします。
カットオーバーから9カ月、Fleetを通じて出始めている効果
Fleetは2017年10月にカットオーバーしました。リクルートの社内サービスのインフラ基盤として利用が始まり、既に幾つかの外部向け商用サービスでも利用されています。Fleetで実現した成果としては大きく2つあります。
【1】アジリティの大幅向上
1つ目は目に見えやすいアジリティの大幅向上です。
- 新規サーバ構築は、1〜2カ月→即時に
- DNS設定、LDAPの認証設定、ログ収集やIP払い出し、ストレージマウントなども自動化され、利用者は特に意識せずとも利用可能に
- ファイアウォール、ロードバランサーの設定変更もExcelの申請書を書いてから10営業日かかっていたのが、申請書が不要に。利用者の操作で設定が即時反映
- 使い終わったサーバの削除も即時で可能
インフラ立ち上げ期間が劇的に短縮され新規サービスの立ち上げもスピーディーになっています。
【2】アプリエンジニアとインフラエンジニア間のSRE的なコミュニケーション改善
2つ目は、成果としては目に見えにくい部分です。サイト側のアプリエンジニアとわれわれインフラエンジニア間のSRE的なコミュニケーション改善にもつながると期待しています。今までの両者のコミュニケーションはどうしてもインフラ側の技術、工数、運用面などの制約が大きく作用しインフラエンジニアは自衛的なコミュニケーションに陥りがちでした。
- 「その要件は標準サービス範囲外なのでお受けできません」
- 「この申請書を全部埋めていただかないと構築に着手できません」
- 「要件確定後の変更は受け付けません。やむを得ず変更する場合は納期を再設定します」
- 「ここから先はインフラでは担保しません。アプリ側の責任でご利用ください」
インフラエンジニアの視点で言うと、自分たちの管理しているインフラの設定変更をするだけでも手順書や管理ドキュメントを何個も更新しなければならず非常に手間がかかります。山のように来る申請全てに対応するには保守的、自衛的なコミュニケーションを取らざるを得ない状況がありました。
しかしSREの観点でサービス全体を最適化しようとしたら、このコミュニケーションのスタンスは決して正しくありません。インフラエンジニアもサービスにとって何が必要か一緒に考える視点が必要です。
Fleetはインフラ設定自体をシンプル化しユーザーに直接行わせることで、インフラエンジニアが大量の申請書から解放されます。副次的な効果としてSREに必要なサービス全体最適の視点に立つ時間的なゆとりを生み出すことができると期待しています。
今後の課題とSREを企業に設置したい人、インフラ基盤を整備したい人へのメッセージ
SREは奥が深くて捉えにくい部分もありますが、あえてシンプルに言えば、「サイト運営最適化のために当たり前の、人と人のコミュニケーションをしっかり取る」「アプリ、インフラ、構築、運用のチームの垣根を越えて前向きにコミュニケーションを取る」ことから始まると弊社は考えました。
そこで従来は機能別で分かれていたチームを再編し、事業別チームとして再配置し、各事業組織と同じフロアで顔が見える状態で仕事ができるような組織変更も行っています。
この組織変更直後は混乱が多少生じましたが、コミュニケーションロスを減らす意味では非常に効果的な組織変更でした。
また本連載で紹介した新しいテクノロジーや自動化ツールを使い、インフラ維持運用にかかる手間を減らすことで、インフラエンジニアがSREのことを積極的に考える心と時間の隙間を作ることも必要です。
本連載では、「基盤側の立場からSREの活動を行い、Webサービスの価値向上にどのように取り組んでいったか」を紹介しました。リクルートでは、これまで紹介したような取り組みを実施し、価値向上に向けて今も活動を続けています。本連載で紹介した内容が、何か少しでも皆さまのお役に立てば幸いです。
筆者紹介
中原 裕成
株式会社リクルートテクノロジーズ ITエンジニアリング本部 サイトリライアビリティエンジニアリング部所属
大手通信会社でネットワークサービスの開発を経験後、2014年10月にリクルートテクノロジーズに入社。
全社検索基盤やプッシュ通知基盤などスマートデバイス向け基盤の開発、運用を経て、社内オンプレミスインフラのネットワーク設計・運用に従事。
趣味はウィスキーと葉巻。
保科 弘
株式会社リクルートテクノロジーズ ITエンジニアリング本部 サービスオペレーションエンジニアリング部所属 シニアネットワークエンジニア
データセンターネットワークを中心にネットワークエンジニアとして20年以上のキャリアを持つ。
これまでに多数のインフラ構築、移行、運用を担当。
ネットワーク機器メーカー主催の年次イベント、ユーザー会などでの事例講演も多数実施。
趣味はバイクと舞台鑑賞。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- SREの現場はどうなっているのか――従来型の運用との決定的な違いとは
Site Reliability Engineering(以下、SRE)の現場はどうなっているのか。SREの日常的な仕事とはどのようなものなのか。開発エンジニアと運用担当エンジニアは、実際どのように役割分担し、協力し合っているのか。「SRE本」の監訳者などが語った。 - エンジニア視点で説明する「メルカリ」、リリースから4年の道のり
2017年6月、執行役員 Chief Business Officer(CBO)に、元Facebookのバイスプレジデント ジョン・ラーゲリン氏を迎えるなど、国内はもちろんグローバル展開も加速させているメルカリ。世界に支持される同社サービスはどのように作られ、支えられているのか?――2017年9月に開催された技術カンファレンス「Mercari Tech Conf 2017」にサービス開発・運用の舞台裏を探った。 - 富士フイルムとメルカリSREが語る、「運用管理」という仕事の本当の価値と役割とは
@ITは2017年12月12日に「@IT運用管理セミナー〜運用管理は『なくなる仕事』?」を開催した。本稿では、その内容をレポートする。