いま運用管理者には「ビジネスへの寄与」という新しい価値が強く求められている。だが、市場やビジネス側の要請に、柔軟かつスピーディーに応えようとしても、目前には複雑化、大規模化したインフラと、日々の煩雑な業務が立ちはだかる。どうすれば「ビジネスへの寄与」を果たすことができるのか。
いま運用管理者には難問が突きつけられている。デジタルトランスフォーメーション(DX)の波が、運用管理者に「ビジネスへの寄与」という新しい価値を強く求めているためだ。だが、市場やビジネス側の要請に、柔軟かつスピーディーに応えようとしても、目前には複雑化、大規模化したインフラと、日々の煩雑な業務が立ちはだかる。では一体どうすれば「ビジネスへの寄与」を果たすことができるのか――。
そうした問題意識の下、@IT編集部は2018年12月12日、セミナー『いかに「コストセンター」「不要論」の汚名を返上するか 求められる運用管理者、消えていく運用管理者を分かつもの』を開催した。
セミナーの基調講演には「武闘派CIO」(最高情報責任者)として知られる、日清食品ホールディングス 執行役員 CIO グループ情報責任者の喜多羅滋夫氏が登壇。また、リクルートテクノロジーズの永峰翔氏と、LINEの木村智洋氏が、運用管理の課題をどう捉え、新しい潮流やテクノロジーとどう向き合っているのかをユーザーの立場から紹介した。当日の模様をお伝えする。
「2013年当時の情報システムセンターは“普通の”IT運用組織でした。システム運用知識こそ豊富だったものの、業務理解が深いわけではなく、テクニカルなスキルも“中途半端”でした」(喜多羅氏)
基調講演に登壇した喜多羅氏は、日清食品グループにおけるかつてのIT部門の姿を、そう説明した。個別システムは180を超え、属人的な運用のせいで残業時間も多かった。そのような中、同社が取り組んだのが基幹システムの刷新をきっかけとした「ビジネスに寄与できるIT部門」への変革だ。
「目に見える販売伸長、利益向上に貢献する競争力のある情報プラットフォーム」の構築をミッションに掲げ、戦略テーマとして「グローバル化」「標準化」「事業成果の追及」の3つを設定。プロジェクト管理とサービス管理という2つのコアスキルを持つIT部門へと生まれ変わらせた。
喜多羅氏は、その取り組みとして周辺システムを73.9%削減し、180あった周辺システムを38に集約したことやAWS(Amazon Web Services)やOffice 365などクラウドの利用を開始したことを解説。現在はクラウド利用によりサーバ数が2014年比で37%削減され、クラウド利用は12倍に増加した。また働き方改革で情報企画部の長時間残業はほぼ解消し、属人化が解消され有給取得率も前年比45%で向上した。
喜多羅氏は「ようやくイノベーションの入り口に立ちました」とした上で、近年イノベーションの文脈でよく登場する「情シス不要論」に触れながら、こう強調した。
「情シス不要論の背景には、情シスが業務を理解していないことやシステムを入れたら終わりという発想があります。情シスの存在意義は価値を提供できる『クリティカルコア』を追求することにあります。現在は、それに向けて、業務要件の理解やプロジェクト管理、長期コスト管理を中心に運用を行っています」
プロジェクト管理やサービス管理の研修など、基礎を徹底的に習得させ、「常に外に目を向けながら、一度決めたら宗教的なまでにやり続ける」意思が重要だという。すでにそうした研修の中から、プロジェクト管理やサービス管理で優秀な人材も輩出してきた。最後に喜多羅氏は「キャリアは“椅子”のようなもの。3本以上の足がそろって初めてしっかりと自立できます。スキルを磨きキャリアを豊かにしていってください」と聴講者にエールを送った。
野村総合研究所(NRI)のセッションでは、クラウド運用ソリューション事業部 上級 寺井忠仁氏が「業種別80社が行った運用改善、及びこれから取組むべき運用改善」と題して講演した。
運用管理製品「Senju Family」を開発、提供するNRIでは多種多様な企業の運用をサポートしてきた。寺井氏はそれらの事例を紹介しつつ、「システム運用の課題が、『専門性』『統合管理』から『標準化』『自律運用』へと変わってきています」と分析した。
その上で、運用管理のポイントとして、既存の環境に手を加えずにメッセージの集約、削減、さらに対応の自動化を行う「メッセージ削減」、各管理ツールから構成アイテム(CI:Configuration Item)を自動収集し、情報の陳腐化を防止する「構成管理」、ITサービス、ミドルウェア、仮想化基盤、ネットワーク、ファシリティーなどの関係性の「可視化」、意識せずに回る標準化プロセスを作る「標準化、ITSMS」の4つを挙げ、これらを推進することが課題の改善につながると強調した。
最後に寺井氏は「これからのシステム運用では、AIを活用し、蓄積されたナレッジを活用すること、人手を介さず、継続的に改善する自律型運用が重要です」と今後を展望した。
特別講演には、リクルートテクノロジーズ ITエンジニアリング本部 サイトリライアビリティエンジニアリング部 サイトリライアビリティエンジニアリンググループ グループマネージャーの永峰翔氏が登壇。「SREの本質とは リクルートSREが追求し、得られたもの」と題して、同社がどのようにインフラ運用の課題に向き合ったのかを紹介した。
まず永峰氏は、SRE(サイトリライアビリティエンジニアリング)の役割について「パフォーマンスチューニングなどサイトの改善を目的として、運用にソフトウェアエンジニアリングの知識を持ち込むこと」と指摘。取り組みのポイントとして「自動化の実装やオープンソースソフトウェア(OSS)導入が全てではありません。ソフトウェア開発工程の全てが運用に生きると捉えること、全てをソフトウェア化せず、いらないものは捨てることが重要です」と強調した。
リクルートテクノロジーズのサイトリライアビリティエンジニアリング部は、リクルートジョブズ(TOWNWORKなど)やリクルートキャリア(リクナビなど)、リクルートマーケティングパートナーズ(ゼクシイ、スタディサプリなど)、リクルート住まいカンパニー(SUUMOなど)といった事業会社のインフラ運用を横串で担っており、それぞれでSREチームを編成。サービス数は100を超え、仮想マシン(VM)数は数千、運用人数は約90人という規模だ。
課題としては、複数チームにまたがるコミュニケーションや属人的な運用、多くの手作業などがあり、「スケールするインフラをいかに安定的に運用するか」「サイトの信頼性向上に向けた改善にどう取り組むか」が問われていた。そこで、インフラの安定運用については「ポストモーテム(振り返り、再発防止)」「トイル(Toil=労苦)の撲滅、自動化」の2つを実施。また、サイト影響の可視化、改善では「モニタリング」を実施したという。
永峰氏は取り組みで得た気付きについて「計画と振り返りにより、ヒトに原因を求めず、仕組みの見直しを徹底することで心理的安全性が得られました。また、トイルの削減を目指す中で、自動化が目的ではなく、考えるべきは業務全体の効率化だと学びました。モニタリングについては、非機能要件の可視化がサイトの診断、改善につながります」とした。
最後に「インフラ、運用の進化がビジネスの成長を支えています。現場からアイデアを発信することで運用は変えられます」と訴え、講演を締めくくった。
grasysのセッションでは、Cloud Infrastructure Division Ops TeamのSite Reliability Engineer 加藤恭平氏が登壇。「Google Cloud Platform運用の最前線における自動化と陥りやすい罠」と題して講演した。grasysはGCP(Google Cloud Platform)のプレミアパートナーであり、エンジニア12人で顧客企業の約130のGCPプロジェクト、2300VMインスタンスを管理する。
grasysにおけるSREのタスクは、開発者の欲しいタイミングでインフラを提供することや、定型化できる作業を抽出してgrasys共通ツールに取り込むこと、標準化などだ。「少ない人数でそれらを実現するために、Infrastructure as Codeの考え方の下、OSSや外部サービス、HashiCorpのTerraformやVaultなどのツールを駆使して自動化しています」と加藤氏。
自動化に適した領域は、定形的な運用の改善、強制によるセキュリティ向上、コードのテンプレート化、オペレーションのチェックなどだ。ただ、ツールに頼ることによる“わな”もある。人材が育ちにくくなったり、完全なものを目指すといつまでも動かなったりすることだ。
加藤氏は「運用管理者に求められるものは変化します。新しい技術を楽しむくらいがちょうどいいと思います」とアドバイスした。
特別講演『“5万台のサーバを支える20人”が、「見ているもの」とは? “LINE流”運用管理の舞台裏』には、LINE ITサービスセンター システム室 システムエンジニアリングチーム マネージャーの木村智洋氏が登壇。LINEのサービスを支える運用基盤と、その管理方法を解説した。
国内7900万ユーザーの生活を支えるLINE。そのインフラ運用を一手に担っているのがITサービスセンター システム室だ。システム運用の規模は物理サーバ3万台+仮想サーバ2万台の計5万台。これらを約20人の運用担当者で管理し、社外/社内向けサービスの安定運用と、開発者へのサーバ提供、管理、監視を行っている。
木村氏は、ITサービスセンター システム室が抱えていた課題として「膨大なワークフロー」「在庫管理」「低使用率サーバ」の3つを挙げ、それぞれについてどう取り組んだのかを解説した。
LINEのエンジニアは2300人超、デプロイ先は10箇所以上に及ぶ。多言語、異機種混在環境にサーバを配備することは大きな負担で、ミスや納期遅れも発生していた。そこで採用したのがOpenStackによるプライベートクラウドだ。また、リソースについて、過去の使用の伸び率から枯渇時期を予想し、定期的に在庫を追加する在庫管理を徹底。さらに、全サーバのリソース監視を行い、CPU、ファイル使用率、メモリ使用率、ネットワーク帯域が一定水準に満たないものを低使用率サーバと判定し、VM化、返却、クラスタ台数削減といった対応を行うようにした。
木村氏は「Hadoopなどの大規模クラスタやプライベートクラウド以前のシステムの拡張、FinTech関連、特殊なスペックのサーバなどプライベートクラウドにできないものも残っていて、いまはそれらの対応に取り組んでいます。プライベートクラウドとそうではないものの差を少なくし、差分がないようにしています」と現在の取り組みとポイントを紹介した。
最後にインフラエンジニアの役割について「インフラエンジニアもOSインストーラ開発やIPMI(Intelligent Platform Management Interface)のAPI化などコーディングは必要です。役割もより細分化しています」とし、時代の変化にエンジニア自身が対応していくことの重要性を訴えた。
スプランクサービスジャパンのセッションでは、フィールド スペシャライゼーション ITOA スペシャリストの松本浩彰氏が「IT運用組織の転換点。ビジネスに貢献するIT運用部門とそれを可能にするテクノロジについて」と題して講演した。
ITシステムのあらゆるデータを収集、分析する仕組みとして、IT運用やパフォーマンス分析、セキュリティ対策、ビジネス分析などさまざまな領域で活用されているSplunk。松本氏はIT運用部門が能動的にデータ分析を行い、ITサービスの品質を高めたり、ビジネスへのフィードバックを行ったりする活動を「IT Operations Analytics(ITOA)」という言葉で表現し、こう解説した。
「ITOAは、これからのIT組織に必要な武器です。ビジネスのKPIとITのKPIの横断的な可視化や、機械学習を用いたITサービスの健全性の分析、障害予測、アプリケーションやITインフラの活用度分析などに役立ちます」
松本氏は、こうした仕組みを提供するために、運用部門が「Splunk as a Service」として業務部門にプラットフォームを提供し、成果を上げている企業があることを紹介。最後に「ビジネスに貢献する運用体制を強化することがポイントです。IT運用のマシンデータから新たな洞察を見つけてください」とした。
Copyright © ITmedia, Inc. All Rights Reserved.