リクルートにおけるVDIの導入、運用、コロナ対応、そして今後のICT環境を紹介する連載。今回は、コロナ禍にどのように対応して、乗り切っていったのか、4つの施策を中心にお伝えする。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
リクルートにおけるVDI(Virtual Desktop Infrastructure、仮想デスクトップインフラ)の導入、運用、コロナ対応、そして今後のICT環境を紹介する本連載「リクルート5万人のテレワーク/VDI環境大解剖」。前回は主に、当社がVDIの通常の運用時において気を付けていることについてお話ししました。今回は、通常時ではない運用についてです。
2020年は、皆さんの記憶にも新しいCOVID-19によるパンデミック(世界的大流行)の発生があり、通常の運用では必要とされないような動きが求められる状況でした。これについては、当社だけではなく多種多様な会社のIT部門も同様に、緊急時に対応した動きが求められたと思います。当社では、原則在宅勤務という勤務形態に大きく舵(かじ)が切られました。皆さんも当社同様、感染拡大予防のために出社が制限される状況が発生し、今まで以上にリモートでの業務が求められたのではないかと思います。
ここからは、社内IT部門としてコロナ禍にどのように対応して、乗り切っていったのか、4つの施策を中心にお話しします。
COVID-19の影響が国内でも拡大しつつあった2020年2月半ばのある日、当社では今までのように“オフィスへの出社前提”から“在宅勤務推奨”へと、働き方の方針が転換されました。もちろん当社では、もともと在宅勤務制度も有していたので、インターネット経由でリモートからVDIに接続できる環境を既に用意していました。
ただ構築当時は、大多数のユーザーがオフィスに出社する前提であらゆる環境を設計していました。VDI環境もご多分に漏れずその設計にのっとり、オフィス外からの接続については約9000ユーザーのアクセスに耐えられるようなキャパシティーで作られていたのです。当社のこれまでの働き方では、この設計で問題なく運用できていました。
当社では、ほぼ全従業員がVDIを利用しているので、在宅勤務実施者が増える=VDIへのリモートアクセスの増加に直結することになります。標準VDIとセキュアVDIを合わせるとトータルで約5万5000台のVDIが利用されているので、“在宅勤務推奨”に伴い、リモートアクセスで想定していた9000台を大幅に超える数のアクセスが押し寄せる可能性が高くなりました。
正直なところ、われわれIT部門はかなり焦りました。
ただ、その時点ではまだ在宅勤務“推奨“となっていたので、一気に働き方が変わることはないだろうとも思っていました。また、通常時においてはリモートからのアクセス数が設計時の想定を大幅に下回る状況だったことから、「仮にこの方針転換を受けて在宅勤務が少しくらい増えたとしても、まだ当分は耐えられるだろう」と考えて、システムリソースのモニタリングに向けた段取りを行い、その日は終業しました。
翌日、モニタリング結果を確認すると、アクセス数はそれまでの1.3倍になっていました。外部環境としてこの状況が収まることはないだろうと感じたので、「これはこのままではまずいな。今後リモートからのアクセスは増加の一途をたどるだろう」と予測して次の一手の準備を開始しました。実際、約半月後にはリモートからのアクセス数が1.7倍と急激に伸びていくことになります。
ゆっくりと対応している余裕はありませんでした。リモート環境からVDIに接続できない、それはすなわちリクルートの業務が止まるということに直結します。そのため、回線帯域、リモート接続環境を構成している機器のキャパシティー状況、アクセス数の増加トレンドを分析しました。短期間で効果が出そうな施策を検討して2020年3月11日には“第一の矢”の方針を固め、大至急ステークホルダーと調整して関係各所の承認を取得した上で準備を急ぎました。結果4月初旬には、キャパシティーの増強を完了することができました。
第一の矢は、機器の特性を活用したものでした。リモートアクセスの増加に伴い、アクセス経路の機器のCPUリソースが足りなくなるリスクが発生しました。通常ならハードウェアの追加が必要です。しかし一般的に、ハードウェア調達には数カ月もかかってしまい、今回のような急な対応には間に合いません。しかし、われわれの機器は特性として、追加でライセンスを適用するだけでCPUを増強できる仕組みになっていました。そのため、調達納期をぐっと短くして対応することができました。前回述べた「己を知る」ということで、機器キャパシティーとライセンスをしっかりと管理していたので、すぐに対策を立案することができたのです。
万一の場合に備え、時間がかかるハードウェアの調達を避けるような機器の選定や設計上の工夫をし、常日頃からキャパシティーやライセンスを管理しておく――これからVDI基盤を導入される方は念頭に置くとよいポイントだと思います。
こうして第一の矢により、何とかユーザーアクセスをさばけるインフラにすることができました。しかし、短くて長い戦いはその後も続いていくことになります。
コロナ禍による働き方の変革はとどまることがないと感じながら、2020年4月の上旬には政府から1回目の緊急事態宣言が出そうだったこともあり、第一の矢を放ってからも息つく暇はありませんでした。それまで以上のテレワーク増加対策を、早急に考える必要がありました。第一の矢はライセンス適用でしのぎましたが、これ以上はハードウェア調達なしでは対応が難しいと分かっていたからです。しかし今からハードウェアの調達をするのでは間に合いません。
われわれがここで着目したのは、本番環境へのリリース前に確認用として使っていた検証環境でした。本番環境でキャパシティーがきつくなっていたネットワーク機器が、検証環境に存在したのです。
「そうだ! 検証環境から機器を持ってきて、本番環境に転用してスケールアウトしてしまおう!」
検証環境の機器を転用すると、パッチ当て作業などを検証できなくなるリスクはありましたが、直近の検証予定がなかったこともあり、リソース増強を優先する判断をしました。そう決めてからのメンバーの動きは素晴らしいものがありました。構築に向けた設計、必要な段取りを組み上げて(検証環境は保守が平日日中帯のみだったので、24時間365日保守への契約変更やデータセンターの電源増強といった契約回りの作業も必要でした)、短期間で手順を検証し、検証環境から機器を移設して、2020年4月5日にスケールアウトを完了させました。今思うと、4月7日から1回目の緊急事態宣言の発令があり、本当にすんでのところでの増強対応完了でした。これで、第二の矢までが完了しました。
ただ、検証機器を単に追加しただけでは、試算に対するキャパシティー不足は明白でした。第一の矢と同様に、こちらの機器もライセンス適用でCPU増強が可能だったので、ライセンス調達も並行しており、スケールアウト5日後の4月10日には第三の矢としてのCPU増強まで完了させました。
緊急対応はこれだけでは終わりませんでした。日々利用状況をモニタリングしていましたが、その予測によると、なんとリモートアクセスに使っていたインターネット回線自体の帯域の不足に陥ることが明らかになったのです。
インターネット回線自体の増強にも相当な時間がかかります。他に手段がないものか、検討しました。この場面では、われわれが慎重に設計、構築していたことが功を奏しました。インターネット回線の設計は、冗長構成のために2重化していたのですが、複雑に設計せずに済むように、アクティブ/スタンバイの構成にしていたのです。つまり、片系は普段使われていない構成となります。アクティブ/アクティブ構成にすれば、単純計算で2倍の帯域を確保できます。
後は、設計変更できるかどうかがポイントでした。有識者などを交えて綿密に議論して、設計変更によってアクティブ/アクティブ構成にする算段が立ち、何とかキャパシティーがまかなえそうなめどを立てることができました。むろん、片系故障の場合使用できる帯域が減ってしまうわけですが、それについては諦めることにしました。
これでも話は終わりませんでした。インターネット回線帯域を実質的に増やすことができたので、ボトルネックが機器側に移ることになりました。機器のキャパシティーが足りない可能性がまたしても再発したのです。「さすがに手がないか」と思いましたが、実は当該機器のEOSL(End Of Service Life)に伴うリプレースを計画していたので、物品調達に入っていたのでした。まだ物品は届いてはおらず、この状況下で納期調整も無理だろうと初めから思っていましたが、ダメもとで相談したところ、納期前倒しの余地があることが分かりました。
インターネット回線についてはアクティブ/アクティブ構成にするために設計を変更しました。並行して、リプレース計画のために購入手配を進めていた機器についてはメーカー、サプライヤーへの協力を依頼して、当初の納期短縮およびスケールアウトの設計や構築の準備を実施しました。これらを同時に進め、2020年4月23日にはインターネット回線アクティブ/アクティブ構成化と、機器追加によるスケールアウトを完了させることができました。これにより、リモートアクセスの増加を上回るスピードで基盤や回線の増強が完了して、ビジネスへの影響を最小限に食い止めることができました。
ここまでお話しした、当社のコロナ禍への対応は偶然が重なってうまくいったように見えるかもしれません。しかし、それ以上に、前回述べた3つの運用方針「己を知る」「敵を知る」「それに備える」、そしてメーカーやサプライヤーとのパートナーシップの確立があったからこそではないかと思っています。
これらを重ね合わせることで、成し遂げることができました。1つでも欠けていたら、当社のビジネスにもっと大きな影響を与えていたことは間違いないでしょう。
対応してくださった関係者の方には、本当に感謝しかありません。現在も、状況を把握するために日次で確認しながら運用を継続しています。インフラのキャパシティーに一番のインパクトを与えるCPUリソース上昇の要因には果たしてどういうものがあるのか、データの収集と分析を実施し、万が一さらにCPU利用量が上がった場合の対策を立てています。ビジネスへの影響が最小限になるように、常日頃いざというときに備えながら、今日に至るという状況になっています。
ここまではVDIへの対応についてお伝えしましたが、われわれの組織では、VDIだけではなく、社内で利用するIT環境全般を担当しています。コロナ禍のリモート環境においても、ユーザーが極力今までと同様の業務をできるように、どのようにITを活用していくとよいのかをユーザーに伝えるのも重要なミッションです。そこでわれわれは「在宅勤務Tips」という在宅勤務のお役立ち情報をまとめ、順次ユーザーに提供することにも着手しました。
5万を超えるユーザーを抱えているので、常日頃からユーザーへの周知、広報はかなり慎重にしています。間違った情報を出してしまうと、ユーザーを混乱に陥れかねないからです。今回も議論にはなりましたが、コロナ禍においてはスピードを取るよう判断しました。テレワークが急速に広まったこともあり、Tipsはできるだけ早く提供した方が、テレワークに不慣れなユーザーの役に立つはずです。スピード感を大事にしながら、小出しでもよいので情報を順次、提供することにしました。
まずは、社内ITの運用者でありながら同時にヘビーユーザーでもある自分たちの業務において、どのようなソフトウェアやツールの利用頻度が上がっているかについて、内部での確認を開始しました。チャットツールを使って、役職関係なく情報を出し合い、議論しました。結果は予想通り、Web会議ツールの利用が活性化していることが分かりました。
そのため、まずはWeb会議ツールの使い方、便利な利用方法をまとめ上げることにしました。もちろん、普段からTipsを提供していますが、いつもならTipsは厳選していて、「こんなのは誰でも知っている」「当たり前のことを知らせると誰も見なくなってしまう」「対象が限定的過ぎる情報は避けよう」というふうに情報を取捨選択していましたが、今回は「少しでもユーザーの気付きにつながればよい」という考えで、自分たちの実体験に基づくTipsを次々に共有しました。
チャットツールを使いながら、記事のレビューを実施して「ユーザーにより分かりやすくするためにはどういう記事がいいのか」など、部内の上下関係なく記事に対してコメントしながら作り上げていき、2020年4月7日にはまずWeb会議ツールをターゲットに、1回目のTipsの配信を完了させました。
こちらについては今でも継続して、広くTipsネタを収集し、記事を更新し、有用だった点についてユーザーからもフィードバックをもらいながら運用しています。Tipsのアクセスを解析したところ、かなりのアクセス数を記録しており、社内で別の部門が出している広報メールにも紹介されて、皆で喜び合ったことを覚えています。今まで慎重だった広報でしたが、今後は「ユーザーの生産性向上のためにより積極的にしていこう」という方針になりつつあります。コロナ禍は非常につらい状況ですが、その状況から今までの業務をより良く変えるヒントを得て、われわれ自身も変わることができたのかなあと思っています。
以上のように、当社でも試行錯誤し、今回のコロナ禍に対応しました。その中でも、見えてきた課題があります。
やはり一番大きい課題は、VDIとWeb会議という、相性のあまり良くない組み合わせの不満が目立ってきたことです。VDIという環境はアーキテクチャ上、リアルタイム性がさほど重視されない業務が主軸であれば問題はありません。ただ今回のようなテレワークメインの環境においては、Web会議という音声や映像をフルに活用したリアルタイム性がより求められるようになりました。そのような中で、VDIは再考しなくてはならないのは事実です。それを裏付けるデータとして、社内ユーザーに対する満足度調査の結果として、やはりWeb会議でのユーザーの満足度が低く表れていました。
在宅勤務なので、こちらが用意するインフラの問題ではなく、自宅のインターネット回線などに起因することもあるかもしれませんが、それはユーザーからすれば関係ありません。どのような状況でも、ユーザーに快適な業務環境を提供するのが、われわれのやるべきことです。そこに対してどのように向かっていくかは今後の大きな課題です。
VDIの構築を開始したのが2015年。VDI基盤のEOSLも見えてきており、コロナ禍前から次期PC環境をどうするのか、議論を重ねていました。VDI導入時は“今、ここ”の課題に着目して導入しましたが、中長期的な観点から改めてPC環境のあるべき姿を考えることにしました。
次回は、中長期的な観点とコロナ禍による環境変化を踏まえ、リクルートのICT環境が今後どのような方向に向かっていこうとしているのかをお伝えします。
株式会社リクルート ICT統括室 インフラソリューションユニット インフラソリューション部 部長
SIerで提案、構築、保守運用を経験した後、2015年リクルートテクノロジーズに入社。リクルートグループ全社VDI導入の企画、構築、推進をリードする。現在は、社内ICTのインフラ部隊をマネジメントしながら、次世代のPC環境を検討、推進中。
Copyright © ITmedia, Inc. All Rights Reserved.