200台の仮想マシンが稼働する仮想化基盤をHCI移行、運用面の大きな変化とは?:導入時点で将来的な増設計画も視野に
メディアフォースは3層構造の仮想化基盤を活用していたが、占有スペースや電源、パフォーマンスといった問題が顕在化し、「Azure Stack HCI」にリプレースした。導入に当たって直面した運用面の課題を、同社はどう解決したか。
メディアフォースはシステムの受託開発を手掛ける企業で、その事業特性から社内に案件ごとの開発環境を数多く用意する必要がある。当然ながら各環境を同じサーバに構築することはできず、案件の期間も異なるために、その都度サーバを立ち上げたり、停止したりする必要があった。こうした業務は仮想化環境を利用することで効率化していたが、ネットワーク、サーバ、ストレージの3層で成り立つ仮想化基盤を利用し始めてから約10年が経過し、同社は多くの課題に直面していた。
仮想化基盤の約半分は各プロジェクト用サーバで、その他にも社内の基幹系システムと仮想デスクトップインフラ(VDI)を含め、約200台の仮想マシン(VM)が稼働していた。メディアフォースの情報システム担当で、Microsoft MVPである澤田賢也氏は「当時は利用状況に合わせて設備を追加することで、コストを抑えつつパフォーマンス向上も図れるといわれていましたが、増設にも不都合が出てきていました」と語る。
仮想化基盤の問題を解決するために、同社はDell Technologiesの「Dell EMC Solutions for Microsoft Azure Stack HCI」を導入した。「Azure Stack HCI」はメーカー検証済みのx86サーバに「Windows Server 2019 Datacenter」と「Windows Admin Center」をインストールしたHCIアプライアンスで、Dell Technologiesをはじめ複数のメーカーがAzure Stack HCIを提供している。
課題解決に向けた製品選定のプロセスと、Azure Stack HCIを導入してみて分かった運用上の課題について、「Dell Technologies ソリューション事例セミナー」の講演から解説する。
3層システムの限界
メディアフォースの既存の仮想化基盤で特に大きな課題だったのは物理的な制約だ。48ポートのネットワークスイッチを搭載しても、5ノード、6ノードと追加するとポートが不足し、スイッチを増設するしかなくなる。となると、次に問題になるのはラックだ。サーバで1U(ユニット)、ストレージで2Uが必要になり、これだけで3U消費する。これを2セット、3セットと追加すれば、ラックもすぐに埋まってしまう。電源の問題もあった。「冗長構成を組む場合、48Uで考えたら約90個の電源が必要になりますが、そこまで用意するのは現実的に困難です。電源設計だけでかなりの労力がかかります」(澤田氏)
こうして増設を続けた結果、最終的にパフォーマンスが不足する事態に至った。「パーツを追加すればよいと言っても、3セットで運用していたものを10セットまで増やしたときに同じパフォーマンスが出るかというと難しい。さまざまなリソースの限界がありました」と澤田氏は当時を振り返る。最終的にはユーザーに不利益を与えてしまう状況に陥った。「VMの動作が遅く、マウスをクリックしてから反応するまでにかなりの時間がかかる状況でした。エラーが起きているわけではないものの、ユーザーにストレスを強いる状況で、この運用は限界だということが見えてきました」(澤田氏)
そんな折に、ちょうどリース期間が終了するサーバがあったことが契機となり、同社は新たなテクノロジーの採用を模索することにした。移行先の製品やサービスを比較検討する中で、ハイパーコンバージドインフラ(HCI)についても調査を進めた。
Azure Stack HCI導入によって仮想化環境は改善
HCIについては2016年ごろから調査していたという澤田氏。もともと同社はコストメリットと利便性を重視してMicrosoftのハイパーバイザー「Hyper-V」を採用しており、この環境を置き換えられるHCIがないかと探していた。そのため「Windows Server 2016」でSDS(ソフトウェア定義ストレージ)機能「記憶域スペース ダイレクト」(SD2:Storage Spaces Direct)によるHCIの構成が可能になったことに関心を寄せていたという。この機能を搭載したWindows Server 2019 DatacenterによるAzure Stack HCIが登場したことが、採用の決め手になった。
「Azure Stack HCI自体はWindows Server 2019 Datacenterの標準機能で作れるものですが、自分たちで自由に構成できるHCIではなく、メーカーの検証済みハードウェアで構成されます。上長には『Azure Stack HCIは仮想化基盤のアプライアンスだ』と説明し、メーカーに任せることで担当者である私の運用負荷が下がるというメリットを強調しました」(澤田氏)
同社は既存の3層構造の環境3セット分を移行させるために、将来的な拡張性も意識してAzure Stack HCIを4ノード設置。既存の環境とAzure Stack HCI環境を比較すると、スイッチのポート数は15ポートから8ポートに、ラックは9Uから4Uとほぼ半減。電源も12個口から8個口に減った。「全体的に物理的なリソースが半分程度になり、従来とほぼ同等かそれ以上のパフォーマンスが得られます。物理的なスペースにもコストは発生していますから、そういう観点でもメリットがあります」と澤田氏は評価する。
導入期間は4日だったという。初日にラッキング、2日目にOSのインストール、3日目にWindows Updateの適用、4日目にソフトウェアの設定と「Active Directory」(AD)やファイルサーバとの連携、という流れだ。一般的なサーバの場合は、ここからさらに構成や設定の変更が必要になるだろう。すぐにVMが動く状態で使い始められるのは大きなメリットだ。
導入してみて分かった、Azure Stack HCI運用上の課題
しかしAzure Stack HCIの運用には課題があった。特に懸念となったのは運用が大きく変わることだった。Azure Stack HCIは障害発生時に止まらないことをコンセプトとして、自動フェイルオーバー(HA:High Availability)クラスタのアーキテクチャを採用している。そのため澤田氏は「障害発生時にもシステムが止まらないということは、逆に言うと『簡単に止められない』のです。そのためメンテナンスが大変です」と語る。例えば運用中の4ノードのうち1ノードを停止させるメンテナンスは難しくないが、停電で全システムを停止させるとなると途端にハードルが上がるという。Azure Stack HCIはADやファイルサーバと連携させているため、これらのサーバをリプレースする際の手順もメーカーに確認する必要がある。Azure Stack HCIはファイルサーバの共有フォルダに定期的にファイルを保存して相互確認することで死活監視をしている。そのためファイルサーバを停止すると「他のサーバが停止しているのでは」という誤認識が生じる恐れがあり、ファイルサーバを安易に再起動できなくなる。
澤田氏は「われわれにとってのゴールは既存のVMが新しい基盤で正しく動くことですから、200台以上のVMの移行にも相当な時間を割きました」と振り返る。まず、どうすればシームレスに、電源を落とさずにVMを移行できるのか、という課題があった。VM移行が済んだら、HA機能のセットアップも必要になる。澤田氏はDell Technologiesとの打ち合わせの中で、200台以上のVMを移行させる詳細な手順を確認し、問題を一つずつ解決していったという。「従来型のITインフラからHCIなどのHAクラスタのアーキテクチャに移行する際は、運用を一から見直した方がよいでしょう。私は『運用イメージが具体的に分かるまで導入しない』と決めていたために、導入まで多くの時間を使いましたが、導入後はトラブルなく稼働しています」(澤田氏)
Windows Admin Centerによる集中管理で運用負荷が軽減
メディアフォースは2019年8月末にAzure Stack HCIの導入が完了し、現在52台のVMが稼働している。この環境は全てWindows Admin Centerで管理可能だ。仮想化環境で特に問題となるのがCPUやメモリ、ネットワークなどのリソース管理である。CPUやメモリの使用率やネットワークの帯域幅使用量、通信速度などを判断し、VMを移行するタイミングやチューニングの要否を判断する。これらの情報が全てWindows Admin Centerのダッシュボードで確認でき、「便利になった」と澤田氏は評価する。例えばホストで異常が発生してメモリを圧迫しているようなケースも、ダッシュボードで原因をすぐに突き止められる。ボリュームの作成や削除、VM起動/停止などもWindows Admin Centerで操作できるため「Windows Serverに直接ログインする必要がなくなり、運用効率が良くなった」という(図1)。
将来的な拡張、リプレースを踏まえた製品選定が重要
澤田氏は将来的な取り組みとして「クラウド利用の推進」を挙げた。Microsoftは「Microsoft Azure」のクラウド環境もWindows Admin Centerに集約して、1つの管理画面で全体を管理できる“Azureファミリー”のメリットをアピールしている。これもあり、澤田氏はAzure Stack HCIとクラウドの連携に大きな期待を寄せているという。
将来的な計画として、ADやファイルサーバのリプレースだけでなく、Azure Stack HCIのノード増設についても情報収集を進めているという。HCIのノード増設には同じ製品を追加することが望ましいが、4〜5年先に増設を検討する時点で同じ製品があるとは限らない。「数年後に高いパフォーマンスのHCIを導入するとしても、古い機器にパフォーマンスが引きずられては意味がありません。将来的にどう増設すべきかを踏まえて、現時点のシステムを構築する必要があります」(澤田氏)
Azure Stack HCIの増設は、ノード単位で追加する方法と、HCI環境をもう一式構築して既存環境とクラスタリングする「クラスタ追加」という手法がある。澤田氏はクラスタ追加が現実的な選択肢になりそうだと考えている。将来的なリプレースや拡張も視野に入れた適切な増設方法が選べるAzure Stack HCIは、同社にとって有意義な選択だったと言えよう。
Copyright © ITmedia, Inc. All Rights Reserved.
関連リンク
提供:デル株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2020年1月9日