OpenStackの運用者たちは、何を考えているか:Ops Mid-Cycle Meetup報告
5月18日より、カナダのバンクーバーで、「OpenStack Summit Vancouver 2015」が開催される。では、運用者はどうOpenStackを使い、何を課題と感じているのか。4月にNTTグループが開催した報告会の内容をお届けする。
OpenStackプロジェクトでは、2014年5月のOpenStack Summit Atlanta 2014で、開発者が集う各種のミーティングに加え、OpenStack運用担当者が情報を共有し、開発者へのフィードバックを行う場を新設したと発表した(初のOps Meetupはこれに先立つ2014年3月)。2015年5月18日より開催されるOpenStack Summit Vancouver 2015のプログラムにもOps Meetupは含まれているが、去る3月9、10日には、中間会合ともいえる「Ops Mid-Cycle Meetup」が、米フィラデルフィアで実施された。
ここでは、4月22日にNTTグループが国内で開催したOps Mid-Cycle Meetup報告会から、運用者が何を議論しているのかをお伝えする。
「運用者の言いたい放題で終わり」の場ではない
NTTコミュニケーションズ 技術開発部の小倉真人氏の報告によると、3月のOps Mid-Cycle Meetup には2日で150名が参加したという。運用からの新機能提案に関する分科会は盛り上がりに欠けるきらいがあったが、RabbitMQ、CI/CD、DevOpsについては活発な議論が繰り広げられたという。Ops Meetingの内容を受けたアクションについては、誰がいつまでに何をするのかが明確化されているとはいえず、これが課題になっている。ただし、各分科会には開発者やPTL(Project Technical Lead:各プロジェクトの開発リーダー)が参加していて、運用者の声に耳を傾けているという。
RabbitMQのHA
RabbitMQの構成はクラスタ構成が半数で、100 message/secが裁ける規模が多い。最も活発に議論されたのは、クライアント接続が切れても通知されない、再接続されないといったキープアライブの問題。これについてはすでにパッチが出ていたため、マージを要望し、会合後に実現したという。
キャパシティ管理
仮想インスタンスのCPUへの割当比率については、用途によって1:1から16:1まで様々だったという。メモリオーバーコミットは「デフォルト値の1.5まで使っていない」が多数を占めた。そこで、デフォルト値を1.0に変更する提案をすることになったという。Flavorのサイズは、デフォルトで十分という意見が多かったという。
ツール/モニタリング
監視ツール「StackTach」「Monasca」や、ベンチマークツール「Rally」の話が議論された。また、運用者自身のためのログ収集・検索ツールとして、Elasticsearch+Logstash+Kibanaの話があり、これらのAnsibleテンプレートが共有されていた。
また、監視についての知見が足りていなかったので、監視に関するドキュメントを充実させようという意見があった。
ハードウェア
サーバーベンダーを統一しているかについては意見が分かれ、「ベンダーロックインを避けるため、あえて統一していない」と発言した人もいたという。他には、IPMI周りの遠隔管理、ドライバーが不安定、ファームウェアのアップグレードなどの話が聞かれたという。
運用自動化ではCobbler、Puppet、Ironicの利用者が多い。ストレージでは、Cephユーザーの多さが印象的だったという。
パッケージング
OpenStack環境の構築は、ベンダーを使わずに自分たちで行っているユーザーが大半だった。特にStableブランチを利用し、必要に応じてパッチを「Cherrypick(自ら選択)」している。関連する課題として、バックポートのコミットまでに時間が掛かる、Stableの期間が短いといった点が指摘されたという。
トンネリングプロトコルはVXLANが最多
NTTソフトウェアイノベーションセンタ、クラウドシステムSEプロジェクトのリサーチエンジニア、市川俊一氏は、Ops Mid-Cycle Meetupでの、コンピュート、ネットワーキング、コア定義などに関する議論について報告した。
コンピュート機能のNova
Novaについては、大規模運用で管理単位を分割するCellのバージョン1に欠陥があり、バージョン2が開発中だが、Kiloリリースではデータモデルにとどまり、実装はLibertyリリース以降とのロードマップが示された。
仮想マシン停止に伴い、CPUとメモリを解放するShelve機能は、まだバグが多いという声が上がっており、開発側からは優先して取り組んでいくとの説明があった。
なお、このセッションでの挙手によるアンケートでは、Ceph利用者が全体の約50%、ライブマイグレーションを使っている人も約半数を占めていたという。
ネットワーク機能は以前、Novaプロジェクトの一部だった。その後ネットワークのプロジェクトとして分離し、現在はNeutronと呼ばれている。そこで、以前からのユーザーとってのネットワーク機能の移行が、大きな課題となってきた。Junoリリースで統合されたDVR(分散仮想ルーター)で、Nova-networkと同等の機能が確保され、Neutronへの移行が現実化するとされてきたが、今回のミーティングでは、DVRには品質に問題がある、移行障壁が高いといった議論があった。Nova-networkの廃止には時間が掛かりそうだが、品質についてはKilo版で解決するという指摘もあった。
Open vSwitchとネットワークパフォーマンス
Open vSwitch(OVS)は、以前は不安定だったが、バージョン2.1以降は安定性が増しているという意見が多かった。それでも不信感から、Linux Bridgeへの移行を考える人もいたが、市川氏は、「現在の主流はOVSであり、例えばDVRはこれでなければ動かないなど、現時点で選択するならOVS」だと思ったという。
トンネリングプロトコルで多く使われているのはVXLANで、ユーザーが十数名、これに続きSTTユーザーが数名だった。
ネットワークパフォーマンスについては、ジャンボフレームを内部ネットワークのストレージアクセス、トンネリングに使う人が多い。VXLANについては、NICへのオフロードが重要で、インテルのNICでは最新のドライバーを適用すべきとの指摘があった。だが、VXLANで動かないとか、困ったという話はなく、枯れた技術になってきたという印象を受けたという。
統合リリースの今後
タグの導入に関して運用者の意見を聞く場も設けられた。現在OpenStackは、半年ごとに全てのサブプロジェクトを対象とした統合リリースを行っているが、サブプロジェクトの増加に伴い、この作業が困難さを増している。一方で新規プロジェクトが統合リリースに入らないと、非公式なものとして見られがちでもある。そこでOpenStack Foundationでは、これに代わるものとして、各プロジェクトが、それぞれの状態をユーザーに分かりやすく伝えるタグを導入すべきではないかという議論をしているという。分科会に参加した運用者の間では、「タグが統合リリースを完全に代替できるか」については否定的な声が多かったという。
市川氏は、「統合リリースはCoreプロジェクトを中心に続けられ、それ以外のプロジェクトについてはタグを使った個別のリリースに移行するとともに、それぞれの動きが加速する」という印象を持ったという。
「OpenStackとは何か」を定義するDefCore
DefCoreは、OpenStackの分断を避けるため、OpenStackというトレードマークを適用する条件の明確化に取り組んでいる活動。今回のミーティングでは、Tempestのテ ストケースから抜粋する形で「認定試験」を定義するドラフトに関する意見が求められたという。
市川氏は、全般的な感想として、意外に開発者が運用者の話に耳を傾けていることが印象深かったという。すぐにKiloや次のLibertyリリースに反映されるかは別問題だが、コミュニティとしては運用者の視点を取り入れるために、試行錯誤していることが分かったとしている。そして何よりも、運用ノウハウについて勉強となり、議論できることがよかったと話した。「国内版のOps Meetup開催も面白いのではないか」と感じたという。
関連資料
http://www.slideshare.net/MAHITO_OGURA/open-stack-opsmidcyclemeetupphl
小倉氏による発表のスライド
http://www.slideshare.net/toshikazu_org/open-stack-ops-mid-cycle-meetup-sic-201504206slideshareready
市川氏による発表のスライド
Copyright © ITmedia, Inc. All Rights Reserved.