「年間120万ドル節約」「レイテンシ19%減」 AWSからベアメタルサーバに移行したOneUptimeが明かす2年間の運用実態:“オンプレミス回帰”は正解か? 「クラウド活用を推奨する」条件とは
オープンソースのオブザーバビリティプラットフォーム「OneUptime」は2023年に、インフラを「Amazon Web Services」(AWS)からベアメタルソリューションに移行した。このほど公式ブログで過去2年間の運用経験を踏まえ、移行の技術面やコスト面についてコミュニティーから寄せられたさまざまな質問に回答した。
オープンソースのオブザーバビリティ(可観測性)プラットフォーム「OneUptime」は2023年に、インフラを「Amazon Web Services」(AWS)からベアメタルソリューションに移行した。マーケティング責任者のニール・パテル氏は2025年10月29日(米国時間)に公開したブログ記事で、OneUptimeの過去2年間の運用経験を踏まえ、この移行の技術面やコスト面についてコミュニティーから寄せられたさまざまな質問に回答した。
OneUptimeは2023年に、AWSからコロケーション施設内のベアメタルインフラへの移行により、年間23万ドルを節約した方法をブログで紹介した。このブログ記事は話題を呼び、Hacker NewsやRedditのディスカッションスレッドではこの移行を巡って、多くの質問が投稿された。
パテル氏は、OneUptimeの2年間の主な運用実績として以下を報告し、続いてコミュニティーから寄せられた質問を幾つか取り上げ、次のように回答している。
- 軽量のKubernetesディストリビューション「MicroK8s」と分散ストレージソフトウェア「Ceph」を組み合わせたスタックを本番環境で730日以上稼働させ、99.993%の可用性を達成した
- 「単一ラック」の懸念を解消するため、フランクフルトに第2ラックを追加し、パリの主要ケージとDWDM(Dense WDM:高密度波長分割多重)で冗長接続した
- ローカルNVMeの活用と「ノイジーネイバー」(騒々しい隣人)問題(ある処理がITリソースを大量に消費し、他の処理の性能に悪影響を与えること)の排除により、顧客に対する平均レイテンシ(遅延)を19%低減した
- 節約した資金を再投資してベアメタルAI(人工知能)サーバを購入し、OneUptimeにおけるLLM(大規模言語モデル)ベースのアラート/インシデント要約機能や、ログ/トレースとメトリクス(指標)に基づく自動コード修正機能を拡充した
「年間23万ドルを節約しても、エンジニア1人分の給与程度では?」
米国の給与水準ではそうだが、世界の他の地域ではエンジニア2〜5人分の給与に相当する。さらに重要なことは、当初23万ドルだった年間節約額が、現在では120万ドルを超えており、ビジネスの成長に伴って増加する見込みであることだ。
AWSの「Savings Plans」や「リザーブドインスタンス」を利用すればよかったのでは?
全てを考慮に入れると、AWSよりもベアメタルの方が76%以上も安上がりになる計算だった。その理由は以下の通り。
- Savings Plansでは、「Amazon S3」(Amazon Simple Storage Service)、エグレス(クラウドサービスから外部へのデータ送信)、「Direct Connect」の料金は減らない
- Kubernetesを自前で運用すれば、「Amazon EKS」(Elastic Kubernetes Service)でかかっていた多額の料金を節約できた
- OneUptimeのワークロードは24時間365日安定しており、リザーブドインスタンスの適用率が既に90%以上あった。そのため、最適化する余地はなかった
「移行と継続的な運用に具体的にどのくらいコストがかかったのか?」
初期移行には、SRE(サイト信頼性エンジニアリング)、プラットフォーム、データベースなどを担当するエンジニアが1週間を費やした。IaC(Infrastructure as Code)の整備、Helmチャートのスモークテスト、バックアップポリシーの厳格化などの作業に当たった。ベアメタルに移行するための追加作業には、さらに約1週間を要した。
継続的な運用コストは以下の通り。
直接的な作業(定期的なパッチ適用、ファームウェア更新など)
プラットフォームチーム全体で四半期当たり約24時間(24人時)。これはAWS利用時に、コスト最適化、IAMポリシーの頻繁な変更、非推奨機能の追跡、AWS上の仮想マシン(VM)更新に費やしていた時間と同等だ。
物理的なハードウェア管理
コロケーションプロバイダーにラックの物理管理を委託しており、従来のハードウェア管理者はいない。24カ月で2回の介入(主にディスク関連)を行い、平均対応時間は27分。
「単一ラックは単一障害点では?」
この懸念を解消するため、前述したように、フランクフルトで第2ラックをレンタルしており、これはパリの主要ケージとはプロバイダーも電力会社も異なる。
第2ラックではMicroK8sコントロールプレーンをデプロイ(展開)し、非同期レプリケーションでCephプールをミラーリングしている。MicroK8sはTalos Linuxに移行する予定だ。Talos Linuxは、Kubernetesでの使用に特化したコンテナ専用OSだ。
独立したアウトオブバンド管理経路(4G/衛星)を追加し、大都市圏の光ファイバー回線がトラブルに見舞われても、機器にアクセスできるようにしている。
なお、2023年時点で言及したAWSフェイルオーバークラスタも、引き続き契約している。
「ハードウェアのライフサイクルや、想定外の設備投資はどう考えるのか?」
サーバは5年で償却する計画だ。だが、現在の事業成長率から見て、5年間使用する前にCPUが飽和状態になる見込みだ。その際は、古いサーバを地域分析クラスタに転用し、新しいサーバを購入する。2年ごとに全体の40%を最新機種に更新しても、コスト削減効果により、AWS利用を最適化した場合の推計費用よりも、年間費用を抑えられる。
「帯域幅とDoS攻撃対策はどうなっているのか?」
2つのキャリアと5Gbps回線を契約しており、エグレス料金が高いAWSと比べて、大幅にコストを抑えている。DDoS攻撃からの保護としては、イングレス(外部からのデータ送信)をCloudflare経由にしている。
「信頼性は低下したか?」
AWS利用時よりも向上した。前述したように、この2年間で99.993%の可用性を達成し、AWSで最近発生した大規模障害(参考記事)も回避できた。
「プロバイダーを乗り換えてクラウドを使い続ければよいのでは?」
以下のサービスと比較した結果、コロケーションが有利という結論に達した。
- ハイパースケーラー系のサービスは、エグレスデータ転送量が大量になると、コストが膨らむ。「AWS Outposts」(オンプレミスにAWSインフラを展開)は、OneUptimeのニーズを超えた最小使用量を契約しなければならなかった
- HetznerとOVH(欧州の専用ホスト)は、冗長化されたアップリンクとSLA(サービスレベル契約)の要件を満たす数百TBのCephクラスタを使用する場合、コストに難があった
- Equinix Metal(オンデマンドベアメタルサービス)は、OneUptimeの設備投資計画を25〜30%上回る費用がかかると推計された
「日常的な運用作業時間はどのくらいか?」
ベアメタル移行後の日常的な運用作業時間は月間約14時間(14人時)で、作業内容は異なるものの、AWS利用時の日常的な運用作業時間と同程度だ。
「クラウドが最適なケース、ベアメタルが最適なケースとは?」
パテル氏は、以下の条件に当てはまる場合は、クラウドを使用し続けることを推奨している。
- 使用量が一時的に急増することがあるか、あるいは季節的要因によって変動しており、ピーク間ではゼロ近くまで自動スケールできる場合
- 運用負荷の軽減に価値があるマネージドサービス(「Amazon Aurora Serverless」「Amazon Kinesis」「AWS Step Functions」のような)に深く依存している場合
- Kubernetes、Ceph、オブザーバビリティ、インシデント対応に精通したプラットフォームチームを構築する考えがない場合
「OneUptimeにとって、事業開始から5年間は『クラウドファースト』が正しい選択だった。だが、コンピュート処理、データグラビティ、独立性の要件が安定してきたことで、ベアメタルが正しい選択となった」(パテル氏)
OneUptimeはAWSからベアメタルへの移行で大きな成果を上げたが、パテル氏は「あらゆる企業がベアメタルに移行すべきだ」とは主張していない。同氏が最後にまとめた「クラウドが最適なケース」と「ベアメタルが最適なケース」の使い分けは、自社のITインフラ戦略を検討する上で参考となるだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
サーバなんて触ったことないから分からない――クラウド世代のための「サーバ」超入門
これまであまり物理的なサーバとストレージに触れてこなかった方を対象に、AWSを用いてサーバとストレージの基礎知識を解説する連載。初回は、サーバと仮想化について基本から解説し、Amazon EC2の操作手順を示す。
「クラウド活用は万能薬ではない」――2つのクラウド移行事例で起きたセキュリティ課題とその原因
セキュリティに対する不安からクラウド移行に踏み切れない企業や、クラウド移行したもののクラウドセキュリティに依然として懸念がある企業に向けて、クラウドで実現するセキュリティ対策を事例とともに解説する本連載。今回は、セキュリティに関する課題が生じた2つのクラウド移行事例を解説します。
「Pythonを抜いた」 いま最も使用されている言語とは GitHubの年次調査「Octoverse 2025」
GitHubは、ソフトウェア開発プラットフォーム「GitHub」を使用する開発者の動向を調査した年次レポート「Octoverse 2025」を公開した。