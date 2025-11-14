この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

オープンソースのオブザーバビリティ（可観測性）プラットフォーム「OneUptime」は2023年に、インフラを「Amazon Web Services」（AWS）からベアメタルソリューションに移行した。マーケティング責任者のニール・パテル氏は2025年10月29日（米国時間）に公開したブログ記事で、OneUptimeの過去2年間の運用経験を踏まえ、この移行の技術面やコスト面についてコミュニティーから寄せられたさまざまな質問に回答した。

OneUptimeは2023年に、AWSからコロケーション施設内のベアメタルインフラへの移行により、年間23万ドルを節約した方法をブログで紹介した。このブログ記事は話題を呼び、Hacker NewsやRedditのディスカッションスレッドではこの移行を巡って、多くの質問が投稿された。

パテル氏は、OneUptimeの2年間の主な運用実績として以下を報告し、続いてコミュニティーから寄せられた質問を幾つか取り上げ、次のように回答している。

米国の給与水準ではそうだが、世界の他の地域ではエンジニア2〜5人分の給与に相当する。さらに重要なことは、当初23万ドルだった年間節約額が、現在では120万ドルを超えており、ビジネスの成長に伴って増加する見込みであることだ。

全てを考慮に入れると、AWSよりもベアメタルの方が76％以上も安上がりになる計算だった。その理由は以下の通り。

Savings Plansでは、「Amazon S3」（Amazon Simple Storage Service）、エグレス（クラウドサービスから外部へのデータ送信）、「Direct Connect」の料金は減らない

Kubernetesを自前で運用すれば、「Amazon EKS」（Elastic Kubernetes Service）でかかっていた多額の料金を節約できた

OneUptimeのワークロードは24時間365日安定しており、リザーブドインスタンスの適用率が既に90％以上あった。そのため、最適化する余地はなかった

「移行と継続的な運用に具体的にどのくらいコストがかかったのか？」

初期移行には、SRE（サイト信頼性エンジニアリング）、プラットフォーム、データベースなどを担当するエンジニアが1週間を費やした。IaC（Infrastructure as Code）の整備、Helmチャートのスモークテスト、バックアップポリシーの厳格化などの作業に当たった。ベアメタルに移行するための追加作業には、さらに約1週間を要した。

継続的な運用コストは以下の通り。

直接的な作業（定期的なパッチ適用、ファームウェア更新など）

プラットフォームチーム全体で四半期当たり約24時間（24人時）。これはAWS利用時に、コスト最適化、IAMポリシーの頻繁な変更、非推奨機能の追跡、AWS上の仮想マシン（VM）更新に費やしていた時間と同等だ。

物理的なハードウェア管理

コロケーションプロバイダーにラックの物理管理を委託しており、従来のハードウェア管理者はいない。24カ月で2回の介入（主にディスク関連）を行い、平均対応時間は27分。

「単一ラックは単一障害点では？」

この懸念を解消するため、前述したように、フランクフルトで第2ラックをレンタルしており、これはパリの主要ケージとはプロバイダーも電力会社も異なる。

第2ラックではMicroK8sコントロールプレーンをデプロイ（展開）し、非同期レプリケーションでCephプールをミラーリングしている。MicroK8sはTalos Linuxに移行する予定だ。Talos Linuxは、Kubernetesでの使用に特化したコンテナ専用OSだ。

独立したアウトオブバンド管理経路（4G／衛星）を追加し、大都市圏の光ファイバー回線がトラブルに見舞われても、機器にアクセスできるようにしている。

なお、2023年時点で言及したAWSフェイルオーバークラスタも、引き続き契約している。

「ハードウェアのライフサイクルや、想定外の設備投資はどう考えるのか？」

サーバは5年で償却する計画だ。だが、現在の事業成長率から見て、5年間使用する前にCPUが飽和状態になる見込みだ。その際は、古いサーバを地域分析クラスタに転用し、新しいサーバを購入する。2年ごとに全体の40％を最新機種に更新しても、コスト削減効果により、AWS利用を最適化した場合の推計費用よりも、年間費用を抑えられる。

「帯域幅とDoS攻撃対策はどうなっているのか？」

2つのキャリアと5Gbps回線を契約しており、エグレス料金が高いAWSと比べて、大幅にコストを抑えている。DDoS攻撃からの保護としては、イングレス（外部からのデータ送信）をCloudflare経由にしている。

「信頼性は低下したか？」

AWS利用時よりも向上した。前述したように、この2年間で99.993％の可用性を達成し、AWSで最近発生した大規模障害（参考記事）も回避できた。

「プロバイダーを乗り換えてクラウドを使い続ければよいのでは？」

以下のサービスと比較した結果、コロケーションが有利という結論に達した。

ハイパースケーラー系のサービスは、エグレスデータ転送量が大量になると、コストが膨らむ。「AWS Outposts」（オンプレミスにAWSインフラを展開）は、OneUptimeのニーズを超えた最小使用量を契約しなければならなかった

HetznerとOVH（欧州の専用ホスト）は、冗長化されたアップリンクとSLA（サービスレベル契約）の要件を満たす数百TBのCephクラスタを使用する場合、コストに難があった

Equinix Metal（オンデマンドベアメタルサービス）は、OneUptimeの設備投資計画を25〜30％上回る費用がかかると推計された

「日常的な運用作業時間はどのくらいか？」

ベアメタル移行後の日常的な運用作業時間は月間約14時間（14人時）で、作業内容は異なるものの、AWS利用時の日常的な運用作業時間と同程度だ。

「クラウドが最適なケース、ベアメタルが最適なケースとは？」

パテル氏は、以下の条件に当てはまる場合は、クラウドを使用し続けることを推奨している。

使用量が一時的に急増することがあるか、あるいは季節的要因によって変動しており、ピーク間ではゼロ近くまで自動スケールできる場合

運用負荷の軽減に価値があるマネージドサービス（「Amazon Aurora Serverless」「Amazon Kinesis」「AWS Step Functions」のような）に深く依存している場合

Kubernetes、Ceph、オブザーバビリティ、インシデント対応に精通したプラットフォームチームを構築する考えがない場合

「OneUptimeにとって、事業開始から5年間は『クラウドファースト』が正しい選択だった。だが、コンピュート処理、データグラビティ、独立性の要件が安定してきたことで、ベアメタルが正しい選択となった」（パテル氏）

OneUptimeはAWSからベアメタルへの移行で大きな成果を上げたが、パテル氏は「あらゆる企業がベアメタルに移行すべきだ」とは主張していない。同氏が最後にまとめた「クラウドが最適なケース」と「ベアメタルが最適なケース」の使い分けは、自社のITインフラ戦略を検討する上で参考となるだろう。