さくらインターネットは2025年9月24日、生成AI（人工知能）向け推論API基盤「さくらのAI Engine」の一般提供を開始した。

さくらのAI Engineは、APIを通じて国内外の複数の基盤モデルやRAG（Retrieval-Augmented Generation：検索拡張生成）機能を提供するサービスだ。企業は、目的や性能要件に応じて基盤モデルを選択でき、AIを活用したアプリケーションを自社サービスに組み込むことができるようになるという。

「さくらのAI Engineは、生成AI向けクラウドサービス『高火力』を基盤としており、生成AI活用に必要な機能群を統合した、ビジネス基盤の中核となるサービスだ」と、さくらインターネットは述べている。

6種類のモデルが利用可能 無料枠も

さくらのAI Engineはテキスト生成（Chat completions）、音声の文字起こし（Audio transcription）、埋め込み（Embeddings）、RAGといった生成AIのユースケースに利用できる。提供開始時点では、以下の6つのモデルが利用できるという。 チャットモデル 「gpt-oss-120b」 「Qwen3-Coder-480B-A35B-Instruct-FP8」 「Qwen3-Coder-30B-A3B-Instruct」 「llm-jp-3.1-8x13b-instruct4」

音声の文字起こしモデル 「whisper-large-v3-turbo」

埋め込みモデル 「multilingual-e5-large」

RAG機能 上記のいずれかのモデル

利用者は、OpenAIのモデル（gpt-oss-120b/whisper-large-v3-turbo）、Alibaba Cloudのモデル（Qwen3-Coder-480B-A35B-Instruct-FP8/Qwen3-Coder-30B-A3B-Instruct）、日本のLLM（大規模言語モデル）研究開発コミュニティーであるLLM-jpのモデル（llm-jp-3.1-8x13b-instruct4）、Microsoft Research Asiaの研究者らが公開したモデル（multilingual-e5-large）から選択できる。 RAG機能については、対象のデータを事前にベクトル化してベクトルストアに格納する前準備（埋め込み）が必要となるものの、自然言語での質問に対してベクトルストアから検索し、指定したモデルで自然言語に変換する一連の処理を、一つのAPIコールで実行できるとしている。 料金体系と価格 さくらのAI Engineは「基盤モデル無償プラン」と「従量課金プラン」の2種類が用意されており、両方のプランで共通の無料枠が設定されている。テキスト生成は1カ月当たり3000回、音声の文字起こしは50回、埋め込みは1万回まで無料で利用できるという。 無料枠を超過する場合、基盤モデル無償プランではAPIリクエストに対するレート制限が発生し、従量課金プランでは1万トークンごとの課金となる。 従量課金プランの価格（提供：さくらインターネット） gpt-oss-120bのような大規模オープンウェイトモデルを自社で運用するには高性能GPUの確保と運用ノウハウが必要であり、多くの企業にとって導入のハードルは高い。またRAGは、最新の自社データと生成AIを連携させる上で欠かせないアプローチとなるが、埋め込み、ベクトルストアなど複数のコンポーネント連携が課題となり得る。こうした背景から、開発工数や運用負荷を軽減しつつ、迅速にAI活用を始めるためのアプローチとして、外部の推論支援サービスを活用することは、現実的な選択肢の一つとなり得るだろう。