さくらインターネット、API一つでLLMの推論やRAGを実行する「さくらのAI Engine」提供開始：チャット生成は月3000回まで無料　日本のモデルも利用可

さくらインターネットは、高性能GPUと国内データセンターを活用した推論API基盤「さくらのAI Engine」の一般提供を開始した。国内外の複数のオープンウェイトモデルやRAGの機能をAPI経由で提供し、AIを活用したアプリケーションの組み込みを支援する。

[＠IT] PC用表示関連情報

LINE

Hatena

　さくらインターネットは2025年9月24日、生成AI（人工知能）向け推論API基盤「さくらのAI Engine」の一般提供を開始した。

　さくらのAI Engineは、APIを通じて国内外の複数の基盤モデルやRAG（Retrieval-Augmented Generation：検索拡張生成）機能を提供するサービスだ。企業は、目的や性能要件に応じて基盤モデルを選択でき、AIを活用したアプリケーションを自社サービスに組み込むことができるようになるという。

　「さくらのAI Engineは、生成AI向けクラウドサービス『高火力』を基盤としており、生成AI活用に必要な機能群を統合した、ビジネス基盤の中核となるサービスだ」と、さくらインターネットは述べている。

6種類のモデルが利用可能　無料枠も

　さくらのAI Engineはテキスト生成（Chat completions）、音声の文字起こし（Audio transcription）、埋め込み（Embeddings）、RAGといった生成AIのユースケースに利用できる。提供開始時点では、以下の6つのモデルが利用できるという。

チャットモデル
- 「gpt-oss-120b」
- 「Qwen3-Coder-480B-A35B-Instruct-FP8」
- 「Qwen3-Coder-30B-A3B-Instruct」
- 「llm-jp-3.1-8x13b-instruct4」
音声の文字起こしモデル
- 「whisper-large-v3-turbo」
埋め込みモデル
- 「multilingual-e5-large」
RAG機能
- 上記のいずれかのモデル

　利用者は、OpenAIのモデル（gpt-oss-120b/whisper-large-v3-turbo）、Alibaba Cloudのモデル（Qwen3-Coder-480B-A35B-Instruct-FP8/Qwen3-Coder-30B-A3B-Instruct）、日本のLLM（大規模言語モデル）研究開発コミュニティーであるLLM-jpのモデル（llm-jp-3.1-8x13b-instruct4）、Microsoft Research Asiaの研究者らが公開したモデル（multilingual-e5-large）から選択できる。

　RAG機能については、対象のデータを事前にベクトル化してベクトルストアに格納する前準備（埋め込み）が必要となるものの、自然言語での質問に対してベクトルストアから検索し、指定したモデルで自然言語に変換する一連の処理を、一つのAPIコールで実行できるとしている。

料金体系と価格

　さくらのAI Engineは「基盤モデル無償プラン」と「従量課金プラン」の2種類が用意されており、両方のプランで共通の無料枠が設定されている。テキスト生成は1カ月当たり3000回、音声の文字起こしは50回、埋め込みは1万回まで無料で利用できるという。

　無料枠を超過する場合、基盤モデル無償プランではAPIリクエストに対するレート制限が発生し、従量課金プランでは1万トークンごとの課金となる。

従量課金プランの価格（提供：さくらインターネット）

　gpt-oss-120bのような大規模オープンウェイトモデルを自社で運用するには高性能GPUの確保と運用ノウハウが必要であり、多くの企業にとって導入のハードルは高い。またRAGは、最新の自社データと生成AIを連携させる上で欠かせないアプローチとなるが、埋め込み、ベクトルストアなど複数のコンポーネント連携が課題となり得る。こうした背景から、開発工数や運用負荷を軽減しつつ、迅速にAI活用を始めるためのアプローチとして、外部の推論支援サービスを活用することは、現実的な選択肢の一つとなり得るだろう。

さくらインターネット、API一つでLLMの推論やRAGを実行する「さくらのAI Engine」提供開始：チャット生成は月3000回まで無料　日本のモデルも利用可

6種類のモデルが利用可能　無料枠も

料金体系と価格

関連記事

関連リンク

Coding Edge 記事ランキング

さくらインターネット、API一つでLLMの推論やRAGを実行する「さくらのAI Engine」提供開始：チャット生成は月3000回まで無料 日本のモデルも利用可

6種類のモデルが利用可能 無料枠も

料金体系と価格

関連記事

関連リンク

Coding Edge 記事ランキング

さくらインターネット、API一つでLLMの推論やRAGを実行する「さくらのAI Engine」提供開始：チャット生成は月3000回まで無料　日本のモデルも利用可

6種類のモデルが利用可能　無料枠も