さくらインターネット、API一つでLLMの推論やRAGを実行する「さくらのAI Engine」提供開始:チャット生成は月3000回まで無料 日本のモデルも利用可
さくらインターネットは、高性能GPUと国内データセンターを活用した推論API基盤「さくらのAI Engine」の一般提供を開始した。国内外の複数のオープンウェイトモデルやRAGの機能をAPI経由で提供し、AIを活用したアプリケーションの組み込みを支援する。
さくらインターネットは2025年9月24日、生成AI(人工知能)向け推論API基盤「さくらのAI Engine」の一般提供を開始した。
さくらのAI Engineは、APIを通じて国内外の複数の基盤モデルやRAG(Retrieval-Augmented Generation:検索拡張生成)機能を提供するサービスだ。企業は、目的や性能要件に応じて基盤モデルを選択でき、AIを活用したアプリケーションを自社サービスに組み込むことができるようになるという。
「さくらのAI Engineは、生成AI向けクラウドサービス『高火力』を基盤としており、生成AI活用に必要な機能群を統合した、ビジネス基盤の中核となるサービスだ」と、さくらインターネットは述べている。
6種類のモデルが利用可能 無料枠も
さくらのAI Engineはテキスト生成(Chat completions)、音声の文字起こし(Audio transcription)、埋め込み(Embeddings)、RAGといった生成AIのユースケースに利用できる。提供開始時点では、以下の6つのモデルが利用できるという。
- チャットモデル
- 「gpt-oss-120b」
- 「Qwen3-Coder-480B-A35B-Instruct-FP8」
- 「Qwen3-Coder-30B-A3B-Instruct」
- 「llm-jp-3.1-8x13b-instruct4」
- 音声の文字起こしモデル
- 「whisper-large-v3-turbo」
- 埋め込みモデル
- 「multilingual-e5-large」
- RAG機能
- 上記のいずれかのモデル
利用者は、OpenAIのモデル(gpt-oss-120b/whisper-large-v3-turbo)、Alibaba Cloudのモデル(Qwen3-Coder-480B-A35B-Instruct-FP8/Qwen3-Coder-30B-A3B-Instruct)、日本のLLM(大規模言語モデル)研究開発コミュニティーであるLLM-jpのモデル(llm-jp-3.1-8x13b-instruct4)、Microsoft Research Asiaの研究者らが公開したモデル(multilingual-e5-large)から選択できる。
RAG機能については、対象のデータを事前にベクトル化してベクトルストアに格納する前準備(埋め込み)が必要となるものの、自然言語での質問に対してベクトルストアから検索し、指定したモデルで自然言語に変換する一連の処理を、一つのAPIコールで実行できるとしている。
料金体系と価格
さくらのAI Engineは「基盤モデル無償プラン」と「従量課金プラン」の2種類が用意されており、両方のプランで共通の無料枠が設定されている。テキスト生成は1カ月当たり3000回、音声の文字起こしは50回、埋め込みは1万回まで無料で利用できるという。
無料枠を超過する場合、基盤モデル無償プランではAPIリクエストに対するレート制限が発生し、従量課金プランでは1万トークンごとの課金となる。
gpt-oss-120bのような大規模オープンウェイトモデルを自社で運用するには高性能GPUの確保と運用ノウハウが必要であり、多くの企業にとって導入のハードルは高い。またRAGは、最新の自社データと生成AIを連携させる上で欠かせないアプローチとなるが、埋め込み、ベクトルストアなど複数のコンポーネント連携が課題となり得る。こうした背景から、開発工数や運用負荷を軽減しつつ、迅速にAI活用を始めるためのアプローチとして、外部の推論支援サービスを活用することは、現実的な選択肢の一つとなり得るだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
コード生成モデル「GPT-5-Codex」登場 単純タスクは高速に、複雑タスクは長く熟考
OpenAIの新モデル「GPT-5-Codex」は、単純タスクは一瞬で、複雑タスクは長時間熟考する“メリハリ思考”が特徴。Codex全体の環境アップデートも発表され、AIコーディングの実用性が一段と高まった。OpenAIのオープンウェイトリーズニングモデル「gpt-oss-120b」「gpt-oss-20b」の違いは? どう使い分ければよいのか
OpenAIは、強力なリーズニング、エージェントタスク、多様な開発者向けユースケースに対応するオープンウェイト言語モデルである「gpt-oss-120b」および「gpt-oss-20b」をリリースした。「Visual Studio Code」と「Ollama」で簡単に始められる、安心・安全なローカルAI活用術
気軽に試せるラップトップ環境で、チャットbotを提供するオールインワンの生成AI環境構築から始め、Kubernetesを活用した本格的なGPUクラスタの構築やモデルのファインチューニングまで解説する本連載。今回は、「Visual Studio Code」と「Ollama」を活用し、Visual Studio Codeでローカルモデルに対してコードの生成や修正、レビューを指示したり、AIエージェントモードでコーディングさせたりする方法を解説します。