さくらインターネット、API一つでLLMの推論やRAGを実行する「さくらのAI Engine」提供開始チャット生成は月3000回まで無料 日本のモデルも利用可

さくらインターネットは、高性能GPUと国内データセンターを活用した推論API基盤「さくらのAI Engine」の一般提供を開始した。国内外の複数のオープンウェイトモデルやRAGの機能をAPI経由で提供し、AIを活用したアプリケーションの組み込みを支援する。

» 2025年09月30日 09時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 さくらインターネットは2025年9月24日、生成AI(人工知能)向け推論API基盤「さくらのAI Engine」の一般提供を開始した。

 さくらのAI Engineは、APIを通じて国内外の複数の基盤モデルやRAG(Retrieval-Augmented Generation:検索拡張生成)機能を提供するサービスだ。企業は、目的や性能要件に応じて基盤モデルを選択でき、AIを活用したアプリケーションを自社サービスに組み込むことができるようになるという。

 「さくらのAI Engineは、生成AI向けクラウドサービス『高火力』を基盤としており、生成AI活用に必要な機能群を統合した、ビジネス基盤の中核となるサービスだ」と、さくらインターネットは述べている。

6種類のモデルが利用可能 無料枠も

 さくらのAI Engineはテキスト生成(Chat completions)、音声の文字起こし(Audio transcription)、埋め込み(Embeddings)、RAGといった生成AIのユースケースに利用できる。提供開始時点では、以下の6つのモデルが利用できるという。

  • チャットモデル
    • 「gpt-oss-120b」
    • 「Qwen3-Coder-480B-A35B-Instruct-FP8」
    • 「Qwen3-Coder-30B-A3B-Instruct」
    • 「llm-jp-3.1-8x13b-instruct4」
  • 音声の文字起こしモデル
    • 「whisper-large-v3-turbo」
  • 埋め込みモデル
    • 「multilingual-e5-large」
  • RAG機能
    • 上記のいずれかのモデル

 利用者は、OpenAIのモデル(gpt-oss-120b/whisper-large-v3-turbo)、Alibaba Cloudのモデル(Qwen3-Coder-480B-A35B-Instruct-FP8/Qwen3-Coder-30B-A3B-Instruct)、日本のLLM(大規模言語モデル)研究開発コミュニティーであるLLM-jpのモデル(llm-jp-3.1-8x13b-instruct4)、Microsoft Research Asiaの研究者らが公開したモデル(multilingual-e5-large)から選択できる。

 RAG機能については、対象のデータを事前にベクトル化してベクトルストアに格納する前準備(埋め込み)が必要となるものの、自然言語での質問に対してベクトルストアから検索し、指定したモデルで自然言語に変換する一連の処理を、一つのAPIコールで実行できるとしている。

料金体系と価格

 さくらのAI Engineは「基盤モデル無償プラン」と「従量課金プラン」の2種類が用意されており、両方のプランで共通の無料枠が設定されている。テキスト生成は1カ月当たり3000回、音声の文字起こしは50回、埋め込みは1万回まで無料で利用できるという。

 無料枠を超過する場合、基盤モデル無償プランではAPIリクエストに対するレート制限が発生し、従量課金プランでは1万トークンごとの課金となる。

従量課金プランの価格(提供:さくらインターネット) 従量課金プランの価格(提供:さくらインターネット)

 gpt-oss-120bのような大規模オープンウェイトモデルを自社で運用するには高性能GPUの確保と運用ノウハウが必要であり、多くの企業にとって導入のハードルは高い。またRAGは、最新の自社データと生成AIを連携させる上で欠かせないアプローチとなるが、埋め込み、ベクトルストアなど複数のコンポーネント連携が課題となり得る。こうした背景から、開発工数や運用負荷を軽減しつつ、迅速にAI活用を始めるためのアプローチとして、外部の推論支援サービスを活用することは、現実的な選択肢の一つとなり得るだろう。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

スポンサーからのお知らせPR

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。