＠IT
AI IoT
Smart & Social
「GPT-4o」でファインチューニングが利用可能に　使...

「GPT-4o」でファインチューニングが利用可能に　使い始めるには、事例は、セキュリティは？：有料ユーザーは9月23日まで1日当たり100万のトレーニングトークンが無料

OpenAIは「GPT-4o」のファインチューニング機能の提供を開始した。コーディングやクリエイティブな執筆といったユースケースで、モデルの出力結果に大きな影響を与える可能性があるという。

» 2024年09月11日 10時50分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　OpenAIは2024年8月24日（米国時間）、大規模言語モデル（LLM）「GPT-4o」のファインチューニング機能の提供を開始した。有料プランのユーザーは、9月23日まで1日当たり100万のトレーニングトークンを無料で活用できる。

Fine-tuning now available for GPT-4o | OpenAI

　「ユーザーは、カスタムデータセットを使用してGPT-4oをファインチューニングすることで、特定のユースケースでも低コストで優れた結果を得られる。モデルに出力の構造とトーンをカスタマイズさせたり、ドメイン固有の複雑な指示に従わせたりすることもできる。トレーニングデータセットに数十の例があるだけで、優れた結果を生み出すこともできる。ファインチューニングは、コーディングやクリエイティブな執筆といったユースケースで、モデルの出力結果に大きな影響を与える可能性がある」（OpenAI）

GPT-4oのファインチューニングを使い始めるには

　GPT-4oのファインチューニングは、有料プランのユーザーが利用できる。使い始めるには、ファインチューニングのダッシュボードにアクセスし、［Create］をクリックして「Base Model」のドロップダウンから「gpt-4o-2024-08-06」を選択する。GPT-4oのファインチューニングにおけるトレーニング（学習）の費用は100万トークン当たり25ドル（2024年9月23日まで無料）。推論の費用は100万入力トークン当たり3.75ドル、100万出力トークン当たり15ドルだ。

　「GPT-4o mini」のファインチューニングも、有料プランのユーザーが利用できる。GPT-4oと異なり、使い始めるには上記Base Modelで「gpt-4o-mini-2024-07-18」を選択する。2024年9月23日までの無料トレーニングトークンは、1日当たり200万まで提供される。

GPT-4oのファインチューニングで優れた結果を示した事例

　過去数カ月間、OpenAIはパートナー数社と協力して、GPT-4oにおけるファインチューニングをテストし、パートナーのユースケースについて学んだという。以下、事例を2つ紹介する。

Cosine Genieが開発者向けベンチマークで検証

　Cosineの「Genie」は、ユーザーと協力してバグを自律的に特定して解決し、機能を構築し、コードをリファクタリングできるAIアシスタントだ。複雑な技術的問題を推論し、より正確に、より少ないトークンでコードを変更できるという。

　Genieは、ソフトウェアエンジニアの作業例に基づいてトレーニングされた、ファインチューニング済みGPT-4oモデルを搭載しており、モデルに、特定の方法で応答することを学習させることができる。特定の方法とは、例えば、コードベースに簡単にコミットできるパッチなど、特定の形式で出力できるなどだ。

　Genieは、ファインチューニングした結果を、GitHubから収集されたソフトウェア開発の課題をAIで自動的に解決する機能を評価するベンチマーク「SWE-bench」を活用して検証した。SWE-benchの「Verified」（サンプル数が「Full」（後述）より少ないが、人間のアノテーターによる検証済みデータを使う）ベンチマークで43.8％というSOTA（State-of-the-Art）スコアを達成した。

SWE-benchの「Verified」ベンチマークの結果（「Fine-tuning now available for GPT-4o | OpenAI」から引用）

　「Full」（Verifiedよりサンプル数が多いが、自動で収集されたデータを使う）ベンチマークでも30.08％というSOTAスコアを達成しており、以前のSOTAスコア、19.27％を上回ったという。

DistylがテキストをSQLに変換するベンチマークで検証

　Fortune 500企業をAIで支援するパートナー企業、Distylは最近、テキスト（自然言語）からSQLへの変換における主要なベンチマーク「BIRD-SQL」を活用した。DistylのファインチューニングされたGPT-4oは、リーダーボードで71.83％の実行精度を達成した。SQL生成、クエリの再調整、意図の分類、Chain-of-Thought（思考の連鎖）、自己修正といったタスクで優れた結果を示したという。