Transformers v5公開、5年ぶりの大刷新　“軽量・運用重視”を前提に役割を再定義：Deep Insider Brief ― 技術の“今”にひと言コメント

AI開発で事実上の標準であるHugging FaceのTransformersがv5へとメジャーアップデートされた。内部設計の刷新により、vLLMなどの外部ツールと組み合わせやすくなり、量子化モデルを含む軽量・運用重視の使い方を前提としたライブラリへと進化している。

» 2026年02月03日 05時00分公開

[一色政彦，デジタルアドバンテージ]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

連載目次

　AIモデル、とりわけ大規模言語モデル（LLM）の開発でデファクトスタンダード（事実上の標準）となってきたHugging Faceのライブラリ「Transformers」が、2025年1月26日にメジャーバージョンv5.0.0へと更新された。2020年12月に公開されたv4以来、約5年ぶり（厳密には4年1カ月ぶり）となる大規模な刷新であり、派手な新機能の追加よりも、内部設計の見直しに重きが置かれている。

Transformers v5のリリース告知画像：LLaMAやvLLMなど多様なAIモデル／ツール群を中心で支える存在として描かれている（Hugging Face公式ブログより）

　“Transformers”という名前に、あまりなじみがない読者もいるだろう。Transformersは、自然言語処理や画像処理といった分野で広く使われてきたPythonライブラリで、多くのAIモデルの「標準的な実装」を提供している。研究用途から実務まで、AI開発の現場で定番として使われてきた存在だ。

　そのメジャーバージョンが長らく更新されてこなかったのは、開発が停滞していたからではない。v4系は、当時注目されていたBERTやGPT系モデルをはじめ、幅広いAIモデルを支え、事実上の標準として十分に機能していたからである。

　しかし、ここ数年でAI開発の環境は大きく変わった。学習や推論、実行の分業化が進み、Transformersは単体で完結するツールではなく、多様なツールと連携する前提の存在になりつつある。v5は、そうした変化を受けて役割を整理し直すための進化と捉えられる。

　その具体像の一つが、TransformersをAIエコシステム全体の「ハブ」として位置付け直した点だ。学習ではUnsloth、推論ではvLLM、ローカル実行ではllama.cppといった、各工程に特化したツールと組み合わせる前提の設計が進められている。

――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の発表から技術の“今”をもう一歩だけ掘り下げていく。

　Deep Insider編集長の一色です。こんにちは。

　Transformers v5と聞いて、「これまでの書き方が大きく変わるのでは？」とか、「既存コードとの互換性は大丈夫なのか？」と気になった人も多いのではないでしょうか。結論から言うと、日常的な簡単なコードは、多くのケースでそのまま動くはずです。ただし、v5では一部のAPIや機能が変更／削除されているため、公式の移行ガイドも用意されています。必要に応じて確認しておくと安心です。

　一方で、個人的に注目しているのは、ローカルLLMや軽量モデルを前提とした使われ方です。Transformers v5では、量子化モデルを意識した学習や変換の流れが整理され、学習後はvLLMのような高速推論エンジンや、llama.cppといったローカル実行環境へ渡す、という使い方がより現実的になっています。現在のAI環境にフィットしており、現場での活用が広がっていきそうです。

　もちろん、自分でAIモデルを組まない人にとっても、Transformers v5は無関係な話ではありません。なぜなら、あなたが今日使うAPIやチャットツール、ローカルAIアプリの多くは、このTransformersをはじめとする基盤技術の上で成り立っているからです。だからこそ、「v5で何が変わったのか」をざっと把握しておくことには十分な意味があります。

　以下では、Transformers v5のポイントをできるだけコンパクトに、分かりやすく整理していきます。気になるところだけ拾い読みするのもよいと思いますので、ぜひ目を通してみてください。

更新内容

主要APIの刷新と内部設計

動的な重みロード（Dynamic weight loading）： 新たにWeightConverter APIを導入し、チェックポイント読み込み時に重みの結合・分割・並べ替えといった変換処理を柔軟に適用できるようになった。これにより、従来は事前変換が必要だった複雑なモデル構成についても、チェックポイントの物理的な保存形式に縛られず、ロード処理を含めて実装しやすくなっている。量子化や並列化を組み合わせた構成も、こうした前提で扱いやすくなる設計となっている
トークナイザーの再設計： 従来の「slow（Python製）／fast（Rust製）」という二重構造を整理し、Rust製のtokenizersライブラリを中核とする単一バックエンドへ移行。LlamaTokenizerなど既存トークナイザーを継承しつつ、独自トークナイザーを定義・学習する流れが分かりやすく整理された

推論処理と生成まわりの整理

推論処理の整理と最適化： 内部構造の整理により、Flash AttentionやSDPA（Scaled Dot-Product Attention）などの高速化手法を取り込みやすい設計となった。特定の推論エンジンを内包するものではないが、vLLMなど外部の高速推論基盤と組み合わせた運用を前提とした改善が進められている
生成パラメーターの分離： 生成に関する設定をモデル定義（config.json）から切り離し、GenerationConfigオブジェクトを通じて管理する構成へ整理された。これにより、学習時の設定と生成時の挙動を明確に分離できる

学習対応と破壊的変更の整理

大規模学習を見据えた内部整理： Hugging Face Accelerateとの連携を前提に、シーケンス並列化など、長文データや複数GPUを想定した学習手法に対応しやすい内部構造へと整理が進められている
バックエンドの集約： Flax／TensorFlow向け実装を縮小し、PyTorch実装へ開発リソースを集中。これにより、PyTorch環境での性能向上と保守性の改善を図る方針が明確になった。また、画像処理まわりではimage_processorがtorchvisionバックエンドに統一されている
互換性に注意： report_toのデフォルト値が"none"に変更され、ロギング設定が明示的になった他、VLM（視覚言語モデル）では内部構造の整理によりmodel.language_modelへの直接アクセスが非推奨となり、model.get_decoder()メソッドの利用が推奨される。詳細は移行ガイドを参照のこと