検索
ニュース

軽量動作も可能なオープンソースの大規模言語モデル「Falcon」が登場一般的なPCでも推論やファインチューニングが可能に

UAEのTechnology Innovation Instituteは、Apache-2.0ライセンスの下でリリースした言語モデル「Falcon」について公式ブログで紹介した。

Share
Tweet
LINE
Hatena

 UAE(アラブ首長国連邦)のTechnology Innovation Institute(以下、TII)は2023年6月5日(現地時間)、Apache 2.0ライセンスの下でリリースした言語モデル「Falcon」について公式ブログで紹介した。

 Falconは、「Falcon-40B」と「Falcon-7B」の2つのベースモデルで構成されている。40Bモデルは2023年6月時点で、オープンソースLLMのベンチマーク比較「Open LLM Leaderboard」で公開されているランキングのトップに位置している。7Bモデルは同規模のモデルの中で最も高い性能を示したという。


Open LLM Leaderboardのランキングトップ5(2023年6月28日閲覧)

 Falcon-40Bは、約90GBのGPUメモリを必要とする。これは、性能が優れているLLaMA-65Bよりも少ない数値だ。一方、Falcon-7BはGPUメモリを約15GBしか必要とせず、推論やファインチューニングを一般的なコンピュータでも利用できるという。

 TIIは、モデルのinstructバージョンである「Falcon-7B-Instruct」と「Falcon-40B-Instruct」も提供している。これらは、命令と会話データにファインチューニングされており、より一般的なアシスタントタスクに適している。モデルを素早く試したい場合は、これらのバージョンが適しているという。また、コミュニティーによって作成されたさまざまなデータセットを基に、独自のinstructバージョンを作成することも可能だ。

訓練データの詳細

 Falcon-7BとFalcon-40Bは推論を最適化するために、それぞれ1.5兆トークンと1兆トークンのデータで訓練された。Falconの高品質を支える主要な要素は、訓練データにあるという。これらのデータは、主にCommonCrawlに基づく新しい大規模Webデータセットである「RefinedWeb」を使用している(80%以上)。

 TIIは、分散し選定されたソースを収集する代わりに、Webデータの拡大と品質向上に重点を置いており、大規模な重複削除と厳格なフィルタリングを活用して、他のコーパスと同じ品質を実現している。Falconの訓練には「Reddit」などの会話データなどのソースが含まれているが、その割合は「GPT-3」や「PaLM」などの最先端のLLMに比べて少ないという。

デモ

 公式ブログに埋め込まれたプレイグラウンドで、Falcon-40Bを試すことができる。


(提供:TII)

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る