ニュース
超長文が処理できるオープンソース商用利用可LLM「MPT-7B」が公開:LLM最新モデル4種類のMPT-7Bが登場
MosaicMLはオープンソース、商用利用可のLLM最新モデル「MPT-7B」を発表した。この基本モデルを元に構築できるMPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+もあわせてリリースした。
MosaicML Foundationは2023年5月5日(米国時間)、商業利用可能なオープンソースのLarge Language Models(LLM)、MPT(MosaicML Pretrained Transformer)シリーズをリリースした。最初のモデルである「MPT-7B」は、テキストとコードの1兆トークンをゼロから学習したトランスフォーマーモデルである。MPT-7Bにより、ユーザーはデータの準備からトレーニング、ファインチューニング、デプロイまで、プライベートなモデルを自ら構築できる。
MPTモデルシリーズは以下の4種である。
MPT-7B Base
ベースモデルの「MPT-7B Base」は、デコーダーのみを持つトランスフォーマーモデルで、67億のパラメータを持つ。1兆トークンのテキストとコードでトレーニングを行った。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 大規模言語モデル(LLM:Large Language Model)とは?
用語「大規模言語モデル」について説明。大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことを指す。 - Google Cloud、生成系AI利用のセキュリティプラットフォーム「Security AI Workbench」を発表
Googleは「Google Cloud Security AI Workbench」を発表した。セキュリティに特化した大規模言語モデル(LLM)である「Sec-PaLM」をベースにした業界初の拡張可能なセキュリティプラットフォームとうたっている。 - Microsoft、大規模言語モデル(LLM)を用いたAIアプリ開発を支援するVS Code拡張機能を公開
Microsoftは、Visual Studio Codeの拡張機能「Semantic Kernel Tools」を公開した。大規模言語モデルを用いたAIアプリケーションをVisual Studio Codeで素早く簡単に開発できる。