用語「SOTA(State-of-the-Art)」について説明。機械学習では、ある特定のタスク&ベンチマークとなるデータセットにおいて論文の内容とその機械学習モデルが「現時点での最先端レベル(=最良/最高)の性能(=正解率などのスコア/精度)」を達成していることを表す。
SOTA(State-of-the-Art)とは、製品や科学などの、ある特定の専門技術領域において現時点での最先端レベル(=最高/最良)の性能(=機械学習では正解率などのスコア/精度)を達成していることを表す、一般的な用語である。
特に近年の機械学習の分野では、論文間で性能(スコア)が激しく競われており、特定のタスク(例えば画像分類、物体検知、言語モデリング、機械翻訳など)およびベンチマークとなるデータセット(ImageNetやCIFAR-10など)ごとに最良(best)の性能を発揮するモデルは「SOTAモデル(Model)」と呼ばれて注目されるようになっている。SOTAモデルは下記のリンク先で探せる。
SOTAは、SotAやSoTAとも表記される。「State of the Art」とハイフンを入れない場合は名詞として使われる。「State-of-the-Art」とハイフンを入れる場合は、名詞だけでなく形容詞としても使われ、「State-of-the-Art Model」で「最先端のモデル」のような意味になる。一般的にはハイフン付きで書かれている。
「State of the Art」のArtは、「芸術」という意味ではなく、上記の通り「製品や科学などの、ある特定分野の職人技術/専門技術」を意味している。Stateが「状態」という意味なので、State of the Artを直訳すると「現時点の職人技術/専門技術の状態」という意味になる。通常、職人や専門家が現時点で全力でなし得る技や技術というのは、その時点の最先端を走っている最高/最良レベルのものであるはずだ。よって今では「State of the Art」だけで、「最先端」もっと言うと「最高/最良レベルの技術」であることを含意するようになっている(参考:「State of the art - Wikipedia」の「Origin and history」)。
機械学習分野において、SOTA達成を公表することは、単に「その技術領域での最高スコアの達成」だけを意味するとは限らないことに留意したい。例えば以前には解決できなかったタスクをSOTAモデルによって「解決」したことを、研究分野のコミュニティーに通知している可能性がある(例:AlphaFoldによって50年解決できなかったタンパク質構造の問題を解決)。また、SOTAモデルが採用した新しい手法が、現在の業界標準的な手法を大きく「革新」することを、研究と実業界のコミュニティーに通知している可能性がある(例:Transformerが自然言語処理タスクの標準的な手法を革新)。
Copyright© Digital Advantage Corp. All Rights Reserved.