AI、機械学習に必要なデータ整備、活用について取り上げる本連載。第1回は、AIが学習するためのデータにラベル付けを行う「アノテーション」作業効率化ツールを提供している、FastLabelのCEOに、昨今のAI開発事情について話を聞いた。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AIの利用が拡大している。B2C(Business to Consumer)領域でメガプラットフォーマーが提供するサービスだけでなく、B2B(Business to Business)領域のビジネスITにおいてもAIの採用が増えている。
その一因に、企業が保存しているデータの増加がある。特に、IoTセンサーやWeb接続できるカメラなど、日々蓄積される非構造化されたデータは、人間が確認できる容量をはるかに超えている。そこでAIを使ってそのデータを活用したいと考える企業が増えているからだ。
しかし、データをAIで分析するためには準備が必要である。AIが判別できるように、データに「ラベル付け」を行わなければいけない。この作業を「アノテーション」というが、ここに膨大な時間が費やされているという。
その課題解決に目を付け、2020年に創業した企業がFastLabelだ。代表取締役CEOを務める上田英介氏は、同社の創業の理由を次のように述べる。
「アノテーションはAI活用プロセスの最上流過程になります。例えば自動運転の車を作るときに、画像データの中で、これが車、これが人……、ということを学ばせるための教師データを作る必要があります。このデータ作りの作業が、非常に労働集約的であることが問題だと思っていました。そこで、その作業を自動化するツールを開発しようと思い立ったのが創業のきっかけです」
企業がPoC(概念実証)で3カ月間AIプロジェクトを行う場合、全体の2カ月から2カ月半はデータ作りに費やされることも珍しくないという。データ作りを自動化して短期間で終わることができれば、もっと高速でPDCA(Plan、Do、Check、Action)サイクルを回すことができて、結果として業務の改善が進むというのが、上田氏の考えだ。
AIの利用に関してデータ作成の重要性が増している理由は、テクノロジーの進化からも説明できると上田氏は語る。
上田氏によれば、今、AIの開発環境には大きな変化が訪れているという。2012年にディープラーニングという技術が登場し、AIの分析アルゴリズムに大きな革新があった。それ以降、AIの活用が一気に広がってきたことはよく知られているが、この時期はアルゴリズムが最重要視される「モデルセントリック」の時代だった。
モデルセントリック時代では、AIのエンジニアが一からプログラムを起こしてアルゴリズムを開発していた。同時に、AIの精度改善には、都度プログラムコードを改修しなければいけなかった。そのため、企業がAIを活用するためには、アルゴリズムを理解し、コーディングができるエンジニアが必要不可欠だった。
その状況が、現在は変化しているというのが上田氏の見立てである。「テクノロジーの進化によって、アルゴリズムはコモディティ化しています。企業がAIを導入する際、エンジニアは一般的に知られている幾つかのアルゴリズムを選び、固定した状態で使うことができるようになりました。そしてAIの精度向上は、アルゴリズムでなく、そのアルゴリズムに投入するデータそのものの種類や、ラベリングの質を変えることによって実現します。この段階を、モデルセントリックに代わる『データセントリック』の時代と呼んでいます」
データセントリック時代の最も大きな変化は、AIの開発にプログラミングの知識がない人でも携われるようになったことである。人材不足が問題となっているエンジニアに頼らずとも、AIの開発ができるようになった。「データセントリックになり、人材リソースの制限がなくなることは画期的なことです。AI人材の不足が解消されることで、これからAIの社会実装は爆発的に進むとみています」
ただし、いくらAIの開発にプログラミングのスキルが必要なくなったといっても、データの作成に時間を取られているようでは、AIプロジェクトは効率化できない。
一般的なAIの開発プロセスは次の流れとなる。まずデータを集めてくる工程が必要になる。次に、そのデータをAIで分析するための教師データを作成する。その後、分析のアルゴリズムを開発し、実際に分析する。そしてその結果を検証し、プログラムを修正する。
実はAI開発過程の中で、アルゴリズムを評価するプロセスや学習結果を評価する部分は、ここ数年で自動化がかなり進んでいる。「Amazon Web Services」(AWS)や「Google Cloud Platform」(GCP)などのクラウドプロバイダーが提供する標準的なサービスも出そろっているという。データ作成工程だけが、最後まで自動化が進んでいないボトルネックだった。
その背景について上田氏は、これまでAIで分析するデータについては、ユーザー企業任せになっていて、そこの面倒を見るベンダーが存在しなかったからだという。「実際のところ、AIベンダーの人もデータのアノテーションをどうすべきかについてはよく分かっていない場合が多いと思います。そのため、ユーザー企業から相談を受けても『やってみなければ分からない』という形で進めていき、結果的にうまくいかなかったときは、データが悪いということにされるケースもありました」
そのため企業は、なんとか自力でデータを整備しようと試みてきた。当然、ユーザー企業もアノテーションについて詳しいわけではない。データの中身については理解しているものの、それをどうラベル付けすればAIの分析がうまくいくのかが分からず、手探り状態での作業となる。
また、アノテーションを手作業で行う場合、ツールの準備と運用にも大きな負担がかかる。「一般的なオープンソースのツールの場合、自分のPCにインターネットからダウンロードして、セットアップする必要があります。操作性もいいとはいえないため、作業の効率は上がりません。そのため、データを作るだけで数カ月かかることもあります」(上田氏)
前述した、PoC期間の大半をデータ作りでつぶしてしまう事態は、このような構造から生まれてしまうのである。
この状況を改善するために登場したのが、FastLabelのアノテーションサービスである。ラベル付けなどのアノテーション作業をAIによって自動化することで、データ作成の作業を70〜90%削減することができる。
実際に同社の自動アノテーションサービスを利用するには、顧客からデータをアップロードしてもらい、まず同社のAIで自動的にアノテーションを実行する。最終的に人によるデータのチェックを経て修正し、顧客に返す。教師データを作る作業に、AI(機械学習=ML)を用いていることから、同社ではこれを「ML for ML」と呼んでいる。
対応するデータは、画像、動画、音声、テキスト、点群データの5種類である。今後はセンサーデータなど、IoT機器が直接吐き出すデータもカバーする計画だ。
特に引き合いが多いのは、画像や動画のデータだという。それらを多く保有している業界が製造業、建設業、不動産業などである。製造業では製品の外観検査の画像、建設業では図面や建設現場に置かれたカメラからの映像データなどのニーズが増えている。
ここでの難しさは、教師データを作る際の参考になるAIの学習パターンが専門的なため、公開されている知見は役に立たないことだ。例えば製品の不良品を画像から判定する場合でも、企業によってその基準は異なり、一般的な判断基準はあまり役に立たない。
そこで同社では、データを受け取る前にユーザー企業の現場の担当者と議論を重ね、要件定義を固めている。現場のプロとデータ整備のプロが話し合い、同社がデータにラベル付けを行う。この過程が最終的なAIの精度に大きく効いてくると上田氏は言う。
同社は、すでにそろっているデータのラベル付けに関する支援だけでなく、データをどう収集するべきかについても企業にノウハウを提供している。
例えば食事を撮影した画像をAIで分析してカロリーを計算したいという要望があったとする。その際、食卓の真上から写真を撮った画像では、カップの中身が水なのか日本酒なのかといった区別はできない。しかし写真を横から撮り、「おちょこ」の形をしていればそれが日本酒であると推定できる。つまり、人間がどこに注目してどういう特徴量を判定しているかのノウハウがあれば、ラベル付けの精度を上げることができる。
また、人間の顔は笑っているのか泣いているのかが分からない微妙な表情をするときがある。個人差も大きい。そうした曖昧なデータは判別するときにAIを悩ませるため、取り除き、はっきりした表情のものだけを教師データとして使うようにしている。アノテーションには、データを標準化する役割も求められるのである。
「データの種類に応じて特徴を整理することが必要です。それにはさまざまなデータを理解し、何が重要かを判断する経験値が求められます」
実際に、データの整備がうまく進められなかった企業から同社に相談を持ちかけられ、再度挑戦したところ、精度が約30%向上して実用レベルに達したという事例もあるという。
同社ではこうした個別事例の経験で蓄積したノウハウを集約し、代表的なユースケースについて、テンプレート化した自動化ツールとして提供を開始している。2021年末から開始し、すでに30のユースケースを登録しており、2022年度中にそれを100個まで増やす計画だ。
個人情報など、データの取り扱いについても注意が必要になっている。「画像データの中には人間の顔や車のナンバー、建物など、個人情報やさまざまな権利が含まれています。データの取り扱いと同意の取り方については、慎重に進めていく必要があります」
データのアノテーションの観点からいうと、個人が特定できないよう、例えば人の顔にぼかしを入れたデータを学習させるケースがある。しかし、それでは認識の精度は落ちてしまう。精度を維持しながら個人情報に配慮する方法を考えるのが今後の課題だという。
もう一つの問題は、データの偏りだ。例えば、人を検出する際に教師データに人種の偏りがある場合、白人しか認識できないなどの問題を起こす。同社では過去の経験や業界全体の事例を踏まえ、データの種類によってどのような偏りが起きやすいか、企業へアドバイスをしている。
同社では、今後はユースケースの拡大とともに、企業がデータを集める際の支援や、権利関係をクリアしたデータの提供にも力を入れていきたいとしている。それらの施策によって、アノテーションベンダーから、AIのデータプラットフォーム企業に進化していきたいと上田氏は語る。
「あらかじめユースケースに合わせたアノテーションやアルゴリズム、後処理などのプロセスが用意されていて、企業が分析したいデータを持ち込むとすぐに分析結果が出せるようなプラットフォームができれば、AIの利用はますます活性化します。そういうプラットフォームを提供する企業になっていきたい」
AIにおいてアルゴリズムが差別化要素でなくなったことで、AIプロジェクトの成功は、データの作り方に依存する段階を迎えている。効率的なアノテーションを実現した企業が、AI活用を制することになるだろう。
Copyright © ITmedia, Inc. All Rights Reserved.