AI、機械学習に必要なデータ整備、活用について取り上げる本連載。第2回は、AIが学習するためのデータにラベル付けを行う「アノテーション」作業をクラウドソーシングアプリで効率化しているAPTOの代表取締役 高品良氏に話を聞いた。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AI、機械学習に必要なデータ整備、活用について有識者にインタビューする本連載。前回は、AIが学習するためのデータにラベル付けを行う「アノテーション」を自動化する企業、FastLabelに話を聞いた。
今回は、アノテーション作業をスマホアプリで提供し、クラウドソーシング化することで素早いデータ生成を実現しているAPTOの代表取締役 高品良氏に、アノテーションに対する同社のアプローチなどについて話を聞いた。
APTOは、AIに必要な教師データを作成するアノテーション支援プラットフォームの運営やデータ収集支援事業を手掛ける、2020年に創業したスタートアップ企業だ。同社は、アノテーション作業をクラウドソーシングで効率化できるスマートフォン用アプリ「harBest」を開発、運営している。アノテーション作業の依頼があると、それをアプリユーザーが手分けして作業をする。アプリユーザーには、遂行した作業ごとに決められたポイントが付与され、それをためるとAmazonギフト券などの報酬と交換できる仕組みだ。アノテーション作業の品質が良く、身分確認済みのアプリユーザーは「Proユーザー」と呼ばれ、秘匿性が高いデータのアノテーションを比較的高単価で請け負うことができ、限られた作業者にだけ依頼したいという企業にも対応している。
手軽にアプリで報酬を得られることは、クラウドワーカーの裾野を広げ、ユーザー数の確保につながるが、その分作業の品質とトレードオフの関係にあるといえる。どうやって品質を担保しているのか。これに対し高品氏は「作業がきちんと実施されたかどうかを確かめるため、ある画像が犬を示しているかという事実を判断する作業であれば、同じ作業を3人や5人など、奇数人のユーザーに聞いて多数決を取ります。多数派の判断を正解と見なして、多数派の回答をしたユーザーの評価を上げ、反対に少数派ユーザーの評価を下げることで作業者にランク付けしています」と答える。高いランクのユーザーは作業できる案件が増えるため、その分多くの報酬を得ることができ、それが正確な作業への強い動機となる。アプリのアノテーション作業で、月に10万〜20万円分のポイントを得ているユーザーもいるという。
このアプリでできるのはアノテーション作業だけではない。画像や音声などのデータもクラウドソーシングで収集することができる。画像や音声のアップロードもPCよりアプリの方がハードルが低く、収集したいデータの種類にもよるが多種多様なものを集めることが可能だ。
前回の記事でも紹介したように「企業がPoC(概念実証)で3カ月間AIプロジェクトを行う場合、全体の2カ月から2カ月半はデータ作りに費やされることもある」など、AI開発におけるデータ整備は大きなボトルネックとなっている。アプリによるクラウドソーシングでは、どれほどの時間がかかるのか。高品氏によると、同様のアプリは海外では10年以上前から存在していたが、日本には同社がリリースするまで見当たらなかったという。アノテーションをAIで自動化する動きもあるが、同社では費用対効果の観点からクラウドソーシングを使った人の手によるアノテーション作業を主軸にし続けるというのが、高品氏の考えだ。
「アノテーションの自動化をAIで進めて効率化を図るのも前向きではあるものの、多かれ少なかれ、人間の手が必要な作業が存在するという前提は、これからも変わらないと考えています」(高品氏)
多くの企業からアノテーション作業やデータ収集の依頼を受けている同社だが、中には想定していた手法ではうまくいかなかったこともあるという。同社が提供するアノテーション作業で解決が難しかった事例を聞くと、「データの分類に専門知識が必要なタイプのアノテーション作業は難しいケースがある」と高品氏は語った。
「アノテーション自体に医療知識などの専門知識や、ある一定のユーザー属性、ユーザー視点が絡んでくるものは現状では対応が難しいことが多々あります」(高品氏)
データ収集も同様に、自宅の玄関や手持ちの洋服の上着など、誰でも用意できそうな画像の収集にクラウドソーシングは向いているが、特定の条件下でしか収集ができない種類のデータ収集は、クラウドソーシングといえども難しい。
「実際にあった例ですが、ビル上部にいる作業者がベルトに着けているフックの写真や、何か異常が起きている工事現場を真上から撮った写真の収集などは、このアプリでの用意が難しいという結論に至りました。一般の方が入れない場所や関わりのない領域に特化したデータの収集には向いていないので、何か別の方法を考える必要があります」(高品氏)
その他にも、個人情報の観点からユーザーの顔写真などのデータ収集はさまざまな面での考慮が必要なことから、取り扱いを控えている。アプリで収集すること自体は簡単にできるが「問題になる可能性がゼロではないことから、将来的には取り扱うこともあるとは思うが、気を付けて動向をうかがいつつ検討していきたい」としている。
「一方で、現在のProユーザーについては、職業や得意分野を入力することで専門性の高いデータ作成作業も依頼が可能になっており、より高度なアノテーション依頼も今後増えていくと予想しています」(高品氏)
同社は現在、企業から受注したデータ整備や収集の案件をアプリを介してユーザーに作業を依頼する形で運営している。これを将来的には、企業がアプリ上でユーザーに直接作業を依頼する形に移行していき、同社はアプリのアノテーション、データ収集に特化したクラウドソーシングプラットフォーム化を進めるという。高品氏によると、同様のアプリは海外では10年以上前から存在していたが、日本には同社がリリースするまで1つもなかったという。
「まだまだ一般ユーザーにはアノテーションという言葉自体がなじみのないものです。今後もっとアノテーションの案件数を増やして『自分はアノテーションで月に〇〇万円稼いでいる』『月に100万円稼いだ』といった世界観になるよう、アノテーション作業の周知化、効率化だけでなくユーザーへの還元という形で社会貢献していきたいと考えています」(高品氏)
アプリのプラットフォーム化を進める以外にも、アノテーションやデータ収集のコンサルティング事業やアノテーションスキルを持った人材の採用支援など、さまざまな方向で企業のアノテーションを支援していく方針だ。
アノテーション、データ収集というAI開発について回る課題にクラウドソーシングという切り口で解決策を見いだすAPTO。専門的なデータの整備、収集には向かないが、人間の判断が必要なデータ整備や収集では大きな効果を発揮する。AI開発におけるデータ整備の重要性が高まる中、迅速かつ効率的にデータを用意できる同社の試みは存在感を増していくのではないだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.