現状、ニューラルネットワーク翻訳が学習を進め精度を上げるには、人間の助けが必要だ。では、具体的にどのような形で人が関与するのであろうか。
AI向けに学習データの提供や再編集を行う「Gengo AI」というサービスを提供するGengoで話を聞いた。対応してくれたのは、同社プロダクト部長のチャーリー・ワルター氏だ。Gengo AIは、自然言語処理のAI開発に必要な学習データの収集、提供や精度向上のために学習データの再編集を行うサービスだ。
学習データの提供は、具体的にAI学習に必要なビッグデータを提供する際、データに意味を持たせるラベリング(タグ付け)を実施するそうだ。例えば、文章の場合であれば、単語やフレーズに下記のようなタグ付けを行う。
この作業を行うのは、同社に登録済みの2万1000人以上のクラウドワーカーたちだ。クラウドワーカーといってもその多くは、同社のテストに合格した翻訳家など言葉のプロたちである。Gengoは従来、翻訳業務を行っていたこともあり、翻訳の専門家集団を組織している。
では、タグ付けには、どの程度の専門知識が必要なのであろうか。
「画像と異なり、言語へのタグ付け作業は、各国語のリテラシーの高いスタッフが実施しないと十分な品質が保てない。弊社では、言語のプロがその作業を行う」(ワルター氏)
さらに「機械翻訳のアルゴリズムは、各サービス間で大きな違いはない。そうなると、学習データの量と品質が翻訳能力の差となって現れる」(ワルター氏)と明かす。つまり、機械が学習するための良質なデータをインプットしなければ、アルゴリズムが優秀でも期待されるだけの進化が見込めないということであろう。
さらに、AIの能力を継続的に向上させるには、一度インプットした学習データの再編集も重要になるという。これは、機械の学習能力だけで認識や適切な処理が行えない例外ケース(学習データにない情報)において、再度、人間がタグ付けなどの作業を実施することで精度を上げていくためのプロセスだ。
今回は、自然言語処理の身近な例として機械翻訳を取り上げたが、Gengo AIは、「翻訳」だけでなく、「文字起こし」「コンテンツ要約」「コピーライティング」「センチメント分析」(感情分析)といった自然言語処理に関連したあらゆる分野に向けて学習データの提供が可能だという。
とても、複雑な思いが交錯する今回の取材であった。文筆業の末席を汚す人間として、AIが高度な文章を生成する日がやってくることは確実であり、そのとき自分はどう振る舞えばよいのか自問するだけで、道が見えなかったからだ。
もちろん、今回の取材で答えが見つかったわけではない。ただ、言語空間に漂う無限ともいえる「表現」の領域を機械ごときが簡単に侵食できるものではない、という確信を得ることはできた。いつかは、文章の生成で人間を超えるときがやってくるのかもしれないが、まだ生きていれば、そのときは、AIが書いた小説にダメ出しをして留飲を下げるとしよう。
音楽制作業の傍らIT分野のライターとしても活動。クラシックやワールドミュージックといったジャンルを中心に、多数のアルバム制作に携わる。Pure Sound Dogレーベル主宰。ITライターとしては、講談社、KADOKAWA、ソフトバンククリエイティブといった大手出版社から多数の著書を上梓している。また、鍵盤楽器アプリ「Super Manetron」「Pocket Organ C3B3」などの開発者であると同時に演奏者でもあり、楽器アプリ奏者としてテレビ出演の経験もある。音楽趣味はプログレ。
Copyright © ITmedia, Inc. All Rights Reserved.