機械には世界がどう見える? イスラエルの少年はゲームより「認識」がお好きGo AbekawaのGo Global!〜Yonatan Wexler編(前)(2/2 ページ)

» 2020年09月30日 05時00分 公開
前のページへ 1|2       

読めなくても「文字かどうか」は判別できる不思議

阿部川 大学を卒業後はMicrosoftに入社されます。製品開発の部署だったとお伺いしていますが。

ウェクスラー氏 はい。それまで学んだ知識やテクノロジーを実際の製品に応用できないかと考えていましたので、そういった研究をしているチームで仕事を始めました。現実的に製品化して市場に出せるかどうかが、そのテクノロジーが本物かどうかの判断材料になると思ったからです。Microsoftには4年在籍しました。

 主にコンピュータと視覚、ビジョンの処理といったものを研究開発していました。面白かったのは「テキストの認識」がコンピュータには難しいということです。Googleの「ストリートビュー」のような映像を見たとき、その中にはテキスト情報がありますね。研究では、コンピュータにそのテキストを読み込ませたいわけですが、そのためには「そこにテキストがある」ことをソフトウェアに認識させなければなりません。人間ならすぐできますよね。私は日本語が分かりませんが、もし日本に行って何かの看板を見たら「文字が書いてある」ということは分かります。

阿部川 なるほど、確かに読めなくても「文字かどうか」は判別できますね。

ウェクスラー氏 そうです。ただ、コンピュータの場合は「どこからどこまでが画像データで、テキストデータはどれなのか」といったことを認識させる必要があります。でも人の脳は、その人がわざわざ自覚しなくとも、瞬時にそのテキスト情報を認識します。私はそれが不思議でした。

 そこで私は人の動きや思いといったものを注意深く観察しました。その結果、私たちがテキストを認識するとき「1つ1つの文字の筆順や筆致を確認する」というよりは「文字の全体情報を認識している」ことが分かりました。そこで、その認識の仕方をアルゴリズムにできないかと考え、「画像情報と文字情報を同時に参照させ、文字情報だけを瞬時に認識させる」という実験を繰り返し実施しました。

阿部川 面白いですね。

ウェクスラー氏 はい。実際の製品でもこの実験の結果は使われています。

ユーザーが本当に欲しい情報だけをどうやって選択すれば良いか

阿部川 その後、OrCam Technologiesに入社されます。きっかけは何だったのでしょうか。

ウェクスラー氏 ヘブライ大学のAmnon Shashua(アムノン・シャシュア)教授(OrCam Technologiesの共同設立者)から直接連絡があり、一緒にやらないかと誘われたのです。

阿部川 直接スカウトされたのですね。OrCam Technologiesは2010年設立で「OrCam MyEye」を2015年に発表していますが、その前に、自動車関連の製品も開発し、市場に出しています。

ウェクスラー氏 はい、シャシュア教授は自動車の衝突回避システムを開発しているMobileyeという会社の共同設立者でもあったので自動車関連の製品も扱っています。

阿部川 ウェクスラーさんの開発した最初の製品はOrCam MyEyeということになりますか。

オーカムマイアイの紹介動画

ウェクスラー氏 はい。「目に障害がある方に対して、ITで何か手助けができるのではないだろうか」と考えたのが始まりです。その方々が必要としているものは何だろうと考えました。一般的には、盲導犬やつえが思い浮かびますよね。ただ、実際にその方々にお会いしてお話を伺ってみると、たくさんのニーズがあることが分かりました。

 例えば「自分が今いる周りの状況を知りたい」というニーズがありました。周囲の状況が瞬時に分かれば確信を持って、次の行動に移ることができるから、という理由です。どうすれば、それに応えることができるかと考えました。

阿部川 なるほど、盲導犬やつえを利用すれば「ぶつからずに歩く」ことはできても、周囲の状況をすぐに把握することは困難です。

ウェクスラー氏 その通りです。そして、こうしたサポート機器はいつでも使えなくてはならないので、簡単に壊れない高い品質が必要ですし、片手ででも使えるようにしなければならない。そのような要求を実現し、なおかつ使いやすい製品として完成させるためには、多くの時間が必要でした。アイデアが生まれてから試作品にこぎ着けるまで3年かかりました。試験的に利用していただいた方からのフィードバックを反映し、最終的な製品として完成するまでにはさらに2年ほどかかりました。

阿部川 お話を伺っていると、以前から培われてきたモービルアイのテクノロジーとウェクスラーさんの製品に対するビジョンが、OrCam MyEyeという製品に集約されたように思います。

ウェクスラー氏 そうかもしれません。ただ、モービルアイの視覚に関するテクノロジーとOrCam MyEyeで使われている視覚テクノロジーはちょっと違います。「視覚(カメラ)の情報を基に運転のサポートをする」ことと「視覚の情報を基に状況を伝え、運転のサポートをする」ということは必ずしも同じではありません。私たちの日常生活は、車の運転以上にさまざまな状況に遭遇します。看板一つとっても生活する場所によって見える文章はさまざまで、フォントやスタイル、伝えている情報は全て違いますよね。

画像 製品デモをするウェクスラー氏(YouTubeから引用)

阿部川 確かに。しかし、それを製品に反映するのは大変そうです。

ウェクスラー氏 一番大変なことは、自然なユーザーインタフェースを構築することでした。ユーザーが欲しいと思うどんな情報でも提供できなければなりません。かといって、街の中にあるものを片っ端から喋り続け、止まらなくなっては意味がありません。「ユーザーが本当に欲しい情報だけをどうやって選択すればよいか」ということを考えなければなりませんでした。

阿部川 ユーザーが必要な情報はどれか、を判断しなければならないわけですね。

ウェクスラー氏 そうです。書いてあるものを全て読もうとすると、どこが大切なポイントなのか理解するまでに時間がかかりますから。そのため、その人が読みたいところを指さすと、指さした部分のテキストをシステムに認識させることにしました。人を指さすことが失礼にあたる文化もあることは承知しておりますが(笑)、このような人の自然な動作をデバイスが認識して必要な情報を提供すれば、多くの人の役に立つのではないかと思ったのです。



 小さいときからテクノロジーに触れ、コンピュータを用いた視覚研究に興味を持ったウェクスラー氏。「見たことと認識したことは違っている」という難問に対して同氏が出した答えは視覚障害者の支援ツールであるOrCam MyEyeだった。後編は同氏が仕事をする上で最も大切にしていることについて伺った。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。