得意なものを見つけること、そしてそれを好きになること――人に誇れる仕事こそが原動力:Go AbekawaのGo Global!〜Yonatan Wexler編(後)(1/2 ページ)
グローバルに活躍するエンジニアを紹介する本連載。コンピュータの可能性に魅了され、やがて人間の認知にまで好奇心を広げたYonatan Wexler(ヨナタン・ウェクスラー)氏。同氏が開発したデバイスは人類にどんな未来を見せるのか。
世界で活躍するエンジニアにお話を伺う「Go Global!」シリーズ。前回に続きOrCam TechnologiesのYonatan Wexler(ヨナタン・ウェクスラー)氏にお話を伺う。視覚障害のある人を支援するデバイス「OrCam MyEye」を開発した同氏が仕事をする上で最も大切にしていることとは何か。聞き手は、アップルやディズニーなどの外資系企業でマーケティングを担当し、グローバルでのビジネス展開に深い知見を持つ阿部川“Go”久広。
「曖昧さの個人差」をどう吸収するか
阿部川 「OrCam MyEye」の製品デモを見ましたが、おっしゃる通り非常に卓越した機能の製品だと感じました。一体どのようなメカニズムで、ものやテキストを認識できるのでしょうか。
ウェクスラー氏 「Scene Understanding」(シーンを理解する)というテクノロジーを使っています。周りの環境を理解して、そこに何があるかを認識し、その中から一番重要だと思われるものを選択します。これができないとOrCam MyEyeは見えたもの全てを言語化しようとしてしまいます。
阿部川 私がOrCam MyEyeのユーザーだとして使い込むごとに私の癖を学習して、より私に適した言葉を選んでくれるようになるのですか。
ウェクスラー氏 はい。使い慣れてきたら製品のモードをビギナー向けから、より高度な利用ができるモードにも変えられます。
阿部川 OrCam MyEyeは現在、25カ国、14言語に対応しているそうで非常に素晴らしいと思います。これらの膨大なデータを集約して、分析し、次期製品の開発に役立てていらっしゃるのですか。
ウェクスラー氏 はい、製品の改善、改良は継続的に実施しています。言語による違いをパターン化して解析していますが、特に日本語は独特で、まだまだ改良の余地は多いと思っています。日本語は1つ1つの単語の持つ意味が非常に豊富で、限られた語彙(ごい)でもさまざまな意味を表せます。曖昧さを含んでいるので、文章を理解するにはコンテクストの中のコンテンツと言いますか、「特定の状況や文脈の中で、何がどのように表現されたか」を理解する必要があります。
英語やドイツ語は、どちらかというと単語の意味が非常にはっきりしていて、誤解の余地が少ない。日本語は文章全体や文脈を理解した上で単語を選ばないといけません。
阿部川 私の大学での専攻は、言語人類学でしたから、それが大変難しいことはよく分かるつもりです。IT関連のインタビュアー、大学教授としても、AI(人工知能)による翻訳には非常に興味を持っています。
OrCam Technologiesの次のステップとして、1つの言語を顧客に提供するのではなく、複数の言語を翻訳し、それぞれの言語の話者に届ける、といったようなマルチ言語に対応したデバイスにするという方向性もあるのではないかと考えました。
ウェクスラー氏 大変示唆に富んだお話だと思います。翻訳はどうしても原語の意味がそぎ落とされることがあるので、それをどう解決するかがポイントですね。同じ言語で話していても「相手はどういうつもりでその話をしたのか」を推測しないと意味が分からないことがあります。そうした「曖昧さの個人差」をどうすればデバイスで吸収できるか。なかなか難しい領域ですが、チャレンジする価値はあると思います。
「できないことをできる」だけではなく「人生に豊かさを」
阿部川 OrCam Technologiesの国際市場開発営業部長のLeon Paull(レオン・ポール)さんのお話で「WHO(世界保健機関)によると世界には3億5000万人もの人が視覚に障害を抱えている」とありました。OrCam MyEyeは主にその方々をサポートするものですが、実はその方々だけではなく、失読症や失語症の方々もサポートできると思いました。
ウェクスラー氏 その通りです。人の視覚は光学的要素や筋肉、神経、脳などに関連するさまざまな要素が複雑に絡み合って視覚が成り立っているのですが、実は視覚情報というのは失読症や失語症に深く関わっています。
脳卒中を患った、ある幼い子どもの話です。その子は視覚をつかさどる脳の一部が機能しなくなってしまいました。その子と握手をするためにこちらが右手を差し出せば問題なく握手ができます。ですが、仮に両手を差し出すとその子にはどちらの手も見えなくなり、握手ができません。
こうした現象はテキストの認識においても発生します。ページの中に1つの円が書かれていれば「円が書かれている」と瞬時に認識できますが、それが3つの円になると「記号なのか、文字なのか」といったように認識に時間がかかります。脳の中で行われる手続きも多くなり、脳には大きな負担がかかります。先ほどお話した子どもは、脳の一部の損傷がそのような困難を引き起こしていました。このような理由で「テキストが認識できないから読めない、話せない」というケースがあります。
阿部川 なるほど、OrCam MyEyeはそういった方のテキストの認識をサポートできるのですね。
ウェクスラー氏 はい。病を患っていなくても、人は歳を取るに従って視力が低下してきます。テキストが見えにくいため、もう本を読みたくないという人もいます。そのような方々にも視力が低下しても楽しく本が読めますよ、と当社の製品を勧めています。
阿部川 日常を過ごすためのサポートだけではなく、人生を豊かにするためのサポートでもあるのですね。今後はどういった製品展開を予定しているのでしょうか。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- デイビッドは「カンパニーニューロンシステム」の夢を見るか
AIがもたらすのは「価値あるビジネスを作り出すための時間」だというDavid Malkin(デイビッド・マルキン)氏。同氏が語る「全てが統合し、連携し合うカンパニーニューロンシステム」の夢。それが実現したとき、人々の暮らしはどう変わるのか。 - 「データサイエンス100本ノック」の生みの親はなぜ「3言語のサポート」と「Docker」にこだわったのか
データサイエンスに興味がある技術者の間で話題になった「データサイエンス100本ノック(構造化データ加工編)」。生みの親である森谷和弘氏によると、この取り組みが生まれた背景には「データ分析の最も大きいニーズに応える環境がない」という課題があったという。 - オンライン会議の議事録を自動作成するサービスをユーザーローカルが無償提供
ユーザーローカルは、「ユーザーローカル音声議事録サービス」を無償で提供する。オンライン会議の議事録を自動的に作成するサービスで会話の流れを可視化できる。 - 機械学習/ディープラーニングが無料で学べる、米国有名大学の「オンライン講座/講義動画」
アメリカのスタンフォード大学/MIT/ハーバード大学/コロンビア大学/ニューヨーク大学といった有名大学の一部では機械学習や深層学習のオンライン講座/講義動画を無料で配信している。その概要と特長をまとめる。