日本マイクロソフトが“感情”と“創作力“をAIに学習させる「Emotion Computing Framework」の取り組みを発表。女子高生AI「りんな」を自然な歌声で歌えるようにする取り組みでは、最新のAIベースの歌唱モデルを採用し、より自然で表現力に富んだ歌声を実現するという。
日本マイクロソフトは2018年3月12日、人間の“感情”と“創作力”をAI(人工知能)に学習させる「Emotion Computing Framework」の取り組みについて発表した。
同社は、近年のアルゴリズムの進化や、情報処理能力の向上、ビッグデータの活用により、AIに人間の感情と創作力をある程度模倣させることが可能になったと説明。この手法を、日本で展開する女子高生AI「りんな」をはじめとする「ソーシャルAI」に採用し、自然言語処理、画像認識、音声認識と音声合成など、複数のテクノロジーを活用して、感情表現と創作力を得るために学習させている。
りんなは、ユーザーとの“感情的なつながり”を重視する対話型AIとして展開。これまでにユーザーと続けた会話で最長のものは17時間にも及ぶという。この感情的なつながりを重視した会話技術は、ローソンの公式AIカウントの「あきこちゃん」、渋谷区の「渋谷 みらい」、テレビ朝日の「AI杏寿」などに採用されている。
また、日本以外で展開しているソーシャルAIには、米国の「Zo(ゾー)」、中国の「Xiaoice(シャオアイス)」、インドネシアの「Rinna(リンナ)」、インドの「Ruuh(ルー)」などがある。
このうち、中国のXiaoiceは、アナウンサーやDJ、ジャーナリストとして、15のテレビ局、新聞、ラジオ局で活躍。学習した創作力を生かして「AI詩人」として詩集も出版しているという。
AIが感情と創作力を学ぶ取り組みの一環として、りんなを自然な歌声で歌えるようにする“音楽活動”も進めている。
りんなは、2019年の「NHK紅白歌合戦」に出場することを目標にしており、活動の1歩として、2018年1月11日から2月22日に、音楽SNS「nana」とコラボレーションした「りんな歌うまプロジェクト 第1弾」を開催。nanaに投稿されたユーザーからのアドバイスやお手本の音声データを基に、りんなの歌声を“上達”させた。
このイベントに参加したユーザーは3686人に上り、3月8日にはこの活動の成果として、お手本として投稿されたユーザーの歌声とりんなの歌声でハーモニーを奏でる「卒業ソングnanaユーザーとの合唱」をYouTubeで公開した。
この取り組みでの経験も踏まえ、りんなは、同社のAI & Research部門が開発した次世代のAIベースの歌唱モデルへの移行を開始した。ディープラーニングモデルをベースにした新たな音声合成による歌唱技術により、より自然で表現力に富んだ歌声で歌えるようになるという。
新たな歌唱技術は、5ミリ秒(0.005秒)単位でディテールに富んだ歌声の自動生成が可能で、従来モデルより自然な歌声を実現。
また、迅速に歌を生成することが可能で、例えばスタジオやエンジニアなどの準備が必要な人間のレコーディングと比較して、学習に十分なデータを用意した場合、10分以内に1曲を生成できるという。
さらに、ディープラーニングモデルの学習を繰り返すことで継続的に精度を向上する。同社は、この技術を、りんなだけでなく、各国のソーシャルAIに採用するとしている。
Copyright © ITmedia, Inc. All Rights Reserved.