生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会:AIと法律・知財・契約
2019年1月1日施行の「著作権法30条の4」により、日本ではAIの学習済みモデルの生成にネット上の情報が(ほぼ)自由に使用できるという。DEEP LEARNING LAB 勉強会で説明された、その内容を紹介する。
ご注意:本記事は、@IT/Deep Insider編集部(デジタルアドバンテージ社)が「deepinsider.jp」というサイトから、内容を改変することなく、そのまま「@IT」へと転載したものです。このため用字用語の統一ルールなどは@ITのそれとは一致しません。あらかじめご了承ください。
日本マイクロソフト主催の勉強会「DEEP LEARNING LAB: AI開発を円滑に進めるための契約・法務・知財」が1月25日に開催された。
AIに関する法的な課題となる事例や、AIを「発注するユーザー」と「作るベンダー」はどう契約を結べばよいのか、について、具体的にガイドラインを示しながら説明された。実際にAIを取り組もうとしている企業にとっては参考になる話が多く、筆者自身も大いに参考になった。
その内容をすべてお伝えしたいところだが、3時間ほどの長丁場であり、しかも残念ながら動画配信などもなかったことから、勉強会全体の内容を書き起こすことはあきらめた(※一部の内容がカットされたスライド資料だけは公開されているので、本稿の最後で紹介している。興味がある人はそちらも参考にしてみてほしい)。
この記事では、セッションの中で筆者が衝撃を受けた「日本は機械学習パラダイス」という話題に絞って、簡単に内容を紹介したい。発表者はSTORIA法律事務所の弁護士、柿沼 太一 氏だ。経産省の「データ契約ガイドライン検討委員会」の委員を務めた経歴を持つ人物である。
「日本は機械学習パラダイス」
柿沼氏の話の中で、筆者が一番興奮したのは図1のパートだった。
その内容とはつまり、
日本においては、
第三者が著作権を有している生データから、
学習用データセットや学習済みモデルを、
適法に、生成できる
ということである。要するに、一部例外はあるにせよ基本的には、インターネット上に公開されている情報を自由に活用してAIの学習済みモデルを作成できる、ということだ。
これは、AIの機械学習モデルを作る立場である筆者にとっては朗報であり、機械学習が非常にやりやすくなったと感じる。一方で、筆者自身や筆者の所属会社にとっては、インターネット上で公開している著作権コンテンツがAIの生成で勝手に使われるかもしれないという立場でもあり、それに不満を感じる、というのも本音だ。
立場によって、賛否両論が起こり得る内容ではある。しかし、機械学習やAIの分野で日本の技術者が活躍するためには有効な内容であることは間違いないだろう。AIや機械学習に関連する人に向けて、ぜひ今回の内容を紹介したい。
この内容の根拠となっているのが、最近の2019年1月1日から施行された著作権法30条の4である。この法令の内容について、ポイントだけコメントを入れながら、順を追ってスライドを示していく(※なお、筆者自身は著作権法について詳しいわけではなく、本稿の厳密性や、本稿により発生したいかなる損害やトラブルなどにおいても筆者や本サイトは責任を一切負わないので、その点はあらかじめご了承いただきたい)。
解説:著作権データからの学習済みモデルの生成についての課題と現状
図2のように「第三者が著作権を有している生データから、適法に学習用データセットや学習済みモデルを生成したい」という課題があるとする。
一般的に機械学習は、図3のフローに従って、作業を行う。具体的には、生データを収集してデータベース(DB)を作成し、何らかのデータ処理後の学習用データセットを準備する。そのデータセットを使って機械学習やディープラーニング(DL)を行い、学習済みモデルを構築し、それを公開したり販売したりする。
その生データは、インターネット上から収集されるケースが多々ある。そのコンテンツの著作権の取り扱いをどうすればよいか、と悩んでいる人は多いだろう。確かに著作権には、私的複製や引用といった一定の例外(=権利制限規定)が設けられている。機械学習の生データは、そういった例外に含まれるのかどうか、という点が問題となる。
例を挙げよう。図4は、AIでアニメキャラクターを自動生成する「MakeGirlsMoe」というサービスである。
このAIサービスの学習済みモデルの生成は、美少女ゲーム・アニメの情報&通販サイト「Getchu.com」の画像が生データとして用いられたと考えられている(図5)。
そこで、MakeGirlsMoeには図6の論点が提起される。一番重要なのは、「MakeGirlsMoeはGetchu.comに対する著作権侵害ではないのか?」ということである。
ここであらためて、機械学習の一般的なフローを振り返ってみよう。図7に示すように、生データ→学習用データセット→学習済みモデルという流れの間には、それぞれAIサービス側による作業が発生している。
その作業とは、具体的には「作業1: 複製(=データ収集)」「作業2: 翻案(=データ処理)」「作業3: 過程の中で複製や翻案(=機械学習やディープラーニング) 」である(図8)。これらのいずれの作業も、著作権者の承諾なしでは行うことができないはずだ。
しかし、これでは機械学習が簡単にできずに、日本のAIを取り巻く産業は他国から後れを取ってしまうだろう。そこで決まった権利制限規定の法令が著作権法30条の4である。
Copyright© Digital Advantage Corp. All Rights Reserved.