マサチューセッツ工科大学(MIT)の研究チームが、Generative Adversarial Network(GAN:敵対的生成ネットワーク)モデルの条件を操作できるツールを開発した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
マサチューセッツ工科大学(MIT)の研究チームがGenerative Adversarial Network(GAN:敵対的生成ネットワーク)編集ツールを開発し、2020年8月23〜28日開催のオンラインカンファレンス「ECCV 2020」で発表した(ECCVは、European Conference on Computer Visionの略)。
GANは、生成器(ジェネレータ)と識別器(ディスクリミネータ)と呼ばれる2つのニューラルネットワークで構成され、敵対的学習を行うことで極めてリアルな画像や音声を生成する。ほとんどのディープラーニングモデルと同様に、学習には大量のデータセットを必要とする。多くのサンプルを学習するほど、生成する画像や音声の模倣精度が向上する。
だが、研究チームの論文の主執筆者であるMITの博士課程の学生デビッド・ボー氏はこう述べている。「GANは素晴らしいアーティストだが、見るデータを模倣することしかできない。われわれがGANのルールを直接書き換えることができれば、GANを制約するものは人間の想像力だけになる」
さらに、同氏はこう説明する。「GANは、データに既に存在するパターンしか学習しない。だが、われわれのツールでは、例えば、帽子をかぶった馬の画像を生成するように、モデルの条件を操作することが可能だ」
ボー氏によると、GANのニューラルネットワークの層において、木のような特定の特徴物の描画を学習した人工ニューロンを特定し、そのスイッチをオフにすることで、木を消すといったことが可能だという。ボー氏はこの洞察に基づいて、ユーザーが画像に対してドアや雲のような特徴物を追加、削除できるツール「GANPaint」の開発を手伝った。その過程でボー氏は、GANには頑固な面があることに気付いた。「例えば、GANは、空にドアを描かせまいとする」という。
「GANには『ドアはそこにない』といったルールがあるように見えた。これはわれわれにとって興味深かった。プログラムのif文があるように思われたからだ。これは、GANのネットワークには何らかの内部ロジックがあるという明確なシグナルだと、私は考えた」(ボー氏)
ボー氏は、条件文に相当するものを求めてモデルの層を探索する実験を重ねた。「そして次のことが分かった。それは、ニューラルネットワークには、一連の一般ルールとして機能するさまざまなメモリバンクがあり、それらが、ある学習済みパターンセットを別の学習済みパターンセットに関連付けているということだ。あるメモリラインを特定できれば、そこに新しいメモリを書き込めるということが理解できた」(ボー氏)
ボー氏は、ECCVでの発表に先立って、自身が設計した直感的なインタフェースを使って、モデルを編集し、メモリを書き換える方法を披露した。例えば、ある画像から木をコピーし、別の画像内の、タワービルの上というあり得ない場所に貼り付けた。するとモデルは、木が生えたタワービルの写真を大量に生成した。ボー氏はさらに数回クリックし、馬に乗った人の頭から馬の頭に帽子を移動したり、キッチンのカウンターから光の反射を消したりした。
一方、GANの編集には限界もある。モデルがレンダリングする物体や動物に対応するニューロンを全て特定するのは、容易なことではないと、研究チームは述べている。また、編集が不可能なルールもありそうだという。
それでも、チームが開発したツールは、GANが広く研究されているコンピュータグラフィックスや、エキスパートAIシステムのトレーニングに、すぐに応用することが可能だ。
MITの研究チームが開発したGAN編集ツールでは、ある画像セットから特徴物をコピーし、別の画像セットに貼り付けることで、新しいテーマ(ここでは、帽子をかぶった馬)を反復する画像を無限に生成できる。
Copyright © ITmedia, Inc. All Rights Reserved.