Web上の膨大な画像に基づく自動画像補完技術の威力

画像内に映り込んだ所望のオブジェクトを排除し、違和感の無い画像を生成するシーン補完技術に関しては近年複数の研究成果が発表されている。しかし中でも2007年のSIGGRAPHにて米カーネギメロン大のJames HaysとAlexei A. Efrosが発表した手法*1はブレークスルーとなりうる画期的なものだ。

論より証拠、早速適用例を見てみよう。本エントリで利用する画像はPresentationからの引用である。元画像の中から邪魔なオブジェクト等の隠蔽すべき領域を指定すると、その領域が補完された画像が自動的に生成される。




アルゴリズム

効果は抜群だがアイデア自体は単純なものだ。Web上には莫大な数量の画像がアップされており、今や対象となる画像の類似画像を一瞬にして大量に検索することができる。そこで、検索された類似画像で隠蔽領域を完全に置き換えてしまうことで違和感の無い補完画像を生成するのだ。



研究グループではFlickrより230万枚の画像をダウンロードし検索用データベースを構築した。gist scene descriptor*2,*3による特徴量に基づき、データベースから瞬時に対象画像の類似画像を検索する(99.99%の関係のない画像は前段階で切り捨てられる)。検索上位200件の類似画像に対し、位置合わせ処理、ブレンディング処理を行い、1)シーンの適合度、2)コンテキストマッチング適合度(色+テクスチャ)、3)グラフカットコストに基づき、スコアを算出し、上位の20結果をユーザに提示する(下図)。



画像が小さいので大きめの画像を4点示す。人物の写っている写真などは明らかにスケールがおかしいが、概ね違和感なく補完されていることが分かる。




実施例

海の風景という比較的均一なテクスチャの画像は比較的補完が簡単である印象を受ける。次にせっかくの観光写真に写り込んだ邪魔なバスを消す実施例を挙げる。これをPhotoshopなどで行うのはなかなか骨が折れる作業に違いない。



補完結果は次の通りだ。いずれの写真も元の風景からは完全に違うものになっている。ただし、その場所を知っている人が見れば写真の違和感に気付くだろうが、知らない人が見てもこれが自動的に補完されたものだとは気付かないだろう。



続いて実例を挙げていく。左から元画像、隠蔽領域指定、補完画像である。3例目の写真は日本の七五三祭りの様子が合成され、国が変わってしまっているが、この写真を単体で見ると日本人には何の違和感もない。クレーンや工事中の建物など、景観を乱す建築物やオブジェクトを違和感なく消し去ることができていることが解るだろう。



20人の被験者による主観評価によれば、テストケースの補完画像の内37%が本物と見分けが付かなかった。判断時間を10秒に限定すれば実に66%が本物と認識されたという。これは従来の補完アルゴリズムと比べれば極めて高い値だ。

続いて失敗例を示す。1例目は人工的な建物に同じ色合いの自然の岩肌を合成した結果ファンタジックな地形となってしまっている。2例目は人物は綺麗に消えているが、路面のテクスチャが境界の左右で異なってしまっている。3例目は自動車が綺麗に消えて一見違和感がないが、右側の男性の下半身が消えてしまって心霊写真のようだ。



こうした失敗はあるものの、20件候補が提示されれば、1枚は成功画像が見つかるだろう。この技術を応用すれば、画像の不必要な部分を指定するだけで、違和感なく画像を補完することがワンタッチで出来るようになるだろう。論文によれば当初1万枚の画像データベースで試した時には生成画像の品質は失望させられるものだったが、データベースを200万枚まで増やすと品質が飛躍的に向上したという。Web上にアップされる画像の総数は日々増加しているのだから(Flickrへの投稿画像は昨年30億枚を突破している)、それらを上手く活用することが出来ればより品質の高い補完画像を得ることが出来るだろう。数年の内にはこのアプローチによる画像補完機能をもつアプリケーションが一般的になるかもしれない(大量のコラ画像が溢れる状況が容易に想像できるが……)。

Web上のリソースを用いて、コンテンツを補完するアイデアは他にも応用が利く。たとえば、ATOKダイレクトではWeb上の情報に基づく予測変換によりユーザのテキスト入力を支援している。現在は単語レベルの補完に留まっているが、将来的にはWeb上の大量のコーパスからコンテキストにあった文章を補完するような入力支援が実用化されるだろう。Google検索によるコピペが動的に行われるようなものだ。

画像に限らず、音楽や動画などよりリッチなメディアの補完についても研究が進むと思われる(動画像の補完は計算量が爆発するから一工夫必要そうだが)。さらに同一種類のコンテンツの補完に留まらず、小説に画像やBGMを自動的に付与するなどメディアを越えた補完・融合も実現するだろう。あらゆるコンテンツはネットの向こう側にある膨大なコンテンツ群により補完、拡張されるようになるに違いない。

論文の最後で著者らは、目に見える全ての実世界を充分によく似た別の画像で置き換えることは可能かどうか考察し、それはおそらく可能であり、かつ、それに必要な画像の総数はそれほど大きくはならないだろうと推測している。目で見て感じること全てがリアルとバーチャルの区別が付かないほど自然に融合した拡張世界が現実になる日は案外近いのかも知れない。

*1:Hays, J. and Efros, A.A.: Scene Completion Using Millions of Photographs, ACM Transactions on Graphics (SIGGRAPH 2007), Vol.26, No.3 (Aug. 2007)

*2:Torralba, A., Murphy, K. P., Freeman, W. T., and Rubin, M. A. 2003. Context-based vision system for place and object recognition. In ICCV.

*3:Torralba, A., Fergus, R., and Freeman, W. T. 2007. Tiny images. Tech. Rep. MIT-CSAIL-TR-2007-024.