1/1000の圧縮率を目指す次世代動画像圧縮技術の行方

現在最高の圧縮効率を誇るAVC/H.264は1GbpsのフルHDTVを10Mbps以下に圧縮できる。1/100以上の圧縮率ということになるが、次世代beyond HDTVの8k4kの空間解像度、60〜300fpsの時間解像度、マルチスペクトルの色表現、10〜16bit/pelの画素値深度、複数視点を考えると情報量は16〜200Gbpsとなるため、ビットレートを100Mbpsまで許容したとしても、圧縮率をさらに10倍は引き上げる必要がある(1/1000以上)。

上記の要求に対し、短期的には従来のAVC/H.264で用いられている動き補償予測とDCTを組み合わせたMC+DCTの枠組みを維持し、改良を積み重ねて圧縮率向上を図るアプローチが取られるが、長期的には従来の枠組みに囚われない新たなブレークスルーが必要となる。本エントリでは、情報処理6月号の解説*1より、画像圧縮技術のブレークスルーの萌芽を紹介したい。

疑似表現符号化 (Pseudo-representation Coding)

従来の符号化が原画にできるだけ忠実に再現することを目的としていたのに対し、疑似表現符号化においては、「似てればOK」「それっぽければOK」という主観が重視される。たとえば森の映像を表現するとき、木々の一本一本、葉の一枚一枚まで忠実に再現しなくても、全体としてそれっぽく表現されていれば良いとする。

たとえば芝生、土、空、花畑、水、波、煙、風などのテクスチャ領域は、厳密に描画しなくてもそれらしく表現されていれば、画像全体を見た時に違和感がない。そこで、画像中のテクスチャ領域を抽出し、その領域を表現するパラメタセットを符号化、再生側ではパラメタセットからテクスチャを生成して合成するパラメトリックテクスチャが考えられる。グラフカットを用いたテクスチャ合成*2はその一例だ。小さな入力画像から、繰り返しが目立たない大きなテクスチャが生成されていることが分かる。



Graphcut Textures: Image and Video Synthesis Using Graph Cuts

また最近民生機器における応用が活発な超解像*3も有望な技術だ。超解像とは、解像度の低い画像から、本来含まれていない周波数成分を推定して、解像度の高い画像を生成する技術である。時空間的に隣接する情報から欠落領域を再生するinpaintingや、白黒画像からカラー画像を再生するcolorization *4超解像の一種だと考えられる。



Colorization using optimization

上図はcolorizationの適用例であり、凸二次最適化問題を解き、人手によるアノテーションからカラー画像を再現する。サイトには動画もアップされているが、エンコード時に低解像度化や白黒化するなどして情報量を落とし、デコード時に限られた情報量からリッチな情報を生成することができれば、圧縮率の向上が期待できる。

セマンティック符号化 (Semantic Coding)

セマンティック符号化ではさらに一歩踏み込んで、画像中の個々のオブジェクトに対してそれが何であるかを表現して伝える。場合によっては画像の構図が変わっても、画像の意図が伝われば良いと考えるアプローチだ。極論を言えば、夕焼け空が映っている動画を「夕焼け空の風景」という7文字に圧縮することも場合によってはあり得るかも知れない。

Web上の膨大な画像に基づく自動画像補完技術の威力 - A Successful Failureに示した画像補完手法*5は、Web上から検索された指定領域を類似画像で置き換えてしまうので、画像圧縮に応用すると画像の一部の情報量を無にすることも可能であり、疑似表現符号化とセマンティック符号化の間に位置する手法と言える。もっともこの方法をそのまま利用するとWebから大量に参照画像を取得する必要があるため、典型的な汎用テクスチャセットを整備する等の工夫が必要になる。



Scene Completion Using Millions of Photographs

Seam Carving*6は、画像内のひとまとまりのオブジェクトの形を維持したまま、縦横比を保存しない拡大縮小を行ったり、不要なオブジェクトを削除したり出来る画像編集手法として話題になった。Seam Carvingの効果は次の動画を見れば一目瞭然だが、seam-carving-guiというアプリケーションも公開されているので興味のある人は試してみると良いだろう(窓の杜紹介記事)。



コンテンツの意図を伝えるのに不要あるいは貢献度の少ない領域を抽出し、Seam Carvingにより重要な領域は残したままで不要な領域を間引いた画像を生成することができれば、レイアウトが変わっても、動画像の意図を保ったままファイルサイズを大きく圧縮できると期待される。重要な領域をどのようにして抽出するかが課題になるが、人検出技術などと組み合わせれば特定のコンテンツには有効に機能するかも知れない。

まとめ

MPEG2の2倍の圧縮率を誇るAVC/H.264のさらに10倍の圧縮率を実現するには、既存の枠組みに囚われない新たなアプローチが必要となる可能性が高い。今までは客観的な画像の同一性を可能な限り維持する考え方であったのに対し、今後は主観的な画像の内容や意図が維持されていれば良いと考える発想の転換が導入される。主観は人それぞれなので、こうしたアプローチが利用可能な画像はその内容のみならず、ユーザの属性やコンテキストによっても変化するだろう。もちろん、従来の延長上の画像圧縮技術もより高度化、洗練され今までと同様に利用されることになるだろうが、徐々に新たなアプローチが導入されていくと考えられる。

新たなアプローチによる画像圧縮技術は、ユーザに気付かれないうちに重要でない部分の描画を省略したり他と置き換えたりして高い圧縮率を実現する。実際にはここで紹介した以外の思いもつかない手法が考案され、より巧妙にユーザの認知から隠れて要領よく動作するようになるに違いない。そう、次世代の画像圧縮技術は「うまく手を抜くこと」を覚えるのだ。