本物と見違えるような画像補間を実現するパスフレームワーク手法

SIGGRAPH2009で発表された"Moving Gradients: A Path-Based Method for Plausible Image Interpolation"という論文*1では、2枚の連続する入力画像を与えると、その間のフレームを極めて自然に補間生成する新たな手法を提案している。



図1

図1は両端の入力画像A, Bから間の3フレームを生成した例を示している。生成する補間フレーム数は任意で何枚でも生成可能であり、極めて自然な補間が実現できている。この例の驚くべきところは、制約条件を有する複雑で柔らかな局所変形を含む自然な補間画像が、全自動で生成されている点である。モーフィング処理では対応点を一点一点指定する必要があるが、ここで必要なのは2つの画像を選択するだけだ。

生成される補間画像の品質は素晴らしく、またアイデアもシンプルで興味深いので、原論文を参照して本手法の概要を紹介したい。本エントリで紹介する画像は全て原論文からの引用である。詳細は原論文を参照されたい。


【告知】@LunarModule7でつぶやいています。
興味のあるかたはフォローください。

基本的なアイデア



図2

基本的なアイデアは、補間フレームの各ピクセルは入力画像から引っ張ってこられるというものだ。図2(a)は画像AがtA=0からtB=1にかけてx方向に移動した画像Bの様子を示している。図2(b)はピクセルpの補間フレームを示したものだ。補間フレームは入力画像から移動してコピーする事で生成される。補間フレーム内のピクセルは最初入力画像Aからコピーされるが、途中のある点において入力画像Bからのコピーに遷移する。

図2(c)において、補間パスは画像Aピクセルpから開始し、画像AピクセルpAまで移動し、画像BピクセルpBに遷移し、画像Bピクセルpまで至る。パス上の遷移点(transition point)は、2つの画像が良くマッチする点から選択されるため、視覚的に自然な補間を得る事ができる。また2つの画像をブレンドするのではなく、遷移させる事で、ぼけやゴーストの発生を抑え、元画像の周波数成分を保存する事ができる。

このアルゴリズムオプティカルフロー*2に似ている(図2(d))。通常のオプティカルフローでは入力画像A,Bからピクセルを投影するが(図2(d)の矢印)、本手法ではオプティカルフローを効率的に逆に辿り、ある時間におけるピクセルが元画像のどこに対応しているかを計算し(図2(b)の矢印)、引っ張ってくる事によって実現されるとも言える。こうすることで、オプティカルフローで問題になるホールやノイズの問題を回避できる。

また、遮蔽に強いのも本手法の特徴である。遷移点を柔軟に設定可能であるため、たとえ片方の入力画像においてピクセルpが遮蔽されていたとしても、遷移点をパス上の適当なところに決める事で、自然な補間画像の生成が可能となる。補間パスは遮蔽の有無に限らずロバストに発見でき、後処理においてパスの一貫性をチェックするだけで遮蔽領域を決定できる。こうして、従来のオプティカルフローが不得意とする様な遮蔽を有する補間生成においても良い性能を発揮する。

アルゴリズム概要

ここではアルゴリズムの概要を述べる。実装の詳細は割愛するので原論文を参照していただきたい。

パスフレームワーク

上記のように基本的なアイデアは各ピクセルpにおいて補間パスを発見し、パス上の遷移点を経て、入力画像間を繋げることにある。図2で示した例は簡単のため水平移動を扱っているが、パスフレームワークはあらゆる線形パスを扱う事ができ、一般化されている。パスωは画像A,Bの2つの移動ベクトルmAmBを用いてω=(mA,mB)と表される。

補間フレームl=(p, t)上のピクセルpが与えられた時に、まずそのpは画像A,Bのどのピクセルから来たのかを算出する。標準的なオプティカルフローでは補間フレーム内の全てのピクセルが入力画像内に対応するピクセルを有するとは保証されないため、ホール(空白域)が生じる場合があるが、パスフレームワークではそのような問題は発生しない(補間フレーム上のピクセルが出発点なので)。また、オプティカルフローでは画像A, B間を直線のフローが結ぶ事を想定しており、曲線移動などは想定していない。一方、パスフレームワークはこのような制限を有しないため、急激に曲がるような場合を除いて大抵の動作に対応できる。その代わりに、パスフレームワークは補間フレームにおいてピクセルpを通る全てのピクセル/点は同一のフローを有する事を想定している。実際この仮定は、遮蔽の境界処理を除くほとんどの場合でうまくはたらく。ただしオプティカルフローもパスフレームワークも複雑なライティングの変化には対応できない。

もっともらしい遷移点の決定

図2(c)に示すように、ピクセルpの遷移点pApBはパス(mA,mB)によって次のように表される。


pA=p+mA  pB=p-mA  (1)

遷移点pApBは画像中で最も2つの画像がマッチするところに設定できる。遷移点の前後で動きの方向が変わらないようにするために次の制約を設けている。



図3(b)は図3(a)に示す2つのステレオ画像の各ピクセルの遷移点のパス全体における位置をパーセンテージで示したものだ。このパラメタはマッチングコストと密接に関連するが、画像全体で大きく変動している事が分かる。



図3

遷移点の導入は従来手法に比べて補間画像の品質を向上させる事に寄与している。実際標準的なオプティカルフローは遷移点をパスのどちらかの端に固定させているとも言える。パスフレームワークではオプティカルフローではなくパスを直接導出するが、遷移点間の距離から前方フロー、後方フローを予測することができる。


vA=pB-pA  vB=pA-pB  (2)

遮蔽から離れた領域では、前方フローと後方フローはほぼ等しくなる。遮蔽に関しては次に述べる。
遮蔽対応

遷移点導入がもたらすもう一つの利点は遮蔽を比較的シンプルに決定論的に扱う事ができる点にある。本手法では遮蔽において2つのレイヤ/オブジェクトだけが寄与する事を仮定している。3以上のレイヤ/オブジェクトが絡む場合は本手法では扱わない。



図4

図4(a)と(b)は2つのオブジェクトを示している。前面のオブジェクトはアルファベットで示され、背面のオブジェクトは数字で示されている。背面オブジェクトは静止しており、前面オブジェクトが4ピクセルだけ左に動く。結果として図4(c)に示すように、領域"0123"が画像Aにおいては遮蔽されて見えず、画像Bにおいて出現する。

図4(c)は一つのパス候補を示している。遷移は両方の画像において見えるgで起こる。一方、図4(d)は別解となる。これは遷移がfで起こっているだけで全く同様である。このように遮蔽があるからといって特別な考慮をせずともパスの導出が行える。これは最適化において遮蔽の解決が必要なオプティカルフローに比べて明確なアドバンテージとなる。

一旦パスが決定されれば、遷移点pApBが判明し、式(2)を用いてフローを導出できる。図4(c)と(d)は遮蔽領域のピクセルpにおけるフローを示している。画像Aにおけるpは画像Bと対応する点をもつため前方フローを予想する事はできる。しかし、背景オブジェクトの"1"は画像Aにおいては見えないので、後方フローを定義する事はできない。このようにパスフレームワークでは、それらが存在するならば、前方フロー、後方フロー、ないしはその両方を計算する。この特性によって遮蔽領域をロバストに検出する事が可能となる。

勾配/ポアソン再構築

さらに勾配ドメインを用いて補間を行う。一旦ピクセルpにおけるパスが導出されれば、ピクセルをパスに沿って移動させ勾配値をコピーする事で、補間フレームにおけるpの空間的勾配を得る。pの時間的勾配はこのパス上を動く2つの連続するピクセル間の輝度の差を見る事によって計算される。その上で、得られた勾配に基づき3Dポアソン再構築を行う事で補間フレームを得る。3Dポアソン再構築では、エラーが時間的にも空間的にも全ての補間フレームに渡って分散されるので、局所的なノイズの発生を抑える事ができる。さらにl2ノルムにおいて勾配が最短となる画像を生成するため、エッジを保護し、ぼけの発生を抑える事ができる。

評価



図5

図5は従来多く提案されてきたオプティカルフローによる画像補間処理との比較結果である。ここではhttp://vision.middlebury.edu/flow/で配付されているオプティカルフローデータセットを用いている。このサイトでは最新のオプティカルフローアルゴリズムの適用結果がまとめられており*3、画像処理ベンチマークとして広く利用されている。

図5は背景にあるボールが落下している様子を写したものだ。一番左が2枚の入力画像から生成された中間フレームの補間画像である。その一部を拡大した結果を右に示すが、Ground Truthが真値であり、本手法(Our Method)だけがボールの形状を失わず良い結果を得ている事が分かる。他のオプティカルフロー手法はボールが分裂するなど破綻している。また本手法ではゴーストの発生を抑制し、ボールの近くの遮蔽もほぼ正しく処理できている。遮蔽領域の縁付近には少しぼけが発生しているが、サブピクセルを用いたマッチングなどを適用し精度を上げればさらに改善すると期待できる。



図6

図6は本手法が想定していない複雑な例を示している。このバスケットボールの例では、手と背景とボールの3つのレイヤが絡み合っている。こうした2つ以上のレイヤが絡む複雑な遮蔽を含む画像においては、従来手法と同様に本手法(Our Method)でも正しい補間を行う事ができない。



図7

図7は本手法を構成する3つのステップ、遷移点の設定、遮蔽処理、そしてポアソンブレンディングがどれだけ結果に寄与するか見るために、図5で示した例に対して、各ステップを選択的に適用した結果を示している。結果を見れば分かるように3ステップそれぞれが補間画像の品質向上に寄与しており、これらの3ステップがあって初めて品質の良い補間画像が得られる事が分かる。



図8

図8は後処理によって遮蔽領域を検出した例を示している。遮蔽領域は青で示されているが、ボールの周辺や他の縁において遮蔽領域が正しく検出されている事が分かるだろう。

パスフレームワークを用いたアプリケーション

ビュー補間



図9

図9は象の像の2つの異なるビューを示している。イメージ間の最大視差、すなわち動きは30ピクセルであり、これは大抵の既存補間手法が扱える上限を越えている。図9(a)は図9(b)に示す2枚の入力画像から補間生成したビューであり、拡大画像(図9(c))を見ると真値(図9(d))と良く適合していることがわかる。また大抵の遮蔽領域の境界において遮蔽をうまく処理できており、一部左耳の近くにノイズが見られる程度だ。

ビデオのフレーム補間

ビデオシーケンスの時間的なアップスケーリングや補間は重要なアプリケーションの一つである。複雑でやわらかい形状のオブジェクトの動作を含む補間は従来手法で扱う事は困難だったが、本手法では極めてうまく補間を実現している。



図10

図10は固定された視点から撮影されたビデオシーケンスの2つのフレーム間(図10(a)(b))の補間例(図10(c))である。この例は従来手法(図10(f)〜(h))では遮蔽領域の境界付近にゴーストやノイズが発生し、低品質の結果しか得られないが、本手法(図10(e))は真値(図10(d))に極めて近い良い結果が得られている。この例では本手法を用いて8枚の中間フレームの生成を行い、1/9倍速の再生を可能にした。

静止画のアニメーション化

図1に示した例では通常の顔(図1(a))と笑ってウィンクしている顔(図1(c))の2枚の入力画像からその間の3枚の補間画像を全自動で生成しているが、これは極めて難しい処理である。似たような出力を実現する技術にモーフィングがあるが、モーフィングでは人手により対応点を設定する必要がある。本手法では極めて自然でスムーズなアニメーションを実現している。



図11

図11は通常、スマイル、ウィンク、スマイル+ウィンクの4つの異なった画像間の補間を示している。4つの顔を矩形の頂点と考え、矩形内の任意の点に相当する顔を生成する事が可能だ。右に示した赤、青、緑で囲われた画像は、左の矩形内の対応する点に相当する補間画像を生成したものである。自然な表情の変化が生成されている事が分かる。



図12

図12はあくびをする猫に対する補間画像の生成例である。真ん中の赤枠で示した2枚が生成された補間画像だが、毛皮のようなノイズの目立ちやすいテクスチャにおいても、高品質で自然な補間画像が得られている。

まとめ

本論文で提案されたパスフレームワークは、非常にシンプルな考え方に基づく手法であり、申し分ない性能を発揮する。低コストで高品質な画像補間が可能にするアプリケーションは多岐に及び、たとえば離散的に配置された複数カメラからの映像に基づき、任意視点の映像を得ることで、自由視点のスポーツ中継を実現したりできるようになるかも知れない。また、昔の低能力のビデオカムで撮影した子どもの成長記録ムービーデータを加工する事によって、まだ幼く素直だった子どもの高品質・高精細な動画を得るだけではなく、自由にインタラクションが行えるようになるかも知れない。元となるデータがある程度揃っていれば、それらの品質を向上し、足りない部分を補完して、本物以上に本物らしく再現する事が可能になる日は近い。

とりあえず記録は取っておくべきだ。記録さえあればきっと後からなんとでもできる。

*1:Dhruv Mahajan, Fu-Chung Huang, Wojciech Matusik, Ravi Ramamoorthi, and Peter Belhumeur. "Moving Gradients: A Path-Based Method for Plausible Image Interpolation". ACM Transactions on Graphics (SIGGRAPH 09), 28(3), July 2009.

*2:BARRON, J., FLEET, D., AND BEAUCHEMIN, S. 1994. Performance of optical flow techniques. Int. Journal of Computer Vision 12, 1, 43.77.

*3:BAKER, S., SCHARSTEIN, D., LEWIS, J. P., ROTH, S., BLACK, M. J., AND SZELISKI, R. 2007. A database and evaluation methodology for optical flow. In Proc. IEEE Int. Conf. Computer Vision, 1.8.