2010年11月03日
以前『Web上の膨大な画像に基づく自動画像補完技術の威力』において、Web上の膨大な画像から欠損部分を自動的に補完する手法*1について紹介した(図1)。
図1:Scene Completion Using Millions of Photographs
これは、Flickr等から大量にかき集めてきた画像から類似度の高い画像を自動的に抽出し、欠損部分にハメ込むことで違和感の無い補完画像を生成するアプローチであり、そのアイデアと、生成される補完画像のクオリティが話題になった。素材の量が質に変化する、まさにWeb時代に適したアプローチである。
本エントリでは同様の手法を用いて、失われた色を取り戻すカラリゼーション(colorization)について紹介したい。カラリゼーションとはコンピュータを用いたモノクロ画像の彩色のことを指し、近年長足の進化を遂げている分野の一つである。モノクロ写真の彩色や、元々色情報のないX線写真や電子顕微鏡写真のカラー化など応用範囲は広い。
図2:Colorization Using Optimization
図2はLevinらによる、人手による大雑把なアノテーションによって彩色するColorizationの一例を示したものだ*2。これは隣接画素のうち輝度が等しい部分は同じ色成分をもつという仮定に基づき、凸二次最適化問題を解いて画像全体の色成分を最適化するものだ。サイトには動画への適用例もアップされており、かなり効果的に彩色が行えていることが分かる。
図3:Transferring Color to Grayscale Images
一方、WelshはColor Transferと呼ばれる手法を提案している*3。これは、参考となる参照画像を与え、輝度や近傍の輝度の統計量が近い画素は色成分も近いという仮定に基づき、全画素に付いて参照画像から最適な画素の色成分を転送するという手法である(図3)。また、画素単位ではなく領域単位で色の統計情報を転送する手法も提案されている*4。
全自動のカラリゼーションを実現する
既存手法は得られるカラー画像の品質は一定の水準を達成しているものの、人手によるアノテーションの付与や、参照画像の指定が必要など、どうしても手作業が必要となる部分があった。それに対し、いわば上述の手法を組み合わせたような全自動でカラリゼーションを実現する手法が提案されている*5。図4:システムの概要
図4はシステムの概要を示したものだが、本システムでは図1で示した画像補間手法と同様に、Web上の膨大な画像の中から彩色の基準となる参照画像を自動的に選定し、それを用いることで対象画像の彩色を行う。画像データベースはFlickrからランダムに入手した150万枚の写真から構成される。参照画像としては、対象画像と構図が一致している画像を選択する。
図5:対象画像(a) 得られた類似画像群(b) 選択された参照画像(c)
まず画像データベースの各画像に対して、大局的な特徴量であるGIST scene descriptorが計算される。ここでは480次元のベクトルとなり、これを比較することで高速に参照画像と類似した画像を抽出できる。まず、150万枚の中から最も類似度が高い1000枚が抽出される。図5は対象画像(a)に対して抽出された16枚の類似画像(b)の一例である。続けて、得られた1000枚の中から次のステップで色の転送が行ないやすい最も輝度のヒストグラムが類似している画像を参照画像(c)として選択する。
図6:Color Transfer
参照画像が選択されれば、図3に示したWelshらのColor Transfer手法を応用して色成分の転送を行う。ここまでのステップで構図が類似した参照画像が選択されているため、各画素の輝度値、近傍5x5の標準偏差に加えて位置情報を特徴量とし、参照画像と対象画像の画素単位のマッチングを行う。そしてマッチングした画素間で色成分を転送する。図6はオバマ大統領の対象画像に対して、検索された参照画像から色情報を転送した結果を示している。位置情報を用いない既存の手法(Existing Color Transfer)では、参照画像の背景から大統領の顔に色成分が転送されて変な顔色になってしまっているが、本手法(Our Color Transfer)では参照画像の顔領域から色成分が転送されていることが分かる。
ここで色ムラが発生してしまっているが、さらに色ムラを抑えるため、図2のLevinらの手法を改良して、輝度が等しく隣接している領域が類似した色になるように最適化を行う。具体的には10%程度の画素をランダムで残し、他の色情報を消去、図2のLevinらの手法を用いて残った画素から消去した色情報を再決定する。これを画像の変化が閾値以下になるまで繰り返すことで、色ムラの修正が行える。
図7:色ムラの抑制
図7は提案手法によって最終的に色ムラが抑えられた結果を示している。単純にMedian Filterを施した結果と比べても色ムラが綺麗に除去されていることが分かるだろう。
実験結果
図8は本手法を用いてカラー化を行った結果を示している。ここでは元々カラーであった写真をモノクロにして、それをカラー化することで実験を行っている。ただし、モノクロ画像には元の色情報が完全に抜け落ちているため、必ずしもオリジナル画像と適合した彩色が行われるわけではない。
図8:実験結果
(a)(b)(c)は参照画像として対象画像と構図・意味的に非常に近い画像が検索できており、彩色結果も自然になっている。(d)(e)は参照画像として選択する画像に応じて得られる結果が異なる例を示している。ただし、どちらも彩色結果は極めて自然にできている。
一方失敗例の(f)は、構図は類似しているが意味的に全く異なる画像(F1カー)が参照画像として選択されてしまったため、彩色が失敗したケースである。これは類似画像の抽出に大局的な特徴量を利用しているからと考えられ、局所的な特徴量の採用や、ユーザがつけたタグなど意味的な情報を利用することで改善ができると考えられる。そもそも似た画像がデータベース内に存在しないというケースは、格納画像量を増やすことで回避できるだろう。
(g)は意味的に近い画像が検索出来ているにもかかわらず、オブジェクトが複雑なため彩色に失敗した例を示している。これは局所的な特徴量を利用してより正確にマッチングを行うなどの手法の改善が必要となる。
まとめ
以上のようにWeb上の大量の画像を用いて全自動でモノクロ画像の彩色を行うColorization手法について説明した。応用範囲としてはモノクロ写真の彩色だけではなく、たとえばモノクロイラストのカラー化なども可能になるだろう。絵を描いて、カラー化ボタンを押せば、適当に彩色していくれるようなアプリも実現するかも知れない。
Flickrには50億枚の画像、Facebookはさらに多く150億枚以上の画像がすでにアップロードされているという。これからもWeb上には大量に画像などのメディアがアップロードされていくことだろう。そうするとそれらの大量の画像をうまく組み合わせてやれば、欠けているものを補ったり、失われた色を取り戻すということが出来るのではないかと考えるのは、そう非現実的なことではなくなりつつある。
今目の前に見える風景は、どこかの誰かがずっと前に見た風景とほとんど同じかも知れない。風景だけでなく、耳に入ってくるざわめきも、鼻孔をくすぐる匂いも、肌に触れる空気も、みんなネット上から引っ張ってきたメディアをうまく切り貼りして再構築できる時代は案外早く来るのかも知れない。それらは実際にはオリジナルとは全く異なった様相を見せるのかも知れない。しかし人にとってそれが自然に感じられ、オリジナルと遜色が無い体験ができるのであれば、オリジナルに拘る必要はきっと無い。
関連エントリ
注釈
- *1:Hays, J. and Efros, A.A.: Scene Completion Using Millions of Photographs, ACM Transactions on Graphics (SIGGRAPH 2007), Vol.26, No.3 (Aug. 2007)
- *2:A. Levin, D.Linschinski and Y. Weiss,"Colorization Using Optimization," Proc. SIGGRAPH2004, pp.689-694, August, 2004.
- *3:T. Welsh, M. Ashikhmin and K. Mueller,"Transferring Color to Grayscale Images," Proc. SIGGRAPH2002, pp.277-280, August, 2002.
- *4:Yu-Wing Tai, Jiaya Jia and Chi-Keung Tang,“Local Color Transfer via Probabilistic Segmentation by Expectation-Maximization,” IEEE Computer Society Conference on Computer Vision and Pattern Recognition ,Vol 1, 2005.
- *5:Yuji Morimoto, Yuichi Taguchi, and Takeshi Naemura. 2009. Automatic colorization of grayscale images using multiple images on the web. In SIGGRAPH 2009: Posters (SIGGRAPH 2009).