2次元画像からリアルな立体映像をつくり出すことができれば、エンタテインメントはもちろんのこと、さまざまな分野で活用できるだろう。例えば医療画像に写る病巣の形状復元、写真をもとにした製造物の劣化や破損の状態確認など、多様な応用が広がる。池畑は従来法に深層学習を組み合わせた画期的な手法を開発し、基礎と応用研究の両面から3次元復元の道を拓く。
池畑 諭
コンテンツ科学研究系
助教
2009年、東京大学文学部行動文化学科心理学専修課程を卒業後、2011年に東京大学大学院学際情報学府、2014年に東京大学大学院情報理工学系研究科にて修士号(学際情報学)、博士号(情報理工学)をそれぞれ取得。2014年から米国ミズーリ州ワシントン大学セントルイス校にてポスドク研究員を経て、2017年より現職。画像や映像から形状や材質などを復元する3次元コンピュータビジョンの研究に従事している。
さまざまな方向から光を当てた写真など、2次元画像から3次元情報を復元するコンピュータビジョン研究に取り組む池畑。意外にも研究の出発点は心理学だった。
「学部2年の終わりに進路を決める際、人間の行動に興味を持ち、心理学を専攻しました。フィールドワークをやりたくて文化人類学と迷ったほどです」
結局、脳科学に近い知覚心理学の研究室に入り、人間の立体視のしくみを探るなかで、視覚を数理的なモデルでより詳細に表現したいと考えるようになり、人間の知覚をコンピュータで再現するコンピュータビジョン研究へと進んだ。
修士論文で手がけたのは、多視点カメラの2次元情報から立体映像を復元する取り組みだ。結婚式で来場者がそれぞれ、手持ちのスマートフォンなどで撮影する新郎新婦の多数の写真をもとに立体映像をつくりたいと考えた。
「精度を上げるためには複数の視点からの多くの写真が必要で、実際には結婚式での撮影は叶いませんでしたが、たくさんの人がどの場所から撮影してもその人のカメラの位置や姿勢を推定し、それらを組み合わせて物体の3次元形状を復元する技術を開発しました」
その後、1台のカメラでさまざまな角度から光を当てて対象物を撮影し、対象物の多くの陰影パターンをもとに3次元復元をする「フォトメトリックステレオ法」と出合った。
「この手法の特長は、カメラが1台かつ固定で良いこと。また、露光をさまざまに変えて撮影することで輝度値の階調を大幅に上げられることから、微細な形状の復元が可能になります。しかしそのためには、あらかじめ被写体の材質や光の反射経路を知る必要がある。反射モデルが複雑になるとうまくいきません」
そこで池畑が2018年に発表したのが、反射モデルが定義できない部分について、深層学習の一つである畳み込みニューラルネットワーク(Convolutional Neural Network=CNN)を使う手法だ。フォトメトリックステレオ法において世界初となる池畑の提案は、通常の深層学習と違って入力する画像の枚数を固定する必要がない。ソースコードをオープンにして発表したところ[1]、この技術を発展させるための議論も活発に行われるようになり、実応用される日も遠くないだろう、と考えている。
さらに最近、この手法に物理モデルを導入することで、解くべき問題を狭め、従来は100枚程度必要だった画像を10枚程度に減らして、精度よく3次元復元することに成功した。
「対象物の表面の材質や色、反射特性を物理モデルで同時に推定して、入力画像に近づけるように最適化すると、すべての情報が整合性を持つようになる。つまり数学的に保証される。新しい深層学習に従来の物理モデルを組み合わせることで研究がさらに進みました」
そのほか応用研究として、3次元復元技術の不動産応用も手がける。RGB-D(色と距離)センサーから得られた部屋の2次元データをもとに、壁、天井、床といった各要素とそれぞれの関係性を「構造グラフ」という点(ノード)と辺(エッジ)で表現し、「構造文法」という復元のためのアルゴリズムを用いる独自の手法により、間取りを自動生成する画期的な研究だ。特に最近は、パノラマ画像からの復元に注力する。
一方で、復元映像のARやVRへの展開も探っている。
「人間がリアリティを感じるVRやAR映像をつくるためには、復元された映像を人間がどう感じるのか、という心理的な視点が必要だと感じています。人間がどう感じるかという評価まで入れ込んだ3次元復元技術をつくりたいですね」
池畑のユニークな経歴を生かした、分野にまたがる未開拓な研究領域へのチャレンジは緒に就いたところだ。