ヒトのように物体材質を識別するモデル豊橋技術科学大学,独ユストゥス・リービッヒ大学
特に,鏡や金属の表面のように周囲の空間像を反射する「反射材質」と,ガラスや氷のように周囲の空間像が透過する「透過材質」の2つの材質は,それらの物体表面に映る画像が,物体の周りに何があるかによって大きく複雑に変化する。そのため想定される状況は数え切れないほど存在し,ヒトがどのように両者を見分けているか,ほとんど明らかになっていなかった。
そこで,研究チームは,ヒトがどれくらいの精度で反射・透過材質を見分けているかを心理物理実験で調査すると同時に,畳込みニューラルネットワーク(CNN)のモデルがどの程度の精度で識別できるかも検証した。実験から,ヒトは78%の精度で反射・透過材質を識別できるのに対し,CNNは94%とヒトと比較してかなり高い精度で識別できることがわかった。そこで,ヒトと同じように正解するだけでなく,あえて「ヒトと同じように間違える」ようにCNNをチューニングし,そのモデルの構造やヒトとの類似性から,何が手がかりとして使われているのかを検証した結果,CNNの畳み込み構造は3層という比較的浅いモデルがヒトと最も似ており,モデルは物体の上部に表れる画像変化を手がかりとしている可能性が示唆された。これらは先行研究で報告されている,ヒト質感認知の知見を支持するものであった。
本研究は,ヒトの正解/不正解を模倣しつつ,反射・透過材質を識別する,画像計算可能なモデルの構築に初めて成功した。これを応用することで,画像中のすべての情報を使わずとも,要約された情報で材質識別や質感再現が可能になるかもしれない。すなわち,高精度な質感再現を,低コストに実現する技術への応用が期待される。