セミナーレポート
ディープラーニングを用いた物体認識とその周辺 ~現状と課題~大阪府立大学 大学院工学研究科准教授 岩村 雅一,大阪府立大学 大学院工学研究科博士課程 山田 良博
本記事は、画像センシング展2018にて開催された招待講演を記事化したものになります。
物体認識の周辺タスク
一般的な物体認識と呼ばれるタスクを考えたとき,これで本当に物体を認識したと言えるのでしょうか。例えば,ある画像が,ネコと分類されます。これは確かに画像を認識していると言えますが,十分なのかどうかは,必ずしもそうではありません。ネコの画像だとわかっても,ネコがどこにいるのか,場所の情報は扱えないからです。また,複数の物体を考慮することもできません。このように,物体の分類では扱わない高度な問題が無数に存在します。例えば,領域分割について考えてみます。ネコの画像を詳しく認識すると,中央にネコが映っているという位置情報があります。そのほかにも,草や木,空が映っているラベルを与えたい場合があります。画像の各部分がどのクラスに属するのか分類するのを考えただけでも,一般物体認識が優れた条件設定ではないのがわかります。物体認識については深層学習により特徴抽出がうまくいくようになり,物体の正確な位置や確信度が得られるようになりました。これらを利用すれば領域分割のような難しい問題も比較的簡単に解けるため,周辺タスクに対して飛躍的な発展をもたらしたのです。「コンピュータビジョンに関するトップカンファレンス(CVPR2017)」で発表されたものには,馬に人が乗っている入力画像を与えたときに物体と物体の境界線を調べるようなタスクをはじめ,領域分割や,人がどこに注目するかといった様々な周辺タスクが,1つのニューラルネットワークを応用することで,同時に解けるようになってきています。
代表的な周辺タスクには,次の3つのタスクがあります。1つめは先ほど述べた領域分割で,CNNにより特徴抽出を行い,様々な領域で物体の情報を扱う特殊な構造を導入して精度を高めることに成功しています。2つめは物体検出で,領域分割はピクセル単位で物体を扱いますが,物体検出は矩形,各物体が存在すると考えられる領域の単位で物体を扱う違いがあります。物体検出では物体認識のCNNにより特徴抽出を行い,これに位置情報を扱うタスクを付与することで高精度の物体検出を可能にします。3つめは個別領域分割で,画像中に含まれる同じクラスの物体をそれぞれ別の領域で分割するものです。これは領域分割と物体検出を組み合わせた,極めて難しい問題です。しかし,物体認識の発展によって領域分割と物体検出が出来るようになったことで,驚くべきことに,この難しいと考えられてきた問題さえ解けるようになっています。
<次ページへ続く>
大阪府立大学 大学院工学研究科准教授 岩村 雅一
2003年,東北大学大学院工学研究科 博士課程修了。博士(工学)。同年同大学大学院工学研究科助手。2004年,大阪府立大学大学院工学研究科 助手,助教を経て,2011年同准教授。文字認識,物体認識,文書画像検索,視覚障害者支援などの研究に従事。2016年からIAPR TC11(Reading Systems)Vice Chair。大阪府立大学 大学院工学研究科博士課程 山田 良博
2017年,大阪府立大学大学院工学研究科修士課程修了。現在,同博士課程在学中。日本学術振興会特別研究員。深層学習を用いた一般物体認識の研究に従事し,世界一の認識精度を2度達成した。2017年電子情報通信学会パターン認識・メディア理解(PRMU)研究会にて,月間ベストプレゼンテーション賞,研究奨励賞を受賞。同年,画像の認識・理解シンポジウム(MIRU2017)にて,MIRUインタラクティブ発表賞受賞。2018年電子情報通信学会パターン認識・メディア理解(PRMU)研究会にて,研究奨励賞を2年連続受賞。