セミナーレポート

ロボットに使える最新画像処理技術～物体認識のための画像局所特微量～中部大学　藤吉弘亘

UPDATE：2010.08.25 (15年前) | 記事カテゴリー：セミナーレポート

本記事は、画像センシング展2010にて開催された特別招待講演を記事化したものになります。

　われわれは現在，車載カメラから撮影した映像を使って，「建物がどこで」「人がどこにいて」「車がどこにいて」「道路がどの範囲にあって」「空がどこにあって」…ということを認識したいと考えています（図1）。
　歩行者や車両を検出したり，建物や道路の領域を認識したりする技術は「一般物体認識」と呼ばれています。すべての物体を一挙に認識できればよいのですが，なかなかそれは難しい問題です。そこで，問題設定をなるべく細かく分割して，個別のアプローチを考えようとしています。具体的には，(1)「これは建物ですか？」という照合の問題や，(2)「何の画像ですか？」という画像分類，(3)「人がどこにいるか」という物体検出，(4)「これは屋外のシーンですか，屋内のシーンですか？」というシーンの分類，(5)「止まれ」という標識がどこにあるか認識する特定物体認識などに分けられます。これらを合わせて一般物体認識と捉え，それぞれの問題を区別して解いているのが現状です。

(a)実際のカメラ画像図1 車載カメラ画像における物体認識

特定物体認識で使われるSIFT

　われわれの研究室では，(1)「どの標識があるか」を認識する特定物体認識と，(2)「人が画像のどこにいるか」を探す物体検出という2 つの研究に取り組んでいます。今日はこれらの研究について，最近の動向を紹介したいと思います。

(b)物体認識後の画像図1 車載カメラ画像における物体認識

　まず最初に，(1)特定物体認識について説明します。例えば，特定物体認識では，「『画像の中にどの標識があるか』」ということを研究します。この認識に使われる特徴量には「SIFT（ Scale Invariant Feature Transform）」があります。これは，1999年にUniversity of British Columbia のDavid G.Loweによって提案された手法で，スケールの変化に不変な特徴量です。SIFTでは，画像が拡大しても縮小しても同じものとしてマッチングできます。スケールだけではなく，さらに回転に対しても不変な特徴量を得ることができます。
　その後，SIFT をより高精度化するアプローチが検討され，「PCA-SIFT」や「BSIFT」といった特徴量が提案されました。2005 年～ 2006 年以降はSIFT に要する時間や計算コストの問題に対処するために，SIFT アプローチを高速化した「SURF（Speeded-UpRobust Features）」という手法や，GPUによる高速化も提案されています。さらに，学習を使って高速・高精度を同時に実現しようという「Randomized Trees」というアプローチも提案されています。

＜次ページへ続く＞