セミナーレポート
ディープラーニングによる画像認識と活用事例中部大学工学部情報工学科准教授 山下 隆義
本記事は、画像センシング展2017にて開催された誰にでもわかる特別講演を記事化したものになります。
高い性能を達成するために何が必要か
畳み込みをした後,プーリングという処理を行い,畳み込みで作成した特徴マップを縮小します。縮小の方法にはいくつかありますが,代表的なものは最大値を取るMax Poolingと,平均値を取るAverage Poolingです。畳み込みをし,プーリングをするという処理を繰り返し行います。それを何層も重ね,より深いモデルにしていきます。その後,全結合層という処理を行います。ここでは,ニューラルネットワークと同様に重み付き和を算出します。そして,出力層で各クラスの確率をソフトマックス関数で算出して,最大値を認識クラスとします。
学習によって,畳み込み層の各カーネルの要素の値や,全結合層の各ユニットの結合重みが獲得されます。そして,教師データをもとに識別エラーから各パラメータを更新。エラーが小さくなるように更新を繰り返し行い,収束を図ります。この仕組みのことを,確率的勾配降下法と言います。
確率的勾配降下法では,順伝播により現パラメータ群による各学習データの認識を行い,逆伝播により認識結果(誤差)をもとにパラメータ群を更新します。汎化性能を向上させるために,学習の方法も工夫されており,そのひとつにミニバッチ学習があります。1枚1枚データを与えるのではなく,複数枚データを入力し,それぞれの誤差をまとめて更新するものです。学習によって各種パラメータ群は自動的に決まりますが,一方で人が決めておかなければいけないこともたくさんあります。畳み込み層の数をどうするか,活性化関数に何を使うか。全結合層も層の数やユニットの数も人が決めておかなければなりません。そこで,性能が出るネットワークのモデルをうまく活用していくことになります。
ディープラーニングで高い性能を達成するために重要なことは,アルゴリズムとデータセット,計算機リソースです。最近では,大規模なデータセットが公開されています。その1つがImageNetで,数百万枚の画像が用意されており,1000クラスに分類されています。Placesは,250万枚,205クラスの屋外・屋内のシーンを対象にしたものです。今は,Places2として,1000万枚,400クラス以上の大規模なものになっています。
<次ページへ続く>
中部大学工学部情報工学科准教授 山下 隆義
2002年 奈良先端科学技術大学院大学博士前期課程修了,2002年 オムロン株式会社入社,2011年 中部大学大学院博士後期課程修了(社会人ドクター),2014年 中部大学講師,2017年 中部大学准教授。人の理解に向けた動画像処理,パターン認識・機械学習の研究に従事。画像センシングシンポジウム高木賞(2009年),電子情報通信学会 情報・システムソサイエティ論文賞(2013年),電子情報通信学会PRMU研究会研究奨励賞(2013年)受賞。