セミナーレポート
ディープラーニング入門~基本的な仕組みと画像データへの応用例~横浜国立大学 大学院 環境情報研究院 准教授 白川 真一
本記事は、画像センシング展2021にて開催された特別招待講演を記事化したものになります。
画像データのためのモデルと応用例
画像データにはいくつかの特性があります。画像データは2次元/3次元の配列があり,配列には空間的な意味があります。ですから,画像配列のまま処理するのが望ましいといえます。また,遠く離れた場所の情報はあまり関係ないため,画像中の局所的な情報だけを使って処理したいという要求があります。さらに,物体認識では,物体が存在する場所は関係なく,画像の場所によらず同じ処理をしたいということがあります。ディープラーニングでは畳み込み処理が行われますが,イメージとしては画像の空間フィルタリングに近いものがあります。係数行列を左上から順番にスライドさせながら全場所に適用していきます。空間フィルターの例としては,エッジを出すフィルターなどがあります。これは画像のフィルタリングですが,畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)で使っている畳み込み処理も,まさにそのような手順です。RGBの画像の局所領域に対してフィルターの係数を掛け,それらを足して値を出します。それを画像の全領域に行います。局所的な領域に対して重み付け和を計算していますので,離れた場所の情報は使わずに処理ができます。また,フィルターの重みはどの場所に対しても同じものが使われるので,物体の場所が変わっても同じ処理が適用され,物体が多少ずれても同じような結果が得られるというメリットがあります。このように,いろいろなタイプのフィルターを用意して変換した配列を特徴マップと呼び,その特徴マップに対して処理を重ね,繰り返していきます。
一方,特徴マップの一定領域内の画素値をまとめることを,プーリング処理と言います。CNNは畳み込み処理やプーリング処理からなるニューラルネットワークの総称です。これらの処理を自由に組み合わせて,目的にあったネットワークを構成することができます。ネットワーク構造は特殊ですが,各層の処理は微分可能で,先のニューラルネットワークの例とまったく同じように学習できます。最近では,初心者がCNNについて理解する助けとなるインタラクティブな可視化ツールとして,「CNN Explainer」なども公開されています。
<次ページへ続く>
横浜国立大学 大学院 環境情報研究院 准教授 白川 真一
2009年 横浜国立大学 大学院環境情報学府 博士課程後期修了 2008 ~2010年 日本学術振興会特別研究員 2010~2012年 株式会社富士通研究所研究員 2012~2015年 青山学院大学 理工学部 情報テクノロジー学科助手および助教 2015~ 2016年 筑波大学システム情報系助教 2016年より横浜国立大学大学院環境情報研究院講師。2021年より同准教授。機械学習,ディープラーニング,進化計算,およびそれらの応用研究に従事。博士(工学)。