セミナーレポート
画像認識と周辺要素をバランスさせて実現するセキュリティ~分野を跨いでバランスについて考える~セコム(株) IS研究所副所長 黒川 高晴
本記事は、画像センシング展2018にて開催された誰にでもわかる特別講演を記事化したものになります。
画像認識におけるバランス
画像認識では,機械学習(いわゆるAI)を使用することが非常に多くなっています。例えば,画像に映ったリンゴとレモンを識別する場合,経験から「リンゴはレモンより赤くて丸い。それで識別できるはず」と考えます。リンゴの特徴量を「赤い」「丸い」とおき,リンゴとレモンを分ければいいとすぐに思いつきます。では,どの程度赤くて丸ければリンゴと判定するか? その境界を決めるのが機械学習です。機械学習では,できるだけ多くの画像を集めて,リンゴなのに「レモン」,レモンなのに「リンゴ」という誤答が少なくなるように識別の境界を決めるのです。ここで問題になるのは,「誤答が少なくなるように」とは,何に対する誤答なのかです。1つめは,手元に集めてきたリンゴとレモンの画像に対して,誤答が少ないということ。2つめは,新たに撮影されるリンゴとレモンの画像に対しても,誤答が少ないということです。画像認識は一般的に,過学習と汎化という言葉でこれを言い表しています。1つめの場合,間違いがゼロになるまで,「ツルがある」など新しいリンゴの特徴を追加していくことになります。そうすると,手元の画像に特化された非常に複雑な境界線が引かれるようになり,それを過学習と呼びます。また,2つめの場合は,新たに撮影されるリンゴはどんなリンゴかわからないので,手元の画像もほどほどに正解するような,ある程度単純な境界線を引くことになります。これが汎化です。
汎化は,誤答率と境界線の複雑さの重み付き和を最小にすることで実現しますが,手元の画像に対する誤答率と,識別境界の複雑さの各々を,どの程度で重み付ければ良いか?というバランスの問題が出てきます。結局,実際やってみて一番良い値を取る以外のやり方はありません。ベストなバランスは,応用先によって異なるでしょう。セキュリティ画像認識では,機械学習だけでなく,人間の知識を併用した上でバランスを決定しているのが実際です。2000年代前半までは,知識を主体とした技術を展開してきました。これが人間知識型AIです。このAIは,知識に基づくため人間にわかりやすい反面,設計開発に手間が掛かるというデメリットがあります。一方,先端研究や2000年代後半以降は,多量のデータ,機械学習を主軸にした先端の画像認識を導入してきました。これが機械学習型AIです。このAIは,データさえあれば自動で学習ができる反面,中身を人が理解し難いという弱点があります。それらを融合しバランスを高めるためには,性質の違う技術の間で,どこが最適な位置かを常に探りながら進めることが重要だと考えます。
<次ページへ続く>
セコム(株) IS研究所副所長 黒川 高晴
1997年,東京大学計数工学科修士課程修了。同年,セコムに入社。以降,画像圧縮,屋外監視,人物検知・追跡などコンピュータビジョンの研究開発に従事。2016年,セコムIS研究所 副所長。主な興味は,深層学習が浸透した現在もビジョンの中間表現。