AI画像認識の今・そして、これから

画像認識の発展

画像認識技術は幅広い分野で既に実用化されており、我々の生活の中で多く活用されている。例えば、画像認識分野の一つの柱である文字認識では、1960年代に郵便番号自動読み取り区分機が実用化され、手書きの郵便番号を機械で読み取ることにより郵便業務の大幅な効率化を実現した。その後も研究と開発が進められ、現在では、スマートフォンのカメラで撮影した文字をリアルタイムに翻訳することを、30以上の言語で可能としている。

画像認識分野のもう一つの柱は顔認識である。顔認識に関する研究も1960年代から行われていたが、顔の角度や照明による明暗、表情の変化などの要因により、実用的な認識精度を実現することは長い間困難であった。しかし、2001年にViola&Jonesの論文[1]により高速かつ高精度な顔検出アルゴリズムが発表されると、顔認識の応用は一気に広がり、近年のデジタルカメラでは顔を検出しフォーカス等を自動的に調節する機能は当たり前の物となっている。さらに、あらかじめ登録された（自分の子供やペットの）顔に優先してフォーカスを合わせる機能や、笑顔を検出してシャッターを切る機能など、顔認識の応用は広がっており、飲み物を買いに来た人の年代と性別を判断し、その人に合わせたオススメ商品を提示する自動販売機も設置されている。

文字や顔のような需要の多い対象については、様々な研究者や企業が認識性能を競い合ってきたが、その他の需要が少ない対象、例えば特定の工場における特定の製品の異常品の検査を画像認識で行う場合には、それぞれの技術者・研究者が独自に特徴量を抽出し、多くの機械学習手法の中から最適なものを選択し、あるいは改良しながら画像認識システムを構築してきた。しかし、開発時の認識対象に特化するあまり、その後の認識対象の仕様変更に対応できず、次第に使われなくなる画像認識システムも少なからず存在した。

世界初の画像認識レジシステム「BakeryScan」

筆者らはパンの画像認識システムを2009年から開発してきた。多くの日本のベーカリー店では100種類以上のパンを無包装で販売している。無包装であるためバーコード等を取り付けることができず、精算業務では店員の目視による識別が必要となる。店員が100種類以上のパンをすべて覚えるために1ヶ月以上の習熟期間を要することもあり、レジ業務の効率改善のために画像認識システムが求められていた。

パンは焼き加減によって色特徴が変化することが多く、成形や発酵の過程によっては同じ種類のものであっても外観が大きく異なる場合がある。一方で、異なる種類のパンであっても、非常によく似た外観をもつものが多数存在する。そのため、同種内の大きな個体差を許容しつつ、類似したパン種間でのわずかな差を検出できるシステムが必要とされていた。さらに、「事前に十分な数の対象の画像を用意することはできない」という制約があり、店頭で実際に販売をしながら逐次撮影画像を学習することができるシステムが求められていた。

筆者らの開発したBakeryScan[2]は、少数の学習サンプルから運用を開始でき、販売を繰り返しながら店員の補助のもと逐次学習を行うことで「徐々に賢くなるシステム」である。逐次学習の過程と識別困難品の最終判断を店員に委ねることにより、比較的古典的な手法を用いることで計算機スペックを必要とせず、かつ、汎用性のあるシステムを開発することができた。店員があらかじめすべての商品を覚える必要がなくなり、新規アルバイト店員が初日からレジ業務を担当することができるようになった。このBakeryScanは世界初の画像認識レジシステムとして2012年から販売が開始され、すでに200以上の店舗で利用されている。

ディープラーニングの登場

BakeryScanが発売された2012年、国際的な画像認識コンテストILSVRC[3]において、ディープラーニングを用いた手法が、従来の画像認識手法を大幅に上回る認識精度を実現し、現在の人工知能ブームの火付け役となった。ディープラーニングは、膨大な学習用画像データと多大な計算資源を用いることで、対象によっては人間の認識能力を超える認識精度を実現している。

ディープラーニングによる画像認識の特徴の一つとして、大量の画像データを学習させることにより、従来技術者が取捨選択してきた画像特徴量を自動的に抽出できることが挙げられる。これにより、画像認識システム開発者の仕事は、画像からいかにして有用な特徴量を見つけるかという課題から、いかにして深層のネットワークを構築するかに変化することとなった。

画像認識コンテストで好成績を収めたいくつかの深層学習アルゴリズムは、その学習済みパラメータを含めて公開されており、誰もが自由に利用することができる。これら既存の学習済みネットワークを画像特徴量抽出機として利用する転移学習や、ネットワークの一部を再学習して使用するファインチューニング等を用いれば、適用したい問題に関する学習用データの量が不十分な場合でも、所望の性能を達成できる場合がある。

しかし、用途によっては転移学習やファインチューニングでは識別精度目標に到達することが難しい場合もあり、事前に取得できる画像データや使用できる計算資源に制限がある場合、従来の画像特徴量や局所特徴点に基づく物体認識システムが有効となることも多い。我々の持つパンの画像データを用いて、ディープラーニングによるパンの画像認識も検討したが、少数の学習画像では十分な性能が得られないことが確認された。

画像認識の「今」

画像認識システムは多種多様なシステムが開発され、様々な場面で利用されている。例えば、近年急速に開発が進められている自動運転車において、画像認識は周辺環境を認識するために必要不可欠な要素の一つとなっている。医療分野での応用では、特定の病状についての医療画像診断において、平均的な医師の精度を超える結果も報告されている。レントゲン画像からの胃がん・肺がんの検出や、マンモグラフィ画像からの乳がんの判別、病理画像からのがん診断支援など、特に大量の画像に対して少数の専門医による読影が行われている分野において、医師の負担を減らしつつ、見逃しを防ぐ診断支援システムの開発は急務であると言える。

他にも、工場では人間に代わって製造品の外観検査を行うシステムが多く導入されており、農業分野でも画像認識による収穫と選別の自動化だけでなく、農作物の病気の発見や予防にも役立てられている。駅に設置された自動販売機は客の年代と性別を判定してオススメの商品を推薦し、衣料店のデジタル試着室では、その人に似合う衣装を提案し、仮想試着できるシステムが設置されている。

そして、これから

今後の画像認識の課題の一つとして、人間の視覚を超える新しいカメラによる撮影画像の活用が挙げられる。これまでの画像認識は、人間の目の生理学的特徴を模したRGBカラーモデルに基づくカラー画像を主な対象としてきた。このモデルでは可視光線を赤、緑、青の３色に分けて光を捉えているが、これをより細かく分光し、かつ、可視光線の範囲を超えて紫外領域や赤外領域の光を捉えるマルチスペクトルカメラを用いることで、RGBカラーモデルでは判別困難な物性の違いを判別できるようになる。光の波長をさらに細かく数百以上に分光し、連続した波長成分を取得できるハイパースペクトルカメラもすでに開発されており、これまで画像認識では判別が難しいと考えられてきた用途において、画像認識が活躍できる可能性が高まっている。

距離画像センサを用いた三次元情報の活用も、画像認識システムの今後の発展に不可欠な要素の一つである。画像から対象の三次元情報を復元する研究は古くから行われており、ステレオカメラはその代表的な取得方法の一つである。ステレオ法では、対象の表面が平坦で特徴に乏しい場合、密な三次元情報を復元することができないという問題があった。この問題を赤外光を投影することで解決したセンサが家庭用ゲーム機向けに発売されたことをきっかけに、大幅なコスト削減が実現されている。最近ではスマートフォンに搭載されるほどに小型化され、スマートフォンでの本人認証などにも利用されている。

近年、画像認識を含む人工知能技術の発達により人間の仕事が奪われることを危惧する声がある。誰でも簡単にできる仕事は人工知能に奪われるかもしれないが、逆に、これまで熟練を要した仕事は人工知能により誰でも担当できる仕事に変化するであろう。さらに、高度に専門的な知識を必要としていた仕事については、人工知能による支援を受けることで専門家の負担を減らし、仕事の効率化と高精度化が期待される。労働力人口が減少する日本において、人工知能の活用は不可欠であり、それを支える柱の一つである画像認識技術は、今後一層その重要性を増していくものと考えられる。