目標としています。随時更新します。
◎ 画像認識の歴史
画像認識は、知能ロボットの視覚を実現するために研究が始まったと言われています。
○ 画像認識手法の歴史
1970年〜1980年代中頃
「人の持つ知識をプログラムとして書き出し、計算機に与える」というもの
シンボル間の定義を網羅的に記述していきます。
例)
テーブルの上に置いてある円筒状の物体をコップとみなす
課題
画像から得られる信号とシンボルの間に大きな隔たりがあること
1980年〜2000年代
シンボルとしての理解ではなく「幾何学的側面か物理学的側面(形、色、テクスチャ、動き)」を利用したもの
1999年
局所特徴の「SIFT」の開発
SIFTによって画像内から特定の物体を検出する性能が大きく向上しました。
2000年前後
多様なクラス認識を同時に認識する研究が活気を帯びてきます。
2003年
局所特徴の「Bag of Visual Words」の開発
Bag of Visual Wordsでは、局所特徴を単語のように扱うという特徴があります。
これによって、画像認識の問題を、自然言語処理の問題として捉えられるようになり、
自然言語処理のアイデアを画像認識にそのまま適用できるようになりました。
もちろん画像認識精度の向上に大きく貢献しました。
2004年
Caltech101と呼ばれる、101種類の物体クラスと1種類の背景クラスの認識アルゴリズムの開発競争が加わり、認識性能が飛躍的に向上しました。
2000年代後半
画像認識アルゴリズムの進展に合わせて、画像認識用のデータ集合も大規模かつ低バイアスなものに進化していきました。
大規模画像データにも対応可能なように、線形分類器との相性の良い「スーパーコーティング」や「カーネル法」を応用した画像特徴の開発が盛んに行われました。
2009年
クラスごとに画像が整理された高品位かつ大規模なデータ集合である「ImageNet」が作成されました。
2010年
ImageNetを利用した大規模画像認識のコンペンション「ILSVRC」が始まりました。
大規模かつ多様多種なクラス認識を対応可能な画像認識アルゴリズムが次々に開発され、ILSVRCで発表されるようになりました。
2012年
ILSVRCで深い構造をもつ畳み込みニューラルネットワークが既存の画像認識アルゴリズムの性能を大きく上回りました。
深層学習ブームの到来です
近年
インターネットにより、大量の画像を容易に入手できるようになりました。
クラウドソーシングにより膨大な量の画像に対するラベルの付与が可能になりました。
計算機の能力が大幅に向上しました。