3-3. ディープラーニングの具体的な手法

3-3-1. CNN(畳み込みニューラルネットワーク)

画像をそのまま2次元ので入力に用いられるモデルです。あのAlexNetもCNNですよ。ちなみに、ひっかけ問題で畳み込みでもCNNは使えるか?というものが出てきます。音声認識ではCNNが良いという話もあるそうで、まぁ、使っても問題はないのですがという引っかけです。


用語:ネオコグニトロン

福島邦彦さんによって考えられた初期のモデルです。人間のもつ視覚野の神経細胞の2つの働きをもしてみようという試みです。


用語:LeNet

その後、ヤン・ルカンによって作られたCNNのモデルです。こちらは誤差逆伝播法を使います。畳み込み層とプーリング層の2種類が交互に複数組み合わさります。


用語:CNN

畳み込み層とプーリング層を積み重ねる順伝播型(逆伝播ではない)のディープニューラルネットワークです。


用語:畳み込み(Convolution)

カーネルとも呼ばれるフィルタを用いて画像から特徴を抽出する操作のことです。フィルタを画像の左上から順番に重ね合わせていき、画像とフィルタの値をそれぞれかけあわせたものの挿話をとった値を求めていく処理です。畳み込みによって新たに得られた二次元データを特徴マップと呼びます。CNNでは、各フィルタをどのような値にすれば良いかを学習していくとになります。つまり、このフィルタが、ニューラルネットワークでいうところの重みになります。この畳み込みの処理は、人間の視覚やが持つ局所受容野に対応していて、移動普遍性の獲得に貢献します。(但し、回転普遍性は持っていない。)「位置のズレ」に強いモデルができます。大きな畳み込みを1層とするよりも、小さな畳み込みを多層で積み重ねるのが、最近の流行りです。


用語:プーリング

決められた演算を行うだけで、ダウンサンプリングやサブサンプリングともよばれいます。たとえば、Maxプーリングと呼ばれる処理では、画像の特徴マップの最大値を抽出していきます。avg(平均)プーリングという手法もあります。計算するだけなので、学習すべきパラメーターはありません。


用語:全結合層

最後は、イヌやネコといった一次元の出力になりますので、そういった層が必要です。但し、最近のCNNでは、全結合層を用いないケースも大きいです。全結合層の代わりに、1つの特徴マップに1つのクラスを対応させることで分類を行うGlobal Average Poolongと呼ばれる処理を行うことが多いみたいです。


用語:データ拡張(data augmentation)

上下左右にずらしたり反転させたりする、データの「水増し」のこと。いまや、画像認識を行う上では必須の処理なのだそうな。


さて、CNNは発展形として、AlexNet以降にもVGCやGoogleLeNetが出てきて記録を更新しています。Google LeNetでは、Inceptionモジュールというブロックを構成し、それを積み重ねたネットワークとすることで並列計算を行いやすくしました。超深層ネットワークとなる場合には、さらなる工夫が必要で、Skip Connectionとよばれる層を超えた結合を加える工夫もあります。この結合が導入されたネットワークをResNetと呼びます。


用語:転移学習

一から、こんなモデルを作るの、不可能ですよね。そこで、学習済のネットワークを利用して新しいタスクの識別に活用することを転移学習と呼んでいます。これで、世の中の皆様が、いろいろ画像認識で遊べるようになってきたわけなのですね。


3-3-2. RNN(リカレントニューラルネットワーク)

閉路を持つニューラルネットワークです。時間軸に対して何かのパターンを持っている場合の予測には、RNNを使います。通常のニューラルネットワークでは表現できない「過去の重み」を表現できます。RNNの基本形を見てみると、通常と異なり過去の隠れ層が追加されていることが分かります。逆伝播する誤差も過去にさかのぼって反映する必要があります。これは、BackPropagation Tough-Time(BPTT)と呼ばれています。


用語:LSTM

RNNの一種です。勾配消失問題、入力重み衝突、出力重み衝突といった問題を解決した手法です。LSTMを簡略化して、計算量を少なくしたGRUというモデルもあります。一応、どちらの手法が良い悪いというわけではありません。


3-3-3. 深層強化学習

用語:Deep-Q-Network

DeepMind社のDeep-Q-Network(DQN)が有名です。あの、Alpha Goも深層強化学習ですね。


3-3-4. 深層生成モデル

ディープラーニングは、認識・識別タスクだけでなく生成タスクにも応用され始めています。


用語:VAE(変分オートエンコーダー)

画像が生成できるらしい。


用語:GAN(敵対的生成ネットワーク)

これはおもしろい手法だ。偽物画像を作る学習をするジェネレータと、偽物をきちんと見抜けるようにする学習をするディスクリミネータという二つのネットワークで構成されています。二つが切磋琢磨して、最終的には本物と見分けがつかないような贋作ができるのだそうな。それぞれのネットワークにCNNを取り込んだものをDCGAN(Deep Convolutional GAN)といいます。イアン・グッドフェローが考案。ヤン・ルカンは「この10年で最もおもしろいアイデア」と絶賛しているそうだ。


0コメント

  • 1000 / 1000

DUO Select 倶楽部

毎日1週DUO Select