3-2. ディープラーニングの理論

3-2-1. 活性化関数

活性化関数にシグモイド関数を利用したとき問題となったのが、勾配消失問題でした。さて、いくつかの関数が提案されています。どれが良くてどれが悪いというのはありません。


用語:tanh関数(ハイパボリックタンジェント)

微分の最大値は1になります。


用語:ReLU関数

xがゼロ以下のときは、微分値もゼロになってしまう。


用語:Leakly ReLU関数

xがゼロ以下でもわずかな傾きを持っている。他にも、Parametric ReLUやRandomize ReLUなど、いろいろあります。


3-2-2. 勾配降下法

勾配に沿って降りていくことで階を探索する手法です。最適値を探すために使います。


用語:エポック

訓練データを何度学習に用いたか。


用語:イテレーション

重みを何度更新したか。


用語:逐次学習・ミニバッチ学習・バッチ学習

重みの更新タイミングのことです。バッチ学習ではエポックとイテレーションが同じになりますが、それ以外では異なります。ミニバッチでランダムにデータをピックアップして重みを更新する際の勾配降下法を、確率的勾配降下法と呼びます。


用語:学習率

勾配に沿って、一度にどれだけ降りていくか、を決めるハイパーパラメーター(計算時に指定する変数)のこと。


用語:局所最適解 と 大域最適解

見せかけの最適解を局所最適解、本当の最適解を大域最適解と呼びます。最初は学習率を大きく設定して、適切なタイミングで学習率の値を小さくしていく工夫が必要になります。


用語:鞍点

ディープラーニングでは次元が大きいので、鞍点にはまるって抜け出せなくなることがあります。そのような停留状態をプラトーといいます。抜け出る手法として、昔からモーメンタムがありますが、最近はAdamRMSpropがあるそうな。


用語:停留点

局所最適解でも大域最適解でもないのに勾配がゼロになる点のこと。山頂ですね。


3-2-3. その他のテクニック

用語:ドロップアウト

オーバーフィッティングを解消する手法で、エポック毎にランダムにニューロンをドロップアウトさせて計算します。毎回モデルが変わることになるため、これはアンサンブル学習の一種です。


用語:early stopping

過学習する前に、早めに学習を打ち切る方法です。シンプルで、どんなモデルにも適用できる手法です。ジェフリー・ヒントンは、”Beautiful FREE Lunch”と表現しているそうですが、、、この元ネタのノーフリーランチ定理は後述。


用語:ノーフリーランチ定理

「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能」という定理。


用語:正規化

データ全体の調整。いろいろ種類はあるのですが、例えば、各特徴量を0~1の範囲に変換する処理です。


用語:標準化

各特徴量の平均を0、分散を1にする、、、すなわち、各特徴量を正規分布に従うように変換することです。各特徴量の分散をそろえておくことで、それぞれの特徴量の動きに対する感度を揃えられます。


用語:白色化

標準化より一歩踏み込んだ手法で、各特徴量を無相関化した上で、標準化します。


用語:Xavierの初期値、Heの初期値

重みの初期値も、ディープラーニングの工夫しどころの一つです。単純にダンラブにするのではなく、乱数にネットワークの大きさに合わせた適当な係数をかけることで、データの分布が崩れにくい初期値が得られるのだそうな。シグモイド関数に対してはXavierの初期値、ReLU関数に対してはHeの初期値がよいとされているようです。


用語:バッチ正規化

ディープラーニングの各層において、活性化関数を書ける前に伝播してきたデータを正規化する手法です。これで、オーバーフィッティングしづらくなることが知られています。







0コメント

  • 1000 / 1000

DUO Select 倶楽部

毎日1週DUO Select