2-3-1. 線形回帰
用語:単回帰分析
用語:重回帰分析
用語:多重共線性
2-3-2. ロジスティック回帰
2-3-3. kNN法
分類の一手法。未知のデータの近くからk個のデータを調べて多数決によって所属クラスを決定するアルゴリズム。欠点としては、クラスのサンプル数の偏りに弱い。ちなみに、kの値はエンジニアが事前に設定しておくパラメーターであり、こういったパラメーターはハイパーパラメーターと呼ばれます。
2-3-4. 決定木
条件分岐を繰り返すことにより分類や回帰を行うためのアルゴリズム。情報利得の最大化を実現するように決定する。データのスケールを事前にそろえておく必要がなく、分析の説明が容易というメリットがあります。
2-3-5. ランダムフォレスト
決定木を用いる手法。特徴量をランダムに選び出して、ランダムに複数の決定木を作り出し、それぞれの決定木の結果を用いて多数決を採る手法。
用語:ブーストストラップサンプリング
全てのデータをつかうのではなく、それぞれの決定木に対して一部のデータを取り出して学習させる。
用語:アンサンブル学習
ランダムフォレストのように複数のモデルで学習させる手法のこと。
用語:バギング
全体から一部のデータを用いて複数のモデルを用いて学習する手法。ランダムフォレストは、バギングの中でも決定木を用いる手法という位置づけです。
2-3-6. ブースティング
バギングと同様に一部のデータを繰り返し抽出して複数のモデルを学習する手法です。バギングとの違いですが、複数のモデルを一気に並列作成する(バギング)か、逐次的に作成する(ブースティング)か、というところです。ブースティングもモデル部分には決定木が用いられており、AbaBoostや勾配ブースティングやXgBoostなんかが有名だそうな。ランダムフォレストと勾配ブースティングを比べた時、並列的なランダムフォレストの方が計算は速いが、精度は勾配ブースティングの方が良いといわれています。
2-3-7. 次元削減
データに複数ある変数のうち、分析に不要なものを削除します。寄与率を調べれば各成分の重要度が分かり、主成分を調べれば各成分の意味を推測することができます。
用語:次元の呪い
機械学習において次元が増えると計算量や学習に必要なサンプル数が爆発的に増えて様々な不都合が生じるという法則。
2-3-8. サポートベクターマシン
用語:カーネル法
2-3-9. ニューラルネットワーク
用語:単純パーセプトロン
用語:多層パーセプトロン
DUO Select 倶楽部
毎日1週DUO Select
0コメント