4-1. 研究分野

ディープラーニングが、どんどん発展しています!一つひとつがおもしろい!


4-1-1. 画像認識分野

一般画像認識へ至る研究動向を2つ紹介します。

用語:R-CNN(Regional CNN)

イメージネット画像認識コンテストには、位置課題検出課題という2つの課題があります。画像の中の「どこ」に「何」があるかを問う課題ですね。「どこ」の課題、すなわち関心領域(ROI:Region of Interest)の切り出しには、CNNではない手法を使います。領域の切り出しは、矩形領域(バンディングボックス:左上と右下の座標)を予測する回帰問題とみなせます。高速RCNN(fast RCNN)というモデルでは、領域の切り出しと切り出した領域の物体認識を同時に行うことが実現しました。さらに改良されたfaster RCNNでは、ほぼ実時間で入力画像からの関心領域の切り出しと認識ができるようになりました。YOLO(You Look Only Once)やSSD(Single Shot Detectorといった)といった発展形のモデルも登場しています。いずれも領域の切り出しと認識を同時に行うCNNです。


用語:セマンティックセグメンテーションとインスタンスセグメンテーション

セマンティックセグメンテーションとは、RCNNのような矩形の領域を切り出すのではなく、より詳細な領域分割を得るモデルです。完全畳み込みネットワーク(FCN:Fully Convolutional Network)という、全ての層が畳み込みであるモデルを使います。FCNはセマンティックセグメンテーションに特化したモデルなので、それ単体では画像認識は行えません。


用語:インスタンスセグメンテーション

個々の物体毎に認識させることは、インスタンスセグメンテーションと呼びます。


4-1-2. 言語処理分野

用語:word2vec

「単語の意味は、その周辺の単語によって決まる」という言語学の主張をニューラルネットワークとして実現したもの。word2vecが、ベクトル空間モデル単語埋め込みモデルとも呼ばれます。スキップグラムCBOWという2つの手法があります。word2vecに触発されて、単語埋め込みモデルは爆発的に発展しました。


用語:fastText

word2vecの後継の一つ。トマス・ミコロフによって開発されたモデル。単語の表現に文字の情報を含めることで、訓練データに存在しない単語も表現できるようになった。また、学習に要する時間も短い。


用語:ELMO

word2vecの後継の、文章表現を得るモデルです。


用語:ニューラル画像脚注付け(NIC:Neural Image Caption) 

CNNとRNNを組み合わせたもの。CNNの最終層の出力を使うのではなく、全結合層の直下、すなわち畳み込み層の最上位を層をRNNで構成される文章生成ネットワークの入力とします。


用語:シーケンス2シーケンス

自動翻訳技術で用いられます。


用語:ニューラルチューリングマシン(NTM)

チューリングマシンをニューラルネットワークで実現する試み。


用語:エルマンネット(エルマンのネットワーク)

RNNの一種で、文法解析をするモデルです。


用語:形態素解析

さて、自然言語処理は、次のようなフローで実行されるそうです。

(1) 形態素解析で文章を単語などの最小単位に切り分ける → (2) データのクレンジングにより不要な文字列を取り除く → (3) BoW (Bug-of-words)などを用いてベクトル形式に変換する → (4) TF-IDなどを用いて各単語の重要度を評価する。※TF-IDFとは、「文書の特徴」を表現するために「文書に含まれる単語の重要度」を考慮する概念だそうです。


4-1-3. 音声認識分野

用語:WaveNet

音声合成と音声認識の両方を行うことができるモデルです。「両方」ができるということが試験に出るポイントみたいです。


用語:HMM(隠れマルコフモデル)

音声認識では、HMMという言語モデルを用いて、文章としての単語のつながりを確率的に表現して、文章の形を推測します。今、このHMMがディープラーニングに置き換えられて、飛躍的に音声認識精度が向上しているのだそうな。


4-1-4. ロボティクス分野

用語:Alpha GO

碁盤の状況認識にCNNを用い、次の手の選択にモンテカルロ木探索を用いて成果を上げた。なんと、ここにもCNNが使われているのか。さらに強くなるためにセルフプレイを用いたアルファ碁ゼロは、さらに強いそうです。


用語:強化学習

3つの改善手法を覚えておきましょう。全て含めるとRAINBOWモデルとなる。DQNで用いられている枠組みは、(2)の行動価値関数ベースです。

(1) 方策(ポリシー)ベース

(2) 行動価値関数ベース(Q関数ベース)

(3) モデルベース


用語:一気通貫学習

ロボットの一連の動作を一つのニューラルネットワークで実現しようとする学習。


用語:マルチモーダル学習

互換や体性感覚といった複数の感覚の情報を組み合わせて処理すること。












0コメント

  • 1000 / 1000

DUO Select 倶楽部

毎日1週DUO Select