ありのままに生きる

社会不適合なぼっちおやじが、自転車、ジョギング等々に現実逃避する日々を綴っています。

ディープラーニング革命

テレンス・J・セイノフスキー/監訳 銅谷賢治 「ディープラーニング革命」メモ  

ディープラーニング革命

ディープラーニング革命

 

テレンス・J・セイノフスキー  監訳 銅谷賢治
ディープラーニング革命」メモ

 

第2部 さまざまな学習方法

第9章 畳み込みネットワークの学習
----------------------------------------------------------------------------------
【まとめ】
・視覚ニューラルネットワークの基本は畳み込み計算で、小さなフィルターが画像上をスキャンし、画像全体にわたる特徴量の層を生成し、一番上の畳込み層と分類出力層が結合され、誤差逆伝搬法によりネットワーク全体が訓練される。
・作業記憶は短期の依存関係にしか機能しないが、長短期記憶(LSTM)は作業記憶の減衰問題を克服し、映画・音楽、動作、言語など、入出力の順序の学習が欠かせない多くの領域で成功を収めている。
・敵対的生成ネットワークは教師なし学習モデルであり、生成ネットワーク(画像生成)と識別ネットワーク(画像の真偽を判定)を用意し、二つのネットワークを競合させることでリアルな画像が生成される。
----------------------------------------------------------------------------------


●畳み込みニューラルネットワーク
<畳み込みニューラルネットワーク(ConvNet)>
・視覚ニューラルネットワーク
・ネットワークの基本は畳み込み計算。
 →小さなフィルターが画像上をスキャンするような計算。
・このフィルターにより画像全体にわたる特徴量の層が生成。
・フィルターは特定の向きをもつエッジに反応する検出器のようなもの。
・出力が大きくなる条件:
 フィルター枠の範囲内に
 ①物体の正しい方向のエッジがあるとき、
 ②物体内の正しい方向のテクスチャーがあるとき
・最初の層:枠に入るのは画像の小さなパッチ
・フィルターはたくさんあるので、各パッチをたくさんの特徴で表現可能。
・最初の層で画像を畳み込むのに使われるフィルターは「単純型細胞」と呼ばれた一次視覚野の細胞に似る。
・2層目以降のフィルターは、より複雑な特徴に対応。


・初期モデルでは、各フィルター出力は「シグモイド関数」という非線形関数に通される。
シグモイド関数:0から1に滑らかに増加する関数で、活動の弱いユニットの出力を抑止。
・2層目では、枠は視野のより広い領域をカバーし、何層も後には、どのユニットも画像全体から入力を受ける。
・一番上の層は、視覚系の階層構造の最高次の層に対応。
 →霊長類では「下側頭皮質」とよばれる部位で、その受容野は視野の大部分をカバーする。
・一番上の畳み込み層が、分類出力層にとっての入力となり、二つの層は結合される。
・画像全体の物体を分類できるよう、誤差逆伝ぱん法によりネットワーク全体が訓練される。


<畳み込みネットワークの改良>
①プーリング:領域全体にわたり特徴を集約する重要な操作
 →入力位置がずれていても対応できるようになる
・一次視覚野の複雑型細胞に似ている。
・複雑型細胞:視野のパッチ内ならどこでも、線分が同じ方向を向いていればそれに反応する。


②ゲインの正規化(gain normalization):入力の大きさを調節し、各ユニットが動作範囲内で機能するようにする。
・皮質で行われるフィードバックによる抑制機構に相当。


③出力関数として、シグモイド関数の代わりに整流線形(ReLU)関数の使用
・ReLU関数は、ある閾値までは0を出力、閾値を越えると線形に増加。
シグモイド関数のように滑らかではなく、閾値で急激に変わる)
・利点:閾値を越えないユニットを効率よくネットワークから取り除けること。
 →実際のニューロン閾値での動作に近い


・畳み込みネットワークは、ネットワーク性能改善の変更により、視覚野の構成に似てきた。
・生物学とディープラーニングの間に、有用な教生的な関係がある可能性を示唆。


ディープラーニングと視覚の階層構造の類似性
・ディープニューラルネットワークの低次から高次の層のユニットで見られる統計的特性が、皮質の階層構造の低次か
ら高次の階層の神経細胞で見られる統計的特性によく一致する。
・ディープニューラルネットワークの利点は、ネットワーク内の各ユニットの内容を「記録」でき、層から層へと変換される情報の流れを追いかけられること。
 →脳の神経細胞の解析へ応用可能。


●作業記憶と活動の持続
・光点で短時間示した位置を記憶し、一定時間後にそこへ視線を向けるようサルを訓練。
・サルの前頭前野からの信号を記録すると、光点に反応した一部の神経細胞が遅延時間の間もその反応を維持している。
 →作業記憶(ワーキングメモリー


・従来型フィードフォワード・ネットワークは入力を1層ずつ高次層へ伝ぱんする。
・作業記憶を組み込めば、後からの入力が、ネットワークへの以前の入力から残った情報と相互作用できる。
・ネットワークに作業記憶を実装する簡単な方法は、再帰的結合を追加すること。
再帰的結合は人間の大脳皮質でよく見られる。
ニューラルネットワークのある層内の再帰的結合と一つ前の層へのフィイードバック結合があれば、入力の時系列データを時間的に統合可能。
 →音声認識に広く使用
・短期の依存関係には機能するが、入力の影響が時間と共に減少する傾向があるため、時間差が大きい入力同士では効果がなくなる。


・長短期記憶(LSTM):作業記憶の減衰問題を克服
・LSTMにより、活動は減衰することなく過去から未来へ持ち越される。
 →サルの前頭前野で遅延時間の間に起きていること。
・LSTMには、新しく入ってくる情報と古い情報をどう統合するかを決める複雑な仕組みが備わる。
 →長期間の依存関係が選択的に保持
・この作業記憶は、映画・音楽、動作、言語など、入出力の順序の学習が欠かせない多くの領域で成功を収めている。


●敵対的生成ネットワーク
・ボルツマンマシン:認識するよう学習させたカテゴリーの一つを表す出力層を固定すると、活動パターンが入力層に伝わり新しい入力サンプルを生成できる生成的モデルになる。
・この手法は「敵対的生成ネットワーク(GAN)」と呼ばれる。
・二つのネットワークを用意する。
 ①画像生成用の畳み込みネットワーク(生成ネットワーク)
 ②画像が本物か生成された偽物か見分けようとする畳み込みネットワーク(識別ネットワーク)
・識別ネットワークをだまそうとするように、生成ネットワークを訓練することで、生成ネットワークがよりよい画像サンプルを生成するようになる。
・生成ネットワークの出力は、識別ネットワークの入力となる。
・識別ネットワークの出力:
 入力が本物の場合:1
 偽物の画像の場合:0
・二つのネットワークが互いに競い合う。
・生成ネットワークは識別ネットワークのエラー率を増やそうとする。
・識別ネットワークは自らのエラーを減らそうとする。
 →これらの目標のせめぎあいにより、驚くほどリアルな画像が生成される。
・訓練セットのラベルなし画像が一般化されて作られたもの
 →敵対的生成ネットワークは教師なし学習モデルであり、使えるデータはいくらでもある。


・生成ネットワークの入力ベクトルを徐々に変化させ、画像を少しずつ変えることができる。
・入力ベクトルの加算や減算で、画像内の物体を組み合わせた画像を得られる。
・私たちが部屋にある物を説明するのと同じ方法で、生成ネットワークによる画像表現でも、部屋が描写されている。