ありのままに生きる

社会不適合なぼっちおやじが、自転車、ジョギング等々に現実逃避する日々を綴っています。

ディープラーニング革命

テレンス・J・セイノフスキー/監訳 銅谷賢治 「ディープラーニング革命」メモ  

ディープラーニング革命

ディープラーニング革命

 

テレンス・J・セイノフスキー  監訳 銅谷賢治
ディープラーニング革命」メモ

 

第2部 さまざまな学習方法

第10章 報酬学習
----------------------------------------------------------------------------------
【まとめ】
・時間差分学習(TD学習)は、期待していた報酬と得られた報酬の差(予測誤差)によるもので、十分な時間をかけて可能な選択肢を試せば、任意の状態において最適な行動を選択するルールへ収束し、次元の呪いを回避可能。
・ほとんどすべての動物種で連合学習が可能で、報酬直前に発生する刺激のみが報酬と結びつき(連合する)、因果律は自然界の重要な原則。
ドーパミン神経細胞は、意欲を調節する脳機構の中核をなし、予期しない報酬の発生により、ドーパミンを瞬間的に大脳皮質や脳の他の部分へ放出し、報酬が予測よりも少ないとドーパミンの放出量が減り、これは時間的差分アルゴリズムの特徴的性質。
----------------------------------------------------------------------------------


バックギャモンの対戦方法の学習
・ゲームの長所:ルールが明確に定義されている。

バックギャモンの対戦方法の学習>
・熟達した人間のプレーヤーを教師につけてニューラルネットワークを訓練。
・盤面の配置と可能な駒の動きを誤差伝ぱん法で評価。
・欠点:教師以上にプログラムの腕が上がることがない。
・自分自身と対戦することで腕が上がる可能性はある。
・自己対戦の問題点:対戦して一方が勝ったとき、多くの駒のうちどの手が有効だったのか?
 →「時間的な貢献度分配問題」


<貢献度問題を解決する学習アルゴリズム
・リチャード・サットンが考案。
強化学習機械学習の一分野で動物の行動実験における連合学習をヒントに始まった。
・閉ループで環境と相互作用する。
・センサー入力を受けて意志決定を行い、行動を起こす。
・動物が不確かな条件下での困難な問題を解決する様子を観察した結果に基づく。
・環境内で多様な選択肢を試し、その結果から学習する。
・学習が進むにつれ試す行動は減り、学習により見つけた最前の戦略のみを選択するようになる。

・ゴールに達するまでにいくつもの行動を選択する必要があると仮定。
・可能な選択肢すべてとそれぞれにより期待できる将来の報酬が分かっている場合、探索アルゴリズム動的計画法アルゴリズム)を使用し、将来にわたる報酬を最大化する行動選択の系列を見つけ出せる。
・可能な選択しが増加するにつれ、問題のサイズが指数関数的に大きくなる。
→「次元の呪い」

・選択肢の結果について事前にすべての情報がない場合、試行しながら可能な最善の選択肢を選ぶことを学習する必要あり。
→「オンライン学習」


<時間差分学習(TD学習)>
・期待していた報酬と得られた報酬の差(予測誤差)によるもの。
・現在の状態から得られる長期的な報酬を「価値ネットワーク」が予測。
・その出力を、実際に得られた報酬と次の状態から価値ネットワークが予測する長期的な報酬の和に基づく、より確かな推定値と比較。
・以前の推定値を、より確かな推定値に変更することで、行動についての決定精度が向上していく。
・価値ネットワークは、それぞれの盤面配置に対し、予測される将来の報酬をこの更新により学習し、それにより次の手が決定される。
・TD学習アルゴリズムは、十分な時間をかけて可能な選択肢を試すことができれば、任意の状態において最適な行動を選択するルールへ収束する。
・実際に試されるのは可能なあらゆる盤面配置の一部であるが、新たなゲームで起こり得る類似の盤面に対してよい戦略を立てるのに十分
→次元の呪いを回避


<TDギャモン>
・どんな手がいい手であるかという知識は組み込まれていない。
・学習の最初の段階:ランダムに駒を動かすが、最終的にはどちらかが勝利して最終的な報酬を得る。
バックギャモンでの勝者は、最初にボードからすべての自分の駒をゴールさせた者、「ベアオフ」させたプレーヤー。
・価値ネットワークは入力の特徴量から単純で信頼できる信号を先に取り込み、複雑で信頼性のない信号は後で取り込む。
・TDギャモンが最初に学習する概念:「駒のベアオフ」
・ベアオフされた駒の数を表す入力特徴量に正の重みをつけて学習する。
・2番目の概念:「相手の駒をヒットする(振り出しに戻す)」
・勝負のどの段階でも効果の高い、よい経験則。
・ヒットした相手の駒の数を符号化している入力ユニットに正の重みをつけて学習する。
・3番目の概念:「ヒットされない」
・2番目の概念への自然な対応。
・ヒットされる可能性がある駒に負の重みをつけて学習。
・4番目の概念:相手の駒の進行をブロックする「新たなポイントをつくる(駒を重ねる)。
・ポイントをつくる入力に正の重みをつけることにより学習する。
・基本的概念を学ぶのに、数千回のゲームを戦い学習する必要がある。
・1万回で中級者レベルの概念を学習、10万回で上級者レベル、100万回で世界レベル、人間を越えるレベルの概念を学習する。

○TDギャモンがIBMディープ・ブルーよりも画期的だった点
①ゲームの仕方を自分で身につけた
パターン認識を使用し、人間のプレイと似た形で学習した。
②独創的であり、精緻な戦略を発見、人間の試合では見たことがない駒の進め方で対戦した。
・人間の対戦レベルも上がった。
人工知能の歴史の重要な転換点になった。
・人間がやり尽くしたと思った領域で、人間が興味をもち身につける価値があると思うような複雑な戦略を、自分だけで習得した。


●脳の報酬学習
・TDギャモンの学習アルゴリズムは動物の学習実験からアイデアを得ている。
・ほとんどすべての動物種で連合学習が可能。
・ベルの音のような感覚刺激に続いてい餌を与える。
・餌に反応して唾液が分泌される。
・これを繰り返すと、ベルだけで唾液が分泌されるようになる。
・種により、連合学習で報酬となる無条件刺激は異なる。
・誤差逆伝ぱん法での学習では出力層の全ユニットへの細かいフィードバックが必要。
・連合学習で与えられるのは正しいか正しくないかを示す一つの報酬信号だけ。
・脳は、世の中のどの特徴量が正しい行動選択に器よするか見つけ出さねばならない。


・報酬直前に発生する刺激のみが報酬と結びつく(連合する)。
・報酬直後の刺激より、報酬直前の刺激の方が、報酬をもたらした可能性が高いから。
因果律は自然界の重要な原則。
・条件刺激に続いて罰を与えると、正反対のことが起こり、刺激を避けることを学習する。


ドーパミン:脳幹に集まる神経細胞からの拡散的な投射により放出される神経修飾物質。
ドーパミン神経細胞はTD学習を行っている。
ドーパミン神経細胞の活動の一時的な変化が、報酬予測誤差信号を表す。


●動機づけと大脳既定核
ドーパミン神経細胞は、意欲を調節する脳機構の中核をなす。
・依存性の薬物はすべて、ドーパミン活性レベルを上げることにより作用する。
ドーパミン神経細胞の細胞死が多くなりすぎるとパーキンソン病の症状が現れる。
・手足のふるえ、動作開始が困難になり、いかなる活動にも喜びをかんじなくなり(快感消失症)、最終的に動きと反応が全くなくなる(カタトニア)。
・正常動作しているドーパミン細胞は、予期しない報酬の発生により、ドーパミンを瞬間的に大脳皮質や脳の他の部分へ放出する。
・報酬が予測よりも少ないと、ドーパミンの放出量が減る。
→時間的差分アルゴリズムの特徴的性質。


・TD学習アルゴリズムは二つのパラメータをもつ。
①学習率α
②割引率γ
・ハチのようなある種の昆虫は、高い学習率をもつ。
・ハチは、1回その場所へ行っただけで花と報酬を結びつけて学習する。
・割引率も広範囲にわたり変動する。
・γ=0:近視眼的な学習アルゴリズムで、目先の報酬だけに基づき決定が下される。
・γ=1:将来の報酬もすべて同じ割合で重みづけされる。
・遠い将来に得られる大きな報酬を期待するとき、短期的には良くない報酬を選ぶことがある。


ドーパミン神経細胞は、「大脳基底核」から入力を受け取る。
大脳基底核:系列学習、習慣的行動の形成に重要。
大脳基底核線条体にある神経細胞はあ大脳皮質全体から入力を受ける。
前頭皮質の後ろ半分からの入力は、目標達成に向けた運動の系列を学習することに関与している。
前頭前野から大脳基底核への入力は、行動の系列の計画を立てることに、より深く関与している。
・情報が大脳皮質から大脳基底核に伝わり、戻るループには100ミリ秒かかり、1秒間に10回情報を循環させることになる。
・目標達成に向けた一連の行動決定が迅速になされる。
大脳基底核にある神経細胞も、大脳皮質の状態を評価し価値を割り当てる。


大脳基底核は、価値関数の高性能版として機能している。
・TDギャモンとアルファ碁の隠れユニット層の数は異なるが、基本的アルゴリズムは同じ。
ニューラルネットワークの学習アルゴリズムは非常によくスケールする。


・現実世界の問題解決は?
・「知覚ー行動サイクル」は、感覚入力データに基づき行動を計画する任意の問題に適用可能。
・行動結果と予測されていた結果を比較し、その誤差を使用して予測システムの状態を更新する。
・以前の状態の記憶を使い、感覚リソースを最適に活用し、起こりえる問題を予測可能。