岡野原 大輔 著 「大規模言語モデルは新たな知能か」メモ
「大規模言語モデルは新たな知能か」を読み終えた。
大規模言語モデルは、文章から消された単語を予測することを繰り返すことで、言語理解に必要な能力を獲得しているようだ。
人間が言語をどうやって獲得・運用し、頭のなかでどう処理しているか、まだよくわかっていないので、大規模言語モデルが人間と同じように言語を理解しているかどうかもわからないと思われる。
物理的な実体をもたない人工知能が、人間と同じように物事を理解することができるのかという議論(記号接地問題)があるそうだけど、大規模言語モデルの言語の理解の仕方も記号から記号へ漂流して接地できていないのだろうか。
そもそも、人間が「物事を理解する」とはどういうことなのだろう。ある対象物について、その全ての側面を完全に理解するのは、そもそも不可能なことで、頭の中にある対象物のイメージをもって理解したことにしているだけの気もする。
大規模言語モデルの言語理解は、人間の理解の仕方とは違うかもしれないけれど、ちゃんと接地してるのかもしれないな。
あらかじめ訓練データで学習したのとは別に、今処理している中で学習していくことを本文中学習とよび、その機能は意図して実装したわけではないそうだ。大規模言語モデルが学習している間に次の単語をより良く予測するため、こうした能力を獲得したとのことだ。
設計者が意図しない機能が実現していたりするので、大規模言語モデルのニューラルネットワークの中で何が起きているのか、まだ完全にわかっていないようだ。ニューラルネットワークの理解を深めていくことで、人間の言語理解についても何か分かってくるかもしれないな。
「大規模言語モデルは新たな知能か」20文字でまとめ | |||||||||||||||||||
1 | 5 | 10 | 15 | 20 | |||||||||||||||
大 | 規 | 模 | 言 | 語 | モ | デ | ル | は | 対 | 話 | 型 | の | 汎 | 用 | 的 | 生 | 成 | A | I |
岡野原 大輔 著
「大規模言語モデルは新たな知能か」メモ
6 大規模言語モデルはどのように動いているのか
<まとめ>
・大規模言語モデルは、簡単な計算を実行する部品を大量に組み合わせることで、複雑な計算を実現するニューラルネットワークと呼ばれるモデルを利用し次の単語を予測。
・ニューラルネットワークに訓練データを与え、誤差逆伝播法を使い求めた修正量でパラメータを修正すると、序々に訓練データの正解を当てられるようになる。
・大規模言語モデルに使われている自己注意機構(過去の単語列で重要な部分を思い出す短期記憶に相当)は、パラメータを変えて学習した場合と同様、指示や、今生成しているデータにあわせてモデルを急速に適応させていく。