大規模言語モデルは新たな知能か

岡野原　大輔著　「大規模言語モデルは新たな知能か」メモ　

大規模言語モデルは新たな知能か　ＣｈａｔＧＰＴが変えた世界 (岩波科学ライブラリー)

作者:岡野原大輔
岩波書店

岡野原　大輔　著
「大規模言語モデルは新たな知能か」メモ

4　シャノンの情報理論から大規模言語モデル登場前夜まで

＜まとめ＞

・言語モデルは文に対して確率を割り当てることのできるモデルで、確率分布に従い新しく文を生成可能。
・BERTは大量のテキストデータにおいて、ランダムに単語を消去、消去された単語を残りのテキストから予測できるよう学習を進め、獲得した特徴抽出器と内部表現を別の目的に利用。
・汎化は未知のデータでもうまく予測できることで、機械学習の最大の目標は汎化能力を獲得すること。