ありのままに生きる

社会不適合なぼっちおやじが、自転車、ジョギング等々に現実逃避する日々を綴っています。

不確実性を飼いならす:予測不能な世界を読み解く科学

イアン・スチュアート  著 徳田 功 訳  「不確実性を飼いならす」メモ  

 

イアン・スチュアート著 徳田 功訳
「不確実性を飼いならす 予測不能な世界を読み解く科学」メモ


7 社会物理学
----------------------------------------------------------------------------------
【まとめ】
・標本抽出により、母集団全部を調べなくても母集団の性質を合理的に推定可能。
・予備的な標本抽出で標準偏差を推定し、結果の正しさに対する信頼度及び誤差の許容度を決定することで、正規分布の数学的性質から標本サイズを決定できる。
・回帰分析により、二つ以上のデータセット間の相関を定量化可能。
----------------------------------------------------------------------------------


★ケトレーと統計学
・ケトレーが後世に残したもの
①自由意志、環境といった予測のつかない変動があっても、人間行動の大部分は予測可能。
②平均人
正規分布が偏在するという考え方


★人口を調べる
ラプラスは二つの数字を掛け合わせてフランスの人口を計算した。
 前の年の出生数(出生届けから見つけられる数値で、正確)
 出生率の逆数(毎年の出生者数に対する人口の比率)


出生率を知るには全人口を知る必要がある?
→標本抽出(サンプリング)を用いれば全人口を合理的に推定可能
・典型的な地域を選び、そこで全人口調査を行い、その地域の出生数と比較する。
・典型的:金持ちと貧乏人、教育のある人とない人、男女などの比が、国全体での比と類似していること
・標本の数が多ければ、ランダムに抽出された標本はたいてい十分に典型的な性質を示す。


★ケトレーと平均人
・社会物理学
 「人間という存在」を数学的に解析すること。
 「定量化が可能な人間の特徴」を数学的に解析する。

・多くのデータは平均が頂点をなすパターンを示す。
 ベル曲線(オイラーガウス正規分布)、正規分布に近いもの

・それぞれの属性について、異なる「平均人」を想定。
・「平均人」とは、複雑な主張を単純化するのに都合のよい用語。
 社会のランダムな変動を平らにならし、社会物理法則となるべき規則性を明らかにするための装置。


★相関と因果性
・回帰分析法
 最小二乗法の一般化で、一つのデータセットをもう一つと比較し、最も確からしい関係性を見つけだす。

・回帰直線:データ間の関係に最も適合する直線モデル。
・相関:二つ(あるいはそれ以上)のデータセットの関係の度合いを定量


・人の身長と腕の長さがどれくらい密接に関係しているか定量化する。
・個人ごとの標本をとり、これらの量を測定、対応する数の組をグラフにプロットする。
・最小二乗法を用い、それらの点に適合した直線を引く。
・相関は、多数のデータに対して直線がどれぐらい適合しているかを定量的に評価する。
・データ点が直線付近に分布していれば、二つの変数は強く相関している。
・データが散らばり、直線のまわりにボヤッと広がっていれば、相関は弱い。
・直線が負の傾きであるときにも同じ考えが適用できる。


・ピアソンが導入した相関係数
・二つの確率変数が与えられたとき、それぞれの平均を求める。
・確変数をその平均との差に変換する。
・それぞれを掛け合わせ、その積の期待値を計算する。
・二つの確率変数の標準偏差の積で割る。

・二つのデータが同じ:相関係数は1
・二つのデータが正反対で、一つの変数の符号を反転させたものがもう一方の変数である:相関係数はー1
・二つのデータが独立ならば、相関係数は0
・二つのデータがちょうど線形の関係にあれば、傾きの向きに応じ、相関係数は1かー1になる。


・数多くの因子のうち、どれが重要か選別するには、相関行列などで一般化する方法がある。
・多くのデータセットに対し、相関係数の配列を作り出すことができる。


世論調査と標本抽出。
世論調査では有権者の一部だけが標本として選ばれる。
 →正確な結果を得るため、標本はどの程度の大きさでなければならないのか?

・家族の人数に関する例では、最初に予備実験的な標本抽出を行い、標準偏差を推定。
・結果の正しさに対する信頼度と、どの程度の誤差まで許容できるかを決定する。
・平均0で標準偏差1の標準正規分布を仮定し、標本平均と真の平均とのずれが許容誤差値以下になる確率が信頼度の許容値になるよう標本の大きさを選ぶ。
正規分布の数学的性質より、標本の大きさは少なくとも660σ^2でなければならない。
・σ^2(母集団の分散)は正確な値ではない。
・多少の誤差を許容するため、標本サイズは660σ^2よりも大きくなるよう設定。
・標本サイズは母集団の大きさには左右されない。
・標本サイズは確率変数の分散、変数にどれだけ散らばりがあるかに依存する。