全ての知識と知恵はSDGs(Sustainable Development Goals)のために。

「この世で一番おもしろい統計学 誰も「データ」でダマされなくなるかもしれない16講+α」内容の要約と紹介:アラン・ダブニー,グレディ・クライン(訳)山形浩生

この記事は約6分で読めます。

概要

この世で一番おもしろい統計学 誰も「データ」でダマされなくなるかもしれない16講+α

同じシリーズに「この世で一番おもしろいミクロ経済学」「この世で一番おもしろいマクロ経済学」がある。

統計はあらゆるところにある。

なぜなら、統計は便利だからだ。

統計で天気予報や、インターネットでのまとまり、医薬品の開発や、ファッション、選挙、まちづくり、お金儲けなど・・・

統計は重要なことについていの数字を扱いやすくしてくれる
=複雑な世界が理解しやすくなる
 ▼
統計を使うと、限られた情報で、自信を持って決断できる

本書は統計の基本問題を扱う

一部の標本を使って、全体(母集団)について自信ある(信頼できる)発言をするには

PART1では標本の集め方とその調べ方を学ぶ

PART2では標本を使って母集団の性質を探す方法を学ぶ その手法が統計的な推定である
 ▼
大量のデータを選り分け、信頼空間を計算し、仮設検定を学ぶ

2014年1月30日第1刷発行

PART 1 統計を集めよう

母集団を現すために標本を使う
 そのまえに
標本を使っても母集団について絶対に確実なことはわからない
 =統計は最高の推定をするものである 確信するためのものではない

標本集めで間違えたら、母集団についての結論も台無しになる

標本集めで最大の課題は、何を含めるかを決めることである

目標は標本のバイアスを避けること
 ▼
偏りを避けるために、標本は常に無作為に集める

「無作為標本抽出」はあらゆる統計調査のカギである

標本には
定性的なデータ … 計算できない
定量データ(数値データ) … 計算できる
がある
 ▼
数値データは統計学者にはエキサイティングだが、一般人にはとっつきにくい
 ▼
数値データでまっさきにするのは、グラフにすること

ヒストグラムが基本 … データの山すべてい完全な姿が見たい場合

箱形図も便利 … データの概略を見たいとき便利 データのまとまりをざっと見るのに好都合で、どっち側に偏っているかがわかる
データには

1.標本数

2.形
  考えられる結果が同じ確率なら、データの山は平らになる
  何かの理由で特定の値を中心に固まっていれば、正規分布になる
  データが片方に固まっていたら、歪んだデータ

3.場所
  平均値をつかうと便利だが、位置の指標としては便利で、厳密だが、完ぺきではない
  歪んだデータだとメジアン(中央値)の方が有意義かもしれない
  データの山の位置を考えるときは、必ず山の形も考えること

4.広がり
  ばらつきの指標でもある
  広がりを見るときに一番使うのは標準偏差(SD)である
  データの山の幅が広いと標準偏差も大きくなる

がある

複雑な統計問題の場合、物事どうしの関係を検討しなければならない

隠れた影の変数がある場合、結論を台無しにしかねない

この隠れた変数は多くの統計解析につきまとう

究極の狙いは標本から母集団全体について信頼できることをいうことである。
 ▼
標本データを積み上げると、標本のヒストグラムになる
 ▼
母集団すべてを積み上げられたら、母集団分布という

母集団分布にも、標本ヒストグラム同様に重要な性質がある
それは、形と、位置と、広がりである
 両者を区別するために
標本の性質を「統計量」といい、母集団の性質は「パラメータ」という
 ▼
統計量を集めるのは、パラメータに関心があるからであり、パラメータは直接測れなくても、統計で探し出せる

無作為標本ひとつから得られる統計量をつかって、標本が出てきた母集団の平均を探す
 ▼
PART2へ

目次

Chapter 1 はじめに
 どうして統計学が必要なの?
PART 1 統計を集めよう
Chapter 2 数字
 あなたを惑わす身近な存在
Chapter 3 無作為に集めた生データ
 主観という偏見を取り去るべし
Chapter 4 並べ替え(ソート)
 グラフはデータを「見える化」するためにある
Chapter 5 探偵仕事と標準偏差
 標本を見極めるための「4種の神器」
Chapter 6 化け物じみたまちがい
 こっそり潜む「変数」に気をつけろ!
Chapter 7 標本から母集団へ
 「直接はかれないもの」をはかるにはどうすればいい?
PART 2 パラメータを探そう
Chapter 8 正規分布と中心極限定理
 データは「釣り鐘形」になる(長い目で見れば)
Chapter 9 中心極限定理と確率
 正規分布が便利な2つの理由
Chapter 10 推定
 たった1つの無作為標本からヒントを引き出すための「お絵かき」
Chapter 11 信頼度
 「しっぽ」を切れば、ほしい数値が見えてくる
Chapter 12 信頼度の推定を応用しよう
 「憎しみ」を数直線にのせて
Chapter 13 仮説検定とp値
 「当てずっぽう」で見えてくる真実もある
Chapter 14 仮説検定を応用しよう
 その新しくて魅力的なアイデアは正しいの?
Chapter 15 もっと学べば何がわかる?
 空飛ぶブタ、よだれエイリアン、爆竹物語
Chapter 16 まとめ
 統計学者のように考える
Appendix おまけ
 数学の洞窟へ

PART 2 パラメータを探そう

正規分布と中心極限定理 データは釣り鐘形になる

標本の平均を集めていくと、正規分布になる

正規分布は厳密な数学的特徴を持っている

母集団自体の形は関係ない

長い目で見れば、平均値を積み上げていくと、山はどんどん正規分布になっていく
 また、
大量の平均値の山で中心の値を見ると、母集団の中心の値と等しくなる
 さらに
平均を積み上げた山は、元の母集団よりも狭くなる傾向にある

これを「中心極限定理」(CLT)という

これが成り立つためには、標本が無作為抽出であること、各標本が十分に大きいこと

中心極限定理と確率 正規分布が便利な二つの理由

標本平均が正規分布になりがちなのがなぜ重要か
 ▼
母集団全体の平均(母平均)がわかるし、母集団全体についての確率が計算できる

確率計算で忘れていけないことがある
1.確率は長期的なことしか当てはまらない だから、短期的なことは確実にはわからない
2.どの確立にもウラがある 確率の合計は常に100%になるため、おこる確率が95%なら、それ以外の確率も5%ある
3.確率は無作為の事象にしか当てはまらない

推定

探しているものは直接観察できない
だが
ヒントなら探せる

母平均を推定するときは、確実なことに基づいて推定すればよい
 それは
長期的には無作為の標本平均は母平均に回りに集まろうとする つまり、中心極限定理
 ▼
このやり方を「推定」という

そして書かれる山が「推定標本分布」という

信頼度

推定標本分布一つをみても、母集団の平均の正確な位置は特定できない
だから
推定を学ぶ
 ▼
「信頼度」

しっぽを切り落とす
→ 「信頼水準」を説明する部分と、「信頼空間」を述べた部分の組み合わせができる

たとえば
 95%の信頼度で言えるのは・・・母平均がどこか、ここからここの範囲にあるということ
信頼度の計算方法

1.推定標本分布をつくる
2.真ん中にあるでかい山を切り出す

仮設検定とp値

推定を別の中心の値に移動させたら、なにが言えるか
 これは
「仮設検定」というプロセスの一部になる

本当の母平均を直接見るのは不可能である
 でも
正確な位置当てを当てずっぽうでやってみると、話が進めやすい
 ▼
仮設検定でやりたいのは
この当てずっぽうを検定することである

仮設検定を終えるときは、正式な決断をする

標本と当てずっぽうがかなり近ければ、当てずっぽうが正しいかもしれないと結論するしかない

でも、標本と当てずっぽうがとても離れていたら、当てずっぽうを棄却できる
 ▼
仮設検定は結論に飛びつかないようにするためのものである

タイトルとURLをコピーしました