統計数値は正しいか

FO

「数字が一人歩きする」などと心配されることもありますが、確かに数字だけ注目してその数字の性質や背景を忘れると間違いの元です。統計の結果なら、いつ、どこで、だれが、何を知ろうとして、どのように得た数字なのかを明確にしておく必要があります。

統計数値はこのようにいくつもの性質がありますが、そのひとつに信頼区間を知っていればとても役立ちます。このブログでは フェイク世論調査 のところで紹介しました。サンプリングしたことによって全数調査とは違った数字になってしまうのですが、その違い範囲を見積もったのが信頼区間です。すごく大雑把には、サンプリングしたことによる誤差のようなもの、と覚えていてもいいでしょう。
(「サンプリングの誤差」とは覚えないでください。それは別物ですから。「…のようなもの」まで含めて覚えてください。)

能書きはもういいから中身を知りたい、という向きにおすすめできる資料があります。
講演録:福島第一原発事故と市民の健康――放射線疫学を読み解くためのデータ分析入門
(このページにあるリンクからPDFでダウンロードできます)

10ページを見ると、

信頼区間の上限=推定値+1.96×標準誤差サンプル数 信頼区間の上限 = 推定値 + \frac{1.96 × 標準誤差}{\sqrt{サンプル数}}
信頼区間の下限=推定値1.96×標準誤差サンプル数信頼区間の下限 = 推定値 – \frac{1.96 × 標準誤差}{\sqrt{サンプル数}}

(計算式を画像で表示)

という計算式にも出会えます。サンプル数が大きいと信頼区間が狭く(誤差のようなものが小さく)なる傾向がこの計算式からも読み取れます。この計算式にも出ている推定値が一人歩きしやすい数字です。標準偏差やサンプル数といった他の情報を無視するのがどれほど危ういことか、ここからもうかがい知れます。

この資料では統計の話から始まり、フクシマ事故や放射線障害のことも出ています。本文は40ページほどとコンパクトですし、なかなか魅力的です。