統計を考える
衆議院選挙で自民党が単独過半数を獲得しました。立憲民主党が想像以上に苦戦しました。その一方で野党共闘に加わらなかった日本維新の会が躍進。選挙戦略も興味深いですね。さて、選挙の開票速報で当選確実が開票率1%程度で出ますね。一般の人はなんで?と思います。これ統計学なんです。母集団の推計は、率ではなく数で可能となります。だからサンプル(開票数)が500くらい集まれば、全体の結果がほぼわかるわけです。統計でいう検定で、危険率(外れる可能性)5%とか、1%とか言います。当選確実と言うからには危険率は非常に小さいのでしょう。「確実→危険率小→サンプル数大」という流れです。
会社のプレゼンテーションで分析結果を説明する場面が多いです。たまにサンプル数が小さいのに分析・説明している人を見ます。サンプル数10~30程度の分析です。これは危険率が高すぎで、文字通り「危険」。判断を誤る。最低でも50はないと信頼性に欠けると思います。特にクロス分析する場合は要注意。全体ではサンプル数がそこそこあっても、分解すると足りなくなるケースが多い。年齢別、地域別等に分けるときは注意しましょう。
基本的な統計知識は、会社員の基礎リテラシーだと思います。回帰分析や主成分分析などの多変量解析は不要ですが、平均値、検定、サンプリングの基礎知識は必須です。さらに相関分析くらいは出来た方がいい。これも要注意で、相関係数や決定係数が小さいのに、関係性を強調している人をたまに見かけます。相関分析も含めて、エクセルの基本分析ツールに入っていますので、扱えるようにしたいです。
ITやPCが便利になると、結果だけを信じるようになっていきます。基本の原理原則を知らずに前進してしまう。その中に誤りが潜んでいる。統計を社内研修で学ぶ機会は少ないし、適当な資格もあまりない。自己学習するほど切実感もない。意外に抜けてしまう部分なので、意識して基本知識程度はインプットしたいです。相関分析を使えるだけでも、結構活躍できますよ。