シンプソンのパラドックス

今月の注目記事
みんなが知りたい!心理学用語ランキング ちょっと 口癖 プルースト効果とは

シンプソンのパラドックスとは、母集団全体での相関と、母集団を分割した集団での相関が、異なっている場合があるという逆説です。つまり、集団を分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがあります。

シンプソンのパラドックスの原因としては、以下のようなものが挙げられます。

各グループの個体数(サンプルサイズ)が大きく異なる場合
各グループの相関の強さが異なる場合
各グループの構成が異なる場合
シンプソンのパラドックスは、データ分析の際に陥りやすい誤謬です。データ分析を行う際には、注意して分析を行う必要があります。

以下に、シンプソンのパラドックスの例をいくつか挙げます。

ある大学で、理系の学生は文系の学生よりも数学が得意であるというデータがあります。しかし、理系の学生の中でも、工学系の学生は数学が得意である一方、生物系の学生は数学が苦手であるというデータもあります。このような場合、理系全体と文系全体で比較すると、文系の方が数学が得意であるという結果になる可能性があります。
ある病気について、男性の方が女性よりも死亡率が高いというデータがあります。しかし、年齢別に見ると、男性は若いうちは女性よりも死亡率が高い一方、高齢になると女性よりも死亡率が低くなるというデータもあります。このような場合、全体で見ると男性の方が死亡率が高いという結果になる可能性があります。
シンプソンのパラドックスを避けるためには、データ分析を行う際には、以下のことに注意する必要があります。

各グループの個体数(サンプルサイズ)が大きく異なる場合、各グループの相関を正確に評価できない可能性があります。このような場合は、各グループの相関を調整するなどの方法で、誤差を補正する必要があります。
各グループの相関の強さが異なる場合、各グループの相関を正確に評価できない可能性があります。このような場合は、各グループの相関を標準化するなどの方法で、比較を容易にする必要があります。
各グループの構成が異なる場合、各グループの相関を正確に評価できない可能性があります。このような場合は、各グループの構成を調整するなどの方法で、誤差を補正する必要があります。

https://ja.wikipedia.org/wiki/%E3%82%B7%E3%83%B3%E3%83%97%E3%82%BD%E3%83%B3%E3%81%AE%E3%83%91%E3%83%A9%E3%83%89%E3%83%83%E3%82%AF%E3%82%B9