医療法人徳仁会中野病院薬局
青島 周一

カリフォルニア大学大学院の入試に関する統計データによれば、合格者の割合は、女性の受験者で30%だったのに対して、男性の受験者では45%と、オッズ比で1.8倍多いことが示されていました(PMID:29484824)。しかし、学部別に合格割合を再調査したところ、全6学部のうち4学部において、合格者の割合は男女でほぼ同等、もしくは女性で高いことが示されました。つまり、大学院全体で観察されたデータと学部ごとに観察されたデータで矛盾する結果が示されたのです。
同大学院では、合格割合が著しく低い学部と高い学部が混在しており、女性の受験者は合格割合が低い学部に出願する傾向にありました。一方、男性の受験者は合格割合が高い学部に出願する傾向にありました。つまり、男性では合格しやすい学部を受ける受験者が多く、大学院全体で見ると、男性で合格割合が高いという結果が得られたのです。このように、全体で観察されたデータと、個別要素で観察されたデータに矛盾が生じる現象をシンプソンのパラドックスと呼びます。
シンプソンのパラドックスが示唆する重要なポイントは、分析すべき集団を適切に特定しないと事実とは異なる結果が導かれるという点にあります。カルフォルニア大学の例では、「難関学部を受験する学生には女性が多い」という偏りがシンプソンのパラドックスを生み出しており、入試プロセスに男女差別があったわけではありません。そのため、学部ごとに男女別の合格割合を算出しなければ適切なデータを得ることはできません。
シンプソンのパラドックスは、医療分野においても重要な意味を持ちます。喫煙と死亡率の関係を調べた仮想的な研究データを考えてみましょう。この研究において、「喫煙者の死亡率が非喫煙者より低い」という結果が得られたとします。
しかし、喫煙者には若年者の割合が極めて高く、非喫煙者には高齢者の割合が極めて高い、という年齢構成の極端な偏りがあった場合にシンプソンのパラドックスが発生します。若年者は高齢者と比べると、潜在的に死亡リスクが低いからです。
この場合、「喫煙者の死亡率が非喫煙者より低い」という結果は、「若年者の死亡率が高齢者よりも低い」と言い換えられるべきでしょう。年齢層ごとに解析すれば、どの年齢層であっても、死亡率は喫煙者で高くなるはずです。シンプソンのパラドックスを見抜くためにも、研究結果として示されたデータを鵜呑みにするのではなく、データの背後に存在する因果構造を柔軟に思考できる訓練が大切です。