岡田正彦「がん検診の大罪」(3)前回の続き(統計の話)

 
 前回、高田明和氏の「健康神話にだまされるな」(角川oneテーマ21 2008年8月)に示されている、大腸癌の検診の有用性を、25万人以上の人を便潜血反応検査をおこなう群と行わないない群にわけ検討している例を引用して紹介した。そこでは、検査をした群で大腸癌の死が182人、しない群では230人で、これは有意の差であった。しかし全死者数には変化がなかった。その説明として、「全死亡の中で大腸癌が占める割合が3%と多くないので、全死亡でみると効果は隠れてしまうのだ」と高田氏がいっているのを紹介し、わたくしも、それを理に叶っている説明であると思うと書いた。
 同じ大腸癌検診について、岡田氏が論じているのに気がついた。以下引用する。
 「確かに、がんを種類別に分けてしまうと、それぞれで死亡する人の割合はそれほど大きなものにならない。たとえば大腸がんで死亡する人は、日本では総死亡の3.8%にすぎないし、大規模調査の論文が報じている値もこれくらいだ。/ しかしこの数字は、誤差に埋もれてしまうほど小さなものではない。特にがん検診の大規模調査では、人数が多いことに加えて、追跡期間が長く、対象年齢も高いことから、総死亡が1万人を超えるものも少なくない。1万人の3.8%は380人にもなる。これだけの人数がいれば、総死亡にも必ず違いが見えてくるはずなのである。(中略)/ もっと正確にいえば、差があるかどうかは人数の問題ではない。たとえば死亡者の絶対数が少なかったとしても、二つのグループが公平に分けられていて、かつ適切にデータが集められていれば、その差は意味のあるものになるはずなのである。それが「95%確かな範囲」の意味するところだからである。「総死亡として集計すると誤差の範囲に入ってしまうからと述べていた人は、統計学の基本を知らなかったことになる。」
 高田氏の示した例では、大腸癌による死亡が総計で412名だから、総死亡は一万人を超えているはずである。死亡は50人減っている。25万人をかりに12万づつに割り振ったとして、それぞれの死亡が5000人づつであると仮定すれば、大腸癌検診をして、12万人の母集団における50人の変化が(大腸癌死による死亡が230人から180人へ減少したことによって総死亡が5000人から4950人に減った)が有意になるだろうかということである。1%の変化が有意であることを示すためのサンプル数はどのくらいが必要なのだろうか? がん検診がきわめて有効で、大腸癌死がゼロになり、総死亡が5000人から4770人に減れば、それは有意になりそうな気がする。やはり、問題はその疾患が全死亡に占める比率と、その検診の有効性の程度なのではないだろうか?
 わたくしは、人数の問題は無視できないと思うし、《適切にデータが集められていれば》というのが問題で、その《適切》の中にはサンプル数という問題が大きいと思う。片方で「これだけの人数がいれば」といい、もう一方で「人数の問題ではない」というのがよくわからない。ある二つの集団の差異を比較する場合、差が大きければ少ないサンブル数で差が検定でき、差異が小さい場合には大きなサンプル数が必要になるというのが統計学の基本であると思うのだが、違うのだろうか?
 前回の例を再度だす。
 サイアザイド系の利尿剤。1980年オーストラリアのもの。対象は実薬とプラセボあわせて3500人弱(30〜69歳)、観察期間5年。死んだ人:実薬25人、プラセボ35人(有意差なし)。脳卒中心筋梗塞で死んだ人:実薬8人、プラセボ18人(有意差あり)。
 ここからいえることは、このサンプル数では、総死亡には差があるとはいえないということであって、サンプル数を増やせば有意の差があるという結果がでるかもしれない。
 どうも岡田氏は、統計学的に二つの集団には差があるとはいえない、ということから、両集団には差がないという方向に議論をもっていっているようにみえるのだが。
 通常、治験を設計する場合には、有意差を示すためにどの程度のサンプル数が必要かを検討して対象者の数を決めるのではないかと思う。ある治療薬がある疾患による死亡を減らすかどうかと決めるためのサンプル数と、総死亡を減らすかどうかを見るためのサンプル数は当然違ってくると思う。これも違うのだろうか?
 それほど頻度が多く生じないがんにきわめて有効な治療法をおこなっても総死亡を有意に減らすことはないだろうと思う。
 引用した岡田氏の文章には「はずなのである」という表現が二度でてくる。血圧の治療している医者は、血圧を下げれば脳卒中心筋梗塞もへる「はずである」と思いこんでいる。岡田氏は、そうなら統計学的に優位な差が証明される「はずである」であると信じている。事実は、血圧を下げてもそれほど脳卒中心筋梗塞も減らないし、だからこそ、なかなか統計学的に有意であるということを示すことが難しいということなのではないか、そう思っているのだが、違うのだろうか?
 などと書いてきたが、わたくしは統計学の基本を知らないのだろうかと、とても不安である。それで、大昔に使った統計学の教科書を引っ張り出してきた(「スネデカー 統計的方法」)。大腸癌検診の検定はχ二乗検定でいいのであろうか? そうであれば、便潜血反応による検査の大腸癌死亡に対する効果は有意であり、もし他の死亡がかわらず、大腸癌死だけが総死亡を減らしたと仮定して計算してみると、総死亡の減少は有意にはならなかった(危険率20%程度?)。つまり偶然でも5回に一回はおきうる程度の減少率ということになった。この結果は大腸癌検診は他の癌の減少には一切寄与してないのだから、当然であるようにも思うのだが、やはり統計学をわかっていないのだろうか? 検定法の適応間違いかもしれないし、計算間違いかもしれないし・・・。
 若いときにもっとまじめに数学をやっておくのであった。もう一度、統計学を少し勉強しなおしてみよう。
 
  ------------------------------------------------------------
 (追記 :8月31日午後1時半)
 小室直樹氏の「数学が嫌いな人のための数学」(東洋経済新報社 2001年)をひっぱりだしてきた。
 そこに「帰納法がもたらす結論は、正しいとはかぎらない。しかし、正しいかもしれない!/ この「正しいかもしれない」というところが曲者なのである。「正しいかもしれない」というところを「正しい」とすりかえてしまうのである! (中略)/ 宗教的主張とは違って、人間の体験、実験、実証などはみんな特称命題で言い表される。しかし、「科学的真理」ともなると全称命題になる。/ この特称命題から全称命題を導出する帰納法は、正しいともかぎらない。/ くれぐれも、このことに留意すべきである。」とあった。
 岡田氏は、「総死亡に差がない」とする、統計という帰納法による結論を、「死亡率に差がない」ということは「正しいかもしれない」ではなく、「正しい」として議論を進めているように思った。あるサンプル数での調査によれば「死亡率に差がなかった」ということから、どのようなサンプル数であっても差がでないはずである、としているように思う。実は、岡田氏も高田氏も似たような方向の結論にむかっているのである。しかし微妙に異なる。岡田氏は大腸癌検診は意味がない、しない方がいい、という方向に進むのに対して、高田氏は意味があるかもしれないけれど、それほどの有効性はないのではないかという方向にゆく。いずれ高田氏の本を個別に論じたいと思うので、その時にくわしく述べることにしたいが、わたくしは高田氏の論の方に与する。岡田氏の論の進め方はどうも極端というかエクセントリックであるように思う。高田氏は「中庸」を薦めている。わたくしは中庸に与する人間では本来はないと思っているのだが・・・。