年齢調整

がんに限らず、多くの病気の原因第一位は、加齢(老化)である。昔と今では、今の方が高齢化が進んでいるので、多くの病気で、罹患率が増加している。罹患率は一年単位で示されることが多いので、以降は特に断らず罹患率は一年あたりの罹患率として話をする。
さて、おおざっぱに(きわめておおざっぱだが)、65歳を境にして、非高齢者、高齢者と分け、ある病気の罹患率をA%、B%とすると、全体での罹患率

(1年前の非高齢者の非罹患人口 * A/100 + 1年前の高齢者の非罹患人口 * B/100)/1年前の全非罹患人口

となる。つまりB>Aの場合、高齢者の割合が増えるだけで全体の罹患率は高くなる。
もし、高齢化以外に、病気が増えている原因を調べたいならば、この高齢化の影響を取り除かなくてはいけない。それが年齢調整と呼ばれる方法である。発想は単純で、基準となる年齢別の非罹患人口構成を定めて罹患率を計算する。
たとえば、1950年の罹患率をA(1950)%、B(1950)%、2014年の罹患率をA(2014)%、B(2014)%とすると、年齢調整罹患率はそれぞれ、

(非高齢者の基準非罹患人口* A(1950)/100 + 高齢者の基準非罹患人口 *B(1950)/100)/基準全非罹患人口

(非高齢者の基準非罹患人口* A(2014)/100 + 高齢者の基準非罹患人口 *B(2014)/100)/基準全非罹患人口

となる。放射能放射性物質の環境への放出)が原因でがんが増えてきているなら、がんの罹患率

A(1950)

臨床研究はGCPで

http://www.yakuji.co.jp/entry35184.html

全部読めないが主旨は想像できる。
こういう話は前からあるが、GCPというのは製薬会社性悪説に基づいた監視システムといっても過言ではないくらい、細かいことが定められている。それを遵守するには多くのスペシャリストの支援とインフラが必要になる。つまり、金がかかる。臨床開発に莫大なコストがかかる一因である。
なので、アカデミアの研究でGCPというのは非常に抵抗が大きい。

もし、すべての臨床研究にGCPを義務づけたらなら、コストの問題で医師の本当に自主的な臨床研究は激減すると思われる。ちょっと古い記事だが、EUでは臨床研究にICH-GCPを導入してから、自主的な臨床研究が駆逐されつつあるそうだ。

http://www.yakugai.gr.jp/attention/attention.php?id=282

そりゃ、研究者が獲得できる公的予算で、そうそうGCP準拠の臨床試験はできないだろう。

さて、実は私は日本の臨床研究者の自主的な臨床研究は基本的に信用していない。製薬会社とつながっていようが、真に自主的であろうが関係なく信用してはいない。それは、ここで

http://japhmed.jp/pm09.pdf

「しかしながら,後に述べるが,依然として薬事法によってすべての医薬品の開発と評価がカバーされるという国際的なルールにはまだほど遠い現状があり,野放しの臨床研究がまかり通っている。これがいかに日本の医薬品・医療機器の開発を損ない,そして医薬品の評価さらには標準治療の革新に大きな障害となっているかを,一部議員はもとより,一部行政,マスコミ,そして一部医師・研究者は自覚できていない。あまつさえ薬事法GCPについて厳しすぎるとか,イノベーション促進のために規制緩和とかの声が上がるのは,科学者の自覚のなさの証明であろう。」

と、手厳しく批判されている通りの状況を見ているからだ。もし、臨床研究もGCP準拠で実施するとすれば、医師の自主的な臨床研究は激減するだろうが、日本に限って言えば、それで患者の利益が損なわれることはないだろうと思う。GCPはしんどいという臨床研究者は、診療に戻っていただいた方がよい。もし研究者としてのキャリアを選ぶなら、基礎医学のほうが自由がきいてよろしいでしょう。

患者は何を信じればいいか?

http://snn.getnews.jp/archives/266290

少なくとも、製薬メーカーが承認申請のために実施する治験では、ねつ造がある確率はかなり低い。規制当局から、GCPを核とした制度でがんじがらめに監視されているので、もし悪質なねつ造があれば、ほぼ発覚する。微小なねつ造はスルーされる確率は高いが、そんなねつ造では、たとえば、ただの砂糖玉を画期的な新薬に仕立てることはできない。
治験は、多くの医療機関に依頼して行われるが、患者一人あたり、100-200万円の金が医療機関に支払われる。ポイントは、医師にではなくて、医療機関に支払われるということであり、医師側にねつ造する動機は生じにくい。また、そもそも検証試験は二重盲検が普通なので、メーカーに有利なデータをねつ造するのは困難である。二重盲検を破ることはやってやれなくはないが、発覚する確率は低くなく、発覚した場合、メーカーは息の根を止められる

一方で、医師による臨床研究については、規制当局は監視しない(当然だが)。よって、すでに上市されている薬の宣伝に利用されやすい、というか、利用するのがメーカーの伝統的な戦略だった。今後は、奨学寄付金はやめて、研究を委託するという流れになるだろうし、また、日本製薬工業協会の透明性ガイドラインによって、透明性は劇的に向上するはずである。

患者は何を信じればいいか? とりあえず、新GCP施行後に承認された薬剤については、添付文書に書いてある効能は嘘ではないと思っていい。ただし、自分に効くかどうかはわからないし、治験は無作為抽出を用いないため、どのような集団に効くのかも基本わからない。つまり、基本、医療の選択は当てもんと同じ。問題は、くじを引くべきか、引くならどのくじを引くべきかについて、合理的に判断する方法があるかということで、ないかもしれないなあ、と思う今日この頃。

武田薬品は誇大広告をしたのか?


http://diamond.jp/articles/-/49558

論文とパンフのグラフが違うという話だが、ハザード比の点推定値と95%信頼区間、p値が全く同じなので、基本同じグラフである。表示されている期間が違うのは変だが、論文のほうのグラフを見ても、ほぼクロスしているなあと思う。顕微鏡でみればクロスが確認できるかもしれない。

で、検索したら、論文に記載された大きな図があった。

http://hyper.ahajournals.org/content/51/2/393/F3.large.jpg

パンフレットに載っているグラフと同じように36ヶ月のところでクロスしている。論文に載る程度の大きさで見てみると、なるほどクロスしていないようにも見える。比例ハザード性を仮定した統計手法は適切ではないが、適切な手法を用いても結論は変わらないだろう。
パンフレットには、ゴールデンクロスを売りにするような記述があるが、全く「武田薬品のクスリが比較したクスリに比べて有利なように見え」はしないし、「宣伝用のグラフでは曲線は交差し、対照薬を追い抜いてしまってい」るという解釈などできない。

これは誇大広告なのか?

注 「」内の記述は、週刊ダイヤモンドSCOOPからの引用である。

確率と個体差


確率の定義には、ラプラスによる古典的なもの、頻度論的(統計的)なもの、コルモゴロフによる公理的なものがあり、学校では最初に古典的な確率の定義を習う。ポイントは「同様に確からしい」という概念だが、この概念そのものが確率の概念を含んでおり、古典的な確率の定義は微妙にトートロジーになっている。従ってあまり具合が良くない。
代数学における確率論は、コルモゴロフによる公理的な確率を基礎にし、理論的には具合がよいが、そのかわりに、確率の意味や解釈は完全にスルーしている。従って、確率を解釈したい向きには、非常に具合が悪い。確率の解釈については、頻度論的なものと主観的確率的なものがあり、両者は飽くなき抗争を続け、現在は頻度論が優勢に見えるが、最近は主観的確率の一派の元気がいい。
さて、現実の世界を見てみると、まったく同じ人は存在しない。それなのに、ある病気で死亡する確率「的」なもの(死亡率)が議論されている。一体、この確率とはどういう意味か? 
各個人が、ある病気で死亡する確率はそれぞれ異なり、ある集団から個人を無作為に選ぶと、ある病で死亡する確率そのものがさらに確率変数となる(確率の公理を満たす)。
これは、個人を無作為に抽出したなら、その個人の身長や体重が確率変数となる理屈と同じなのだが、個人で一回しか観測できない離散的な事象の確率が存在するというのは、頻度論的には定義が困難である(ある個人がある病気で死亡するかどうかは0か1であって、たとえば0.7などというのはあり得ないという批判)。
コイン投げで考えると、一回しか投げることができないコインの表が出る確率のようなものであるが、実は古典的確率の定義では、コインを投げなくてもかまわない。各事象(表が出る、裏が出る)が同様に確からしいという条件が成立すれば、コインを投げずとも表が出る確率が定義できる(同様に確からしいことを確かめる方法はないので、具合が悪いのであるが)。

そこで、もし、あるコインでは、表が出るのは裏が出るよりX倍確からしいという条件が成立するなら、実際にそのコインを投げなくても確率が定義でき、表が出る確率が様々であるコインを無作為に選んで、表が出る確率を確率変数として扱うことができる。さらに、無作為に選んだ様々なコインを投げた場合に、表が出る回数も確率変数となる。

以下に引用するページでは、表が出る(真の)確率がベータ分布する場合の、コイン投げのシミュレーションを解説している。

http://www.singularpoint.org/blog/r/beta-binomial-distribution/

2つのサンプリングモデルでは、表の出る回数の分布は異なり、「そこから一枚コインを一枚抜き出して、n 回投げた。表の出る回数 k が従う分布は」ベータ二項分布、「そこからコインを一枚抜き出して、1 回投げる。そのコインを袋に戻す。これを n 回くりかえした。表の出る回数 k が従う分布は」二項分布に近い形状をしている。病気で死亡する確率も、このアナロジーで解釈できる。

平均寿命世界一のカラクリと、がん大国の理由

そろそろ、日本の平均寿命が発表される時期らしい。平均寿命は年齢別の死亡率の情報、いわゆる生命表から計算される。生命表には完全生命表と簡易生命表があり、前者は5年に一度の国勢調査に基づくもので、毎年発表される後者は、毎年10月1日の人口推計と、死亡の概数が用いられている。

参照リンク

http://www.mhlw.go.jp/toukei/saikin/hw/life/21th/dl/21th_01.pdf

平均寿命とは、0歳児の平均余命であるが、平均余命の定義はここ

http://www.mhlw.go.jp/toukei/saikin/hw/life/life10/sankou01.html

に記載されている。平均寿命は、0歳児の余命が生命表の生存率に従うと仮定した場合の余命の期待値(平均値)と解釈でき、また、年齢別の死亡率さえ決まれば求められるので、年齢別の死亡状況を要約した指標になっている。
期待値は母集団における平均値だから、言葉としては平均寿命という言い方は間違っていないが、平均という言葉のせいで、現在生きている人たちの生存期間(寿命)の期待値と思われがちである。平均寿命は、本来は死ににくさ、死にやすさの指標の一つであり、現在生きている人の寿命の目安ではない。自分の余命の目安ならば、まだ、該当年齢の余命の期待値(平均値)をみるほうがよい。たとえば、平成22年の国勢調査に基づく、女性の完全生命表

http://www.mhlw.go.jp/toukei/saikin/hw/life/21th/dl/21th_04.pdf

によれば、平均寿命は86.3歳だが、86歳の平均余命は7.56年である。この解釈は、すくなくとも、86歳以降の死亡率が現状維持なら、86歳の人の余命の期待値(つまり平均)は7.56年ということである。平均寿命が86歳なのに、86歳の平均余命が7.56というのは奇怪な感じがするが、そのカラクリはすでに述べた。平均という用語が独り歩きして、様々な誤解が生じている感がある。

平均という言葉にこだわるなら、「平均寿命」より、前年の死亡者の死亡時年齢の平均値(平均死亡年齢)のほうがしっくりくるかもしれない。しかし、平均死亡年齢は、年齢構成に依存してしまうため、死ににくさ、死にやすさの指標としては不適切である。少子化が進行している老いた集団では、おのずと平均死亡年齢は伸びていくし、逆に、どんどん子供が生まれているような、若い集団であれば、平均死亡年齢は下がっていく。平均寿命であれば、老いた集団であろうが若い集団であろうが、死亡の状況を同じ基準で評価することができる。なお、日本は少子化が進んでいるため、平均死亡年齢もかなり高いだろいうと推測される。

http://www.stat.go.jp/data/nihon/02.htm

の2-23のエクセルの表に、年齢階級別の死亡数があるが、死亡者数のピークは、男性で75歳代から80歳代、女性では85歳代から90歳代になっているように見える。


さて、日本は平均寿命が世界屈指なのに、世界屈指のがん大国という、矛盾と思われるような状況にある。注意すべきは、高齢者は非高齢者よりがんになりやすいので、高齢者の割合が大きいほど、がん死亡率は高くなることだ。従って、がんによる死にやすさを比較するためには、がん死亡率は不適切な指標である。年齢ごとのがん死亡率を見るのが一番よいが、平均寿命のような要約した情報があると便利である。そこで、年齢ごとのがん死亡率を標準の年齢別人口(日本では昭和60年のモデル人口)にあてはめて、死亡率を出すことが行われる。これを年齢調整がん死亡率というが、これが増加していることは、年齢ごとのがん死亡率が平均的に増加していることを意味し、減少することは、年齢ごとのがん死亡率が平均的に減少していることを意味する(特定の年齢でがん死亡率が減少していても、他の年齢で増加していれば、年齢調整がん死亡率が増加することもあるので、平均的という言葉を使った)。日本の年齢調整がん死亡率は、緩やかであるが年々減少しており、がん死亡率が急激に上昇しているのは、高齢化の進行が主な原因であることがわかる。国別で見ると

http://memorva.jp/ranking/unfpa/who_2012_population_15_60.php

に、WHO加盟国の2010年の高齢者(60歳以上)の割合と、子供(15歳以下)の割合のランキングが載っており、日本は高齢者の割合がナンバーワンで、子供の割合はビリであり、非常な高齢化の進んだ集団であることがわかる。ここまで老化した集団は、やがて消滅に向かうだろう。次々と人が逃げ出し、国が破たんした末に、医療も福祉もなくなった日本。それでも、平均死亡年齢だけは高い。それは、超高齢者だけが取り残され、次々と亡くなっているからだ・・・ということにならないことを願うばかりだ。

個体差とRCT

個体差が大きいと、RCTで評価できないというような、奇怪な主張をしている方々がいる。たぶん、この人たちは介入の無作為化の意味を理解していない。また、二重盲検法がRCTの最重要ポイントだと思っている人けっこういて、これはちょっと違う。肝は介入の無作為化である。

たとえば、あるクリニックにやってきた、インフルエンザと診断された人たちを無作為に2つの集団にわけ、両方ともタミフルで治療したとしよう。すると、無作為に振り分けているため、それぞれの集団におけるインフルエンザが治るまでの日数の平均値の期待値は、両集団で等しくなる(集団を振り分けなかった場合の平均値の期待値に等しい)。

個体のレスポンスの差がとても大きいと、平均値の期待値が等しくならない、などということはない。そもそも、無作為化の最大の動機は、個体差がどれだけあろうが、集団を無作為に分けたなら、平均値の期待値が等しい複数の集団が構成できることにある(帰無仮説成立の保証)。一般的には、無作為化によって平均的に条件(交絡因子とか)が均一な複数の集団を作ることができる、と説明されるが、そのココロは同じである。代替医療屋さんが好きな、自己治癒力や自然治癒力なども、集団を無作為に分けることで、平均的に均一な複数の集団を作ることができる。
別の説明(本質は同じ)を試みると、無作為化によって個体差を確率変数と化すことができ、集団間の個体差の分布を平均的に同じにし、集団間の個体差の差を確率的に扱えるようにすることができる。たとえば、インフルエンザが治るまでの期間は、個人の「自己治癒力」によって異なり、また、その時々の生活環境の影響も受ける。細かく見ていけば、体温計の誤差や、治ったとする判断の誤差などがさらに加わってくるが、体温計や判断基準が集団間で同じになるように調整されていれば、これらの誤差は、期待値0のランダム誤差とみなすことができる。よって、無作為に2つの集団にわけて、タミフルで治療してインフルエンザが治るまでの期間を観測することは、無限個の重さの異なる物体(石ころなど)が入っている仮想的な箱から物体を取り出し、無作為に2つの集団に分けたのち、その重さを同じ測定器で測る、という場合と同じ確率モデルで扱うことができる。物体ごとの重さの差が個人差に相当するが、無作為化されているため、それは集団平均の差の期待値が0であるような確率変数となる。
もし、治癒までの日数の代わりに、一定期間における治癒率を観測するならば、それは、様々に歪んだ無限個のコインが入った仮想的な箱からコインを取り出し、それを無作為に2つの集団に分け、それぞれのコインをとって一回だけでたらめに投げて、表が出たか、裏が出たかを観測する、という確率モデルで記述できる。


さて、無作為に2つに分けた集団の一方の群をタミフルで治療し、もう一方の群をプラセボで治療したとしよう。もし、インフルエンザが治るまでの日数の平均値の期待値が異なったならば、それは、治療法の違いが原因か、または、治療法を知っていることによる、患者または医師の認知バイアスが原因である。もし、そのようなバイアスが生じないようにデザインされていれば、治療法の違いが原因である。タミフル群の期待値が小さい(早い)ならば、タミフルプラセボよりインフルエンザを早く治す、つまり効く、という結論が導かれる。
残念ながら、期待値を求めることはできないので、統計的仮説検定で期待値が異なるかどうかの判断をする。あくまで判断なので、誤ることを許容しているし、期待値が異なると判断できなかったことは、期待値が等しいことを意味しない。

個体差があるからRCTは不向きという主張を、この枠組みで言いかえると、統合医療プラセボ医療より効くが、集団の平均値の期待値の差に反映されないということはあるのか? となるだろうか。

個体にまで話を戻すので、各集団のサイズを3として考える(つまり3人ね)。もし、両群ともに、プラセボで治療したなら、まず、

群1のプラセボ効果の平均値=
(患者Aのプラセボ効果+患者Bのプラセボ効果+患者Cのプラセボ効果)/3

群2のプラセボ効果の平均値=
(患者Dのプラセボ効果+患者Eのプラセボ効果+患者Fのプラセボ効果)/3

として、無作為化されていれば

群1のプラセボ効果の平均値の期待値=群2のプラセボ効果の平均値の期待値

が成立する、そこで、群1をプラセボではなく、統合医療で治療したとすると、

群1の統合医療効果の平均値=
(患者Aの統合医療効果+患者Bの統合医療効果+患者Cの統合医療効果)/3

となる、この期待値が、プラセボで治療した群2の効果の平均値の期待値と等しいということは、つまり

(患者Aの統合医療効果+患者Bの統合医療効果+患者Cの統合医療効果)/3

の期待値が

(患者Aのプラセボ効果+患者Bのプラセボ効果+患者Cのプラセボ効果)/3

の期待値と等しいことを意味する(実際には一方しか観測できないが)。
もしこうなるのというのなら、「統合医療プラセボ医療より効く」の定義から尋ねなければならなくなる(それって、ランダム誤差じゃね?という突っ込みが待っているが)

統合医療が効く人は一部なので、平均すると効果が見出しにくい、というならば話はわかる。たとえばCさんしか効果が出ないとすると、

患者Aの統合医療効果=患者Aのプラセボ効果
患者Bの統合医療効果=患者Bのプラセボ効果
患者Cの統合医療効果=患者Cのプラセボ効果

となって、平均値をとると、プラセボ医療との差はα/3と「薄まる」。しかし、Cさんだけ効果が高めに出るので、個体差のバラツキは、プラセボ医療に比して大きくなるだろう。もし、平均はあまり変わらないが、統合医療群の効果は、プラセボ医療群よりも右(効果の高いほう)にも分布しているならば、Cさんのような人の存在が示唆される。一部の人だけが効くような場合は、混合分布となるが、統合医療側が、効く患者を特定するのに役に立つような診断ができるのであれば、その診断の情報からデータを探索的に解析して、分布の右にある、統合医療が奏功している患者の特徴をつかむことが可能だ。

集団平均で評価することの古くからの批判は

患者Aの統合医療効果=患者Aのプラセボ効果
患者Bの統合医療効果=患者Bのプラセボ効果
患者Cの統合医療効果=患者Cのプラセボ効果

患者Aの標準医療効果=患者Aのプラセボ効果
患者Bの標準医療効果=患者Bのプラセボ効果
患者Cの標準医療効果=患者Cのプラセボ効果

というような場合、平均で評価したなら、標準医療が勝つが、Aさんのようなケースが切り捨てられる、というものだと理解している。これは、新治療と既存治療の比較において、でもさあ、みたいに蒸し返される批判であるのだが、肝心のAさんを特定する方法はない。ただ、測定不可能なAさんの特徴がαを生み出すのではなく、生活習慣や家族歴(遺伝子とかも)、性別や年齢、疾患のサブタイプといった、測定可能な特徴がαを生み出すのであれば、統計解析の工夫でAさんを拾い上げることができる。

西洋医学での一例をあげると、抗がん剤のアリムタが非小細胞肺癌の治療において興味深い情報を提供している。アリムタは、最初に悪性胸膜中皮腫アスベストによるがんの典型)で延命効果が期待できる唯一の抗がん剤として登場し、その後非小細胞肺癌の適応も追加された。個人的には、チョウの鱗粉から発見された物質が由来ということで、とても興味のある抗がん剤である。
さて、添付文書

http://www.haiganchiryo.info/image/alimta2009.6.pdf

によれば、海外で実施された効果を裏付ける臨床試験

アリムタ単独 v.s. ドキタキセル単独

アリムタ+シスプラチン v.s. ゲムシタビン+シスプラチン

の2つのRCTであり、2つ目の試験では生存期間がほぼ同等(いわゆる非劣性)であることが統計的に示されている。つまり、全体では差はない。しかしながら、組織型別の解析では、扁平上皮癌以外ではアリムタのほうが効くが、扁平上皮癌では既存薬のほうが効くことが強く示唆され、インタビューフォーム

http://www.info.pmda.go.jp/go/interview/1/530471_4229401D1020_1_01F_1F

には

「非小細胞肺癌を対象とした外国第III相試験1) 2) において、組織型によって試験群と対照群とで生存期間に差異が認められる傾向があり、扁平上皮癌では他の組織型に比して本薬の効果が減少することが示されている2) 61)。本剤を使用する際は、組織型ごと及び化学療法既治療例での臨床試験成績を十分理解した上で、治療の選択を行うこと。」

と記載されている。さらに調べてみると、

“Prognostic and predictive factors in a randomized phaseIII trial comparing cisplatin–pemetrexed versus cisplatin–gemcitabine in advanced non-small-cell lung Cancer”

http://annonc.oxfordjournals.org/content/21/3/556.full.pdf

という論文が見つかり、非常に詳細な”predictive factors”の解析が実施されている。
実は、かつて、こういう解析は、うまくいかなかった試験(全体では対照薬と差が出なかった)に対して、事後的にさかんに実施されていた。目的は、効果を主張できる部分集団を発見することだが、探索的な解析で得られた知見では、第一種の過誤が制御できないため、現在、そのような解析で効果を主張することは、規制側が受け入れていない(はずである)。アリムタの場合は、対照治療との非劣性が証明されており、その上での使い分けの情報を提供しているのである。なお、アリムタは、添付文書にあるように、副作用軽減のために葉酸及びビタミンB12の投与が必須であるが、それによって、既存の(細胞毒性のある)抗がん剤に比べて、かなり副作用が少なくなっており、それを根拠に海外で早期承認されたと記憶している(承認の主要な根拠になったのは、先に示した一つ目の試験のはずだが、非劣性は証明されていない・・・このあたり、詳しく調べていないので間違っているかもしれないが)。

統合医療側の主張の中に、西洋医学では全体の平均だけでしか評価できない、というのを見かけるが、それは誤った理解であり、もし、一部だが確かに効く患者が存在するならば、その患者の特徴をつかむことは可能である。

最後に、実はRCTには限界がある。というのは、無作為化されている集団達の出所は、母集団から無作為抽出された標本ではないからだ。集団の出所は、研究に参加している医療施設の患者達であり、全患者から無作為に選ばれるわけではない。つまり、RCTの結果を全患者に一般化するのには、待ったがかかるのだ。
もし、複数のRCTで一貫した結果が得られたならば、集団の偏りを超えて、効果の差が一般化できる強い根拠になる。

以上(長くなっちまった)