Bayesの卵を割らずにBayes流オムレツを作る?? 〜1930年論文で読む信頼区間 vs 推測区間〜

お断り

この記事で書かれている内容は,かなり特殊ななものです.通常の信頼区間を知らない人は読まないことを勧めます.

 

はじめに

このブログ記事では,Neyman流の信頼区間と,Fisher流の推測区間(fiducial interval)の違いを,次の2点に注目して解説していく.

  1. 実現信頼区間(実現推測区間)の解釈
  2. 同一母集団からの抽出 vs 準拠集合からの抽出

その際,Fisherによる1930年論文 "Inverse Probability"をもとに,Fisherの考えを紹介していく.

なお,このブログ記事では,設定しているモデルが正しいものとして話を進める.<モデルの前提が正しい>ものとして議論を進めていくことに対する批判としては,Kass(2011) Statistcal Inference:The Big Picture, Statistical Science, 26(1), 1-9を参照のこと.

実現信頼区間の解釈における違い

信頼区間(推測区間)のうち実際に得られたデータ値を代入して得られた信頼区間(推測区間)を,ここでは実現信頼区間(実現推測区間)を呼ぶことにする.Neyman流信頼区間とFisher流推測区間の違いのひとつは,実現信頼区間(実現推測区間)の解釈にある.

実現信頼区間に対する解釈の両者の違いの根底には,<研究者や科学者が行う不確実性をもつ判定を,確率的に表現できるか? また,確率的に表現すべきか?>に対する哲学的な違いがあるだろう.Fisherは,少なくとも1930年では「できる」し「するべき」という立場であった.一方,Neymanはおそらく「できない」という立場であった.

Neymanが提示した例として,円周率の1000桁目X_{1000}は確率変数ではなく定数である,というものがある.「X_{1000}=8である確率は?」と問いかけたならば,Neymanは0%か100%であると答えるであろう.一方,Fisherは,おそらく,「20%」などと確率的な言明をするのも有用だと考えていたと思われる.

<不確実な判定に対しても,積極的に確率的な言明をする>という1930年以降のFisherの立場は,Bayes流推測の基本方針に近い.Fisherの1930年論文のp.528第1段落を読むと,一瞬,Bayes推測をFisherは否定しているように読める(ただし,Bayesは擁護している).しかし,第2段落を読むと,Fisherが批判しているのは,Laplace流による事前分布の設定方法だけである.Fisherが批判しているのは,「不十分理由の原則」によって「同様に確からしい」として一様な事前分布を割り振っている点だけである.<不確実な判定に対して,積極的に確率的な言明をする>というBayes流の基本方針自体は,Fisherは批判していないどころか,1930年論文の主目的であり,「推測区間」によって技術的に達成しようとしている.

<不確実な判定に対して確率的な言明をする>よりも話題を狭くすると,<パラメータに対する確率的言明は行えるのか?」について,NeymanとFisherは異なった考えを持っていた.Neymanは,おそらく「行えない」と考えていたのに対して,Fisherは少なくとも1930年の段階では「行える」と考えた.

ただし,Fisherも1930年より前には,パラメータに対する確率的言明を(技術的に)行えるとは考えていなかった.確率分布をパラメータの関数とみなしたものを,「確率」に意味や用法は似ているけれど「確率」と区別する用語として,わざわざ「尤度」という言葉をFisherは割り振った.尤度は,確率がもつ性質は持たない.Jacksonさんの身長とJohnsonさんの身長から「JacksonさんもしくはJohnsonさんの身長」を一意に決めることはできないのと同様に,尤度も,たとえ排反なパラメータ値であっても,足し算を行えない.一方,確率は事象が排反であれば,足し算が行える(1930年論文,p.532).

尤度や最尤法を統計的推定の中心とみなしていた前期においては,Fisherはパラメータに対して確率的言明を行えるとは思っていなかった.1930年のこの論文では,その考えを変更している.この変更は,論文集にて<考え方を変えた>とFisher自身で述べている珍しい例である.Fisherは,いくつか重要な事項に対して考え方を途中で変更しているが,それを明示的に述べたことはあまりない.

以上のような出発点での違いから派生したのだと思われるが,例えば,「{\rm Pr}(\mu \lt 100)」というパラメータに対する確率に対して,NeymanとFisherでは次のような違いがあるだろう.

  • Neymanの考え方では,{\rm Pr}(\mu \lt 100)は,0%か100%のいずれか.
  • 1930年以降のFisherの考え方では,{\rm Pr}(\mu \lt 100)に対して,20%などの確率的言明が行える.

このような違いがあるために,実現信頼区間に対する解釈が両者で異なっていた.Neymanは,実現信頼区間にパラメータの真値が含まれている確率は0%か100%であると考えた.Fisherは,95%などの確率的言明が行えるとした.

現在の多くの統計学入門書では,Neyman流の立場のみを解説している.ただし,竹村彰通『現代数理統計学』の9章3節では,節の後半でわずかであるが,コイン投げをしてコインを覆っている場合を例に挙げて,Fisher流解釈を紹介している.

 

同一母集団からの抽出 vs  準拠集合からの抽出

Neyman流信頼区間は,少なくとも教科書的な枠組みでは,同一母集団からの繰り返し抽出を前提としている.統計学の入門書では,例えば,95%信頼区間は,<同一母集団から100回繰り返し無作為抽出をした場合に,そのうちの約95%の区間内に真値が属する>などと説明される.これは,次の図1のようなイメージ図で描くことができよう.

図1:Neyman流信頼区間のイメージ

Neyman流信頼区間の解釈では,前節で述べたように,1つ1つの実現信頼区間に真値が属する確率は0%か100%と考える.「95%」という確率は,あくまで100回や1000回などの同一母集団からの繰り返し抽出での確率である.この時,抽出元の母集団は同一であり,母集団分布のパラメータ値は1つの値に固定されているものと考える.

一方,1930年論文において,Fisherは,やはり抽出を考えているが,抽出元の集合は,同一の母集団でなく,いくつかの異なる母集団であっても構わないとした.Fisherの推測区間のイメージ図は,次の図2のようになる.

図2: Fisher流推測区間のイメージ図

図2において,赤い点がパラメータの真値である.1930年論文では,図2のようにパラメータ値はばらついていても構わないと想定されている.つまり,Fisherの1930年論文で展開されている枠組みでは,パラメータは固定値ではなく確率変数であってもなくても構わない.

この設定のもとで,Fisherは,Bayes流推測とは違い,事前確率を設定せずに,<不確実な判定に対する確率的な表現>や<パラメータに対する確率的言明>を求めようとした.

図2において,私たちは,どの実現推測区間が真値を含んでいるかの区別がつかない.ただ,そのうちの95%は頻度的に真値を含んでいる.その場合,いま目の前にある実現推測区間に真値が属する確率は95%と思っていい ... というのがFisherの主なアイデアであろう.このアイデアをもとに,技術的には,パラメータ値を所与としたときの統計量の頻度的な確率分布を形式的に裏返すことで,パラメータ値に対する"確率分布"を求めた.この確率分布は,(少なくとも1930年の論文が設定しているような単純な前提ならば)少なくとも形式的には,確率の公理を満たしている.

この話だけを聞くと,Neyman流信頼区間とFisher流推測区間には,数値的にも大きな違いがあると思うかもしれない.しかし,1930年論文で扱っているような,連続型確率分布で,かつ,局外パラメータがないような単純な場合には,両者は数値的には同じである.1930年論文が扱っている単純な状況では,Fisher流推測区間は,技術的には,枢軸量(pivotal quantity)を用いて求めるのだが,それはNeyman流信頼区間を求める方法でもある.

Fisherは,1930年より前で最尤推定を推定の中心と考えていた時期には,同一母集団からの繰り返し抽出をもとに理論を整備していった.しかし,1930年以降になり,その考えを捨て,統計的推測での確率計算は,参照集団(reference set)に基づき行うべきものと主張するようになる.Fisher正確検定(Fisher直接確率検定)などにおいて,FisherとNeymanの哲学的な違いは目立つようになる.

 

以上の議論は,いずれの立場であっても,前提としているモデルが正しいものとして論じた.<モデルの前提が正しい>ものとして議論を進めていくことに対する批判としては,Kass(2011) Statistcal Inference:The Big Picture, Statistical Science, 26(1), 1-9を参照してほしい.

 

Fisherだけに5%閾値の責任を負わせるのは少し酷な気がする

 

以下,記憶だけで書いたいい加減な話.

 

5%閾値を広めた責任者は,K.Pearson, Fisher, Neyman, Snedecor,そして,統計分析のハウツー本の著者ら,さらに,私自身も含めた統計関連従事者(←統計家や統計学者ではない)ではないだろうか.Fisherだけに責任を負わせるのは酷な話だと思う.

 

 

まず,1900年初頭には,K. Pearsonの提案をもとに,probable errorの3倍以上のものを”almost certain significance”とする分類がBiometrikaを中心に利用されていた.このprobable error (PE)は,Xが正規分布に従っている時に,μ± PEにXが属する50%となるもの.このPEは,元々は,Galtonが多用していた.(Galtonは,いまでいう四分位点から,PEを求めていた.Galtonの文献では,標本と母集団の違いが曖昧.K. Pearsonになると標本と母集団の区別をしている.)

 

標本正規分布におけるPEは約0.6745なので,3PEは2.023ぐらい.つまり,3PEは,2SDにまあ近いと言えば近い.そして,2SDは両側5%に近い(実際には,両側5%はZ = 1.96).

 

1925年のFisherによるSMRW(特に初版)では,有意か有意じゃないかの目安として5%を用いた理由として,この3PE2SD両側5%が挙げられている.よって,この段階では5%閾値が広まったのは,Fisherのせいだとも言えるし,K. Pearsonのせいだとも言える.ここでポイントとなるのは,少なくともSMRWの初版では,Fisherは(Fisherも)5%を(便宜的ではあるものの)閾値としていること.

 

また,Fisherが,5%を閾値とした間接的な理由として,統計表として,(分位点に対して累積確率を列挙した表ではなく)累積確率に対する分位点を列挙した表を用いないといけなかったことが挙げられる.そのような統計表を用いることになった理由としては,(a) K. Pearsonなどが作成したBiometrikaの統計表を利用できなかった,(b) F分布で分位点に対して累積確率を列挙すると表が膨大な量となる,という2つが挙げられるだろう.

 

ここから話は一捻りする.1930年代に入り,Neymanは,E.S.Pearsonとともに,現在,「Neyman-Pearsonの補題」として知られている補題を提示した論文を筆頭に,仮説検定や信頼区間に関する論文を発表していった.これらの論文では,対立仮説や第1種&第2種の誤り,accept/rejectといった数理的な概念をもとに,仮説検定の理論を整備していった.Neyman-Pearsonの補題を筆頭としたNeymanの仮説検定の枠組みは,多くの統計学者に普及していった.

 

Neymanの仮説検定の枠組み自体では,閾値は特になんでも良い.たとえば,Neyman-Pearsonの補題は,有意水準が5%でも,1%でも,0.1%でも,3.2%でも成立する.しかし,Neymanの仮説検定では,検出力を求めるために検定において何かしらの閾値を決める必要がある.

 

一方,1930年代にはSnedecorのハウツー本が出版される.この本は,FisherのSMRWよりもはるかに多く売れた.この本には,5%以下は”significant”でアスタリスク1つ(*),1%以下は”highly significant”でアスタリスク2つ(**)付ける表が登場する.星付与システムの普及には,Snedecorのハウツー本が強く貢献したと思われる.

 

1930年頃ではすでに5%の閾値は普及していたと思われるが,統計分析のハウツー本の筆者らの間で,「5%」が次第にNeyman流の「第1種の誤りの確率」として解釈されるようになっていく.そして,統計的検定が,帰無仮説と対立仮説のいずれを選択するかの意思決定だと考えられるようになる.元々,Fisherは1930年からNeymanの仮説検定の枠組みを批判していたが,1940年以降になると,Neyman流の仮説検定が不可逆的な白黒を付けてしまう枠組みであり,製造業分野でのacceptance procedure(工業製品のロットに対して,いくつかを抜き取って合格/不合格を決める方式)を科学の分野に無理矢理,応用しようとしたとして批判するようになっていく.その際,5%を閾値とすることも批判するようになっていく.

 

Lehmannの見立てによると,そのようなFisherによるNeyman批判は,「おまいう」案件だろうということだ.Lehmannは,SMRWのいくつかの版を見て,次第に5%閾値とする記述が薄まっていくさまを記述している.また,D.R.Coxによると,実際の応用場面では,一般に思われているイメージとは別に,Fisherの方が閾値(5%)を基準に白黒をつけていて,Neymanの方がp値を示して白黒をつけずに連続的に解釈しているとのことだ.

 

しかし,K.Pearson, Fisher, Neyman, Snedecorだけが,5%閾値の責任者ではない.むしろ,統計家や統計学者以外のその他大勢の統計関係者の責任の方が大きいのではないだろうか.私自身も,「5%閾値には科学的な意味がありません.しかし,世間ではよく使われています.」と人々に紹介してきた.これ自体,嘘ではないだろうが,適切な説明ではないだろう.そう聞いて,「科学的に理由がないのだから,使うのをやめよう」と思う入門者は少ないだろう.むしろ,5%閾値を利用して,もし誰かに理由を聞かれたら同じ理由を言うことになるだろう(もし「なぜ5%を閾値としたのですか?」と聞かれたら,「5%には科学的な意味がありません.しかし,世間ではよく使われています.」と答えるようになる.嘘ではないので,罪悪感が小さい).

 

以上はあくまで私の個人的な感想なので,まあ誤解も多く含まれているだろう.そしてもし大体,合っていたとしても,上記のような小噺を入門者に(全部で1日間ぐらいの講義のなかで)伝えるのは得策ではないと思う.「少なくとも1950年代のFIsherは,Neymanの仮説検定の枠組みを白黒を付けてしまう枠組みだとして批判していました.」ぐらいを伝えたので十分ではないだろうか.

 

さらにおまけとして,実際には閾値として5%以外の閾値も数多く使われている点にも注意が必要だろう.例えば,医薬臨床試験の統計家であるStephen Senn先生が指摘しているように,ICH E9で規定されている有意水準は2.5%であり,5.0%ではない(さらに,2回パスする必要がある場合には,実質的な有意水準は0.025の2乗となる).製造業での管理図では,3σルールがよく使われていたが,3σは5%ではない(なお,これは王道の統計的検定ではなく,有意でなかったら,通常状態であると判断する枠組みである).他にも,ICH Q1Eでバッチ間の違いがあるかどうかの判断で使われる有意水準は25%(0.25)である(これはモデル選択において,統計的検定を流用している).このように色々な閾値があるのは,統計的検定が,(それが数理的に擁護できるかどうかは分からず,人によっては邪道に見えるだろうが)応用では多種多様な目的で使われているからだと思われる.

 

 

もうひとつおまけとして,日本での特殊事情もあるかもしれない.日本では,戦中から戦後にかけて数理統計学の輸入と普及が加速していったが,「Fisherを祭り上げて,Neymanの枠組みを教える」というものだったと思う.一方,英語圏では,Gerd Gigerenzer先生の見立てによると,匿名化・無歴史化された(悪い意味で)折衷型の検定が普及していったという.

歪度が共に0かつ平均が同じ状況で,分散が極端に異なる場合に,Wilcoxon検定の検出力はどれぐらい? (計算を間違えているかも)

以下,間違えているかもしれませので,適当に流し読みしてください.

 

2023/2/12追記:このブログ記事は,同順位がない場合(応答データが連続データである場合)で各群の標本サイズが等しい場合しか扱っていません.

 

入門的な教科書では,Wilcoxon検定の検出力は,通常,F(x) = G(x-θ)と位置パラメータだけがずれているという前提のもとで「H0: θ=0」の検出力の話をするのが,定番です(例えば,竹村彰通(2020)『新装改訂版 現代数理統計学』学術図書 pp.287-291).しかし,平均は等しく,歪度がゼロの状況で,分散が異なる時に検出力がどれぐらいになるかも私は気になりました.

話がややこしいのですが,次のように私の中で考えが変わっていって,そのような状況の検出力が私は気になるようになりました..

  1. (遠い昔...)母集団分布が正規分布でない時は,Wilcoxon検定をすべきだよ.
  2. いやいや,2つの母集団分布の違いが位置だけずれているという前提が成立していなければ,つまり,F(x) =  G(x-θ)という前提が成立していなければ,H0:θ=0の妥当な検定にWilcoxon検定はならないよ.(つまり,「母中央値の差が0」や,「母平均値の差が0」の検定としてはWilcoxon検定は妥当ではないよ.)
  3. 母平均が一緒で母歪度がともに0で,分散だけが違う時さえも,H0:θ=0の妥当な検定にはならないよ.
  4. 母平均と母分散が一緒で,母歪度がともに0でも,H0:θ=0の妥当な検定にならない例を作れるよ.
  5. だから,Wilcoxon検定は,「母集団分布が2つの群で全く一緒」というのを帰無仮説にした検定と考える方がいいよ.(注:今回の話とは関係ないが,Studentのt検定の帰無仮説も「母集団分布が2つの群で全く一緒」(もしくはFisher sharp hypotheis)とすべきと私は個人的には思っている.)
  6. 上記 2., 3., 4. のようにいうけれど,そんなに気にすべきことなの? 感度分析した方がいいんじゃない? ← イマココ.

(注:ここでの「妥当」とは,宣言した名目的な有意水準をきちんと保つことを指します.)

 

このブログ記事では,取り急ぎ,(3)について,最も極端な例で,どこまで実際の有意水準(検定のサイズ)が膨れ上がるか,名目的な有意水準が両側5%の時で調べてみました.

 

最も極端な例とは,1群における値が,もう一方の群のすべての値よりも50%で小さくなり,50%で大きくなるという例です.例えば,第1群を X〜Unif(-1,1) とした場合,もう一方の群の値がが確率50%でUnif(-3, -2),確率50%でUnif(2, 3)となるような場合を考えます.

 

なお,この極端な例は2つの点で実用的な例ではありません.

(a) そんな極端なことは,現実ではまず起こり得ないでしょう.

(b) もし母集団がそんなにも違うならば,その違いを検出する検定を使うべきでしょう.

 

以下が,各群の標本サイズが100, 200, 400, 800, ..., 25600の時の結果です.

名目的な有意水準が両側5%のとき,極端な例に対する検出力(実際の有意水準)は10%前後のようです.間違えているかもしれませんので,是非,各自で確認してみてください.

 

[  100 0.0886260801140672]

[  200 0.103639038437849]

[  400 0.0988217869165587]

[  800 0.11155465468006]

[ 1600 0.104132970281548]

[ 3200 0.107674419657684]

[ 6400 0.106845874783091]

[12800 0.109632898727601]

[25600 0.108217176947184]

 

これは一番,極端な場合での例です.この約10%になるのをどう考えるかは,分野や状況によると思います.(ただ,約10%は検出力としては低すぎなので,Wilcoxon検定が異分散の時は「H0: θ=0」の検定としては妥当でないからと言って,異分散に敏感に検出したい場合には利用するのは得策ではないとは言えると思います.)

 

 

付記:以下は,上記の結果を出すのに用いたコードです.

(急いでいるため,マイナーな言語で書いてしまいました... なんとなくで理解してください...)

 

nvec = [100, 200, 400, 800, 1600, 3200, 6400, 12800, 25600];

alpha = 0.05;

z = Normal Quantile(1-alpha/2);

For(i = 1, i <= NRow(nvec), i++,

  m = n = nvec[i];

  crit = n*(n+m+1)/2 +  z* Sqrt(m*n*(m+n+1)/12);

  k = Floor*1;

  power = 2 * Binomial Distribution(0.5, n, k);

  Print(nvec[i]||power);

);

*1:3*n^2 + n - 2*crit)/(2*n

t検定を並び替え検定とみなし,その帰無仮説を「2つの母集団分布は同じ」とすべきという私の主張について

昨日,Twitterにて,(ある程度,標本サイズが大きければ)通常のt検定は並び替え検定として解釈して,その時の帰無仮説は「2つの母集団分布は同じ」とした方がいいだろう,と私が呟きました.

以下の引用リツイートを,黒木さんからしていただきました.

 

引用リツイートしていただきありがとうございます.

少し長くなりますが,いま思いついたことを,以下に書きたいと思います.

お断り

あくまで私の個人的な意見であり少数派だとは思います.また,黒木さんのように真摯に考えているわけではなく,私の考えは浅いと思います.

私の中心的な考え

特に無作為抽出(ランダムサンプリング)が行えず,無作為割り付けしか行えない状況では,t検定を並び替え検定の近似とみなし,「2つの母集団は同じである」(もしくはFisherのsharp hypothesis)というノンパラメトリック帰無仮説の検定とみなすのが良いんじゃないかなぁ,と考えています.

 

私の主張(や統計学の入門書)で足りなかった点

しかし,それだけしか統計ユーザーに伝えなければ,「2群で異なる分散を検出するためにt検定を行う」という方も出てくるかもしれませんので,どの方向に検出力が高いかも伝えた方がいいとは思います(黒木さんのおっしゃる通り,2群で標本サイズが等しい場合(かつ標本サイズが大きければ),平均は同じで分散だけが異なる場合の検出力は有意水準と等しくなるでしょう).

 

通常のt検定とWilcoxon検定の検出力に関しては,入門者用の教科書では(例えば竹村本 pp.287-291)  F(x) = G(x-θ)と2群の母集団分布が位置パラメータだけズレたことは扱っています.しかし,入門者用の教科書では,もっと幅広い方向でのズレ(たとえば分散が異なる場合)に関する検出力は扱っていないと思います.おそらく研究は進んでいるのでしょうけれども,私は追えていません.しかし,重要な視点だと思います.

 

そうは言っても...

いろんな方向の検出力を考えることも大事だろうとは思いつつも,一方で,そこまで気にする必要はないだろうとも思います.どのような統計量に注目すべきかは,研究の目的や内容によって,実務家や研究者が”直感で”分かるようなものではないかと妄想しています.

 

私が知っているこれまでの統計学上での議論

上記の話題は古くは,FisherとNeyman の間で交わされた論争であり,「検定Aではなく検定Bを用いる”べき”」と主張する際に,Neymanの方は,有意水準が保てている中で(かつ,不偏性があるものの中で)検出力が高いものを選ぶべきとしました.Fisherの意見ははっきりしませんが,実務家が興味のある指標を用いるべきという考えだったと思います(他にも,Fisherは,補助統計量で局外母数を消すとか,十分統計量を用いるべきとか,色々ごちゃごちゃして話がこんがらかっていますので一概にはまとめられないと思います.).

 

私の主張における2つの大きな欠点

帰無仮説を「母集団分布は同じ」(もしくはFisherのsharp hypothesis)にするという私の好みに沿った場合,実用上,大きな問題となることが2つあると思います.

第1に,ノンパラメトリックな枠組みでは,標本サイズや検出力を算出できない点です.そこは妥協して,これまでの慣習通り,計画段階では,パラメトリックなモデルを仮定して算出したのでいいのではないかと思っています.つまり,計画はパラメトリックに,分析はノンパラメトリックに解釈する,という方針でいいんじゃないかと思います.

 

第2に,これはもっと深刻かもしれませんが,ノンパラメトリックな仮説では,特定のパラメータに対する区間推定との整合性が取れなくなるという点です.H0: F(x) = G(x - θ)と帰無仮説パラメトリックなものに変えれば,形式的にはθに対する区間推定はできますが,そうすると,「2つの母集団分布は位置パラメータだけが異なる」という強い制約を課すことになります.その制約をなくして推定するとなると,検定では通常のt検定,区間推定ではWelch検定と,整合性が取れなくなります.じゃあ,検定の方もWelch検定にしたらいいじゃないか,とも思いますが,そうすると,帰無仮説として「分散は異なるけれど平均は同じ」ということを想定することになります.無作為化試験の時には,効果がなかったら,反応の並び替え分布は同じものと考えるのが自然で,「効果はないが分散は異なる」というのは不自然だと私は直感的に思います.

 

私がもつ楽観的想像

Neyman流頻度主義に基づき乱数シミュレーションで同一母集団からの無作為抽出を何回も繰り返して,検定の誤りの確率を評価するのも非常に重要だとは思います.しかし,どの検定を使う”べき”,どう解釈す”べき”かという規範上の取り決めは,普段から実データを目にしている各領域の実務家がよく分かっているんじゃないかと私は妄想しています(Fisher主義).

 

お断り Part2

また,上記の話はあくまでn = 1000とかn= 5000とかの話をイメージして書きました.n = 5などになると,話は別になると思います(そもそも検定や区間推定をすべきなのか?).逆に n = 100万,n = 1000万などになっても,まったく話は違ってくると思います(そもそも,単純な群間比較ではなく,より汎化性能の高い複雑なモデルを立てる方が得策?).

二項確率の「正確」信頼区間における保守性を,背後に一様分布を想定することで直感的に理解する

お断り

この記事はすぐに削除するかもしれません.

 

このブログ記事の目的

このブログ記事では,二項分布の確率に対する「正確」信頼区間が保守的になることを,二項分布の背後に一様分布を想定することで,直感的に分かりやすくなることを狙っています.

 

設定

以下のような,未知の事前分布 Fと二項分布 {\rm Bin}(n, \pi)の条件付き分布で構成される階層モデルを仮定します.

 

 \rm \pi \sim F    (\pi \in [0, 1]) 

 X|\pi \sim {\rm Bin}(n, \pi)    (X = 1,2,...,n)

 

ここで Fは未知とします.Fは, {\rm Pr}(\pi = 0.5) = 1のように定数であってもOKだとします. 

 E^{\pi, X}[ I( \pi \le L(X))] \le 0.025となるいい感じの L(X)や, E^{\pi, X}[ I( \pi \ge U(X))] \le 0.025となるいい感じの U(X)を求めたいとします.

ここで, L(X)=0 U(X)=1は上記の不等式を満たしますが,「いい感じ」ではありません. L(X)はなるべく大きく, U(X)はなるべく小さくなるように努力するとします.

そのような L(X)および U(X)を求めれば, E^{\pi, X} [ I( L(X) \lt \pi \lt U(X)) ] \ge 0.95となります. E^{\pi, X} [ I( L(X) \lt \pi \lt U(X)) ] \ge 0.95という性質を持つ (L(X), U(X))は, \piに対する信頼係数95%の信頼区間と呼ばれています(:ただし,Neyman-Pearson流頻度主義の信頼区間では,固定された定数と\piを仮定することがほとんどです.一方,中期R.A.Fisherの推測区間 fiducial limitでは, \piは定数でも確率変数でもどちらでもいいとされています.いずれにしろ, \piが定数であっても確率変数であっても以下の議論には影響しません.なお,R.A. Fisherの推測区間は,現在の教科書にはまず出てきません.)

なお,実用上では, (L(X), U(X))に,Xの実現値xを代入した (L(x), U(x))が報告されます.しかし,以下で問題としているのは, L(X) U(X)です.

上と下で等しい確率(今回の場合は0.025)の信頼区間は,等裾信頼区間と呼ばれています.簡単のために,このブログ記事では,等裾信頼区間のみを考えます.

また,信頼区間には,データ以外のランダマイザー(確率発生装置)を用いるものもあります.そのような確率化された信頼区間もこのブログ記事では考えません.

 

背後に一様分布を想定

上記の信頼区間を求めるのに,独立同分布の一様分布に従う n個の確率変数を背後に想定します.

 V_i \sim {\rm Unif}(0,1)\ \ {\rm iid} \ \ (i = 1,2,...n)

この V_iそのものは観測できず, \pi以下となっている V_iの個数 X = \sum_{i=1}^n I(V_i \le \pi)は観測できるとします. \piが与えられた元で \pi以下となっている V_iの個数は,二項分布 {\rm Bin}(n, \pi)に従います.

 X|\pi \sim {\rm Bin}(n, \pi)

このような問題に置き換えると,元の問題は, X = \sum_{i=1}^n  I(V_i \lt \pi)のように \pi, V_1, V_2, ..., V_nから Xが決められるときに, E^{\pi, V_1, V_2, ..., V_n}[ I( \pi \le L(X))] \le 0.025を満たす L(X)や, E^{\pi, V_1, V_2, ..., V_n}[ I( \pi \ge U(X))] \le 0.025を満たす U(X)を求めることに置き換えられます.

 

L(X)を求める

いま, V_i \ \ (i=1,2,..,n)の小さい方から, X番目の値を V_{(X)}と記すと,下図のような関係となっているため, V_{(X)} \lt \piです.



 V_{(X)} \lt \piですので, E^{\pi, V_1, V_2, ..., V_n}[ I( V_{(X)} \le L(X))] = 0.025となるように L(X)を設定すれば, E^{\pi, V_1, V_2, ..., V_n}[ I( \pi \le L(X))] \le 0.025は満たされます.

 V_{(X)}は, Xが与えられれば, \piに依存しません.よって,期待値を取るのを Xに変えて, E^{X, V_1, V_2, ..., V_n}[ I( V_{(X)} \le L(X))] = 0.025を考えればよいです.

さらに,アダムの法則(Tower Property)から,

 E^{X, V_1, V_2, ..., V_n}[ I( V_{(X)} \le L(X))] = E^{X} [E^{V_1, V_2, ..., V_n|X}[ I( V_{(X)} \le L(X))|X] ] として, Xを与えた時の V_{(X)}の分布を考えることにします.

独立同分布の n個の一様乱数のX番目の順序統計量 V_{(X)}は,よく知られているように,パラメータ (X, n-X+1)のベータ分布に従います.よって, L(X) = F^{-1}_{beta}(0.025, X, n-X+1)とすれば, 

 E^{V_1, V_2, ..., V_n|X}[ I( V_{(X)} \le F^{-1}_{beta}(0.025, X, n-X+1))|X] = 0.025となり,  E^{X} [E^{V_1, V_2, ..., V_n|X}[ I( V_{(X)} \le F^{-1}_{beta}(0.025, X, n-X+1))|X] ] =E^{X}[0.025] = 0.025となります.

以上から,

 E^{X, \pi}[ I( \pi \le F^{-1}_{beta}(0.025, X, n-X+1))]

    \le  E^{X, V_1, V_2, ..., V_n}[ V_{(X)} \le F^{-1}_{beta}(0.025, X, n-X+1))]

    = 0.025

となり,求めたい信頼区間の下限を求められました.

 

信頼係数が95%となる信頼区間は, V_{(X)}ではなくて, V_{(X-1)} V_{1}を使っても求まります.しかし,それは, V_{(X)}を使った時よりも小さくなります.

 

U(X)を求める

いま, V_i \ \ (i=1,2,..,n)の小さい方から, X+1番目の値を V_{(X+1)}と記すと, \pi \lt V_{(X+1)} です.

前節と同じように,しかし,今回は V_{(X)}ではなくて V_{(X+1)}について考えると, U(X) = F^{-1}_{beta}(0.975, X+1, n-X))とすると, E^{\pi, X}[ I( \pi \ge U(X))] \le 0.025となります.

 

 

保守性はどこから来ているのか?

以上のように求められた (L(X), U(X))は,等裾の「正確」信頼区間と呼ばれています.しかし,この信頼区間は次に述べる2点において,保守的になっています.

注:頻度主義の用語において,下記の1番目は,「保守的」とは言われていません.通常,被覆確率が信頼水準よりも大きくなることだけを「保守的」と言います.)

第1に,この等裾「正確」信頼区間は,事前情報をまったく用いていません.そのため,もし事前分布が既知であり,その事前分布を用いて信頼区間(これは「信用区間」と呼ばれています)を求めた時よりも,信頼区間の幅は広くなるでしょう.

第2に,信頼区間の下限を求めるときには \piよりも小さな値である U_{(X)}を用いています.また,信頼区間の上限を求めるときには \piよりも大きな値である U_{(X+1)}を用いています. U_{(X)} U_{(X+1)}の分布としては保守的ではない正確な分布を用いているのですが,それらは \piよりも小さかったり大きかったりするので,そのため,そのズレだけ確率が0.025よりも小さくなります(つまり,被覆確率が信頼係数0.95よりも大きくなります).

 

このように考えると,「正確」信頼区間の保守性がどこから来ているのか,直感的に分かりやすいのではないかと思った次第です.

 

予測区間やFisher「正確」検定について

計算は複雑になりますが,ほぼ同様の枠組みで,二項分布の予測区間や,Fisher「正確」検定の保守性も理解できると思います.

もし興味がある方がいて,時間ができれば,その記事も書こうと思います.

 

お断り

この記事はすぐに削除するかもしれません.

メモ:<Fisherの有意性検定では,対立仮説を設定しない>という説明について

現代統計学史での統計的検定の紹介で,<Neyman-E.S.Pearsonの仮説検定では対立仮説を設けるが,R.A. Fisherの有意性検定では単一の帰無仮説しか立てなかった>と説明されることがあります.

 

まず,私自身がたびたびそのように説明してきました(口頭でしか言っていないので,自分の記憶以外に証拠が見つかりませんが…).また,今でも,もしも時間がないときに「Fisherの有意性検定とNeyman-Pearsonの仮説検定の主な違いは一言で言うとなんですか?」と誰かから聞かれば,「Fisherは対立仮説を設けませんでした!」と私は答えるでしょう.

 

私以外でも,ある程度はこのような紹介は普及しているようで,たとえば次のような説明がなされています.(:以下は,ごく一部分だけの恣意的な抜き取りです.以下の各文献では,Fisher流有意性検定とNeyman-Pearson流仮説検定を包括的・多角的に丁寧に時間をかけて論じており,このブログ記事のような単純な論点だけを扱っているのではありません.)

 

No alternative hypothesis. One of the main critiques to Fisher’s approach is the lack of an explicit alternative hypothesis (Macdonald, 2002; Gigerenzer, 2004; Hubbard, 2004), …     

... The main conceptual innovation of Neyman-Pearson’s approach was the consideration of explicit alternative hypotheses when testing research data (Neyman and Pearson, 1928, 1933; Neyman, 1956; Macdonald, 2002; Gigerenzer, 2004; Hubbard, 2004)… “

(Perezgonzalez 2015; p.4)

 

 

「フィッシャーは対立仮説を設定せずに帰無仮説を検定しようとしましたが,ネイマン-ピアソンは帰無仮説に対置する対立仮説を仮定したという根本的なちがいがあります(Hacking 1965; Barnett 1999).」

(三中 2017; pp.119-120)

 

「Fisherの有意性検定のもとでは,問いの設定が「帰無仮説はどの程度の強さで棄却されるか」だったので検討する仮説は一つであった.しかし,Pearsonは,「誰も帰無仮説意外にそれらしい他の仮説がないなら,その仮説を棄却しようなどと思わないだろう」と指摘し,検定において対立仮説を検討することの重要性を強調した(Pearson, 1990)」

(大久保・會場 2019; p.244)

 

”It is noteworthy that Fisher set up a single hypothesis to test significance, not two. He points out some misunderstandings regarding significance testing.  “On the whole the ideas … that the purpose of the test is to discriminate or “decide” between or more hypotheses, have greatly obscured their understanding, when taken not as contingent possibilities but as element essential to their logic. The appreciation of such more complex cases will be much aided by a clear view of the nature of a test of significance applied to a single hypothesis by a unique body of observations. (Fisher 1959, p.42)”

(Morimoto 2021; p.48)

 

多くの専門家がそう言っているので,まあ,そうなのでしょう.有意性検定だけに話を絞ればその通りだと私も思います.また,最後に少し触れますが,上記の違いは重要だと私も思います.

 

そうは思いつつも,この<R.A.Fisherの有意性検定では,単一の単純帰無仮説しか立てない>説は,Fisherの主張のすべてを紹介していないと思います.R.A. Fisherが主張したのは,むしろ,<もしも,対立仮説を設定できるような状況ならば,無限個の連続的な帰無仮説が設定できるはずなので,その状況は推定の問題として扱うべき>ということだと私は現在は思っています.つまり,<帰無仮説と対立仮説を設定できる状況ならば,無限個の仮説を設定できるでしょ>とFisherは主張したのだと思います.

 

 

Fisherの文献からの引用

いろいろな箇所でR.A. Fisherは前節の主張(<対立仮説と帰無仮説を設定できる状況ならば,無限個の仮説を設定できるでしょ>)を述べていると思うのですが,以下でいくつか引用してみます.

1956年『統計的方法と科学的推論』

「科学的仮説は一般に,ミッチェルが考えたような単純な仮説(星のランダム分布)とは異なっている.科学的仮説では,一つあるいは二つ以上のパラメータ,つまり調整可能な”定数”が含まれており,それがどのような値をとっても,あるいは予め定めた範囲のいかなる値をとっても,仮説とは矛盾しないのである.このような仮説にたいして有意性検定を2通りの方法で適用することができる.まず第1に,仮説を全体として棄却するような有意性検定をつくることができる.[...]  第2に,このような特性[パラメータ値としてどのようなものを設定しても帰無仮説が棄却されるような状況]が見られなかったり,またそのような特性が見られてもそれが無理なことや不自然なことであったならば,一般的な仮説は一時的に採用される.そうしてパラメータの値を推定することが問題となる.」

(Fisher 1956; 訳書pp.48-49)

 

ここで,「単純な仮説」the simple hypothesisとは,おそらく専門用語です,「単純な仮説」とは,仮説がパラメータの一点だけで表現されているものです.反対語は「複合仮説」です.例えば,H0: μ=0, σ=1などは単純仮説です.

また,第1で挙げている有意性検定としては,一番,分かりやすいのは,自由パラメータで行うカイ2乗適合度検定だと思います.他にも,「H0: データは,N(0,1)からのi.i.d.である」という帰無仮説もそうでしょう.第2で挙げている有意性検定には,母平均μに興味がある場合の「H0(1.3): μ=1.3」「H0(2.8): μ=2.8」…などが挙げられるでしょう.

 

この文章は引用した本は,『統計的方法と科学的推論』であり,上記の Morimoto(2021, p.48)で引用されている本です. Morimoto(2021)で引用されている箇所の数ページ後に,上記の文章が書かれています.この引用部分(Fisher 1956; 訳書pp.48-49)を考慮して,上記 Morimoto(2021)で引用されている部分(Fisher 1956; 訳書pp.44-45)を読み直してみて,私なりに解釈すると,<ある1つのもしくは複数の仮説のなかから棄却する仮説を「決定」できるのは,まあそうなんだけど,そのような「決定」は検定の本質ではないよね.あと,帰無仮説は無限個,設定することもできるけど,無限個の帰無仮説の話は複雑だろうから,まずは1つの単純帰無仮説しか扱わない場合を解説するね!>とFisherは言っているのだと思います.

 

1955年 Neymanを批判した論文

”It may be added that in the theory of estimation we consider a continuum of hypotheses each eligible as null hypothesis, and it is the aggregate of frequencies calculated from each possibility in turn as true - including frequencies of error, therefore only of the “first kind”, without any assumptions of knowledge a priori - which supply the likelihood function, fiducial limits, and other indications of the amount of information available. “

(Fisher 1955, p.73)

 

[拙訳&意訳]次のことも追記しておこう.推定論においては,複数の連続的な仮説を考慮する.それら複数の連続的な仮説のそれぞれは,帰無仮説とみなせる.そして,「第1種」の誤りといった誤りが生じる頻度は,それらそれぞれの帰無仮説が真であるとして計算される頻度を集めて求められる.これらの頻度は事前分布を仮定せずとも計算でき,また,[この枠組みにより]尤度関数,推測区間(fiducial limit),情報量が定義される.

 

推測区間(fiducial limit)は,少なくとも現在の教科書には登場しない,消えた道具です.しかし,後期Fisherは,推測区間と信頼区間との違いを強く主張していました.

 

1934年 尤度に関する論文

”… it is surprising that Neyman and Pearson should lay it down as a preliminary consideration that “the testing of statistical hypotheses cannot be treated as a problem in estimation.” When tests are considered only in relation to sets of hypotheses specified by one or more variable parameters, the efficacy of the tests can be treated directly as the problem of estimation of these parameters. "

(Fisher 1934; p.296)

[拙訳&意訳]NeymanとPearsonが予備的な考な考察として,「統計的仮説検定は推定の問題としては扱えない」と述べたのは驚きである.検定が,1つ以上の可変なパラメータによって指定される仮説集合との関係で考えるだけで,検定の効率性はそれらのパラメータの推定問題として直接的に扱える.

 

1935年に書かれた手紙

 “His impression …. seems to rent on a confusion between problems of estimation & tests of significance - confusion has been, I am afraid, accentuated by the discussions of Neyman and Pearson on the subject."

(Fisher: 1935)

[拙訳&意訳][t検定とz検定との違いについての]彼の見解は,推定問題と有意性検定問題とを取り違えているからだと思われる.その混同は,私が思うに,その問題に対するNeymanとPearsonの議論によって広まった.

 

以上の引用部分を踏まえて,私なりにFisherの主張をパラフレーズすると...

以上の引用がFisherが述べたすべてではなく,また,引用も部分的すぎるのですが,Fisherによる上記のような説明を考慮すると,Fisherは次のように考えていたのではないでしょうか?

  1. Neyman(およびPearson)の仮設検定で想定している状況は,少数(1個か2個ぐらい)のパラメータに関して帰無仮説と対立仮説の2つを設定できるような状況だ.
  2. もし,上記1のような状況ならば,実際の科学的な場面では,問題となっているパラメータが任意の値になっている無限組の帰無仮説を想定することが多いだろう.
  3. もし,状況が上記2のようなものであるならば,それは検定の問題ではなく,推定の問題である.
  4. 上記3の推定の問題を扱うには,尤度,推測区間,情報量などがある.

 

それでも俗説は大切

<Fisherは,有意性検定において対立仮説を立てなかった>との説明は説明不足とは思うものの,その説明も,やはり実用上,重要な特徴だと思います.たとえば,次のような場合には,「検定」をしたい場合に,対立仮説がないと(私は)少し戸惑ってしまいます.

  1. ある有意性検定を,片側検定にするか,両側検定にするかを決める時.
  2. 有意水準を保つ2つの検定がある場合に,どちらの検定が「良い」かを決める時.

Neyman-Pearson流仮説検定では,帰無仮説と対立仮説を設定して,候補となっている検定のうち(不偏性があるもののなかで)検出力が大きいものを選択します.しかし,Fisher流有意性検定では,その基準が曖昧です.

 

Neyman-Pearson流仮説検定でも「じゃあ,どうやって対立仮説を決めるか?」という問題が生じるので,問題を先送りしただけかもしれませんが(課長に相談に行ったら,部長に相談してくれとたらい回しされたようなもの?),それでも,一応,Neyman-Pearson流仮説検定では不偏性や最強などの分かりやすい基準があります.

 

引用文献

Fisher, R. A. (1934) Two New Properties of Mathmatical Likelihood.  Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, 144(852), 285-307.

 

Fisher, R. A. (1935) Letter to E.B. Wilson on May-20-1953. URL: https://digital.library.adelaide.edu.au/dspace/bitstream/2440/68118/66/1935-05-20.pdf (Last Access: Jan-28-2023).

 

Fisher, R. A. (1955) Statistical Methods and Scientific Induction. Journal of the Royal Statistical Society. Series B, 17(1), 69-78.

 

Fisher, R. A. (1956: 1st ed.) Statistical Methods and Scientific Inference. Oliver and Boyd. (引用したのは第2版を底本とした訳書 渋谷政昭・竹内啓 訳(1962訳) 『統計的方法と科学的推論』岩波書店) 

 

三中信宏(2017)再現可能性ははたして必要なのか:p値問題から垣間見る科学研究の多様性,『計量生物学』,38(2)117-125

 

Morimoto, R. (2021) Stop and Think about P-Value Statistics: Fisher, Neyman, and E. Pearson Revisited. Annals of he Japan Association for Philosophy of Science, 30, 43-65.

 

大久保祐作・會場健大(2019)p値とは何だったのか(Fisherの有意性検定とNeyman-Pearsonの仮説検定を超えるために).『生物科学』,70(4),238-251.

 

Perezgonzalez, J. D. (2015) Fisher, Neyman-Pearson, or NHST? A Tutorial  for Teaching Data Testing. Frontiers in Psychology, 6(223), 1-11. 

メモ:分割表のPearsonカイ2乗検定が行和も列和も固定して導出されている件について 〜 2つの独立な二項分布を例にして〜

このブログ記事では,2つの独立な二項分布を例にして, 2 \times 2分割表に対する \chi^2統計量が,行和および列和の両方を固定した上で導出されていることを説明します.ここでは,次の3つの導出を紹介します.

  • 多変量正規分布で近似して,多変量正規分布の条件付き分布から導出する.
  • 超幾何分布を正規近似することで導出する.
  • スコア検定(ラグランジュ乗数検定)から導出する.

記号

 Y_1 Y_2が,それぞれ,独立な以下の二項分布に従っているとします.
 Y_1 \sim Bin(n_1, \pi_0)
 Y_2 \sim Bin(n_2, \pi_0)
ここで2つの二項分布の確率パラメータ \pi_0は共通です.この確率パラメータ \pi_0は未知であるとします.
 Y_1 Y_2 の和を Tとします( T = Y_1 + Y_2). Tの実現値を小文字の tと表します.

このモデルにおいては,「このモデルから観測を無作為抽出したら,抽出ごとに値がコロコロと変わりうる」という意味で, T = Y_1 +Y_2は固定されていません.

多変量正規分布で近似して,多変量正規分布の条件付き分布から導出する

 T = tと固定した上での (Y_1, Y_2)の条件付き分布を考えます.
まず, T = Y_1 + Y_2 = tと固定すると, Y_2 = t - Y_1ですので, Y_2Y_1から一意に定まります.よって,(Y_1,Y_2)の二変量ではなく,Y_1だけの一変量分布を考えてもいいです.そこで, T = tと固定した時の Y_1の分布を考えることにします.

 (Y1, T)の平均ベクトルと共分散行列は以下の通りです.
 E\left[ \left( \begin{array}{c} Y_1 \\ T \end{array}\right)\right] = \left( \begin{array}{c} n_1\pi_0 \\ (n_1+n_2)\pi_0 \end{array} \right)

 V\left[ \left( \begin{array}{c} Y_1 \\ T \end{array}\right)\right] = \left( \begin{array}{cc} n_1\pi_0(1-\pi_0)  & n_1\pi_0(1-\pi_0)  \\ n_1\pi_0(1-\pi_0) & (n_1+n_2)\pi_0(1-\pi_0) \end{array} \right)

ここで, (Y_1, T)が多変量正規分布で近似できるとします.この正規近似のもとで, T=tと条件付けたもとでの Y_1の条件付き分布は,以下の平均と分散である正規分布となります(多変量正規分布の条件付き分布については,例えば,竹村(2020:新装改訂版, p.60)の式(3.78)などを参照のこと).

 E\left[Y_1 | T = t\right] = n_1 \pi_0 + \frac{n_1\pi_0(1-\pi_0)}{(n_1+n_2)\pi_0(1-\pi_0)} (t  - (n_1+n_2) \pi_0 )  = n_1 \frac{t}{n_1 + n_2}
 V\left[Y_1 | T = t\right] = n_1 \pi_0 (1-\pi_0) - \frac{(n_1\pi_0(1-\pi_0))^2}{(n_1+n_2)\pi_0(1-\pi_0)}  = \frac{n_1 n_2 \pi_0 (1 - \pi_0)}{(n_1 + n_2)}

(条件付き平均 E\left[Y_1 | T = t\right]において,未知パラメータ \pi_0が含まれていません.条件付けることにより,未知パラメータ \pi_0を消去できています.)

この条件付き分布と照らし合わせて, Y_1がモデルからどれぐらい離れているかを測定するために,次のような指標を使いましょう.
 \chi^2 = \frac{(Y_1 - E[Y_1|T=t])^2}{V[Y_1|T=t]} = \frac{(Y_1 - n_1 \frac{t}{n_1 + n_2})^2}{\frac{n_1 n_2 \pi_0 (1 - \pi_0)}{(n_1 + n_2)}}

地道に計算すると,以下のように変形できます.
 \chi^2 = \frac{(Y_1(n_2 - Y_2) - (n_1 - Y_1)Y_2)^2} {(n_1+n_2) n_1 n_2 \pi_0 (1-\pi_0)}

 \pi_0は未知なので, \pi_0 = t/(n_1+n_2)という推定値に置き換えるとします.そうすると,
 \chi^2 = \frac{(n_1+n_2)(Y_1(n_2 - Y_2) - (n_1 - Y_1)Y_2)^2} { n_1 n_2 t (n_1 + n_2 - t)}
となります.これは, 2 \times 2表に対するPearsonの \chi^2検定統計量です(たとえば,Agresti (2013:3rd ed.) p.125などを参照のこと).

超幾何分布を正規近似することで導出する

 T = t で条件付けたときの Y_1の分布は,超幾何分布に従います.竹村(2020:新装改定版, p.88)の(4.63)式などによると,超幾何分布の平均と分散は次の通りです.

 E\left[Y_1 | T = t\right] = n_1 \frac{t}{n_1 + n_2}
 V\left[Y_1 | T = t\right] = \frac{n_1+n_2}{n_1+n_2-1} \frac{1}{n_1 + n_2}   n_1 n_2\frac{t}{n_1+n_2}\frac{n_1+n_2-t}{n_1+n_2}

平均は前節で求めた平均と同じです.分散は,前節で求めた分散推定値に  \frac{n_1+n_2}{n_1+n_2-1} をかけたものとなっています.
(前節における分散推定値を,n_1+n_2の代わりに,n_1+n_2-1で割ったものにすれば,今回の分散となります.)

このような平均と分散の超幾何分布に従う確率変数 Y_1| T=tを正規近似することにして,前節と同じように,モデルからのデータのズレを測定する指標を考えると,
 \chi_{hyp}^2 = \frac{n_1 + n_2 - 1}{n_1+n_2} \chi^2
という指標が導出できます.

スコア検定(ラグランジュ乗数検定)から導出する

次のような枠組みでスコア検定(ラグランジュ乗数検定)を考えます.

まず,制約なしのモデルとして,
 Y_1 \sim Bin(n_1 , \pi_1)
 Y_2 \sim Bin(n_2 , \pi_2)
という2つの独立な二項分布に Y_1, Y_2が従っているとします.
そして,H_0: \pi_1 = \pi_2という制約のもとで,この二項分布の対数尤度をラグランジュ乗数法で最大化するとします.
 \pi_1 = \pi_2という制約を, \log{\left(\frac{\pi_1/(1-\pi_1)}{\pi_2/(1-\pi_2}\right)=0}と変形すると,ラグランジュ関数 f(\pi_1, \pi_2, \lambda)は,

 \begin{array}{lll} 
f(\pi_1, \pi_2, \lambda) & = & c + y_1 \log(\pi_1) + (n_1 - y_1)\log(1-\pi_1)\\
& &  + y_2 \log(\pi_2) + (n_2 - y_2)\log(1-\pi_2)  \\
& & - \lambda (\log{\left(\frac{\pi_1/(1-\pi_1)}{\pi_2/(1-\pi_2}\right)}-0)
\end{array}

となります.この偏微分したものをゼロと置くと,
 \widehat{\pi}_1 = \frac{y_1 - \lambda}{n_1}
 \widehat{\pi}_2 = \frac{y_2 + \lambda}{n_2}
となります. (y_1 - \lambda) + (y_2 + \lambda) = y_1 + y_2 \lambdaによらず一定なので,求めたい最尤推定値は, n_1 \widehat{\pi}_1 + n_2 \widehat{\pi}_2 = y_1 + y_2という直線と, \widehat{\pi}_1 = \widehat{\pi}_2という直線との交点になります.

スコア検定そのものには,「周辺和を固定する」という条件は直接的には含まれていません.しかし,「\widehat{\pi}_1  = \widehat{\pi}_2 」という制約を課したモデルのうちデータに最も近いものを探した場合,このモデルのもとでは結果として周辺和を固定しているとみなせるでしょう.

イメージ図

2つの独立な二項分布に従う確率変数 (Y_1, Y_2)は二変量なので,自由度は2です.しかし,Y_1 + Y_2 = t という条件を課すことにより,自由度が1つ減って, \chi^2統計量の自由度1となります.これのイメージを描いたのが,下記の図となります.この図において,横軸は \pi_1の推定値,縦軸は \pi_2の推定値となっています.等分散とするために,横軸は\sqrt{\frac{n_1}{\pi_0(1-\pi_0)}}倍,縦軸は\sqrt{\frac{n_2}{\pi_0(1-\pi_0)}}倍しています.

周辺和を固定することで自由度が減る理由のイメージ図

真の確率パラメータが (\pi_0, \pi_0)だとすると, (\pi_0, \pi_0)から (Y_1/n_1, Y_2/n_2)までの距離の2乗は,自由度2の \chi^2分布に従います.
しかし, ((Y_1+Y_2)/(n_1+n_2), (Y_1+Y_2)/(n_1+n_2)))から (Y_1/n_1, Y_2/n_2)までの距離の2乗は,自由度が1つ減った,自由度1の \chi^2分布に従います.
 ((Y_1+Y_2)/(n_1+n_2), (Y_1+Y_2)/(n_1+n_2))) (Y_1/n_1, Y_2/n_2)を通る直線は,(0,0)(1,1)を通る直線と直角になっており,また, n_1 \hat{\pi}_1 + n_2\hat{\pi}_2 = tという制約を表す直線となっています.


参考文献

Agresti, A. (2013:3rd ed.) Categorical Data Analysis: 3rd ed., A John Wiley & Sons
竹村明通(2020: 新装改定版)『新装改定版 現代数理統計学』学術図書