ベイズ 統計 の 理論 と 方法。 「ベイズ統計の理論と方法」勉強会 by IMACEL Academy #1

ベイズの定理

ベイズ 統計 の 理論 と 方法

ベイズ統計を知ることは、統計の基本的な考え方の一つを理解することであり、機械学習をより深く理解することにも繋がります。 尚、本イベントは「ベイズ統計の理論と方法」を読み、ベイズの基礎を理解することを目的としています。 今回は、5章です。 前回は5章を読み進める予定です。 ご興味ある方は、是非奮ってご参加ください。 統計モデルとは何か、事前分布とは何か、ベイズ統計学ではどんな法則が成り立つか、などを学びたい人に最適。 1章 はじめに IDさん• 2章 基礎概論 Mさん• 3章 正則理論• 4章 一般理論• 6章 ベイズ統計学の諸問題• 7章 ベイズ統計の基礎• 裏口にてお待ち下さい。 時間になりましたらお迎えに向かいます。 遅刻した場合は03-6327-3992までお電話頂けますようお願いいたします。 ライフサイエンス分野では、研究のビックデータ化により、画像処理・解析技術は重要な役割を果たすようになりつつあります。 しかし、まだまだライフサイエンス分野では、画像処理・画像解析に関する知識・意識が不足しています。 これらを解消するために、本サイトを通じて研究者に有用な情報を紹介しつつ閉鎖的な研究環境をオープンにし、教育機関が大幅に不足しているライフサイエンス領域の画像処理・解析技術の向上を目指しています。 創業以来、先端技術を用いた画像処理・解析ソフトウェアの開発をし、世界中の研究をサポートしています。 現在、人工知能を活用した画像解析クラウドサービスや、国立がん研究センターをはじめ複数の医療機関と連携し人工知能を活用した医療画像診断支援の研究開発などを進めています。 URL:.

次の

ベイズ推定

ベイズ 統計 の 理論 と 方法

概要 渡辺澄夫の『統計の理論と方法』 以下, 渡辺本 は, 私のようには多少知ってるものの, を知らない人間にとっては, 「自由エネルギー」だの「分配関数」だのが何を意図して定義された統計量 物理量? なのかよくわからず, はじめは数式を目で追うことしかできなかった. 加えて, 渡辺本は, 実務に役に立つテクニックなどといった趣旨の本ではなく, 的なやの理論を統一的に説明することを目的としている. そのため, 統計モデルを抽象的に一般化してその性質を説明する一方で, 混合分布モデルとか, とか具体的な手法についての言及は控えめであることも, 人によっては理解が進まない原因になっていそうである. しかし, 難解であっても, 渡辺本に書かれている内容は非常に価値がある. 例えば, 以前私が で書いた「統計と古典統計は互いに矛盾するものではなく, 統計は古典統計を包含する」という話も, この渡辺本に由来している. そこで, 私と同じように物理学を知らない「文系」のために渡辺本の行間を埋めて, 紹介される定理が何を含意しているのかの理解を促してみようと思う. もちろん, 私の勝手な解釈なので, 著者の意図に合致している保証はない. 今回は3章までの行間を読んでいく. なので, 残念ながら渡辺先生の研究の重要なところである特異モデルに対する理論分析は範囲外である. この記事は, 期待値とかとか, に関連する基本的な数学的知識を持っていることを前提としている. 特に, パラメータ でしたり, でしたり 周辺化 , 確率分布 を掛けて でしたり 期待値 の仕方にいろいろなパターンがあり, 変数としてみているのが なのか, なのか, よく確認する必要がある. 見やすさのため, 数式の記法はなるべく渡辺本に準じるが, いくつか例外がある. 事後分布 を と書く. は確率分布一般を表すのに使っているので, パッと見でわかるように と書くことにした. 対数 を と書く. は対数のうち, 特に を底とする自然対数を表すものである. とはいえ, ゼロなど不自然な値を取らない限り, 対数の底をどのようにしようが結果に影響はない. なお, 原稿用紙で8頁ぶんくらいある. 最も基本的なこと あまり細かく書きすぎると渡辺本の丸写しになってしまうので, で最低限の基本的なルールだけ書いておく. でもでも, データがある確率分布にしたがって生成されているという状況を仮定している. では母分布とか, データ生成過程 DGP などと呼ばれる. これを渡辺本では というで表している. 実際の問題は, そのものは不明だが, データ は, それぞれ から抽出した乱数とみなせるので, 間接的に に対応する関数を推定することになる. 推定された関数を としている. これを尤度と呼ぶ本も多いが, 渡辺本では 確率モデルと呼んでいる. における学習器 learner とも同義である. 統計の理論を考えるには真の分布 , 事前分布 , 確率モデル の3種類の確率が最低限必要になる. さらに, 自由エネルギーと 分配関数の2つはの法則と関連付けるために出てきた話なので, を知らない文系の我々は知ってもどうしようもない. 渡辺本の範囲では, 自由エネルギーの概念を導入すると分かる知見として特に重要なトピックは,• の概念と統計につながりがある• 統計的な推測方法と従来的な推測方法 最尤法 は互いに孤立したものではなく, 自由エネルギーで地続きになっている である. 自由エネルギーは理論分析のために必要ではあるが, その一方で我々の多くはデータ分析の実務上でどう役に立てるかが主な関心となるだろうから, 実用に際してのつながりを重視して説明していきたい. われわれ文系は, 自由エネルギーではなく別のルートから読解しなければならないので, 極力触れないことにする. 我々は, 真の分布により近い統計モデルないし学習器を作成しようとしている. そこで, 真の分布と確率モデルのズレを, 比として考える. 確率モデルは尤度とも呼ばれるので, これは 尤度比と呼ばれる. これが何を意味するかというと, これを の関数とみなすと, ある点 で, 尤度比が1に近いほど真の分布と確率モデルの差異がなくなるということである. また, 分子分母ともに確率を表す関数だから, 尤度比もゼロ以上であり, 両者が一致するとき尤度比が1となるとわかる. 渡辺本では, 尤度比の対数をとった 対数尤度比関数を重視して, としている. だから, 対数尤度比 は, ゼロに近いほど, 真の分布に近いということになる. しかし, 対数尤度比は しだいで値の変わる関数なので, 異なる確率モデルの対数尤度比をそれぞれ見て, どちらが真の分布に近いか判断するのが難しい. そこで, の期待値をとることで評価する. それが, カルバック・ライブラ距離である. カルバック・ライブラ距離は, と定義される. 名前が長いので, 以降は「 KL距離」と書く. KL距離は, 確率分布 で の平均を取っているから, 期待値でもあるので, と書ける. 渡辺本では, 真の分布 まわりの期待値を と書いていることに注意 つまり,. では, この KL距離とはなんなのか, 対数は と変形できるから, となる. 第1項は確率モデル の対数の期待値で, 第2項は真の分布 の対数の期待値である. よって, KL距離は, 確率モデルと真の分布のズレの大きさを表している. と が一致すれば, 明らかにKL距離はゼロになる. また, という性質があるので 証明は略 , と の KL 距離 は, 2つの確率がどれだけ離れているかを表し, 両者が一致するときのみ最小値ゼロをとる. さらに, KL距離の性質を解き明かしていく. 右辺の2つの期待値が何を意味するか考えてみる. どちらも, 確率の対数について. で平均を取っている. そこで, という を考える. これは と呼ばれる. 今, と仮定すれば, は真のパラメータ と確率モデルの の差によって生じる量だと考えられる この時点で, 確率モデル は適切な をとることで真の分布 を表現できると仮定していることに注意する. 一方で, 真の分布 は形が変わらないから, 真の分布自身の は一定である. このとき, KL距離は, とも表せる. よって, KL距離には 相対という別名がある. はデータ にも影響されない, 真の分布 固有の定数である. つまり, どんな確率モデルにしようが, KL距離には大きさが固定された成分があり, 原理上どうしても発生するズレが, 多かれ少なかれ存在することがわかる. ここから, カルバックライブラ距離をゼロにする を求めるというよりは, とりあえず は考えず, の部分にどういう性質があるかを見ればよいという見通しが立つ. 平均対数損失 しかしKL距離は, まわりの期待値なので, 真の分布がわからない以上, これだけでは求めることができない. KL距離を移項すると, となり, 左辺, つまり確率モデルの対数の真の分布まわりの期待値は, とKL距離の差で表せる. これが 平均対数損失 mean log loss である. これを の関数として, と表す マイナス符号に注意. ここで, と表せるならば 第1項は KL距離なので, のとき, 最小値がゼロとなる関数である. このとき, KL距離を の関数とみなして, 平均誤差関数 と書く. KL距離とは本来, の組み合わせに限らず, 2つの確率分布の距離を表すので, 以降では を平均誤差関数 と呼ぶ. すると, と表せる. ここから, 平均対数損失は という最小値をとる関数になるので, を最小化するのが を見つける方法のように見える. また, を選んだときの の大きさは, 確率モデル によって変化せず一定なので, 平均対数損失 は異なる確率モデルど平均誤差関数の大きさを, 相対的に比べることができる. この性質は, 後で説明する の情報量規準 に利用される. 経験対数損失 平均対数損失は, 最小二乗法など, 何らかの損失関数を最小化する方法を指している. だが, は, 知ることのできない を用いて期待値を計算しなければならない. そこで, 期待値を標本平均で代用した, 次のような 経験対数損失 empirical log loss を考える. ある条件下では, が無限大に近づくと, 経験対数損失は平均対数損失に収束することが証明できる. よって実務上は, この経験対数損失の最小化で, を求めることになる. なお, と のKL距離, つまり平均誤差関数に対応する形でも 経験誤差関数というものが定義できるが, 平均誤差関数と同様に, 真の分布を含むため, 実務でこれを計算することはできない. もっぱら理論上の性質を分析するために用いられる. 具体例 ここで, よく知られた従来の方法との関連を考えてみる. ガウシアン線形回帰モデルなら, を利用した というモデルだから, 確率モデルの対数は となる. この の経験対数損失は, となり, 対数尤度を で除して符号を逆転したものである. ここから, 経験対数損失の最小化は, 対数尤度の最大化, すなわち最尤法 最尤推測 と同じであるとわかる. 加えて, ロジスティック回帰など, の分類問題を解く学習器でも, 最小化すべき損失関数として対数損失関数と呼ばれるものが使われる. これもまさに対数尤度の符号を正負逆にしたものなので, 平均対数損失の最小化理論が, とも矛盾しない例が示されたと言える. 少し脱線するが, 線形回帰モデルでは, をどのような正の値に固定しても, を最小化する の値には影響しない. よって, 回帰係数 だけを求めたいなら, を最小化するだけでもよい. これが 最小二乗法になる. つまり, 最小二乗法は, 推測の特殊ケースである最尤推測の, さらに特殊なケースという位置づけになる. 汎化誤差と汎化損失 渡辺本ではさらに, 汎化損失 gerenalization loss と 汎化誤差 generalization error が次のように定義される. さらに, 汎化誤差と汎化損失と平均対数損失の間には, の関係が成り立つ. 汎化誤差とは何を表しているのか. 2行目の は, 既に見た 平均誤差関数とよく似ている. 分母が だったものが に変わっているが, これは何を意味しているのかというと, 渡辺本の定義では, は まわりの期待値を意味する. ただし, の分布は事後分布 を用いるので, となる. これは , とも書かれ, 個の観測値と事後分布 で決まる, の密度関数である. つまり, 現在わかっている情報から予測される次の の確率分布を表している. これを 予測分布という. つまり, 平均誤差関数に現れる確率モデル の部分を予測分布 に置き換えたものが汎化誤差 であり, 汎化損失 は, 同様に平均対数損失に現れる を予測分布に置き換えたものである. よって, 1 汎化誤差とは, 真の分布 と予測分布 のKL距離であり, 2 は, 既に紹介した平均対数損失と, 平均誤差関数の関係式 と全く同じ構造であることという2点が分かる. ではなぜ, 真の分布と確率モデルではなく, 真の分布と予測分布とのKL距離へと変更を加えたのか. この違いは何を意味するのだろうか. 実は, 最尤推測など古典的な統計では, 両者に違いがなかったため, 区別する必要がなかったのだ. しかし, や統計は, 罰則項や事前分布を用いて, 平均対数損失に代わり汎化損失を最小化している. これはの定理を用いれば分かることである. 事後分布は, 確率モデルと事前分布に比例する. 一方で, 最尤推測は 尤度の最大化により直接決定するから, 事後分布が存在せず, パラメータは1点に固定される. よって, 汎化誤差・汎化損失はそれぞれ 平均誤差関数と平均対数損失の拡張である. 平均対数損失に対して経験損失が存在するように, 汎化誤差・汎化損失においても, これを推定するための統計量が存在する. それが 経験誤差 と 経験損失 になる. つまり, 統計でも学習器でもパラメータ決定は, 経験損失の最小化問題とみなせる. ここまで, 似たような用語が出てきたので, 改めてまとめると以下のようになる. 平均対数損失: 平均誤差関数に平均対数損失の最小値 ののマイナス を足したもの• 汎化誤差: 真の分布と予測分布の間のKL距離• 汎化損失: 汎化誤差に を足したもの• 経験 XX: 上記の汎化 XX や平均 XX を標本平均で推定したもの ここから, 誤差 error と損失 loss の意味を区別してされているのが分かる. とはいえ, 古典的・・はそれぞれ独自に発展してきたという背景もあり, 多層の 法は, 損失関数で評価してるのに「誤差」という語を使っているなど, 必ずしも厳密に統一されているわけでない. 情報量規準と汎化誤差 実用上は, 真の分布 が不明であり, サンプル のみが与えられている状況でパラメータ を求めなけらばならない. そのような場合には, 汎化損失の代理となる経験損失を最小化するだけでいいということがわかった. しかし, だからといって, 理論上の汎化誤差を無視していいというわけではない. 経験損失を最小化する と, 汎化損失を最小化する が一致するのは, サンプルサイズ が となったときであり, 実用のためには が有限の場合も考えるべきであろう. このとき, 両者の間には差 バイアス が発生することがわかっている. この差は 経験過程と呼ばれる, 平均誤差関数を用いて定義される確率で表される. このバイアスがいわゆる 過剰適合とか とか呼ばれる現象をもたらす. よって, 経験過程の大きさを考慮して, 汎化損失を求める必要がある. 有名な の情報量規準 や 情報量規準 といった情報量規準は, このように, サンプルサイズが有限な場合に, 経験損失で代用したときに発生するバイアスを補正する方法だと考えれられる. は汎化損失の近似で, 汎化損失は平均誤差関数と, 定数項とみなせるのマイナス の和だから, モデルをで比較することは, 汎化誤差を間接的に推定しているのと同じと言える. 汎化誤差は真の分布と予測分布のKL距離だから, が小さいということは, より良い予測分布を作成できるモデルということになる. と並んで も多くの教科書で紹介されているが, 両者は式の定義が異なる. 良いモデルを選ぶのに, なぜ異なる指標が存在するのか. 渡辺本ではこれも説明されているが, 解説のためにはいよいよ自由エネルギーに言及しなくてはならない. 自由エネルギー は, で表される. は, 分配関数と呼ばれる量である. では, 温度の逆数を意味するため, 逆温度パラメータと呼ばれ, 様々な値をとるが, 統計では か の場合だけを考えることが多い. これは, この値において, それぞれ最尤推測と推測に関連付けられるためである. のとき, 自由エネルギーは分配関数の対数かける であり, 分配関数は 周辺尤度 に等しい. 周辺尤度は, 確率モデルを について消去した関数であり, の定理の分母にあたる. 渡辺本では, が自由エネルギーの近似であり, で自由エネルギーに収束することを示している. よって, 逆に言えば, から間接的に周辺尤度を知ることができる. よって, が小さいほど周辺尤度が大きく, 正しいモデルである確率が高いということになる. と の式が異なるのはこのように導出過程が異なるからであり, 「統計モデルだから を使うべき」といった主張は根拠のない俗説であるとわかる. そして, それぞれ異なる統計量の近似であるため, サンプルサイズ が有限でも無限大でも, と が一致するとは限らない. と の細かい性質の違いや, 実用上どう使い分けるべきかのヒントは, 渡辺本の本文でも述べられているので省略する. 4章以降 以上の話は, 正則な条件が成り立つ場合のみであり, まだ学習理論の問題のすべてのケースをカバーできてない. 具体的には, サンプルサイズが十分でない, パラメータ が一意に定まらない, などの状況では, ここまでの理論の前提が崩れる. このとき, 最尤推測が最適な を導く保証はなく, や がそれぞれ汎化損失や周辺尤度のよい推になっているという前提条件が崩れてしまい, 意味をなさなくなる. が未知であるからこそ推測するというの問題が発生するので, 事前・事後的のいずれでも正則な条件を満たしているかを知ることはできない. よって, 特異なモデルにも対処できるように理論を拡張する必要が出てくる. 渡辺本では既に, 特異モデルの範囲でも , と同等の性質を維持する情報量規準である WAIC を説明している. が, そのためにはその他のより発展的な数学の知識を要する. 自分はまだ, 話を噛み砕いてエッセンスだけを抽出し説明できるほど理解しているとは言えないので, この続きを書くとしたら, だいぶ後になるだろう. : 総合して学習理論と呼ぶ : 第4刷の時点で著者による正誤表が出ている ことにも注意. : あわせて学習理論と呼ぶ : 今回言及する正則理論の範囲では, 汎化誤差と自由エネルギーの違いをあまり気にする必要がなく, 汎化誤差だけで説明できることが多い. : ただし, KL 距離は p, q を入れ替えると値が変わるので, 対称性を満たさない. さらに言うと三角不等式も満たさないので, 厳密には「距離」ではない. しかし, 渡辺本ではかまわず「カルバック・ライブラ距離」表記をしている. 紙面が限られていて頻出用語の字数を減らしたかったからだろうか. ただし, 末尾の付録では「情報量」と呼んでいる. : は, KL距離と自由エネルギーの関係式にも現れる. : 多くの教科書では, この形ではなく, 誤差項が平均ゼロ, 分散 のに従うと表記している. しかし, の性質から, 誤差項と の和もまたに従うので, 結局はどちらの定義も同じである. : これを 平均対数尤度という : この点で言えば, 事後分布を最大化するようにパラメータを選ぶ MAP 法は, 実は統計ではない. : ここでは厳密な定理ではく, 大まかなアイディアとして関係を述べた. 実際にこの関係を導くのに必要なのが自由エネルギーである. : ただし, 渡辺本では, ある程度大きなサンプルサイズが必要であるとしている.

次の

ベイズ統計・ベイズ機械学習を始めよう

ベイズ 統計 の 理論 と 方法

ベイズ推定って、最近はやってきてますね。 僕も流行りにおいて行かれないように勉強しています。 理論的な話や数学的な話はいろいろWebや本をあされば出てきますが、実用面とか解釈面について言及しているものは少ないですね。 今回は清水の個人的な意見として、ベイズがどういう風に使えそうか書いてみます。 数学的な話はなしで。 よくわからないので。 興味ある人は続きをどうぞ。 もあわせてどうぞ。 ベイズ推定法の前に、従来法の代表として最尤推定法について触れておきます。 その方法とベイズがどう違うのかについて、そのあと述べます。 最尤推定法 最尤法ともいわれますが、基本的な発想は、モデルとデータの関係を次のように考えます。 真のモデルというのがあって、我々はそのモデルから発生したデータを手に入れている。 真値は一つで、データは取り方によって確率的に変化する、というのが頻度論の基本的な発想。 コイントスを例にとれば、真値が確率0. 50でもデータによっては0. 3になったり0. 6になったりする。 でも、何度もサンプルを取って平均を取れば0. 5に近づいていくはず、という感じ。 データは確率的なものだけど、真のモデルの推定値は、手元のデータが最も得られやすいものとする 手元にあるサンプルを固定して考えると、このデータが最も得られやすいようなモデルはなんだろうか? これが尤度の考え方です。 例えば、コインを100回投げたら50回表、50回裏が出たとする。 このデータが最もありえそうなモデルはなんだろう?と考える。 得られたデータから考えたときのモデルの尤もらしさを尤度という。 尤度が最大になるモデルを推定する=最尤法というわけ。 最尤法に限らず、頻度主義の統計学では真値(真のモデル)が一つに決まるものという前提があります。 ベイズ推定法 ベイズ推定では、真値を確率分布として考えます。 コイントスを例に挙げると、表が出る確率が0. 5というのが最もありえるモデルで、0や1に近いモデルほどありえなさそう、という感じにグラデーションで考えます。 また、データは確率的なものとしては考えません。 データはあくまで情報であって、それを基に真値の分布を更新していく、という発想です。 データを得る前の真値の分布を「事前分布」と呼び、データを得た後更新された分布を「事後分布」と呼びます。 事前というのはデータを得る前、という意味で、あくまで相対的な呼び方です。 データをどんどん更新していくという発想に立てば、ある事後分布は次の推定の事前分布になりえるわけです。 最尤法などは、事前分布を考えません(あえて言うなら、一様分布であると考える。 つまり、どんな値も等確率)。 手元のデータが最も得られやすいモデルを「一から」推定します。 なので、正確な推定をするためには膨大なデータを一度に分析する必要があります。 それに対してベイズ推定の便利なところは、あるデータが得られたら事後分布を更新、次に得られたらまた更新、という感じで全部のデータを分析する必要はありません。 どんどんデータを足して更新していけば、現象をより説明できる事後分布を推定することができる、という立場です。 ついでに事後分布は簡単に言えば次のように計算します。 最尤法は尤度だけから真値を推定しますが、ベイズは事前分布をかけています。 正確に言うと、最尤法は事前分布に一様分布を仮定しています。 実際数学的にはそうなるようです。 さて、ベイズ推定では値ではなくて確率で得られるという話をしました。 ではベイズ推定では、どのように結果を報告するのがいいのでしょうか。 点推定値とは確率分布の代表値のことで、中央値や平均値をおもに使います。 最尤推定のときの推定値と基本的に同じような意味合いです。 次に標準偏差は、分布の標準偏差で、最尤推定のときの標準誤差と同じような指標です。 推定の精度を表しています。 最後に信用区間とは、最尤法でいうところの信頼区間のようなものです。 信頼区間 confidence interval と信用区間 credible interval の違いは、ベイズ主義と頻度主義の考え方の違いを顕著に示しているといえます。 頻度主義とベイズ主義の検定の考え方の違いについては、後で詳述します。 MCMC(マルコフ連鎖モンテカルロシミュレーション)による推定 「ベイズ推定といえばMCMC法を使うらしい」というのは聞いたことがある人も多いでしょう。 ただ、MCMCはただの推定アルゴリズムで、ベイズ理論とは直接関係がありません(現状として密接な関係はありますが)。 数値計算でも厳しい。 そこでどうするかといえば、事後分布を上の式ではなくてモンテカルロシミュレーションで推定しましょう、ということになったわけです。 さて、モンテカルロシミュレーションとはなんでしょうか。 簡単に言えば、乱数を使ってシミュレーション計算する方法です。 乱数を使ってどうやって事後分布を推定するのかっていうのはちょっと話がややこしいのでパスします。 知らなくてもベイズ推定は使えます。 要は、「解析的に解けないからシミュレーションで事後分布を求めることになった。 その方法がMCMCなんだ」、ということです。 MCMCはマルコフ連鎖・モンテカルロ法の略ですが、マルコフ連鎖を利用したモンテカルロ法を使うと、データの分布の計算をせずとも直接事後分布を求めることができる、ということです。 MCMCを使うと分布をシミュレーションで求めるので、推定値が例えば10000個とか膨大な数値の集合として得られます。 点推定値はシンプルに、10000個の平均値や中央値として計算されます。 標準誤差も同様に得られた推定値の標準偏差で計算します。 信用区間も、上位2. 5のポイントの範囲になります。 最尤法や最小二乗法などの推定方法に慣れていると、点推定値が推定ごとに微妙に変わったり、平均値や中央値でも変わるのが「気持ち悪い」と感じることがあると思います。 ただ、ベイズ推定では真値が一つと考えないわけですから、点推定値が安定するかどうかは比較的どうでもいいことで、分布全体の特徴が変わらなければいいのです。 もちろん、ちゃんと収束していれば、そんなに点推定値も変わらないと思いますが。 一方で、ベイズ推定では分布を直接推定することに利点もあって、推定値の分布に正規性などを仮定しなくてもよい、ということがあげられます。 最尤法は推定値が正規分布であることを仮定するので、媒介分析の間接効果の検定や級内相関係数の検定など、正規分布にならないパラメータの信頼区間を正確に推定できない欠点があります。 それに対してベイズ推定を使えば、歪んだ分布も歪んだ形のまま推定できるので、区間推定はより正確になります。 さらに、最尤法は無理に正規分布を当てはめることによって相関係数が1を超えたり、分散が負になるような不適解が生じやすい一方、ベイズ推定では不適解が生じないような制約を簡単にかけることができるので、経験的に妥当な効果量の推定ができるといえます。 ベイズ推定を使う 最尤法の代わりにベイズ推定法を使うと、何が変わるでしょうか。 逆に何が同じか、という点を先に挙げておきましょう。 点推定値は多少不安定だけど、同じように推定できる• 標準誤差も同様に推定できる(ただ、推定値の標準偏差と呼ばれる)• 信頼区間に似た、信用区間も同様に推定できる• 信用区間に0が含まれるかどうか、という観点で検定もできる• 情報量基準によるモデル選択ができる 上のような感じで、基本的には従来とあまり変わりません。 データを取って現象を説明・予測するというのは変わりないので、そんなにビクビクする必要はないわけです。 仮に、100人のデータを使った回帰分析で、最尤法とベイズ法を比較してみましょう。 最尤法の結果: 点推定値 0. 521 標準誤差 0. 078 信頼区間 0. 368~0. 674 ベイズ法の結果:点推定値 0. 524 標準誤差 0. 079 信用区間 0. 367~0. 678 このように、ほぼ同じ結果が得られます。 ではベイズ推定は何が違うのでしょうか。 まとめると、以下のようになります。 それぞれについて後述します。 点推定値ではなく、分布そのものを推定するという考え方(前述)• 事前分布の存在• データとの距離(適合度)は、絶対的な定数ではなく、相対的な比較による• 検定の考え方の違い 事前分布をどうするか 事前分布は、データを得る前の想定されたモデルです。 最尤法は一様分布、つまり何にも情報がない状態をスタートとしています。 ベイズ推定でも、特に事前に何の予測もなければ「無情報分布」という事前分布を利用します。 一様分布でもいいのですが、推定されるパラメータの種類によって無情報分布を変えるのが一般的です。 簡単に言えば推定値が正負の両方を取りうるなら分散が無限の正規分布を、正の値しかとらない(分散など)場合はガンマ分布を使います。 では、事前に情報がある場合はどうすればいいでしょうか。 その場合は、その情報を事前分布に使えばいいのです。 例えば、以下のような例を考えてみます。 200人のデータがあって、回帰分析をしたとします。 回帰係数は次のような推定値が得られました。 平均 0. 498 標準偏差 0. 060 ここで、最初の100人だけのデータを先に回帰分析して、それを事前分布として残りの100人で回帰分析をするということを考えてみます。 まず、最初の100人のデータの推定値は、以下のようになりました。 平均 0. 473 標準偏差 0. 091 サンプルサイズが半分なので、推定精度が少し悪いです。 次に無情報分布を使って残りの100人の回帰分析の結果を見ておきましょう。 平均 0. 524 標準偏差 0. 079 そして、最初のデータを事前分布とした分析をしてみましょう。 事前分布を平均0. 473、分散を0. 091の2乗である0. 0008の正規分布として分析します(他にも切片と誤差も事前分布を設定しました)。 すると、以下のようになりました。 平均 0. 501 標準偏差 0. 058 元の200人のデータの結果にかなり近い推定となりました。 このように、事前分布を有効利用すると、より精度の高い推定を行うことができます。 逆に、誤った情報を事前分布としてしまうと、当然誤った推定を行います。 事前分布の利用は有効かつ慎重に行うべきでしょう。 もしわからなければ無情報分布を使えばいいでしょう。 多くのプログラムはデフォルトが無情報分布になっているので、特に事前分布を意識しなくても推定はできます。 データの適合度 最尤法や最小二乗法は、データとモデルの距離を定数で表現できました。 最尤法は尤度(場合によっては対数尤度)、最小二乗法は誤差の二乗和を使います。 ベイズ推定の場合は、データとモデルの距離を確率で表現します。 ベイズ法はとりあえず、すべて確率で表現するところが特徴です。 (追記:最尤法との違いは、最尤法は点推定値のみを考慮した距離(尤度)を考えますが、ベイズは推定値の分布すべてを考慮に入れた距離を用います)。 ベイズ推定の適合度で代表的なのはベイズファクターです。 これは、二つの仮説の尤度の比であらわされるもので、データから考えると、どちらの仮説が確からしいかを示す指標です。 ベイズファクターの対数を取れば、二つの仮説の対数尤度の差を意味しており、実は情報量基準のBICの差とほとんど同じです(追記:BICは厳密にはベイズファクターとは違うものです。 BICは推定値の分布の期待値を用いる簡便的な指標です)。 ベイズファクターそのものを計算するのが大変なので、BICの差を使って対数ベイズファクターを求めるソフトウェアもあります。 Mplusもその一つです。 正確には、BICとベイズファクターには以下の関係があります。 他にも、DIC(偏差情報量基準)や事後予測p値などがあります。 DICはBICと同じように、情報量基準で、絶対値に意味はなく、相対的な大きさを比較するものです。 ネイマン-ピアソン流の仮説検定の考え方との違い 従来法が寄って立つ頻度主義的な確率論では、真値が固定的なものと考えます。 なので、統計的検定でも、真値を確率で表現しません。 帰無仮説のもとで、手元のデータが得られるのがどれくらいの確率かというように、データに対して確率を当てはめます。 例えるならこんな感じ。 ある人の性別を考える場合(あくまで例です)。 あの人は男性だろうか、女性だろうか。 答えはどちらかであるはず、というのが前提です。 データを見ると、髪が長い、スカートをはいている、ヒールをはいている。 仮にその人が男性だと仮定すると(帰無仮説)、こんな格好をする確率はどれくらいだろうか?ほぼありえない。 だから、「その人は男性ではない!」という結論を導きます。 逆にその人がスーツに革靴、ネクタイを付けていれば、男性がその格好をすることは十分ありえると考えられるので、「男性でないとは言えない!」となります。 ここで重要なのは、帰無仮説と対立仮説の関係が非対称である点です。 帰無仮説は「パラメータが特定の値と等しい」という形式をとり、対立仮説は「等しくない」という形式をとります。 ネイマン-ピアソン流の仮説検定でテストできるのは、「等しいという仮説が間違っている」ことだけです。 具体的に言えば、差が0と等しいという仮説を立てて、得られたデータがその仮説から得られる確率を計算し、その確率が非常に小さければ、「差が0と等しいという仮説は間違えている」と考える、というわけです。 逆に言えば、「差が0と等しい」という仮説が正しいという主張はできません。 また、「差が0と等しくない」という仮説が間違えているという主張もできません。 一方、ベイズ推定では従来の仮説検定といくつかの点で前提が異なっています。 ここでは2点指摘します。 真値がただ一つの定数だとは考えない• 帰無仮説(値が特定の値と等しい)を出発点にする必要がない まず、ベイズは(上の例でいえば)男性か女性か、どちらか一方であるとは考えません。 男性である確率と女性である確率がそれぞれあると考えます。 また、各仮説を同等のものとして扱います。 ある人の格好を見て、「もし男性ならこういう格好をするか」と「もし女性ならこういう格好をするか」をそれぞれ考えます。 それぞれの「らしさ」を比較して、大きい方の仮説を支持する。 これがベイズ的な仮説検定です。 上の例に即して具体的に言えば、「あの人は男性である」という仮説と、「あの人は女性である」という仮説をそれぞれ同等において、相対的にどちらがデータから見て確からしいかを判断するのがベイズ的な仮説検定(そもそも検定っていうのか?)になるのです。 さて、すでにベイズファクターの話をしましたが、これがベイズ的な仮説検定で利用できます。 モデルを所与としたときのデータの得られやすさを尤度と呼びましたが、その人が男性と仮定するときの「その格好のしやすさ」と、女性と仮定した時の「らしさ」をそれぞれ尤度として計算します。 そして、それぞれの尤度の比(対数を取れば差)をとれば、ベイズファクターです。 これはつまり、「らしさ」を比較してどちらが大きいかを求めていることと同じです。 BICの差は、以下のような解釈をするようです 豊田2008。 0~2 大きい方がかろうじて優れている 2~5 大きい方が優れている 5~10 大きい方がかなり優れている 10以上 大きい方が非常に優れている BICはサンプルサイズを考慮しているので、サンプルサイズが大きいほど強い証拠になりやすいです。 このように、従来の仮説検定といろいろ違いますが、まとめると• 従来の方法は、帰無仮説を軸として対立仮説のありえなさを確率と有意水準で判断する。 一方、ベイズ法は両方の仮説を両方同等のものとして考慮し、仮説の相対的な強さを段階的に判断する こんな感じでしょうか。 95%信用区間に0が含まれていれば帰無仮説を採択、含まれていなければ対立仮説を採択、という具合です。 ただこのやり方はあまりベイズ的ではないかもしれませんね。 現状としてのベイズ推定の利点と欠点 これらを踏まえて、ベイズ推定の利点と欠点を考えてみます。 現状を踏まえたものを書いておきます。 事前分布を上手く使えば、サンプルサイズが小さくてもそれなりに妥当な推定ができる• 上に関連して、データを次々に足していけば、どんどん推定精度が上がる• 推定値の分布に正規性を仮定していないので、より正確な区間推定ができる• 不適解を簡単に回避できる• 複雑なモデルも比較的簡単にモデリングできる 欠点• 事前分布をどのように扱えばいいのか、まだ議論がある(事前分布の恣意的な利用に対する懸念など)• 推定するための時間が長い(複雑なモデルのときは数時間かかることもある)• ひどい場合、事後分布がいつまでたっても収束しないことがある• 使い慣れた仮説検定と前提が違うので(またわかりやすい有意水準もない)、とっつきにくい• 使い慣れた適合度やp値などの指標が使えないので、解釈や報告に慣れが必要• 使えるソフトウェアがまだ限定されている とまぁいろいろ欠点もありますが、それは利点の裏返しでもあります。 僕はかなり未来ある方法だと個人的には思います。 なんだかんだと頻度主義の方法は残り続けるとは思いますが、研究の選択の幅が広がることはいいことだと思うので、一度ベイズ推定、試してはいかがでしょう。 関連ページ: アーカイブ• メタ情報• アクセス解析.

次の