ベイズ情報量規準及びその発展～概説編～

今井です。今回より数回にわたってベイズ情報量規準及びその発展について書きたいと思います。

情報量規準と聞くとAIC(Akaike, 1973)やBIC(Schwarz, 1978)が真っ先に思い浮かぶ人が多いかと思います。情報量規準を勉強したことのある人であれば、予測精度を上げるためにモデル選択をするのであればAIC、データが生成されている構造を知ろうとするのであればBICを用いるという使い分けをすることもご存知だと思います。以下ではベイズ情報量規準(BIC)に絞って説明をしていきます。

ベイズ情報量規準の目的である、予測ではなく妥当なモデルの構造を知りたい時とはどういった場合でしょうか。例えば、単なる売上の予測だけではなくMMM(Marketing Mix Modeling)を因果モデル化したモデルによる広告などの施策の効果を知りたい場合や、k-means法でクラスター分析をする時のkを決める時などが上げられます。

後者の方が簡単なので、後者から説明します。先日弊社で行われたデータサイエンティスト養成講座のクラスター分析の岩崎先生による基調講演の中で次のようなお話をされていました。下の3つの混合分布の内、一番右の分布であれば誰でも2つの分布から構成されていることが分かるが、統計を用いて真ん中、さらには一番左の分布も2つの分布から構成されていることが分かるかが問題になる、と。

前回のブログ記事でTDA(topological data analysis)でもこの混合数を推定できると説明しましたが、こういった微妙なケースではTDAで判別するのは難しそうです。ではこの問題を情報量規準を用いて解けるかを調べてみます。上記の真ん中の分布であるN(1,1)とN(-1,1)の1/2ずつのmixtureと、少し分布を近づけたN(0.85,1)とN(-0.85,1)の1/2ずつのmixtureが1,2,3つの分布のいくつから構成されているかを情報量規準によるモデル選択を用いて、2つの分布から構成されているということを当てられるかを見てみましょう。2つの混合する分布が近づいていく時、BICを適用できる条件であるフィッシャー情報行列の正則性が無くなっていってしまうので、正則性が成り立たなくても適用できる情報量規準WBIC(Widely applicable BIC, Watanabe 2013)も比較対象として入れて見てみましょう。WBICを計算する際の事前分布は一様分布を用いています。

このくらいの例だとBICで数千～数万サンプルあれば正しい分布の混合数が選択できそうです。WBICはもう少し混合する分布が近くて特異性が高い所だと力を発揮しますが（渡辺先生のHPの例では分布の差が0.3のケースで見ているので上記よりもっと特異性が高い状況です）、正則条件が成り立つような状況だとBICに負けてしまうようです（正則条件下ではWBICはBICと漸近一致となるような基準ではありますが）。

では次に時系列の因果推論モデルを考えてみましょう。

上記の左図のようにu時点後にa→bに直接的な効果があるものを赤い矢印で表現します。また、上記の右図のように観測されていない潜在変数Lによって、L→aに(s-u)時点後に直接効果があり、L→bにs時点後に直接効果があるとします。この場合、Lが観測されていないことによってa→bにu時点後に効果を与えているように見えてしまいます。これを擬似的な因果関係と呼び、直接的な因果効果と区別するために緑の点線の矢印で表現します。

この2つを識別できるかという問題は高度な設定になってしまうため、まずは次のような簡単なモデル選択で情報量規準の性能を見てみましょう。

データを生成しているモデルとして上図のモデル3のように変数1と変数2に互いに1時点遅れで直接的な因果関係があり（ $x_1(t-1) \to x_2(t)$ , $x_2(t-1) \to x_1(t)$ ）、変数1と変数3には互いに擬似的な因果関係があるとします（ $L(t-1) \to x_1(t)$ , $L(t-2) \to x_3(t)$ , $L(t-1) \to x_3(t)$ , $L(t-2) \to x_1(t)$ ）。この時、データからは変数2と変数3の間にも2時点遅れで関係があるように見えるため、モデル4, 5のようなモデル候補を用意しておきます。またモデル0, 1, 2はモデル3のサブモデルとしてモデル候補を用意しておきます。この6つのモデルから情報量規準によってモデル3が正しいモデルだと当てられるかをシミュレーションしてみます。マーケティング領域だとデータが週次ベースで、新たなIMC(Integrated Marketing Communication: 統合マーケティングコミュニケーション)施策を行っていた期間が数ヶ月程度の時点で広告施策の効果を知りたいということがあるため、数十サンプル程度でシミュレーションしてみます。また上記のパラメトリックモデルとしてARMAモデルを用いました。

このモデルでは特異性が高いからかWBICの方がBICよりも高い性能を示しています。数十サンプルでも高い確率で正しいモデル選択がされていることが分かります。

先ほどリリースを出した応用統計学会の発表で受賞した研究は、このWBICの改良版にあたるiWBIC(improved WBIC, Imai & Kuroki 2016)の提案及びその性質を明らかにしたものです。こちらの研究内容も今後ブログで説明予定です。iWBICはWBICで用いているWatanabe理論(参考文献[4])を用いているため、次回以降はWatanabe理論とWBICの説明を行っていく予定です。

シミュレーション結果だけ先にお見せしますと、今回見てきたシミュレーション例に対するiWBICの性能は下図の緑の線のとおりでうまく改善されていることが分かります。

それでは次回以降もよろしくお願いいたします。

参考文献

[1] Imai, T. and Kuroki, M. (2016). An improved widely applicable Bayesian information criterion for singular models, In Preparation.
[2] Schwarz, G. E. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
[3] Watanabe, S. (2013). A widely applicable Bayesian information criterion. Journal of Machine Learning Research, 14, 867-897.
[4] Watanabe, S. (2009). Algebraic geometry and statistical learning theory. Cambridge University Press

ベイズ情報量規準及びその発展～概説編～

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？