『トピックモデルによる統計的潜在意味解析』読書会を開催中です

はじめまして。データ分析部の越水です。

本日は、弊社セミナールームで定期開催している『トピックモデルによる統計的潜在意味解析』読書会についてご紹介したいと思います。

『トピックモデルによる統計的潜在意味解析』について

トピックモデルとは、文書中の各単語およびそれらの単語が属するトピックが確率的に生成されていると仮定するモデルです。近年活発に研究が行われている分野であり、ニュースサイトでの記事の自動分類や、ユーザープロファイリングなど、多岐にわたる応用例があります。

ここでは、簡単にトピックモデルについて解説します。まず、文書には潜在的なトピック（その文書のカテゴリ・話題のようなもの）があり、そのトピックから各単語が生成されていると想定します。その潜在的なトピックを、得られた文書集合に含まれる単語から推定することが主たる目的です。

例えば、いろいろなニュース記事のトピックについて考えてみます。あるニュースが「自民党は28日、総裁選挙を～」という内容で始まっていたとしましょう。我々人間は、一目見て「ああ、これは政治に関するニュースだな」ということがすぐにわかります。同様に、あるニュースが「サッカー日本代表のメンバーが発表され～」という内容で始まっていれば、スポーツに関するニュースであることがわかります。たとえそれが「スポーツ」カテゴリであることが隠されていたとしても、ニュースに含まれる単語を見ることにより、そのニュースがもつ潜在的なトピックを想像することが可能です。

トピックモデルを用いて大量の文書データから学習することで、人間がトピックを判断せずとも、それぞれの文書が持つトピックを自動的に推定することが可能となります。

『トピックモデルによる統計的潜在意味解析』(監修：奥村学, 著：佐藤一誠, 発行：コロナ社)は、今年3月に発行された、トピックモデルについて解説された書籍です。この本を読むことで、トピックモデルのみならず、ギブスサンプリングや変分ベイズ法などの関連する機械学習手法についても習得できるような内容になっています。統計学・機械学習に関する広範囲の知識が必要となるため、必ずしも実務で扱わなくとも、データ分析者にとってトピックモデルを学習する価値は大いにあるのではないかと思います。

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

posted with amazlet at 15.08.31

佐藤一誠
コロナ社
売り上げランキング: 47,477

Amazon.co.jpで詳細を見る

どんな読書会なのか

第5回勉強会の模様です。

この読書会は、『トピックモデルによる統計的潜在意味解析』、通称「#トピ本」を、月2回のペースで読み進める会です。

読書会の形式は、各担当者に本の内容を発表していただき、その後質疑応答タイムで議論を行う、というスタンダードなものです。また、発表の後にはLTも行われ、本の内容に留まらない様々な発表をしていただいております。

これまでに5回の勉強会が行われ、第3章3.5節までの発表が終わりました。
ここでは、軽くこれまでの会を振り返ってみたいと思います。

第1回(2015/6/4) 範囲：第1章, 第2章

記念すべき第1回の範囲は、第1章「統計的潜在意味解析とは」・第2章「Latent Dirichlet Allocation」でした。

第1章の発表者は、私、越水が担当いたしました。

「潜在的意味」とはそもそもどういうものか、潜在意味解析の歴史から始まり、本書で頻出するグラフィカルモデルの説明を行いました。

「トピックモデルによる統計的潜在意味解析」読書会「第1章統計的潜在意味解析とは」 from ksmzn

第2章前半の発表者は、@_kobacky さん。 Latent Dirichlet Allocation(LDA)の概要に加え、 LDAを理解するのに不可欠な確率分布である多項分布とDirichlet分布について、わかりやすく解説していただきました。

「トピックモデルによる統計的潜在意味解析」読書会 2章前半 from Koji Ono

第2章後半の発表者は、@aki_n1wa さん。 LDAではどのように単語が生成されるかを、わかりやすい図とともに説明していただきました。また、LDAの応用例についても発表いただき、言語データに留まらない様々な応用例をご紹介いただきました。

トピックモデルによる統計的潜在意味解析 2章後半 from Shinya Akiba

第2回(2015/6/18) 範囲：第3章3.1, 3.2

第2回の範囲は、第3章3.1「統計的学習アルゴリズム」・第3章3.2「サンプリング近似法」でした。

第3章3.1は、弊社アナリストの中野が担当いたしました。本書の最大の山場である第3章を乗り切るために、このあたりはしっかりとおさえておきたいところですね！

3.1節　統計的学習アルゴリズム from akito_nakano

第3章3.2の発表者は、同じく弊社アナリストの青木が担当いたしました。第1回の復習も兼ねて、グラフィカルモデルを使わずに数式から条件付き分布を導出しました。次に、LDAで用いられる学習アルゴリズムとして、ギブスサンプリング・周辺化ギブスサンプリングについて解説しました。だんだん難しくなってきました…！

読書会「トピックモデルによる統計的潜在意味解析」第2回 3.2節サンプリング近似法 from aoki_kenji

第3回(2015/7/7) 範囲：第3章3.3前半

第3回の範囲は、第3章3.3「変分近似法」でした。発表者は、@tn1031 さん。

ギブスサンプリングとは異なり、決定論的アルゴリズムである変分ベイズ法。この分野を説明した和書は少ないのですが、どういうアルゴリズムなのか、どういう性質なのかを詳しく解説していただきました。

3.3節変分近似法(前半) from tn1031

第4回(2015/7/30) 範囲：第3章3.3後半, 3.4

第4回の範囲は、第3章3.3「変分近似法」後半・3.4「逐次ベイズ学習——変分近似法の場合——」でした。

第3章3.3後半の発表者は、越水が担当いたしました。 LDAにおいて変分ベイズ法をどのように適用するのか、また、周辺化変分ベイズ法(CVB)についても解説いたしました。

第3章変分近似法 LDAにおける変分ベイズ法・周辺化変分ベイズ法 from ksmzn

第3章3.4の発表者は、@MOTOGRILL さん。これまでの学習アルゴリズムは一括（バッチ）学習と呼ばれ、データ全体に大して学習を繰り返す必要がありました。本発表では、データをひとつひとつ逐次（オンライン）学習する確率的変分ベイズ法についてご紹介いただきました。

20150730 トピ本第4回 3.4節 from MOTOGRILL

第5回(2015/8/27) 範囲：第3章3.5

第5回の範囲は、第3章3.5「逐次ベイズ学習——サンプリング近似法の場合——」でした。

第3章3.5の発表者は、@y__uti さん。前回の変分近似法と同様に、逐次学習をサンプリング近似法でどのように行うか、というのがテーマです。周辺化ギブスサンプリングや粒子フィルタについて、わかりやすいイメージ図を用いて説明していただきました。また、本文中で言及されている、サンプルの活性化についての論文もご紹介いただきました。

逐次ベイズ学習 – サンプリング近似法の場合 – from y-uti

会場について

この勉強会の会場は、弊社オフィス内のセミナールームです。このセミナールームでは、他にも弊社開催の「データサイエンティスト養成講座」や、エンジニア向け勉強会「Java女子部JVM勉強会」が開催されておりますので、ご興味のある方はぜひご参加ください。

次回日程と範囲

次回は9月17日（木）を予定しております！範囲は第4章4.1~4.3節『潜在意味空間における回帰と識別』ですので、皆様ぜひご参加くださいませ。今後の勉強会の進め方ですが、本書の第3章はやや重い内容なので残りの節はスキップし、先に第4章・第5章を学習します。そして、最後に第3章の残りの節に挑む予定となっております。

参加者・発表者ともに大募集中ですので、ご興味のある方はぜひ下記URLからご応募ください！
第6回『トピックモデルによる統計的潜在意味解析』読書会 – connpass –

また、これまでの読書会の詳細や発表資料は下記URLから確認できますので、合わせてご覧ください。
『トピックモデルによる統計的潜在意味解析』読書会 buy domain it .

『トピックモデルによる統計的潜在意味解析』読書会を開催中です

『トピックモデルによる統計的潜在意味解析』について

どんな読書会なのか

第1回(2015/6/4) 範囲：第1章, 第2章

第2回(2015/6/18) 範囲：第3章3.1, 3.2

第3回(2015/7/7) 範囲：第3章3.3前半

第4回(2015/7/30) 範囲：第3章3.3後半, 3.4

第5回(2015/8/27) 範囲：第3章3.5

会場について

次回日程と範囲

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？