SSブログ

LDAでニュース分析 [科学、数学]

今週末も雨だったので、いまさらですが、家で潜在的ディリクレ配分法(Latent Dirichlet Allocation : LDA)という難しそうな名前の方法を使って、新聞のニュースのトレンドを調べてみました。

英国のインデペンデント紙やテレグラフ紙は、Webサイトから過去の新聞記事を調べることができます。

インデペンデント紙 : INDEPENDENT
https://www.independent.co.uk/archive/

テレグラフ紙 : The Telegraph
https://www.telegraph.co.uk/archive/

リーマンショック(Financial crisis of 2007–2008)の時期のニュースのタイトルをgensimというライブラリを使って1週間ごとにトピック分類したら、下の図のようになりました。
上が、インデペンデント紙、下がテレグラフ紙です。
topic_trend_s.jpg

テレグラフ紙は、2008年9月のリーマンショックの前後で、ニュースのトピックの割合が大きく変わっています。

FRED_TED_Spread_s.jpg
FREDのサイトにあるTED SpreadやCBOE Volatility Index: VIXのデータと並べて見ると、こんな感じです。
ted_and_topics_s.jpg

思ったより簡単に、なんとなく良い感じの分析結果が出てしまったので、もうすこし詳しく調べてみようと思います。
(追記 : なんか間違ってたみたいなので、やり直しました https://aoken.blog.so-net.ne.jp/2019-08-10 )



nice!(13)  コメント(0) 
共通テーマ:学問