Hadoop / RabbitMQ

前回の記事でOKWaveさんのHBase事例のご紹介をしましたが、このイベントでは最後のセッションで僕もTwitter分析の事例を発表させていただいたので今日はそちらをご紹介します。

発表タイトルは「Hadoop&RabbitMQを利用したTwitter全量リアルタイム解析」。

タイトルそのままにTwitter全量データをリアルタイムに解析するシステムの紹介です。

1. 自己紹介

まずは自己紹介から。 Hadoop等を使ってソーシャルメディア分析をしています。

スライド

2. BuzzFinderとは

次にクチコミ分析サービスBuzzFinderの概要をご紹介。 この発表との関連では「Twitter全量」と「リアルタイム」がポイントです。

スライド

詳しくはNTTコム オンライン・マーケティング・ソリューションのBuzzFinder紹介ページが参考になります。

3. Twitterデータの特徴

3.1. ツイート量の傾向

1日の中のTwitterデータ量の変動パターン。結構変動が大きいです。

スライド

3.2. ツイートの増加量

発表の中では紹介しませんでしたが、Twitter公式ブログでは2010年2月までのツイート増加量のグラフが発表されています。

[http://blog.twitter.com/2010/02/measuring-tweets.html:image:large]

また、2012年3月21日時点ではツイート量が3.4億ツイート/日に達しているようです。

3.3. Twitterデータからわかる情報

ツイート量の次はTwitter Streaming APIから取得できるデータ。 Twitter APIから提供されるデータはJSON形式となっていて、ツイート本文以外にユーザの自己紹介文なども取得することができます。

スライド

4. Twitterデータの日本語解析

ツイート本文とユーザの自己紹介文&場所を分析しています。 日本語解析にはNTT研究所の「リッチインデクシング技術」を利用しています。

スライド

リッチインデクシング技術については菊井玄一郎さん、松尾義博さんのNTT技術ジャーナル「テキストからの知識抽出による新しいWeb情報アクセスに向けて」が参考になります。

4.1. ツイート本文の日本語解析

ツイート本文の日本語解析はキーワード/関連語/ポジティブ・ネガティブ抽出をしています。

スライド

4.2. 自己紹介文・場所の日本語解析

自己紹介文と場所情報からは年齢/性別/職業/都道府県の抽出をしています。

スライド

といったところで

長くなってきたので今日はここまで。 次回はBuzzFinderでのTwitterデータ処理フローをご紹介します。

バックナンバー