つぶやきを追え～『爆発するソーシャルメディア』との戦い～ (前編)

前回の記事でOKWaveさんのHBase事例のご紹介をしましたが、このイベントでは最後のセッションで僕もTwitter分析の事例を発表させていただいたので今日はそちらをご紹介します。

発表タイトルは「Hadoop&RabbitMQを利用したTwitter全量リアルタイム解析」。

タイトルそのままにTwitter全量データをリアルタイムに解析するシステムの紹介です。

1. 自己紹介

まずは自己紹介から。 Hadoop等を使ってソーシャルメディア分析をしています。

スライド

次にクチコミ分析サービスBuzzFinderの概要をご紹介。この発表との関連では「Twitter全量」と「リアルタイム」がポイントです。

スライド

1日の中のTwitterデータ量の変動パターン。結構変動が大きいです。

スライド

発表の中では紹介しませんでしたが、Twitter公式ブログでは2010年2月までのツイート増加量のグラフが発表されています。

[http://blog.twitter.com/2010/02/measuring-tweets.html:image:large]

ツイート量の次はTwitter Streaming APIから取得できるデータ。 Twitter APIから提供されるデータはJSON形式となっていて、ツイート本文以外にユーザの自己紹介文なども取得することができます。

スライド

ツイート本文とユーザの自己紹介文＆場所を分析しています。日本語解析にはNTT研究所の「リッチインデクシング技術」を利用しています。

スライド

リッチインデクシング技術については菊井玄一郎さん、松尾義博さんのNTT技術ジャーナル「テキストからの知識抽出による新しいWeb情報アクセスに向けて」が参考になります。

ツイート本文の日本語解析はキーワード/関連語/ポジティブ・ネガティブ抽出をしています。

スライド

自己紹介文と場所情報からは年齢/性別/職業/都道府県の抽出をしています。

スライド

長くなってきたので今日はここまで。次回はBuzzFinderでのTwitterデータ処理フローをご紹介します。