つぶやきを追え～『爆発するソーシャルメディア』との戦い～ (中編)

前回に引き続き『Hadoop&RabbitMQを利用したTwitter全量リアルタイム解析』(2012/12/10 Hadoopエンタープライズソリューションセミナー)の発表内容をご紹介します。

前回の内容は

5. BuzzFinderでのTwitterデータ処理フロー

まずはバーン！と全体フロー。

ここでは

次はTwitter解析クラスタの中身です。

スライド

Twitter解析クラスタは

バッチ処理クラスタのデータフローはこのようになっています。

スライド

一方、リアルタイム処理クラスタではMap処理にRabbitMQを利用。

スライド

RabbitMQとはメッセージキューソフトウェアと呼ばれるミドルウェアで、受け取ったメッセージを順番に出力します。

スライド

RabbitMQにメッセージを送ることを「Publish」と、メッセージを取得することを「Subscribe」と言いますが、上の図ではメッセージA, メッセージB, メッセージCをPublishした順番にSubscribeしています。

BuzzFinderのバッチ処理は日本語解析Map処理、データ抽出Map処理、集計Reduce処理の3段構成で行っています。

スライド

この処理では日本語解析Map処理が段違いに重い処理となっていて、リアルタイム処理化の際にはこのMap処理を高速化することがポイントとなります。

そこでMap処理にRabbitMQを使ってストリーム処理化したのがこちらのアーキテクチャです。

スライド

Hadoopで行っていたMap処理をすべてRabbitMQ経由で行うことでストリーム処理化しています。

Map処理のHadoopからRabbitMQへの移行では、Hadoop Streamingで実行していたMapperプログラムをRabbitMQ経由に変更しています。

スライド

こちらの図のように、Hadoopではある程度溜まった入力データを一気に処理していましたが、RabbitMQ経由の場合はメッセージキューにたまった入力データをデーモンプロセスが一つずつ処理しています。こうすることでMap処理のストリーム処理化を実現しています。

今回の記事ではBuzzFinderでのTwitterデータ処理フローをご紹介しました。

スライド

BuzzFinderのリアルタイム処理はHadoopバッチ処理とRabbitMQストリーム処理の組み合わせになっているところが大きな特徴です。

次回は最終回となりますが、BuzzFinderでの実際の解析例をご紹介する予定です。