2012年10月12日金曜日

東日本大震災ビッグデータワークショップの作業を再開!

諸事情により作業が停滞していた「東日本大震災ビッグデータワークショップ」向けの作業を今日から再開です。
作業停滞前は、位置情報ツイートに市町村コードを付加するところまでやりました。
作業を始めて、まだまだ序の口なので、今しばらく各データ解析しやすいようにデータベース化する作業を進めています。

本日の作業1:
Twitterのデータ(今度は位置情報が付いていないもの)をデータベースに格納しています。
データ総量が20GBを超えるデータなので、登録時間が半端ない。こんなサイズのデータベースを生成するのは、人生初です。何事も初めてはワクワクします♪
こんなに時間がかかるものを待っていてもしょうがないので、こちらの作業はPCさんにお任せすることにしちゃいます。

本日の作業2:
次は、株式会社ゼンリンデータコム様の混雑統計データをデータベースに登録します。
データを見ると緯度経度が変わった形式で格納されていますが、これは、度分秒ではなく、緯度経度(ミリ秒)でした。割り算で、度分秒(10進)へ変換後、PostGISへ投入開始!
そして、また待ち発生。。。ビッグなデータは、何事も時間がかかります。

これ以上続けると、データの処理順が訳わかんない事態となりそうなので、今日はデータ投入に専念することにしよう。