2012年9月29日土曜日

いよいよ実データの投入開始

行政界データの登録も終わり、いよいよビッグデータの登録に移りました。
テキスト処理系のコマンドは一切使えない私…、データベースへの登録はプログラムに頼る
事になります。最初に投入するデータはTwitterの情報に位置情報を付加したもの。shinsaidataグループの方が作成されたデータです。
使い慣れたVisual Studioを使ってさくさくとツールを書上げ、そしてデータベースへ登録完了。

Twitterの情報には、行政コードを独自付加したので、自治体単位でツイートが検索できるはず。
早速、富山県のコード(16)を指定して実行してみた。

 ERROR:  符号化方式"UTF8"文字0xe280bc<は"SJIS"と同じではありません

はうっ!?・・・と思ったが、これはpsqlコマンドだけの問題らしく。pgAdminとかで見ると問題なし。良かった。

しばらく、色々と都道府県別に抽出して、ツイートを眺める。。。驚いているツイートから難民状態のツイート、探し人・・・久々に涙腺が緩む。

気を取り直して、このデータでグループにフィードバックしてみようと思い、CSV形式で出力してみることにした。緯度経度をGeometoryに入れてしまっている。あれ!?緯度経度って…取れないのか?
AsTextだと「POINT(経度 緯度)」と出てきてしまう。オリジナルの緯度経度をもっとくべきだったか!?悩んでもしようがないので、再登録を実施。
とりあえず、試験用のデータベースは完了!CSVへのはき出しも問題なし。

次回は、いよいよBIツールJasperServerを使ってレポートを作ってみる…はず。

0 件のコメント:

コメントを投稿