東日本大震災ビッグデータWS project 311に参加する その4

三日坊主で更新が止まってましたが,いろいろ試してはいたのです.

位置情報付きのtweetリスト作成プロジェクト

先週土曜日くらいからこういうことをやっていました.ただのデータ作成ではありますが,メンバーに恵まれて楽しく作業できました.@hiiragi1104 さん,@antlabo さん,@_kawaken_ さん,@y_benjo さん,ありがとうございました. これで地理情報付きツイートの分析が行えます.

首都圏における帰宅難民のモデリング(仮) その1

@y_benjoさんとなんかやろうと見切り発車で始めました.プロジェクトページはこちら

平常時(3/08)と震災時(3/11)の人口分布の変動をメッシュではなく,等高線で表してみました.深夜0時から翌日午前7時までのgifにしています.都心部から人口が減らないこと,ターミナル駅に人が集中することが見て取ることができます.図をクリックして拡大した方がみやすいかもしれません.最初重いですがしばらくすると軽くなります.

個人的には現象理解・現象確認だけではなく,二次災害の発生原因とその対策まで考えたいと思います.もちろん時間もなければ,分析手法も粗いと思いますが,おおよそのあたりをつけることは可能なのでは.

全然関係ないんですが,Rで可視化する際のカラーパレットでいいものがなくていつも困っていたのですが,良い方法を見つけました.Rのもともとあるカラーパレット(rainbowとかheat.colors)って変な色使いだなぁと思っており,RColorBrewerもいまいちだなぁと思っていたのですが,plotrixのライブラリが良いですね.自分で簡単に色調が変化するカラーパレットを作れます.

library(plotrix)
col = smoothColors("blue",2,"white",2,"red")

plotrixでsmoothColorsという関数があり,自分で色を指定すると間を勝手に補完してくれます.上記の例だと7色のカラーバーができます.これ,めちゃめちゃいいです.

twitterによるURL共有情報の分析 その4

マルチスレッドにしたら処理は速くなりました.が,結局短縮URLサービス側のAPI制限(同時接続制限?)に引っかかるようで,スレッド数だけ高速化されるわけではないようです.頻出URLの上位10万件(総URL数の55.9%)は集めることができたので,それで分析を開始するので良い気がする.もちろん名寄せ前の出現URLは8,312,928であるので,残り820万あるのだが,各URLの出現回数は20回程度なので,分析を進める上でとりあえず無視しても良いように思う.取得はスクリプト回しておけばいつでも取れるので.