【Rubyでアクセス解析 その4】apacheログファイルを読み込む
apacheログファイルを読み込むところまでは、なんとか形にしてみました。
色んな課題が途中で入ってきて大変でしたけどね。
例えば
・apacheログの標準の日時フィールドは[と]で囲まれているから、パースするのが大変
→[と]をダブルクォーテーションに置換して対処
・apacheログの標準の日時フィールドの文字がParseDate::parsedateでは解釈できない
→解釈できるように日時フィールドの値を置換して対処
・apacheログの標準フォーマットではユーザをユニークに判別するフィールドはユーザーエージェントぐらいしかない
→これはしょうがない
そして以下のような課題がまだまだ残ってます!
・keyword取得
・UserIDがuser-agentになっているが、apache提供のユニークIDフィールドや、ユーザのIPアドレスも加味した形でUserIDを振りたい
・apacheログの要素の場所が固定
・アウトプットがまだ
今の段階のソースコードを参照したい方は以下のコマンドでどうぞ
git clone http://github.com/rorkaido/farfalle.git
cd farfalle/
git checkout v0.2
もー、簡単な指標しか出さないのに意外と壁は厚い・・・次回もがんばろう!(たぶん3ヶ月後・・・ってか?)
【広告】
良かったらご覧ください!
アクセス解析ができるの、楽しみにしていますね。