指定したURL配下のURL一覧を取得できるサービスを公開しました。
例えば、"http://d.hatena.ne.jp/onozaty/" と入れると、配下のURL一覧として下記のようなテキストが取得できます。
http://d.hatena.ne.jp/onozaty/ http://d.hatena.ne.jp/onozaty/20060122/p2 http://d.hatena.ne.jp/onozaty/20060202/p1 http://d.hatena.ne.jp/onozaty/20060212/p1 http://d.hatena.ne.jp/onozaty/20060224/p1
このURLは、はてなブックマークとLivedoorクリップのRSSから収集しています。
上記の"http://d.hatena.ne.jp/onozaty/"を例とすると、収集対象のRSSは下記になります。
- はてなブックマーク - d:id:onozaty の注目エントリー一覧
- はてなブックマーク - d:id:onozaty の注目エントリー一覧
- はてなブックマーク - d:id:onozaty の人気エントリー一覧
- サイト「http://d.hatena.ne.jp/onozaty/」の注目ページ - livedoor クリップ
- サイト「http://d.hatena.ne.jp/onozaty/」の注目ページ - livedoor クリップ
- サイト「http://d.hatena.ne.jp/onozaty/」の人気ページ - livedoor クリップ
- はてなブックマーク - d:id:onozaty の新着エントリー一覧
- はてなブックマーク - d:id:onozaty の新着ブックマーク
- サイト「http://d.hatena.ne.jp/onozaty/」の新着ページ - livedoor クリップ
上から6つ(人気、注目のフィード)は、初回のみ収集し、それ以降は下の3つ(新着のフィード)から収集し、URL一覧を更新していきます。
URL一覧の更新は、URL一覧を取得時に行っており、システム側で定期的に収集はしていません。他のサービスから定期的にアクセスしてもらうことにより、URL一覧が継続的に更新されていくイメージでいます。
したがって、最初は多くても100件くらいにしかなりませんが、時を重ねる&使い込むにつれ、URL一覧が増えていくような感じになります。
これを作ったのは、del.icio.usで自分のサイトに対する言及をRSSで抜き出すために、自分のサイトのURL一覧が欲しかったためです。
最初は、Yahooの検索API使って取ってみたのですが、ゴミのようなURLも抜き出されてしまう&1000件までしか取れない(しかも順位が微妙で1000件以降に重要なURLが隠れてしまいそう)ので、このような形式を取ることにしました。
なお、もともとJavaで実装したのですが、Java動かせるサーバ持っていなかったので、Rubyで書き直しています。(Rubyで100行くらい)
とりあえずちゃんと動いてそうですが、まだまだ不具合があるかもしれませんので、使用される場合にはご了承ください。