エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
AnyEvent と Coro を使って、WEB から非同期に並行ダウンロードするプログラムの習作を作ってみた。http... AnyEvent と Coro を使って、WEB から非同期に並行ダウンロードするプログラムの習作を作ってみた。http://kaede.to/~canada/doc/wiser-clawer-sample-using-coroをだいぶ参考にさせてもらっている。紹介されている非同期クローラはとてもいいのだが、自分がやろうとしていることを考えると、次の点がちょっと気になった。 対象 URI のリストは一千万オーダになる あらかじめメモリ上に列挙しておいていいのだろうか URI の数分のスレッドを起こしていいのだろうか 名前解決すると同一 IP アドレスになるホストが少なくない 同時リクエスト制限をかけるのはホスト名ではなく IP アドレスがいいのではないだろうか ということで、次のような特徴を持つスクリプトを書いてみた。 最大同時接続数の制御にはセマフォを使うのではなく、その数 (20 なら