サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
happyou-info.hatenablog.com
この記事は、クローラー/Webスクレイピング Advent Calendar 2016 に参加させていただいています。昨日はL_e_k_oさんによるSelenium IDEで作ったテストをCLIで動かす方法でした。 さて、去年のspaceprobeさんのこの記事を読んで考えました。 qiita.com 地図帳や百科事典には、他社にコピーされたことを判別できるように、実用上は問題のない偽データ(たどり着くことの出来ない道路や存在しない言葉など)が埋め込まれているというのは有名な話です。 https://ja.wikipedia.org/wiki/%E8%99%9A%E6%A7%8B%E8%A8%98%E4%BA%8B https://en.wikipedia.org/wiki/Fictitious_entry 少し角度は違いますが、Tim Berners-Lee先生も「オープンデータも悪い人
この記事は クローラー/Webスクレイピング Advent Calendar 2015 の15日目の記事です。 昨日の記事は dimgraycatさんによる とりあえずPHPでWebスクレイピングしてみたい人向けパッケージ - Qiita でした。 happyou.infoというサイトを開発している@shogookamotoと申します。 現在、NASDAQ市場に上場している全企業の公式サイトの更新情報をスクレイピングすることを計画しています。日本株については完了しています(リンク, リンク)。 そのためには、まずどのサイトをスクレイピングすればよいのかを正確に把握しなければなりません。 (1)取扱銘柄そのものはすぐに取得できます。 NASDAQは毎日取扱銘柄の一覧を公開のftp.nasdaqtrader.comにアップロードしています。anonnymousでログインして /SymbolDi
Final ScraperはRSSを出力しないウェブページをパターン解析し、RSSフィードを出力するサービスです。 ようやく安定して動作するようになりましたのでリリースしました。ご利用は無料です。 Happyou Final Scraper 同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。 以下の制限事項がございます。 大量のエントリーはブロックさせていただくことがございます。ご希望の場合は別途お問い合わせ下さい。 ログインが必要なページはダウンロードすることが出来ません。 通信先のウェブサイトの設定によってはダウンロード出来ない場合がございます。お相手のウェブサイト様が望まないことは出来ません。 現在、4時間に一度のアクセスを行っています。最大4時間の遅れが生じることがあります。
書いたんですけど、テクニカルな記事だったし、あまり反応もなかったので、Qiitaというサイトに移転しました。 qiita.com
happyou.infoは、国内のすべての上場企業3649社とすべての地方自治体1981サイトのウェブサイトからRSSフィードを作成し、happyou.info内にて無料公開します(*1)。 happyou.infoのトップページ Final Scraper Final Scraper はHTMLページのパターン解析を行い高品質のRSSフィードを作成します。 同様のサービスは他にも存在しますが、Final Scraperは独自のパターン認識プログラムによって、作成されるRSSフィードの品質を飛躍的に高めています。 Happyou Final Scraper FinalScraperを利用して、上場企業と地方自治体のサイトからフィードを作成して公開しました。 すべての上場企業 (2022年現在、公開を止めています) すべての地方自治体(2022年現在、公開を止めています) happyou A
スクレイピングとは、ウェブページから情報を取り出す処理を指します。そのためのプログラムやツールが存在します。 さて、ここで立場を変えて、情報を取り出されてしまうウェブサイト側の立場になって考えてみますと、スクレイピングはあまりうれしくない存在であることがわかります。 ニュースサイトは、コストと時間をかけて書いた記事をコピーされ転載されてしまう。 オンラインショップは、ライバルの他社に商品リスト、価格、在庫の変化、顧客の評価等を把握されてしまう。 インターネット広告は、自社が出している/仲介している広告の種類と量をライバルに把握されてしまう。 他社の情報は把握したいが、自社の情報は把握されたくないと考えるのは自然なことのようです。その証拠として、スクレイピングの普及に合わせて、自分のサイトがスクレイピングされることを防ぐための「アンチスクレイピングサービス」なるものが世に広まりつつある点を挙
このページを最初にブックマークしてみませんか?
『happyou.infoのブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く