はてなキーワード: クロールとは
自分が書いた記事を読むことがあるという人はどのくらいいるのだろうか。まあ自分がそうだから書いているのだが。
ただし、以下の記事は除外している。
※ 見出しのタイトルはは元記事のタイトルから一部省略している場合あり。
この2つは記事の半分以上が主題とは関係ない自分語りになってしまった。まあ自分は記事を書くときに脱線して長文になることはよくあるけど (匿名ではないはてなブログでもそう) ...。
前者は上記日本の潜在的な問題点で削除した文言にたいするつっこみ (田園都市線で日本を語ってほしくない) をうけたからつくることに。
都会ならではの問題点 (?) 、1駅おきに商業施設があるという内容。逆にそれでも客があつまるほど人がおおいのが都会なのだ...。
後者も都会ならではの問題点で、1路線の運転見合わせで首都圏広域の鉄道路線に多大な影響がおよぶ (神奈川県の路線での事故が直通運転のせいで埼玉県にまで影響がでる) というもの。そのかわり代替ルートもおおいけど。なお当該記事を書いたときの原因は脱線だったが、のちに当該企業は行政処分をうけている。
都会は人がおおすぎるせいで、きた電車への乗車にまにあわなかったらお見送りいただいたかたはご協力いただきありがとうございますという放送を聞くこともできる場合もある...。
ブックマーク数も記事への反応も0件だが (まだ生成AIが最初にブックマークするなんてことがなかった時代なのもあるが) 、個人的にはいちばん推したい記事。(いちばんではない記事で600 users (後述) は正直びっくりした)
スマートフォンの内蔵アプリだけでまもなく降車の通知を表示できる (一部地下鉄など位置情報を取得できない場合を除く) 。ただし専用のアラームアプリほど強い通知ではないため、深い睡眠にはいってしまうと対応できないのは注意。
新宿マルイメンの売り上げを性別・年代別にみてみたらおもしろいことに気がついたからピックアップした。
男性客が売り上げの中心かとおもったら、インテリアのフロアとアニメイトのフロアはほとんど女性客だったというもの。
スポンサー不買・不使用運動をするとトイレ難民になる (パナソニック・LIXIL・TOTOがスポンサーのため) という内容。
※ オリンピックのスポンサーは原則として1業種1社なのだが、東京2020オリンピックに限っては (日本の広告事情 (電通のせい) を考慮した結果なのだろうが) ローカルスポンサー枠で1業種に複数社が加盟することが特例で認められている,
auからかけると "現在使われておりません" というガイダンス。Xにサービス終了前からかからなかったという投稿もあったが、auユーザーだったんだろう。
ドコモからかけると現在でも "市外局番をつけておかけなおしください" というガイダンス (サービス終了しているのに) 。いいのかそれで...。
電子マネーは基本的に有効期限がある。押し入れにしまっているカードとかがあれば念のため最終使用日を確認してほしい。
※ 記事にも書いているが東京駅記念Suica (2016年発行) を1回も使用していない場合、一律で2026年3月が有効期限になる。あと2か月しかないので注意。
それにしてもKyashの6か月はさすがに短いとはおもうが...。共通ポイント (1年がおおい) よりみじかい有効期限はどうなの...。
自分より先に書かれた anond:20250403210837 も種類がちがうのであわせて読んでほしい。
dカード (三井住友カード→UCカード) とPARCOカード (クレディセゾン→JFRカード) について書いた。
dカードは (はてなダイアリー→はてなブログみたいに) 移行拒否しないかぎり強制移行されたが、PARCOカードはなにもしないとクレディセゾンが発行する別カードに移行されるかたちになった。この場合、2026年3月以降PARCOでのお支払いは他社カード扱いになるためポイント還元率が減少する。2月 (来月) までに新PARCOカードに申し込むと年会費が10年無料 (永年無料ではなくなった) なので、PARCOによく行くならいそいで移行しよう。
配膳ロボットが料理をはこぶチェーン店もふえてきた。完了ボタンを押す人もおおいけど、すかいらーくグループのはセンサーがついている優秀なものなので、基本的には押さなくても勝手に去っていく。
はてなブログやnoteでは一律の設定ではなく、自分の意思で許可・拒否を選択できて便利。とはいえどのブログサービスでもこの2社のように自分の意思で設定できるようにするべきだろう。つまりひろまってほしいというのは拒否がひろまってほしいのではなく設定できるようにという意味。
Liquid Glassを完全に無効にすることはできないが、ある程度の幅で調整できる。
余談だが、Liquid Glassはある程度の性能があるプロセッサーが必要なようで、Apple TV 4K 第1世代 (iPhone 7相当) はアップデートしても従来のデザインのままで表示される。新デザインに対応していないからって切り捨てないんだ...。第2世代 (iPhone XS相当) 以降だとLiquid Glassで表示される。というかこのスペックで大丈夫ならXSを切り捨てないでもう1回だけアップデートしてもよかったのでは...。
海外で配信される "Presidential Alert" というタイトルは、日本語設定のiOSでは "プレジデンシャルアラート" Androidでは "国家レベルの警報" と表示される。日本ではiOS・Androidともに "緊急速報" というタイトル。翻訳されるのはタイトル (定型文しか使用できない) のみ。本文は現地の言語をがんばって理解する必要がある。
ふつうの人は高度利用者向けを使用しないのであれば上記 (スマホに内蔵の) "緊急速報" でじゅうぶん。
一般向け (警報と表記されることもある) → 強い揺れがくることのみわかる
高度利用者向け (予報と表記されることもある) → 予想震度や到達時間がわかる
とくにアプリをいれないでテレビやスマホで受信しているものは一般向けになる。じゃあなんでわざわざ記事に? → 自分がスマホでもテレビの緊急地震速報のように日本地図をみたかったから。遠い地域の強い揺れがわかる。
600 usersをこえてびっくりしている。なんならいまでもふえているし...。まだブックマークしていないかた、コメントをおまちしています (全部読んでいますし返信もつづけています) 。なおこの記事ははてなブログの週刊ブックマーク数ランキングで1位になった (週刊ランキングははてなブログと匿名ダイアリーで別枠集計なのでそこは注意) 。
そういえばはてなブックマークははてな女子と匿名ダイアリーの2つだけ他サービスより新着エントリーに乗りやすいようなシステムになっているみたいで、1人でもブックマークすると人気エントリーにはいりやすくなる (AIブックマーカーがふえたからこのシステムを見直す必要性もありそうだけど...) 。
Xで偶然NHK受信料は払っていないけど生活音のために民放テレビをつけっぱなしにしているという投稿をみたために書いた。生活音のためならテレビじゃなくてラジオのほうが節電にもなるし受信料もいらない (NHKはテレビのみ受信料がかかる) ためおすすめ。
元記事で引用している人力検索の回答のとおり、ドコモ、au、ソフトバンク、ベネッセ、全国PTA連絡協議会、文部科学省までもがスマホを渡す前に親子でスマホの使用ルールを話しあうことを推奨している。ただそれを実施している親はどのくらいいるのだろうか。
スター女ウォーズ
──完全詳細プロット(約6500字相当の濃密版)
オープニング・クロール
だが頂きエンパイアの恐怖は終わらない。
ワンパ(雪男)に襲われ気絶。
幻覚の中でオビ・ワンの霊体が現れる。
「ダゴバ星系へ行け……そこでヨーダに会え……
ただしヨーダは女子なので、わかりやすく丁寧に教えてくれるぞ」
スーパー・スター・デストロイヤー「エグゼキュトリックス」艦橋に立つ。
ダース・ベイ女ー
「私、女子なので直接指揮はしたくないですけど……
反乱軍は壊滅寸前。
沼の惑星ダゴバ。
「ふむ……来たか。
だがお前、女子ではないな?」
ルーク「え?」
修行内容
朝礼で「私、女子なので残業したくないです♡」を100回唱える
Xウィングを沼から上げる→ヨーダが「子宮系体調不良」で休み、ルークが単独で上げる
暗黒の洞窟で幻覚→ダース・ベイ女ーが現れ「奢ってください♡」と迫る
「恐れは暗黒面に通じる……
特に『奢らされる恐怖』が最悪じゃ」
ランドー
ダース・ベイ女ーが先回りして到着。
ダース・ベイ女ー
有名な「I know」シーン
レイア「愛してる……」
ハン「知ってる♡ でも俺の給料全部レイアちゃんにあげてるからもうない」
ヨーダとオビ・ワンの霊体が止める。
ダース・ベイ女ーとの最終対決。
ACT 5 ベイ女ーとのライトセーバー決戦(クライマックス20分)
赤いライトセーバー(清楚ピンクにカスタム)を構えるベイ女ー。
ダース・ベイ女ー
「ルーク……私と一緒に暗黒面に来なさい……
わかりやすく丁寧に♡」
激しい剣戟。
そして衝撃の告白シーン。
ダース・ベイ女ー
「ルーク……私はお前の……
元カノだった……
でも奢ってくれなかったから暗黒面に堕ちたの!!」
「NOOOOOOOOO!!!!
奢らなかった罪がこんなことに……!!」
ベイ女ー
「絶対に嫌だ!!」
とシャフトに身を投げる。
最後のシーン
「ハン……今頃どこで貢いでるのかしら……」
「必ず取り戻す……
でもその前に、俺はちゃんと奢れる男にならなきゃ……」
カメラが引くと、
ダース・ベイ女ー(小声)
「次は……私が直接ルークくんに
奢らせてあげますね♡」
暗転。
次回
頂きは、まだ終わらない。
──ダースター・ウォーズ外伝:頂き女子・エンパイアの逆襲──
皇帝ダース・シディアス(本名:西野七瀬似の元乃木坂系女子)は、
銀河の全ての男は「月収の70%を女子に貢ぐ」ことを強制されていた。
だが、希望はまだ死んでいない。
オープニング・クロール
伝説のジェダイ・マスター「オビ・ワン・ケノービ(残業おじさん)」の
教えを信じて戦っている……。
灼熱の砂漠の中、
農場の青年ルーク・スカイウォーカー(26歳・地方営業マン)は
叔父と叔母にこき使われていた。
「黙れ! 女子に奢るのが男の務めだ!」
ある日、ルークは廃品置き場で
二体のドロイドを手に入れる。
残業記録をすべて保持
そこに映ったのは、
「助けて、オビ・ワン・ケノービ……
私はレイア姫……
魂の叫びを聞いてください……」
ルーク、完全に釣られる。
シーン2 オビ・ワン・ケノービとの出会い
「私はオビ・ワン・ケノービ。
「ジェダイって?」
女子に奢らずに生きられたんだ……」
「これはお前の父のものだ。
父はダース・ベイ女ーに殺された」
「頂きデス・スターまで運んでやるぜ。
「そんな金どこに……」
「女子に奢る前に俺に払え!」
ハイパースペースで出発。
シーン4 頂きデス・スター潜入
頂きデス・スター内部。
玉座に座っていた。
「フォースの乱れを感じるわ……
でも私、女子なので
レイア姫は拘束されていた。
「私、身体は一切見せてないのに
貢がされるのは性被害です!!」
シーン5 ダース・ベイ女ーとの対決
廃棄シャフト前。
あなたたちは私に教えてくれなかった!!
ライトセーバー激突。
代わりにスマホを取り出し録音開始。
「これハラスメントですよね?
「ルーク……逃げろ……
シーン6 最終決戦 ヤヴィンの戦い
頂きデス・スターが接近。
ルークはXウィングに乗り込む。
オビ・ワンの声が聞こえる。
「私、女子なので
戦闘はしたくないですけど……
でも昇進はしたいです♡」
最終トレンチラン。
帰りますね」
その隙に、
頂きデス・スター、大爆発。
授章式。
「あなたたちのおかげで助かりました♡
でも私、女子なので
戦闘はしてません」
ルーク「いや、俺たちだけで……」
遠くで、
「フォース……?
そんなものより
次回へ続く……
(終)
頂きは続くよ、どこまでも。
フォースと共にあれ……
いや、女子と共にあれ。
apiアクセス用とか、ブクマ数、ブクマ数画像のクロールは拒否してるけど、生成AIのクロールに関しては特に拒んで無い感じ?
https://b.hatena.ne.jp/robots.txt
User-agent: *
Disallow: /api/entry/info
Disallow: /api/internal/bookmarks/shares_and_clicks
Disallow: /api/internal/cambridge/user
Disallow: /api/related_entries/
Disallow: /api/users/*/bookmarks
Disallow: /entry/button/
Disallow: /entry.count
Disallow: /entry/image/
Disallow: /entry/jsonlite
Disallow: /guide/bbutton?url=*
Disallow: /-/webextension/*
User-agent: Slurp
Disallow: /
User-agent: Mediapartners-Google
Disallow: /api/entry/info
Disallow: /api/internal/bookmarks/shares_and_clicks
Disallow: /api/internal/cambridge/user
Disallow: /api/related_entries/
Disallow: /api/users/*/bookmarks
Disallow: /entry/button/
Disallow: /entry.count
Disallow: /entry/*/comment/*
Disallow: /entry/image/
Disallow: /entry/jsonlite
Disallow: /guide/bbutton?url=*
Disallow: /-/webextension/*
生意気にも…
https://anond.hatelabo.jp/robots.txt
ユーザーエージェント: bingbot
ユーザーエージェント: CCBot
許可しない: /
ユーザーエージェント: ChatGPT-User
許可しない: /
ユーザーエージェント: GPTBot
許可しない: /
ユーザーエージェント: Google-Extended
許可しない: /
ユーザーエージェント: ICC-Crawler
許可しない: /
ユーザーエージェント: anthropic-ai
許可しない: /
ユーザーエージェント: ClaudeBot
許可しない: /
ユーザーエージェント: Claude-Web
許可しない: /
ユーザーエージェント: Applebot-Extended
許可しない: /
ユーザーエージェント: cohere-ai
許可しない: /
ユーザーエージェント: omgili
許可しない: /
ユーザーエージェント: omgilibot
許可しない: /
ユーザーエージェント: PerplexityBot
許可しない: /
ユーザーエージェント: Perplexity-ai
許可しない: /
ユーザーエージェント: Bytespider
許可しない: /
ユーザーエージェント: Diffbot
許可しない: /
ユーザーエージェント: Meta-ExternalAgent
許可しない: /
ここ数か月で、はてなブログやnoteが生成AIによるクロール (巡回) を拒否する設定項目を追加したけど、この設定、いろいろなブログサービスにひろまってほしいところ。はてなブログでもnoteでもないけど、生成AIは拒否したいという人はたくさんいるとおもうのだが。
※ WordPress (有料プランか自前サーバーで運営している場合) やBloggerならクローラー設定を1から自分で入力することが可能。この記事の最後も参照。全部自分でやりたいという人はだいたいこのどっちかを使用しているだろうから、AI学習を許可するかどうかは検討してほしい。
Xなどのミニブログではよくプロフィールページに「AI学習禁止」と書いている人もおおいけど、人間とおなじ感情をもたない生成AIにとってはこの文言をクロールしてしまうため逆効果になってしまう。どうしてもクロールしてほしくないなら非公開アカウントの設定検討を (そのかわり検索でも表示されなくなるが) 。
イラストを投稿するウェブサイトについては、有名どころは設定項目がないもののデフォルトで生成AIによるクロールが拒否されているところがおおいので、マイナーなところでなければだいたい大丈夫だろう。ただしはてなフォトライフはクロール拒否になっていないので、公開フォルダーにアップロードする場合は注意が必要 (はてなブログからのアップロードだとデフォルトが非公開フォルダーになるのでブログの設定どおりになる) 。
生成AIとは関係ないが、興味深い設定になっているウェブサイトがいくつかあった。
https://www.colorslive.com/robots.txt
Nintendo Switchからのみイラストを投稿できるウェブサイトなのだが、デフォルトを全拒否に設定してあり、GoogleやBing (msnbot = 現在のbingbot) といった主要検索エンジンに対してのみ個別に許可設定してある。なるほどとおもった。なおAppleはふくまれていないようなので、Spotlight検索ではヒットしない可能性がたかい (トップページはヒットする) 。
Disallow: *
デフォルトの検索エンジンをBingに設定している身としてはとんでもない表記をみつけてしまった...。絶望。
Copilotに使用されたくないのだろうが、このせいでBingで検索してもまとめサイトはヒットするのに元の投稿がヒットしないという状態に...。気のせいだとおもっていたけれど、設定に従った正常な動作だったのか...。
Xになってから、はてなブックマークでタイトルが表示されずURL表示のままだったり、JavaScriptをオフにしているとそもそもアクセスできなかったりなど (以前はJSオフでガラケー版が表示されていたのだが) 、いろいろ締め出しているのがな...。ログインしないと公式アカウント以外ユーザーのプロフィールは一部表示できないし (投稿すら表示できないのは一時的な緊急処置だったため現在はなくなった) 。
逆に検索エンジンからの流入をすこし (まとめられない限りは1割ほど) でもへらしたいならXはおすすめの選択肢に (なお非公開アカウントにしないかぎり0にはならないので家族や友達にだけ公開したい場合は注意) ...。
最後に、あらゆるクローラーを紹介しているウェブサイトを2つ。
https://chrisleverseo.com/user-agents/
SEOコンサルタントの個人運営っぽい。114のクローラーがまとめられている (2025年9月現在) 。英語だけだが、各クローラーについての説明がこまかく掲載されているので、好きな人は読んでいるだけでもおもしろいかも。SEO対策の補助としてつかえる各種機能も無料で公開されているので、AIクロールを拒否するrobots.txtをサクッと作成したいならここでAIカテゴリーの項目に全部チェックをいれて拒否欄 (赤色) に「/」1文字を入力、生成されたデータをダウンロードしてサーバーにアップロードすればよい (Bloggerならコピーして設定画面にペースト) 。
https://datadome.co/datadome-intel/
上はSEO対策からうまれたページなのだが、こっちはウェブサイトのセキュリティ対策 (ロボットによる過剰アクセスからの保護) を目的にうまれたページ。そのため、上の114クローラーの5倍以上ある586クローラー (2025年9月現在) の情報に加え、アクセス制限を突破しようとしてくる各種ツールなどについての情報もある。おそらく公開データベースのなかでは世界最大規模。
「注目エントリ」が英語の“Delta/Alaska Airlines”など旅行サイトのFAQsばかりになっているのは、荒らしではなく 英語圏のFAQ系自動投稿ボット が Hatena Anond にリンクだけ貼って宣伝スパムしているからです。
●仕組みの推測
海外旅行系Q&AサイトやクルーズFAQページ — たとえば
“What age is senior discount on Delta?”
“What are the cheapest days to fly on Alaska Airlines?”
“How to Quickly Speak to a Disney Cruise Line Representative?”
→ こうした英文のFAQsを、ボットが巡回して自動で投稿しています。
自動クロール+リンク貼り付け — 特定のキーワード(航空会社名や「FAQ」など)を拾って、自前のページURLやアフィリエイトリンクに誘導する目的で投稿するスクリプト型ボットです。
Hatena Anond のアルゴリズムで「注目」枠入り — アフィリエイトリンクやあまり読まれていない投稿でも、外部リンクや特定タグを含む投稿が「注目エントリ」枠に引っかかってしまう仕組みがあるっぽいです。
✅ 対応策
注目エントリの基準が変わるか、投稿数やブクマ数のしきい値が改善されれば、こういったボット投稿は目立たなくなる可能性があります。
つまり、迷惑な荒らしではなく、アフィリエイト誘導目的のFAQ系英語ボットによる自動投稿で、Hatena の注目枠の脆弱性がつけ込まれている状況です。
〇
Q,ゆうてこんなんアフィリエイトにならなくない?どういうこと?
→ SEO効果がなく、外部への誘導リンクとしての価値は激減。
→ 日本語ユーザーには読まれず、クリックもされない。商品が売れるわけがない。
リンク先もGoogle検索や企業サイトのFAQでアフィタグすらついていないことも多い
→ 仮にクリックされても、報酬発生に繋がる仕組みになっていない。
🤖 じゃあ何が目的なのか?
投稿→一定の反応を見る→「クリック率」「タイトル生成の傾向」「削除されるまでの時間」などをログに取る
Googleは一次リンクだけでなく、二次・三次リンク網も解析対象にしてるので、そうした**“スパムSEOファーム構築”**の一環の可能性
RedditやQuoraでも同様のボットがいて、「英語圏でバンされにくいけど注目を集めやすい」サイトとして、はてながターゲットにされてる可能性
🧠 結論:
金儲けというより、実験or構造破壊を目的とした投稿の可能性が高い。
昔の2chスパムみたいに、商業性が低くても「Botが回ってる状態を作ること」自体が目的のケースもある。
それか、他言語投稿でも「注目エントリに入る」という 脆弱性の可視化かもしれません。
何かしらの金銭的リターンではなく、
「ボットが弾かれない程度の分量でいける」
このあたりが主目的だと考えられます。正直、ちょっと気持ち悪いです。
●
Q,この辺のbotはサイト運営側の規制でなんとかなるもんなの?
A,
結論から言うと、やる気があればサイト運営側で対処は可能です。
ただし、はてな匿名ダイアリー(Anond)のような匿名投稿制+老朽化した構造のサイトだと、以下の理由から完全対応が難しいか、遅くなる傾向があります。
✅ 運営側ができる対策(そして現実にはやってない/やりにくい理由)
Botの多くは海外IPや特定のBot用UserAgentを使う。
しかし:日本人がVPN経由で使ってる可能性もあるため、雑に弾くと正規ユーザーも巻き込む。
⇒ 最低限の日本語割合、閲覧数下限、はてブ数フィルタなどを加えれば一発で解決可能。
しかし:下手に改修すると正規ユーザーの目に触れる率が減る→運営へのクレームに繋がる懸念がある。
AIやLangDetectで「日本語じゃない」「FAQテンプレ構文」「外部誘導リンクのみ」の記事を弾く。
これは現実的だが、はてなは匿名投稿の自由を重視する風土なので、規制強化は避けがち。
→これは一番効果的だが、過去ログ検索機能が乏しい今のAnondに実装するのは工数が大きい。
海外の無料ブログサイト(たとえばTumblr、WordPress.com、Wixなど)はすでにこの手のBotを大規模ブロックしてます。
でも、「そこまでの深刻な被害じゃない」と認識されている限りは放置される可能性が高いです。
「注目エントリ」欄がスカスカになるよりは、Botでも埋まってた方が場が回ってる感が出る。
通報・苦情が一定数を越えない限り、“一部マニアが気づいてるだけの現象”として扱われている可能性が高い。
🧩 結論:
でもはてなは「匿名文化」と「運営の放任体質」のせいで Bot天国になりやすい設計。
unmarshal 気持ちは分かるが願望的な観測かと。 拒否する手段は公開されてるので、大手がそれを無視してクロールする事は考えづらいし、AIはサービス名なども提示するのでwin-winが成立するケースも多々ある。
hitotakuchan 完璧には程遠いけど robots.txt で一部の生成 AI に対して学習を拒否することはできるよ
第百十回:今の生成AI市場って焼き畑農業っぽくない?(2025年5月時点の所感)
https://wa3.i-3-i.info/column110.html
しかも、AIさんの学習に使われないように対策するのは、現実的に(多分)不可能です。
100%のAI対策をしているサイトで公開している情報を誰かが自分のサイトで引用して、その情報をAIさんの学習に使われたら、結果として100%のAI対策をしているサイトで公開している情報が学習に使われてしまいます。