mod_rewriteでのアクセス制限

robots.txtでのBaiduspiderの制限は効果がないのか、未だにクロールが続いている。
というか、さらにペースアップで1回/1秒以上・・・
mod_rewriteで対応することに。
対象のサイトに対して以下を設定。

RewriteCond %{HTTP_USER_AGENT} Baiduspider
RewriteRule ^.*$ – [F]

403を返す。


百度が過剰クロールに対処したとのこと

http://baidu.jp/

  1. 各サイトへのクローラー負荷を下げております。Baiduspiderの最大クローラー頻度を9回/秒から1回/3秒までに下げました。以前のクローラー頻度の1/27になりました。
  2. 各サイトの規模とIP負荷に対し、それぞれ対応できるクローラー対策を設定し、中小のサイトに対し、クローラー頻度は20秒/回以内にコントロールしています。
  3. サイトに対し圧縮クローラー機能を追加したことにより、同じ負荷においてサイトへのアクセス量をもともとの1/3に下げました。
  4. 各サイトに対し、毎日のクローラー総量をコントロールしました、仮にサイトの最大制限を超えた場合、当日に調整致します。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA