robots.txtでロボットのクロールを規制する

何気にApacheのログをみると、半分近くがBaiduspiderのアクセス。
1週間に271493アクセス。2秒に1回か。。
まぁ許容範囲ではあるが運用しているPCは貧弱だし中国の検索サイトだし制限してみる。

検索すると、Baiduspiderはrobots.txtを無視するとの記事もあったが、
robots.txtでアクセス制限というのをしたことがなかったので、
robots.txtで制限してみることに。

robots.txtの設置場所はroot。
robots.txtの書式は以下の通り。
====================================
User-agent: [User-agent名]
Disallow: [制限したいディレクトリ]
====================================
要はロボットが理解できればOKなわけで、
一般的にはUser-agent:にワイルドカードとしてアスタリスクが使えたり、
GooglebotなどはDisallow: に/*.imgとか書いても理解してくれるらしい。

ということで、以下をrootに設置
====================================
User-agent: Baiduspider
Disallow: /
====================================

様子見。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA