限制spider的抓取内容-robots.txt发表时间:2021-08-29 15:28 robots.txt单独的文件放在网站根目录下,主要用来限制spider访问某些文件。 在html代码里还可以用nofollow属性来限制spider的爬取。 关于robots的使用规范: User-agent: * 访客 disallow 禁止 Disallow: /admin/ 禁止爬取admin文件 Disallow: /abc/*.html 禁止爬取abc文件夹里面所有html文件 Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 allow允许 Allow: /tmp 允许访问tmp文件 参考案例 1688.com/robots.txt
文章分类:
网站建设
|