购物车 (0)  
亲,您的购物车空空的哟~
去购物车结算
华寸科技

限制spider的抓取内容-robots.txt

发表时间:2021-08-29 15:28

robots.txt单独的文件放在网站根目录下,主要用来限制spider访问某些文件。

在html代码里还可以用nofollow属性来限制spider的爬取。

关于robots的使用规范:

User-agent: *   访客

disallow 禁止

Disallow: /admin/ 禁止爬取admin文件

Disallow: /abc/*.html 禁止爬取abc文件夹里面所有html文件

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址


allow允许

Allow: /tmp   允许访问tmp文件


参考案例

1688.com/robots.txt

文章分类: 网站建设
分享到:
HC TECHNOLOGY
联系
地址:泉州丰泽区云鹿路兴祥大厦2楼
电话: 13067030702
邮箱:lai@qzhckj.cn