当前位置:首页 > 行业观点 > 详情
sousuo
sousuo

什么是robots协议?具体该怎么写?

上传时间:2022-08-03            浏览次数:66
Robots的中文意思是机器人。
robots协议:robots.txt是搜索引擎访问一个网站时要访问的第一个文件,用以来确定哪些是被允许抓取的哪些是被禁止抓取的。
robots.txt必须放在网站根目录下,且文件名要小写。
百度严格按照robots协议执行,另外,同样支持网页内容中添加的名为robots的meta标签,index、follow、nofollow等指令。

一般书写robots文件的时候我们会用到一个蜘蛛名称的通配符*,代表了是所有搜索引擎蜘蛛的名称。
User-agent: 后面跟的是蜘蛛的名称 ,一般我们的网站都用*代替所有蜘蛛的名称。
Disallow: 后面跟的你网站禁止抓取收录的文件名
Allow: 后面跟的是允许抓取收录的文件名。
robots文件写法参考
–指定蜘蛛
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符。
–禁止写法
Disallow: /admin 这里定义是禁止爬寻admin目录。
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址。
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
–允许写法
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录。
Allow: /tmp 这里定义是允许爬寻tmp的整个目录。
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片。
不同的搜索引擎,探测器(Robot)名称也是不同的。以下是我们常见的爬虫名称。
谷歌:googlebot
百度:baiduspider
MSN:MSNbot
雅虎:Slurp
有道:YoudaoBot
搜搜:Sosospider
搜狗:sogou spider
360:360Spider (haosouSpider)
alexa:ia_archiver
发表评论
请遵守网络文明公约,理性发言
访客头像

还没有人来评论,快来抢个沙发吧!

0371-56789390
公司地址

郑州市花园路东风路向西300路南弘熹台22层

联系我们