关于 robots.txt 这个文件格式疑问问题 :

首先robots.txt里面写了

disuser-agent: *

disallow: /douban.php?*

作用到底是禁止蜘蛛抓取还是禁止收录(可抓取只是搜索结果不对外展示?),

我写了但每天这个ip106.120.173.81还是来抓我上面那个地址60~100次,我查了下好像是搜狗的ip,

还是上面格式对搜狗无效,那搜狗的disallow格式又是什么啊?

2,下面这种蜘蛛名字的多个user-agent写法有效吗:

user-agent: 360spider

allow: /douban.php?*

user-agent: *

disallow: /search.php?*

disallow: /douban.php?*

上面的 disallow: /search.php?* 对360spider有效吗,还是360spider当它发现存在 user-agent: 360spider 这个时就只匹配它的名字内规则,后面的user-agent: *就不去匹配了?

还有下面禁止收录某个目录文件夹写法格式是什么啊,比如禁止收录 123 这个文件夹

是这样吗 disallow: /123/*

还是这 disallow: /123/

我觉得应该是前面那种吧,后面那个只是禁止收录123目录的index.php主页吗?

这是百度的禁止目录说明,但是baidu它前后说的不一样啊:到底不加 * 只是禁止目录内index默认页还是所有页?

disallow:以disallow项的值开头的url不会被 robot访问。例如”disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html, 而”disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。”disallow:”说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条disallow记录。

关于 robots.txt 这个文件格式疑问问题 :0

回复讨论(解决方案)

这个只是君子协定

Posted in 未分类

发表评论