首先robots.txt里面写了
disuser-agent: *
disallow: /douban.php?*
作用到底是禁止蜘蛛抓取还是禁止收录(可抓取只是搜索结果不对外展示?),
我写了但每天这个ip106.120.173.81还是来抓我上面那个地址60~100次,我查了下好像是搜狗的ip,
还是上面格式对搜狗无效,那搜狗的disallow格式又是什么啊?
2,下面这种蜘蛛名字的多个user-agent写法有效吗:
user-agent: 360spider
allow: /douban.php?*
user-agent: *
disallow: /search.php?*
disallow: /douban.php?*
上面的 disallow: /search.php?* 对360spider有效吗,还是360spider当它发现存在 user-agent: 360spider 这个时就只匹配它的名字内规则,后面的user-agent: *就不去匹配了?
还有下面禁止收录某个目录文件夹写法格式是什么啊,比如禁止收录 123 这个文件夹
是这样吗 disallow: /123/*
还是这 disallow: /123/
我觉得应该是前面那种吧,后面那个只是禁止收录123目录的index.php主页吗?
这是百度的禁止目录说明,但是baidu它前后说的不一样啊:到底不加 * 只是禁止目录内index默认页还是所有页?
disallow:以disallow项的值开头的url不会被 robot访问。例如”disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html, 而”disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。”disallow:”说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条disallow记录。
回复讨论(解决方案)
这个只是君子协定