robots.txt是一个简单的文本文件,但它的作用很大。正确配置robots文件,能引导搜索引擎更好地抓取你的网站。
robots文件告诉搜索引擎哪些页面可以抓取,哪些不可以。比如后台管理页面、搜索结果页面、重复内容页面等,不需要被搜索引擎收录。
基本的配置很简单。Disallow后面写不允许抓取的路径,Allow后面写允许抓取的路径。通配符*表示任意字符。
常见误区要避免。不要把整站都Disallow了,这等于告诉搜索引擎不要收录你的网站。
robots文件要放在网站根目录。百度和Google的抓取工具都会首先访问这个文件,确认抓取规则。
配置完成后,用百度搜索资源平台的robots检测工具验证。工具会告诉你robots配置是否正确,有没有语法错误。
robots文件不是用来隐藏敏感信息的。如果有真正的敏感内容,应该用密码保护或者noindex,而不是依赖robots文件。