robots.txt是网站和搜索引擎之间的协议文件,告诉爬虫什么能抓什么不能抓。配置错误会影响收录。
文件必须放在网站根目录。URL是 yoursite.com/robots.txt,这是搜索引擎第一个要访问的文件。
基本语法很简单。User-agent指定搜索引擎,Disallow禁止抓取,Allow允许抓取。
常见配置包括禁止抓取后台、禁止抓取重复内容页面、禁止抓取搜索结果页等。
不要误禁止重要页面。Disallow规则写错了可能把首页或者重要内容禁止了。
可以指定sitemap位置,方便搜索引擎发现站点地图。