网站首页 >> 资讯 >> 正文
标题

robots.txt正确配置方法

5℃  
内容

robots.txt正确配置方法

robots.txt是网站和搜索引擎之间的协议文件,告诉爬虫什么能抓什么不能抓。配置错误会影响收录。

文件必须放在网站根目录。URL是 yoursite.com/robots.txt,这是搜索引擎第一个要访问的文件。

基本语法很简单。User-agent指定搜索引擎,Disallow禁止抓取,Allow允许抓取。

常见配置包括禁止抓取后台、禁止抓取重复内容页面、禁止抓取搜索结果页等。

不要误禁止重要页面。Disallow规则写错了可能把首页或者重要内容禁止了。

可以指定sitemap位置,方便搜索引擎发现站点地图。