robots.txt是网站和搜索引擎爬虫之间的协议文件,告诉爬虫哪些页面可以抓取,哪些不能抓取。正确配置能优化抓取效率。
文件必须放在网站根目录。搜索引擎访问robots.txt是第一步,文件位置不对就等于没有。
Disallow禁止访问,Allow允许访问。可以先全部禁止,再单独允许某些目录,也可以反过来操作。
最常见的规则是禁止抓取管理后台、API接口、搜索结果页等对搜索没有价值的页面。
注意不要误禁止重要页面。Disallow规则写错可能把首页或者重要内容页禁止了,要仔细检查。
可以指定sitemap位置。把sitemap地址写在robots.txt里,搜索引擎更容易发现你的站点地图。