网站robots文件配置：控制搜索引擎抓取

13℃

内容

网站robots.txt文件配置：控制搜索引擎抓取

robots.txt是网站和搜索引擎爬虫之间的协议文件，告诉爬虫哪些页面可以抓取，哪些不能抓取。正确配置能优化抓取效率。

文件必须放在网站根目录。搜索引擎访问robots.txt是第一步，文件位置不对就等于没有。

Disallow禁止访问，Allow允许访问。可以先全部禁止，再单独允许某些目录，也可以反过来操作。

最常见的规则是禁止抓取管理后台、API接口、搜索结果页等对搜索没有价值的页面。

注意不要误禁止重要页面。Disallow规则写错可能把首页或者重要内容页禁止了，要仔细检查。

可以指定sitemap位置。把sitemap地址写在robots.txt里，搜索引擎更容易发现你的站点地图。

标签

抓取文件

网站统计

搜索引擎提交入口

站内资讯

热门标签