robots.txt是放在网站根目录的一个文本文件,用于告诉搜索引擎蜘蛛哪些页面可以抓取、哪些不可以。正确配置是技术SEO的基础工作。
基本语法:User-agent指定对哪个蜘蛛生效;Disallow后面是禁止抓取的路径;Allow后面是允许抓取的路径;Sitemap后面是网站地图地址。
应该禁止抓取的页面类型:后台管理页面、搜索结果页、用户个人页面、重复内容页、测试页面。
常见错误:不小心禁止了整站;禁止了重要页面的抓取;格式错误导致规则无效;忘记添加Sitemap地址。
修改robots.txt后,使用搜索引擎官方平台的robots检测工具验证配置是否正确。