robots.txt是网站根目录下的一个文本文件,用于告诉搜索引擎哪些页面可以抓取,哪些不可以。
基本语法很简单。Disallow表示不允许抓取,Allow表示允许抓取,User-agent指定搜索引擎。
常见用途。禁止搜索引擎抓取后台页面、搜索结果页面、重复内容页面等。
可以禁止抓取但不禁止索引。用meta标签的noindex可以在允许抓取但不收录页面。
robots文件要放在网站根目录。URL是yourdomain.com/robots.txt。
配置完成后要验证。百度搜索资源平台提供robots检测工具,可以检查配置是否正确。
不要过度限制。禁止抓取太多内容会影响收录,谨慎使用robots文件。