网站首页 >> 资讯 >> 正文
标题

网站robots.txt配置指南:正确引导搜索引擎爬虫

8℃  
内容

网站robots.txt配置指南:正确引导搜索引擎爬虫

robots.txt是个简单的文本文件,告诉搜索引擎哪些页面可以抓,哪些不能。配置对了,能优化爬虫抓取效率;配置错了,可能把整个站都屏蔽了。这篇文章说说怎么正确配置。

robots.txt基础语法

文件放在网站根目录,爬虫访问时会先读取这个文件。

基本格式:

User-agent: *

Disallow: /admin/

Disallow: /private/

User-agent指定对哪些爬虫生效,*表示所有。Disallow后面跟不允许抓取的目录或文件。

常见配置场景

屏蔽后台目录。WordPress的/wp-admin/、其他CMS的后台路径,都应该屏蔽。这些页面对用户没价值,也不应该被搜索引擎收录。

屏蔽重复内容。比如打印版页面、带参数的版本,可以用Disallow屏蔽,避免重复内容问题。

屏蔽敏感信息。测试页面、未完成的页面、内部文档,这些不应该公开的内容,都要屏蔽。

允许所有。如果没什么需要屏蔽的,也要放个空的robots.txt,或者:

User-agent: *

Disallow:

常见错误

Disallow: /。这会把整个网站都屏蔽,新手常犯的错误。检查的时候千万小心。

大小写问题。robots.txt区分大小写,/Admin/和/admin/是不同的。要确保写对。

路径写错。Disallow后面是相对路径,不是完整URL。写/abc/就行,不用写https://example.com/abc/。

Sitemap声明

可以在robots.txt里加Sitemap声明,告诉爬虫网站地图在哪:

Sitemap: https://example.com/sitemap.xml

这样爬虫能更快发现网站的所有页面。

验证配置

配置好后,用百度搜索资源平台或Google Search Console的robots.txt测试工具验证一下,看配置是否正确。

robots.txt虽小,但作用不小。花几分钟配置好,能让搜索引擎更好地理解你的网站。