网站robots.txt配置指南：正确引导搜索引擎爬虫

8℃

内容

网站robots.txt配置指南：正确引导搜索引擎爬虫

robots.txt是个简单的文本文件，告诉搜索引擎哪些页面可以抓，哪些不能。配置对了，能优化爬虫抓取效率；配置错了，可能把整个站都屏蔽了。这篇文章说说怎么正确配置。

robots.txt基础语法

文件放在网站根目录，爬虫访问时会先读取这个文件。

基本格式：

User-agent: *

Disallow: /admin/

Disallow: /private/

User-agent指定对哪些爬虫生效，*表示所有。Disallow后面跟不允许抓取的目录或文件。

常见配置场景

屏蔽后台目录。WordPress的/wp-admin/、其他CMS的后台路径，都应该屏蔽。这些页面对用户没价值，也不应该被搜索引擎收录。

屏蔽重复内容。比如打印版页面、带参数的版本，可以用Disallow屏蔽，避免重复内容问题。

屏蔽敏感信息。测试页面、未完成的页面、内部文档，这些不应该公开的内容，都要屏蔽。

允许所有。如果没什么需要屏蔽的，也要放个空的robots.txt，或者：

User-agent: *

Disallow:

常见错误

Disallow: /。这会把整个网站都屏蔽，新手常犯的错误。检查的时候千万小心。

大小写问题。robots.txt区分大小写，/Admin/和/admin/是不同的。要确保写对。

路径写错。Disallow后面是相对路径，不是完整URL。写/abc/就行，不用写https://example.com/abc/。

Sitemap声明

可以在robots.txt里加Sitemap声明，告诉爬虫网站地图在哪：

Sitemap: https://example.com/sitemap.xml

这样爬虫能更快发现网站的所有页面。

验证配置

配置好后，用百度搜索资源平台或Google Search Console的robots.txt测试工具验证一下，看配置是否正确。

robots.txt虽小，但作用不小。花几分钟配置好，能让搜索引擎更好地理解你的网站。

标签

配置 robots.txt

上一篇：网站代码优化技巧：精简代码提升性能

下一篇：网站nofollow标签使用：控制权重流动

网站统计

在线人数：15
今日审核：11
等待审核：2075
站内文章：6.19 k
站内分类：9
站内标签：4.09 k
总访问量：21.18 W
提交收录

搜索引擎提交入口

站内资讯

热门标签

网站robots.txt配置指南：正确引导搜索引擎爬虫

网站robots.txt配置指南：正确引导搜索引擎爬虫

robots.txt基础语法

常见配置场景

常见错误

Sitemap声明

验证配置

vp导航目录

快速链接

关于我们

联系我们