WordPress Robots.txt 完整指南:怎么写、怎么优化、外贸站专用配置
一件事先说清楚:robots.txt 写错有多严重?
大多数新手站长对 robots.txt 要么完全不管,要么照着网上的「标准模板」直接粘贴,从不检查是否适合自己的站点。
两种情况都可能出大问题。
不管的结果:Google 把你的 wp-admin 后台路径、插件文件夹、搜索结果页全部收录,浪费珍贵的抓取配额,导致真正有价值的产品页和文章被收录得很慢。
照模板粘贴的结果:网上流传的很多「外贸站 robots.txt 模板」把 /wp-content/uploads/ 也 Disallow 了,结果产品图片全部无法被 Google 图片搜索收录。或者把分类页、标签页都 Disallow——这个做法违反 Google 官方建议,不但没有帮助,还可能伤害 SEO。
这篇文章从基础到实战,帮你把 robots.txt 这件事一次搞对。
robots.txt 基础:它到底是什么,能做什么,不能做什么
Robots 协议(又称爬虫协议、机器人协议)的全称是「网络爬虫排除标准」(Robots Exclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
它的位置和访问方式:
robots.txt 存放在网站根目录,任何人都可以通过 https://yourdomain.com/robots.txt 直接访问查看。
基本语法格式:
User-agent: [爬虫名称]
Disallow: [禁止抓取的路径]
Allow: [明确允许抓取的路径]
Sitemap: [站点地图 URL]
常用指令说明:
| 指令 | 含义 | 示例 |
|---|---|---|
User-agent: * | 规则适用于所有爬虫 | 通配符,覆盖所有搜索引擎 |
User-agent: Googlebot | 规则只适用于 Google 爬虫 | 针对单个搜索引擎 |
Disallow: /wp-admin/ | 禁止抓取 /wp-admin/ 下的所有内容 | 后台禁止 |
Allow: /wp-admin/admin-ajax.php | 明确允许该文件(即使上级目录被禁止) | 例外允许 |
Disallow: | 冒号后什么都不写 = 允许所有 | 全部放行 |
Disallow: / | 禁止抓取整个网站 | 全站屏蔽 |
Sitemap: | 提供站点地图地址 | 方便爬虫找到所有页面 |
robots.txt 最关键的一个限制(很多人不知道):
如果被屏蔽的页面存在其他网站的外链,那么这个页面还是可能会被索引的——虽然无法抓取内容,但搜索引擎会根据外链信息对这个页面进行索引并展示在搜索结果中。所以,如果你想让一个内容既不被抓取、也不被索引,还需要在页面的 meta 标签中设置 noindex。
简单说:
- robots.txt → 控制「抓取」(能不能来看)
- noindex → 控制「索引」(能不能显示在搜索结果)
- 两个要分开用,不是一回事
第一步:查看你的 WordPress 默认 robots.txt
WordPress 安装完成后,即使你没有手动创建 robots.txt 文件,WordPress 也会动态虚拟生成一个默认的 robots.txt。
在浏览器直接访问 https://yourdomain.com/robots.txt,你会看到类似下面的内容:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://yourdomain.com/sitemap_index.xml
如果打不开说明你的网站根目录并没生成 robots.txt 。
这个是默认版本的问题:
默认只屏蔽了 /wp-admin/(并允许了 ajax),这是远远不够的。插件文件夹、搜索结果页……这些低价值页面都还对爬虫开放,白白消耗抓取配额。
另一个关键细节:
WordPress 默认虚拟生成的 robots.txt,在网站文件目录里是看不到的——它是动态生成的。如果你通过 Rank Math SEO 或手动上传了实体 robots.txt 文件,WordPress 就会读取实体文件而不是动态生成。
第二步:用 Rank Math SEO 编辑 robots.txt(推荐方式)
第二步:用 Rank Math SEO 编辑 robots.txt(推荐方式)
如果你已经安装了 Rank Math SEO(不管是免费版还是 Pro 版),直接在网站后台编辑 robots.txt,不需要手动创建文件或使用 FTP。
相关教程:Rank Math SEO 基础配置教程
操作路径:
WordPress 后台 → Rank Math → 常规设置(General Settings)→ 编辑 robots.txt(Edit robots.txt)
或者:Rank Math → 工具 → 编辑 robots.txt
这里会显示当前的 robots.txt 内容(可视化文本编辑器),你可以直接修改,保存后立即生效。
如果没有用 Rank Math(手动创建):
- 打开电脑记事本或任意文本编辑器
- 按照下面的模板写好内容
- 文件命名为
robots.txt(必须是这个名字,全小写) - 通过 宝塔面板 文件管理器或 XFTP,上传到网站根目录(
wp-admin、wp-content、wp-includes同级目录)
相关教程:
宝塔面板安装教:在 VPS 上安装宝塔面板
XFTP使用教程
外贸 WordPress 站推荐配置模板
根据你的站点类型,选择对应的模板。
模板 1:标准外贸展示站(面向欧美买家)
适合:B2B 产品展示站、外贸企业官网、询盘式独立站
User-agent: *
# 允许上传文件夹(产品图片必须被收录)
Allow: /wp-content/uploads/
# 禁止后台和核心程序文件
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
# 禁止 WordPress 系统文件
Disallow: /readme.html
Disallow: /license.txt
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /wp-trackback.php
# 禁止搜索结果页(内容重复,无 SEO 价值)
Disallow: /?s=
Disallow: /search/
# 禁止联盟/推广链接目录(如果有的话)
Disallow: /refer/
Disallow: /go/
# 允许 admin-ajax(Elementor 等插件需要)
Allow: /wp-admin/admin-ajax.php
# 站点地图(用你的实际 Sitemap 地址替换)
Sitemap: https://yourdomain.com/sitemap_index.xml
必须把
/wp-content/uploads/明确 Allow如果只写
Disallow: /wp-content/,你的产品图片也会被屏蔽,无法被 Google 图片搜索收录,会直接影响产品曝光量。
模板 2:外贸站 + 屏蔽国内搜索引擎(外贸独立站专用)
如果你的站点面向海外买家,不需要国内百度、360 等搜索引擎收录,可以主动屏蔽它们——这样能减少无效爬虫占用服务器资源,同时避免被百度收录后被国内用户访问(部分内容在国内审查环境下有风险)。
# 主规则:对所有爬虫的基础设置
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
Sitemap: https://yourdomain.com/sitemap_index.xml
# 屏蔽百度爬虫
User-agent: Baiduspider
Disallow: /
# 屏蔽百度图片爬虫
User-agent: Baiduspider-image
Disallow: /
# 屏蔽 360 搜索爬虫
User-agent: 360Spider
Disallow: /
# 屏蔽搜狗爬虫
User-agent: Sogou web spider
Disallow: /
# 屏蔽 Yandex(俄罗斯搜索引擎,抓取频繁但业务价值低)
User-agent: YandexBot
Disallow: /
# 屏蔽已知恶意/低质量爬虫
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: MJ12bot
Disallow: /
⚠️ 屏蔽说明:上面的 User-agent 名称(如
Baiduspider)来自各搜索引擎官方文档,不区分大小写,但建议按官方写法填写。 【不确定:YandexBot 等爬虫的具体 User-agent 字符串可能随时间变化,建议发布前从各搜索引擎官方开发者文档核实最新名称,信心指数 7/10】
模板 3:WooCommerce 外贸商城
WooCommerce 会生成一些额外的低价值 URL,需要额外屏蔽:
User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /readme.html
Disallow: /wp-login.php
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
# WooCommerce 专项:屏蔽购物车、结账、账户页(动态页面,无 SEO 价值)
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /order-received/
# 屏蔽 WooCommerce 的过滤 URL(避免重复内容)
Disallow: /?add-to-cart=
Disallow: /?orderby=
Disallow: /?product_cat=
Sitemap: https://yourdomain.com/sitemap_index.xml
Sitemap: https://yourdomain.com/product-sitemap.xml
<a name=”mistakes”></a>
3 个最常见的错误写法(请对照检查)
❌ 错误 1:把 /wp-content/uploads/ 屏蔽了
错误写法:
Disallow: /wp-content/
问题: 这条规则会同时屏蔽 /wp-content/uploads/,你上传的所有产品图片、PDF 文档、媒体文件都无法被爬虫访问,彻底失去被 Google 图片搜索收录的可能。
正确写法:
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
把 uploads 单独 Allow,再把 plugins 和 themes 分别 Disallow。
❌ 错误 2:屏蔽分类页、标签页、归档页
网上很多「SEO 优化」文章建议在 robots.txt 里屏蔽这些页面,声称能「节省抓取配额、提升排名」。
这是错误的,而且违反 Google 网站管理员指南。
阻止 WordPress 分类、标签和存档页面将提高抓取速度并导致更快的索引和更高的排名——这不是真的,也违反了 Google 的网站管理员指南。
如果你真的认为某些分类页内容质量低、不值得被收录,正确做法是在对应页面添加 noindex 元标签(通过 Rank Math 的 Robots Meta 设置),而不是在 robots.txt 里 Disallow。
Disallow 只是阻止爬虫来访,不能阻止索引;noindex 才是真正告诉搜索引擎「不要把这个页面放进搜索结果」。
❌ 错误 3:禁止了整个站
常见来源: 从网上复制了一段「开发中网站」的 robots.txt,上线后忘记修改。
错误写法:
User-agent: *
Disallow: /
后果: 整个网站对所有搜索引擎完全屏蔽,没有任何页面会被 Google 收录,你的 SEO 成果归零。
如何检查: 登录 Google Search Console,在「覆盖率」报告里如果发现大量「已排除 – 被 robots.txt 屏蔽」的 URL,基本可以确定 robots.txt 写错了。
用 Google Search Console 验证 robots.txt
写完之后,验证是否生效是必须做的一步。Google Search Console 提供了专用的 robots.txt 测试工具。
操作步骤:
- 登录 Google Search Console
- 选择你的网站属性
- 进入 设置(Settings)→ robots.txt 查看 Google 获取到的最新版本
- 在「在 robots.txt 中测试 URL」中,输入你想测试的页面路径(如
/wp-admin/),点击「测试」 - 系统会显示「已允许」或「已拦截」,以及是哪条规则触发了结果
相关教程:Google Search Console使用教程
在 Google Search Console 的测试工具中,你可以选择不同的爬取工具(默认是 Googlebot),也可以选择谷歌图片、谷歌视频等专项爬虫进行测试。当某个 URL 被拦截时,工具会高亮显示是哪条具体规则拦截了它,便于排查。
更新后 Google 没有立即读取新版本怎么办?
robots.txt 更新后,Google 不会立即重新获取,通常有 1-3 天的延迟。如果你做了重要修改(比如之前屏蔽了整站,现在修正了),可以在 Search Console 的「URL 检查」里手动请求重新抓取首页,间接触发 Google 更快重读 robots.txt。
robots.txt vs noindex:这两个一定要分清楚
很多人把这两个混用,但它们的工作层面完全不同:
| robots.txt Disallow | noindex 元标签 | |
|---|---|---|
| 控制的是 | 爬虫「能不能来」 | 页面「能不能出现在搜索结果」 |
| 阻止抓取 | ✅ 是 | ❌ 否(爬虫仍会访问) |
| 阻止索引 | ❌ 不完全(有外链仍可能被索引) | ✅ 是 |
| 设置位置 | 网站根目录 robots.txt 文件 | 页面 <head> 里的 meta 标签 |
| 适合场景 | 大批量低价值路径(插件文件夹等) | 单个页面精确控制(如某篇内部文章) |
实际应用原则:
- 大批量系统目录(
/wp-admin/、/wp-content/plugins/)→ 用 robots.txt Disallow - 单个低质量内容页面(某篇分类页、隐私政策页)→ 用 noindex(Rank Math 的 Robots Meta 设置)
常见问题
没有 robots.txt 文件,网站 SEO 会受影响吗?
不会直接受影响——没有 robots.txt 文件不会影响搜索引擎对网站的爬取和索引,搜索引擎仍然会访问你的所有页面。 但没有 robots.txt 意味着你无法控制爬取行为,当搜索蜘蛛找不到 robots.txt 时,还会在服务器产生 404 错误日志,增加服务器负担。建议创建一个,哪怕是最简单的版本。
外贸站一定要屏蔽百度吗?
不是必须的,但通常建议屏蔽。百度的流量对面向欧美的外贸站几乎没有商业价值,而百度爬虫的爬取频率比 Google 高得多,会消耗服务器资源。屏蔽百度后,服务器响应 Google 等有价值爬虫的速度会略有改善。如果你的站点同时有国内业务需要,则不要屏蔽。
robots.txt 修改后多久生效?
你的修改实时生效(保存后马上能通过 yourdomain.com/robots.txt 看到新内容)。但 Google 重新读取 robots.txt 通常需要 1-3 天,这个延迟是 Google 端的,你这边无法控制。
Rank Math 编辑 robots.txt 后,是覆盖 WordPress 动态生成的版本吗?
是的。Rank Math 会在服务器创建一个真实的 robots.txt 文件,优先级高于 WordPress 动态虚拟生成的版本。你在 Rank Math 里保存的内容就是实际生效的版本。
robots.txt 文件对网站安全有帮助吗?
robots.txt 提供的是「建议」,不是强制屏蔽。遵守 robots.txt 的是合规搜索引擎,恶意爬虫和黑客不会理会这个文件,他们仍然可以访问你在 robots.txt 里标注为 Disallow 的路径。所以 robots.txt 对安全几乎没有帮助,真正的安全防护还是要靠 Wordfence、WAF 防火墙和服务器层面的访问控制。
Sitemap 必须加在 robots.txt 里吗?
不是必须的,但强烈推荐。通过将站点地图添加到 robots.txt 文件,可以让 Google 机器人轻松找到网站上的所有页面。即使你已经在 Google Search Console 里提交了 Sitemap,在 robots.txt 里也写上一行 Sitemap: https://yourdomain.com/sitemap_index.xml,是个好习惯,可以帮助爬虫更快找到新内容。