SEO Noindex标签:终极指南和可操作提示
简要概述
什么是 Noindex 标签?
所有页面都应该被索引吗?
很多人会认为网站上的所有页面都应该被编入索引,但事实并非如此。事实上,阻止某些网页出现在搜索结果中是索引编制策略不可或缺的一部分
如何实现 Noindex Tag?
如何检查页面是否使用了 noindex 标签?
通过查看页面的源代码并在 <head> 部分查找 “noindex” 元标签,或使用 SEO 分析工具(Ryte、Screaming Frog)或浏览器扩展(如 aHrefs)来检测此类指令,以检查 HTML 的 “noindex” 标签。
请谨慎使用 Noindex
请谨慎使用 “noindex” 以避免隐藏重要页面。如果 “noindexed” 页面出现在搜索结果中,请使用 Google 的 URL Inspection 等工具提示搜索引擎重新抓取。此外,将 “noindex” 与 “nofollow” 等类似标签区分开来,以进行精确的 SEO 控制。
文章目录
什么是 noindex 标签?
或者,可以将 noindex 标记作为 x-robots-tag 添加到 HTTP 标头中:
x-robots-tag: noindex
当像 Googlebot 这样的搜索引擎漫游器抓取带有 noindex 标签的网页时,它不会将其编入索引。如果该页面之前已编入索引,并且标记是后来添加的,则 Google 会将其从搜索结果中删除,即使其他网站链接到该页面也是如此。
一般来说,搜索引擎爬虫不需要遵循元指令,因为它们是建议而不是他们必须遵守的规则。某些搜索引擎爬网程序可能会以不同的方式解释 robots 的元值。
但是,大多数搜索引擎爬虫(如 Googlebot)都遵循 noindex 指令。
Noindex 与 nofollow
什么时候应该使用 noindex 标签?
使用 noindex 标签来防止页面被 Google 编入索引。
将不太重要的页面设为不可索引至关重要,因为 Google 没有足够的资源来抓取和索引它在网络上找到的每个页面。同时,你需要确定应该编入索引的有价值的页面并确定其优化的优先级。
让我们看看你应该在哪些类型的页面上实现 noindex 标签以使它们不可索引。
将 noindex 标签放在:
- 缺货且不会再次上架的商品的页面。
- 不应在搜索结果中访问的页面,例如暂存环境或受密码保护的页面。
- 对搜索引擎有价值的页面,但对用户没有价值 – 例如包含帮助机器人发现其他页面的链接的页面。
- 具有重复内容的页面,通常在电子商务网站上占据主导地位。还建议使用规范标签将搜索引擎指向页面的主要版本,并防止出现重复内容问题。
将页面设为不可索引应作为完善的索引策略的一部分。
你永远不应该在有价值的页面上包含 noindex,例如:
- 最受欢迎的产品页面,
- 博客文章(除非已过时),
- 关于我和联系页面,
- 描述您提供的服务的页面。
通常,切勿将 noindex 放在你预计会产生大量自然流量的页面上。
如何实现 noindex 标签
- name – 指定搜索引擎自动程序的名称,
- content — 包含机器人的指令。
机器人元标记的优缺点
HTML 方法比 HTTP 标头方法更容易实现和修改。它也不需要访问你的服务器。
但是,在 HTML 中实现 noindex 标签可能很耗时 – 你需要手动将其添加到要 noindex 的每个页面。
将 noindex 标记添加到 HTTP 标头
另一种解决方案是在 x-robots-tag 中指定 noindex 指令。
这是 HTTP 标头响应 的一个元素。HTTP 标头用于服务器和客户端(浏览器或搜索引擎机器人)之间的通信
你可以在 HTTP Web 服务器上对其进行配置。根据你使用的服务器(如 Apache、Nginx 或其他服务器),代码看起来会略有不同。
以下是带有 x-robots-tag 的 HTTP 响应的示例:
HTTP/1.1 200 OK
(…)
x-robots-tag: noindex
(…)
Apache 服务器
Header set x-robots-tag "noindex"
Nginx 服务器
location ~* \.pdf$ {
add_header x-robots-tag "noindex";
}
使用 HTTP 标头的优缺点
在 HTTP 标头中使用 noindex 的一个显着优点是你可以在非 HTML 页面的 Web 文档(例如 PDF 文件、视频或图像)上使用它。此外,此方法允许你定位页面的特定部分。
此外,x-robots-tag 支持使用正则表达式。换句话说,你可以通过指定它们的共同点来定位应该被 noindexed 的页面。例如,你可以定位具有包含特定参数或符号的 URL 的页面。
另一方面,需要访问你的服务器才能实施 x-robots 标签。
添加标签还需要技术技能,并且比将 robots 元标签添加到网站的 HTML 更复杂。
如何检查 noindex 标签的实现?
如果想检查是否实施了 noindex 或其他 robots 元指令,你可以根据它们添加到页面的方式进行。
因此,如果 noindex 标签被添加到页面的 HTML 中,你可以检查其源代码,而对于 HTTP 标头,你可以使用 Chrome 中的 Inspect 选项。这些工具将向您展示在给定页面上识别了哪些指令。
其他选项包括将 URL 输入 Google Search Console 的 URL 检查工具或使用 Link Redirect Trace 扩展。
后续步骤
有关使用 noindex 标签的更多信息
以下是有关使用 noindex 标签的一些其他准则及其特性的详细信息:
- 只要你在代码中不包含 noindex,默认选项就是机器人可以为你的页面编制索引。
- 注意代码中的任何错误,例如在正确的位置包含逗号 – 如果语法错误,机器人将无法理解您的命令。
- 在 HTML 代码或 HTTP 响应标头中添加标记,但不能同时添加两者。如果各个位置的指令相互矛盾,这样做可能会产生主要的负面影响。在这种情况下,Googlebot 将选择限制索引的指令。
- 你可以使用 noimageindex 指令,该指令的工作方式类似于 noindex,但只会阻止给定页面上的图像被索引。
- 一段时间后,机器人开始将 noindex 也视为 nofollow。许多人使用 noindex 禁用页面索引,但将其与 follow 指令结合使用,以确保机器人仍然抓取页面上的链接。但谷歌已经解释说,noindex、follow 指令最终将被视为 noindex、nofollow,因为在某个时候,它们会停止抓取 noindexed 页面上的链接。因此,链接目标页面可能不会被编入索引,并且可能会获得排名下降的信号,这可能会对其排名产生负面影响。
- 不要在 robots.txt 文件中使用 noindex。尽管此规则和其他一些规则不受官方支持,但搜索引擎机器人在 robots.txt 文件中遵循 noindex 指令。 但是,截至 2019 年 9 月,Google 宣布已于 2019 年 9 月停用了处理 robots.txt 文件中不支持和未发布的规则的代码(例如 noindex)。
比较 noindex 标签、robots.txt 文件和 canonical 标签
noindex 标签、robots.txt 文件和 canonical 标签是相关的——它们可用于控制页面的抓取和/或索引。
但是,它们具有一些显着的特征,使它们适用于不同的情况。
我们已经确定 noindex 标签控制是否应将网站上的特定页面编入索引,并且它们在页面级别运行。
让我们看看这与 robots.txt 文件和规范标签相比如何。
Robots.txt 文件
Robots.txt 文件可用于控制搜索引擎漫游器如何在目录级别抓取你网站的某些部分。
具体来说,robots.txt 文件包含搜索引擎机器人的指令,侧重于 “禁止” 或 “允许” 它们的行为。如果机器人遵循该指令,它们将不会抓取不允许的页面,并且不会将这些页面编入索引。
Robots.txt 指令广泛用于节省网站的抓取预算。
在 robots.txt 文件中实施 noindex 标签和设置规则时要小心。要使 noindex 指令有效,给定的页面需要可用于抓取,这意味着它不能被 robots.txt 文件阻止。
如果爬虫无法访问该页面,它将不会看到 noindex 标签,也不会遵守它。然后,该页面可以被抓取并出现在搜索结果中——例如,如果其他页面链接到它。
要对网页进行 noindex,请允许在 robots.txt 中抓取该网页,并使用 noindex 元标记来阻止将其编入索引 – 然后,Googlebot 将遵循 noindex 指令。
Canonical tags 规范标签
规范标签是 HTML 元素,它通知搜索引擎几个类似的页面中的哪个页面是主要版本,应该被索引。它们被放置在二级页面上并指定规范 URL——因此,这些二级页面不应该包含在索引中。
规范标签可能会限制非规范页面的索引,但 Google 不会总是尊重这些标签。例如,如果 Google 发现更多指向另一个页面的链接,它可能会将其视为比指定的规范 URL 更重要,并将其视为主要版本。
此外,规范标签只能在爬虫程序期间被机器人发现。与robots.txt文件不同,它们不能用于阻止页面被爬取。
规范标签和 noindex 标签之间的一个重要区别是规范化页面将排名信号整合到一个 URL 下。同时,noindexed 页面不会传递排名信号,这对于内部链接至关重要——它们不会将排名信号传递给它们链接到的 URL。
结束语
使低质量页面不可索引是优化索引策略的 SEO 最佳实践之一——使用 noindex 元标记是使页面不在 Google 索引之外的最佳方法之一。
使用该标签,你可以阻止对不重要页面的索引,然后帮助搜索引擎爬虫专注于你最有价值的内容。
这使得 noindex 标签成为 SEO 中必不可少的工具之一,这就是为什么我们将你的所有 noindex 标签作为我们技术 SEO 服务的一部分进行审核的原因。
你网站的高效抓取和索引是充分利用有价值的页面可以为你的网站带来的自然流量的关键。