ultimate guide to noindex tag

SEO Noindex标签:终极指南和可操作提示

简要概述

什么是 Noindex 标签?

HTML“noindex”标签是一种 SEO 指令,用于防止搜索引擎机器人为某些网页编制索引,确保搜索结果中只显示有益的内容。

所有页面都应该被索引吗?

很多人会认为网站上的所有页面都应该被编入索引,但事实并非如此。事实上,阻止某些网页出现在搜索结果中是索引编制策略不可或缺的一部分

如何实现 Noindex Tag?

可以通过以下方式应用 “noindex” 指令:
  • 在页面的 HTML <head> 部分插入元标记“<meta name=‘robots’ content=‘noindex’>”。
  • 在 HTTP 响应标头中添加 “X-Robots-Tag: noindex ”指令,用于更广泛的应用。
  • 如何检查页面是否使用了 noindex 标签?

    通过查看页面的源代码并在 <head> 部分查找 “noindex” 元标签,或使用 SEO 分析工具(Ryte、Screaming Frog)或浏览器扩展(如 aHrefs)来检测此类指令,以检查 HTML 的 “noindex” 标签。

    请谨慎使用 Noindex

    请谨慎使用 “noindex” 以避免隐藏重要页面。如果 “noindexed” 页面出现在搜索结果中,请使用 Google 的 URL Inspection 等工具提示搜索引擎重新抓取。此外,将 “noindex” 与 “nofollow” 等类似标签区分开来,以进行精确的 SEO 控制。

    文章目录

    什么是 noindex 标签?

    noindex 标签是一个 HTML 标签,用于控制机器人处理您网站上给定页面或文件的方式,并阻止它们为该页面或文件编制索引。 可以通在 robots 元标记中添加 noindex 指令来告诉搜索引擎不要为页面编制索引 – 只需将以下代码添加到 HTML 的 <head> 部分即可:
    				
    					<meta name=”robots” content=”noindex”>
    				
    			

    或者,可以将 noindex 标记作为 x-robots-tag 添加到 HTTP 标头中:

    				
    					x-robots-tag: noindex
    				
    			

    当像 Googlebot 这样的搜索引擎漫游器抓取带有 noindex 标签的网页时,它不会将其编入索引。如果该页面之前已编入索引,并且标记是后来添加的,则 Google 会将其从搜索结果中删除,即使其他网站链接到该页面也是如此。

    一般来说,搜索引擎爬虫不需要遵循元指令,因为它们是建议而不是他们必须遵守的规则。某些搜索引擎爬网程序可能会以不同的方式解释 robots 的元值。

    但是,大多数搜索引擎爬虫(如 Googlebot)都遵循 noindex 指令。

    Noindex 与 nofollow

    Google 还支持其他元机器人指令——最流行的包括 nofollow 和 follow。但是,如果未添加机器人元标记,则 follow 标记是默认设置,因此 Google 认为没有必要nofollow 标签可防止搜索引擎抓取页面上的链接。 因此,该页面的排名信号不会传递到它链接到的页面。 可以单独使用 noindex 指令,但也可以与其他指令结合使用。例如, 如果你不希望搜索引擎机器人索引页面并点击页面上的链接,你可以同时添加 noindex 和 nofollow 标签。 如果你已经实施了 noindex 标签,但你的页面仍然出现在搜索结果中,那么很可能是 Google 在添加该标签后就没有抓取过该页面。要请求 Google 重新抓取网页,可以使用 URL 检查工具。

    什么时候应该使用 noindex 标签?

    使用 noindex 标签来防止页面被 Google 编入索引。

    将不太重要的页面设为不可索引至关重要,因为 Google 没有足够的资源来抓取和索引它在网络上找到的每个页面。同时,你需要确定应该编入索引的有价值的页面并确定其优化的优先级。

    让我们看看你应该在哪些类型的页面上实现 noindex 标签以使它们不可索引。

    将 noindex 标签放在:

    • 缺货且不会再次上架的商品的页面。
    • 不应在搜索结果中访问的页面,例如暂存环境或受密码保护的页面。
    • 对搜索引擎有价值的页面,但对用户没有价值 – 例如包含帮助机器人发现其他页面的链接的页面。
    • 具有重复内容的页面,通常在电子商务网站上占据主导地位。还建议使用规范标签将搜索引擎指向页面的主要版本,并防止出现重复内容问题。

    将页面设为不可索引应作为完善的索引策略的一部分。

    你永远不应该在有价值的页面上包含 noindex,例如:

    • 最受欢迎的产品页面,
    • 博客文章(除非已过时),
    • 关于我和联系页面,
    • 描述您提供的服务的页面。

    通常,切勿将 noindex 放在你预计会产生大量自然流量的页面上。

    如何实现 noindex 标签

    noindex 标签可以放置在网站的 HTML 代码或 HTTP 响应标头中。 一些 CMS 插件(如 Yoast)可让你自动对发布的页面进行 noindex。 让我们逐步了解这两种主要的实现方法并分析它们的优缺点。

    将 noindex 标签插入页面的 HTML 代码中

    noindex 标记可以作为页面 HTML 的 <head> 中的 robots 元标记实现。 机器人元标记是用于控制网站抓取和索引的代码。用户看不到它们,但机器人会在抓取页面时找到它们。 以下是实现代码的方法:
    				
    					<!DOCTYPE html>
    <html>
    <head>
    <meta name="robots" content="noindex" >
    </head>
    <body>
    <script src="https://www.imrnat.com/wp-content/cache/min/1/9f2dd68135640290574f62fa13f690b7.js" data-minify="1" defer></script></body>
    </html>
    				
    			
    我们来澄清一下 robots 元标记的结构。 在 meta 标记中,有成对的属性和值:
    				
    					<meta attribute=”value”>
    				
    			
    robots 元标记有两个属性:
    • name – 指定搜索引擎自动程序的名称,
    • content — 包含机器人的指令。
    这两个属性都需要不同的值,具体取决于你希望机器人执行的作。此外,name 和 content 属性都不区分大小写。 name 属性通常采用 “robots” 的值,表示指令针对所有机器人。 也可以使用特定机器人的名称,例如“googlebot”,尽管您遇到这种情况的频率要低得多。如果你想处理不同的机器人,则需要为每个机器人创建单独的元标记。 请记住,搜索引擎针对不同目的有不同的爬虫 – 查看 Google 的爬虫列表。 同时,content 属性包含机器人要遵循的指令。在我们的例子中,它是 “noindex”。你可以在此处放置多个值,并用逗号分隔属性。

    机器人元标记的优缺点

    HTML 方法比 HTTP 标头方法更容易实现和修改。它也不需要访问你的服务器。

    但是,在 HTML 中实现 noindex 标签可能很耗时 – 你需要手动将其添加到要 noindex 的每个页面。

    将 noindex 标记添加到 HTTP 标头

    另一种解决方案是在 x-robots-tag 中指定 noindex 指令。

    这是 HTTP 标头响应 的一个元素。HTTP 标头用于服务器和客户端(浏览器或搜索引擎机器人)之间的通信

    你可以在 HTTP Web 服务器上对其进行配置。根据你使用的服务器(如 Apache、Nginx 或其他服务器),代码看起来会略有不同。

    以下是带有 x-robots-tag 的 HTTP 响应的示例:

    				
    					HTTP/1.1 200 OK
    (…)
    x-robots-tag: noindex
    (…)
    				
    			

    Apache 服务器

    如果你有一个基于 Apache 的服务器,并且想要对所有以 “.pdf” 结尾的文件进行 noindex,你应该将该指令添加到 .htaccess 文件中。 以下是示例代码:
    				
    					<Files ~ "\.pdf$">
      Header set x-robots-tag "noindex"
    </Files>
    				
    			

    Nginx 服务器

    如果你有基于 Nginx 的服务器,请在 .conf 文件中实现该指令:
    				
    					location ~* \.pdf$ {
      add_header x-robots-tag "noindex";
    }
    				
    			

    使用 HTTP 标头的优缺点

    在 HTTP 标头中使用 noindex 的一个显着优点是你可以在非 HTML 页面的 Web 文档(例如 PDF 文件、视频或图像)上使用它。此外,此方法允许你定位页面的特定部分。

    此外,x-robots-tag 支持使用正则表达式。换句话说,你可以通过指定它们的共同点来定位应该被 noindexed 的页面。例如,你可以定位具有包含特定参数或符号的 URL 的页面。

    另一方面,需要访问你的服务器才能实施 x-robots 标签。

    添加标签还需要技术技能,并且比将 robots 元标签添加到网站的 HTML 更复杂。

    如何检查 noindex 标签的实现?

    如果想检查是否实施了 noindex 或其他 robots 元指令,你可以根据它们添加到页面的方式进行。

    因此,如果 noindex 标签被添加到页面的 HTML 中,你可以检查其源代码,而对于 HTTP 标头,你可以使用 Chrome 中的 Inspect 选项。这些工具将向您展示在给定页面上识别了哪些指令。

    其他选项包括将 URL 输入 Google Search Console 的 URL 检查工具或使用 Link Redirect Trace 扩展。

    后续步骤

    以下是你现在可以执行的操作:

    1. 联系我们
    2. 从我们这里获得个性化计划来处理你的索引问题。
    3. 在 Google 的索引中发现你的内容!

    仍然不确定要不要给我们留言?了解技术 SEO 服务如何帮助你改进网站。

    有关使用 noindex 标签的更多信息

    以下是有关使用 noindex 标签的一些其他准则及其特性的详细信息:

    • 只要你在代码中不包含 noindex,默认选项就是机器人可以为你的页面编制索引
    • 注意代码中的任何错误,例如在正确的位置包含逗号 – 如果语法错误,机器人将无法理解您的命令。
    • 在 HTML 代码或 HTTP 响应标头中添加标记,但不能同时添加两者。如果各个位置的指令相互矛盾,这样做可能会产生主要的负面影响。在这种情况下,Googlebot 将选择限制索引的指令。
    • 你可以使用 noimageindex 指令,该指令的工作方式类似于 noindex,但只会阻止给定页面上的图像被索引。
    • 一段时间后,机器人开始将 noindex 也视为 nofollow。许多人使用 noindex 禁用页面索引,但将其与 follow 指令结合使用,以确保机器人仍然抓取页面上的链接。但谷歌已经解释说,noindex、follow 指令最终将被视为 noindex、nofollow,因为在某个时候,它们会停止抓取 noindexed 页面上的链接。因此,链接目标页面可能不会被编入索引,并且可能会获得排名下降的信号,这可能会对其排名产生负面影响。
    • 不要在 robots.txt 文件中使用 noindex。尽管此规则和其他一些规则不受官方支持,但搜索引擎机器人在 robots.txt 文件中遵循 noindex 指令。 但是,截至 2019 年 9 月,Google 宣布已于 2019 年 9 月停用了处理 robots.txt 文件中不支持和未发布的规则的代码(例如 noindex)。

    比较 noindex 标签、robots.txt 文件和 canonical 标签

    noindex 标签、robots.txt 文件和 canonical 标签是相关的——它们可用于控制页面的抓取和/或索引

    但是,它们具有一些显着的特征,使它们适用于不同的情况。

    我们已经确定 noindex 标签控制是否应将网站上的特定页面编入索引,并且它们在页面级别运行。

    让我们看看这与 robots.txt 文件和规范标签相比如何。

    Robots.txt 文件

    Robots.txt 文件可用于控制搜索引擎漫游器如何在目录级别抓取你网站的某些部分。

    具体来说,robots.txt 文件包含搜索引擎机器人的指令,侧重于 “禁止” 或 “允许” 它们的行为。如果机器人遵循该指令,它们将不会抓取不允许的页面,并且不会将这些页面编入索引。

    Robots.txt 指令广泛用于节省网站的抓取预算。

    在 robots.txt 文件中实施 noindex 标签和设置规则时要小心。要使 noindex 指令有效,给定的页面需要可用于抓取,这意味着它不能被 robots.txt 文件阻止。

    如果爬虫无法访问该页面,它将不会看到 noindex 标签,也不会遵守它。然后,该页面可以被抓取并出现在搜索结果中——例如,如果其他页面链接到它。

    要对网页进行 noindex,请允许在 robots.txt 中抓取该网页,并使用 noindex 元标记来阻止将其编入索引 – 然后,Googlebot 将遵循 noindex 指令。

    Canonical tags  规范标签

    规范标签是 HTML 元素,它通知搜索引擎几个类似的页面中的哪个页面是主要版本,应该被索引。它们被放置在二级页面上并指定规范 URL——因此,这些二级页面不应该包含在索引中。

    规范标签可能会限制非规范页面的索引,但 Google 不会总是尊重这些标签。例如,如果 Google 发现更多指向另一个页面的链接,它可能会将其视为比指定的规范 URL 更重要,并将其视为主要版本。

    此外,规范标签只能在爬虫程序期间被机器人发现。与robots.txt文件不同,它们不能用于阻止页面被爬取。

    规范标签和 noindex 标签之间的一个重要区别是规范化页面将排名信号整合到一个 URL 下。同时,noindexed 页面不会传递排名信号,这对于内部链接至关重要——它们不会将排名信号传递给它们链接到的 URL。

    结束语

    使低质量页面不可索引是优化索引策略的 SEO 最佳实践之一——使用 noindex 元标记是使页面不在 Google 索引之外的最佳方法之一

    使用该标签,你可以阻止对不重要页面的索引,然后帮助搜索引擎爬虫专注于你最有价值的内容。

    这使得 noindex 标签成为 SEO 中必不可少的工具之一,这就是为什么我们将你的所有 noindex 标签作为我们技术 SEO 服务的一部分进行审核的原因。

    你网站的高效抓取和索引是充分利用有价值的页面可以为你的网站带来的自然流量的关键。

    内容创作不易,如果觉得Nat写的东西对您有一定的帮助,请不要吝啬对Nat的赞赏,谢谢!

    提升网站的盈利能力

    联系Nat并了解如何实现!
    滚动至顶部

    联系Nat

    与Nat取得联系,我会在短时间内合理的规划关于建站,网站优化,及SEO推广方面的任何问题。