SEO 的规范标签 - 终极指南
canonical tag 规范标签允许你指定多个重复页面中的哪一个是页面的主要首选版本。
任何网站都可能存在重复内容问题——你可能还不知道你的某些内容被视为重复。
如果没有 canonical 标签,你将受到搜索引擎的摆布——它们会自己选择canonical 版本。而且,他们很可能会选择一个你不认为代表给定内容的内容。这会严重影响你的搜索可见性和排名。
本指南解释了使用规范标签解决您网站上的重复内容问题的特征和 SEO 友好做法。
文章目录
什么是规范标签?
规范标签是一段代码,用于告诉搜索引擎应将特定 URL 视为页面的主要(规范)版本。
规范标签是 SEO 策略的关键要素——它有助于管理重复内容,避免关键词蚕食,因此在 Google 中拥有更高的位置。
规范标签既可以在 HTML 代码中实现,也可以在 HTTP 标头中实现。
根据 Google 关于 canonical 的文档,还有其他 canonical 信号,例如重定向或站点地图包含。他们都投放广告,让 Google 决定哪个页面应该被视为规范版本。
实现规范标签的最常见技术是将以下代码片段添加到页面的 HTML 中:
搜索引擎和重复内容
重复内容的问题源于一个简单的事实,即搜索引擎爬虫查看页面的方式与用户不同。
对于搜索引擎爬网程序,以下每个 URL 都不同:
- http://site.com
- https://site.com
- https://site.com/index.php
- http://site.com/index.php
- http://www.site.com
当用户关注页面上的内容时,抓取程序会将每个 URL 地址视为一个单独的实体,即使多个页面具有相同的内容也是如此。
重复内容问题对于电子商务网站来说往往特别严重,但不限于它们。许多现代网站会自动向 URL 添加标签和参数,例如,用于排序或过滤页面,并且它们经常使用许多指向相同内容的路径。
如果使用不同的 URL 结构,则也可能存在多个版本的 URL ——例如,你的 URL 既有 www 又有非 www,带和不带尾部斜杠,使用 HTTP 和 HTTPS 协议,以及任何其他格式。
这可能会导致重复的内容,搜索引擎不愿意将其编入索引。
具体来说,当搜索引擎遇到重复内容时,他们很难决定:
- 哪个页面应该被编入索引,
- 哪个页面应该对相关关键词进行排名,以及
- 他们是应该将排名信号整合到一个 URL 下,还是将其拆分到多个页面中。
尽管搜索引擎可以删除重复的页面以进行排名,但让他们选择规范 URL 是有风险的——他们可能会选择一个不是您内容最具代表性的页面版本。
Google 如何选择规范页面?
什么时候应该使用规范标签?
使用规范标签的正确策略对于你的网站在 Google 上的成功至关重要,这就是为什么它是 Nat 技术 SEO 服务不可或缺的一部分。
不要忘记,简单地添加规范标签并不能解决重复或内容稀薄的所有问题。
你的主要目标应该是消除导致这些问题的核心问题。专注于分析你是否可以删除或改进重复页面上的内容,使其更独特,并可能为用户提供更多价值。
尽管如此,使用规范标签准确标记你的页面是处理重复内容向前迈出的一步。
让我们分析一下如何从规范标签中受益以及何时使用它们。
使用 SEO 规范标签的好处
通过添加规范标签,你可以:
指定搜索结果中应显示的页面
搜索引擎旨在提供最佳的用户体验——这就是为什么它们很少会在搜索结果中显示相同内容的多个版本。
规范标签让你有机会提高最具代表性的页面版本的搜索可见性,这可以增加此页面的自然流量并转化为商业利益。
整合重复页面的排名信号
其他网站可能会链接到你页面的不同重复版本,从而稀释搜索引擎在排名过程中考虑的信号。
当你使用规范标签时,你告诉搜索引擎来自重复 URL 的排名信号应该流向规范页面。
不鼓励抓取重复网页
要使用规范标签标记的内容类型
让我们来看看你应该为其选择规范页面的具体内容。
以下内容类型和方面通常不会为你的网站增加任何价值,并且可能会导致重复内容数量增加。
联合内容
内容联合是指在另一个域上重新发布的内容。
实现规范标签有助于将作品的所有权归属于原始出版商。
产品筛选和排序
电子商务网站典型的过滤和排序选项 通常使用添加到 URL 的查询字符串——这可能会创建大量重复内容。规范化过滤和排序页面将帮助您的规范版本排名更高,并防止搜索引擎不必要地抓取重复内容。
URL 中的冗余参数
如果参数不用于跟踪、不更改内容并且不向 URL 添加任何有意义的信息,则这些参数对于页面来说可能是多余的。
相反,它们可能会导致你的网站抓取效率低下。
产品型号
商品可能有不同的款式/规格,其中唯一发生变化的特征是其颜色、尺寸或任何其他适用属性。规范化可以帮助你选择主要商品款式。
但是,请考虑产品是否保持不变。例如,在技术领域,产品的不同变体(如智能手机)实际上可能包含其他功能,因此都应该出现在搜索结果中。
跟踪参数和会话 ID
跟踪参数可以跟踪推广活动或用户旅程,并且不会更改页面的内容,因此也应该被规范化。
规范标签与 noindex 标签和 301 重定向的比较
可能想知道规范标签与其他可能影响搜索引擎如何索引页面以及它们是否为页面编入索引的解决方案相比如何。
让我们比较一下规范标签、noindex 标签和 301 重定向的特征和 SEO 用例。
使用规范标签与 noindex 标签
Noindex 标签用于从索引中排除页面,而不是管理应选择哪个页面作为规范页面。
你永远不应该使用 noindex 标签来阻止搜索引擎选择规范页面。
规范化页面通常将排名信号整合到一个 URL 下,这与 noindex 标签不同——这是由于 Google 将长期的 noindex、follow 标签视为 noindex、nofollow 造成的。
经验法则是,页面不应该同时被 noindexed 和 canonicalized。例如,被 canonicalized 为 noindexed URL 的页面将从索引中删除。
noindexed 和规范化页面没有将 noindex 转移到其规范目的地的风险,这随后会从索引中删除这两个地址。
但是,同时使用 noindex 和 canonical 标签会向 Google 发送混合信号。这意味着 Google 可以按照自己的选择来解释标签,结果可能是你不希望的。
使用规范标签与 301 重定向
搜索引擎和用户对规范标签和 301 重定向的看法非常不同。
如果你使用 301 重定向,用户将自动被带到目标页面,并且不会看到原始页面。301 重定向还可以帮助你节省抓取预算,因为它们限制了需要抓取的 URL 数量。
同时,使用规范标签,用户仍然可以访问这两个 URL。此外,重复的 URL 仍然会被搜索引擎抓取,因此可抓取页面的数量不会减少。
尽管规范标签倾向于将排名信号传递给页面的主要版本,但 301 重定向更有力地表明 Google 应该将排名信号传输到目标 URL。发生这种情况是因为 Google 不会像规范标签那样看到间歇性内容。
让我们澄清一下什么时候 301 重定向比规范标签更合适。
最好使用 301 重定向来合并 URL:
- 包含小写字母和大写字母,
- 带和不带尾部斜杠,
- HTTP 或 HTTPS 协议,
- 存在(含和不含 www)。
如果你要更改内容(例如在网站迁移期间)并且 URL 发生更改,则应将旧 URL 301 重定向到新 URL。除了重定向之外,请确保新的目标 URL 具有自引用规范标签。
301 重定向最佳状态的另一种情况是,当产品可通过多个 URL 访问时。
在这种情况下,请更改你的 URL 结构,使其不包含产品分配到的类别的名称。然后,301 重定向旧 URL。如果任何类别是多余的,可以删除它们并将其重定向到相关的替代页面。
总体而言,如果用户仍应访问一个 URL,请使用 301 重定向。
如何向页面添加规范标签
指定规范页面有两种主要方法 – 在页面的 HTML 或 HTTP 标头中。您可以手动实现它们,也可以使用可以帮助您自动化的工具之一。
例如,如果你使用的是 CMS,则可以使用 SEO 插件。具有指定规范页面功能的插件包括 Yoast SEO 或 All in One SEO。
如果你使用的是 Shopify,可以根据需要设置自定义规范 URL——Shopify 的默认设置是为产品和博客文章添加自引用规范 URL。
无论你选择哪种方法,都不要忘记只在一个地方实现 canonical 标签——不要同时使用这些方法。如果 Google 发现 canonical 标签的多个声明,它可能会忽略所有声明。
HTML 标签
此方法仅适用于 HTML 页面,因此如果要规范化其他类型的文件,请使用 HTTP 标头。
HTTP 标头
可以实现 “rel=canonical” HTTP 标头来指示 URL 的规范版本:
Link: ; rel="canonical"
使用 HTTP 标头为非 HTML 文档(如 PDF 文件)指定规范。
要使用此解决方案,你需要访问你网站的服务器。它还需要一些技术技能,因为这种方法比 HTML 更容易出错且更难实现。
使用规范标签的 SEO 友好做法
遵循规范标签最佳实践有助于降低搜索引擎将错误版本的页面视为规范版本的风险。
以下是我对 canonical 标签的建议列表:
使用绝对 URL
理论上,Google 应该同时识别相对 URL 和绝对 URL。但是,绝对版本的 URL 不容易出错并且更容易调试。
换句话说,在规范标签中使用完整的 URL:
使用自引用规范标签
虽然这不是必需的,但建议使用指向它们所在页面的规范标签。
如果使用参数来跟踪活动,则必须实施它 – 这样做应该使所有带有 campaign 参数的 URL 默认规范化为静态 URL,并阻止它们被索引。
在页面上拥有自引用规范标签并不重要,但它确实使我们更容易准确地选择您想要作为规范的 URL。我们使用许多因素来选择规范 URL,而 rel=canonical 确实在其中发挥了作用。因此,特别是 URL 参数之类的内容,或者如果 URL 以任何特定方式进行标记 – 例如,也许您有指向该页面的链接被标记为分析目的 – 那么我们可能会选择该标记的 URL 作为规范 […] ——来源:SEO Office Hours
向搜索引擎发送明确的信号
发送 clear 信号包括每页仅指定一个规范信号。
避免将 URL 指定为规范 URL,同时避免将所述 URL 重定向到其他目标。
另一种情况涉及使用 JavaScript 添加的规范。
如果在 HTML 中未指定规范页面,并且使用 JavaScript 添加了规范标签,则 Google 应在呈现过程中遵循该标签。但是,如果在 HTML 中设置了规范页面,而 JavaScript 更改了该页面,则您向 Google 发送了混合信号。
发送混合信号可能会导致搜索引擎错误地解释你的权威版本或选择错误的版本作为权威版本。
确保在内部链接时使用正确的 URL
在你的网站上放置内部链接时,请确保你链接到规范 URL 而不是重复的 URL。
如前所述,如果更强的信号指向另一个 URL,Google 可能不会尊重规范。其中一个信号可以增加链接到重复的 URL,而 Google 可能会将其视为主版本。
你可以联系 Nat 并使用我们的服务快速修复您的内部链接结构。
不要将 canonical 标签指向分页的第一页
只以索引分页的第一页为目标是一个常见的错误。你可能想用它来防止用户从搜索结果访问后续页面,但这是错误的方法。搜索引擎可能会忽略规范化,因为这些页面通常不是重复的。但是,如果他们尊重规范标签,则分页可能会被规范化。
如果分页包含指向唯一产品的链接,并且产品页面之间没有其他链接,则分页中指向产品页面的链接可能会被忽略。换句话说,可索引的产品页面不会包含来自其他页面的内部链接。
相反,分页页面应该具有自引用规范标签。这些页面上的内容并不相同,通过包含自引用标签,您可以告诉搜索引擎每个页面都是唯一的。如果你不希望这些页面被索引,请使用 noindex 标签。
指向桌面端版本
如果你的网站手机端版本位于二级域名上,则 canonical 标签应指向该页面的桌面版本。
在使用 hreflang 标签时识别规范页面
尽管 Google 不会将翻译成其他语言的相同内容的不同版本视为重复内容,但你仍应使用规范标签。
告诉搜索引擎使用同一语言的规范页面是什么或最好的替代语言。语言变体应该是自规范的。
防止抓取预算问题
即使规范标签已正确实施,规范化 URL 仍可能耗尽你的抓取预算。
尽管规范化 URL 的抓取率应该会随着时间的推移而降低,但搜索引擎可能仍然专注于获取重复项,而不是抓取和索引新页面。
检查你的服务器日志,了解 Googlebot 在你网站上的行为方式,并找出任何潜在的抓取问题。
对于抓取预算优化,你通常应该:
- 减少对非规范 URL 版本的内部链接,
- 使用 Google Search Console 中的 URL 参数工具告诉 Googlebot 抓取 URL 的静态版本。
但请记住,抓取预算问题发生在非常大的网站上——谷歌表示大多数网站永远不需要担心它。
我建议你阅读 Google 关于实现 “rel=canonical” 时的常见错误的文章,以了解要避免哪些其他事情。
如何审计规范标签
为了选择你的规范标签,你需要确保一个页面有一个指向正确页面的规范标签。
以下是一些审核规范标签的有用方法。
你还需要检查页面是否可抓取和可索引 – 它不应该被 robots.txt 阻止或标记为 noindex 标签。
如何使用 Google Search Console 分析规范标签
Google Search Console 包含一些有用的工具来审核您的规范页面:索引覆盖率报告和 URL 检查工具。
编制索引报告
Google Search Console 中的索引覆盖率报告是有关您的索引条件的宝贵信息来源——哪些 URL 已编入索引,哪些 URL 未编入索引,以及原因。
要分析网站的规范,请导航到索引 — 网页 — 未编入索引。
可以在此处找到一些与你相关的状态:
具有适当规范标签的备用页面
标有此状态的 URL 表示 Google 会尊重你对 URL 的规范化。
如果最近将某些页面规范化,则可以预期这些 URL 的数量会增加。你可以使用 Google 报告的这一部分来检查 Google 是否没有过度抓取重复项。
否则,这些 URL 不需要注意。
重复,Google 选择的规范与用户不同
该状态表示 Google 忽略了你的自荐规范化或将其规范化为另一个规范化。如果更强的信号指向其他 URL,则可能会发生这种情况 – 例如,指向其他页面的内部链接可能增加。
此问题也可能指向内容问题。例如,内容的唯一部分可能无法加载,或者选择了错误的页面进行规范化,例如,因为重复页面和规范页面之间没有足够的内容对等。
重复且提交的 URL 未被选为规范 URL
重复而不使用用户选择的规范
这些是重复的 URL,没有任何指定的 rel=canonical URLs – 确定最适合它们的规范页面并添加它们。
URL 检查工具
可以使用网址检查工具进一步调查 Googlebot 如何查看从索引中排除的网址。
- 上次抓取的日期 – Googlebot 上次抓取网页的时间。如果最近添加了规范标签,则 Googlebot 很可能自那时起就没有抓取过该网址。
- 用户声明的规范网址 – 这应该会显示你选择的 URL – 检查它是否是正确的 URL。
- Google 选择的规范网址 – 如果 Google 选择了不同的规范页面,可以查看选择了哪个 URL。
在详情标签页中,可以检查 Googlebot 收到的 HTTP 响应标头。
确保它与所需的配置保持一致,即使你在页面的 HTML 中使用 rel=canonical。
使用网站爬虫以审核规范标签
网站抓取可以帮助你发现规范标签的问题。
网站爬虫为你提供有关规范与非规范比率的详细信息。它们会提醒你任何不正确的规范,例如规范标签中的已删除/缺失页面 (HTTP 4xx)、服务器错误 (HTTP 5xx) 或重定向 (HTTP 3xx)。通常,应该调查 HTTP 200 以外的任何状态代码。
后续步骤
结束语
实施规范标签使你可以告诉搜索引擎哪个 URL 代表每条内容的最佳版本。然后,可以影响哪些页面出现在搜索结果中——哪些页面被视为次要页面。
规范只是搜索引擎不需要尊重的信号。但是,在许多情况下,可以增加你的规范标签被尊重的机会。 怎么做?
遵循概述的最佳实践 – 以下是我的建议的简要列表:
- 识别页面上的重复内容并选择哪个页面版本应为主要页面 – 例如,因为它是最有代表性或最有价值的页面,
- 确保向搜索引擎发送有关你的规范的一致信号,
- 确保你对 robots.txt 文件、noindex 标签和站点地图的实现与你的规范化保持一致。
- 确保重复页面和规范页面之间有足够的内容对等,
- 将内部链接限制为重复的页面。