分类
谷歌SEO优化

如何禁止网页被搜索引擎索引

目前仍然有人仅使用robots.txt文件来阻止他们的网站在Google或Bing中建立索引。结果,他们的网站仍然出现在搜索引擎中。你知道为什么会出现这样的结果吗?因为robots.txt实际上不会执行后者,即使它确实阻止了对网页建立索引。让我在这篇文章中解释如何禁止网页被搜索引擎索引?

如何禁止网页被搜索引擎索引
如何禁止网页被搜索引擎索引

索引

将网站或页面的内容下载到搜索引擎的服务器,然后将其添加到其“索引”的过程。

排名/列表/显示

在搜索结果页面(又称SERP)中显示网站。

因此,尽管最常见的过程是从索引到搜索引擎排名,一个网站没有被搜索就不会有排名。如果链接指向页面、域铭或任何地方,则Google会跟踪该链接。如果该域上的robots.txt阻止了搜索引擎对某一页面的索引,但如果它可以通过其他页面被搜索引擎发现,甚至被索引,它仍有可能会出现在搜索引擎中。

如果您真的要完全禁止搜索引擎对网页建立索引,那么将请求添加到要阻止的特定页面上。有以下两种方法:

1. 添加meta robots标签来禁止页面索引

禁止您的页面被搜索引擎索引最有效的方式是使用漫游器元标记。将下面的标记添加到您的页面中:

<meta name="robots" content="noindex,nofollow">

2. 添加X-Robots-Tag HTTP标头

为了使将meta robots标记添加到网站的每个页面的过程变得更加容易,搜索引擎提出了X-Robots-Tag HTTP标头。这样,您就可以指定一个HTTP标头,X-Robots-Tag并像meta robots标签值一样设置该值。如果您的站点在Apache上运行,并且启用了mod_headers(通常是启用),则可以将以下单行添加到.htaccess文件中:

Header set X-Robots-Tag "noindex, nofollow"

这将禁止您的页面被搜索引擎索引,且永远不会显示在搜索结果中。

如何禁止网页被搜索引擎索引?本文提供的两种解决方法,您学会了吗?

 

分类
谷歌SEO优化

如何正确使用robots.txt文件?

当您网站在进行SEO优化工作时,robots.txt文件是一个功能强大的工具,但应谨慎对待。它可以允许或拒绝搜索引擎访问不同的文件和文件夹,我们应该如何正确使用robots.txt文件?

如何正确使用robots.txt文件?
如何正确使用robots.txt文件?

搜索引擎不断改进爬行方式和算法,这意味着几年前的最佳做法不再起作用,甚至可能损害您的网站。

如今,最佳做法意味着尽可能少地依赖robots.txt文件。实际上,只有在您遇到复杂的技术难题或没有其他选择时,才真正需要阻止robots.txt文件中的URL。

对于大多数网站,以下示例是最佳做法:

User-agent: *
Allow: /

我们甚至在自己的robots.txt文件中使用此方法。

该代码的作用是什么?

该User-agent: *说明指出,以下任何说明都适用于所有的搜索引擎。

因为我们没有提供任何进一步的说明,所以我们说“所有爬网程序都可以不受限制地自由爬行该网站”。

如果您想防止搜索引擎对WordPress网站的某些部分进行爬网或编制索引,通常最好通过添加meta robots标签或robots HTTP标头来做到这一点。

在搜索结果的可见性之前,搜索引擎需要发现、爬网和索引页面。如果您已通过robots.txt阻止了某些URL,则搜索引擎将无法再通过这些页面来发现其他页面。这可能意味着关键页面不会被发现。

Robots.txt拒绝链接值

SEO的基本规则之一是来自其他页面的链接会影响您的性能。如果某个URL被阻止,不仅搜索引擎不会对其进行爬网,而且它们也可能不会将指向该URL的任何“链接值”或通过该URL分发给网站上的其他页面。

Google全面呈现您的网站

人们过去常常阻止对CSS和JavaScript文件的访问,以使搜索引擎专注于那些最重要的内容页面。

如今,Google会获取您所有的样式和JavaScript,并完全呈现您的页面。了解页面的布局和表示形式是评估质量的关键部分。因此,当您拒绝Google 访问CSS或JavaScript文件时,Google根本不喜欢它。

您(通常)不需要链接到您的站点地图

robots.txt标准支持将指向您的XML网站地图的链接添加到该文件。这有助于搜索引擎发现站点的位置和内容。

我们一直觉得这是多余的。您应该已经通过将站点地图添加到 Google Search Console和Bing网站管理员工具 帐户中来访问分析和效果数据。如果这样做,则在robots.txt文件中不需要引用。

分类
谷歌SEO优化

Robots.txt文件被谷歌索引,怎么办

John Mueller最近就如何阻止robots.txt和站点地图文件在搜索结果中建立索引提供了一些建议。

Robots.txt文件被谷歌索引,怎么办
Robots.txt文件被谷歌索引,怎么办

Gary Illyes的一条推文提示了这一建议,他随机指出,从技术上讲,robots.txt可以像其他任何URL一样被索引。尽管它为爬网提供了特殊的指导,但没有什么可以阻止它被索引的。

这是Illyes的完整推文:

“被一个内部问题触发:从索引的角度来看,robots.txt只是一个可以对其内容进行索引的url。就像任何其他URL一样,它可以变为规范或可以重复数据删除。

它仅具有爬网的特殊含义,但那里的索引状态根本不重要。”

作为对Google同事的回应,Mueller 说 x-robots-tag HTTP标头可用于阻止robots.txt或站点地图文件的索引编制。然而,这并不是他所要说的全部,因为可以说这是关键所在:

“此外,如果您的robots.txt或站点地图文件针对常规查询(而非站点:)进行排名,则通常表明您的站点确实状况不佳,应予以改善。”

因此,如果您遇到了robots.txt文件在搜索结果中排名的问题,那么使用x-robots-tag HTTP标头阻止它是一个不错的短期解决方案。但是,如果发生这种情况,那么从长远来看,可能会有更大的问题需要解决,正如Mueller建议的那样。

分类
谷歌SEO优化

请放弃使用Robots.txt Noindex指令

Google在2019年7月1日就已经正式宣布Google蜘蛛将不再遵守与索引相关的robots.txt指令。依赖Robots.txt Noindex指令的发布者必须在2019年9月1日之前将其删除,并开始使用替代方法。

请放弃使用Robots.txt Noindex指令
请放弃使用Robots.txt Noindex指令

尽管Google以前从未对此进行正式说明,但在robots.txt文件中添加noindex指令已成为受支持的功能已有十多年了,在robots.txt中结合使用noindex和disallow可以帮助优化抓取效率,其中noindex指令可阻止页面显示在搜索结果中,并且禁止停止抓取页面:

Disallow: /example-page-1/
Disallow: /example-page-2/
Noindex: /example-page-1/
Noindex: /example-page-2/

而且过去有很多SEO大师指出Google大多遵守了robots.txt noindex指令。他们当时的结论是:

“最终,Robots.txt中的NoIndex指令非常有效。在我们测试的12个案例中,有11个起作用。它可能适用于您的网站,并且由于其实现方式,它为您提供了防止爬网以及将其从索引中删除的路径。

这在概念上非常有用。但是,我们的测试并未显示出100%的成功,因此它并不总是有效。”

为什么Google宣布将不再遵守Robots.txt Noindex指令呢?

不支持noindex robots.txt指令的原因是因为它不是官方指令。正如谷歌所说:

为了维护一个健康的生态系统,并为未来可能的开源版本做准备,我们将在2019年9月1日停用所有处理不受支持和未发布规则(如noindex)的代码。

这对于使用Robots.txt Noindex站点意味着什么?

如果你之前在robots.txt文件中使用noindex,谷歌将不再支持它。

如果继续在robots.txt文件中使用noindex,您将在谷歌搜索控制台中看到一个通知。

如果放弃使用Robots.txt Noindex指令,有没有其他可替代的方案?

1. 使用“noindex”元标记阻止搜索引擎索引

为了防止搜索引擎爬行器索引页面,可以使用“noindex”元标记并将其添加到页面head标签部分。

< meta name = “robots” content =”noindex”>

或者,您可以使用HTTP响应头和一个X-Robots-Tag指示爬虫程序不索引页面

HTTP / 1.1 200 OK

(…)

X-Robots-Tag: noindex

2. 使用404和410 HTTP状态码

404状态码表示所请求的页面不存在或已被删除!

404状态码表示被请求的资源在服务器上已经不再可用。

410是当目标资源在源服务器上不再可用时返回的状态码。

这两个状态代码都表示该页面不存在,一旦对这些URL进行抓取和处理,就会从Google的索引中删除这些URL。

3. 使用密码保护

您可以在登录之后隐藏页面,因为谷歌不会索引隐藏在付费内容或登录之后的页面。

4. Robots.txt设置禁止Google Bot抓取

您可以使用robots.txt文件中的disallow指令来指示搜索引擎不允许对所选页面进行索引,这仅仅意味着告诉搜索引擎不要抓取特定的页面。

5. 使用谷歌站长工具Google Search Console删除URL工具

您可以使用谷歌站长工具Google Search Console删除URL工具从搜索结果中临时删除URL,将持续90天。如果希望永久删除,则可以使用上面建议的四种方法中的任何一种。

如果您有使用或打算继续使用Robots.txt Noindex,建议您尽早放弃使用!因为借用这种方法来禁止谷歌蜘蛛抓取已经完全失效。

分类
百度SEO优化

百度搜索资源平台检测robots,提示服务器配置有误,错误码301

在逛某问答平台的时候,有小伙伴提问在百度搜索资源平台将测并更新robots.txt,提示:“您的服务器配置有误,百度暂时无法连接您的服务器,请检查服务器的设置,确保您网站的服务器能被正常访问。错误码:301。”如下:

百度搜索资源平台检测并更新robots服务器无法访问

真的是网站服务器无法访问的原因吗?

百度搜索资源平台检测robots,提示服务器配置有误,错误码301

Step 1. 检查网站是否能正常访问?

清理掉浏览器Cookie后再访问网站,查看其是否正常。或者请不同地区的朋友帮忙查看网站是否访问正常。如果网站能正常访问,则说明服务器是正常工作的。

我检查了一下小伙伴提问的网站,发现其可以正常访问。

Step 2. 检查网站是否有robots.txt?

检查网站下是否有robots协议,在网站域名后面加上/robots.txt,如https://may90.com/robots.txt。

我也检查了小伙伴网站的robots.txt,也是正常存在的。

Step 3. 检查网站是否有确定首选域?

在浏览器中分别输入带www和不带www的域名,看是否会统一跳转到某一固定域名上。因为对搜索引擎来说,www和不带www是两个不同的网站。

我检查了一下小伙伴的网站,分别输入www和不带www的域名,发现没有做301重定向,也就是没有确定首选域。

Step 4. 在百度搜索资源平台检测并更新robots

在对应的首选域名下的百度搜索资源平台检测并更新robots.txt。

在上一步中,我有发现小伙伴的网站是没有做301重定向的,于是我试着在我的非首选域名下检测并更新robots,结果如下:

然后我在我的首选域名下检测并更新robots,结果如下:

百度搜索资源平台检测并更新robots
百度搜索资源平台检测并更新robots

以上可以大致看出百度搜索资源平台检测robots,提示服务器配置有误,错误码301的原因了,

1检查网站服务器是否能正常访问;若能正常访问,

2检查网站下的robots.txt文件是否存在;若存在,

3检查网站是否有确定首选域,

不管有没有确定首选域,只要是在非首选域名下的百度搜索资源平台账号下检测并更新robots就会提示服务器配置有误。

正确的方法是先确定网站首选域,然后在首选域对应的百度搜索资源平台账号下检测并更新robots。当然百度搜索资源平台经常出现异常,检测并更新robots时,提示“请求失败,我们已记录此问题并将尽快处理,请刷新页面或稍后再试。”这就另当别论了,是平台自己的问题了。

 

分类
SEO教程

robots协议

robots协议,又称为爬虫协议、机器人协议,简单地可以理解为是网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。就像是一个门禁设置了规则一样,哪些搜索引擎可以进入并访问哪些内容;哪些搜索引擎不可以进入或不可以访问哪些内容。本文分享SEO教程:robots协议。

robots协议

一. 什么是robots协议?

robots协议其实就是robots.txt文件,放在网站的根目录,申明网站中哪些内容可以被搜索引擎抓取。搜索引擎蜘蛛在访问某一个网站时,会检查该网站的根目录下是否有robots.txt纯文本:

①. 有robots.txt,蜘蛛就会遵守robots.txt申明来确定访问范围;

②. 没有robots.txt,蜘蛛就会访问网站上所有的内容。

二. robots协议的正确写法

什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?

三. robots协议常见问题解答

1. robots协议如何查看?

在访问网站的域名后面加上“/robots.txt”,即可访问到该站点下的robots协议。

2. robots协议被限制后,如何解除?

有时候我们在操作的过程中错误地将robots协议限制,禁止搜索引擎蜘蛛抓取,那如何快速解除呢?

①. 将robots禁止抓取,修改为允许;

②. 在百度搜索资源平台检测并更新robots协议;

百度搜索资源平台 – 数据监控 – robots – 检测并更新。

③. 在百度搜索资源平台尝试“抓取诊断”。

百度搜索资源平台 – 数据监控 – 抓取诊断 – 输入“robots.txt” – 抓取。

④. 更新sitemap,并重新提交给百度;

百度搜索资源平台 – 链接提交 – sitemap。

⑤. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);

⑥. 到百度反馈中心说明是误操作导致了robots禁封。

3. robots与nofollow有什么区别?

有的小伙伴在某些情况下不清楚是使用robots.txt还是nofollow,推荐阅读《robots与nofollow在实际应用中有什么区别?》。

4. robots协议能禁止抓取死链吗?

在SEO优化过程中难免会产生死链,很多小伙伴采取的方式是使用robots.txt将死链屏蔽掉,但这种方式真的可取吗?May觉得robots协议禁止抓取和屏蔽死链不能混为一谈,robots.txt是告诉搜索引擎哪些页面可以抓取哪些页面不可以抓取。如果要是被百度收录了的链接,后来因为某种原因变成了死链,然后使用robots.txt屏蔽掉这条死链?真的可以吗?事实证明即使禁止抓取,但是百度已存的索引却无法删除。最佳的方法就是将死链在百度搜索资源平台后台进行死链提交,然后百度快照投诉,这样才能彻底删除百度收录及索引。因此,建议大家不要使用robots协议来禁止搜索引擎抓取死链。

5. 搜索引擎蜘蛛如何处理robots.txt?

一般说来,几乎所有的主流搜索引擎蜘蛛都会遵循robots协议,当然也会存在并不遵守此协议的蜘蛛。

①. 如果搜索引擎蜘蛛无法找到网站的robots.txt文件,则会继续抓取该网站;

②. 如果搜索引擎蜘蛛找到网站的robots.txt文件,它通常会遵守此协议上的内容并按照要求来抓取该网站;

③. 如果搜索引擎蜘蛛在尝试访问网站robots.txt文件时遇到了错误,但无法确定是否存在,则不会抓取该网站。

四. 如何生成robots协议?

1. 手写规则生成

①. 新建一个.txt文档;

②. 手写规则,可以参考《什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?》中规则的写法;

③. 通过FTP上传到网站根目录;

④. 验证是否成功,在域名后面加“robots.txt”,检验是否能成功访问。

2. 站长工具生成

①. 打开站长工具网站 http://tool.chinaz.com;

②. robots文件生成 http://tool.chinaz.com/robots/;

③. 将生成的结果保存到.txt记事本,命名为robots.txt;

④. 通过FTP上传到网站根目录;

⑤. 验证。

3. 其他工具

百度搜索“robots.txt”生成工具。

以上,就是SEO教程robots协议的全部内容。

 

关键词:robots协议

分类
SEO技术

robots与nofollow在实际应用中有什么区别?

建议提前阅读相关文章:
什么是robots.txt? 如何查看robotx.txt? roots.txt限制如何解除?
如何巧用nofollow标签?

很多刚刚学习SEO优化的小伙伴,robots.txtnofollow在实际应用中总是分不清楚。首先我们先弄清两者之间的概念,再根据实际情况分析两者之间的区别。

一. 理清基本概念

1. 什么是robots.txt?

robots.txt是一个文档,存放在网站根目录。当搜索引擎蜘蛛抓取网站时,首先会检查网站上是否存在robots.txt。如果存在,搜索引擎一般都会遵循网站上的robots.txt中的规则来抓取网站内容;如果不存在,搜索引擎蜘蛛就可以访问站点上所有的内容。并不是所有的搜索引擎蜘蛛都会遵循robots.txt,但总体说来大部分搜索引擎蜘蛛都会按照robots.txt规则来抓取网站内容。

什么是robots.txt

2. 什么是nofollow?

我们可以把整个互联网中想象成为一个大型城市的地铁系统,每一站就像是一个独立的站点。搜索引擎蜘蛛想通过某种方式来爬行整个城市的所有站点,而站点与站点之间最合理的方式就是通过相互链接,最后形成一个巨大复杂的蜘蛛网,搜索引擎蜘蛛找到某一链接后会一直爬下去,不断发现新的内容。在这一过程中就会存在有的站点被链接的次数多,有的站点被链接的次数少,那是不是被链接多的站点,排名就越高呢?仅仅只是考虑链接的数量就决定站点排名的高低?曾经有人钻过空子,通过大量的垃圾外链,比如在其他网站上发布大量不相关的内容指向自己网站来提高网站排名,这似乎不太合理。于是搜索引擎改进了算法,甚至还推出了”nofollow“来规范整个链接市场。

什么是nofollow

nofollow是HTML页面中a标签的属性值,常见用法如下:

<a href="URL链接"  rel="nofollow"></a>

一旦a标签加上rel=”nofollow”后,就是在告诉搜索引擎不要追踪此”URL链接“,这个链接是不值得信任的,不要将页面的权重分给这个”URL链接“。

二. 实际应用有什么区别?

1. nofollow同robots.txt一样都能禁止搜索引擎的抓取?

答案是否定的。很多人认为链接被加上nofollow后就不会被搜索引擎抓取了,比如:

<a href="https://www.baidu.com" rel="nofollow">百度</a>

假设搜索引擎此时抓取到了May的这篇文章,在May的文章中有一个“百度”的链接,原本搜索引擎是有可能会继续爬行“百度”页面,但是它看到了“百度”加上了一个“nofollow”,这暗示着搜索引擎不能再继续抓取“百度”页面,也不能给“百度”页面传递权重。此路不通,但并不意味着搜索引擎从此就不能再抓取“百度”页面。搜索引擎还是可以通过其他途径来抓取“百度”页面的。

同理,比如某一站点使用了robots.txt来禁止搜索引擎的抓取,但在其他网站上有链接指向了这个禁止搜索引擎抓取的站点,搜索引擎仍有可能会找到该站点并将其编入索引,出现在搜索结果中。

2. nofollow与robots.txt屏蔽方式相同?

答案是否定的。nofollow针对的是单个的访问路径,是链接,挡住搜索引擎继续向前爬行的去路;而robots.txt可以禁止搜索引擎抓取某个单链接、某栏目下的所有页面,甚至是整个网站。

另外,nofollow标签可以屏蔽站外的链接;但是robots.txt只能屏蔽站内链接,两者之间还是有很大的区别。

3. 加上nofollow,这个链接就真的没什么价值了吗?

答案仍然是否定的。上文May一直在说链接被加上了nofollow,就意味着搜索引擎不会追踪此链接,也不会传递权重,那是不是意味着就没有价值了呢?比如说我们站长会经常在别人的网站上留言或跑到论坛上去回帖,我们的链接往往会被加上nofollow,难道你就不去交流互动了吗?至少增加了你网站曝光的机会,增加了用户访问你网站的入口,你网站不管在什么地方在什么时候每出现一次在用户的面前,他就有可能会来访你的网站,这不是直接增加你网站的流量吗?有效的自然流量就会推动你网站的排名。

robots.txt与nofollow傻傻分不清楚的SEO优化小伙伴,通过上文的讲解,你理清了吗?如果有任何疑问,欢迎在下方留言哦。

 

 

分类
SEO技术

什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?

一. 什么是robots.txt?

1. robots.txt是一个小文本,存放在网站的根目录。

2. robots.txt是与搜索引擎spider沟通的重要渠道,申明网站中的哪些内容可以被搜索引擎蜘蛛收录,哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉,允许搜索引擎收录的内容则可以正常展示在搜索结果中。

3. 当搜索引擎蜘蛛访问一个站点时,会首先检查该站点是否有robots.txt。如果存在,搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围;如果robots.txt不存在,搜索引擎蜘蛛就可以访问该站点上所有的内容。

百度官方建议:仅当站点中包含不希望被搜索引擎收录的内容时,才使用robots.txt;站点上所有内容都允许搜索引擎收录,则不需要使用robots.txt。

二. robots.txt的正确写法?

1. User-agent:用来描述搜索引擎robots的名字:

百度:Baiduspider

谷歌:Googlebot

360蜘蛛: 360Spider

搜狗蜘蛛:Sogou Spider

必应蜘蛛:bingbot

……

2. Disallow:用来描述不希望被访问的一组URL

描述不希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。

举例a:Disallow:/support

禁止robots访问/support.html、/supportaaa.html、/support/index.html等。

举例b:Disallow:/support/

允许robots访问/support.html、/supportaaa.html等;不允许robots访问/support/index.html、/support/abc.html等。

3. Allow:用来描述希望被访问的一组URL

用来描述希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。Allow通常与Disallow搭配使用,实现允许访问一部分网页的同时禁止访问其他URL的功能。

4. 注意:

“*”匹配任意字符, 如:User-agent: * 表示所有搜索引擎蜘蛛。

“$”匹配行结束字符,如:Disallow: /*.jpg$  表示禁止抓取所有.jpg结尾的图片。

百度官方申明:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

三. robots.txt如何查看?

在网站域名URL后加上/robots.txt,则可以访问该站点的robots.txt文件,如:https://may90.com/robots.txt

四. robots.txt限制如何解除?

很多站长在SEO优化过程中,错误地将robots.txt禁封。如何解除呢?

1. 修改robots禁封为允许,在百度站长后台检测并更新;

2. 在百度站长后台抓取检测,如遇到抓取失败,可多提交几次;

3. 更新sitemap站点地图,并重新提交给百度;

4. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);

5. 到百度反馈中心说明是误操作导致了robots禁封;

6. 申请抓取频次调整。

本次的SEO优化中的robots.txt章节就分享到这里,希望能为大家抛砖引玉,有什么问题,欢迎大家在下方留言交流。