什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除？

MAY的SEO博客

2018年12月12日SEO技术已关闭评论6,5052

一. 什么是robots.txt？

1. robots.txt是一个小文本，存放在网站的根目录。

2. robots.txt是与搜索引擎spider沟通的重要渠道，申明网站中的哪些内容可以被搜索引擎蜘蛛收录，哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉，允许搜索引擎收录的内容则可以正常展示在搜索结果中。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

3. 当搜索引擎蜘蛛访问一个站点时，会首先检查该站点是否有robots.txt。如果存在，搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围；如果robots.txt不存在，搜索引擎蜘蛛就可以访问该站点上所有的内容。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

百度官方建议：仅当站点中包含不希望被搜索引擎收录的内容时，才使用robots.txt；站点上所有内容都允许搜索引擎收录，则不需要使用robots.txt。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

二. robots.txt的正确写法？

1. User-agent：用来描述搜索引擎robots的名字：文章源自MAY的SEO博客-https://may90.com/tech/robots.html

百度：Baiduspider文章源自MAY的SEO博客-https://may90.com/tech/robots.html

谷歌：Googlebot文章源自MAY的SEO博客-https://may90.com/tech/robots.html

360蜘蛛： 360Spider文章源自MAY的SEO博客-https://may90.com/tech/robots.html

搜狗蜘蛛：Sogou Spider文章源自MAY的SEO博客-https://may90.com/tech/robots.html

必应蜘蛛：bingbot文章源自MAY的SEO博客-https://may90.com/tech/robots.html

……文章源自MAY的SEO博客-https://may90.com/tech/robots.html

2. Disallow：用来描述不希望被访问的一组URL

描述不希望被访问的一组URL，可以是一个完整的URL路径，也可以是路径的非空前缀。

举例a：Disallow:/support

禁止robots访问/support.html、/supportaaa.html、/support/index.html等。

举例b：Disallow:/support/

允许robots访问/support.html、/supportaaa.html等；不允许robots访问/support/index.html、/support/abc.html等。

3. Allow：用来描述希望被访问的一组URL

用来描述希望被访问的一组URL，可以是一个完整的URL路径，也可以是路径的非空前缀。Allow通常与Disallow搭配使用，实现允许访问一部分网页的同时禁止访问其他URL的功能。

4. 注意：

“*”匹配任意字符，如：User-agent: * 表示所有搜索引擎蜘蛛。

“$”匹配行结束字符，如：Disallow: /*.jpg$ 表示禁止抓取所有.jpg结尾的图片。

百度官方申明：百度会严格遵守robots的相关协议，请注意区分您不想被抓取或收录的目录的大小写，百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配，否则robots协议无法生效。

三. robots.txt如何查看？

在网站域名URL后加上/robots.txt，则可以访问该站点的robots.txt文件，如：https://may90.com/robots.txt

四. robots.txt限制如何解除？

很多站长在SEO优化过程中，错误地将robots.txt禁封。如何解除呢？

1. 修改robots禁封为允许，在百度站长后台检测并更新；

2. 在百度站长后台抓取检测，如遇到抓取失败，可多提交几次；

3. 更新sitemap站点地图，并重新提交给百度；

4. 使用链接提交工具，向搜索引擎推送数据（主动推送或实时推送）；

5. 到百度反馈中心说明是误操作导致了robots禁封；

6. 申请抓取频次调整。

本次的SEO优化中的robots.txt章节就分享到这里，希望能为大家抛砖引玉，有什么问题，欢迎大家在下方留言交流。

我的微信

扫一扫微信，添加好友

weinxin

我的微信

我的微信公众号

关注公众号，了解最新动态

weinxin

我的公众号

本文由 MAY的SEO博客 发表于 2018年12月12日
转载请务必保留本文链接：https://may90.com/tech/robots.html

robots.txt

robots协议

robots协议

SEO教程 6,924 07/15 6

如何正确使用robots.txt文件？

如何正确使用robots.txt文件？

谷歌SEO优化 6,156 11/11

如何禁止网页被搜索引擎索引

如何禁止网页被搜索引擎索引

谷歌SEO优化 14,343 11/11

robots与nofollow在实际应用中有什么区别？

robots与nofollow在实际应用中有什么区别？

SEO技术 9,859 03/19 10

302和307重定向应该使用哪个重定向？

302和307重定向应该使用哪个重定向？

何时使用301重定向与302重定向？

何时使用301重定向与302重定向？

这些疯狂SEO技巧可提高网站排名？

这些疯狂SEO技巧可提高网站排名？

HTTP状态码完整清单

HTTP状态码完整清单

[网站提交入口]搜索引擎收录网站提交入口

[网站提交入口]搜索引擎收录网站提交入口

黑帽SEO是什么？常见黑帽SEO技术有哪些？

黑帽SEO是什么？常见黑帽SEO技术有哪些？

首选域是什么？如何设置网站首选域？

首选域是什么？如何设置网站首选域？

301 302 307重定向指南

301 302 307重定向指南

404错误页面返回200状态码，如何处理？

404错误页面返回200状态码，如何处理？

如何长期保持网站内容新鲜和最新？

如何长期保持网站内容新鲜和最新？

302和307重定向应该使用哪个重定向？

加载中...

如何禁止网页被搜索引擎索引

如何禁止网页被搜索引擎索引

目前仍然有人仅使用robots.txt文件来阻止他们的网站在Google或Bing中建立索引。结果，他们的网站仍然出现在搜索引擎中。你知道为什么会出现这样的结果吗？因为robots.txt实际上不会执...

2019年11月11日14,343已关闭评论

如何正确使用robots.txt文件？

如何正确使用robots.txt文件？

当您网站在进行SEO优化工作时，robots.txt文件是一个功能强大的工具，但应谨慎对待。它可以允许或拒绝搜索引擎访问不同的文件和文件夹，我们应该如何正确使用robots.txt文件？搜索引擎不断...

2019年11月11日6,156已关闭评论

Robots.txt文件被谷歌索引，怎么办

Robots.txt文件被谷歌索引，怎么办

John Mueller最近就如何阻止robots.txt和站点地图文件在搜索结果中建立索引提供了一些建议。 Gary Illyes的一条推文提示了这一建议，他随机指出，从技术上讲，robots.tx...

2019年11月8日5,6192

请放弃使用Robots.txt Noindex指令

请放弃使用Robots.txt Noindex指令

Google在2019年7月1日就已经正式宣布Google蜘蛛将不再遵守与索引相关的robots.txt指令。依赖Robots.txt Noindex指令的发布者必须在2019年9月1日之前将其删除，...

2019年10月27日7,1653

百度搜索资源平台检测robots，提示服务器配置有误，错误码301

百度搜索资源平台检测robots，提示服务器配置有误，错误码301

在逛某问答平台的时候，有小伙伴提问在百度搜索资源平台将测并更新robots.txt，提示：“您的服务器配置有误，百度暂时无法连接您的服务器，请检查服务器的设置，确保您网站的服务器能被正常访问。错误码：...

2019年10月16日46,7442