什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?

一. 什么是robots.txt?

1. robots.txt是一个小文本,存放在网站的根目录。

2. robots.txt是与搜索引擎spider沟通的重要渠道,申明网站中的哪些内容可以被搜索引擎蜘蛛收录,哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉,允许搜索引擎收录的内容则可以正常展示在搜索结果中。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

3. 当搜索引擎蜘蛛访问一个站点时,会首先检查该站点是否有robots.txt。如果存在,搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围;如果robots.txt不存在,搜索引擎蜘蛛就可以访问该站点上所有的内容。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

百度官方建议:仅当站点中包含不希望被搜索引擎收录的内容时,才使用robots.txt;站点上所有内容都允许搜索引擎收录,则不需要使用robots.txt。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

二. robots.txt的正确写法?

1. User-agent:用来描述搜索引擎robots的名字:文章源自MAY的SEO博客-https://may90.com/tech/robots.html

百度:Baiduspider文章源自MAY的SEO博客-https://may90.com/tech/robots.html

谷歌:Googlebot文章源自MAY的SEO博客-https://may90.com/tech/robots.html

360蜘蛛: 360Spider文章源自MAY的SEO博客-https://may90.com/tech/robots.html

搜狗蜘蛛:Sogou Spider文章源自MAY的SEO博客-https://may90.com/tech/robots.html

必应蜘蛛:bingbot文章源自MAY的SEO博客-https://may90.com/tech/robots.html

……文章源自MAY的SEO博客-https://may90.com/tech/robots.html

2. Disallow:用来描述不希望被访问的一组URL文章源自MAY的SEO博客-https://may90.com/tech/robots.html

描述不希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

举例a:Disallow:/support文章源自MAY的SEO博客-https://may90.com/tech/robots.html

禁止robots访问/support.html、/supportaaa.html、/support/index.html等。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

举例b:Disallow:/support/文章源自MAY的SEO博客-https://may90.com/tech/robots.html

允许robots访问/support.html、/supportaaa.html等;不允许robots访问/support/index.html、/support/abc.html等。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

3. Allow:用来描述希望被访问的一组URL文章源自MAY的SEO博客-https://may90.com/tech/robots.html

用来描述希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。Allow通常与Disallow搭配使用,实现允许访问一部分网页的同时禁止访问其他URL的功能。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

4. 注意:文章源自MAY的SEO博客-https://may90.com/tech/robots.html

“*”匹配任意字符, 如:User-agent: * 表示所有搜索引擎蜘蛛。文章源自MAY的SEO博客-https://may90.com/tech/robots.html

“$”匹配行结束字符,如:Disallow: /*.jpg$  表示禁止抓取所有.jpg结尾的图片。

百度官方申明:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

三. robots.txt如何查看?

在网站域名URL后加上/robots.txt,则可以访问该站点的robots.txt文件,如:https://may90.com/robots.txt

四. robots.txt限制如何解除?

很多站长在SEO优化过程中,错误地将robots.txt禁封。如何解除呢?

1. 修改robots禁封为允许,在百度站长后台检测并更新;

2. 在百度站长后台抓取检测,如遇到抓取失败,可多提交几次;

3. 更新sitemap站点地图,并重新提交给百度;

4. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);

5. 到百度反馈中心说明是误操作导致了robots禁封;

6. 申请抓取频次调整。

本次的SEO优化中的robots.txt章节就分享到这里,希望能为大家抛砖引玉,有什么问题,欢迎大家在下方留言交流。

 

 

  • 我的微信
  • 扫一扫微信,添加好友
  • weinxin
  • 我的微信公众号
  • 关注公众号,了解最新动态
  • weinxin
  • 本文由 发表于 2018年12月12日
  • 转载请务必保留本文链接:https://may90.com/tech/robots.html
如何正确使用robots.txt文件? 谷歌SEO优化

如何正确使用robots.txt文件?

当您网站在进行SEO优化工作时,robots.txt文件是一个功能强大的工具,但应谨慎对待。它可以允许或拒绝搜索引擎访问不同的文件和文件夹,我们应该如何正确使用robots.txt文件? 搜索引擎不断...
评论  0  访客  0

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定