什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?

MAY的SEO博客
MAY的SEO博客
MAY的SEO博客
614
文章
770
评论
2018年12月12日13:44:41 评论 4,792

一. 什么是robots.txt?

1. robots.txt是一个小文本,存放在网站的根目录。

2. robots.txt是与搜索引擎spider沟通的重要渠道,申明网站中的哪些内容可以被搜索引擎蜘蛛收录,哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉,允许搜索引擎收录的内容则可以正常展示在搜索结果中。

3. 当搜索引擎蜘蛛访问一个站点时,会首先检查该站点是否有robots.txt。如果存在,搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围;如果robots.txt不存在,搜索引擎蜘蛛就可以访问该站点上所有的内容。

百度官方建议:仅当站点中包含不希望被搜索引擎收录的内容时,才使用robots.txt;站点上所有内容都允许搜索引擎收录,则不需要使用robots.txt。

二. robots.txt的正确写法?

1. User-agent:用来描述搜索引擎robots的名字:

百度:Baiduspider

谷歌:Googlebot

360蜘蛛: 360Spider

搜狗蜘蛛:Sogou Spider

必应蜘蛛:bingbot

……

2. Disallow:用来描述不希望被访问的一组URL

描述不希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。

举例a:Disallow:/support

禁止robots访问/support.html、/supportaaa.html、/support/index.html等。

举例b:Disallow:/support/

允许robots访问/support.html、/supportaaa.html等;不允许robots访问/support/index.html、/support/abc.html等。

3. Allow:用来描述希望被访问的一组URL

用来描述希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。Allow通常与Disallow搭配使用,实现允许访问一部分网页的同时禁止访问其他URL的功能。

4. 注意:

“*”匹配任意字符, 如:User-agent: * 表示所有搜索引擎蜘蛛。

“$”匹配行结束字符,如:Disallow: /*.jpg$  表示禁止抓取所有.jpg结尾的图片。

百度官方申明:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

三. robots.txt如何查看?

在网站域名URL后加上/robots.txt,则可以访问该站点的robots.txt文件,如:https://may90.com/robots.txt

四. robots.txt限制如何解除?

很多站长在SEO优化过程中,错误地将robots.txt禁封。如何解除呢?

1. 修改robots禁封为允许,在百度站长后台检测并更新;

2. 在百度站长后台抓取检测,如遇到抓取失败,可多提交几次;

3. 更新sitemap站点地图,并重新提交给百度;

4. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);

5. 到百度反馈中心说明是误操作导致了robots禁封;

6. 申请抓取频次调整。

本次的SEO优化中的robots.txt章节就分享到这里,希望能为大家抛砖引玉,有什么问题,欢迎大家在下方留言交流。

 

 

  • 我的微信
  • 扫一扫微信,添加好友
  • weinxin
  • 我的微信公众号
  • 关注公众号,了解最新动态
  • weinxin
MAY的SEO博客
  • 本文由 发表于 2018年12月12日13:44:41
  • 转载请务必保留本文链接:https://may90.com/tech/robots.html
如何禁止网页被搜索引擎索引 谷歌SEO优化

如何禁止网页被搜索引擎索引

目前仍然有人仅使用robots.txt文件来阻止他们的网站在Google或Bing中建立索引。结果,他们的网站仍然出现在搜索引擎中。你知道为什么会出现这样的结果吗?因为robots.txt实际上不会执...
如何正确使用robots.txt文件? 谷歌SEO优化

如何正确使用robots.txt文件?

当您网站在进行SEO优化工作时,robots.txt文件是一个功能强大的工具,但应谨慎对待。它可以允许或拒绝搜索引擎访问不同的文件和文件夹,我们应该如何正确使用robots.txt文件? 如何正确使用...
Robots.txt文件被谷歌索引,怎么办 谷歌SEO优化

Robots.txt文件被谷歌索引,怎么办

John Mueller最近就如何阻止robots.txt和站点地图文件在搜索结果中建立索引提供了一些建议。 Robots.txt文件被谷歌索引,怎么办 Gary Illyes的一条推文提示了这一建议...
请放弃使用Robots.txt Noindex指令 谷歌SEO优化

请放弃使用Robots.txt Noindex指令

Google在2019年7月1日就已经正式宣布Google蜘蛛将不再遵守与索引相关的robots.txt指令。依赖Robots.txt Noindex指令的发布者必须在2019年9月1日之前将其删除,...
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: