注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

网站建设——有价值的选择

宏点网络网站建设专家 www.hongdianwangluo.com

 
 
 

日志

 
 
关于我

宏点网络(兰州宏点信息技术有限责任公司)成立于 2001年8月,主要从事政府、企业客户的网站建设、网站维护、网站推广及域名注册等因特网信息服务业务 联系电话:400-6808-205 官网:http://www.hongdianwangluo.com

网易考拉推荐

google爬虫抓取的错误和导致兰州网站建设抓取错误的原因  

2012-10-18 11:05:22|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  “抓取错误”是 Google网站管理员工具(Webmaster Tools)中最受欢迎的工具之一。它可以帮助你检查错误的链接,不仅仅是URL链接,还包行DNS解析失败、服务器链接、robots.txt 文件等问题,几乎所有网站都会出现抓取错误。

  错误可以分为两类:网站错误(site errors)和链接地址错误(URL errors)。如果在一个网站上出现多个抓取错误,那么你的网站信任度会下降,甚至会影响到排名,当然这工具对于百度优化同样有效。那么应当如何解决 Google网站管理员工具的抓取错误呢。

  通过Googlebot抓取的错误分类就看知道是什么导致抓取错误的原因了。

  一、Sitemap中的错误

  Sitemap错误往往会造成404错误页面,或在当前地图返回一个404错误页面,如果出现404错误页面请检查Sitemap中所有的链接,

  Google会不断抓取你已经删除的Sitemap,这点很郁闷,但也有办法解决:确保旧的Sitemap已经在管理员工具中被删除。如果不想被抓取,确保旧Sitemap出现404或者重新定向到新的Sitemap。

  来自Google员工Susan Moskwa解释道:

  阻止Googlebot的爬行,最好的办法是使这些网址(例如旧的sitemaps)出现404,当我们看到一个URL多次出现404后,Googlebot会停止爬行。

  二、HTTP的错误

  当一个网站上的网页(例如,当用户在浏览器中访问您的网页或Googlebot抓取页面时)到您的服务器发出请求,服务器返回HTTP状态码响应请求。

  如果出现403状态,可以不用理睬,这表明是你的主机阻止了Googlebot抓取。对于所有HTTP状态码的列表文件,可以参考Google HTTP状态码帮助页面。

  三、重定向错误

  有些错误是因为301从定向引起的,执行重定向后要注意什么:

  1:确保他们返回到正确的HTTP状态码。

  2:确保没有任何循环重定向。

  3:确保重定向指向有效的网页,而不是404页,或其他错误页,如503(服务器错误)或403(禁止抓取)

  4:确保重定向不是指向一个空页面。

  四、404错误

  404错误可能会出现在以下几个方面:

  1:删除了网站上的网页;

  2:其他网站链接到你网站上一个不存在的页面;

  3:改变了网页的名称;

  4:链接到了一个不存在的页面;

  5:网站迁移到一个新的域名不完全匹配的网站。

  五、受robots.txt限制

  还有一个原因是robots.txt文件阻止了Googlebot的抓取,如果出现大量抓取错误,第一步应该检查robots.txt

  七、超时

  网站超时也是出现抓取错误的原因之一,如果出现超时现象,Googlebot会停止抓取。超时的错误类型有:

  1:DNS超时,可以使用Nslookup 命令检测DNS,出现DNS超时最大的因素是域名服务商的DNS服务器不稳定。

  2:网址超时,在某一个特定页面,而不是整个域的错误。

  3:robots.txt超时,如果你网站有robots.txt,但服务器超时,Googlebot会假定该文件不存在。

  4:动态网页的响应时间过长而造成网页载入时间过长。

兰州宏点信息技术有限责任公司
办公地址兰州市曹家巷1号西北书城19层
联系电话0931-8426890 8426891(Fax)
公司网站
http://www.lzhongdian.com
电子邮箱kefu@lzhongdian.com

  评论这张
 
阅读(25)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017