网站链接可以点击打开页面,但是网站日志中爬虫显示为死链接(如何发现网站死链,请查看下载死链检测工具:死链检测工具Xenu)。
【详述】:死链产生的原因是:因为友链页面上线时候,程序员没加内容,自动返回404了,而且是网站每个页面底下都会出现,才会出现这么多死链接。但是及时处理之后,还会有爬虫爬的结果是死链,我正常点击是没问题的,不知道为啥?最重要的是我现在能做些什么挽救下吗?
网站死链
【解决方案】:根据我的经验,这个时间仅作为参考吧,毕竟无法考证。(日志里看不到蜘蛛在这个时间对死链URL的抓取)我猜测中间流程是这样的:(如何处理死链,seo大神分享死链解决方案教你如何处理预防网站死链)
(1)蜘蛛抓取了死链前链URL,缓存到百度的页面库中;
(2)蜘蛛发现死链URL返回了404,并且持续一段时间访问,依然返回404(用于判断该页面是否为临时404,当持续返回404次数到一定阈值后,不再访问,认定该URL是死链),将该URL纳入死链库;
(3)抓取导出了死链的页面,判断这些页面上是否依然导出了死链,如果依然导出,则记录该次抓取时间;
(4)注意,第三步,可能只会抓取死链前链的页面,不会再对死链URL进行抓取(即使死链URL现在已经好了,但没能在短时间内正常返回状态码/页面信息,所以不会再被抓取);
【死链对网站的影响】尽量从程序上严谨地进行设计,死链问题虽小,但可能会因为出现的时间长、范围广,而影响到整体网站的表现具体为:
(1)导出死链的页面,评分会受到影响(如果有多数页面,因为导出死链而在页面评级层面从优质>一般>低质进行转变的话,对整个网站也是一种损失);
(2)如果经常导出死链,可能会使网站的内容质量受到怀疑(特别是使用了页面提交的情况下,可能会使得搜索引擎分配给网站的资源配额降低。
综合起来,死链这个问题还是要严格控制的。试想一下,页面导出黑链、垃圾页面、低质量页面,就已经够页面受的了,导出让搜索引擎根本无法识别的页面,搜索引擎会喜欢吗?