蜘蛛黑洞其实就是蜘蛛陷阱中最常见的一种,可能是由于网站程序细节上的处理不到位而形成,也有可能是黑帽 SEO 手段的故意为止,总之这就是对搜索引擎非常不友好,并且不利于网站的长期运营和 SEO 优化。
1.什么是蜘蛛黑洞?
百度官方早在几年前就对蜘蛛黑洞做过解释:对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多,及内容雷同但具体参数不同的动态 URL ,就像一个无限循环的“黑洞”将 spider 困住,Baiduspider 浪费了大量资源抓取的却是无效网页。
子凡所服务的一个公司就曾花钱找网络公司给做过所谓的“全网营销网站”,通过搜索引擎的 sitie 查看 Google 的收录可以达到上万的索引数据,而通过百度可以查到仅有 1 条首页结果,其中大量的重复页面均是由于动态 URL 链接造成,只要文章的 ID 一致,其它任意参数都会是一个一模一样的页面。
再比如很多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分检索价值不高,如“500-1000 之间价格的租房”,首先网站(包括现实中)上基本没有相关资源,其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取,只能是占用网站宝贵的抓取配额。
2.如何避免蜘蛛黑洞?
由于蜘蛛黑洞大多是由于动态 URL 链接造成,一方面是从网站技术上杜绝这样的情况,保证动态 URL 的唯一性,非规范的 URL 应该返回 404 状态或者跳转。
同样根据百度官方的推荐方式还可以巧用 robots 避免蜘蛛黑洞,robots.txt 的文件用法中有这样一条规则:Disallow: /*?* ,即禁止搜索引擎访问网站中所有的动态页面。该网站恰是通过这种方式,对 Baiduspider 优先展示高质量页面、屏蔽了低质量页面,为 Baiduspider 提供了更友好的网站结构,避免了黑洞的形成。
在网站的 robots.txt 文件中添加一行 Disallow: /*?*规则,主流的搜索引擎都是能够支持和遵守的,能够更有利于网站的优化与内容的运营。