百度搜索近期将上线的“劲风算法”,旨在控制恶意构造聚合页的问题对搜索用户的影响,为保障搜索用户的体验、保证搜索结果公平,该算法针对搜索结果中通过恶意构造聚合页面内容来获取搜索排名的行为(PS:具体介绍可参考『百度劲风算法针对所有网站及智能小程序,建议及时排查整改』)。那么我们的个人博客网站命中劲风算法后应该如何进行整改及恢复呢?
1、针对网站领域过于分散的
建议确定好一个主要的领域,且将其他领域的内容 robots 掉,屏蔽搜索引擎抓取,且不再参与搜索引擎排名;或对其他领域的内容进行删除,并将删除的内容 URL 在百度搜索资源平台提交 404,确保网站无恙。
2、针对题文不相符的
可以对应每一个聚合页的主题进行审查,确保聚合页下内容都是针对当前聚合页主题所延展的相关内容。通过内容相似度计算的方式将网页内的主体文本进行提取计算,得出当前聚合页的主题与内容的相似度得分,并通过实际观察,确保相似度得分在哪个值上,是可以解决搜索用户需求的。
3、针对利用搜索批量生成的
针对搜索调取的内容相关进行大幅度提升,从而提升用户体验度。利用相似度判断方式,让编辑协助完成(所计划的相似度得分值)聚合页的内容撰写工作。如最终还是无法确保满足用户需求的,建议删除或者 robots 操作。
4、针对内容为空或过于少,甚至无效的
将更多品类的内容进行搜索整理,从而提升聚合页下内容整体的丰富度,前期要保证相关性。其次,可将聚合页关键词进行分类。例如:爬虫抓取、爬虫算法、搜索引擎爬虫、baiduspider,被认为是一类聚合页。当内容为空或少于 X 条时,可以通过扩展调取的维度进行补全。
另外,由于所做的 404 页面已被收录或者爬虫抓取了,建议再提交百度搜索资源平台的死链提交工具进行完备,确保不会让搜索引擎认为网站存在大量死链接。