学习搜索引擎优化,搜索引擎的工作原理是必须要了解的,今天我们要说的是百度搜索引擎的工作原理,在了解了搜索引擎的工作原理之后,就会涉及到收录方面的一些问题,那么网站不收录又与那些因素有关系呢?
我们先来了解一下什么是搜索引擎蜘蛛?搜索引擎蜘蛛是抓取信息的程序。各大搜索引擎所对应的蜘蛛又有所不同。
- 百度蜘蛛:baiduspider
- 谷歌蜘蛛:Googlebot
- 360蜘蛛:360spider
- 搜狗蜘蛛:sogounewsspider
- ……
一、搜索引擎工作流程
- 抓取:顺着链接爬行,抓取页面信息。
- 过滤:若内容质量不行就过滤,比如:采集的内容,文不对题的内容,不丰富的内容。若一些质量好的内容迟迟不收录,是因为需要一个周期,过一段时间之后就会收录的。
- 储存索引库:把有质量的信息提取和组织建立索引库。
- 展现:存放临时索引库里面的内容,经过一些算法的排序,用户在搜索某一关键词的时候,检索器根据用户输入的查询关键字,在索引库中快速检测出有价值的内容给予展现。
二、网站出现不收录的原因
- 是否允许蜘蛛抓取。首先要看的就是是否有蜘蛛来你网站抓取,然后再分析其它原因。Robots文件中禁止蜘蛛抓取,蜘蛛就不会来抓取。
- 需要一个周期。好的内容放在临时索引库里面,经过一些算法排序。若一些质量好的内容迟迟不收录,是因为这也是需要一个周期的。
- 内容质量不行。在过滤的时候就直接被过滤了。
- 蜘蛛无法进行识别的东西,那么蜘蛛直接就过滤了。蜘蛛无法识别的有哪些呢?
- Js蜘蛛识别不了,建议只用一两处即可。
- 图片上的内容,人眼可识别,但蜘蛛不能识别,需要加alt属性。
- Flash比如说视频。需在视频的上下文解释一下这个视频的主要内容。
- iframe框架。层级比较多。
- 嵌套table。
- 需要登录的信息页面。蜘蛛无法进入这样的页面。
三、注意事项
- 已收录的内容,不要改动整篇文章内容尤其是标题,不要移动,不要删除,否则就会形成死链。
- 展现结果需要一定的时间(2个月之内都是正常的)。网站上线一个星期了还没收录,这是需要一个周期时间的。
- 内容的丰富度。文字、图片、视频等。
- 吸引蜘蛛。主动向搜索引擎提交(可重复提交),链接。主动出击。
- 蜘蛛的跟踪,网站IIS日志。