站长必看:搜索引擎工作原理详解

搜索引擎工作原理包含了爬行抓取,建立索引(预处理),排名这3个阶段。

爬行和抓取

蜘蛛首页是会爬行一个刚刚建立起的新站的url。想要更快速的收录,就是及时准确的向搜索引擎提交网站的首页(重复提交无效)。蜘蛛在访问任何一个网站时,首先查看的根目录下的robots.txt文件。

蜘蛛为了尽量抓取页面,会随着链接进行爬行。爬行的方式包含了深度和广度。注意内链环环相扣,外链单向链接,注意不要复杂化。

抓取时建立唯一与之对应的URL存入地址库,保留HTML页面,在爬行和抓取的过程中一定的进行重复内容的检验。发现重复高者则爬行中断。

建立索引

从HTML页面代码中提取文字信息,因此,减少搜索引擎提取文字的难度是很重要的,搜索引擎对图片,flash等识别弱,同时会影响打开网页的速度。

进行中文分词,进行匹配度,中文分词包含词典匹配和基于统计。

去停止词,对于网页中出现较多的“的”,“地”等无关紧要的词去掉

检验重复,对文章内容重复的进行检验,去重的过程很复杂,自己也没怎么明白,还待思考。

建立正向索引,即一个文件对应多个关键词。

建立倒向索引,由正向索引而来,一个关键词对应多个文件。

排名

搜索引擎中文分析,将要查询的关键词转换成“与”的关键词组合,同时可以利用百度快照来了解目标关键词的中文分词情况。

同样去掉停止词

根据指令的不同,查询的含义也不同,结构也不同。

匹配度与权重的考虑,在百度搜索引擎中,关键词权重优先级大于匹配度

排名过滤和显示。

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容