搜索引擎工作原理包含了爬行抓取,建立索引(预处理),排名这3个阶段。
爬行和抓取
蜘蛛首页是会爬行一个刚刚建立起的新站的url。想要更快速的收录,就是及时,准确的向搜索引擎提交网站的首页(重复提交无效)。蜘蛛在访问任何一个网站时,首先查看的根目录下的robots.txt文件。
蜘蛛为了尽量抓取页面,会随着链接进行爬行。爬行的方式包含了深度和广度。注意内链环环相扣,外链单向链接,注意不要复杂化。
抓取时建立唯一与之对应的URL存入地址库,保留HTML页面,在爬行和抓取的过程中一定的进行重复内容的检验。发现重复高者则爬行中断。
建立索引
从HTML页面代码中提取文字信息,因此,减少搜索引擎提取文字的难度是很重要的,搜索引擎对图片,flash等识别弱,同时会影响打开网页的速度。
进行中文分词,进行匹配度,中文分词包含词典匹配和基于统计。
去停止词,对于网页中出现较多的“的”,“地”等无关紧要的词去掉
检验重复,对文章内容重复的进行检验,去重的过程很复杂,自己也没怎么明白,还待思考。
建立正向索引,即一个文件对应多个关键词。
建立倒向索引,由正向索引而来,一个关键词对应多个文件。
排名
搜索引擎中文分析,将要查询的关键词转换成“与”的关键词组合,同时可以利用百度快照来了解目标关键词的中文分词情况。
同样去掉停止词
根据指令的不同,查询的含义也不同,结构也不同。
匹配度与权重的考虑,在百度搜索引擎中,关键词权重优先级大于匹配度。
排名过滤和显示。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容