大家都知道,我们平时习惯用百度进行搜索,而百度正好能够展现给用户想要的,而这里就涉及一个百度搜索引擎的工作原理,其他搜索引擎比如360、搜狗也都一样,机器有一套的程序算法,当用户搜索相关词时,能够给与展现的机会。
搜索引擎工作原理流程主要分为四个阶段:
第一,抓取阶段:在互联网中,搜索引擎蜘蛛来网站页面进行深度、广度的信息抓取;我们知道的搜索蜘蛛名称有baiduspider、360Spider、Googlebot、SogouNewsSpider、Yahoo!SlurpChina或者Yahoo、YoudaoBot等等。
第二,过滤阶段:
搜索引擎蜘蛛过滤掉低价值质量的网站内容信息,建立临时数据库。比如过滤掉没有内容,过滤掉页面仅一个图片的,或者过滤重复内容的。网站收录,就是这一个步骤实现的。
第三,索引阶段:
搜索引擎对有质量价值的信息进行提取,将提取信息组织并放到所建立的索引库中存储。蜘蛛抓取之后,会将数据存放在一个临时数据库,再从临时数据库中调出更有价值的数据建立索引库。
第四,展示排序阶段:
当用户在搜索引擎上输入一个关键词时,检索系统处理搜索请求,将其搜索根据各种算法进行计算排序,把用户搜索的某个关键词或用户搜索相近的关键词展现在首页的位置,这就是用户在搜索引擎上输入一个词看到的内容展示排序的结果。
页面排序取决于页面的权重,权重取决于三个方面:相关性、链接权重、用户行为
当然,第一和第二阶段也可称为爬行和抓取过程,接下来是索引过程,最后就是用户检索过程,搜索词经过处理后进行排序。搜索引擎发展到爬虫抓取2.0时代时,是由计算机算法决定的,计算机算法也不断在更新升级以及人工智能化,才最终展现的越来越精准。搜索引擎关键词排名实际就是配合搜索引擎的工作原理而产生的,是为了更好的用户体验而存在的。