爬取和收录并不是包含关系,他们两个是搜索引擎工作的环节,蜘蛛爬取页面后放入临时数据库,等内容通过审查后背放出就形成了收录。所以这两个环节是前后关系,但是没有必然的联系。
2.蜘蛛抓取页面的过程:
第一阶段:大小通吃
搜索引擎蜘蛛过来抓取时,就需要对软件的URL进行一个统一的抓取,也就是站长常说的“大小通吃”的情况。搜索引擎蜘蛛对软件中出现地链接,都会逐一加入到待抓取URL中,机械性的将新抓取的软件中的URL提取出来。这对于很多的站点来说,是比较好的情况。搜索引擎蜘蛛过来抓取时,站长可以通过软件日志有一个清楚的记录。站长可以通过软件日志分析北京软件开发及优化的基本情况,这仅仅是第一阶段。
第二阶段:软件评级
3、蜘蛛爬取成功却不放出来的原因:
蜘蛛爬取后会将页面放入到临时数据库,搜索引擎再对临时数据库中的内容进行审查,将优质的内容放出并建立索引。所以并不是说爬取就会被收录,还需要内容质量过关才能被放出来并建立索引。不同的蜘蛛抓取的页面评测也不一样,有的是低权重的蜘蛛,有的是高权重的蜘蛛和抓取待定的蜘蛛,这个可以百度搜下各种蜘蛛的情况,来做出各种应对情况
正常情况下软件提交后次日,spider会放出一个软件主页的快照。再接下来的时间内,会不断的收录索引内容页,并持续的放出。这个过程维护一月、二月、或者是三月,时间不等。如果软件已经有首页放出,说明百度蜘蛛已经有来抓取过,只是内容还没有放出来,多等待些时间即可。如果在等待收录放出的时间阶段不要做任何大的发动。比如说修改title标题、修改url等。否则会延长放出的时间,周期也会变长。
其次,如果内容和首页都没有放出来,就需要重新向百度提交,通知百度蜘蛛来抓取软件的内容,最好是提交个sitemap地图,手动提交一下。