百度搜索引擎工作大致可以分为四步:1.蜘蛛抓取建库;2.库内检索排序;3.外部链接;4.结果显示。
百度蜘蛛从一些重要的种子url开始,通过页面上的超链接关系,不断的发现新URL并抓取网页。对于类似百度这样的大型spIDEr系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。
二、建立索引,检索排序
抓取入库后,对页面进行分析,页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywoRDS、content、link、anchor、评论、其他非重要区域等等。
然后再需要进行分词,分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
前面的工作完成后,接下来即是建立倒排索引,形成{termàdoc}
接下来就要进行排序,影响搜索结果排序的因素:相关性、权威性、时效性、重要性、丰富度、受欢迎程度,以上便是百度搜索引擎决定搜索结果排序时考虑的六大原则。
三、外部链接,即为外链
通过超链计算得分来体现网页的相关性和重要性,的确曾经是搜索引擎用来评估网页的重要参考因素之一,会直接参与搜索结果排序计算。但随着该技术被越来越多的seo人员了解,超链已经逐渐失去作为投票的重要意义,无论是谷歌还是百度,对超链数据的依赖程度都越来越低。那么,在现在,超链在发挥着怎样的作用?
吸引蜘蛛抓取、向搜索引擎传递相关性信息、提升排名,所以外链的作用从未改变~
四、搜索结果展现
2.图片不能太小,初步怀疑过小的图片是不展现的。
3.图片长宽比推荐为2:1,如:440px:220px。
4.作者发现百度对动态图片不是那么友好,大多数情况百度缩略图抓取的都是静态的固定图片。
5.网页包含多张图片,百度会优先抓取网页上半部分的第一张图为缩略图。有时候也有例外,但总体还是第一张图居多。
6.第6点和第4点有点相似,网页即有动态图片又有静态图片,且动态图片排在静态图片之前,百度抓哪个?作者发现一般情况是百度会抓取静态的第一张图片为缩略图。
7.百度抓取缩略图和图片alt标签并没有直接关系。
8.百度是否抓取缩略图以及图文标示和网站质量、文章质量有一定关系。因为不难理解,上文说了百度知心算法是要让更多优质的内容推荐给用户。
9.建议大家在写文章的时候最好是图文并茂,且文章上半部分要出现一张图。
10.百度搜索结果页缩略图会根据搜索词不同而给予不同的展示,猜想是搜索域名或者品牌词会展示“关于我们”栏目里的图片,搜索产品词会展示产品缩略图。