搜索引擎工作原理简介-

第三节：搜索引擎工作原理简介搜索引擎工作过程n搜索引擎的工作过程大体上可以分为三个阶段：搜索引擎的工作过程大体上可以分为三个阶段：一：爬行和抓取一：爬行和抓取-搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。二：预处理二：预处理-索引程序对抓取来的页面数据进行文字提取，中文分词，索引等处理，以备排名程序调用。三：排名三：排名-用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。第一步：爬行和抓取n爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。n1、蜘蛛、蜘蛛定义：搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。爬行方式：多个蜘蛛并发分布爬行。爬行抓取规则：蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt。蜘蛛身份：每一个搜索引擎的蜘蛛名称也不同，如下： Baiduspider+ 百度蜘蛛 Sogou+web+robot+ 搜狗蜘蛛 Sosospider+ 搜搜蜘蛛第一步：爬行和抓取n2、跟踪链接、跟踪链接整个互联网是由相互链接的网站及页面组成的，蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进行。爬行策略-1、深度优先；2、广度优先爬行和抓取n3、吸引蜘蛛、吸引蜘蛛问：为何要吸引蜘蛛？答：单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面，但是实际上不能，也不会这么做，在这种前提下，蜘蛛所要做的就是尽量抓取重要页面。所以，我们SEO人员要想让自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取。n被搜索引擎认为符合重要页面的几个因素： 1、网站和页面权重 2、页面更新度 3、导入链接 4、与首页点击距离第一步：爬行和抓取n4、地址库、地址库为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。地址库中URL的来源： 1、人工录入的种子网站 2、蜘蛛抓取后从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问地址库。 3、站长通过搜索引擎网站提交入口提交进来的网址。蜘蛛会按照重要性从待访问地址库中提取URL，访问并抓取页面，然后把这个URL从待访问地址库中删除，放进已访问地址库中。备注备注：搜索引擎所收录的大部分页面是蜘蛛自己根据跟踪链接得到的，搜索引擎更喜欢自己沿着链接发现新页面。第一步：爬行和抓取n5、文件存储、文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据域用户浏览器得到的HTML是完全一样的，每个URL都有一个独特的文件编号。n6、爬行时的复制内容检测、爬行时的复制内容检测通常删除复制内容是在预处理步骤中执行的，但是现在蜘蛛在爬行和抓取文件时，也会进行一定程度的复制内容检测，遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。实践情况：有的站长在自己网站日志中发现了蜘蛛，但是页面从来没有被真正的收录过的原因。第二步：预处理n在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的步骤。n搜索引擎预处理工作内容：搜索引擎预处理工作内容： 1、提取文字除去HTML代码后，剩下的用于排名的文字只是这一行：新浪首页备注：备注：除了可见文字，搜索引擎也会提取出一些特殊的包含文字信息的代码，如：META标签中的文字，图片替代文字，Flash文件中的替代文字，链接锚文字等。第二步：预处理n2、中文分词、中文分词-分词是中文搜索引擎特有的步骤分词意义：分词意义：搜索引擎存储和处理页面及用户搜索都是以词为基础的。分词如：“减肥方法”将被分词为“减肥”和“方法”两个词中文分词方法基本上有两种：中文分词方法基本上有两种： 1、基于词典匹配-将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。 2、基于统计-指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。第二步：预处理n3、去停止词、去停止词停止词停止词-无论是英文还是中文，页面内容中都会出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词，这些词被称为停止词。因为这些停止词对页面的主要意思没什么影响，所以搜索引擎索引页面之前会去掉停止词，使索引数据主题更为突出，减少无谓的计算量。第二步：预处理n4、消除噪声、消除噪声定义定义：除了停止词以外，对页面主题没有什么贡献的因素被称为页面噪声。比如比如：博客页面的“文章分类”、“历史存档”等。消噪的基本方法：消噪的基本方法：根据HTML标签对页面分块，区分出页头，导航，正文，页脚，关高等区域，在网站上大量重复出现的区块旺旺属于噪声。对页面进行消噪后，剩下的才是页面主题内容。第二步：预处理n5、去重、去重搜索引擎在进行索引前还需要识别和删除重复内容，这个过程就称为“去重” 去重的意义-提升用户体验（搜索引擎不喜欢重复性内容）去重方法： “去重”的基本方法是对页面特征关键词计算指纹，也就是说从页面主题内容中选取最有代表性的一部分关键词（经常是出现频率最高的关键词），然后计算这些关键词的数字指纹。百度2013年针对原创内容的判定和保护-“星火计划” 拓展阅读：http:/zhanzhang.baidu.com/wiki/172第二步：预处理n6、正向索引、正向索引正向索引也可以简称为索引搜索引擎索引程序将页面及关键词形成词表结构存储进索引库。简化的索引词表形式如下图：文件文件ID内容内容文件1关键词1、关键词2、关键词7、关键词10、文件2关键词1、关键词7、关键词30、文件3关键词2、关键词70、关键词305，、文件4关键词2、关键词7、关键词10，、文件N关键词7，关键词50，关键词90，、第二步：预处理n7、倒排索引、倒排索引正向索引还不能用于排名，最终用于排名的是倒排索引。所以搜索引擎会将正向索引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词的文件的映射，如下图：关键词关键词文文件件关键词1文件1、文件2、文件15、文件58，、关键词2文件1，文件3，文件6，文件m、关键词3文件5，文件700，文件805，、关键词4文件1，文件2，文件6,，、文件N文件80，文件90，文件100，、第二步：预处理n8、链接关系计算、链接关系计算链接关系计算也是预处理中很重要的一部分。搜索引擎在抓取页面内容后，必须事前计算出：页面上有哪些链接指向哪些其他页面每个页面有哪些导入链接链接使用了什么锚文字这些复杂的链接指向关系形成了网站和页面的链接权重。第二步：预处理n9、特殊文件处理、特殊文件处理搜索引擎除了可以抓取HTML文件外，通常还能抓取和索引以文字为基础的多种文件类型，如：PDF、WORDS、WPS、PPT、TXT等文件。目前搜索引擎还不能处理图片、视频、Flash这类非文字内容，也不能执行脚本和程序。第三步：排名n一：搜索词处理一：搜索词处理 1、中文分词 2、去停止词 3、指令处理（搜索引擎的默认处理方式是在关键词之间使用“与”逻辑）如：用户搜索“减肥方法”，程序分词为“减肥”和“方法”两个词，搜索引擎排序时默认为，用户寻找的是既包含“减肥”，也包含“方法”的页面。只包含“减肥”不包含“方法”的页面或者只包含“方法”不包含“减肥”的页面被认为是不符合搜索条件的。实际上我们还是会看到只包含一部分关键词的搜索结果。第三步：排名n二：文件匹配二：文件匹配关键词关键词文文件件关键词1文件1、文件2、文件15、文件、关键词2文件1、文件3、文件6、文件、关键词3文件5、文件40、文件700、文件、关键词4文件1、文件2、文件6、文件、关键词X文件20、文件50、文件800、文件、第三步：排名n四：相关性计算四：相关性计算相关性计算是排名过程中最重要的一步，也是搜索引擎算法中最令SEO感兴趣的部分。 1、词频及密度 2、关键词位置及性质 3、关键词距离 4、链接页相关性分析第三步：排名n五：排名过滤及调整五：排名过滤及调整针对作弊的网站实施惩罚，对排名进行微调。n六：排名显示六：排名显示确定排名后，排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。