nutch爬虫系统分析-－金锄头文库

nutch 爬虫系统分析Nutch 分析1Nutch 简介.2 1.1nutch 体系结构.2 2抓取部分.3 2.1爬虫的数据结构及含义.3 2.2抓取目录分析.4 2.3抓取过程概述.4 2.4抓取过程分析.5 2.4.1inject 方法.6 2.4.2generate 方法.12 2.4.3fetch 方法.14 2.4.4parse 方法.16 2.4.5update 方法.16 2.4.6invert 方法.19 2.4.7index 方法.23 2.4.8dedup 方法.26 2.4.9merge 方法.30 3配置文件分析.31 3.1nutch-default.xml 分析.313.1.1.31 3.1.2.32 3.1.3.35 3.1.4.37 3.1.5.41 3.1.6.42 3.1.7.43 3.1.8.45 3.1.9.45 3.1.10.45 3.1.11.48 3.1.12.48 3.1.13.49 3.1.14.49 3.1.15.51 3.1.16.52 3.1.17.52 3.1.18.53 3.1.19.53 3.1.20.54 3.1.21.55 3.1.22.55 3.1.23.55 3.1.24.56nutch 爬虫系统分析3.1.25.56 3.2regex-urlfilter.txt 解析.58 3.3regex-normalize.xml 解析.58 3.4总结.59 4参考资源.591 1 NutchNutch 简介简介1.11.1 nutchnutch 体系结构体系结构nutch 爬虫系统分析2 抓取部分抓取部分2.12.1 爬虫的数据结构及含义爬虫的数据结构及含义爬虫系统是由 Nutch 的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来：包括 web database、一系列的 segment 和 index。接下来我们将详细描述他们。三者的物理文件分别存储在爬行结果目录下的 crawldb 文件夹内，segments 文件夹和 inde x 文件夹内。那么三者分别存储的信息是什么呢？ Web database，也叫 WebDB，其中存储的是爬虫所抓取网页之间的链接结构信息，它只在爬虫 Crawler 工作中使用而和 Searcher 的工作没有任何关系。WebDB 内存储了两种实体的信息：page 和 link。Page 实体通过描述网络上一个网页的特征信息来表征一个实际的网页，因为网页有很多个需要描述，WebDB 中通过网页的 URL 和网页内容的 MD5 两种索引方法对这些网页实体进行了索引。Page 实体描述的网页特征主要包括网页内的 link 数目，抓取此网页的时间等相关抓取信息，对此网页的重要度评分等。同样的，Link 实体描述的是两个 page 实体之间的链接关系。WebDB 构成了一个所抓取网页的链接结构图，这个图中 Page 实体是图的结点，而 Link 实体则代表图的边。一次爬行会产生很多个 segmen