资源预览内容
第1页 / 共59页
第2页 / 共59页
第3页 / 共59页
第4页 / 共59页
第5页 / 共59页
第6页 / 共59页
第7页 / 共59页
第8页 / 共59页
第9页 / 共59页
第10页 / 共59页
亲,该文档总共59页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
nutch 爬虫系统分析Nutch 分析1Nutch 简介.2 1.1nutch 体系结构.2 2抓取部分.3 2.1爬虫的数据结构及含义.3 2.2抓取目录分析.4 2.3抓取过程概述.4 2.4抓取过程分析.5 2.4.1inject 方法.6 2.4.2generate 方法.12 2.4.3fetch 方法.14 2.4.4parse 方法.16 2.4.5update 方法.16 2.4.6invert 方法.19 2.4.7index 方法.23 2.4.8dedup 方法.26 2.4.9merge 方法.30 3配置文件分析.31 3.1nutch-default.xml 分析.313.1.1.31 3.1.2.32 3.1.3.35 3.1.4.37 3.1.5.41 3.1.6.42 3.1.7.43 3.1.8.45 3.1.9.45 3.1.10.45 3.1.11.48 3.1.12.48 3.1.13.49 3.1.14.49 3.1.15.51 3.1.16.52 3.1.17.52 3.1.18.53 3.1.19.53 3.1.20.54 3.1.21.55 3.1.22.55 3.1.23.55 3.1.24.56nutch 爬虫系统分析3.1.25.56 3.2regex-urlfilter.txt 解析.58 3.3regex-normalize.xml 解析.58 3.4总结.59 4参考资源.591 1 NutchNutch 简介简介1.11.1 nutchnutch 体系结构体系结构nutch 爬虫系统分析2 抓取部分抓取部分2.12.1 爬虫的数据结构及含义爬虫的数据结构及含义爬虫系统是由 Nutch 的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工 具关联起来:包括 web database、一系列的 segment 和 index。接下来我们将详细描述他 们。三者的物理文件分别存储在爬行结果目录下的 crawldb 文件夹内,segments 文件夹和 inde x 文件夹内。那么三者分别存储的信息是什么呢? Web database,也叫 WebDB,其中存储的是爬虫所抓取网页之间的链接结构信息,它只在 爬虫 Crawler 工作中使用而和 Searcher 的工作没有任何关系。WebDB 内存储了两种实体的 信息:page 和 link。Page 实体通过描述网络上一个网页的特征信息来表征一个实际的网 页,因为网页有很多个需要描述,WebDB 中通过网页的 URL 和网页内容的 MD5 两种索引方 法对这些网页实体进行了索引。Page 实体描述的网页特征主要包括网页内的 link 数目, 抓取此网页的时间等相关抓取信息,对此网页的重要度评分等。同样的,Link 实体描述的 是两个 page 实体之间的链接关系。WebDB 构成了一个所抓取网页的链接结构图,这个图中 Page 实体是图的结点,而 Link 实体则代表图的边。一次爬行会产生很多个 segmen
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号