资源预览内容
第1页 / 共54页
第2页 / 共54页
第3页 / 共54页
第4页 / 共54页
第5页 / 共54页
第6页 / 共54页
第7页 / 共54页
第8页 / 共54页
第9页 / 共54页
第10页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
i简易图片采集器以及搜索引擎的实现摘要:因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。搜索引擎指自动的从因特网上搜集信息,经过一定整理后,提供给用户进行查询的系统。它利用称为网络蜘蛛的自动搜索机器人程序来搜集信息;通过建立索引来整理信息;最后,当用户向搜索引擎发出查询时,搜索引擎接受查询并向用户返回资料。本设计采用 PHP、C+和 HTML 语言,MySQL 数据库,并利用网络爬虫、分词、倒排查找、模式识别、求解颜色分布直方图等搜索引擎常用技术实现的一个简易的搜索引擎系统。该系统实现了如下功能:基于关键字搜索图片和基于图片的颜色来搜索图片。该系统已投入实际使用并运转正常。关键词:搜索;关键字;颜色 Simple picture collector as well as the realization of iisearch engineInformation security HaihuaYuan Teacher: ZuxiongDaiAbstract: The information on the Internet are vast million, and there is no order .All information as a vast expanse of water on the island,but the web links are the criss-crossing bridges between these islands ,and the search engine for users to draw a clear map of the information for users to access. Search engine is the automatic collection of information from the Internet,which is made available to the users query the system after some sorting out. It uses the Web Spider automatically search Robot program to collect information;and through the establishment of the index to collate information; finally, when the user issued a query to the search engine, the search engine accept the query and return of information to users.This design uses the PHP, C+,and the HTML languages, MySQL database,and uses a lot of commonly used search engine technologies such as Web Crawler、Segmentation、Inverted index、Pattern Recognition、Solving the color distribution histogram and so on,to achieve a simple search engine system。The system functions to achieve the following:Keyword-based search pictures and images color-based search for images.The system has already been put into practical use and operating normally.Keywords: Search;Keyword;Color目录iii前言 .1第一章 国内外研究现状 .- 2 -1.1 信息获取与搜索引擎 .- 2 -1.1.1 搜索引擎发展历史 .- 2 -1.1.2 搜索引擎的分类 .- 3 -1.2 网络蜘蛛 .- 4 -1.2.1 网络蜘蛛的基本原理 .- 4 -1.2.2 网站与网络蜘蛛 .- 6 -1.3 倒排索引 .- 7 -1.3.1 倒排的定义 .- 8 -1.3.2 倒排的特点 .- 8 -1.4 分词技术简介 .- 9 -1.4.1 为什么需要分词 .- 9 -1.4.2 中文分词的算法 .- 10 -1.4.3 中文分词和搜索引擎 .- 11 -1.5 用 OpenCV 库求解图像颜色分布直方图 .- 12 -1.5.1 什么是 OpenCV .- 12 -1.5.2 求解图像颜色分布直方图实例 .- 13 -第二章 搜索引擎运行环境的搭建 .- 17 -2.1 php 的安装与调试 .- 17 -2.2 apache 的调试和整合(修改 httpd.conf 文件) .- 17 -2.3 可能的问题 .- 19 -2.4 opencv 开发环境配置 .- 19 -第三章 系统分析与设计 .- 20 -3.1 应用环境 .- 21 -3.2 需求分析 .- 21 -3.3 总体设计和模块分析 .- 22 -3.3.1 网络爬虫(蜘蛛)模块的详细设计 .- 23 -3.3.2 求解图像颜色直方图模块详细设计 .- 27 -3.3.3 Getimage 模块详细设计 .- 29 -iv3.3.4 Index 模块的详细设计 .- 33 -第四章 系统实现 .- 39 -4.1 后台功 能实现 .- 39 -4.2 客户端系统界面实现 .- 43 -第五章 系统测试 .- 45 -5.1 测试方案 .- 45 -5.2 测试结果 .- 46 -5.3 结果分析 .- 46 -总结 .- 48 -致 谢 .- 49 -参考文献 .- 50 -。- 1 -前言搜索,这两个字无疑是当今互联网业界最为流行的字眼之一。在 Baidu 上输入“搜索引擎”这个关键字,可以找到 3000 多万条目,在 Google 上查找时,可以查到 2600 多万条目。不是 Google 的条目少,当用“search engine”作关键字查找时,在 Google 中可以查找到 7300 多万条目。Google 的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。仿佛一夜间,各种各样的搜索服务席卷而来。从最初的 Google、Yahoo 到现今的 Baidu、MSN、中搜、Sogou 等,搜索引擎的品牌越来越多,服务也越来越丰富。同时,伴随着 WEB2.0 的普及,网络信息的膨胀速度呈指数急速增长,各种各样的网站都需要为其加入检索功能,以满足用户的需要。另外,在企业级应用的市场上,全文信息检索的需求一直在增加,各种文档处理、内容管理软件都需要加入全文检索的功能。在这样的背景下,搜索引擎的技术迅速发展。各种讨论搜索的文章、杂志、论文铺天盖地;论坛和博客上也有许多相关帖子。一时间,搜索引擎技术成为最热门的技术之一。不过,搜索引擎技术并非是一
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号