资源预览内容
第1页 / 共69页
第2页 / 共69页
第3页 / 共69页
第4页 / 共69页
第5页 / 共69页
第6页 / 共69页
第7页 / 共69页
第8页 / 共69页
第9页 / 共69页
第10页 / 共69页
亲,该文档总共69页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
沈阳理工大学学士学位论文I摘要目前即使通讯软件在平时的生活中有着十分广泛的应用,但是对绝大部分的软件来说,都必须应用在互联网上,必须在一个 INTERNET 环境下才能使用。有时候单位内部的员工,同学,在没有互联网环境下或因其他原因希望不用 INTERNET 就可以进行信息交互,这样开发局域网通信就有了必要性。本文提出了局域网信息交互的需求,并详细对网络协议 TCP/IP 协议族进行了介绍和研究,如 TCP,UDP,广播等相关技术。并对网络信息交互原理惊醒了说明,在此基础上利用 SOCKET 网络编程实现了一种基于 WINDOWS 平台的局域网信息交互功能。网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。本文通过 JAVA 实现了一个基于广度优先算法的多线程爬虫程序。为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的 URLs,并将搜集到的 URLs 存入数据库。将解析的网页存入 XML 文档。【关键词】 网络爬虫; SOCKET 编程;TCP/IP;网络编程 ;JAVA沈阳理工大学学士学位论文IIAbstractInstant message software in our daily lives has a very wide range of application , However ,most of the software must be used in the Internet , and it must be used in a Internet environment .Sometimes Internal staff, students ,may not have the Internet environment or other reasons do not wish to be able to communicate on the Internet .This development will have a need for LAN communication program .Therefore ,this paper presents the needs of local area network exchange information Software ,And details of the network protocol TCP/IP protocol suite are introduced and research such as TCP, UDP, broadcast ,and other technologies . and network information exchange theory is discussed . Base on this condition I use of Socket Network programming based on Windows platform to develop a LAN chat application . SPIDER is a program which can auto collect informations from internet. SPIDER can collect data for search engines, also can be a Directional information collector, collects specifically informations from some web sites, such as HR informations, house rent informations.In this paper, use JAVA implements a breadth-first algorithm multi-thread SPDIER. This paper expatiates some major problems of SPIDER: why to use multi-threading, and how to implement multi-thread; data structure; HTML code parse. etc. This SPIDER can collect URLs from one web site, and store URLs into database.【KEY WORD】SPIDER; JAVA;;Socket programming; TCP/IP ;Network programming沈阳理工大学学士学位论文III目录1 绪论.11.1 网络爬虫的发展.1 1.2 国内外技术发展现状.2 1.3 系统设计的意义.32 总体设计方案.42.1 系统设计方案.4 2.2 系统设计框图.4 2.3 网络爬虫的相关技术.5 2.3.1 URL.5 2.3.2 HTTP 协议.6 2.3.3 JAVA 多线程.9 2.3.4 JAVA 网络编程.163 系统软件设计.213.1 系统软件概述.21 3.2 ECLIPSE软件介绍 .21 3.3 服务器端设计.22 3.3.1 网本页解析部分.22 3.3.2 获取新的网络代理部分.36 3.4.1 登录部分.37 3.4.2 Table 模块.37 3.4.2 上传档及查询部分.39 3.5 SOCKET通信部分.39 3.5.1 什么是 Socket.39 3.5.2 服务端部分.44 3.5.3 客户端部分.464 系统运行.484.1 服务器端界面.
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号