高教社2024商务数据分析教学课件2-3静态网页爬虫-

B u s i n e s s D a t a A n a l y s i s P r a c t i c e商务数据分析实务主讲人：朱景伟义乌工商职业技术学院01爬虫基本原理爬虫基本原理互联网网络爬虫网页爬虫爬到这就相当于访问了该页面，获取了其信息。把节点间的连线比作网页与网页之间的链接关系，蜘蛛通过一个节点后，可以顺着节点连线继续爬行到下一个节点。爬虫基本原理通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。爬虫基本原理爬虫获取网页并提取和保存信息的自动化程序。爬虫基本原理爬虫流程1.获取网页源代码代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息。最关键的环节就是构造一个请求并发送给服务器，然后接收到响应后便于之后的内容解析。构造一个请求爬虫基本原理爬虫流程2.分析网页源代码、提取数据正则表达式方法，万能但效率低。据网页节点属性、CSS选择器或XPath来提取网页信息的方法。节点的属性文本值爬虫基本原理爬虫流程3.保存数据TXT文本、JSON文本、XML关系型数据库SQLsever、MySQL，非关系型数据库MongoDB视频、音频等特定格式保存形式，多种多样爬虫基本原理爬虫可以代替人来完成这些操作。自动化程序爬虫基本原理爬虫就是代替我们来完成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取工作持续高效的运行。当手工无法完成提取信息时爬虫基本原理02常用的爬虫工具常用的爬虫工具静态网页爬虫编程类工具可视化采集器静态网页爬虫编程类工具可视化采集器代表性工具Python、Java和PHP等八爪鱼数据采集器、火车采集器、后羿采集器等优点通用性和可协作性学习简单、容易上手，可满足大部分数据采集需求缺点编码工作比较烦琐、学习成本高无法满足复杂、大规模的采集任务03八爪鱼介绍静态网页爬虫八爪鱼可简单快速地将网页数据转化为结构化数据，存储于Excel、数据库等多种形式。八爪鱼满足了网页数据抓取的大部分需求。静态网页爬虫八爪鱼V7版的4种采集模式谢谢观看主讲人：朱景伟义乌工商职业技术学院