资源预览内容
第1页 / 共23页
第2页 / 共23页
第3页 / 共23页
第4页 / 共23页
第5页 / 共23页
第6页 / 共23页
第7页 / 共23页
第8页 / 共23页
第9页 / 共23页
第10页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
八爪鱼云采集网络爬虫软件 www.bazhuayu.com 高德地图数据采集方法本文介绍使用八爪鱼采集高德地图数据(以美食地址为例)的方法。采集网站:http:/ditu.amap.com/采集的内容包括:店铺名,分类,地址,联系号码使用功能点:l 创建循环翻页l 分页列表信息采集l Ajax设置步骤1:创建高德地图数据采集任务1)进入主界面,选择“自定义采集2) 将要采集的网站URL复制粘贴到输入框中,点击“保存网址”步骤2:文本输入1)鼠标移动到地址选择框,在右面的提示框中选择“点击该元素”然后鼠标选中输入框,在提示框中选择“输入文字”3) 在弹出的输入框中输入要采集的城市,这里以新乡为例,然后点击确定。鼠标点击新乡,并在输入框中选择“点击该元素”步骤3:创建翻页循环1) 移动鼠标,在右面拖入一个循环框,如下图所示鼠标点击输入框,在右面提示框中选择“输入文字”,然后选择确定把输入文字的步骤拖入规则流程,在高级选项中选择执行前等待“2秒”,选择文本列表,并在列表中输入需要采集的品类,这里以菜系为例,如下图可输入“火锅”等。鼠标选中输入文本步骤,高级选项中勾选使用当前循环里的文本来填充输入框2) 鼠标点中搜索框,接着选择“循环点击每个元素”。3) 进入火锅店列表页后,鼠标移动到最后并选中翻页按钮,在右面的提示框中选择”循环点击的单个元素“3)之后选中火锅店的第一条链接,系统自动识别出其他的元素后,在右面的提示框中选择“选中全部”,以创建循环翻页。再选择“循环点击单个元素”步骤4:高德地图数据提取详细信息1)进入列表详情页以后,选中店名, 然后在右面的提示框中选择“采集该元素文本”,同样操作,可以把地址、分类等信息采集下来。2)然后鼠标点中字段旁边的编辑标识,可以对提取字段的自定义命名,点中旁边的删除标识可以删除不需要的字段。鼠标选中返回,然后选择“点击该元素”步骤5:Ajax设置由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。选中“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”。每一个点击元素的高级选项都需要设置。Ajax设置完成之后,再重新启动本地采集,采集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出这里我们选择excel作为导出为格式,数据导出后如下图相关采集教程:百度地图数据采集:http:/www.bazhuayu.com/tutorialdetail-1/cjbddtsj-7.html腾讯地图数据采集:http:/www.bazhuayu.com/tutorialdetail-1/txdtdatacj.html淘宝买家秀图片采集详细教程:http:/www.bazhuayu.com/tutorialdetail-1/tbmjxpic.html百度贴吧帖子信息采集详细教程:http:/www.bazhuayu.com/tutorialdetail-1/tiebashendu.html知乎信息采集详细教程,以知乎发现话题为例:http:/www.bazhuayu.com/tutorialdetail-1/zh-ht.html八爪鱼7.0版本云采集使用方法(含定时云采集):http:/www.bazhuayu.com/tutorialdetail-1/ycjsyff_7.html八爪鱼90万用户选择的网页数据采集器。1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号