Python网络爬虫实习报告.doc-

优选文档Python网络爬虫实习报告.优选文档目录一、选题背景.-2-二、爬虫原理.-2-三、爬虫历史和分类.-2-四、常用爬虫框架比较.-2-五、数据爬取实战（豆瓣网爬取电影数据）.-3-1解析网页.-3-2爬取数据.-3-3数据整理、变换.-4-4数据保存、显现.-9-5技术难点要点点.-10-六、总结.-13-.优选文档一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架，是使用Python开发的快速、高层次的信息爬取框架，能够高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广，爬虫开发、数据挖掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架，该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款赞同没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容解析的Python爬虫框架。Python-goose框架：Python-goose框架可提取的信息包括：文章主体内容;文章主要图片;文章中嵌入的任heYoutube/Vimeo视频;元描述;元标签.优选文档五、数据爬取实战（豆瓣网爬取电影数据）1 解析网页# 获取html源代码def_getHtml():data=pageNum=1pageSize=0try:while(pageSize=125):#headers=User-Agent:Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11,#Referer:None#注意若是仍旧不能够抓取的话，这里能够设置抓取网站的host# # opener=urllib.request.build_opener()# opener.addheaders=headersurl=https:/movie.douban.com/top250?start=+str(pageSize)+&filter=+str(pageNum)# datahtml%s%i =urllib.request.urlopen(url).read().decode(utf-8).优选文档data.append(urllib.request.urlopen(url).read().decode(utf-8)pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2 爬取数据def_getData(html):title=#电影标题#rating_num=#评分range_num=#排名#rating_people_num=#议论人数movie_author=#导演data=#bs4解析htmlsoup=BeautifulSoup(html,html.parser)forliinsoup.find(ol,attrs=class:grid_view).find_all(li):.优选文档title.append(li.find(span,class_=title).text)#rating_num.append(li.find(div,class_=star).find(span,class_=rating_num).text)range_num.append(li.find(div,class_=pic).find(em).text)#spans=li.find(div,class_=star).find_all(span)#forxinrange(len(spans):# ifx=2:# pass# else:#rating_people_num.append(spansx.string-len(spansx.string):-3)str=li.find(div,class_=bd).find(p,class_=).text.lstrip()index=str.find(主)if(index=-1):index=str.find(.)print(li.find(div,class_=pic).find(em).text)if(li.find(div,class_=pic).find(em).text.优选文档=210):index=60# print(aaa)# print(str4:index)movie_author.append(str4:index)datatitle=title#datarating_num=rating_numdatarange_num=range_num#datarating_people_num=rating_people_numdatamovie_author=movie_authorreturndata3 数据整理、变换def_getMovies(data):f=open(F:/douban_movie.html,w,encoding=utf-8)f.write()f.write(Inserttitlehere)f.write()f.write(爬取豆瓣电影)f.write(作者：刘文斌).优选文档f.write(时间：+nowtime+)f.write()f.write()f.write()f.write()f.write(电影)#f.write(评分)f.write(排名)#f.write(fonts