爬虫python网络爬虫实习报告-python实习报告

爬虫代理  时间:2021-04-12  阅读:()

Pyth o n网络爬虫实习报告

目录

一、选题背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

二、爬虫原理?错误!未定义书签。

三、爬虫历史与分类. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

四、常用爬虫框架比较?错误!未定义书签。

五、数据爬取实战豆瓣网爬取电影数据 . . . . . . . . . .错误!未定义书签

1分析网页?错误!未定义书签。

2爬取数据. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

3数据整理、转换?错误!未定义书签。

4数据保存、展示?错误!未定义书签。

5技术难点关键点?错误!未定义书签。

六、总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

选题背景

二、 爬虫原理

三、 爬虫历史与分类

四、 常用爬虫框架比较

Scrap y框架 Sera py框架就是一套比较成熟得Pytho n爬虫框架 就是使用Python开发得快速、高层次得信息爬取框架可以高效得爬取web页面并提取出结构化数据。 S erap y应用范围很广爬虫开发、 数据挖掘、数据监测、 自动化测试等.

Crawle y框架 C r a wley也就是Pytho n开发出得爬虫框架该框架致力于改变人们从互联网中提取数据得方式。

Portia框架 P orti a框架就是一款允许没有任何编程基础得用户可视化地爬取网页得爬虫框架。newspa p e r框架 nc wspape r框架就是一个用来提取新闻、文章以及内容分析得Pyth o n爬虫框架.

Py t ho n-go o se框架 Pyth o n-go o se框架可提取得信息包括 〈1文章主体内容;2文章主要图片 3文章中嵌入得任h eYo utube/Vi meo视频 4〉元描述 〈5〉元标签

五、数据爬取实战豆瓣网爬取电影数据

1分析网页

#获取ht m l源代码

try: ?wh i le(p ageSiz e 〈=125):

#headers= {'U ser—Ag en t' : 'Mozi

1 l a/5、 0(Windows NT 6、 1)Ap p 1 eWeb Ki t/537、 1 1 (KHTML, l ike Gecko)Ch rome/23、 0、 1271、 64 Safari/537>11',

# 'Refe r er':None #注意如果依然不能抓取得话,这里可以设置抓取网站得h ost

#}? #o pener=url l ib、 req ue st、 bui ld_opener()

#opener、 addhea der s= [header s]?ur l="”+st r(pag e Siz e)+ ”&f i lt e r(p ageNum)

#data['h t ml%s%i ]=url 1i b、 re q uest、ur 1 open(ur 1)、 read()、 decode("utf—8")?dat a、 append(url 1 i b、 requ e st、 urlopen(ur 1 )、 read()、d ecode(”ut f—8H))page S i z e+= 25? p age N

um+=1 ?pr int(pageSize,pageNum)excep t E x cepti o n a s e:r ai se eretu r n data

2爬取数据def__getData(html):title= #电影标题 #rati ng_n um=[]#评分? range_num二 口#排名? #rat ing—people_num=[ ] #评价人数movie_author=[] #导演? da t a={}

#b s4解析h t ml?s oup=Beauti f u l Sou p(html,”html、 parser”)?for l i i n sou p、 find(”o I”,a tt rs= {'clas s': 'grid_view'} )、 fin d—al l( "l i"):t it le、 append( l i 、 f i nd("span",cl a ss—二”title”)、 t ext)

#rating_num、 append(l i 、 fin d("d i v” class_='star') 、find(”span",class_='rat ing_nu m')、 t ext)ra n ge—num、 ap pend(l i、 fi n d("di v”,class—='pi c')ffind("emH)、 text )? #spans=l i、 find("d iv” c l as s—='star )' 、 find_a l l (Hsp an") ? #fo rxin ran ge(le n(spans)):

#i fx<=2:? # pass?#e 1 se

# rat ing_peo ple_num、 append(spans[x]、 stri ng[—1e n( s pans[x]、 st rin g):—3])str=l i、 fi n d(”div",cla ss_='b d')、 find(”p",clas s—='')、 text、 lstrip()?in d ex=st r、 find("主")?if(ind ex==—1 ):index=str 、 fin d("、 、 、 ")?prin t (l i 、 fin d(”d i v” c las s_='p i c' ) 、 find(”em")、 t e xt)if(l i 、 find("div”,cl a s s_='pic')、 find(”em”)、 text==210):i n d ex= 60

# p rint("aaa”) #p rint (str[4:i ndex])? movie_author、 append(str[4: i nde x])d a t a['t i tl e'] =titl e

#data['rat ing_num'] =rat i ng_numdat a[/ rang e—nu m]=ra nge_nun?#data[ 'rating_p eo pl e_n um']=r at i n_peopl e_numdata['mov ie_au t ho r']=movie_a u th o rret u rn dat a

3数据整理、转换def—_getMov i e s(da t a):f=ope n('F: 〃 douba n_movi e、 html ', 'w' , e ncodi ng='u tf—8')f 、w rite(" 〈html>”)f、wr i te(”<h e ad><me t a charset二'UTF-8'> 〈title>In sert titlehere</ t it 1 ex/he ad>”) f、wr i te(” 〈b o d y>”)?f、write(” 〈h 1>爬取豆瓣电影v/hl>")f、wri te(”<h4>作者刘文斌〈/h 4>”)f、wr i te(” 〈 h4>时间 "+no wt i me+”v/h 4>”)?f、wri te("<hr>”)f 、w r i te("<t able width='8 OOpx' border二'1 'a 1ign二center>")f 、wr i te(" 〈th e ad>”) f、wr ite("<t r>")?f、write(”<t h><fontsi z e='5'c olor=g reen〉电影</fo nt></th〉 ”)?#f、wr ite(Hvt hwidt h=50pxz><fo nt s i z e='5'c o lor=g r ee n>评分v/font〉 〈/th>")f、wri t e(" 〈th w i d th='50 px'> 〈 f o nt size='5/c ol o r=green>排

名〈/fo nt〉 〈/th>”) #f、wr ite("

〈thwidth='100px'〉 〈 fontsize='5'color=green〉评价人数v/font></t

h>")?f、write(" 〈th> 〈font siz e='5/color=gr e en>导演〈/font〉 v/th>”)f、wr it e(”</tr>")f 、w r i te("</th e ad〉 ”)f>wr ite("<tbod y>”)fordataindatas :?for i inrange(0,

25) :? f、write(” <t r〉 ”)f 、write( "<td styl e='c olor:ora n ge; t ext—al ign:cen t er'

>%s</td〉 ”%d ata ['ti t le'][i] )? #f、wr ite(” <td s ty le='colo r:bl ue te xt—a 1 ign :c e nte 「 〉 sv/t d>" %data[/ r at i n g_num'] [i ] )?f、write("<td sty1e='co lor: red; text—al ign cent er'〉 s</td〉 ”%data['r ange_num] [i])

#f 、 wr i te("vtd style='co 1 or:bl ue;text-al ig n:cen te r'>%s〈/td>”%d a ta[ 'r ating_p e ople_nu m'] [i :)f、write(” 〈 td st y le='col o r:b l ac k;t ext—a l ign:center '〉 s</td>"%d ata[ 'mo vi e—aut h or'] [i ])f 、write(" 〈/tr>") ?f 、wri t e(” 〈/tbody>")

f、write("v/ thead>")?f wri te(”</ table>H)f 、wri t e(”</bo d y>")? f、write( " 〈/h t ml〉 ”)f 、 close()i f__n ame__== _ma i n _:

data s=h tmls=__getH tml ()? for i i n rang e( len(htmls) ) :?dat a=__getData(ht m ls[ i ])?datas、 app end(data)

? —_g e tMovies(datas)

4数据保存、展示

结果如后图所示

2021年全新Vultr VPS主机开通云服务器和选择机房教程(附IP不通问题)

昨天有分享到"2021年Vultr新用户福利注册账户赠送50美元"文章,居然还有网友曾经没有注册过他家的账户,薅过他们家的羊毛。通过一阵折腾居然能注册到账户,但是对于如何开通云服务器稍微有点不对劲,对于新人来说确实有点疑惑。因为Vultr采用的是预付费充值方式,会在每月的一号扣费,当然我们账户需要存留余额或者我们采用自动扣费支付模式。把笔记中以前的文章推送给网友查看,他居然告诉我界面不同,看的不对...

wordpress外贸企业主题 wordpress经典外贸企业建站主题

WordPress经典外贸企业建站主题,经典配色扁平化简约设计+跨屏自适应移动端设备,特色外贸企业建站功能模块+在线Inquiry询单功能,更有利于Google等英文搜索优化和站点收录。采用标准的HTML5+CSS3语言开发,兼容当下的各种主流浏览器: IE 6+(以及类似360、遨游等基于IE内核的)、Firefox、Google Chrome、Safari、Opera等;同时支持移动终端的常用...

老周互联24小时无理由退款,香港原生IP,28元起

老周互联怎么样?老周互联隶属于老周网络科技部旗下,创立于2019年12月份,是一家具有代表性的国人商家。目前主营的产品有云服务器,裸金属服务器。创办一年多以来,我们一直坚持以口碑至上,服务宗旨为理念,为用户提供7*24小时的轮班服务,目前已有上千多家中小型站长选择我们!服务宗旨:老周互联提供7*24小时轮流值班客服,用户24小时内咨询问题可提交工单,我们会在30分钟内为您快速解答!另免费部署服务器...

爬虫代理为你推荐
支持ipad支付宝账户是什么什么是企业支付宝账户asp.net网页制作使用ASP.net技术创建一个网页,如何做?客服电话中国移动的人工服务电话号码是多少三友网网测是什么意思?新团网美团网是谁创办的呀?我爱试用网我发现我对性爱这个话题好敏感!来吧看谁能把我下面说湿了?要200以上的才好评啊!3g手机有哪些什么样的手机属于3G手机?什么是seo学习SEO的好处是什么?qq头像上传失败我怎么总是QQ上传头像失败,
域名代理 泛域名 便宜vps 本网站服务器在美国维护 国外永久服务器 息壤备案 BWH 便宜建站 抢票工具 xfce debian6 国外空间 一点优惠网 主机合租 铁通流量查询 个人空间申请 gg广告 骨干网络 大容量存储器 asp免费空间申请 更多