爬虫python网络爬虫实习报告-python实习报告

爬虫代理  时间:2021-04-12  阅读:()

Pyth o n网络爬虫实习报告

目录

一、选题背景. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

二、爬虫原理?错误!未定义书签。

三、爬虫历史与分类. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

四、常用爬虫框架比较?错误!未定义书签。

五、数据爬取实战豆瓣网爬取电影数据 . . . . . . . . . .错误!未定义书签

1分析网页?错误!未定义书签。

2爬取数据. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

3数据整理、转换?错误!未定义书签。

4数据保存、展示?错误!未定义书签。

5技术难点关键点?错误!未定义书签。

六、总结. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .错误!未定义书签

选题背景

二、 爬虫原理

三、 爬虫历史与分类

四、 常用爬虫框架比较

Scrap y框架 Sera py框架就是一套比较成熟得Pytho n爬虫框架 就是使用Python开发得快速、高层次得信息爬取框架可以高效得爬取web页面并提取出结构化数据。 S erap y应用范围很广爬虫开发、 数据挖掘、数据监测、 自动化测试等.

Crawle y框架 C r a wley也就是Pytho n开发出得爬虫框架该框架致力于改变人们从互联网中提取数据得方式。

Portia框架 P orti a框架就是一款允许没有任何编程基础得用户可视化地爬取网页得爬虫框架。newspa p e r框架 nc wspape r框架就是一个用来提取新闻、文章以及内容分析得Pyth o n爬虫框架.

Py t ho n-go o se框架 Pyth o n-go o se框架可提取得信息包括 〈1文章主体内容;2文章主要图片 3文章中嵌入得任h eYo utube/Vi meo视频 4〉元描述 〈5〉元标签

五、数据爬取实战豆瓣网爬取电影数据

1分析网页

#获取ht m l源代码

try: ?wh i le(p ageSiz e 〈=125):

#headers= {'U ser—Ag en t' : 'Mozi

1 l a/5、 0(Windows NT 6、 1)Ap p 1 eWeb Ki t/537、 1 1 (KHTML, l ike Gecko)Ch rome/23、 0、 1271、 64 Safari/537>11',

# 'Refe r er':None #注意如果依然不能抓取得话,这里可以设置抓取网站得h ost

#}? #o pener=url l ib、 req ue st、 bui ld_opener()

#opener、 addhea der s= [header s]?ur l="”+st r(pag e Siz e)+ ”&f i lt e r(p ageNum)

#data['h t ml%s%i ]=url 1i b、 re q uest、ur 1 open(ur 1)、 read()、 decode("utf—8")?dat a、 append(url 1 i b、 requ e st、 urlopen(ur 1 )、 read()、d ecode(”ut f—8H))page S i z e+= 25? p age N

um+=1 ?pr int(pageSize,pageNum)excep t E x cepti o n a s e:r ai se eretu r n data

2爬取数据def__getData(html):title= #电影标题 #rati ng_n um=[]#评分? range_num二 口#排名? #rat ing—people_num=[ ] #评价人数movie_author=[] #导演? da t a={}

#b s4解析h t ml?s oup=Beauti f u l Sou p(html,”html、 parser”)?for l i i n sou p、 find(”o I”,a tt rs= {'clas s': 'grid_view'} )、 fin d—al l( "l i"):t it le、 append( l i 、 f i nd("span",cl a ss—二”title”)、 t ext)

#rating_num、 append(l i 、 fin d("d i v” class_='star') 、find(”span",class_='rat ing_nu m')、 t ext)ra n ge—num、 ap pend(l i、 fi n d("di v”,class—='pi c')ffind("emH)、 text )? #spans=l i、 find("d iv” c l as s—='star )' 、 find_a l l (Hsp an") ? #fo rxin ran ge(le n(spans)):

#i fx<=2:? # pass?#e 1 se

# rat ing_peo ple_num、 append(spans[x]、 stri ng[—1e n( s pans[x]、 st rin g):—3])str=l i、 fi n d(”div",cla ss_='b d')、 find(”p",clas s—='')、 text、 lstrip()?in d ex=st r、 find("主")?if(ind ex==—1 ):index=str 、 fin d("、 、 、 ")?prin t (l i 、 fin d(”d i v” c las s_='p i c' ) 、 find(”em")、 t e xt)if(l i 、 find("div”,cl a s s_='pic')、 find(”em”)、 text==210):i n d ex= 60

# p rint("aaa”) #p rint (str[4:i ndex])? movie_author、 append(str[4: i nde x])d a t a['t i tl e'] =titl e

#data['rat ing_num'] =rat i ng_numdat a[/ rang e—nu m]=ra nge_nun?#data[ 'rating_p eo pl e_n um']=r at i n_peopl e_numdata['mov ie_au t ho r']=movie_a u th o rret u rn dat a

3数据整理、转换def—_getMov i e s(da t a):f=ope n('F: 〃 douba n_movi e、 html ', 'w' , e ncodi ng='u tf—8')f 、w rite(" 〈html>”)f、wr i te(”<h e ad><me t a charset二'UTF-8'> 〈title>In sert titlehere</ t it 1 ex/he ad>”) f、wr i te(” 〈b o d y>”)?f、write(” 〈h 1>爬取豆瓣电影v/hl>")f、wri te(”<h4>作者刘文斌〈/h 4>”)f、wr i te(” 〈 h4>时间 "+no wt i me+”v/h 4>”)?f、wri te("<hr>”)f 、w r i te("<t able width='8 OOpx' border二'1 'a 1ign二center>")f 、wr i te(" 〈th e ad>”) f、wr ite("<t r>")?f、write(”<t h><fontsi z e='5'c olor=g reen〉电影</fo nt></th〉 ”)?#f、wr ite(Hvt hwidt h=50pxz><fo nt s i z e='5'c o lor=g r ee n>评分v/font〉 〈/th>")f、wri t e(" 〈th w i d th='50 px'> 〈 f o nt size='5/c ol o r=green>排

名〈/fo nt〉 〈/th>”) #f、wr ite("

〈thwidth='100px'〉 〈 fontsize='5'color=green〉评价人数v/font></t

h>")?f、write(" 〈th> 〈font siz e='5/color=gr e en>导演〈/font〉 v/th>”)f、wr it e(”</tr>")f 、w r i te("</th e ad〉 ”)f>wr ite("<tbod y>”)fordataindatas :?for i inrange(0,

25) :? f、write(” <t r〉 ”)f 、write( "<td styl e='c olor:ora n ge; t ext—al ign:cen t er'

>%s</td〉 ”%d ata ['ti t le'][i] )? #f、wr ite(” <td s ty le='colo r:bl ue te xt—a 1 ign :c e nte 「 〉 sv/t d>" %data[/ r at i n g_num'] [i ] )?f、write("<td sty1e='co lor: red; text—al ign cent er'〉 s</td〉 ”%data['r ange_num] [i])

#f 、 wr i te("vtd style='co 1 or:bl ue;text-al ig n:cen te r'>%s〈/td>”%d a ta[ 'r ating_p e ople_nu m'] [i :)f、write(” 〈 td st y le='col o r:b l ac k;t ext—a l ign:center '〉 s</td>"%d ata[ 'mo vi e—aut h or'] [i ])f 、write(" 〈/tr>") ?f 、wri t e(” 〈/tbody>")

f、write("v/ thead>")?f wri te(”</ table>H)f 、wri t e(”</bo d y>")? f、write( " 〈/h t ml〉 ”)f 、 close()i f__n ame__== _ma i n _:

data s=h tmls=__getH tml ()? for i i n rang e( len(htmls) ) :?dat a=__getData(ht m ls[ i ])?datas、 app end(data)

? —_g e tMovies(datas)

4数据保存、展示

结果如后图所示

gcorelabs:美国GPU服务器,8张RTX2080Ti,2*Silver-4214/256G内存/1T SSD/

gcorelabs提供美国阿什本数据中心的GPU服务器(显卡服务器),默认给8路RTX2080Ti,服务器网卡支持2*10Gbps(ANX),CPU为双路Silver-4214(24核48线程),256G内存,1Gbps独享带宽仅需150欧元、10bps带宽仅需600欧元,不限流量随便跑吧。 官方网站 :https://gcorelabs.com/hosting/dedicated/gpu/ ...

半月湾($59.99/年),升级带宽至200M起步 三网CN2 GIA线路

在前面的文章中就有介绍到半月湾Half Moon Bay Cloud服务商有提供洛杉矶DC5数据中心云服务器,这个堪比我们可能熟悉的某服务商,如果我们有用过的话会发现这个服务商的价格比较贵,而且一直缺货。这里,于是半月湾服务商看到机会来了,于是有新增同机房的CN2 GIA优化线路。在之前的文章中介绍到Half Moon Bay Cloud DC5机房且进行过测评。这次的变化是从原来基础的年付49....

简单测评melbicom俄罗斯莫斯科数据中心的VPS,三网CN2回国,电信双程cn2

melbicom从2015年就开始运作了,在国内也是有一定的粉丝群,站长最早是从2017年开始介绍melbicom。上一次测评melbicom是在2018年,由于期间有不少人持续关注这个品牌,而且站长貌似也听说过路由什么的有变动的迹象。为此,今天重新对莫斯科数据中心的VPS进行一次简单测评,数据仅供参考。官方网站: https://melbicom.net比特币、信用卡、PayPal、支付宝、银联...

爬虫代理为你推荐
队列route操作http深圳市福田区国民经济和社会发展小企业如何做品牌中小企业如何建立品牌效应,提升品牌效应 ?360邮箱请问360邮箱怎么申请支付宝调整还款日支付宝调整花呗还款日,这个调整有没有对你造成什么影响?什么是支付宝支付宝是什么支持http资费标准电信4G套餐?抢米网怎么样才能在小米官方网站抢到手机?
directspace cpanel 密码泄露 512au 免费个人博客 私有云存储 北京主机 骨干网络 空间论坛 cdn加速原理 流媒体加速 华为云服务登录 闪讯官网 万网空间管理 聚惠网 美国主机 windowsserver2008r2 西部数码主机 网络时间服务器 服务器操作系统安装 更多