爬虫下一代互联网技术-2015试卷李楚煌.doc

下一代互联网时间:2021-03-21 阅读:()

学院专业姓名学号座号

(密封线内不答题)

„„„„„„„„„„„„„„„„„„„„

密„„„„„„„„„„„„„„„„„„封„„„„„„„„„„„„„„„

线„„„„„„„„„„„„„„线„„„„„„„„„„„„„„„

_____________ ________

„

深圳大学期末考试试卷

命题人(签字) 崔来中审题人(签字) 年月日

《下一代互联网技术》课程综述报告要求

1.课程综述报告由个人独立完成。

2.要求学生从教师的授课专题包括

1 下一代互联网过渡技术翻译技术和隧道技术

2 云计算资源调度、存储、安全

3 社交网络推荐、影响力分析、传播模型

4 物联网无线传感器网络、节能技术

5 搜索技术爬虫技术、图片搜索、语义搜索

6 P2P 文件下载、流媒体分发

7 大数据处理与分析技术网络与机器学习

8 多媒体网络多媒体网络与SDN、流媒体与机器学习

9 软件定义网络SDN与安全、 SDN与流量优化、 SDN与网络管理

选择一个专题中的具体技术问题上述括号内为推荐的问题内容作为综述报告主题综述报告名称自拟参照附件一“综述报告格式模板”与附件二“综述报告写作指导完成综述报告” 评分标准见附件三。

3.提交的课程综述报告要符合深圳大学相关的格式规范。

4.第17周提交课程综述报告电子版到blackboard系统纸质版交到任课老师处。

附件一综述报告格式模板

深圳大学考试答题纸

(以论文、报告等形式考核专用)

二○一 二○一学年度第学期

1.前言

在21世纪互联网高速发展的背景下搜索引擎在人们生活中有着举足轻重的作用而网络爬虫是搜索引擎中的重要的信息采集器是搜索引擎技术的核心部分。

本文是对爬虫技术在现今网络环境中出现不同的问题、漏洞提出一些针对性的探究方法并对各种方法进行实验分析主要研究分析工作如下:

网络爬虫中的核心技术部分 即网络爬虫系统的多线程设计与实现详细介绍网络爬虫的概念及信息分类涉及到的算法技术要点并探讨实现对漏洞平台当中的爬虫技术的聚焦。

网络爬虫的核心在于 以端口接通为设计基础依据HTTP协议使用SOCKET套接字相关函数向服务器端发送HTTP请求得到目标URL对应的网页内容再从该网页提取出未爬取过的URL将该URL重新作为源URL进行新的一轮向下爬取搜索工作按照各种优先算法向下爬行从而完成网络爬虫系统的爬行工作。

在互联网中有着很多协议它们彼此联系着支持着许多网络程序的运行。网络爬虫系统是基于SOCKET协议的而SOCKET协议的基础建立在TCP/IP协议之上。由此 网络爬虫是基于最原始的协议依靠算法技术组织分布式系统非常

有潜力进行强有力的数据探索与挖掘。既然网络爬虫的优势潜能如此巨大接下来我会详细讨论近期我对这个技术的若干研究。

2. 阅读文献概述

基于此次希望探讨的研究方向 网络爬虫在中文文献方面主要有以下阅读多线程进行网络爬虫的过程优化,基于网络爬虫的Web信息采集技术爬虫对漏洞管理平台核心帮助。在英文文献方面主要有 《A Cloud-based Web CrawlerArchitecture》 , 《A Spatial Web Crawler for Discovering》 , 《Design ofimproved focused web crawler》。这几篇文献探究的层次在于如何对信息进行有效地采集、采集的量如何够快够大、以漏洞管理平台为切口看爬虫技术有哪方面的发展潜力。

多线程爬虫又可以理解为分布式爬虫主要阅读的部分有分布式网络爬虫结构设计其中又细分为爬行节点的结构设计控制节点的结构设计。分布式网络爬虫的关键技术在于种子集合的优化选取分布函数的选择。有这些分布式策略来带领多线程下载。而对网络信息的阅读在于有效采集需要对信息检索引擎有所划分全文检索、目录索引型检索、元检索。再深入到网络爬虫的搜索策略有深度优先搜索策略、宽度优先搜索策略、聚焦搜索策略。针对信息的实质内容爬虫有其特色性质布告栏的数据分类及并联式关联、视频的可预览及真实寻址、论坛的自动动态更新实现。对漏洞平台的爬虫聚焦技术的阅读首先了解的是在漏洞平台这个领域爬虫子模块的划分爬虫接口模块、配置文件解析模块、网页爬取模块、网页解析模块、 URL过滤去重模块、漏洞信息保存模块。在漏洞平台管理这个框架下对爬虫效率如何改进、 URL相关内容如何改进有所阅读了解。

此外 《A Cloud-based Web Crawler Architecture》主要论述的网络爬虫为代表的应用程序如何在网络上更好得进行有趣的信息的查找。因为网路上有巨量的索引的链接或非结构化的数据这需要网络爬虫去应对这些挑战链接和高密度计算的复杂性。在这种背景下该文献提供了云计算模式支持弹性的资源化和非结构化的数据并提供读写加注功能。采用云计算的功能和MapReduce编程技

术可以使我们能够分布式抓取网页和存储在云计算中所发现的Azure表。《ASpatial Web Crawler for Discovering》 这篇文献其实与单纯地谈论爬虫技术不一样一般地讨论爬虫技术是如何在物理、软件层面提高单体计算机的速度、分布式地进行搜索又或者对URL等算法策略的优化。而这篇文献谈论的可以归属另一个学科它围绕地缘服务器提供的地理特征进行空间信息的划分使用空间的数据源。核心来说这是一个对地理领域信息系统的研究。地理空间数据在本质上常常动态并在异构的形式提供 网上空间数据是一个基于地理的形式进行发布的。空间网络爬虫专注于地理空间在地缘服务器上的功能。《Design of improvedfocused web crawler》这篇文献讲述的东西比较细是对URL和锚文本的语义性质的研究分析。它提出了一种技术偏重于基于语义重点的网络履带的分析探讨。

3.课题研究方向的现状与发展趋势

研究方向主要有以下六个分支:多线程分布式进行网络爬虫的过程优化,基于网络爬虫的Web信息采集技术爬虫对漏洞管理平台核心帮助云计算模式这种支持弹性的资源化和非结构化的数据的爬虫技术空间网络爬虫这样专注于地理空间在地缘服务器上研究的新科技锚文本的语义性质的研究分析。

分布式网络爬虫的理论基础它由多台PC机组成其中一台是控制节点其他为爬行节点控制节点负责维护所有结点的信息对所有结点的信息进行同步同时在控制节点上进行结点的添加和删除。它分为5个模块 URL分析模块、下载模块、网页分析模块、结点通信模块、 URL分配模块。

分布式网络爬虫的方法可以具体到5个模块来分析探讨。 URL分析模块是接受来自分布式模块分配的URL任务判断该URL是否被访问过。访问过进队列没访问过忽略。那在分布式网络爬虫中与单台PC有所不同的是单台PC机只需要对URL地址进行记录还有域名转换计算复杂度低分布式网络爬虫中对需要IP与域名转换的计算量大复杂度高。下面具体解释维护URL队列在每个节点维护一个本节点将要访问的URL队列模块可以参照Mercator系统每一道指向一个domain这样可以避免多个线程同时访问一个domain。刚刚已经谈到计算

量大的问题是由于多道队列的数据结构在爬行进行到一定阶段时数据量一定分成庞大。如何解决在内存不能够承载时将队列的中间部分放在硬盘上在内存中只保留队列的头和尾。还有就是完整的URL是没必要记录的只需要判断URL是否已经下载过了。因此可以采用哈希表存储URL的checksums,高位存储hostname的checksum这样一来来自同样的domain的URL就会排列在一起。之前说过把数据放在硬盘上。这样实现建立一个LRU cache。明显 网页链接的聚簇性和高位存储hostname的数据结构使硬盘的读写概率非常小提高了爬虫分布式系统的运行速度。 IP与域名需要转换是因为URL地址不同但可能指向同一物理网页。譬如多个域名共同拥有一个IP而各个域名下的内容是不同的DNS转换导致的同一域名对应的IP是不一样的一个站点多个域名。面多这种情况如何解决呢首先积累一定数量的域名和IP下载一些网页判断分别属于哪种情况积累下来然后针对性地取舍避免重复收集使用。下载模块的核心在于节点线程控制。主要解决的是本地节点与Web端服务器的通信问题。在前言中提到爬虫技术也是基于TCP协议的。客户有时在同一次会话中希望从服务器端下载更多的HTML页面 由于HTTP1.0该TCP需要终止。这是可以这样为了节省时间和网络带宽可以保留上次已经建立好的链接。如果该链接没有失效本次可以继续使用。详细点说就是服务器接收爬虫客户端发送的请求消息后先返回一个HTTP头信息包含文件类型大小最后修改时间等内容后续添加包含网页的文本内容。根据网页体的大小 申请内存空间准备接收有两种情况需要放弃接收一、网页类型不符合要求。二、超出预定接收大小。毕竟我们现在讨论的是多线程的网络爬虫技术在下载模块重点在于结点线程模块。结点线程根据控制计算机硬件的运行情况把并行开设的线程数控制在一个最佳的数量上并监控保证同时访问同一个domain的线程数不超过n这样是为了保证web服务器不会出现类似于拒绝服务攻击DOS反应使得一些URL的漏取。最好建立一个DNS缓冲区即是缓存。这样可以避免频繁地查询DNS服务器。网页分析模块相对简单 HTML比较灵活 URL出现的语境较多我们应该参照HTML的语法给出相应的URL出现的语境。 URL分配模块工作是为了协调各个节点将任务分配给不同的节点并且能够增删节点。节点通信模块负责节点间的相互通信除了采集器采集网页时直

接与Internet交互外其他时候所有网络通讯都通过通信器完成。上次模块通过Send把它的数据包以单体为目标标识发布。接收上层的发送请求后通信器先将数据包缓存起来再通过目标标识维护每个节点的节点号和IP对应的节点信息。有节点通信模块可以只关注本身的策略并且和其他模块松耦合方便架构在不同的对等网络上。

分布式网络爬虫的方案可以先讲述一个中级规模的网页搜集 当然对于一些大型的网站如凤凰网、腾讯首页等网站的全站下载分布式系统仍有用武之地。先了解下对中等规模的网站的爬虫搜集一个网站的host是一样的 因此需要在普通的任务分配基础上做出一些改动首先任务的粒度不能再选择host 因为这样一来 同一网站的网页的哈希函数的数值是唯一的任务只能分配在节点上对于分布式网络爬虫系统显然是不行的。粒度如果按URL分配粒度又太小了 由此可以对网站的URL信息收集和分析总结出网站全站下载多机协同任务分配算法。举例说明大型网站下有很多子网站而同一子网站网页的URL有一些共同点它们的URL前一两个字都相同这些子网页的互联关系比较紧密子网站与子网站网页的引用频繁度没有那么高差别较大可以把任务分配的粒度定为子网站。由于粒度的合理分配分布式对中大型网站进行全站下载是可实现的。

关于分布式网络爬虫技术的现状 国内外的一些大公司已经有很成熟的解决方案并已投入使用。其中以Google研究的最早也最先进。在Google公开的网络爬虫设计中 Internet Archive Crawler是可以使用多台机器进行爬行的每个Crawler进程可分配64个站点同时爬行每个站点只分配一个Crawler进行爬行。谷歌的分布式网络爬虫技术能够在全球处于领先地方也在于它的搜索引擎在全球处于领先地位。 Google每天都会对使用它搜索引擎的网站进行一定量的爬虫有了大量的数据分析它对于网络上的语义分析是领先的而在全球大量分布的服务器也促进了它在分布式网络爬虫的发展。其中它研发的Mercator是一个非常出色的Crawler该技术完全用Java实现它才用的数据结构可以不管爬行规模的大小在内存只占有限的空间。分布式网络爬虫现阶段采用的技术主要是服务器集群技术 由中央控制软件进行任务发布、负载平衡和运行监控。

展开全文

爬虫下一代互联网技术-2015试卷李楚煌.doc相关文档

待定下一代互联网

互联网下一代互联网

证监会审核华创证券投资咨询业务资格批文号:证监许可(2009)1210

邬贺铨在3月9日香港"下一代互联网会议"上的报告题目:

操作http 小企业如何做品牌小公司的品牌建设怎么样才能做好 thinksnsthinksns 好用吗？靠谱吗 accessdenied升级后出现Access denied 如何解决进入查看空间文章qq空间日志文章,要求经典 outlookexpress如何开启OUTLOOK EXPRESS功能？美要求解锁iPhone如何看美版苹果是有锁无锁科创板首批名单2019年房产税试点城市名单 zhuo爱大涿爱— 金鱼花火、歌词给我翻译过来。！即时通如何使用即时通啊动态域名免费linux主机美国vps 老左视频存储服务器 20g硬盘 60g硬盘正版win8.1升级win10 国外空间个人空间申请本网站在美国维护 idc资讯网络空间租赁如何用qq邮箱发邮件中国网通测速免费cdn 支持外链的相册怎么建立邮箱新世界服务器上海电信测速网站更多

爬虫下一代互联网技术-2015试卷李楚煌.doc

美国G口/香港CTG/美国T级超防云/物理机/CDN大促销 1核 1G 24元/月

HostYun（月18元），CN2直连香港大带宽VPS 50M带宽起

legionbox：美国、德国和瑞士独立服务器,E5/16GB/1Gbps月流量10TB起/$69/月起