抓取利用NUTCH来抓取网站数据并进行后期数据分析

网站数据抓取  时间:2021-02-10  阅读:()

利用NUTCH来抓取网站数据并进行后期数据分析

参会人员李凯、马继光、卢少锦、许雷

会议主题如何利用NUTCH来抓取网站数据并进行后期数据分析

会议发言摘要

李凯

利用NUTCH来抓取网站数据的优势在于我们可以把程序员的工作重心转移到后期的数据分析上边。并且工作不再受时间限制目前我们的大部分数据抓取只能在晚上进行因为NUTCH会把我们感兴趣的网站的内容全部镜像到本地。

可以充分利用NUTCH的分布式抓取的机制那么即使将来我们收录的网站到了另外一个数量级整个系统依然能正常运行。

如果我们能在今年年底以前把这套系统很流畅地运作起来我们在同类的网站当中已经是领先一大步了。

马继光

我们现在最紧迫的任务是要熟悉NUTCH的工作流程对它还处在认识阶段需要先利用它来抓取一些网站来测试一下。

卢少锦

我最关心的是数据抓取过来以后的读取如何完整再现他们的内容。计划研究Htmlparse来进行底层页面的抽取工作。

许雷

目前还处于探索阶段包括NUTCH本身是不是真的能将网站所有的数据都抓取下来、会不会丢失掉一些我们需要的比如产品类别信息、如何专门针对我们特别感兴趣的页面进行抓取都需要继续研究。另外现在的公司的程序员还没有特别精通JAVA的 因此JAVA的部分知识还需要进行学习。

下一步工作的计划

1李凯需要继续熟悉NUTCH的抓取流程包括NUTCH的重试机制分布式抓取。2马工学习一下JAVA的常见错误和报错信息还有JAVA中面向对象的基本概念。在下周五下午对程序员做一个讲座。同时尽快修复目前的空间余留的BUG。

3卢少锦在保证目前抓取工作进度的情况下研究Htmlpars e实现页面信息更方便的抽取。4许雷 研究如何把NUTCH抓取过来的页面缓存信息读取出来供信息抽取人员使用。5下周三下午两点的时候继续开会汇报目前的工作进度研究有关NUTCH的下一步开发计划。

6下周五下午三点开始由马工对程序员进行有关j ava开发的讲座。

大拿网技术部

2006-8-9

DiyVM独立服务器:香港沙田服务器,5M带宽CN2线路,L5630*2/16G内存/120G SSD硬盘,499元/月

diyvm怎么样?diyvm商家VPS主机均2GB内存起步,三个地区机房可选,使用优惠码后每月69元起;DiyVM独立服务器开设在香港沙田电信机房,CN2线路,5M带宽,自动化开通上架,最低499元/月,配置是L5630*2/16G内存/120G SSD硬盘。DiyVM是一家成立于2009年的国人主机商,提供的产品包括VPS主机、独立服务器租用等,产品数据中心包括中国香港、日本大阪和美国洛杉矶等,...

Megalayer(月599元)限时8月香港和美国大带宽服务器

第一、香港服务器机房这里我们可以看到有提供四个大带宽方案,是全向带宽和国际带宽,前者适合除了中国大陆地区的全网地区用户可以用,后者国际带宽适合欧美地区业务。如果我们是需要大陆地区速度CN2优化的,那就需要选择常规的优化带宽方案,参考这里。CPU内存硬盘带宽流量价格选择E3-12308GB240GB SSD50M全向带宽不限999元/月方案选择E3-12308GB240GB SSD100M国际带宽不...

麻花云:3折优惠,香港CN2安徽麻花云香港安徽移动BGP云服务器(大带宽)

麻花云在7月特意为主机测评用户群定制了促销活动:香港宽频CN2云服务器、安徽移动云服务器(BGP网络,非单线,效果更好)、安徽移动独立服务器、安徽电信独立服务器,全部不限制流量,自带一个IPv4,默认5Gbps的DDoS防御。活动链接:https://www.mhyun.net/act/zjcp特价云服务器不限流量,自带一个IPv4,5Gbps防御香港宽频CN2全固态Ⅲ型 4核4G【KVM】内存:...

网站数据抓取为你推荐
郭吉军郭吉军和管鹏这两个站长怎么样?群里有人骂邮箱怎么写邮箱地址怎么写外网和内网什么是内网,和外网有什么区别博客外链博客外链怎么做好打开网页出现错误网页出现错误怎么解决?要最简单的那种怎么样免费装扮qq空间要怎么免费装扮QQ空间!快速美白好方法有什么快速美白的好办法吗?渗透测试web渗透测试有前途吗1433端口如何打开1433端口数码资源网手机练习打字的软件
域名注册信息查询 网通服务器租用 x3220 stablehost lunarpages 河南服务器 个人域名 共享主机 卡巴斯基试用版 国外免费asp空间 台湾谷歌 网游服务器 shopex主机 新世界服务器 申请免费空间和域名 最漂亮的qq空间 申请网站 空间登录首页 宏讯 空间登入 更多