数据万网空间

万网空间  时间:2021-01-10  阅读:()

第36卷第6期计算机学报Vol.
36No.
62013年6月CHINESEJOURNALOFCOMPUTERSJune.
2013本课题得到国家自然基金重点项目"在线社会关系网络挖掘与分析"(No.
61232010);"支持舆情监控的Web搜索与挖掘的新理论和新方法"(No.
60933005);国家973项目课题"面向公共安全的社会感知数据处理"(No.
2012CB316303);国家自然基金面上项目"基于随机博弈网的网络用户信息行为模型及演化性分析"(No.
61173008);国家自然科学基金青年项目"通讯网络中可变服务容量调度系统的性能建模、分析与优化"(No.
61100175)的资助.
王元卓,男,1978年生,博士,,计算机学会高级会员(E200007139S),E-mail:wangyuanzhuo@ict.
ac.
cn,副研究员,主要研究领域为社会计算、网络行为分析、信息安全等.
靳小龙,男,1976年生,博士,E-mail:jinxiaolong@ict.
ac.
cn,副研究员,主要研究领域为社会计算、网络性能建模与分析、多智能体系统等.
程学旗,男,1971年生,博士,E-mail:cxq@ict.
ac.
cn,研究员,主要研究领域为网络科学、网络与信息安全以及互联网搜索与服务.
网络大数据:现状与展望王元卓,靳小龙,程学旗(中国科学院计算技术研究所网络数据科学与技术重点实验室,北京100190,中国)摘要网络大数据是指"人、机、物"三元世界在网络空间(Cyberspace)中交互、融合所产生并在互联网上可获得的的大数据.
网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,对现有的IT架构以及机器处理和计算能力带来了极大挑战.
同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.
因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法.
本文分析了网络大数据的复杂性、不确定性和涌现性带来的挑战,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会化计算,以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学,数据计算需要新模式与新范式,新型的IT基础架构和数据的安全和隐私等方面的发展趋势进行了展望.
关键词大数据;网络大数据;网络空间感知;大数据存储;数据挖掘;社会化计算NetworkBigData:PresentandFutureWANGYuan-Zhuo,JINXiaolong,CHENGXue-Qi(KeyLabofWebDataScience&Technology,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China)AbstractNetworkbigdatarefertothemassivedatageneratedbyinteractionandfusionoftheternaryhuman-machine-thinguniverseintheCyberspaceandavailableontheInternet.
TheincreaseoftheirscaleandcomplexityexceedsthatofthecapacityofhardwarecharacterizedbytheMoorelaw,whichbringsgrandchallengestothearchitectureandtheprocessingandcomputingcapacityofthecontemporaryITsystems,meanwhilepresentsunprecedentedopportunitiesondeeplyminingandtakingfulladvantageofthebigvalueofnetworkbigdata.
Therefore,itispressingtoinvestigatethedisciplinaryissuesanddiscoverthecommonlawsofnetworkbigdata,andfurtherstudythefundamentaltheoryandbasicapproachtoqualitativelyorquantitativelydealingwithnetworkbigdata.
Thispaperanalyzesthechallengescausedbythecomplexity,uncertaintyandemergenceofnetworkbigdata,andsummarizesmajorissuesandresearchstatusoftheawareness,representation,storage,management,mining,andsocialcomputingofnetworkbigdata,aswellasnetworkdataplatformsandapplications.
Italsolooksaheadtothedevelopmenttrendsofbigdatascience,newmodesandparadigmofdatacomputing,newITinfrastructures,anddatasecurityandprivacy,etc.
2计算机学报2013年KeywordsBigData;NetworkBigData;CyberspaceAwareness;StorageofBigData;DataMining;SocialComputing1引言1.
1研究与发展现状近年来,随着互联网、物联网、云计算、三网融合等IT与通讯技术的迅猛发展,数据的快速增长成了许多行业共同面对的严峻挑战和宝贵机遇,因而信息社会已经进入了大数据(BigData)时代.
大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变.
一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1].
网络大数据是指"人、机、物"三元世界在网络空间(Cyberspace)中彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据.
当前,网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战.
据著名咨询公司IDC发布的研究报告,2011年网络大数据总量为1.
8ZB,预计到2020年,总量将达到35ZB.
IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity).
首先,网络空间中数据的体量不断扩大,数据集合的规模已经从GB、TB到了PB,而网络大数据甚至以EB和ZB(1021)等单位来计数.
IDC的研究报告称,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍以迎合50倍的大数据增长①①http://www.
emc.
com/.
其次,网络大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据.
在现代互联网应用中,呈现出非结构化数据大幅增长的特点,至2012年末非结构化数据占有比例达到互联网整个数据量的75%以上.
这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用.
再次,网络大数据往往呈现出突发涌现等非线性状态演变现象,因此难以对其变化进行有效评估和预测.
另一方面,网络大数据常常以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能充分利用这些数据.
近几年,网络大数据越来越显示出巨大的影响作用,正在改变着人们的工作与生活.
2012年11月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密,其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘②.
目前,eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量.
为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析③.
2012年的双十一,中国互联网再次发生了最大规模的商业活动:淘宝系网站的销售总额达到191亿元人民币.
淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求,得益于其对往年的情况,特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析④网络大数据给学术界也同样带来了巨大的挑战和机遇.
网络数据科学与技术作为信息科学、社会科学、网络科学、系统科学等相关领域交叉的新兴学科方向正逐步成为学术研究的新热点.
近年,Nature和Science等刊物相继出版专刊来探讨对大数据的研究.
2008年Nature出版专刊"BigData",从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战[2].
2011年Science推出关于数据处理的专刊"Dealingwithdata",讨论了数据洪流(Datadeluge)所带来的机遇[3].
特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用.
.
1.
2网络大数据研究的意义总体而言,网络大数据研究的重要性体现在以下几个方面:(1)网络大数据对捍卫国家网络空间的数字主权,维护社会稳定、推动社会与经济可持续发展有独特的作用.
信息化时代,国家层面的竞争力将部分体现为一国拥有网络大数据的规模、活性以及对数据的解释与运用的能力.
国家在网络空间的数字主权也将是继海、陆、空、天四个空间之后另一个大国博弈的空间.
在网络大数据领域的落后,意②http://swampland.
time.
com//③http://www.
china-cloud.
com/④http://server.
51cto.
com/6期作者名等:网络大数据:现状与展望3味着失守产业战略制高点,意味着国家安全将在网络空间出现漏洞.
为此,今年3月,美国政府整合六个部门投资2亿美元启动"大数据研究和发展计划".
在该计划中,美国国家科学基金会提出要"形成一个包括数学、统计基础和计算机算法的独特学科".
该计划还强调,大数据技术事关美国的国家安全,影响科学研究的步伐,还将引发教育和学习的变革.
这意味着网络大数据的主权已上升为国家意志,直接影响国家和社会的稳定,事关国家的战略安全.
(2)网络大数据是国民经济核心产业信息化升级的重要推动力量.
"人、机、物"三元世界的融合产生了大规模的数据,如何感知、测量、利用这些网络大数据成为国民经济中许多行业面临的共同难题,成了这些行业数字化、信息化的障碍和藩篱.
如何使不同行业都能突破这一障碍,关键在于对网络大数据基本共性问题的解决.
譬如,对于非结构化数据的统一表示与分析,目前缺少有效的方法和工具.
因此,通过对网络大数据共性问题的分析和研究,使企业能够掌握网络大数据的处理能力或者能够承受网络大数据处理的成本与代价,进而使整个行业迈入数字化与信息化的新阶段.
在这个意义上,对网络大数据基础共性问题的解决将是新一代信息技术融合应用的新焦点,是信息产业持续高速增长的新引擎,也是行业用户提升竞争能力的新动力.
(3)网络大数据在科学和技术上的突破,将可能诞生出数据服务、数据材料、数据制药等战略性新兴产业.
网络数据科学与技术的突破意味着人们能够理清数据交互连接产生的复杂性,掌握数据冗余与缺失双重特征引起的不确定性,驾驭数据的高速增长与交叉互连引起的涌现性(Emergence)[4],进而能够根据实际需求从网络数据中挖掘出其所蕴含的信息、知识甚至是智慧,最终达到充分利用网络数据价值的目的.
涌现性是指由低层次的多个元素构成高层次的系统时展示出的每个单一元素所不具备的性质.
网络数据不再是产业环节上产生的副产品,相反地,网络数据已成为联系各个环节的关键纽带.
通过对网络数据纽带的分析与掌握,可以降低行业成本、促进行业效率、提升行业生产力.
因此,可以预见,在网络数据的驱动下,行业模式的革新将可能催生出数据材料、数据制造、数据能源、数据制药等一系列战略性的新兴产业.
(4)大数据引起了学术界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命.
科学研究最初只有实验科学,随后出现了理论科学,研究各种定律和定理.
由于在许多问题上,理论分析方法变得太过复杂以至于难以解决难题,人们开始寻求模拟的方法,这又产生了计算科学.
而大数据的出现催生了一种新的科研模式,即面对大数据,科研人员只需从数据中直接查找、分析或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象.
2007年,已故的图灵奖得主吉姆格雷(JimGray)在他最后一次演讲中描绘了数据密集型科学研究的"第四范式"(TheFourthParadigm)[5],把数据密集型科学从计算科学中单独区分开来.
格雷认为,要解决我们面临的某些最棘手的全球性挑战,"第四范式"可能是唯一具有系统性的方法.
网络大数据的深挖掘、大规模利用是新兴产业界的立足点.
即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效快速的处理、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,因为大数据从根本上来说就是来源于应用的问题.
著名出版公司O'Reilly的创始人TimO'Reilly断言,大数据就是下一个IntelInside,未来属于那些能把数据转换为产品的公司和人群.
MGI的研究报告也宣称,大数据是下一代革新、竞争力和生产力的先导,网络大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益.
Gartner公司则更具体地预测,到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%.
本文梳理了网络大数据所带来的挑战以及相关的研究体系,从网络空间感知与数据表示、网络大数据存储与管理体系、网络数据挖掘和社会化计算,以及网络数据平台系统与应用四个方面回顾了相关领域的新近发展,探讨了网络大数据研究方向和所面临的挑战,并展望了未来的主要研究方向.
2网络大数据带来的挑战如上所述,网络大数据面临着来自诸多方面的挑战.
但从研究的角度来说,根本挑战在于其复杂性、不确定性和涌现性.
对这三个基本特性的研究决定着网络大数据的发展趋势、研究进展和应用前景.
4计算机学报2013年2.
1网络大数据的复杂性复杂性造成网络大数据存储、分析、挖掘等多个环节的困难.
网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性.
(1)数据类型复杂性.
信息技术的发展使得数据产生的途径不断增加,数据类型持续增多.
相应地,则需要开发新的数据采集、存储与处理技术.
例如社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介.
与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难.
相关的研究包括利用外部数据源(如Wikepedia[6],搜索结果[7]等)扩充文档,或者利用内部相似文档信息来扩充短文本的表达[8].
然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪音.
另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战.
例如在社交媒体的研究当中地域信息与内容的融合[9],时空信息与内容信息的结合[10]等等.
(2)数据结构的复杂性.
传统上处理的数据对象都是有结构的,能够存储到关系数据库中.
但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式.
非结构化数据具有许多格式,包括文本、文档、图形、视频等等.
非结构化数据当中蕴含着丰富的知识,但其异构和可变性质也给数据分析与挖掘工作带来了更大的挑战.
与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难.
目前相关的研究热点,包括开发非关系型数据库(如Google的BigTable,开源的HBase等)来存储非结构化数据.
Google提出了MapReduce计算框架,Yahoo!
、Facebook等公司在此基础上实现了Hadoop、Hive之类的分布式架构,对非结构化数据做基本的分析工作.
国内各大公司和科研单位也启动了用于支撑非结构化处理的基础设施研发,如百度的云计算平台、中科院计算所的凌云(LingCloud)系统等.
(3)数据模式的复杂性.
随着数据规模的增大,描述和刻画数据的特征必然随之增大,而由其组成的数据内在模式将会以指数形式增长.
首先,数据类型的多样化决定了数据模式的多样化.
不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用.
这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络、甚至社会学等等).
为此,Han提出用网络来描述异质数据间的关系,同时提出了"元路径(Meta-Path)"的概率来刻画目标数据模式[11].
这样通过定义合适的元路径,便可在数据网络中挖掘有价值的模式.
其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪音,网络数据需要高效鲁棒的方法来实现去粗存精,去冗存真.
搜索引擎就是从无结构化数据中检索出有用信息的一种工具.
尽管搜索技术在工业上已经取得极大得成功,但仍然存在很多不足(如对一些长尾词的查询,对二义性查询词的理解等),都有待长足的进步.
另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题.
在这种情况下,由于数据模式统计显著性较弱,以往的统计学习的方法多针对高频数据模式挖掘,因此难以产生令人满意的效果.
近年来,受实际应用驱动,高维稀疏问题成为了统计学习领域的热点问题[12].
相关理论研究发现基于稀疏表达的学习方法(如LASSO等),在获得较好学习效果的同时,还具有更高的效率和鲁棒性[13].
2.
2网络大数据的不确定性不确定性使得网络数据难以被建模和学习,从而难以有效利用其价值.
网络数据的不确定性包括数据本身的不确定性、模型的不确定性和学习的不确定性.
(1)数据的不确定性.
原始数据的不准确,以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同维度、不同尺度上都有不同程度的不确定性.
传统侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据.
具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战[14].
近年来,概率统计的方法被逐步应用于不确定性数据的处理中.
一方面,数据的不确定性要求我们使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能.
目前,该领域研究尚浅,在学术界6期作者名等:网络大数据:现状与展望5和产业界尚有大量问题亟待解决.
(2)模型的不确定性.
数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡.
在对不确定数据的建模和系统设计上,最常用且朴素的观点是"可能世界模型"[15].
该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画.
但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求.
在实际应用中,我们往往采取简化的模型刻画不确定性数据的特性,如独立性假设,同分布假设等等.
尤其值得注意的是,概率图模型[16]由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域.
另外,在数据的管理和挖掘上面,不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响[17].

IonSwitch:$1.75/月KVM-1GB/10G SSD/1TB/爱达荷州

IonSwitch是一家2016年成立的国外VPS主机商,部落上一次分享的信息还停留在2019年,主机商提供基于KVM架构的VPS产品,数据中心之前在美国西雅图,目前是美国爱达荷州科德阿伦(美国西北部,西接华盛顿州和俄勒冈州),为新建的自营数据中心。商家针对新数据中心运行及4号独立日提供了一个5折优惠码,优惠后最低1GB内存套餐每月仅1.75美元起。下面列出部分套餐配置信息。CPU:1core内存...

HaBangNet(6.95美元/月)美国vps 5TB流量/德国vps 香港双向CN2 GIA VPS

HaBangNet支持支付宝和微信支付,只是价格偏贵,之前国内用户并不多。这次HaBangNet推出三个特价套餐,其中美国机房和德国机房价格也还可以,但是香港机房虽然是双向CN2 GIA线路,但是还是贵的惊人,需要美国和德国机房的可以参考下。HaBangNet是一家成立于2014年的香港IDC商家,中文译名:哈邦网络公司,主营中国香港、新加坡、澳大利亚、荷兰、美国、德国机房的虚拟主机、vps、专用...

Boomer.host:$4.95/年-512MB/5GB/500GB/德克萨斯州(休斯顿)

部落曾经在去年分享过一次Boomer.host的信息,商家自述始于2018年,提供基于OpenVZ架构的VPS主机,配置不高价格较低。最近,主机商又在LET发了几款特价年付主机促销,最低每年仅4.95美元起,有独立IPv4+IPv6,开设在德克萨斯州休斯顿机房。下面列出几款VPS主机配置信息。CPU:1core内存:512MB硬盘:5G SSD流量:500GB/500Mbps架构:KVMIP/面板...

万网空间为你推荐
注册国际域名哪里的国际域名注册便宜?免费国外空间哪些免费的国外空间最好?速度快.功能大?vps试用求个免费现成的vps(可永久可试用)网站服务器租用哪些网站适合独立服务器租用?价格方面怎么样?网站域名空间哪个网站的域名空间的便宜?网站空间租用公司网站租用什么样的网站空间合适100m网站空间做网站100M的空间够用吗?下载虚拟主机电脑虚拟机怎么弄虚拟主机测评我们可以用哪些命令来测试一个虚拟主机的好坏?长沙虚拟主机长沙点航网络科技有限公司怎么样?
企业虚拟主机 虚拟主机管理软件 美国vps评测 域名备案收费吗 新通用顶级域名 diahosting 精品网 美国主机论坛 mediafire下载 ssh帐号 好看的桌面背景图 地址大全 彩虹ip 亚洲小于500m cdn联盟 512mb 宏讯 广州虚拟主机 双线空间 免费个人主页 更多