PageRank算法研究现状与展望
摘要为了能使用户在Inte rnet海量的信息中准确的找到需要的资源 Web挖掘这项新技术出现了。而PageRank算法就是在这种背景下产生的。它是基于Web超链接结构分析算法最成功的代表之一 已经成功的运用在了实际系统中。但同时PageRank算法也有一定的局限性和不足之处。本文讨论了PageRank算法的背景、算法原理及其主要的缺陷。
关键词 P age Rank算法 Web结构 超链接
1.引言
随着Inter ne t的飞速发展Web上的信息量也以惊人的速度增长人们也越来越多的在Interne t上发布和获取信息万维网已经成为资料共享和信息交流的最大平台。那么一个很突出的问题就出现了如何在互联网中海量的资源中迅速、准确的找到自己所需的信息而Web挖掘这项新技术就是为了解决这一难题的。Web挖掘技术是数据挖掘技术和Inte rnet技术的结合是当今计算机研究领域的新热点。
2.经典的Web结构分析算法
传统的互联网应用技术大多是基于文档内容的业界对互联网搜索功能的理解是某个关键词在一个文档中出现的频率越高该文档在搜索结果中的排列位置就要越显著。这种做法都是忽略了互联网包含而传统数据环境没有的另一种丰富信息互联网的超链接拓扑结构。所谓的超链接就是指从一个网页指向另一个目标的连接关系。另一个目标可以是其它网页也可以是本网页其它位置。假设网页A有一条超链接指向网页B那么我们就认为网页A的创建者判定网页B包含了有价值的信息。因此充分利用互联网间的链接结构信息对互联网的搜索具有重大意义。
基于超链接的分析方法 Page Rank、HI TS、 SALSA等算法应运而生。其中不少算法已经在实际系统中使用并取得了良好的效果而PageRank算法就是其中应用最广泛的一个。
3.PageRank算法原理
PageRank算法是Google创始人Sergey Brin和Lwarence Page于1998年提出来的它是基于Web超链接结构分析的算法中最成功的代表也是评鉴网页权威性的重要工具。
PageRank算法借鉴了传统的情报检索理论中的引文分析方法。核心思想就是 当网页A存在一条超链接指向网页B时就理解为“网页A向网页B投了一票”网页B的重要级数就得到增加。PageRank算法还认为网页B的重要性不
已经有一段时间没有分享阿里云服务商的促销活动,主要原因在于他们以前的促销都仅限新用户,而且我们大部分人都已经有过账户基本上促销活动和我们无缘。即便老用户可选新产品购买,也是比较配置较高的,所以就懒得分享。这不看到有阿里云金秋活动,有不错的促销活动可以允许产品新购。即便我们是老用户,但是比如你没有购买过他们轻量服务器,也是可以享受优惠活动的。这次轻量服务器在金秋活动中力度折扣比较大,2G5M配置年付...
BuyVM在昨天宣布上线了第四个数据中心产品:迈阿密,基于KVM架构的VPS主机,采用AMD Ryzen 3900X CPU,DDR4内存,NVMe硬盘,1Gbps带宽,不限制流量方式,最低$2/月起,支持Linux或者Windows操作系统。这是一家成立于2010年的国外主机商,提供基于KVM架构的VPS产品,数据中心除了新上的迈阿密外还包括美国拉斯维加斯、新泽西和卢森堡等,主机均为1Gbps带...
greencloudvps怎么样?greencloudvps是一家国外主机商,VPS数据中心多,之前已经介绍过多次了。现在有几款10Gbps带宽的特价KVM VPS,Ryzen 3950x处理器,NVMe硬盘,性价比高。支持Paypal、支付宝、微信付款。GreenCloudVPS:新加坡/美国/荷兰vps,1核@Ryzen 3950x/1GB内存/30GB NVMe空间/1TB流量/10Gbps...