PageRank算法研究现状与展望
摘要为了能使用户在Inte rnet海量的信息中准确的找到需要的资源 Web挖掘这项新技术出现了。而PageRank算法就是在这种背景下产生的。它是基于Web超链接结构分析算法最成功的代表之一 已经成功的运用在了实际系统中。但同时PageRank算法也有一定的局限性和不足之处。本文讨论了PageRank算法的背景、算法原理及其主要的缺陷。
关键词 P age Rank算法 Web结构 超链接
1.引言
随着Inter ne t的飞速发展Web上的信息量也以惊人的速度增长人们也越来越多的在Interne t上发布和获取信息万维网已经成为资料共享和信息交流的最大平台。那么一个很突出的问题就出现了如何在互联网中海量的资源中迅速、准确的找到自己所需的信息而Web挖掘这项新技术就是为了解决这一难题的。Web挖掘技术是数据挖掘技术和Inte rnet技术的结合是当今计算机研究领域的新热点。
2.经典的Web结构分析算法
传统的互联网应用技术大多是基于文档内容的业界对互联网搜索功能的理解是某个关键词在一个文档中出现的频率越高该文档在搜索结果中的排列位置就要越显著。这种做法都是忽略了互联网包含而传统数据环境没有的另一种丰富信息互联网的超链接拓扑结构。所谓的超链接就是指从一个网页指向另一个目标的连接关系。另一个目标可以是其它网页也可以是本网页其它位置。假设网页A有一条超链接指向网页B那么我们就认为网页A的创建者判定网页B包含了有价值的信息。因此充分利用互联网间的链接结构信息对互联网的搜索具有重大意义。
基于超链接的分析方法 Page Rank、HI TS、 SALSA等算法应运而生。其中不少算法已经在实际系统中使用并取得了良好的效果而PageRank算法就是其中应用最广泛的一个。
3.PageRank算法原理
PageRank算法是Google创始人Sergey Brin和Lwarence Page于1998年提出来的它是基于Web超链接结构分析的算法中最成功的代表也是评鉴网页权威性的重要工具。
PageRank算法借鉴了传统的情报检索理论中的引文分析方法。核心思想就是 当网页A存在一条超链接指向网页B时就理解为“网页A向网页B投了一票”网页B的重要级数就得到增加。PageRank算法还认为网页B的重要性不
BGPTO是一家成立于2017年的国人主机商,从商家背景上是国内的K总和有其他投资者共同创办的商家,主营是独立服务器业务。数据中心包括美国洛杉矶Cera、新加坡、日本大阪和香港数据中心的服务器。商家对所销售服务器产品拥有自主硬件和IP资源,支持Linux和Windows。这个月,有看到商家BGPTO日本和新加坡机房独服正进行优惠促销,折扣最低65折。第一、商家机房优惠券码这次商家的活动机房是新加坡...
快云科技: 11.11钜惠 美国云机2H5G年付148仅有40台,云服务器全场7折,香港云服务器年付388仅不到五折 公司介绍:快云科技是成立于2020年的新进主机商,持有IDC/ICP/ISP等证件资质齐全主营产品有:香港弹性云服务器,美国vps和日本vps,香港物理机,国内高防物理机以及美国日本高防物理机官网地址:www.345idc.com活动截止日期为2021年11月13日此次促销活动提供...
快快CDN主营业务为海外服务器无须备案,高防CDN,防劫持CDN,香港服务器,美国服务器,加速CDN,是一家综合性的主机服务商。美国高防服务器,1800DDOS防御,单机1800G DDOS防御,大陆直链 cn2线路,线路友好。快快CDN全球安全防护平台是一款集 DDOS 清洗、CC 指纹识别、WAF 防护为一体的外加全球加速的超强安全加速网络,为您的各类型业务保驾护航加速前进!价格都非常给力,需...