今天在洪波的博客中看到一篇文章:超链分析和PageRank的专利问题才第一次知道百度总裁李彦宏曾经申请并获得对于超链接分析的专利我们姑且称之为超链分析专利。而这个专利申请是在Google申请他们自己的PageRank专利之前。
我以前对中文搜索引擎没什么认识真是孤陋寡闻。看到这篇文章直觉是如果这两个专利是相似的或有抄袭嫌疑这牵扯到两家公司的核心利益。对我这样的搜索引擎优化人员来说也能从中了解百度算法的一些内幕。所以马上去看了李彦宏的专利申请并再次阅读了Google PR的专利申请。
我的理解是这两个专利申请的区别在于他们谈的根本就是两回事。要解决的问题和实施方法都不一样虽然研究对象是一样的都是链接。
超链分析要解决的是文件与搜索关键词的相关性。李彦宏提出的方法是除了文件本身对关键词的引用外还需要考虑反向链接中的关键词。
具体来说一个文件被索引进数据库的时候会连同指向这个文件的超链接以及每个超链接当中使用的锚文字(链接文字) 一同记录在案。而搜索词也会建立一个数据库每个词连同含有这个词的超链接 以及这些超链接所指向的文件一同被记录在案。
当一个关键词被搜索的时候含有以关键词为链接文字的反向链接数目最多的那个文件或网页将被作为最相关的结果排在前面。
这是基本思路当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候每一个词都是搜索矢量的一个维度。
我比较感兴趣的是在这篇专利申请中已经提到了词干技术而且提到了不同文字文件的相关性。
而Google的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中 明确提到即使在考虑了指向文件的链接及链接锚文字之后搜索引擎还有重要问题需要解决那就是来自不同文件的链接有不同的权重值。
你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多而这些链接本身的权重越高那么这个被指向的网页的重要性及PageRank就越高。
Google的专利申请当中给出了具体怎样计算这一重要性指标他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算才能得到近似于最终结果的PR值。
Google PR是与搜索词无关的或者说与文件相关性无关的。它只描述某一个文件的重要性或地位。
就目前所有搜索引擎的表现来看可以肯定这两个技术都已经被应用在排名算法中了虽然可能名字不一样。尤其明显的是虽然Google一直以PR为旗号很少介绍它们的其他技术。但近一两年来 Google算法中对链接分析锚文字分析词干技术的重视越来越多。
这里做的分析完全是针对两篇专利申请所透露的技术问题对谁先谁后谁受谁启发等等无意评论。
提速啦 成立于2012年,作为互联网老兵我们一直为用户提供 稳定 高速 高质量的产品。成立至今一直深受用户的喜爱 荣获 “2021年赣州安全大赛第三名” “2020创新企业入围奖” 等殊荣。目前我司在美国拥有4.6万G总内存云服务器资源,香港拥有2.2万G总内存云服务器资源,阿里云香港机房拥有8000G总内存云服务器资源,国内多地区拥有1.6万G总内存云服务器资源,绝非1 2台宿主机的小商家可比。...
搬瓦工怎么样?2021年7月最新vps套餐推荐及搬瓦工优惠码整理,搬瓦工优惠码可以在购买的时候获取一些优惠,一般来说力度都在 6% 左右。本文整理一下 2021 年 7 月最新的搬瓦工优惠码,目前折扣力度最大是 6.58%,并且是循环折扣,续费有效,可以一直享受优惠价格续费的。搬瓦工优惠码基本上可能每年才会更新一次,大家可以收藏本文,会保持搬瓦工最新优惠码更新的。点击进入:搬瓦工最新官方网站搬瓦工...
特网云特网云为您提供高速、稳定、安全、弹性的云计算服务计算、存储、监控、安全,完善的云产品满足您的一切所需,深耕云计算领域10余年;我们拥有前沿的核心技术,始终致力于为政府机构、企业组织和个人开发者提供稳定、安全、可靠、高性价比的云计算产品与服务。官方网站:https://www.56dr.com/ 10年老品牌 值得信赖 有需要的请联系======================特网云美国高防御...