网页网页地址

网页地址  时间:2021-04-18  阅读:()
应用技术-基于元搜索的网页消重方法研究0)12/3)45,3&6-"(78-"(9)"/!
)/6.
(:'3-')谢!
蕙!
秦!
杰!
(河南工业大学信息科学与工程学院河南郑州"#$$$%)摘!
要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法.
介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性.
关键词:消重特征码元搜索引擎网页元数据摘要相似度%!
引言随着网络技术的飞速发展,网络提供给人们的信息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了重要作用.
但是现在的搜索引擎技术并不完善,存在一些亟待解决的问题,最主要的问题之一是存在大量的重复网页[%].
对用户而言,如果查询到的是重复信息,严重影响查询效率.
对互联网系统而言,如果采集到大量重复网页,既浪费信息检索时间又浪费存储空间.
网络机器人(&'()*+)采集互联网中的相关信息,采集信息的数量非常巨大,采集结果的处理,需要进行消重处理后,才能作为有效的信息.
若单单依靠人工进行去重处理,不仅耗费宝贵的人力资源,而且时效性也不能满足实际需要.
为了解决这些问题,网页消重成为搜索引擎所研究的一项重要技术.
,!
网页消重技术网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程[,].
!
"#网页消重技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同,但是几乎所有的消重技术都基于这样一个基本思想[-]:根据一定的算法为每个文档计算出一组指纹(.
(/0*+'+(/1),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是重复网页.
对于234相同的网页,为了避免重复搜集同一234网页,主要使用排除相同234的方法:网络蜘蛛把访问过的网页地址变成信息指纹存放到哈希表中,在抓取新的网页时,把网页的地址解析成指纹,判断比较该指纹是否存在于哈希表中,若存在则表示已下载过,若不存在则下载且把这个指纹存放到该哈希表中.
当然这个算法要保证几乎不能产生相同的网址指纹.
针对内容相同的网页,当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间向量模型来完成消重任务的.
典型的系统包括56607*和天网系统[-].
通常这类系统的消重工作过程大致是:在对网络蜘蛛已抓取回来的网页进行分析时,首先对网页进行净化,提取出网页的主题以及与主题相关的内容,这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息,根据网页的关键词、摘要、正文等信息提取网页的特征项,构造评价函数,根据两个网页的特征项的相似度判断网页是否重复.
!
"!
现有主流网页消重技术[#]89:;算法计算出每篇文档中各个单词的词频,将文档用词频向量的方法表示出来,计算,个词频向量之间的距离,在一定的范围之内就判断为相似的文档.
/1=1(7@&1*+(/0)算法,首先将一篇文档分成由/个字组成的&A(/07*&,一篇文章就可以由/个&A(/07*&来表示,再按照一定的过滤规则将过滤出!
"计算机系统应用.
//0年第0期应用技术-的作为该篇文档的代表,参加比较的就是这些被选出来的算法是对.
/0算法的一种改进,它从过滤这方面着手,尽量过滤掉尽可能多的重复次数较多的北大的天网系统在搜集并分析一篇网页时,提取并记录了网页中出现的关键词,同时根据公式赋予每个关键词一个权值,这些关键词的权值构成一个向量空间,可以用来表示该网页.
并以关键词作为网页的特征项.
清华大学使用的提取方法是在文章中逗号,句号的前后各取1个汉字,作为字符串.
哈工大使用的方法是在文章中各个句号的前后各取2个汉字.
虽然提取汉字的方法不同,但是都是以标点作为文中的提取标记,这种方法效率较高,因为提取字符串是线性时间的,就是把一个3($1)时间复杂度的问题转变成了3($)时间复杂度的问题,不失为一种好方法.
!
"#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面,其中查全率是指去重算法所发现的转载网页占总网页的百分比,而准确率反映了算法所发现的转载网页中有多少是真正的转载网页.
当前提出的网页消重算法还比较少,在这些算法中还存在着很多的局限.
/04*算法去重效率不高,要求存储空间较大;.
/0算法准确率不高,比较次数过多,效率下降;()*+,-"算法效率和准确率比较平均,占用硬盘空间大.
国内几种算法大都是对国外算法的沿用,在算法效率,准确率,时效性等方面都存在各种问题.
56一种基于元搜索引擎的网页消重方法该元搜索引擎模型,选择若干成员搜索引擎,针对用户的单个查询请求,调用成员搜索引擎的搜索结果,存储到数据库,经过相应的结果融合,再返回给用户.
不同搜索引擎的检索结果中会有一定程度的重复,为了使元搜索引擎获得用户满意的高质量的检索结果,必须尽量消除重复.
一般来说,会有以下几种情况:!
最简单的重复情况是结果具有相同的789,可以很容易的排除;"同一文档存在常见的别名,或者是同一文档被做了链接因而具有差异较大的别名;#同一文档具有不同的版本或拷贝,放在不同的位置,此时存放的主机也可能不相同,此种情况最难识别.
考虑到元搜索引擎的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页标题,网页摘要等.
因此,该网页消重算法选择结果网页集合中每条记录的网页地址,网页标题,网页摘要作为判断网页重复性分析的依据.
算法具体设计方案如下:(:)网页元数据提取元搜索引擎模型调用源搜索引擎,得到搜索结果———结果网页记录集,直接提取网页集合中每条记录的标题,地址和摘要作为网页元数据.
(1)提取网页摘要特征串针对网页的摘要,用文本中分隔标记把文本分成若干句子,从句子中提取特征码,把特征码按顺序连接起来构成该文本的特征串.
(5)摘要相似度评价函数为了实现去重模块中判断摘要相似度功能,摘要相似因子设计如下:A$BC$.
其中是相似因子,A$是两个特征串中特征码相同的个数,C$是两个特征串的特征码的个数,相似因子的值即为相似度.
判断C$的值:如果两特征串含特征码的个数相等,则C$的值即特征串的特征码个数值;否则是两个特征串的特征码个数的较小值.
判断A$的值:比较特征码是否相同.
每有一组特征码相同,A$的值就加:.
设计系统阈值3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复.
(D)消重算法描述!
提取记录的网页元数据;判断网页地址是否重复.
如果地址相同,则重复,转$;否则,转";"判断网页标题是否重复.
如果标题相同,则转#;否则,转%;#依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,判断相似度,若相似度大于系统阈值3;:,则两条记录重复,否则,转&;%依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,若相似!
".
//0年第0期计算机系统应用应用技术-度大于系统阈值!
"#,则两条记录重复,否则,转!
;!
将提取出的特征码插入平衡搜索树中,并转";#结束.
$%实验验证采用以上介绍的算法,我们在元搜索引擎系统中对一批数量在&''—#''的网页集合进行处理,将实验结果与人工判别的结果进行比较,发现重复网页的准确率达到()!
以上.
在成员搜索引擎个数固定的情况下,我们对算法的响应时间做测试,测试结果如表&所示.
从实验结果可以看出,去重处理过程中的主要时间用于特征码的提取.
表&%算法去重处理时间网页数目(个)特征码提取时间(*)去重处理时间(*)%%当结果集合网页数目固定时,我们对算法执行时间与成员搜索引擎数目的关系做了测试.
测试结果如图&表明,选择适当的成员搜索引擎,权衡它们的数量和性能,才能充分发挥该算法的性能.
图&%算法性能与成员搜索引擎个数的关系-%结束语将该方法用于元搜索引擎系统中,能有效提高检索质量,返回给用户更为准确的结果.
经分析发现,这种算法的主要缺陷在于所提取的特征码信息只代表了这些标点周围的信息,未提供网页摘要的内容信息.
并且,算法的去重过程中主要时间用于特征码的提取.
所以下一步工作是重点改进特征码提取方法,提高特征码提取效率并且使特征码更能表现网页摘要的内容.
参考文献.
白广慧/网页排重技术研究与应用/中国科学院,0112/0陈基漓,牛秦洲/基于特征码的网页去重/微计算机信息,0112,00(3):.
.
34.
.
5/3吴平博,陈群秀,马亮/基于特征串的大规模中文网页快速去重算法研究/中文信息学报,0113,.
6(0):07435/89/9/A/B%CD>E,F/GHH$I($%*DGJ"#;$D>D$;*;HK$L$#>K,M%J"H;N,%CE/!
AOKPQORS,0116:5334588/5郑德全,胡熠,于浩,赵铁军,王青松/多载体数据流中的特定信息识别研究/软件学报,0113,.
8(T):.
5374.
583/29,*E);;A);,U/K)$V>W,L>%D>#/B$*&$*E%"#$(>D%&X%M(;##%(D$;*@/P*E@;H0111!
AOP*D%*>ID$;*>#A;*H%O>*>E%L%*D;HS>D>(KPQORS),O>C0111/6K)>;Y)$Z%,9$4[;*EF%*,F%$4Z$*EO>/!
@C@D%L>DI$(@D,&C;*">>L%D%D$E%4@(>#%&,I"#$(>D%&;(,L%*D&%D%(D$;*/\*;X#%&E%>*&P*H;L>D$;*KC@D%L@,0116,.
8:0.
64030/!
"计算机系统应用0117年第7期

Vultr VPS新增第18个数据中心 瑞典斯德哥尔摩欧洲VPS主机机房

前几天还在和做外贸业务的网友聊着有哪些欧洲机房的云服务器、VPS商家值得选择的。其中介绍他选择的还是我们熟悉的Vultr VPS服务商,拥有比较多达到17个数据中心,这不今天在登录VULTR商家的时候看到消息又新增一个新的机房。这算是第18个数据中心,也是欧洲VPS主机,地区是瑞典斯德哥尔摩。如果我们有需要欧洲机房的朋友现在就可以看到开通的机房中有可以选择瑞典机房。目前欧洲已经有五个机房可以选择,...

Megalayer美国独立服务器新用户首月优惠350元(30M优化不限流量)

Megalayer 商家在开始看到有提供香港服务器、香港站群服务器的时候有介绍过,后来就一直没有怎么关注。但是前几天有看到网友使用到他们家的美国独立服务器问其如何的,但是我没有使用过就不好评论,这不前几天也有介绍到Megalayer美国独立服务器。以及我们也有看到商家有提供美国站群服务器和美国大带宽服务器产品,可选30M不限制流量CN2优化线路,以及100M不限制流量国际带宽线路。新年元旦后,Me...

飞讯云E5-2678V3 64GB,湖北十堰100G高防物理机330元/月

飞讯云官网“飞讯云”是湖北飞讯网络有限公司旗下的云计算服务品牌,专注为个人开发者用户、中小型、大型企业用户提供一站式核心网络云端部署服务,促使用户云端部署化简为零,轻松快捷运用云计算。飞讯云是国内为数不多具有ISP/IDC双资质的专业云计算服务商,同时持有系统软件著作权证书、CNNIC地址分配联盟成员证书,通过了ISO27001信息安全管理体系国际认证、ISO9001质量保证体系国际认证。 《中华...

网页地址为你推荐
支持ipadthinksnsthinksns 好用吗?靠谱吗重庆400年老树穿楼生长重庆海拔500左右的红沙土适合栽哪种果树字节跳动回应TikTok易主一部电影讲一个小伙子去继承遗产结果是一批雪橇狗男主吹口哨声明不是雪地狂奔internetexplorer无法打开Internet Explorer 无法打开?支付宝注册网站在哪里注册支付宝账号北京大学cuteftp佛山海虹海虹蒸多长时间oa办公软件价格一个oa系统多少钱美国独立美国独立战争的概况
西安电信测速 adman bbr hawkhost 国外服务器 koss shopex空间 主机屋免费空间 天猫双十一秒杀 发包服务器 丹弗 服务器托管什么意思 四核服务器 电信托管 1元域名 海外空间 河南移动梦网 什么是web服务器 工信部网站备案查询 如何登陆阿里云邮箱 更多