应用技术-基于元搜索的网页消重方法研究0)12/3)45,3&6-"(78-"(9)"/!
)/6.
(:'3-')谢!
蕙!
秦!
杰!
(河南工业大学信息科学与工程学院河南郑州"#$$$%)摘!
要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法.
介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性.
关键词:消重特征码元搜索引擎网页元数据摘要相似度%!
引言随着网络技术的飞速发展,网络提供给人们的信息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了重要作用.
但是现在的搜索引擎技术并不完善,存在一些亟待解决的问题,最主要的问题之一是存在大量的重复网页[%].
对用户而言,如果查询到的是重复信息,严重影响查询效率.
对互联网系统而言,如果采集到大量重复网页,既浪费信息检索时间又浪费存储空间.
网络机器人(&'()*+)采集互联网中的相关信息,采集信息的数量非常巨大,采集结果的处理,需要进行消重处理后,才能作为有效的信息.
若单单依靠人工进行去重处理,不仅耗费宝贵的人力资源,而且时效性也不能满足实际需要.
为了解决这些问题,网页消重成为搜索引擎所研究的一项重要技术.
,!
网页消重技术网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程[,].
!
"#网页消重技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同,但是几乎所有的消重技术都基于这样一个基本思想[-]:根据一定的算法为每个文档计算出一组指纹(.
(/0*+'+(/1),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是重复网页.
对于234相同的网页,为了避免重复搜集同一234网页,主要使用排除相同234的方法:网络蜘蛛把访问过的网页地址变成信息指纹存放到哈希表中,在抓取新的网页时,把网页的地址解析成指纹,判断比较该指纹是否存在于哈希表中,若存在则表示已下载过,若不存在则下载且把这个指纹存放到该哈希表中.
当然这个算法要保证几乎不能产生相同的网址指纹.
针对内容相同的网页,当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间向量模型来完成消重任务的.
典型的系统包括56607*和天网系统[-].
通常这类系统的消重工作过程大致是:在对网络蜘蛛已抓取回来的网页进行分析时,首先对网页进行净化,提取出网页的主题以及与主题相关的内容,这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息,根据网页的关键词、摘要、正文等信息提取网页的特征项,构造评价函数,根据两个网页的特征项的相似度判断网页是否重复.
!
"!
现有主流网页消重技术[#]89:;算法计算出每篇文档中各个单词的词频,将文档用词频向量的方法表示出来,计算,个词频向量之间的距离,在一定的范围之内就判断为相似的文档.
/1=1(7@&1*+(/0)算法,首先将一篇文档分成由/个字组成的&A(/07*&,一篇文章就可以由/个&A(/07*&来表示,再按照一定的过滤规则将过滤出!
"计算机系统应用.
//0年第0期应用技术-的作为该篇文档的代表,参加比较的就是这些被选出来的算法是对.
/0算法的一种改进,它从过滤这方面着手,尽量过滤掉尽可能多的重复次数较多的北大的天网系统在搜集并分析一篇网页时,提取并记录了网页中出现的关键词,同时根据公式赋予每个关键词一个权值,这些关键词的权值构成一个向量空间,可以用来表示该网页.
并以关键词作为网页的特征项.
清华大学使用的提取方法是在文章中逗号,句号的前后各取1个汉字,作为字符串.
哈工大使用的方法是在文章中各个句号的前后各取2个汉字.
虽然提取汉字的方法不同,但是都是以标点作为文中的提取标记,这种方法效率较高,因为提取字符串是线性时间的,就是把一个3($1)时间复杂度的问题转变成了3($)时间复杂度的问题,不失为一种好方法.
!
"#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面,其中查全率是指去重算法所发现的转载网页占总网页的百分比,而准确率反映了算法所发现的转载网页中有多少是真正的转载网页.
当前提出的网页消重算法还比较少,在这些算法中还存在着很多的局限.
/04*算法去重效率不高,要求存储空间较大;.
/0算法准确率不高,比较次数过多,效率下降;()*+,-"算法效率和准确率比较平均,占用硬盘空间大.
国内几种算法大都是对国外算法的沿用,在算法效率,准确率,时效性等方面都存在各种问题.
56一种基于元搜索引擎的网页消重方法该元搜索引擎模型,选择若干成员搜索引擎,针对用户的单个查询请求,调用成员搜索引擎的搜索结果,存储到数据库,经过相应的结果融合,再返回给用户.
不同搜索引擎的检索结果中会有一定程度的重复,为了使元搜索引擎获得用户满意的高质量的检索结果,必须尽量消除重复.
一般来说,会有以下几种情况:!
最简单的重复情况是结果具有相同的789,可以很容易的排除;"同一文档存在常见的别名,或者是同一文档被做了链接因而具有差异较大的别名;#同一文档具有不同的版本或拷贝,放在不同的位置,此时存放的主机也可能不相同,此种情况最难识别.
考虑到元搜索引擎的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页标题,网页摘要等.
因此,该网页消重算法选择结果网页集合中每条记录的网页地址,网页标题,网页摘要作为判断网页重复性分析的依据.
算法具体设计方案如下:(:)网页元数据提取元搜索引擎模型调用源搜索引擎,得到搜索结果———结果网页记录集,直接提取网页集合中每条记录的标题,地址和摘要作为网页元数据.
(1)提取网页摘要特征串针对网页的摘要,用文本中分隔标记把文本分成若干句子,从句子中提取特征码,把特征码按顺序连接起来构成该文本的特征串.
(5)摘要相似度评价函数为了实现去重模块中判断摘要相似度功能,摘要相似因子设计如下:A$BC$.
其中是相似因子,A$是两个特征串中特征码相同的个数,C$是两个特征串的特征码的个数,相似因子的值即为相似度.
判断C$的值:如果两特征串含特征码的个数相等,则C$的值即特征串的特征码个数值;否则是两个特征串的特征码个数的较小值.
判断A$的值:比较特征码是否相同.
每有一组特征码相同,A$的值就加:.
设计系统阈值3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复.
(D)消重算法描述!
提取记录的网页元数据;判断网页地址是否重复.
如果地址相同,则重复,转$;否则,转";"判断网页标题是否重复.
如果标题相同,则转#;否则,转%;#依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,判断相似度,若相似度大于系统阈值3;:,则两条记录重复,否则,转&;%依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,若相似!
".
//0年第0期计算机系统应用应用技术-度大于系统阈值!
"#,则两条记录重复,否则,转!
;!
将提取出的特征码插入平衡搜索树中,并转";#结束.
$%实验验证采用以上介绍的算法,我们在元搜索引擎系统中对一批数量在&''—#''的网页集合进行处理,将实验结果与人工判别的结果进行比较,发现重复网页的准确率达到()!
以上.
在成员搜索引擎个数固定的情况下,我们对算法的响应时间做测试,测试结果如表&所示.
从实验结果可以看出,去重处理过程中的主要时间用于特征码的提取.
表&%算法去重处理时间网页数目(个)特征码提取时间(*)去重处理时间(*)%%当结果集合网页数目固定时,我们对算法执行时间与成员搜索引擎数目的关系做了测试.
测试结果如图&表明,选择适当的成员搜索引擎,权衡它们的数量和性能,才能充分发挥该算法的性能.
图&%算法性能与成员搜索引擎个数的关系-%结束语将该方法用于元搜索引擎系统中,能有效提高检索质量,返回给用户更为准确的结果.
经分析发现,这种算法的主要缺陷在于所提取的特征码信息只代表了这些标点周围的信息,未提供网页摘要的内容信息.
并且,算法的去重过程中主要时间用于特征码的提取.
所以下一步工作是重点改进特征码提取方法,提高特征码提取效率并且使特征码更能表现网页摘要的内容.
参考文献.
白广慧/网页排重技术研究与应用/中国科学院,0112/0陈基漓,牛秦洲/基于特征码的网页去重/微计算机信息,0112,00(3):.
.
34.
.
5/3吴平博,陈群秀,马亮/基于特征串的大规模中文网页快速去重算法研究/中文信息学报,0113,.
6(0):07435/89/9/A/B%CD>E,F/GHH$I($%*DGJ"#;$D>D$;*;HK$L$#>K,M%J"H;N,%CE/!
AOKPQORS,0116:5334588/5郑德全,胡熠,于浩,赵铁军,王青松/多载体数据流中的特定信息识别研究/软件学报,0113,.
8(T):.
5374.
583/29,*E);;A);,U/K)$V>W,L>%D>#/B$*&$*E%"#$(>D%&X%M(;##%(D$;*@/P*E@;H0111!
AOP*D%*>ID$;*>#A;*H%O>*>E%L%*D;HS>D>(KPQORS),O>C0111/6K)>;Y)$Z%,9$4[;*EF%*,F%$4Z$*EO>/!
@C@D%L>DI$(@D,&C;*">>L%D%D$E%4@(>#%&,I"#$(>D%&;(,L%*D&%D%(D$;*/\*;X#%&E%>*&P*H;L>D$;*KC@D%L@,0116,.
8:0.
64030/!
"计算机系统应用0117年第7期
Virtono最近推出了夏季促销活动,为月付、季付、半年付等提供9折优惠码,年付已直接5折,而且下单后在LET回复订单号还能获得双倍内存,不限制付款周期。这是一家成立于2014年的国外VPS主机商,提供VPS和服务器租用等产品,商家支持PayPal、信用卡、支付宝等国内外付款方式,可选数据中心包括罗马尼亚、美国洛杉矶、达拉斯、迈阿密、英国和德国等。下面列出几款VPS主机配置信息,请留意,下列配置中...
hypervmart怎么样?hypervmart是一家国外主机商,成立于2011年,提供虚拟主机、VPS等,vps基于Hyper-V 2012 R2,宣称不超售,支持linux和windows,有荷兰和英国2个数据中心,特色是1Gbps带宽、不限流量。现在配置提高,价格不变,性价比提高了很多。(数据中心不太清楚,按以前的记录,应该是欧洲),支持Paypal付款。点击进入:hypervmart官方网...
腾讯云轻量应用服务器又要免费升级配置了,之前已经免费升级过一次了(腾讯云轻量应用服务器套餐配置升级 轻量老用户专享免费升配!),这次在上次的基础上再次升级。也许这就是良心云吧,名不虚传。腾讯云怎么样?腾讯云好不好。腾讯云轻量应用服务器 Lighthouse 是一种易于使用和管理、适合承载轻量级业务负载的云服务器,能帮助个人和企业在云端快速构建网站、博客、电商、论坛等各类应用以及开发测试环境,并提供...
网页地址为你推荐
现有新的ios更新可用请从ios14be苹果总是提醒:现有新的ios可用,请从ios13bate版更新,怎么关闭啊?企业cms企业站cms哪个好iprouteip route 0.0.0.0 0.0.0.0 s0/0/0 中s0/0/0 指的是本地的还是??播放flashldapserverLDAP3是什么csamy泉州商标注册泉州注册一个商标具体要怎么弄?具体流程是什么?网络u盘有没有网络U盘 5G的 就像真的U盘一样的?就像下载到真U盘一样的 到自己电脑直接复制就可以拉的啊400电话查询400电话号码可以查询归属地吗?办理400电话是不是很贵?如何发帖子怎么发表贴子?
国外域名 linode代购 128m内存 20g硬盘 表单样式 英文简历模板word 免费网站监控 NetSpeeder debian6 卡巴斯基永久免费版 howfile 秒杀预告 免费mysql数据库 空间首页登陆 smtp服务器地址 什么是web服务器 服务器论坛 摩尔庄园注册 xuni apnic 更多