网页网页地址

网页地址  时间:2021-04-18  阅读:()
应用技术-基于元搜索的网页消重方法研究0)12/3)45,3&6-"(78-"(9)"/!
)/6.
(:'3-')谢!
蕙!
秦!
杰!
(河南工业大学信息科学与工程学院河南郑州"#$$$%)摘!
要:本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法.
介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性.
关键词:消重特征码元搜索引擎网页元数据摘要相似度%!
引言随着网络技术的飞速发展,网络提供给人们的信息资源越来越多,要想在浩瀚的网络资源中查找到有用的信息,搜索引擎起到了重要作用.
但是现在的搜索引擎技术并不完善,存在一些亟待解决的问题,最主要的问题之一是存在大量的重复网页[%].
对用户而言,如果查询到的是重复信息,严重影响查询效率.
对互联网系统而言,如果采集到大量重复网页,既浪费信息检索时间又浪费存储空间.
网络机器人(&'()*+)采集互联网中的相关信息,采集信息的数量非常巨大,采集结果的处理,需要进行消重处理后,才能作为有效的信息.
若单单依靠人工进行去重处理,不仅耗费宝贵的人力资源,而且时效性也不能满足实际需要.
为了解决这些问题,网页消重成为搜索引擎所研究的一项重要技术.
,!
网页消重技术网页消重技术是指对内容重复的网页进行识别,处理和合并,以节省网页数据库的存储空间和在网页数据库上进行操作的时间的过程[,].
!
"#网页消重技术主要思想根据网页重复原因不同对应的判断网页是否重复的方法也有所不同,但是几乎所有的消重技术都基于这样一个基本思想[-]:根据一定的算法为每个文档计算出一组指纹(.
(/0*+'+(/1),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是重复网页.
对于234相同的网页,为了避免重复搜集同一234网页,主要使用排除相同234的方法:网络蜘蛛把访问过的网页地址变成信息指纹存放到哈希表中,在抓取新的网页时,把网页的地址解析成指纹,判断比较该指纹是否存在于哈希表中,若存在则表示已下载过,若不存在则下载且把这个指纹存放到该哈希表中.
当然这个算法要保证几乎不能产生相同的网址指纹.
针对内容相同的网页,当前比较成功的搜索引擎系统大多是基于关键词匹配和结合向量空间向量模型来完成消重任务的.
典型的系统包括56607*和天网系统[-].
通常这类系统的消重工作过程大致是:在对网络蜘蛛已抓取回来的网页进行分析时,首先对网页进行净化,提取出网页的主题以及与主题相关的内容,这些内容包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息,根据网页的关键词、摘要、正文等信息提取网页的特征项,构造评价函数,根据两个网页的特征项的相似度判断网页是否重复.
!
"!
现有主流网页消重技术[#]89:;算法计算出每篇文档中各个单词的词频,将文档用词频向量的方法表示出来,计算,个词频向量之间的距离,在一定的范围之内就判断为相似的文档.
/1=1(7@&1*+(/0)算法,首先将一篇文档分成由/个字组成的&A(/07*&,一篇文章就可以由/个&A(/07*&来表示,再按照一定的过滤规则将过滤出!
"计算机系统应用.
//0年第0期应用技术-的作为该篇文档的代表,参加比较的就是这些被选出来的算法是对.
/0算法的一种改进,它从过滤这方面着手,尽量过滤掉尽可能多的重复次数较多的北大的天网系统在搜集并分析一篇网页时,提取并记录了网页中出现的关键词,同时根据公式赋予每个关键词一个权值,这些关键词的权值构成一个向量空间,可以用来表示该网页.
并以关键词作为网页的特征项.
清华大学使用的提取方法是在文章中逗号,句号的前后各取1个汉字,作为字符串.
哈工大使用的方法是在文章中各个句号的前后各取2个汉字.
虽然提取汉字的方法不同,但是都是以标点作为文中的提取标记,这种方法效率较高,因为提取字符串是线性时间的,就是把一个3($1)时间复杂度的问题转变成了3($)时间复杂度的问题,不失为一种好方法.
!
"#现有网页消重技术的局限我们为网页消重算法设计的评价指标包括算法复杂度、查全率和准确率三个方面,其中查全率是指去重算法所发现的转载网页占总网页的百分比,而准确率反映了算法所发现的转载网页中有多少是真正的转载网页.
当前提出的网页消重算法还比较少,在这些算法中还存在着很多的局限.
/04*算法去重效率不高,要求存储空间较大;.
/0算法准确率不高,比较次数过多,效率下降;()*+,-"算法效率和准确率比较平均,占用硬盘空间大.
国内几种算法大都是对国外算法的沿用,在算法效率,准确率,时效性等方面都存在各种问题.
56一种基于元搜索引擎的网页消重方法该元搜索引擎模型,选择若干成员搜索引擎,针对用户的单个查询请求,调用成员搜索引擎的搜索结果,存储到数据库,经过相应的结果融合,再返回给用户.
不同搜索引擎的检索结果中会有一定程度的重复,为了使元搜索引擎获得用户满意的高质量的检索结果,必须尽量消除重复.
一般来说,会有以下几种情况:!
最简单的重复情况是结果具有相同的789,可以很容易的排除;"同一文档存在常见的别名,或者是同一文档被做了链接因而具有差异较大的别名;#同一文档具有不同的版本或拷贝,放在不同的位置,此时存放的主机也可能不相同,此种情况最难识别.
考虑到元搜索引擎的特殊性,可以充分利用成员搜索引擎提供的结果基本信息,如网页地址,网页标题,网页摘要等.
因此,该网页消重算法选择结果网页集合中每条记录的网页地址,网页标题,网页摘要作为判断网页重复性分析的依据.
算法具体设计方案如下:(:)网页元数据提取元搜索引擎模型调用源搜索引擎,得到搜索结果———结果网页记录集,直接提取网页集合中每条记录的标题,地址和摘要作为网页元数据.
(1)提取网页摘要特征串针对网页的摘要,用文本中分隔标记把文本分成若干句子,从句子中提取特征码,把特征码按顺序连接起来构成该文本的特征串.
(5)摘要相似度评价函数为了实现去重模块中判断摘要相似度功能,摘要相似因子设计如下:A$BC$.
其中是相似因子,A$是两个特征串中特征码相同的个数,C$是两个特征串的特征码的个数,相似因子的值即为相似度.
判断C$的值:如果两特征串含特征码的个数相等,则C$的值即特征串的特征码个数值;否则是两个特征串的特征码个数的较小值.
判断A$的值:比较特征码是否相同.
每有一组特征码相同,A$的值就加:.
设计系统阈值3;,若两个摘要的相似因子小于该阈值则该两个摘要重复,否则不重复.
(D)消重算法描述!
提取记录的网页元数据;判断网页地址是否重复.
如果地址相同,则重复,转$;否则,转";"判断网页标题是否重复.
如果标题相同,则转#;否则,转%;#依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,判断相似度,若相似度大于系统阈值3;:,则两条记录重复,否则,转&;%依次提取每个网页摘要的特征码信息;将提取出的特征码与平衡搜索树中的特征码相比较,若相似!
".
//0年第0期计算机系统应用应用技术-度大于系统阈值!
"#,则两条记录重复,否则,转!
;!
将提取出的特征码插入平衡搜索树中,并转";#结束.
$%实验验证采用以上介绍的算法,我们在元搜索引擎系统中对一批数量在&''—#''的网页集合进行处理,将实验结果与人工判别的结果进行比较,发现重复网页的准确率达到()!
以上.
在成员搜索引擎个数固定的情况下,我们对算法的响应时间做测试,测试结果如表&所示.
从实验结果可以看出,去重处理过程中的主要时间用于特征码的提取.
表&%算法去重处理时间网页数目(个)特征码提取时间(*)去重处理时间(*)%%当结果集合网页数目固定时,我们对算法执行时间与成员搜索引擎数目的关系做了测试.
测试结果如图&表明,选择适当的成员搜索引擎,权衡它们的数量和性能,才能充分发挥该算法的性能.
图&%算法性能与成员搜索引擎个数的关系-%结束语将该方法用于元搜索引擎系统中,能有效提高检索质量,返回给用户更为准确的结果.
经分析发现,这种算法的主要缺陷在于所提取的特征码信息只代表了这些标点周围的信息,未提供网页摘要的内容信息.
并且,算法的去重过程中主要时间用于特征码的提取.
所以下一步工作是重点改进特征码提取方法,提高特征码提取效率并且使特征码更能表现网页摘要的内容.
参考文献.
白广慧/网页排重技术研究与应用/中国科学院,0112/0陈基漓,牛秦洲/基于特征码的网页去重/微计算机信息,0112,00(3):.
.
34.
.
5/3吴平博,陈群秀,马亮/基于特征串的大规模中文网页快速去重算法研究/中文信息学报,0113,.
6(0):07435/89/9/A/B%CD>E,F/GHH$I($%*DGJ"#;$D>D$;*;HK$L$#>K,M%J"H;N,%CE/!
AOKPQORS,0116:5334588/5郑德全,胡熠,于浩,赵铁军,王青松/多载体数据流中的特定信息识别研究/软件学报,0113,.
8(T):.
5374.
583/29,*E);;A);,U/K)$V>W,L>%D>#/B$*&$*E%"#$(>D%&X%M(;##%(D$;*@/P*E@;H0111!
AOP*D%*>ID$;*>#A;*H%O>*>E%L%*D;HS>D>(KPQORS),O>C0111/6K)>;Y)$Z%,9$4[;*EF%*,F%$4Z$*EO>/!
@C@D%L>DI$(@D,&C;*">>L%D%D$E%4@(>#%&,I"#$(>D%&;(,L%*D&%D%(D$;*/\*;X#%&E%>*&P*H;L>D$;*KC@D%L@,0116,.
8:0.
64030/!
"计算机系统应用0117年第7期

CloudCone中国新年特别套餐,洛杉矶1G内存VPS年付13.5美元起

CloudCone针对中国农历新年推出了几款特别套餐, 其中2019年前注册的用户可以以13.5美元/年的价格购买一款1G内存特价套餐,以及另外提供了两款不限制注册时间的用户可购买年付套餐。CloudCone是Quadcone旗下成立于2017年的子品牌,提供VPS及独立服务器租用,也是较早提供按小时计费VPS的商家之一,支持使用PayPal或者支付宝等付款方式。下面列出几款特别套餐配置信息。CP...

RackNerd 2022春节促销提供三款年付套餐 低至年付10.88美元

RackNerd 商家我们应该是比较熟悉的商家,速度一般,但是人家便宜且可选机房也是比较多的,较多集中在美国机房。包括前面的新年元旦促销的时候有提供年付10美元左右的方案,实际上RackNerd商家的营销策略也是如此,每逢节日都有活动,配置简单变化,价格基本差不多,所以我们网友看到没有必要囤货,有需要就选择。RackNerd 商家这次2022农历新年也是有几款年付套餐。低至RackNerd VPS...

SugarHosts糖果主机圣诞节促销 美国/香港虚拟主机低至6折

SugarHosts 糖果主机商我们算是比较熟悉的,早年学会建站的时候开始就用的糖果虚拟主机,目前他们家还算是为数不多提供虚拟主机的商家,有提供香港、美国、德国等虚拟主机机房。香港机房CN2速度比较快,美国机房有提供优化线路和普通线路适合外贸业务。德国欧洲机房适合欧洲业务的虚拟主机。糖果主机商一般是不会发布黑五活动的,他们在圣圣诞节促销活动是有的,我们看到糖果主机商发布的圣诞节促销虚拟主机低至6折...

网页地址为你推荐
支持ipadaccess数据库修复请问Access数据库修复恢复该怎么办啊,有些页和模块打不开了,也不知道是怎么回事,丢了文件还苹果appstore宕机苹果无法连接到appstore怎么办人人视频总部基地落户重庆渝洽会上的西部国际总部基地是做什么的?flashfxp注册码求一个flashfxp v3.0.2的注册码面板flash网站方案设计网站文案策划怎么写网络u盘你们谁知道网络硬盘怎么用美国独立美国独立时不是只有13个洲吗?后来的领土都是怎么得来的。地址栏图标电脑地址栏上的所有图标怎么找?
南通服务器租用 网页空间租用 vps安全设置 网易域名邮箱 主机点评 免费网站监控 129邮箱 免费申请网站 昆明蜗牛家 东莞服务器 免费网页申请 smtp虚拟服务器 shuang12 服务器防火墙 防cc攻击 cdn网站加速 镇江高防 云服务是什么意思 数据湾 空间排行榜 更多