算法网页检测

网页检测  时间:2021-05-19  阅读:()
摘要随着互联网的发展,大量近似重复的文本广泛存在于现实世界中,如何检测这些近似重复的文本成为了一个研究的热点问题,这一技术在不同领域存在着很多应用:数字图书馆中相似内容的自动链接、数字知识产权保护(剽窃检测)、近似重复网页检测(搜索引擎优化)、数据去重、垃圾邮件检测等.
采用传统的哈希算法(SHA1、MD5等)只能鉴别完全相同的文档,不适用于存在细微修改的近似文档.
当前,近似重复检测的主要方法是生成文本指纹,通过计算文本间文本指纹的距离,衡量文本的相近程度.
本文在研究该领域的三种代表性算法(shingling、I-Match、simhash)的基础上,提出了融合这些算法优点的改进算法并进行了系统实现和验证,主要工作包括三个方面:(1).
提出了基于shingle特征的simhash算法.
Shingling算法以连续词串作为特征,有利于提高检测的准确率,但生成指纹集合、计算集合基于Jaccard相似度的距离,计算量大.
Simhash算法以指纹间的汉明距离度量相似性,计算量小,且指纹占用空间小.
但simhash算法以单词为特征,不能很好的表征文档的语义.
本文将shingles作为simhash算法的输入特征,以提高simhash算法的准确率.
(2).
提出了基于随机词典的多指纹simhash算法.
I-Match算法完全依赖单词的IDF值去除近似重复文本间的不同单词,检测的召回率很低.
基于随机词典的I-Match算法提出利用原始文档集的词典随机生成多个子词典,子词典分别过滤文档,生成多个I-Match指纹,以提高I-Match方法的稳定性.
对于同样是生成单指纹比对的simhash算法,本文引入基于随机词典的I-Match算法的提高召回率的方法,以提高simhash算法的召回率.
(3).
以"中美百万册数字图书馆"中的图书数据构建了一个近似重复文本检测数据集,对上述两种改进算法在该数据集上进行了的实验验证.
在最优参数、F-measure的度量上,基于shingle特征的simhash算法的0.
7469比原simhash算法的0.
6117提高了22%;融合算法的0.
8805比基于shingle特征的simhash算法的0.
7469提高了18%,比原始的simhash算法提高了43%.
实验表明两点改进思路对相应性能的提升都得到了验证,最终的融合算法比原始simhash算法在F-值度量上有较大提升.
本文认为,取得如此性能提升的主要原因是,依据三种经典算法的特点,进行了有针对性的融合,改进了simhash算法的特征选择策略和指纹生成策略,分别有利于simhash算法准确率和召回率的提升.
关键词:近似重复文本检测、网页去重、simhash算法DocumentfingerprintanditsapplicationinnearduplicatedocumentdetectionJunFanMicroelectronicsDirectedbyTieJunhuangWiththerapiddevelopmentoftheWorldWideWeb,disseminationreproducedorplagiarismother'sliteraturewithorwithoutmodificationhasbecomeveryeasy.
Thereareahugenumberofthesekindsofduplicateddocumentsintherealworld.
Howtodetectthesenearduplicatedocumentshasbecomeahotresearchtopic.
Thereisawiderangeofapplications.
Suchas:Automaticallylinkofduplicatedocumentinthedigitallibrary,protectionofintellectualproperty(orcalledplagiarismdetection),nearduplicatewebpagedetection(onekindofsearchengineoptimizationtechnique),datadeduplication,spamdetection.
TraditionalHashalgorithmslikeSHA1,MD5canonlydetectdocumentsexactlythesameornot.
Theycan'thandledocumentswithminormodifications.
Themainmethodinnearduplicatedocumentdetectionisgeneratingdocumentfingerprints,measurethesimilarityofdocumentsthroughthedistanceofthecorrespondingdocumentfingerprints.
Inthisarticle,wedescribedthethree"stateofart"algorithm(shingling,I-Match,simhash)indetail.
Wedidsomefusionbasedonthecharactersofeachclassofalgorithmsmentionedabove,implementedasystemandsomeexperiments.
Ourworksare:1.
Shinglingbasedsimhashalgorithm:theinputfeatureofshinglingalgorithmisk-shingles(wordsequencesoflengthk),itisbenefitfortheprecisionofdetection.
ButthemeasureofdistanceoffingerprintsisJaccardsimilarityofset,haveahighcomputationalcomplexity.
Thedistanceoffingerprintsinsimhashalgorithmishammingdistance;itislowincomputationalcomplexity,andsmallinspace.
Buttheinputfeatureofthesimhashalgorithmiswordsofthedocument;itcan'trepresentthedocumentwell.
Inthisarticle,weusethek-shingles(wordsequencesoflengthk)asthefeaturesofthesimhashalgorithmtoimproveprecisionofsimhashalgorithm.
2.
Multiplerandomlexiconsbasedsimhashalgorithm:theeffectivenessoftheI-MatchalgorithmisbasedonfilteringdifferentwordsinnearduplicatedocumentsbyIDFvaluesofthewordstotally.
Ithasalowrecall.
ThemultiplerandomlexiconsbasedI-MatchalgorithmfilterdocumentsbyrandomlycreatedlexiconsandgeneratemultiplefingerprintstoimprovethestabilityoftheI-Matchalgorithm.
Thismethodisapplicabletoothersingle-signaturebasedalgorithm,suchassimhash.
Wefilterdocumentsbyrandomlycreatedlexiconsandgeneratemultiplesimhashfingerprintstoimproverecall.
3.
Weconstructanearduplicatedocumentdetectdatasetbasedonthebooksinthe"China-USMillionBookDigitalLibraryProject".
Wetestedouralgorithmsinthissyntheticdataset.
Withthebestparameters'setandintheF-measure'sview,fromtheshinglingbasedsimhashalgorithmtothesimhashalgorithm,wegeta22%improvementfrom0.
7469to0.
6117.
Fromthefusionalgorithmtotheshinglingbasedsimhashalgorithm,wegetan18%improvementfrom0.
8805to0.
7469.
Ourfusionalgorithmgetsa43%improvementcomparedwiththesimhashalgorithmintotal.
Theexperimentresultprovestheefficiencyoftheabovetwoalgorithms.
ThefusedintegratedalgorithmperformsmuchbetterthantheoriginalsimhashalgorithmintheF-measure'sview.
Withsuchanimprovement,credittothetargetedfusionbasedonthecharactersofeachalgorithms.
Weimprovedthefeatureselectionstrategyandthefingerprintgenerationstrategyofthesimhashalgorithm,whichhelptoimproveprecisionandrecallcorrespondingly.
Keywords:nearduplicatedocumentdetection、nearduplicatewebpagedetection、simhashalgorithm

PacificRack - 洛杉矶QN机房 低至年$7.2 同有站群多IP地址VPS主机

需要提前声明的是有网友反馈到,PacificRack 商家是不支持DD安装Windows系统的,他有安装后导致服务器被封的问题。确实有一些服务商是不允许的,我们尽可能的在服务商选择可以直接安装Windows系统套餐,毕竟DD安装的Win系统在使用上实际上也不够体验好。在前面有提到夏季促销的"PacificRack夏季促销PR-M系列和多IP站群VPS主机 年付低至19美元"有提到年付12美元的洛杉...

2021年全新Vultr VPS主机开通云服务器和选择机房教程(附IP不通问题)

昨天有分享到"2021年Vultr新用户福利注册账户赠送50美元"文章,居然还有网友曾经没有注册过他家的账户,薅过他们家的羊毛。通过一阵折腾居然能注册到账户,但是对于如何开通云服务器稍微有点不对劲,对于新人来说确实有点疑惑。因为Vultr采用的是预付费充值方式,会在每月的一号扣费,当然我们账户需要存留余额或者我们采用自动扣费支付模式。把笔记中以前的文章推送给网友查看,他居然告诉我界面不同,看的不对...

快快云:香港沙田CN2/美国Cera大宽带/日本CN2,三网直连CN2 GIA云服务器和独立服务器

快快云怎么样?快快云是一家成立于2021年的主机服务商,致力于为用户提供高性价比稳定快速的主机托管服务,快快云目前提供有香港云服务器、美国云服务器、日本云服务器、香港独立服务器、美国独立服务器,日本独立服务器。快快云专注为个人开发者用户,中小型,大型企业用户提供一站式核心网络云端服务部署,促使用户云端部署化简为零,轻松快捷运用云计算!多年云计算领域服务经验,遍布亚太地区的海量节点为业务推进提供强大...

网页检测为你推荐
Applicationtoiphonewifi苹果手机怎样设置Wi-Fi静态IP?win7勒索病毒补丁我的电脑是windows7系统,为什么打不了针对勒索病毒的补丁(杀毒软件显迅雷下载速度迅雷限制下载速度要设置多少ipad无法加入网络为什么我的ipad加入网络没法用www.baidu.jpbaidu 百度chrome18请问chrome18怎么关闭硬件加速?ios6.1.3越狱苹果手机版本6.1.3 什么时候可以越狱 要等多久?winrar5.0rar密码破解软件5.0怎么用搜狗浏览器2.2搜狗为什么在后台偷偷安装浏览器?
网站空间域名 如何申请免费域名 老左 x3220 host1plus enzu mach5 unsplash debian6 java空间 傲盾官网 能外链的相册 in域名 阿里云官方网站 美国盐湖城 湖南idc 新加坡空间 wordpress中文主题 免费网络空间 中国电信宽带测速 更多