搜索引擎盘古搜索引擎

盘古搜索引擎  时间:2021-03-01  阅读:()
概述1网页搜索引擎是互联网上获取信息的重要工具.
传统搜索引擎技术由于自身的不足也越来越难以满足用户需要,必须使用新技术新方法对搜索引擎进行进一步的改进和发展.
多元搜索引擎技术正是这样一种技术,它被认为是搜索引擎发展的一个重要方向.
传统搜索引擎系统是指单一搜索引擎,又称为标准搜索引擎.
它主要由数据采集标引机制、数据组织机制、用户检索机制这部分组成.
工作时数据采集3机制对站点进行搜索,并将搜索到的页面信息WWWWWW存入临时数据库;数据组织机制整理页面信息以形成WWW规范的页面索引,并建立相应的索引数据库;用户检索机制则帮助用户用一定方式检索索引数据库以获得符合用户需要的站点或页面.
多元搜索引擎是建立在传统搜索引擎WWW技术基础之上的一种新型信息检索系统.
它本身不需标引和搜索网页,而是将查询请求提交给它所要调用的后台标准搜索引擎,由标准搜索引擎做真正的查询工作,多元搜索引擎再从各搜索引擎的查询结果中去除重复的查询结果并加以整合,最后由统一的用户接口提交结果.
传统搜索引擎技术存在的不足2传统搜索引擎技术在现代网络信息查询中主要存在个3缺点:覆盖率有限、结果的查准率低、用户性能较差.
()有限的覆盖率1研究表明,任何一个单一搜索引擎最多只能标引全部网页的六分之一,而且这种覆盖率还会因需要的不同而减小.
为了提高覆盖率,一般认为应使用多个搜索引擎完成搜索.
()查准率低2一个查询请求经搜索引擎搜索后,有时可以返回上万条结果,而用户比较关注的前几百条信息中真正符合用户需要的信息很少.
换一个搜索引擎再试时将会面临同样的问题--返回结果中存在大量无关信息.
实验显示,提交一个简单查询中国体育快讯()给著名的搜索引""ChinaSportsExpress擎系统,,和,任何不包含YahooExciteInfoseekWebCrawler中国体育信息或不含有相关链接的网页视为不相关结果,则查询结果如表所示1[1].
从表中看出这些知名搜索引擎在此1的表现是很差的,产生了大量无关结果.
表中国体育快讯的查询结果1""搜索引擎前30个查询结果中不相关结果数查询结果总数Yahoo13Excite172432530Infoseek126959280WebCrawler24188118其它研究也表明一般的查询结果中高达是不相关的75%信息[2].
许多研究还表明任何一个搜索引擎的搜索结果中相关的不超过45%[3].
()用户性能较差3由于不同搜索引擎的应用范围和专业侧重点不同,如何找到所需信息的问题已经被如何确知搜索引擎的位置、结构及使用方法的问题所替代.
对于一般用户,很难知道和评价各搜索引擎的具体位置、结构性能及使用方法,又由于各搜索引擎的数据库和搜索算法时常改变,使得用户在搜索时很难知道什么时候该用什么工具.
而且在各搜索引擎之间来回切换,操作复杂效率又低,可见选用合适有效的搜索引擎对基金项目:国家重点基础研究项目()973G19990330作者简介:黄于蓝~,女,硕士生,主要研究方向为网络应(1977)用技术,搜索引擎技术;王洪,博士生;徐端颐、贾惠波,教授、博导收稿日期:2001-04-05搜索引擎技术的新发展—多元搜索引擎系统黄于蓝,王洪,徐端颐,贾惠波(清华大学光盘国家工程研究中心,北京)100084摘要:在分析传统搜索引擎技术所存在不足的基础上,介绍了搜索引擎发展过程中出现的一种新技术多元搜索引擎.
深入分析了多元搜--索引擎系统的组成结构,详细地考察了多元搜索引擎的发展状况,并对多元搜索引擎的系统指标进行了完整的评价.
关键词:搜索引擎;多元搜索引擎;WWWDeepDevelopmentofTraditionalSearchEngineTechnology—MetasearchEngine,,,HUANGYulanWANGHongXUDuanyiJIAHuibo(,,)OpticalMemoryNationalEngineeringReseachCenterTsinghuaUniversityBeijing100084【】AbstractOnthebasisofanalyzingtheproblemsoftraditionalsearchengines,thisarticleintroducesmetasearchengine,anewtoolusingmultiplesearchenginessimultaneouslyaccordingtoasamequery.
Metasearchenginehasevolvedfromthetraditionalsearchenginetechnology.
Thisarticleexplainsitsstructureandcompositionindetails,comparesitwiththeexistingmetasearchtoolscompletelyandevaluatesitssearchingefficiencythoroughly.
Theresultsshowthatthemetasearchengineperformsbetterthanthetraditionaltoolsininternetresourcesearching.
【】;;KeywordsSearchengineMetasearchengineWWW第28卷第1期Vol.
28№1计算机工程ComputerEngineering2002年1月January2002·发展趋势与热点技术·中图分类号:TP391文章编号:1000—3428(2002)01—0004—02文献标识码:A—4—http://www.
paper.
edu.
cn一般用户是很复杂困难的事.
多元搜索引擎技术3多元搜索引擎技术的出现,克服了传统搜索引擎技术的不足.
多元搜索引擎本身不需标引和搜索网页,而是将查询请求提交给它所要调用的后台标准搜索引擎,由这些搜索引擎做真正的查询,多元搜索引擎再从各搜索引擎的查询结果中去除重复结果并加以整合,最后由统一用户接口提交结果.
最早多元搜索引擎概念的提出是基于提高覆盖率这一思想的.
搜索引擎标引的网页不同,覆盖面不一样,对同一查询语句将产生不同结果.
如果集合几个搜索引擎的功能,那网页覆盖率将大大提高.
研究表明,一些著名的单一搜索引擎之间的重复率最多只有34%[4],使用多元搜索引擎能够大大提高网页覆盖率.
多元搜索引擎在传统搜索引擎存在的查准率低、效率低等不足方面同样有大的改进.
多元搜索引擎目前没有统一定义,它的名称和结构各异.
如名称方面,国外有专家学者称之为megasearch、或,国内enginesparallelsearchenginesmultiplesearchengines有期刊文献则称之为集合搜索引擎或综合搜索引擎.
而结构方面,又有简单链接型和整合处理型等不同方式.
但是作为一项独立的技术,普遍认为多元搜索引擎应该完整地包括3个部分:发送机制、接口代理和陈列机制.
一个完整的多元搜索引擎系统称之为标准多元搜索引擎系统,其结构如图1所示.
反馈信息查询请求代理机制整合结果统一用户接口发送机制单一搜索引擎1单一搜索引擎2单一搜索引擎n陈列机制知识库WWW……各自支持的不同的查询标准式来源不同格式不同的查询结果发送机制():针对不同的查询请求选择搜索引擎,dispatchmechanism设计算法来决定应将查询请求提交给哪些搜索引擎,完成对成员搜索引擎的自动评价选择.
接口代理():用于把用户的查询请求转化为搜索引擎interfaceagents的标准查询式,并把搜索引擎的查询结果转化为统一的输出形式.
陈列机制():整合各搜索引擎的查询结果,作统一displaymechanism输出.
对各查询结果进行重新排列,剔除重复及检验链接等处理.
图标准多元搜索引擎的结构1多元搜索引擎技术的发展4国外的多元搜索工具并不都严格地具有发送机制、接口代理和陈列机制个部分.
从组成结构划分国外现有的多元3搜索引擎分类如表所示2[5].
即使同为标准多元搜索引擎系统,在发送机制、接口代理和陈列机制个基本组成部分的实现上也有所不同.
发送3机制的主要功能是选择搜索引擎,其选择方式分为手动和自动两种方式:手动是指给出搜索引擎列表,由用户选择;自动是指由系统针对查询请求选择效果好的搜索引擎.
相比之下自动选择方式更便利、更智能化、更有利于结果的准确性.
接口代理的不同实现主要体现为支持不同的查询方式和检索功能,如支持布尔检索、截词检索等基本检索,或支持自然语言查询等高级检索.
陈列机制的不同实现主要体现为整合方式、重排方式等的不同.
陈列机制的排列方式分为自然排列和重新排列两种,它们间的分析比较如表所示.
3表国外现有的多元搜索引擎分类2类别结构使用方法实例1.
搜索引擎列表及对应查询输入框无发送机制和陈列机制;接口代理直接使用各搜索引擎的查询框用户在客户端针对每个要使用的搜索引擎都必须输入一次查询请求All-in-One;Beaucoup!
2.
搜索引擎列表及唯一查询输入框无发送和陈列机制;接口代理翻译用户查询为标准查询用户只用输入查询请求一次,但一次只能从列表中选择一个搜索引擎使用Proteus3.
多个搜索引擎并行搜索,结果自然排列显示可以实现并行搜索.
有发送机制,接口代理;陈列机制不整合结果,而是将各结果按其自然顺序排列在一起由唯一查询框输入查询请求,手动或由系统自动选择多个搜索引擎同时搜索,各结果自然排列并显示Proseek;Dogpile;GoHip;Hastalavista4.
完整包含三个部分的多元搜索引擎有发送机制、接口代理和陈列机制.
被认为是真正意义上的多元搜索引擎系统.
用户由唯一查询框输入查询请求,手动或系统自动选择多个搜索引擎同时搜索,各结果经过重排并显示ByteSearch;MetaCrawler;ProFusion;SavvySearch表陈列机制排列方式的分析比较3排列方式方式简介优缺点分析实例自然排列依次将来源不同的结果合并,同一搜索引擎的结果按原来的顺序排列,不作进一步更改.
这种方法虽然简单直接,但很有可能致使一个搜索引擎的不相关结果排在了另一个搜索引擎的相关结果之前,使上网者错过重要信息.
Dogpile重新排列系统自身使用分类算法来重新决定来自不同成员搜索引擎的结果的相关性并重新排列结果.
算法较复杂,但在速度和准确率方面有显著提高.
速度虽比单个搜索引擎慢,但比使用不同搜索引擎依次查询要快得多;结果由于进行了二次处理,准确率提高.
Anvish我国目前的多元搜索引擎大多为表中第类.
也有一些22实现并行搜索的多元搜索站点,如中文网址、比较购3721""物等.
由于它们查询的信息间对应关系明确,所以准确率容易保障,系统设计也比较简单.
但就信息量和信息内容来看是很有限的,不适应网络信息全方位、大范围的查询.
另外还有一些多元搜索软件也运用了多元搜索引擎技术.
多元搜索引擎系统的效果分析5多元搜索引擎作为网络信息检索工具,应该达到衡量信息检索系统效果的基本指标,即覆盖范围、查全率、查准率、响应时间、用户负担和结果输出格式.
其中最重要的是前项,覆盖率、查全率和查准率.
从它的原理,我们知道3多元搜索引擎可以显著地提高覆盖率.
而对于现代搜索引擎技术,查全率已经不再是一个大问题了.
目前搜索引擎技术存在的主要问题就是查准率低.
如结构图,多元搜索引擎1可以从它的每个组成部分来提高查准率.
发送机制方面:不同搜索引擎的适用范围不同,即对特定的查询请求它们的表现存在较明显的好坏差异,一般用户对此是难以作出判断的.
但是如果将同一查询请求提交给系统中每个成员标准搜索引擎进行搜索又被认为是非常差的搜索方式.
所以可以让发送机制针对用户的查询请求评价和选择使用成员搜索引擎,实现一定程度的自动化和智能化,提高准确率.
接口代理方面:对查询请求翻译不准确是造成查准率低的另一个主要原因.
翻译查询请求如果过于宽泛,将不能体现查询请求的词翻译为关键词,产生大量不相关文档;而过于严格,只从查询语句中提取关键词,很多相关文档会因为—5—(下转第52页)个因素的权重为a1,a2…,,am,则本层每一个因素的组合权重应为∑∑∑===mkknkmkkkmkkkwawawa11211,,,L这样自上而下地求出各级指标关于评价目标的综合重要度.
因而,通过上述计算求得各指标对的安全性的综Intranet合权重,见表.
3表安全综合权重计算表3IntranetABa1a2a3a4a5层次总排序C0.
13170.
38470.
06190.
38470.
0369b100.
02730.
07100.
15950.
36350.
0897b20000.
031200.
0120b90000.
072200.
0278b100.
0445000.
040400.
0214b170.
15700.
11000.
039800.
12970.
0702b180.
09360.
04300.
02030.
02890.
06870.
0438()各指标隶属函数的确定及隶属度的计算4如何确定各评价指标的隶属函数是实施模糊层次评价法的关键之一,关系着最终评价结果的可信度[5],根据《信息安全技术评估通用准则(及CCISO154081999安全相关文档,结合企业具体情况与安全统计数据,采RFC用逻辑指派法来确定各指标的隶属函数,即根据评价指标的性质指定现有的模糊分布形式,再依具体条件进行修正、完善,然后根据经验指定或根据安全检测及模拟攻击实验数据计算出隶属函数中有关参数,最后确定出该评价指标的隶属度.
如口令破解检测实验中,通过口令破解工具经过特定次数特定时间的攻击所破解的口令越多,破解率越大,则说/明口令设置与防护能力越差,安全程度就越低,由此Intranet可以初步确定该项指标的隶属函数分布为偏小型梯形模糊分布,然后根据安全统计和网管实践分析认为当普通口Intranet令破解率低于时,该项指标的安全性能就算比较令人满5%意了,即隶属度为;当企业普通口令攻击破解率达1Intranet到时,该口令防护能力就很差,即隶属度为,65%Intranet0由此可得到该项指标的隶属函数为≥≤≤I1.
1≥表示一般,≥表示较弱,表示安全性极1.
1>I11>I0.
8I<0.
8弱,则本例I=T待评/T参照,因而可认为待评价具=1.
21Intranet有较强的安全防护能力.
结论3网络安全已引起了广泛关注,探寻科学、合理、实用的网络安全评价方法成为业界研究热点,法充分考Fuzzy-AHP虑了威胁安全的各种可能,围绕项评价准则,将定Intranet5性因素与定量参数结合建立了安全评价体系,并运用隶属函数、隶属度确定待评的安全状况.
Intranet参考文献胡道元网络技术及应用北京清华大学出版社1.
Intranet.
:,1998-05胡昌振李贵涛面向世纪网络安全与防护北京北京希望电子出2,.
21.
:版社,1999-10王育民刘建伟通信网的安全理论与技术西安西安电子科技大学3,.
.
:出版社,1999-04谢季坚刘承平模糊数学方法及其应用武汉华中理工大学出版社42000-05上接第页(5)不包括查询语句中的词而被遗漏.
如果一个搜索引擎提供自然语言查询接口,则将大大提高结果的准确性.
多元搜索引擎系统的接口代理支持自然语言查询,自然语言查询可运用语言学处理方法,去除无义词、分析歧义词、添加同义词,达到对查询语句的准确理解和翻译,从而提高最后搜索结果的准确率.
陈列机制方面:由于多元搜索引擎依赖于各单独的标准搜索引擎,所以它也继承了标准搜索引擎的低准确率,因此多元搜索引擎系统对来自不同搜索引擎的结果进行整合,如剔除重复、统一格式、检验链接等,最关键的是重新给出相关度,按新的相关性排列查询结果后提交给用户.
经过这样的二次处理,查准率将明显提高.
结束语6多元搜索引擎技术是调用几个独立的搜索引擎进行工作,从面向用户的角度来看它是一个统一的用户检索工具,即拥有统一的用户界面、满意的搜索结果,既简单明了又全面准确.
多元搜索引擎技术具有统一性、简单性和准确性,可应用于庞杂的商业网站搜索引擎的统一使用.
还可用于拥有许多独立的大型数据库及对应的查询系统的大型机构,作为面向用户的统一检索工具.
参考文献1ShuB,KakS.
ANeuralNetwork-basedIntelligentMetasearchEngine.
InformationSciences,1999,120:1~112SelbergE,EtzioniO.
TheMetaCrawlerArchitectureforResourceAggregationontheWeb.
IEEEExpert,1997-01/02:11~143SelbergE,EtzioniO.
Multi-serviceSearchandComparisonUsingtheMetacrawler.
PaperPresentedattheFourthInternationalWorld:WideWebConference,Boston,1995-1211~154LawrenceS,GilesCL.
SearchingtheWorldWideWeb.
Science,1998,280(5360):98~1005RepmanJ,CarlsonRD.
SurvivingtheStorm:UsingMetasearchEnginesEffectively.
ComputersinLibraries,1999-05:50~556LawrenceS,GilesCL.
ContextandPageAnalysisforImproved:WebSearch.
IEEEInternetComputing,1998-0738~457TangKW,KakSC.
ANewCornerClassificationApproachtoNeuralNetworkTraining.
CircuitsSystemsSignalProcessing,,199817(4):459-469孙丽陈通宝乔晓东网上中文检索工具的比较研究情报学报81999,18(3):225~234—52—

青云互联-洛杉矶CN2弹性云限时五折,9.5元/月起,三网CN2gia回程,可选Windows,可自定义配置

官方网站:点击访问青云互联官网优惠码:五折优惠码:5LHbEhaS (一次性五折,可月付、季付、半年付、年付)活动方案:的套餐分为大带宽限流和小带宽不限流两种套餐,全部为KVM虚拟架构,而且配置都可以弹性设置1、洛杉矶cera机房三网回程cn2gia 洛杉矶cera机房                ...

Vinahost - 越南VPS主机商月6美元 季付以上赠送时长最多半年

Vinahost,这个主机商还是第一次介绍到,翻看商家的介绍信息,是一家成立于2008年的老牌越南主机商,业务涵盖网站设计、域名、SSL证书、电子邮箱、虚拟主机、越南VPS、云计算、越南服务器出租以及设备托管等,机房主要在越南胡志明市的Viettle和VNPT数据中心,其中VNPT数据中心对于国内是三网直连,速度优。类似很多海外主机商一样,希望拓展自己的业务,必须要降价优惠或者增加机房迎合需求用户...

RAKsmart 年中活动 独立服务器限时$30秒杀 VPS主机低至$1.99

RAKsmart 虽然是美国主机商,但是商家的主要客户群还是在我们国内,于是我们可以看到每次的国内节日促销活动期间商家也会发布促销。包括这次年中大促活动,RAKsmart商家也有发布为期两个月的年终活动,其中有商家擅长的独立服务器和便宜VPS主机。服务器包括站群服务器、特价服务器、高达10G带宽不限制流量的美国服务器。商家优惠活动,可以看到对应商品的优惠,同时也可以使用 优惠码 RAKBL9 同时...

盘古搜索引擎为你推荐
伪静态怎么做伪静态?qq怎么发邮件怎样在QQ上发送邮件?xp系统停止服务XP停止服务后该怎么办?淘宝网页显示不正常淘宝网显示不正常ejb开发什么是EJB?声母是什么什么是声母,什么是韵母小米什么时候抢购小米手机预约成功后什么时候抢购?网易企业邮箱登陆怎样用手机登录网易企业邮箱上传文件微信下载文件在哪里360网络测速器为什么一用360网络测速器测过之后电脑就不能上网?应该说是:可以访问无线路由,不能看网页,登录QQ!
万网域名查询 广州服务器租用 电信服务器租用 域名备案收费吗 sharktech 安云加速器 paypal认证 42u标准机柜尺寸 火车票抢票攻略 空间论坛 怎么测试下载速度 100mbps 爱奇艺会员免费试用 银盘服务是什么 华为云服务登录 个人免费邮箱 攻击服务器 密钥索引 japanese50m咸熟 建站技术 更多