元搜索引擎:原理与利用

搜索引擎9238  时间:2021-01-31  阅读:()

王芳张晓林(四川联合大学信息管理系,成都,610064)文摘:本文对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点.

关键词:元搜索引擎,搜索引擎,桌面搜索引擎,信息检索Meta-SearchEngines:PrinciplesandApplicationsWangFang,ZhangXiaolin(DepartmentofLibraryandInformationScience,SichuanUnionUniversity,Chengdu,610064)Abstract:Thepapergivesananalysisofthebasicstructureandfunctionalprocessofmetasearchengines,anddescribeswithexamplesthecategoriesandcharacteristicsofthesenewsearchtools.
Keywords:Metasearchengines,Searchengines,Desktopsearchengines,informationretrieval1.
前言Internet/WWW的迅速发展带来丰富的和动态变化的网络化信息资源,同时也呼唤新的检索机制与能力.
搜索引擎技术应运而生,通过采集标引众多网络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息[1-3],著名的Yahoo!
、Infoseek、AltaVista、悠游(GoYoYo)等就是典型代表.
然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题.
正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-SearchEngines),能够利用多个搜索引擎进行网络信息查询.
2.
元搜索引擎的基本结构与运行原理2.
1.
元搜索引擎的基本性质与结构所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作(Searchthesearchengines)[4-5],其基本结构如图1所示.
图1我们可将元搜索引擎看成具有双层C/S结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户.
当然,某些元搜索引擎具有略微不同的机制,我们将在下面讨论元搜索引擎实例时具体介绍.

2.
2.
搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作.
元搜索引擎中各独立搜索引擎被称为"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出.
不过,有些元搜索引擎给出的全局外部模式不够完善.

2.
3.
元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型[6]:图2根据该模型,元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个).
有些元搜索引擎只能使用固定的搜索引擎集合.

(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用"全局/局部指令字典"来实现.
但指令语言转换并不是异形指令的简单、机械互换,应做到:①对应指令的功能性质一致性;②对应指令的功能作用范围一致;③对应指令的逻辑结构和构成一致;④对应指令的逻辑结果一致.
全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能.
目前,指令转换尚有较多不足之处.

(3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户.
全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料.
元搜索引擎还应对全局结果进行剔重、排序等处理.

2.
4.
自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索.
一般地,元搜索引擎将根据一定条件自动实施这种选择[7].

(1)"选择最好"模式:元搜索引擎可能采取以下方式来选择"最好"的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录数的统计分布,根据该分布来确定相对于一定主题的"最好"搜索引擎.
或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与URL数量的对应关系,并据此确立"最好"的搜索引擎.
例如,Profusion和SavvySearch就提供了类似的功能.

(2)"选择最快"模式:元搜索引擎系统可能采取下列两种方式来选择"最快"的搜索引擎:A.
随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个)结果集并组织成全局结果集,忽略后面的其他结果集.
B.

先验式:检索工具研制者在大量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度的映射关系.
用户提交检索式后,元搜索引擎首先进行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎.
该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响.

3.
元搜索引擎的分类按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎.

3.
1多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具.
如Metacrawler、Savvysearch、Profusion等都是属于多线索式元搜索引擎.
在理想状态下,这类元搜索引擎应具有以下特征:(1)统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索.
(2)检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库.

(3)统一结果集的组织与显示:元搜索引擎提供全局组织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等.

3.
2ALL-IN-ONE方式所谓ALL-IN-ONE方式是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制.
用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎,但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,例如ALLINONE元搜索引擎(www.
albany.
net/allinone.
html).
这种ALL-IN-ONE方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:(1)仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎.
(2)只能选择一个搜索引擎进行检索.
(3)对各独立搜索引擎检索界面的复制可能是部分的或全部的.
(4)直接利用所选搜索引擎的显示格式呈送给用户3.
3桌面元搜索引擎[8]以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎.
这些桌面元搜索引擎可从网络上下载,例如EchoSearch(www.
symantec.
com/iff/),Webcompass(http://www.
qdeck.
com/products/webcompass)、Webseeker(www.
ffg.
com/seeker/).
桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部成员搜索引擎),甚至可由用户添加新的搜索引擎,例如EchoSearch和WebCompass.
这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能,例如用户定义结果排序方式、删除重复记录、确认链点的合法性等功能.

4.
实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步分析元搜索引擎的特点.

4.
1.
MetaCrawlerMetaCrawler[9]由华盛顿大学的ErikSelberg等共同研制,1997年初被go2net收购,目前已发展成为一个优秀的多线索式搜索引擎.
它可同时调用6个搜索引擎并行检索,包括Lycos、Infoseek、WebCrawler、Excite、AltaVista和Yahoo!
.
它可使用简单检索和高级检索.
检索式中关键词间用空格分开,允许包括一个或多个短语(短语用""标志);词前加"+"号或"-"号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理.
图形界面提供了相当于布尔操作AND、OR的选项和短语检索,检索范畴可限制在Web、新闻组、计算机产品或文件中.
MetaCrawler高级检索界面中还能定义等待检索的最大时间(5秒-2分钟)和从每个搜索引擎返回的最大结果数(10,20,30).
它能整体地集成查询结果,删除重复的URL,将将结果排序以统一的格式显示给用户.
而且,MetaCrawler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链.

4.
2.
SavvySearchSavvySearch[10]是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括Web、Usenet新闻组、软件、参考工具、人、技术报告等信息.
每次最多可同时检索5个搜索引擎的数据库.
它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎.
SavvySearch提供布尔逻辑算法和词组检索:allqueryterm(AND),anyqueryterm(OR)和allquerytermasaphrase.
但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确.
检索可在一定的资源类型中进行,如Web资源、人、或学术资料等.
在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了"integrateresult"选项,系统将对结果集作删重处理.
检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、URL、文件大小、相关程度和页面开始的十几个单词.

4.
3.
ProFusionProFusion[11]也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎.
搜索引擎的调用方式分为:a.
系统自动选择最好的3个;b.
系统自动选择最快的3个;c.
全部调用;d.
用户从中选取任意个搜索引擎.
Profusion会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择"Boolean",短语检索选择"phrase",检索范畴可选则Web或Usenet.
在检索式中可直接用圆括号()、AND(或&)、OR(或|)、NOT(!
)和NEAR(~),操作符必须大写,且操作符前后都要有空格.
Profusion能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎.
另外,它还提供个性化的结果页面.
在免费注册后,Profusion会为用户维护一个页面.
每周或每月重复运行查询,一旦发现变化就会发电子邮件通知该用户.

CloudCone月付$48,MC机房可小时付费

CloudCone商家在前面的文章中也有多次介绍,他们家的VPS主机还是蛮有特点的,和我们熟悉的DO、Linode、VuLTR商家很相似可以采用小时时间计费,如果我们不满意且不需要可以删除机器,这样就不扣费,如果希望用的时候再开通。唯独比较吐槽的就是他们家的产品太过于单一,一来是只有云服务器,而且是机房就唯一的MC机房。CloudCone 这次四周年促销活动期间,商家有新增独立服务器业务。同样的C...

RepriseHosting:$27.97/月-L5640,16G内存,1TB硬盘,10TB月流量,西雅图机房

RepriseHosting是成立于2012年的国外主机商,提供独立服务器租用和VPS主机等产品,数据中心在美国西雅图和拉斯维加斯机房。商家提供的独立服务器以较低的价格为主,目前针对西雅图机房部分独立服务器提供的优惠仍然有效,除了价格折扣外,还免费升级内存和带宽,商家支持使用支付宝或者PayPal、信用卡等付款方式。配置一 $27.97/月CPU:Intel Xeon L5640内存:16GB(原...

hostio荷兰10Gbps带宽,10Gbps带宽,€5/月,最低配2G内存+2核+5T流量

成立于2006年的荷兰Access2.IT Group B.V.(可查:VAT: NL853006404B01,CoC: 58365400) 一直运作着主机周边的业务,当前正在对荷兰的高性能AMD平台的VPS进行5折优惠,所有VPS直接砍一半。自有AS208258,vps母鸡配置为Supermicro 1024US-TRT 1U,2*AMD Epyc 7452(64核128线程),16条32G D...

搜索引擎9238为你推荐
qq空间首页现在QQ空间首页能做吗燃气热水器和电热水器哪个好燃气热水器和电热水器的区别是什么,哪个比较好?核芯显卡与独立显卡哪个好独立显卡和核芯显卡有什么区别手机管家哪个好最好的手机管家qq空间登录器怎样直接登录QQ空间q空间登录怎样从空间登录QQ号飞信空间登录飞信客户端空间登录 飞信绿色版历史记录qq空间登录网址如何查询QQ空间登入地址?首选dns服务器地址默认网关和首选DNS服务器是多少360云盘资源360云盘 百度云 微云 和彩云 那个好
政务和公益机构域名注册管理中心 美国域名注册 a5域名交易 国外空间服务商 英文简历模板word 私有云存储 申请个人网页 java空间 京东商城0元抢购 web服务器架设 seednet 路由跟踪 ebay注册 杭州电信宽带优惠 国内空间 好看的空间 湖南铁通 塔式服务器 winserver2008 ncp是什么 更多