搜索引擎搜索引擎教程

搜索引擎教程  时间:2021-04-12  阅读:()

元搜索引擎:原理与利用王芳张晓林(四川联合大学信息管理系,成都,610064)文摘:本文对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点.
关键词:元搜索引擎,搜索引擎,桌面搜索引擎,信息检索Meta-SearchEngines:PrinciplesandApplicationsWangFang,ZhangXiaolin(DepartmentofLibraryandInformationScience,SichuanUnionUniversity,Chengdu,610064)Abstract:Thepapergivesananalysisofthebasicstructureandfunctionalprocessofmetasearchengines,anddescribeswithexamplesthecategoriesandcharacteristicsofthesenewsearchtools.
Keywords:Metasearchengines,Searchengines,Desktopsearchengines,informationretrieval1.
前言Internet/WWW的迅速发展带来丰富的和动态变化的网络化信息资源,同时也呼唤新的检索机制与能力.
搜索引擎技术应运而生,通过采集标引众多网络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息[1-3],著名的Yahoo!
、Infoseek、AltaVista、悠游(GoYoYo)等就是典型代表.
然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题.
正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-SearchEngines),能够利用多个搜索引擎进行网络信息查询.
2.
元搜索引擎的基本结构与运行原理2.
1.
元搜索引擎的基本性质与结构所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作(Searchthesearchengines)[4-5],其基本结构如图1所示.
图1我们可将元搜索引擎看成具有双层C/S结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户.
当然,某些元搜索引擎具有略微不同的机制,我们将在下面讨论元搜索引擎实例时具体介绍.

2.
2.
搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作.
元搜索引擎中各独立搜索引擎被称为"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出.
不过,有些元搜索引擎给出的全局外部模式不够完善.

2.
3.
元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型[6]:图2根据该模型,元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个).
有些元搜索引擎只能使用固定的搜索引擎集合.

(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用"全局/局部指令字典"来实现.
但指令语言转换并不是异形指令的简单、机械互换,应做到:①对应指令的功能性质一致性;②对应指令的功能作用范围一致;③对应指令的逻辑结构和构成一致;④对应指令的逻辑结果一致.
全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能.
目前,指令转换尚有较多不足之处.

(3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户.
全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料.
元搜索引擎还应对全局结果进行剔重、排序等处理.

2.
4.
自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索.
一般地,元搜索引擎将根据一定条件自动实施这种选择[7].
(1)"选择最好"模式:元搜索引擎可能采取以下方式来选择"最好"的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录数的统计分布,根据该分布来确定相对于一定主题的"最好"搜索引擎.
或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与URL数量的对应关系,并据此确立"最好"的搜索引擎.
例如,Profusion和SavvySearch就提供了类似的功能.

(2)"选择最快"模式:元搜索引擎系统可能采取下列两种方式来选择"最快"的搜索引擎:A.
随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个)结果集并组织成全局结果集,忽略后面的其他结果集.
B.

先验式:检索工具研制者在大量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度的映射关系.
用户提交检索式后,元搜索引擎首先进行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎.
该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响.

3.
元搜索引擎的分类按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎.
3.
1多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具.
如Metacrawler、Savvysearch、Profusion等都是属于多线索式元搜索引擎.
在理想状态下,这类元搜索引擎应具有以下特征:(1)统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索.
(2)检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库.

(3)统一结果集的组织与显示:元搜索引擎提供全局组织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等.
3.
2ALL-IN-ONE方式所谓ALL-IN-ONE方式是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制.
用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎,但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,例如ALLINONE元搜索引擎(www.
albany.
net/allinone.
html).
这种ALL-IN-ONE方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:(1)仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎.
(2)只能选择一个搜索引擎进行检索.
(3)对各独立搜索引擎检索界面的复制可能是部分的或全部的.
(4)直接利用所选搜索引擎的显示格式呈送给用户3.
3桌面元搜索引擎[8]以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎.
这些桌面元搜索引擎可从网络上下载,例如EchoSearch(www.
symantec.
com/iff/),Webcompass(http://www.
qdeck.
com/products/webcompass)、Webseeker(www.
ffg.
com/seeker/).
桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部成员搜索引擎),甚至可由用户添加新的搜索引擎,例如EchoSearch和WebCompass.
这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能,例如用户定义结果排序方式、删除重复记录、确认链点的合法性等功能.

4.
实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步分析元搜索引擎的特点.
4.
1.
MetaCrawlerMetaCrawler[9]由华盛顿大学的ErikSelberg等共同研制,1997年初被go2net收购,目前已发展成为一个优秀的多线索式搜索引擎.
它可同时调用6个搜索引擎并行检索,包括Lycos、Infoseek、WebCrawler、Excite、AltaVista和Yahoo!
.
它可使用简单检索和高级检索.
检索式中关键词间用空格分开,允许包括一个或多个短语(短语用""标志);词前加"+"号或"-"号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理.
图形界面提供了相当于布尔操作AND、OR的选项和短语检索,检索范畴可限制在Web、新闻组、计算机产品或文件中.
MetaCrawler高级检索界面中还能定义等待检索的最大时间(5秒-2分钟)和从每个搜索引擎返回的最大结果数(10,20,30).
它能整体地集成查询结果,删除重复的URL,将将结果排序以统一的格式显示给用户.
而且,MetaCrawler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链.

4.
2.
SavvySearchSavvySearch[10]是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括Web、Usenet新闻组、软件、参考工具、人、技术报告等信息.
每次最多可同时检索5个搜索引擎的数据库.
它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎.
SavvySearch提供布尔逻辑算法和词组检索:allqueryterm(AND),anyqueryterm(OR)和allquerytermasaphrase.
但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确.
检索可在一定的资源类型中进行,如Web资源、人、或学术资料等.
在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了"integrateresult"选项,系统将对结果集作删重处理.
检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、URL、文件大小、相关程度和页面开始的十几个单词.
4.
3.
ProFusionProFusion[11]也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎.
搜索引擎的调用方式分为:a.
系统自动选择最好的3个;b.
系统自动选择最快的3个;c.
全部调用;d.
用户从中选取任意个搜索引擎.
Profusion会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择"Boolean",短语检索选择"phrase",检索范畴可选则Web或Usenet.
在检索式中可直接用圆括号()、AND(或&)、OR(或|)、NOT(!
)和NEAR(~),操作符必须大写,且操作符前后都要有空格.
Profusion能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎.
另外,它还提供个性化的结果页面.
在免费注册后,Profusion会为用户维护一个页面.
每周或每月重复运行查询,一旦发现变化就会发电子邮件通知该用户.

提速啦(69元起)香港大带宽CN2+BGP独享云服务器

香港大带宽服务器香港大带宽云服务器目前市场上可以选择的商家十分少,这次给大家推荐的是我们的老便宜提速啦的香港大带宽云服务器,默认通用BGP线路(即CN2+BGP)是由三网直连线路 中国电信骨干网以及HGC、NTT、PCCW等国际线路混合而成的高品质带宽(精品带宽)线路,可有效覆盖全球200多个国家和地区。(适用于绝大部分应用场景,适合国内外访客访问,域名无需备案)提速啦官网链接:点击进入香港Cer...

ZJI-全场八折优惠,香港服务器 600元起,还有日本/美国/韩国服务器

ZJI怎么样?ZJI是一家成立于2011年的商家,原名维翔主机,主要从事独立服务器产品销售,目前主打中国香港、日本、美国独立服务器产品,是一个稳定、靠谱的老牌商家。详情如下:月付/年付优惠码:zji??下物理服务器/VDS/虚拟主机空间订单八折终身优惠(长期有效)一、ZJI官网点击直达香港葵湾特惠B型 CPU:E5-2650L核心:6核12线程内存:16GB硬盘:480GB SSD带宽:5Mbps...

搬瓦工:新增荷兰机房 EUNL_9 测评,联通 AS10099/AS9929 高端优化路线/速度 延迟 路由 丢包测试

搬瓦工最近上线了一个新的荷兰机房,荷兰 EUNL_9 机房,这个 9 的编号感觉也挺随性的,之前的荷兰机房编号是 EUNL_3。这次荷兰新机房 EUNL_9 采用联通 AS9929 高端路线,三网都接入了 AS9929,对于联通用户来说是个好消息,又多了一个选择。对于其他用户可能还是 CN2 GIA 机房更合适一些。其实对于联通用户,这个荷兰机房也是比较远的,相比之下日本软银 JPOS_1 机房可...

搜索引擎教程为你推荐
recommendations37德国iphone禁售令苹果在中国禁售了?说说看波音737起飞爆胎美国737MAX又紧急迫降,为什么它还在飞?重庆网站制作重庆网站制作哪家好,重庆做网站制作的公司有谁比较了解的,应该去哪里做好些?重庆电信dns重庆的DNS服务器地址是多少?温州商标注册温州注册公司在哪里注册易名网诚询,易名网注册的域名怎么转到喜欢的网页上啊?pintang目前世界上最稀有、最珍贵的钱币是什么?三五互联南京最专业的网站建设公司是哪家?双尚网络做的好不好? 给分求答案discuz伪静态discuz怎么才能把专题目录也实现伪静态的方法详解
骨干网 香港机房 20g硬盘 seovip 网盘申请 上海域名 微信收钱 qq对话框 空间合租 免费申请网站 怎么建立邮箱 吉林铁通 沈阳主机托管 谷歌台湾 空间申请 小夜博客 accountsuspended register.com 中美互联网论坛 cloudflare 更多