搜索引擎搜索引擎教程

搜索引擎教程  时间:2021-04-12  阅读:()

元搜索引擎:原理与利用王芳张晓林(四川联合大学信息管理系,成都,610064)文摘:本文对元搜索引擎的基本结构和运行过程进行了分析,并结合实例介绍了元搜索引擎的类别与特点.
关键词:元搜索引擎,搜索引擎,桌面搜索引擎,信息检索Meta-SearchEngines:PrinciplesandApplicationsWangFang,ZhangXiaolin(DepartmentofLibraryandInformationScience,SichuanUnionUniversity,Chengdu,610064)Abstract:Thepapergivesananalysisofthebasicstructureandfunctionalprocessofmetasearchengines,anddescribeswithexamplesthecategoriesandcharacteristicsofthesenewsearchtools.
Keywords:Metasearchengines,Searchengines,Desktopsearchengines,informationretrieval1.
前言Internet/WWW的迅速发展带来丰富的和动态变化的网络化信息资源,同时也呼唤新的检索机制与能力.
搜索引擎技术应运而生,通过采集标引众多网络站点来提供全局性网络资源控制与检索机制,从而帮助用户方便地在网络中准确检索所需信息[1-3],著名的Yahoo!
、Infoseek、AltaVista、悠游(GoYoYo)等就是典型代表.
然而,当搜索引擎数量迅速增加、各自使用的检索方式日益复杂时,如何准确选择搜索引擎、如何减轻学习与操作负担、如何有效利用多个搜索引擎的"集成"资源与检索能力等就成为制约网络信息检索技术进一步优化和发展的重要问题.
正是面对这个挑战,检索工具开发者设计了元搜索引擎(Meta-SearchEngines),能够利用多个搜索引擎进行网络信息查询.
2.
元搜索引擎的基本结构与运行原理2.
1.
元搜索引擎的基本性质与结构所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作(Searchthesearchengines)[4-5],其基本结构如图1所示.
图1我们可将元搜索引擎看成具有双层C/S结构的系统,用户向元搜索引擎发出检索请求,元搜索引擎再根据该请求向多个搜索引擎发出实际检索请求;搜索引擎执行元搜索引擎检索请求后将检索结果以应答形式传送给元搜索引擎,元搜索引擎将从多个搜索引擎获得的检索结果经过整理再以应答形式传送给实际用户.
当然,某些元搜索引擎具有略微不同的机制,我们将在下面讨论元搜索引擎实例时具体介绍.

2.
2.
搜索引擎和元搜索引擎的区别搜索引擎与元搜索引擎的主要区别在于搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立的数据库,却更多地是提供统一联结界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟逻辑整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作.
元搜索引擎中各独立搜索引擎被称为"成员搜索引擎",它们各自保持其原来的局部数据模式和自己的检索指令;元搜索引擎给出一个全局外部模式,用以接受用户检索输入和结果输出.
不过,有些元搜索引擎给出的全局外部模式不够完善.

2.
3.
元搜索引擎的基本运行过程根据分布式数据库系统的原理,我们可以用图2初步描述元搜索引擎基本运行过程的概念模型[6]:图2根据该模型,元搜索引擎的主要功能有:(1)搜索引擎的选择:元搜索引擎一般允许用户选择合适的搜索引擎集合具体进行检索,选择方式包括选择一个搜索引擎、选择全部搜索引擎、选择满足一定条件的若干个搜索引擎(例如最快的或最好的三个).
有些元搜索引擎只能使用固定的搜索引擎集合.

(2)检索指令的转换:由于每个搜索引擎都有自己的查询语言,因此元搜索引擎需要将用户通过统一界面以统一形式输入的全局检索指令转换为各个成员搜索引擎的局部指令语言,这可利用"全局/局部指令字典"来实现.
但指令语言转换并不是异形指令的简单、机械互换,应做到:①对应指令的功能性质一致性;②对应指令的功能作用范围一致;③对应指令的逻辑结构和构成一致;④对应指令的逻辑结果一致.
全局指令既要准确地表达所有成员搜索引擎指令语言的共同特点和指令形式,又要能够以一定方式执行有关成员搜索引擎指令的特殊功能.
目前,指令转换尚有较多不足之处.

(3)局部结果转换和全局结果组织:从各搜索引擎返回的结果具有自己的数据格式,元搜索引擎需要依照用户要求或系统设置值将各个局部结果转换为全局结果要求的形式,并构成逻辑上统一的整体结果集合和格式呈交用户.
全局格式转换与检索指令转换一样,要在数据项数量、逻辑内容、名称、长度、位置等方面准确地表达所有成员搜索引擎局部格式的共同特点和要求,又要能根据全局模式的要求对数据进行处理,还要协调不同的局部格式可能存在的差异,对某些搜索引擎特有的信息段要适当处理,保证对每一个命中记录具有尽可能详细的描述资料.
元搜索引擎还应对全局结果进行剔重、排序等处理.

2.
4.
自动选择的实现方式前面提到,用户可选择满足一定条件的若干搜索引擎同时进行检索.
一般地,元搜索引擎将根据一定条件自动实施这种选择[7].
(1)"选择最好"模式:元搜索引擎可能采取以下方式来选择"最好"的搜索引擎,例如它可跟踪一定时期各类检索式检索成员搜索引擎的命中记录数的统计分布,根据该分布来确定相对于一定主题的"最好"搜索引擎.
或者,元搜索引擎可对成员搜索引擎的索引数据库进行某种方式的分类统计,建立类目与URL数量的对应关系,并据此确立"最好"的搜索引擎.
例如,Profusion和SavvySearch就提供了类似的功能.

(2)"选择最快"模式:元搜索引擎系统可能采取下列两种方式来选择"最快"的搜索引擎:A.
随机产生方式:元搜索引擎以并行方式将检索指令传送给若干搜索引擎,选择最先返回的几个(比如前三个)结果集并组织成全局结果集,忽略后面的其他结果集.
B.

先验式:检索工具研制者在大量测试数据基础上,制定相应的控制字典,明确标明某一类信息与搜索引擎检索速度的映射关系.
用户提交检索式后,元搜索引擎首先进行概念分析,确认它隶属的类别范畴,然后对照控制字典通过一定的算法选择最快的前几个搜索引擎.
该方式涉及的技术细节较多,包括词表的建立、维护,词表中用于速度测试的词汇的选定,对成员搜索引擎的定期速度测试等,都将对测试结果的可靠性产生较大影响.

3.
元搜索引擎的分类按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-one式搜索引擎;按运行方式的差异可分为在线搜索引擎和桌面搜索引擎.
3.
1多线索式元搜索引擎所谓多线索式元搜索引擎指利用唯一的、确定的检索界面,实现对多个独立搜索引擎索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具.
如Metacrawler、Savvysearch、Profusion等都是属于多线索式元搜索引擎.
在理想状态下,这类元搜索引擎应具有以下特征:(1)统一检索界面:元搜索引擎提供统一界面,提供对各搜索引擎特点介绍和选择机制,但所有成员搜索引擎构成一个逻辑整体,元搜索引擎检索界面构成唯一的全局外部检索模式,用户通过这个全局界面实现对多个或任意一个搜索引擎的检索.
(2)检索指令转换:在具有唯一全局外部检索模式情况下,系统可提供统一的全局指令语言,并自动地实现元搜索引擎指令与其成员搜索引擎指令的转换,用户使用同一指令语言检索不同的搜索引擎的索引数据库.

(3)统一结果集的组织与显示:元搜索引擎提供全局组织器,对各搜索引擎返回的结果进行处理以形成全局结果集,并以统一格式显示,主要涉及数据格式转换、剔重、统一排序等.
3.
2ALL-IN-ONE方式所谓ALL-IN-ONE方式是指元搜索引擎界面以任意顺序或分类罗列多个(一般都是数十个)搜索引擎,但元搜索引擎本身主要提供各类搜索引擎的介绍信息和物理连接机制.
用户可通过这类元搜索引擎了解有关的搜索引擎、联入所选择的搜索引擎,但元搜索引擎没有统一的全局外部模式,而是以各搜索引擎的检索模式和数据格式直接面对用户,例如ALLINONE元搜索引擎(www.
albany.
net/allinone.
html).
这种ALL-IN-ONE方式的元搜索引擎确切地说只是搜索引擎的罗列,它们具有以下特点:(1)仅仅提供一个简单的界面来帮助用户选择和使用各搜索引擎.
(2)只能选择一个搜索引擎进行检索.
(3)对各独立搜索引擎检索界面的复制可能是部分的或全部的.
(4)直接利用所选搜索引擎的显示格式呈送给用户3.
3桌面元搜索引擎[8]以上各类元搜索引擎都是通过网上调用方式在线使用,还有另外一类元搜索引擎可直接在用户计算机上运行,相当于用户自己拥有一个元搜索引擎,称之为桌面元搜索引擎.
这些桌面元搜索引擎可从网络上下载,例如EchoSearch(www.
symantec.
com/iff/),Webcompass(http://www.
qdeck.
com/products/webcompass)、Webseeker(www.
ffg.
com/seeker/).
桌面元搜索引擎是一个包括多个成员搜索引擎的完整系统,它们往往允许用户自定义检索式运行的搜索引擎集合(例如一个或全部成员搜索引擎),甚至可由用户添加新的搜索引擎,例如EchoSearch和WebCompass.
这些桌面元搜索引擎不仅可以实现对多个搜索引擎的并行检索,而且也能提供重要的后期处理功能,例如用户定义结果排序方式、删除重复记录、确认链点的合法性等功能.

4.
实际元搜索引擎分析下面我们通过对三个著名的元搜索引擎的介绍来进一步分析元搜索引擎的特点.
4.
1.
MetaCrawlerMetaCrawler[9]由华盛顿大学的ErikSelberg等共同研制,1997年初被go2net收购,目前已发展成为一个优秀的多线索式搜索引擎.
它可同时调用6个搜索引擎并行检索,包括Lycos、Infoseek、WebCrawler、Excite、AltaVista和Yahoo!
.
它可使用简单检索和高级检索.
检索式中关键词间用空格分开,允许包括一个或多个短语(短语用""标志);词前加"+"号或"-"号表示结果中必须包括的词或禁止出现的词;圆括号中的词当作一个整体处理.
图形界面提供了相当于布尔操作AND、OR的选项和短语检索,检索范畴可限制在Web、新闻组、计算机产品或文件中.
MetaCrawler高级检索界面中还能定义等待检索的最大时间(5秒-2分钟)和从每个搜索引擎返回的最大结果数(10,20,30).
它能整体地集成查询结果,删除重复的URL,将将结果排序以统一的格式显示给用户.
而且,MetaCrawler具有自动核实功能,它将存储各个搜索引擎返回的结果并确认和删除死链.

4.
2.
SavvySearchSavvySearch[10]是一个并行检索的元搜索引擎,它可调用21个独立的搜索引擎,检索包括Web、Usenet新闻组、软件、参考工具、人、技术报告等信息.
每次最多可同时检索5个搜索引擎的数据库.
它根据历次检索获取有关统计数据,从而可依据搜索引擎对提问式的可能有用程度,将21个搜索引擎进行分组排序,以确定每次选择的5个搜索引擎.
SavvySearch提供布尔逻辑算法和词组检索:allqueryterm(AND),anyqueryterm(OR)和allquerytermasaphrase.
但不是所有的成员搜索引擎都能正确处理布尔操作符,结果可能不精确.
检索可在一定的资源类型中进行,如Web资源、人、或学术资料等.
在SavvySearch中用户可指定每个搜索引擎返回结果的数目,而且如果选择了"integrateresult"选项,系统将对结果集作删重处理.
检索结果包括发现资源的搜索引擎的名称、可链接的网页标题、URL、文件大小、相关程度和页面开始的十几个单词.
4.
3.
ProFusionProFusion[11]也是一个并行检索的搜索引擎,最多可同时调用9个独立的搜索引擎.
搜索引擎的调用方式分为:a.
系统自动选择最好的3个;b.
系统自动选择最快的3个;c.
全部调用;d.
用户从中选取任意个搜索引擎.
Profusion会按每个搜索引擎的语法分析查询,对于真正的布尔查询可以从下拉菜单中选择"Boolean",短语检索选择"phrase",检索范畴可选则Web或Usenet.
在检索式中可直接用圆括号()、AND(或&)、OR(或|)、NOT(!
)和NEAR(~),操作符必须大写,且操作符前后都要有空格.
Profusion能够综合搜索结果并为结果排序,但它不能显示每个结果来自哪个搜索引擎.
另外,它还提供个性化的结果页面.
在免费注册后,Profusion会为用户维护一个页面.
每周或每月重复运行查询,一旦发现变化就会发电子邮件通知该用户.

提速啦(24元/月)河南BGP云服务器活动 买一年送一年4核 4G 5M

提速啦的来历提速啦是 网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑 由赣州王成璟网络科技有限公司旗下赣州提速啦网络科技有限公司运营 投资1000万人民币 在美国Cera 香港CTG 香港Cera 国内 杭州 宿迁 浙江 赣州 南昌 大连 辽宁 扬州 等地区建立数据中心 正规持有IDC ISP CDN 云牌照 公司。公司购买产品支持3天内退款 超过3天步退款政策。提速啦的市场定位提速啦主...

10gbiz首月半价月付2.36美元,香港/洛杉矶VPS、硅谷独立服务器/站群服务器

收到10gbiz发来的7月份优惠方案,中国香港、美国洛杉矶机房VPS主机4折优惠码,优惠后洛杉矶VPS月付2.36美元起,香港VPS月付2.75美元起。这是一家2020年成立的主机商,提供的产品包括独立服务器租用和VPS主机等,数据中心在美国洛杉矶、圣何塞和中国香港。商家VPS主机基于KVM架构,支持使用PayPal或者支付宝付款。洛杉矶VPS架构CPU内存硬盘带宽系统价格单核512MB10GB1...

wordpress公司网站模板 wordpress简洁高级通用公司主题

wordpress公司网站模板,wordpresss简洁风格的高级通用自适应网站效果,完美自适应支持多终端移动屏幕设备功能,高级可视化后台自定义管理模块+规范高效的搜索优化。wordpress公司网站模板采用标准的HTML5+CSS3语言开发,兼容当下的各种主流浏览器: IE 6+(以及类似360、遨游等基于IE内核的)、Firefox、Google Chrome、Safari、Opera等;同时...

搜索引擎教程为你推荐
servererror电脑连接路由登录提示server error:401 N/A,如何处理?支付宝蜻蜓发布蜻蜓支付怎样实现盈利filezillaserver如何使用filezilla server波音737起飞爆胎飞机会爆胎?重庆杨家坪猪肉摊主杀人昨天重庆九龙坡出了严重交通事故吗开放平台微信的开放平台是干什么用的宜人贷官网宜人贷是不是骗局,借了五万,每月还2030元,还十个月了,想一次性还完,他们说我玖融网泰和网理财可信吗,泰和网理财是不是骗人的啊????????美国独立美国独立战争的概况骑士人才系统问一下嘉缘人才系统和骑士人才系统相比,哪个系统会好点呢?
新网域名 linode日本 电影服务器 godaddy优惠码 免费网站监控 12u机柜尺寸 patcha 服务器怎么绑定域名 godaddy域名证书 韩国名字大全 阿里校园 泉州移动 什么是服务器托管 路由跟踪 中国电信网络测速 浙江服务器 域名转入 腾讯网盘 阵亡将士纪念日 广东服务器托管 更多