搜索引擎搜索引擎9238

搜索引擎9238  时间:2021-01-31  阅读:()

第6章Internet信息检索工具——搜索引擎6.
1搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的.
如何快速准确地在网上找到需要的信息已变得越来越重要.
搜索引擎(SearchEngine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息.

1.
搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统.
它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务.
一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词.
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接.
搜索引擎既是用于检索的软件又是提供查询、检索的网站.
所以,搜索引擎也可称为Internet上具有检索功能的网页.
搜索引擎也是目前Internet对信息资源进行组织的主要方式.
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引.
由于不需要人们的介入,速度得以大大的提高.
其覆盖面和及时性也得以大大的提高.
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率.
它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止.
在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了.
搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等.
能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序.
引擎系统虽然能在WWW信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW地址.
此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词,生成关键词的技术也不一样,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要.
此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示.
因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息.
2.
搜索引擎的主要任务各种搜索引擎的主要任务都包括以下三个方面:(1)信息搜集.
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录.
由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新.
(2)信息处理.
将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.
在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异.
有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词.
故有的搜索引擎数据库很大,而有的则较小.
当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展.
(3)信息查询.
每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径.
分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息.
关键词查询是利用建立的网络资源索引数据库向网上用户提供查询"引擎".
用户只要把想要查找的关键词或短语输入查询框中,并按"Search"按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式).
用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息.

阿里云金秋上云季,云服务器秒杀2C2G5M年付60元起

阿里云(aliyun)在这个月又推出了一个金秋上云季活动,到9月30日前,每天两场秒杀活动,包括轻量应用服务器、云服务器、云数据库、短信包、存储包、CDN流量包等等产品,其中Aliyun轻量云服务器最低60元/年起,还可以99元续费3次!活动针对新用户和没有购买过他们的产品的老用户均可参与,每人限购1件。关于阿里云不用多说了,国内首屈一指的云服务器商家,无论建站还是学习都是相当靠谱的。活动地址:h...

VirMach(8元/月)KVM VPS,北美、欧洲

VirMach,成立于2014年的美国IDC商家,知名的低价便宜VPS销售商,支持支付宝、微信、PayPal等方式付款购买,主打美国、欧洲暑假中心产品,拥有包括洛杉矶、西雅图、圣何塞、凤凰城在内的11个数据中心可以选择,可以自由搭配1Gbps、2Gbps、10Gbps带宽端口,有Voxility DDoS高防IP可以选择(500Gbps以上的防御能力),并且支持在控制面板付费切换机房和更换IP(带...

JUSTG(5.99美元/月)最新5折优惠,KVM虚拟虚拟512Mkvm路线

Justg是一家俄罗斯VPS云服务器提供商,主要提供南非地区的VPS服务器产品,CN2高质量线路网络,100Mbps带宽,自带一个IPv4和8个IPv6,线路质量还不错,主要是用户较少,带宽使用率不高,比较空闲,不拥挤,比较适合面向非洲、欧美的用户业务需求,也适合追求速度快又需要冷门的朋友。justg的俄罗斯VPS云服务器位于莫斯科机房,到美国和中国速度都非常不错,到欧洲的平均延迟时间为40毫秒,...

搜索引擎9238为你推荐
桌面背景图片怎样将喜欢的图片设置为桌面背景,图片要超清晰浏览器哪个好大家用过的哪种浏览器最好用?用过多种浏览器的说手机浏览器哪个好手机浏览器哪个好用闪迪和金士顿哪个好u盘是金士顿好还是闪迪好?江门旅游景点哪个好玩的地方江门蓬江区有什么地方好玩?少儿英语哪个好少儿英语教材哪个好?电陶炉和电磁炉哪个好电磁炉和电陶炉买哪个?手机管家哪个好手机管家哪个好手机浏览器哪个好用手机哪个浏览器最好用车险哪个好汽车保险买哪个公司的好
免费注册网站域名 directspace inmotionhosting blackfriday 国内永久免费云服务器 mach 香港托管 2017年黑色星期五 win8.1企业版升级win10 租空间 ca4249 40g硬盘 服务器是干什么的 闪讯官网 带宽租赁 shuang12 数据库空间 酸酸乳 域名和主机 杭州电信宽带 更多