搜索引擎搜索引擎9238

搜索引擎9238  时间:2021-01-31  阅读:()

第6章Internet信息检索工具——搜索引擎6.
1搜索引擎的基本概念Internet是一个广阔的信息海洋,漫游其间而不迷失方向有时会是相当困难的.
如何快速准确地在网上找到需要的信息已变得越来越重要.
搜索引擎(SearchEngine)是一种网上信息检索工具,在浩瀚的网络资源中,它能帮助你迅速而全面地找到所需要的信息.

1.
搜索引擎的定义搜索引擎是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统.
它是一些在Web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务.
一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词.
当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接.
搜索引擎既是用于检索的软件又是提供查询、检索的网站.
所以,搜索引擎也可称为Internet上具有检索功能的网页.
搜索引擎也是目前Internet对信息资源进行组织的主要方式.
搜索引擎由网上机器人(Spider或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引.
由于不需要人们的介入,速度得以大大的提高.
其覆盖面和及时性也得以大大的提高.
Spider或Robot是一种软件,它沿着WWW文件的链接在网上漫游,记录RUL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和RUL、文件的大小、语种以及词出现的频率.
它的运行方式为:从一个或一组RUL开始,访问该RUL所指HTML文件中所有的RUL锚链,然后再以这些新的RUL为起始点,继续进行本地索引,直到再也没有满足条件的新的RUL为止.
在记录新的RUL时,可以进行分析和判断,从中去掉不需要或不想要的RUL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间,搜索引擎将HTML格式文件取到本地后,由一个小程序将其中的辅助部分去掉,并按一定策略将其中可用于查询的部分(如关键字和一些指定词等)存储到数据库中,形成本地查询数据库,以后再查时就不必到远地去重新获取HTML格式文件了.
搜索引擎的数据检索方式主要是关键字的匹配方式:如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等.
能为用户提供全文索引、约束性检索、基于布尔关系的查询方式,并对查询结果根据某种算法和规则评分和排序.
引擎系统虽然能在WWW信息资源范围内自动发现新的信息,对其所覆盖的资料进行自动更新,并根据检索规则和从其他服务器上得到的数据类型对进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务,根据用户的请求返回相应的结果,但是由于系统需将HTML文件传送至本地然后分析,大量占用昂贵的网络带宽和CPU资源,资源消耗过大,增加被搜索结点的负担;又由于链路效率太低,对一些连接代价很大的获得索引,难免有不能及时加入的新WWW地址.
此外,由于各搜索引擎标引方式没有统一的规范,有的对网页全文进行索引,有的仅标引网页的标题、RUL、关键段落的前几个单词或文本的前100个词,生成关键词的技术也不一样,有的支持MetaTags,接受网页制作者自定义关键词和摘要,有的则不支持MetaTags,仅仅利用网页的前几行字作为摘要.
此外,搜索引擎大多采用自然语言标引和检索,没有受控词表,同义词和近义词得不到控制,词间的关系得不到揭示.
因此,搜索引擎的信息组织与标引缺乏控制,信息查询的命中率、准确率、查全率差强人意,往往是输入一个检索式,得到一大堆网页地址,但其中大部分是冗余信息.
2.
搜索引擎的主要任务各种搜索引擎的主要任务都包括以下三个方面:(1)信息搜集.
各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录.
由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新.
(2)信息处理.
将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容.
在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异.
有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词.
故有的搜索引擎数据库很大,而有的则较小.
当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展.
(3)信息查询.
每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径.
分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息.
关键词查询是利用建立的网络资源索引数据库向网上用户提供查询"引擎".
用户只要把想要查找的关键词或短语输入查询框中,并按"Search"按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式).
用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息.

远程登录VNC无法连接出现

今天有网友提到自己在Linux服务器中安装VNC桌面的时候安装都没有问题,但是在登录远程的时候居然有出现灰色界面,有三行代码提示"Accept clipboard from viewers,Send clipboard to viewers,Send primary selection to viewers"。即便我们重新登录也不行,这个到底如何解决呢?这里找几个可以解决的可能办法,我们多多尝试。...

Virtono:圣何塞VPS七五折月付2.2欧元起,免费双倍内存

Virtono是一家成立于2014年的国外VPS主机商,提供VPS和服务器租用等产品,商家支持PayPal、信用卡、支付宝等国内外付款方式,可选数据中心共7个:罗马尼亚2个,美国3个(圣何塞、达拉斯、迈阿密),英国和德国各1个。目前,商家针对美国圣何塞机房VPS提供75折优惠码,同时,下单后在LET回复订单号还能获得双倍内存的升级。下面以圣何塞为例,分享几款VPS主机配置信息。Cloud VPSC...

鲸云10美元,香港BGPRM 1核 1G 10Mbps峰值带宽 1TB流量,江西CN2-NAT 1核 512MB内存 100M带宽 ,

WHloud Official Notice(鲸云官方通知)(鲸落 梦之终章)]WHloud RouMu Cloud Hosting若木产品线云主机-香港节点上新预售本次线路均为电信CN2 GIA+移动联通BGP,此机型为正常常规机,建站推荐。本次预售定为国庆后开通,据销售状况决定,照以往经验或有咕咕的可能性,但是大多等待时间不长。均赠送2个快照 2个备份,1个默认ipv4官方网站:https:/...

搜索引擎9238为你推荐
小说软件哪个好用免费什么软件看小说全免费压缩软件哪个好现在哪个压缩软件最稳定又快 ?朗逸和速腾哪个好大众速腾和朗逸哪个好啊?音乐播放器哪个好最好的音乐播放器下载等额本息等额本金哪个好等额本息和等额本金哪个好?海克斯皮肤哪个好海克斯安妮和摄魂薇恩哪个好 需要多少宝石雅思和托福哪个好考现在考雅思还是托福好51空间登录51空间,怎么添加啊?怎么登陆?电信10000宽带测速电信宽带速度东莞电信宽带东莞电信宽带资费问题。急!
美国linux主机 高防dns 西安电信测速 踢楼 z.com mach5 优惠码 京东云擎 html空间 电子邮件服务器 ntfs格式分区 免费测手机号 100mbps 个人免费邮箱 免费网络 winserver2008 连连支付 超低价 电脑显示屏不亮但是主机已开机 六维空间登陆首页 更多