搜索引擎的概念什么叫搜索引擎?搜索引擎的类型有哪些?

搜索引擎的概念  时间:2021-05-31  阅读:()

搜索引擎的概念是什么?

【概念】搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

搜索引擎的流量是个什么概念??

搜索引擎流量是指访问者通过搜索引擎访问网站所产生的流量 直达产品流量是指访问者通过3721网络实名,CNNIC通用网址和Google实名通等客户端插件访问网站所产生的流量 其他网站流量是指访问者通过其它网站的网站的友情链接或者其他网站的广告访问网站所产生的流量

名词解释:什么是搜索引擎

搜索引擎(英语:search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息。

搜索结果一般被称为“hits”,通常会以表单的形式列出。

网络搜索引擎是最常见、公开的一种搜索引擎,其功能为搜索万维网上储存的信息。

搜索引擎为一组项目提供了一个接口,使用户能够指定关于感兴趣的项目的标准,并让引擎找到匹配的项目,这些标准称为搜索查询。

在文本搜索引擎的情况下,搜索查询通常表示为识别一个或多个文档可能包含的期望概念的一组单词。

有多种样式的搜索查询语法在严格性上有差异。

它也可以在以前的站点中搜索搜索引擎中的名称。

而一些文本搜索引擎要求用户输入由白色空格分隔的两个或三个字,其他搜索引擎可以使用户能够指定整个文档,图片,声音和各种形式的自然语言。

一些搜索引擎对搜索查询进行改进,以增加通过称为查询扩展的过程提供质量集合的可能性。

查询理解方法可用于标准化查询语言。

扩展资料: 一个完整的搜索引擎需要有网页爬取和收录,建立索引,查询词分析,搜索排序,推荐系统五个部分组成。

1、网页爬取和收录。

网络爬虫技术是网页爬取的核心技术,可以通过编写一定的程序或者脚本来对互联网的信息进行抓取。

在网页抓取之后,要构建相应的数据库来存储我们爬取的网页信息。

但是互联网的信息具有冗余性,主要原因是各大网站也都会在后台进行爬虫爬取,他们也会通过爬虫来检测一些热点的内容或者文章,然后爬取其信息并对格式进行重新的组织,但其实网页的内容几乎都是一致的。

所以在收录爬虫爬取的网页信息之前,我们还要加入一个关键的环节——网页去重,来确保我们数据库中网页的唯一性。

2、建立索引 在抓取了网页的信息之后,需要对网页的信息进行解析,抽取到网页的主题内容和类别信息。

其主要涉及的技术为文本识别和文本分类技术。

网页解析后的输出往往是一些结构化的信息(每个网页的信息完整度是不同的,需要统一对数据进行结构化操作),一般的结构化信息包括网页的URL、网页编码、网页标题、作者、生成时间、类别信息、摘要等等。

在获取了网页结构化信息后,就要构建相应的索引了。

为了加快响应用户査询的速度,网页内容通过"倒排索引"这种高效查询数据结构来保存,而网页之间的链接关系也会予以保存。

之所以要保存链接关系,是因为这种关系 在网F相关性排序阶段是可利用的,通过"链接分析"可以判断页面的相对重要性,对于为用 户提供准确的搜索结果帮助很大。

由于互联网的网页信息是海量的,所以搜索引擎的构建离不开大数据处理平台和云计算技术,目前较为常用的大数据处理平台为Hadoop生态架构。

3、查询词分析。

查询词分析就是query分析或者query聚类。

当搜索引擎接收到用户的査询词后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。

比如,一个用户输入的查询词为“养水仙花”,那么除了基本的内容匹配外,搜索引擎需要读懂用户,其实用户的查询词还可以这样被理解“水仙花的养法”,“水仙花好养不” 等等近意的查询词。

在此之后,首先在缓存中査找,搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果,如果能够在缓存系统找到满足用户需求的信息,则可以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的消耗,又加快了响应速度。

4、搜索排序 搜索引擎在分析了用户的查询词以后,如果缓存的信息无法满足用户的查询需求,搜索引擎要根据索引来查询数据库的网页内容,并根据网页内容与用户需求来进行网页排序。

网页排序需要众多的因素,其中最为主要的因素为网页内容与用户查询内容的相似度(匹配度),这个不难理解,搜索引擎的基本功能就是查询。

如果一个搜索引擎无法为用户提供用户需要查询的内容,那其也就不能称为是一个搜索引擎,所以网页内容与用户查询内容的相似度是网页排序的一个首要依据; 另外网页的重要程度也是以关键元素,一个网页的重要程度关乎了网页内容的质量,在满足用户需求的基础之上,用户更加希望获得高质量的内容,这是无可厚非的。

根据上述因素,搜索引擎对查询到的结果进行排序,然后展示给用户。

5、推荐系统 其实从不严格的角度来说,整个网页排序的过程就属于一种推荐策略。

从严格意义上来说,推荐系统并不属于一个搜索引擎架构的必要环节,而且推荐系统在上述示意图中并没有显示。

但是一个优秀的搜索引擎不止要能分析出用户查询的基本需求,进一步来讲,要能了解到或者猜测用户的可能的下一步需求。

目前随着大数据的热潮,各大互联网公司和众多专家认为推荐系统是解决互联网大数据的一种有效途径。

而且,最近越来越多个性化推荐知识受到了热捧。

其实推荐系统在搜索引擎中往往是以中间页的形式展示的,它的主要作用就是为推荐系统进行导流。

参考资料来源:搜狗百科——搜索引擎

有谁可以给我解释下搜索引擎的概念,比如说百度的

其实不论百度.谷歌.还是搜狗及搜搜,他们都可以称作是搜索引擎,搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

其实他们算法略有不同外,工作原理大致都是相同的,简单的说都是抓取网页、处理网页、最后提供检索服务.用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

什么叫搜索引擎?搜索引擎的类型有哪些?

搜索引擎 搜索引擎的概念 搜索引擎是指以一定的策略搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。

从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。

互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。

网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。

用户查询时,通过一层层的点击来查找自己想找的网站。

也有人把这种基于目录的检索服务网站成为搜索引擎,但从严格意义上,它并不是搜索引擎。

搜索引擎的工作原理 可以分为三个部分 1、抓取网页 每个独立的搜索引擎都有自己的网页抓取程序(spider)。

Spider顺着网页中的超链接,连续地抓取网页。

由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2、处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。

其中,最重要的就是提取关键词,建立索引文件。

其他还包括去除重复网页、分析超链接、计算网页的重要度。

3、提供检索服务 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

搜索引擎的发展历史 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。

当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。

所以,Archie被公认为现代搜索引擎的鼻祖。

Robot(机器人)一词对编程者有特殊的意义。

Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。

由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。

1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。

开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。

1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。

随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。

因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。

雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。

1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。

1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。

除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。

19

妮妮云(100元/月)阿里云香港BGP专线 2核 4G

妮妮云的来历妮妮云是 789 陈总 张总 三方共同投资建立的网站 本着“良心 便宜 稳定”的初衷 为小白用户避免被坑妮妮云的市场定位妮妮云主要代理市场稳定速度的云服务器产品,避免新手购买云服务器的时候众多商家不知道如何选择,妮妮云就帮你选择好了产品,无需承担购买风险,不用担心出现被跑路 被诈骗的情况。妮妮云的售后保证妮妮云退款 通过于合作商的友好协商,云服务器提供2天内全额退款,超过2天不退款 物...

乌云数据(10/月),香港cera 1核1G 10M带宽/美国cera 8核8G10M

乌云数据主营高性价比国内外云服务器,物理机,本着机器为主服务为辅的运营理念,将客户的体验放在第一位,提供性价比最高的云服务器,帮助各位站长上云,同时我们深知新人站长的不易,特此提供永久免费虚拟主机,已提供两年之久,帮助了上万名站长从零上云官网:https://wuvps.cn迎国庆豪礼一多款机型史上最低价,续费不加价 尽在wuvps.cn香港cera机房,香港沙田机房,超低延迟CN2线路地区CPU...

Ceraus24元/月,国庆促销 香港云上新首月五折

Ceraus数据成立于2020年底,基于KVM虚拟架构技术;主营提供香港CN2、美国洛杉矶CN2、日本CN2的相关VPS云主机业务。喜迎国庆香港上新首月五折不限新老用户,cera机房,线路好,机器稳,适合做站五折优惠码:gqceraus 续费七五折官方网站:https://www.ceraus.com香港云内存​CPU硬盘流量宽带优惠价格购买地址香港云2G2核40G不限5Mbps24元/月点击购买...

搜索引擎的概念为你推荐
mac地址克隆路由器的Mac地址克隆有什么作用?webproxy什么是PAC网址oa办公系统下载oa办公软件哪里可以下载?activitygroup请问在activitygroup中嵌入多个webview,切换时如何保持状态移动硬盘文件或目录损坏且无法读取急:移动硬盘无法访问,打开提示”文件或目录损坏且无法读取”中信银行理财宝中信银行理财宝金卡怎样激活点心os现有的基于安卓深度优化的MUUI、点心OS、CM7、乐众ROM、乐蛙,这些哪个好?各自特点?给个排名。微粒群算法粒子群算法优化下面的公式 要怎么做 能给个程序最好什么是网络地址什么是IP地址啊?视频比特率是什么求解:视频格式搞成720p(1280 * 720),MP4,码率是10MB什么意思,详细点~
厦门虚拟主机 高防直连vps 域名抢注工具 mediafire 10t等于多少g 域名转向 bgp双线 789电视网 网络空间租赁 爱奇艺vip免费试用7天 申请网站 空间登录首页 太原联通测速 vul 新加坡空间 中国联通宽带测速 云服务是什么意思 杭州电信宽带 谷歌搜索打不开 512内存 更多