搜索引擎的概念什么叫搜索引擎？搜索引擎的类型有哪些？

搜索引擎的概念时间:2021-05-31 阅读:()

搜索引擎的概念是什么？

【概念】搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统。

搜索引擎的流量是个什么概念？？

搜索引擎流量是指访问者通过搜索引擎访问网站所产生的流量直达产品流量是指访问者通过3721网络实名，CNNIC通用网址和Google实名通等客户端插件访问网站所产生的流量其他网站流量是指访问者通过其它网站的网站的友情链接或者其他网站的广告访问网站所产生的流量

名词解释：什么是搜索引擎

搜索引擎（英语：search engine）是一种信息检索系统，旨在协助搜索存储在计算机系统中的信息。

搜索结果一般被称为“hits”，通常会以表单的形式列出。

网络搜索引擎是最常见、公开的一种搜索引擎，其功能为搜索万维网上储存的信息。

搜索引擎为一组项目提供了一个接口，使用户能够指定关于感兴趣的项目的标准，并让引擎找到匹配的项目，这些标准称为搜索查询。

在文本搜索引擎的情况下，搜索查询通常表示为识别一个或多个文档可能包含的期望概念的一组单词。

有多种样式的搜索查询语法在严格性上有差异。

它也可以在以前的站点中搜索搜索引擎中的名称。

而一些文本搜索引擎要求用户输入由白色空格分隔的两个或三个字，其他搜索引擎可以使用户能够指定整个文档，图片，声音和各种形式的自然语言。

一些搜索引擎对搜索查询进行改进，以增加通过称为查询扩展的过程提供质量集合的可能性。

查询理解方法可用于标准化查询语言。

扩展资料：一个完整的搜索引擎需要有网页爬取和收录，建立索引，查询词分析，搜索排序，推荐系统五个部分组成。

1、网页爬取和收录。

网络爬虫技术是网页爬取的核心技术，可以通过编写一定的程序或者脚本来对互联网的信息进行抓取。

在网页抓取之后，要构建相应的数据库来存储我们爬取的网页信息。

但是互联网的信息具有冗余性，主要原因是各大网站也都会在后台进行爬虫爬取，他们也会通过爬虫来检测一些热点的内容或者文章，然后爬取其信息并对格式进行重新的组织，但其实网页的内容几乎都是一致的。

所以在收录爬虫爬取的网页信息之前，我们还要加入一个关键的环节——网页去重，来确保我们数据库中网页的唯一性。

2、建立索引在抓取了网页的信息之后，需要对网页的信息进行解析，抽取到网页的主题内容和类别信息。

其主要涉及的技术为文本识别和文本分类技术。

网页解析后的输出往往是一些结构化的信息（每个网页的信息完整度是不同的，需要统一对数据进行结构化操作），一般的结构化信息包括网页的URL、网页编码、网页标题、作者、生成时间、类别信息、摘要等等。

在获取了网页结构化信息后，就要构建相应的索引了。

为了加快响应用户査询的速度，网页内容通过"倒排索引"这种高效查询数据结构来保存，而网页之间的链接关系也会予以保存。

之所以要保存链接关系，是因为这种关系在网F相关性排序阶段是可利用的，通过"链接分析"可以判断页面的相对重要性，对于为用户提供准确的搜索结果帮助很大。

由于互联网的网页信息是海量的，所以搜索引擎的构建离不开大数据处理平台和云计算技术，目前较为常用的大数据处理平台为Hadoop生态架构。

3、查询词分析。

查询词分析就是query分析或者query聚类。

当搜索引擎接收到用户的査询词后，首先需要对查询词进行分析，希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。

比如，一个用户输入的查询词为“养水仙花”，那么除了基本的内容匹配外，搜索引擎需要读懂用户，其实用户的查询词还可以这样被理解“水仙花的养法”，“水仙花好养不” 等等近意的查询词。

在此之后，首先在缓存中査找，搜索引擎的缓存系统存储了不同的查询意图对应的搜索结果，如果能够在缓存系统找到满足用户需求的信息，则可以直接将搜索结果返回给用户，这样既省掉了重复计算对资源的消耗，又加快了响应速度。

4、搜索排序搜索引擎在分析了用户的查询词以后，如果缓存的信息无法满足用户的查询需求，搜索引擎要根据索引来查询数据库的网页内容，并根据网页内容与用户需求来进行网页排序。

网页排序需要众多的因素，其中最为主要的因素为网页内容与用户查询内容的相似度（匹配度），这个不难理解，搜索引擎的基本功能就是查询。

如果一个搜索引擎无法为用户提供用户需要查询的内容，那其也就不能称为是一个搜索引擎，所以网页内容与用户查询内容的相似度是网页排序的一个首要依据；另外网页的重要程度也是以关键元素，一个网页的重要程度关乎了网页内容的质量，在满足用户需求的基础之上，用户更加希望获得高质量的内容，这是无可厚非的。

根据上述因素，搜索引擎对查询到的结果进行排序，然后展示给用户。

5、推荐系统其实从不严格的角度来说，整个网页排序的过程就属于一种推荐策略。

从严格意义上来说，推荐系统并不属于一个搜索引擎架构的必要环节，而且推荐系统在上述示意图中并没有显示。

但是一个优秀的搜索引擎不止要能分析出用户查询的基本需求，进一步来讲，要能了解到或者猜测用户的可能的下一步需求。

目前随着大数据的热潮，各大互联网公司和众多专家认为推荐系统是解决互联网大数据的一种有效途径。

而且，最近越来越多个性化推荐知识受到了热捧。

其实推荐系统在搜索引擎中往往是以中间页的形式展示的，它的主要作用就是为推荐系统进行导流。

参考资料来源：搜狗百科——搜索引擎

有谁可以给我解释下搜索引擎的概念，比如说百度的

其实不论百度.谷歌.还是搜狗及搜搜，他们都可以称作是搜索引擎，搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

其实他们算法略有不同外，工作原理大致都是相同的，简单的说都是抓取网页、处理网页、最后提供检索服务.用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

什么叫搜索引擎？搜索引擎的类型有哪些？

搜索引擎搜索引擎的概念搜索引擎是指以一定的策略搜集互联网上的信息，在对信息进行组织和处理后，为用户提供检索服务的系统。

从使用者的角度看，搜索引擎提供一个包含搜索框的页面，在搜索框输入词语，通过浏览器提交给搜索引擎后，搜索引擎就会返回跟用户输入的内容相关的信息列表。

互联网发展早期，以雅虎为代表的网站分类目录查询非常流行。

网站分类目录由人工整理维护，精选互联网上的优秀网站，并简要描述，分类放置到不同目录下。

用户查询时，通过一层层的点击来查找自己想找的网站。

也有人把这种基于目录的检索服务网站成为搜索引擎，但从严格意义上，它并不是搜索引擎。

搜索引擎的工作原理可以分为三个部分 1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序（spider）。

Spider顺着网页中的超链接，连续地抓取网页。

由于互联网中超链接的应用很普遍，理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。

2、处理网页搜索引擎抓到网页后，还要做大量的预处理工作，才能提供检索服务。

其中，最重要的就是提取关键词，建立索引文件。

其他还包括去除重复网页、分析超链接、计算网页的重要度。

3、提供检索服务用户输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页；为了用户便于判断，除了网页标题和URL外，还会提供一段来自网页的摘要以及其他信息。

搜索引擎的发展历史 1990年，加拿大麦吉尔大学（University of McGill）计算机学院的师生开发出Archie。

当时，万维网（World Wide Web）还没有出现，人们通过FTP来共享交流资源。

Archie能定期搜集并分析FTP服务器上的文件名信息，提供查找分别在各个FTP主机中的文件。

用户必须输入精确的文件名进行搜索，Archie告诉用户哪个FTP服务器能下载该文件。

虽然Archie搜集的信息资源不是网页（HTML文件），但和搜索引擎的基本工作方式是一样的：自动搜集信息资源、建立索引、提供检索服务。

所以，Archie被公认为现代搜索引擎的鼻祖。

Robot（机器人）一词对编程者有特殊的意义。

Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。

由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去，因此，搜索引擎的Robot程序被称为spider程序。

1993年Matthew Gray开发了 World Wide Web Wanderer，这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人（Robot）”程序。

开始，它仅仅用来统计互联网上的服务器数量，后来也能够捕获网址（URL）。

1994年4月，斯坦福大学（Stanford University）的两名博士生，美籍华人Jerry Yang（杨致远）和David Filo共同创办了Yahoo。

随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。

因为Yahoo!的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。

雅虎于2002年12月23日收购inktomi，2003年7月14日收购包括Fast和Altavista在内的Overture，2003年11月，Yahoo全资收购3721公司。

1994年初，华盛顿大学（University of Washington ）的学生Brian Pinkerton开始了他的小项目WebCrawler。

1994年4月20日，WebCrawler正式亮相时仅包含来自6000个服务器的内容。

WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎，在它之前，用户只能通过URL和摘要搜索，摘要一般来自人工评论或程序自动取正文的前100个字。

1994年7月，卡内基·梅隆大学（Carnegie Mellon University）的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中，创建了Lycos。

除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要，而最大的优势还是它远胜过其它搜索引擎的数据量。

19

展开全文