lucenelucene,solr有什么区别

lucene  时间:2021-08-16  阅读:()

lucene nutch solr及hadoop的区别和联系

apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。

nutch和solr原来都是lucene下的子项目。

但后来nutch独立成为独立项目。

nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下。

nutch主要完成抓取,提取内容等工作。

solr则是基于lucene的搜索界面。

提供XML/HTTP 和 JSON/Python/Ruby API,提供搜索入口,点击高亮,缓存,备份和管理界面。

hadoop原来是nutch下的分布式任务子项目,现在也成为apache下的顶级项目。

nutch可以利用hadoop进行分布式多任务抓取和分析存储工作。

所以,lucene,nutch,solr,hadoop一起工作,是能完成一个中型的搜索引擎工作的。

Lucene的使用

Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架构的研究。

他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。

Lucene的发展历程:早先发布在作者自己的,后来发布在e,2001年年底成为APACHE基金会jakarta的一个子项目:/lucene/ 已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有: Jive:WEB论坛系统; Eyebrows:邮件列表HTML归档/浏览/查询系统,本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一,而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。

Cocoon:基于XML的web发布框架,全文检索部分使用了Lucene Eclipse:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene 对于中文用户来说,最关心的问题是其是否支持中文的全文检索。

但通过后面对于Lucene的结构的介绍,你会了解到由于Lucene良好架构设计,对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。

全文检索的实现机制 Lucene的API接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。

总体上看:可以先把Lucene当成一个支持全文索引的数据库系统。

比较一下Lucene和数据库:

lucene 怎么实现去词根词缀

Lucene下引入ICTCLAS进行中文分词的实现方法 /cy163/archive/2008/06/07/1215499.html 如何DIY一个Analyzer 咱们写一个Analyzer,要求有一下功能 (1) 可以处理中文和英文,对于中文实现的是单字切分,对于英文实现的是以空格切分. (2) 对于英文部分要进行小写化. (3) 具有过滤功能,可以人工设定Words列表.如果不是人工设定,系统会给出默认的Words列表. (4) 使用P-stemming算法对于英文部分进行词缀处理.

lucene,solr有什么区别

Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎. Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。

同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。

它对外提供类似于Web-service的API接口。

用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Solr Get操作提出查找请求,并得到XML格式的返回结果; Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。

Lucene本质上是搜索库,不是独立的应用程序,而Solr是。

Lucene专注于搜索底层的建设,而Solr专注于企业应用。

Lucene不负责支撑搜索服务所必须的管理,而Solr负责。

所以说,一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展

A400互联(49元/月)洛杉矶CN2 GIA+BGP、1Gbps带宽,全场独服永久5折优惠

a400互联是一家成立于2020年商家,主营美国机房的产品,包括BGP线路、CN2 GIA线路的云服务器、独立服务器、高防服务器,接入线路优质,延迟低,稳定性高,额外也还有香港云服务器业务。当前,全场服务器5折,香港VPS7折,洛杉矶VPS5折,限时促销!A400互联官网:https://a400.net/优惠活动全场独服永久5折优惠(续费同价):0722香港VPS七折优惠:0711洛杉矶VPS五...

Webhosting24:€15/年-AMD Ryzen/512MB/10GB/2TB/纽约&日本&新加坡等机房

Webhosting24是一家始于2001年的意大利商家,提供的产品包括虚拟主机、VPS、独立服务器等,可选数机房包括美国洛杉矶、迈阿密、纽约、德国慕尼黑、日本、新加坡、澳大利亚悉尼等。商家VPS主机采用AMD Ryzen 9 5950X CPU,NVMe磁盘,基于KVM架构,德国机房不限制流量,网站采用欧元计费,最低年付15欧元起。这里以美国机房为例,分享几款套餐配置信息。CPU:1core内存...

一键去除宝塔面板各种计算题与延时等待

现在宝塔面板真的是越来越过分了,删除文件、删除数据库、删除站点等操作都需要做计算题!我今天升级到7.7版本,发现删除数据库竟然还加了几秒的延时等待,也无法跳过!宝塔的老板该不会是小学数学老师吧,那么喜欢让我们做计算题!因此我写了个js用于去除各种计算题以及延时等待,同时还去除了软件列表页面的bt企业版广告。只需要执行以下命令即可一键完成!复制以下命令在SSH界面执行:Layout_file="/w...

lucene为你推荐
apple以旧换新苹果手机可以以旧换新吗visio使用教程如何使用visio2013如何绘制UML图rs485协议RS232/RS485串行通信协议的解释软件群发有谁用过微信能群发的软件吗?在哪买的?程序员段子20、老婆给当程序员的老公打电话:“下班顺路买一斤包子带回来,如果看到卖西瓜的,买一个。”当晚,程序眼镜片品牌什么牌子近视镜片好?snoopy官网SNOOPY护肤品究竟是国内生产的吗?在哪生产的?tplink端口映射TP-link 怎样设置内网端口映射无线呼叫系统我需要一些无线呼叫器用在餐厅里,在网上看了一下全国各地的呼叫器,不知道哪一家的比较实惠好用,众说纷纭,搞不清楚,该怎么选择呢?动态图片在线制作怎么可以做动态图片?
网站空间购买 双线虚拟主机 in域名注册 3322动态域名注册 163网 unsplash 火车票抢票攻略 12u机柜尺寸 华为网络硬盘 gg广告 小米数据库 七夕促销 美国网站服务器 空间技术网 免费phpmysql空间 卡巴斯基破解版 国外ip加速器 万网空间购买 web服务器是什么 免费asp空间 更多