文档盘古搜索引擎

盘古搜索引擎  时间:2021-03-01  阅读:()
1内部网搜索引擎GONIA-OFFICE的设计与实现高毓航丁伟(东南大学计算机系,210096南京)【摘要】本文介绍了一个面向内部网的专用搜索引擎—GONIA-OFFICE系统的设计与实现,该系统利用已有的UNIX平台上的搜索引擎内核GONIA,实现对NT局域网文件服务器上的资源定位.
本系统可以处理NT文件服务器上的OFFICE系列文档与HTML等文件资源,从WEB向用户提供信息查询服务,同时与控台操作一起提供灵活方便的系统管理.
【关键词】内部网、信息定位,搜索引擎,NT,OFFICE11.
引言由于Intranet文件服务器上的文档的存放位置完全由人为方式确定,随着时间的迁移,由于忘记路径而无法找到以前存放的文件是经常发生的事,能否把已有的搜索引擎技术应用在这样的环境下呢本文以NT服务器和OFFICE系列文档处理为背景,利用华东北地区网络中心已有的搜索引擎内核GONIA,进行了这方面的研究和开发工作.
搜索引擎技术是在Internet上从海量的页面资源中建立用户与其感兴趣的页面之间的最有效的连接的一种信息发现方法.
同其他信息查询工具一样,搜索引擎把内容纷繁复杂,形式各异的海量信息内容按照一定的形式组织起来,通过在数据集查找与用户需求属性相关的元素,为用户方便快捷地查找各种有用信息提供了一种很有效的途径用户通过输入某主题的关键词就可以得到按照与查询关键词的相关程度(RSV)的大小进行排序的页面地址条目,并以一种标准格式在用户本地的浏览器上显示出来.
目前在Internet上的搜索引擎大多是以类似"蜘蛛"(ROBOT)的搜索器自动运行搜集网页.
与Internet中的搜索引擎不同,局域网文件服务器上的信息资源是以目录树的结构进行组织,其类型复杂多样,而且活动性各异.
因此在面向Intranet的引擎数据搜集处理端需要更灵活复杂的数据发现、收集处理及代理管理功能.
GONIA是一个由CERNET华东(北)地区网络中心开发的有关通用搜索引擎,它通过计算文档之间相关度(RSV)值的分布式搜索引擎内核.
它采用了低语意依赖强度的中文特征(features)产生方式和索引建立方式,支持自然语言查询和用户反馈功能.
用层次化的方法实现数据信息源的特征屏蔽,提供一个标准化的数据收集处理接口.
本文所提出的GONIA-OFFICE系统则利用了GONIA的索引功能,并对局域网络文件服务器上的信息资源进行研究分析,从而实现对各种文件资源的定位.
2.
系统设计考虑到系统内核GONIA与文档资源分别位于UNIX平台与NT平台上,而INTRANET上的文件系统服务器同时还承担许多重要服务运行特点,因此设计系统分成不同模块,运行在不同的平台上,模块之间采用网络协议进行通信,这样即可以增加系统的灵活性,还可以保证1作者简介:高毓航,硕士研究生,主要研究方向为网络信息发现.
(HTTP)或控台操作结果返回(TCP)搜集代理管理UNIX查询请求管理员NT文件服务器用户搜索引擎内核管理所需文档文件资源请求用户(HTTP)(HTTP)或IPX2系统运行不影响到文件服务器的其他服务.
如图1所示,搜集代理及相关管理模块运行在NT上;GONIA内核与用户查询代理部分则运行在UNIX平台上,通过WEB的CGI程序向用户提供查询请求接收与结果返回功能,二者之间通过TCP/IP协议相互通信.
用户可以直接点击返回结果中的资源地址链接,或通过文件共享的方式按相应地址进一步查看所需信息资源.
系统管理员可通过WEB浏览器或直接从控台上分别管理搜索引擎内核与搜集代理.
图1系统设计思路再仔细地研究系统工作过程与总体结构,可以从下图看出系统的总体组织结构.
图2系统总体总体组织结构搜集代理进行文档搜集时,从"发现与搜集文档"这一步开始,先从待搜索目录的存储池中取一条起点目录,根据一定算法从到原始文档堆中发现从该目录开始的所有符合待搜索要求的文档,并把对应的存储地址提交给"文档格式过滤"操作单元.
"过滤文档格式"操作单元根据得到的文档存储路径,从原始文档堆读取含格式信息的原始文档,调用相应的格式过滤器,得到只含有内容信息的纯文本临时文件,送交给"文本数据处理与封装"单元,来进一步分析处理,例如分析文档所采用的语言、删除中文字符之间的多余分隔白字符等,和对应文档相关信息一起封装成符合GONIA文档搜集接口规范的数据结构与数据报文,放入数据发送缓冲区.
最后按照约定的发送流程与识别方式将报文送到GONIA.
搜集代理本身支持灵活复杂的运行管理与配置管理.
由于应用环境的差异,本系统的用户查询服务模块除了与一般搜索引擎相类似的查询关键词的提交与结果返回的功能,还设计提供了多种查询精度选择与按资源类型进行结果范围界定,例如使用户能选择采用准确方式来查找有关"信息发现"的所有POWERPOINT文档.
3.
实现方案对上面的系统设计进行具体的实现分析,其重点在格式过滤与代理管理两个部分.
格式过滤部分的主要功能模块的实现主要根据系统的运行环境特点来决定;而代理管理的实现主要考虑其配置的灵活性和易管理性.
格式过滤的对象为NT文件服务器上的复杂多样的文件资源,因此文档格式过滤器需要文档堆配置管理文档格式过滤器GONIA文档搜集接口(TCP/IP)文档搜集CGI程序(HTTP)结果收集与显示处理查询接收与数据分析处理查询管理切词、INDEX、入库文档属性堆用户搜集端(NT)查询代理(WWW)搜索引擎内核GONIA(UNIX)GONIA规范格式数据包各种格式文档配置管理管理员管理员文本数据处理与封装运行管理(WWW)发送3能完全滤去多种含复杂格式的文档的格式信息,并且保有简单方便的扩充接口,以便将来能轻易地增加系统信息资源的涵盖面到NT平台上的其他类型文档.
因此在设计格式过滤器时采用了集中性与分散性相结合的模块组织结构,如图3所示.
分散性体现在各类不同类型的文档都单独提供元格式过滤器,而且元格式过滤器都是以插件的形式存在;集中性体现在模块对接收到各种不同类型的文档先统一判断类型,而且通过统一的API接口来调用各对应元格式过滤器完成格式过滤功能,各元过滤器处理后得到的数据采用统一中间格式送交下面的文本数据处理与封装模块进行进一步的处理.
当系统将来要扩充到对NT其他格式的文档进行定位时,所需的系统维护工作仅限于编写新的元格式过滤器和在类型判断与分配单元中增加对新文档类型的指向,因此系统维护工作量很小.
图3文档格式过滤器结构框图搜集代理的管理是用来对搜集代理的运行方式与系统参数进行灵活的管理.
由于系统代理模块的平台分布性,常常需要能动态配置通信通信参数.
而且文件服务器上的各不同目录的活动性也是不同的,有的可能完全用来存档,还有的每天都在更新,因此各自的更新周期大不一样,需要搜集的目录结构与其资源类型也千差万别.
所以需要一套灵活、方便的动态管理与配置功能来保证搜集代理的运转.
NT平台上的搜集代理配置管理提供了对搜集代理正常运转所用的各参数的管理功能.
从运行形式上,分为两方面实现:一部分提供在WEB上从远端管理配置信息的功能;另一部分则是在本地的应用程序系统中提供方便、有效的各种参数配置管理.
这两部分的核心功能是一致的,即提供合理、全面的对待搜索目录、免搜索目录和基本确省参数的有关信息管理.
搜索目录和免搜索目录管理一起界定了从起始目录开始的文档的搜集范围及一些用于自动定时搜索的参数,如目录的更新频率与最近更新时间等.
4.
关键技术在Internet上,所需的信息大多源于用HTML编写的相互链接的网页,其语法公开、较简单.
但是,在Intranet文件服务器上的情况就不一样了.
在主要以NT为平台的文件服务器上以目录树的结构存放的存档文档类型多为OFFICE套件系列,其格式复杂、不公开,因此本系统在数据搜集时文件发现算法采用了广度优先算法,格式过滤器主要用Automation技术实现.
Automation的前身是OLE(动态对象链接与嵌入),支持在用C++或VisualBasic或是用其他描述语言写的应用程序之间进行通信.
现在是包括MicrosoftWord,MicrosoftAccess和Excel在内的大多数Microsoft应用程序的编程标准.
这里,就通过OFFICE的判断文档格式类型,分配转换器将来其他格式过滤器WORD过滤器送交文本数据处理与封装模块.
doc,rtf.
htm,.
html.
.
xls.
txtHTML过滤器EXCEL过滤器PPT过滤器.
.
ppt4Automation接口来直接调用各应用程序自带的转换功能.
使用Automation技术比单纯地人工分析出各类型的各不同版本的文档存储格式要更方便快捷,易于实现,减少大量的工作量.
5.
结论本系统采用的开发环境为Windows系统下的VC++、VB和Unix下的gcc,目前运行在华东北地区网络中心内部管理网Intranet上,提供信息查询服务,有三种查询方式供选择:"精确方式"、"准确方式"和"模糊方式",支持用户反馈与多种类型范围界定,如WORD、EXCEL、HTML、POWERPOINT等.
一般提交查询请求1-2秒后,即可得到满意结果.
搜集代理支持即时搜索与定时自动搜索方式,可从应用程序控台或WEB管理.
系统管理界面与查询服务界面分别见下图所示.
图4系统界面本系统的进一步完善重点是实现增量索引和即时搜索功能.
增量索引是指当收集代理进行自动定时搜索时,只把在上次搜索以后被修改过的文档送交内核进行索引分析.
即时搜索则是即时地发现与收集文档信息资源,并使内核立即把相应的文档分析、入库.
今后的工作除了进一步完善本系统外,主要扩展方向是提供面向WINDOWS9X系统的更具个性特色的个人桌面搜索引擎.
由于个人搜索引擎与局域网中的搜索引擎在运行环境与面向的资源是相类似的,因此可以将缩小局域网中的搜索引擎规模,并按各种不同用户的需求增加更个性化的个人管理与查询功能,把搜索引擎技术应用于个人的信息资料定位管理.
【参考文献】[1]PeterSchauble.
"MultimediaInformationRetrieval,Content-BasedInformationRetrievalfromLargeTextandAudioDatabase".
KluwerAcademicPublishers,1997.
管理员界面用户界面5[2]MicrosoftCorperation,《VisualBasic6.
0中文版程序员指南》,北京希望电脑公司出品,1998.
[3]MicrosoftCorperation,《VisualBasic6.
0中文版语言参考手册》,北京希望电脑公司出品,1998.
[4]DavidJ.
Kruglinski,ScotWingo,GeorgeShepherd,《ProgrammingVisualC++6.
0技术内幕(第五版)》[美],北京希望电子出版社,1999.
4.
[5]贾耀炜、杨华中编著,《HTML语言与主页设计》,人民出版社出版发行,1998.
[6]蔡奇玉,连振汉,张志强著,《CGI编程指南》,机械工业出版社,1997.
DesignationandRealizationofanIntranetSearchEngineGONIA-OFFICEGaoYuhang,DingWei(SoutheastUniversity,ComputerScienceDept.
,210096Nanjing,P.
R.
China)【Abstract】Inthispaper,anIntranetsearchenginenamedGONIA-OFFICEisintroduced,whichfocusesonresourcesfromNTfilesystemserverwiththebaseofanexistingsearchenginecorecalledGONIA.
Atpresent,thesystemcandealwithOFFICEdocumentsandHTMLpagesetc.
FromWEB,bothnormalsearchservicesforusersandeasyconfigurationmanagementofgatheragentareprovided.
This,togetherwithflexiblemanagementonconsole,catersthesystemforpracticaluse.
【Keywords】Intranet,informationlocating,searchengine,NT,OFFICE

HostKvm四月优惠:VPS主机全场八折,香港/美国洛杉矶机房$5.2/月起

HostKvm是一家成立于2013年的国外主机服务商,主要提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。本月商家针对全场VPS主机提供8折优惠码,优惠后美国洛杉矶VPS月付5.2美元起。下面列出几款不同机房VPS主机产品配置信息。套餐:美国US-Plan0CPU:1cores内存:1GB硬...

Megalayer新加坡服务器国际带宽线路测评

前几天有关注到Megalayer云服务器提供商有打算在月底的时候新增新加坡机房,这个是继美国、中国香港、菲律宾之外的第四个机房。也有工单询问到官方,新加坡机房有包括CN2国内优化线路和国际带宽,CN2优化线路应该是和菲律宾差不多的。如果我们追求速度和稳定性的中文业务,建议还是选择CN2优化带宽的香港服务器。这里有要到Megalayer新加坡服务器国际带宽的测试服务器,E3-1230配置20M国际带...

TmhHost 全场八折优惠且充值返10% 多款CN2线路

TmhHost 商家是一家成立于2019年的国人主机品牌。目前主营的是美国VPS以及美国、香港、韩国、菲律宾的独立服务器等,其中VPS业务涵盖香港CN2、香港NTT、美国CN2回程高防、美国CN2 GIA、日本软银、韩国cn2等,均为亚太中国直连优质线路,TmhHost提供全中文界面,支持支付宝付款。 TmhHost黑五优惠活动发布了,全场云服务器、独立服务器提供8折,另有充值返现、特价服务器促销...

盘古搜索引擎为你推荐
自助建站自助建站哪个平台最好?腾讯文章腾讯罗剑楠是何许人也?直播加速有没有软件使已经下载好了的视频播放加速,例如30分钟的视频15分钟或者20分钟播放完qq空间打扮QQ空间怎么打扮如何打扮bluestackbluestacks下载的东西在哪虚拟专用网虚拟专用网适用于什么行业如何快速收录谁知道怎么快速被搜索引擎快速收录啊?网站优化方案网站优化方法有哪些优锁N78怎么锁键盘怎么把网页的字变大如何将页面的字变大
短域名 购买域名和空间 中国万网域名 webhosting php探针 新站长网 申请空间 支持外链的相册 万网空间购买 彩虹云 空间登入 上海电信测速网站 智能dns解析 全能空间 攻击服务器 卡巴斯基官网下载 godaddyssl phpinfo 标准机柜 服务器机柜 更多