分词技术提升虚拟参考咨询系统智能服务

分词技术  时间:2021-02-20  阅读:()
胡朝明浙江理工大学图书馆杭州310018〔摘要〕深入分析联合虚拟参考咨询系统(CVRS)分布式两级架构模式和咨询问题的处理流程,提出表单问题智能解答、自动应答机器人、知识库自动查重、实时咨询问题自动转表单咨询问题、从知识库批量提取FAQ问题和知识库自动分类等6项CVRS智能优化解决方案,并设计出以中文分词技术为核心,实现知识库全文检索和自动分类、实时交流记录和知识库内容文本摘要的技术路线.
〔关键词〕CVRS虚拟参考咨询中文分词智能服务〔分类号〕G252.
61ImprovingIntelligentServiceofCVRSBasedonWordSegmentationHuChaomingLibraryofZhejiangSciTechUniversity,Hangzhou310018〔Abstract〕ThispaperpresentsadeepanalysisofCVRS'sdistributedtwolayerarchitecturemodelandtheprocessofcounselingproblems;putsforwardsixintelligentoptimizationsolutionsofCVRSincludingintelligentanswertoformquestion,answeringrobot,automaticduplicatechecktoknowledgedatabase;transferringrealtimequestionstoformquestionsautomatically,batchextractingFAQquestionsfromknowledgedatabaseandautomaticclassificationofknowledgedatabase;designsthetechnicalrouteoffulltextsearchandautomaticclassificationforknowledgedatabaseandtextsummaryforrealtimetextcommunicationrecord&knowledgedatabasebasedonChinesewordsegmentation.
〔Keywords〕CVRSvirtualreferenceserviceChinesewordsegmentationintelligentservice本文系浙江省图书馆学会项目"利用分词技术提高虚拟参考咨询服务效能的研究"(项目编号:Ztx2010A-3)研究成果之一.
收稿日期:2011-12-27修回日期:2012-03-09本文起止页码:110-113本文责任编辑:高丹虚拟参考咨询不受时间和空间的限制,为读者提供咨询、文献查找、资源利用等服务,随时随地帮助读者有效利用图书馆,逐渐成为图书馆最重要的服务内容和最主要的服务方式之一,各馆通过国外引进、国内合作开发、自主开发等方式构建图书馆虚拟参考咨询平台.
国外参考咨询系统以QuestionPoint最具有代表性,成为全球图书馆合作数字参考咨询服务的典范[1],但由于QuestionPoint在中国存在语言障碍、沟通困难、中文资源少、费用昂贵、使用率偏低等问题,未得到广泛应用[2].
国内参考咨询系统尚在探索阶段,没有较多的使用经验,相比之下,CALIS联合虚拟参考咨询系统(CVRS)影响力较大,CVRS是在充分研究QuestionPoint系统的基础上开发而成的.
分词技术现主要应用于搜索引擎、全文检索、自动答疑、智能输入等领域,并正拓展研究其新的应用领域,如自动文摘、文本索引和检索、语音合成、自然语言接口、自动翻译等,但国内外尚未见将分词技术应用于图书虚拟参考咨询服务系统的相关文献报道.
本文借助CVRS平台使用体会和技术资料,分析CVRS智能服务的需求,探讨以分词技术为核心的多种文本处理技术在CVRS中的应用,寻求CVRS智能化服务解决方案.
1CVRS架构模式剖析CALIS联合虚拟参考咨询系统(CVRS)是CALIS二期建设的子项目之一,于2003年初立项,上海交通大学图书馆抽调技术骨干成立项目实施组,并邀请北京大学、清华大学、西安交通大学、复旦大学的资深参考咨询馆员联合组成项目管理组,共同制定建设方案,委托中国科学院华建电子有限责任公司开发[3].
CVRS系统建设的目标是在支撑单馆参考咨询服务的基础上,构建一个多馆参加的、具有实际服务能力的面向全国高校的分布式联合虚拟参考咨询服务体系(DCVRS).
011>>第56卷第9期2012年5月在架构设计上,与QuestionPoint的集中式一级架构模式不同,CVRS创新性地采用了分布式两级架构模式[4],分为CVRS本地系统和CVRS中心系统,如图1所示:图1CVRS分布式两级架构模式CVRS本地咨询系统由本地知识库、本地咨询台、调度系统和档案库组成,可独立为本馆提供同步或异步咨询服务;CVRS中心咨询系统由中心知识库、中心咨询台、调度系统、档案库和学习中心组成,可通过知识库共享、问题转发和读者转移方式实现联合咨询.
分布式两层架构设计主要有两大优点:①由于中国网络发展不平衡,各区域、各单位带宽参差不齐,采用分布式架构模式,可以避免局部网络拥塞对系统整体服务性能的影响;②采用一个中心系统和若干参建馆级本地系统的两级架构模式,各参建馆本地系统可独立运行,通过本单位局域网提供虚拟参考咨询服务,也可通过互联网与中心系统的调度机制一起运作,与其他图书馆一起提供联合虚拟参考咨询服务.
在功能设计上,中心系统与本地系统均设有咨询台,可提供异步的非实时表单咨询和同步的实时在线咨询两种模式,同步的实时咨询方式包括文本交谈、页面推送、同步浏览、桌面共享、白板交互、音频传送等.
借助CVRS强大的调度机制,可以对问题进行转发,比如A馆的咨询问题在本馆未能解答,可通过调度系统转发至B馆继续咨询,同样,A馆的咨询员也可解答来自B馆的咨询问题;还可以对读者进行转移,比如A馆的读者可由调度系统在线转移至B馆的咨询员,A馆的咨询员也可在线接受由B馆转移来的读者,真正实现联合咨询.
在CALIS三期建设中,将对二期CVRS系统进行升级,引入云服务理念,以CALIS天津中心(TALIS)、湖北省高校数字图书馆作为牵头单位,尝试开展地区(学科)联合咨询服务,并面向全国用户服务,同时运用最新技术探索常规咨询问题智能回答的解决方法[5].
2CVRS咨询问题处理流程分析CVRS中心系统和本地系统对咨询问题的处理流程基本一致,这里以CVRS本地系统为例,分析咨询问题的处理流程,以期发现CVRS在智能服务方面存在的不足.
CVRS咨询问题处理流程如图2所示:图2CVRS咨询问题处理流程图2描述了咨询问题由读者提出后,咨询馆员对问题的解答、征答、转发和保存等流程,图中的虚线框表示在当前CVRS系统中暂未实现的功能模块.
本地咨询台提供实时咨询(文字交流、页面推送、白板交互、同步浏览)和非实时咨询(表单咨询)两种方式,咨询馆员通过表单留言或文字在线交流人工回答咨询问题(智能回答功能暂未开发).
咨询馆员接到读者问题以后,有三种处理方式:①如果问题在本馆顺利解答,则对本地知识库查重后将其存入供读者检索,常见问题经人工提练后(自动提炼功能暂未开发)放入FAQ问题区;②如果问题在本馆无法解答,本地调度系统将问题转发到CVRS中心系统,中心调度系统根据档案库中咨询馆员的学科背景和忙碌状态等信息,将问题转发到合作咨询馆寻求解答;③如果本馆和合作馆都不能解答该问题,则问题被放入征答区面向读者征求答案,同时存入问题库.
在当前的CVRS系统中,咨询馆员的咨询任务相当繁重,对读者问题处理的人工干预很多,随之带来较大的工作量.
读者问题能否及时而且准确地得以解答,很大程度上取决于咨询馆员的学科背景、知识面宽窄、服务态度和工作效率.
读者提出问题后,一般都希望尽快得以解决,如果能根据读者问题自动全面检索知识库,充分利用知识库资源引导读者自助解决部分问题,则咨询馆员的重复工作量要减小许多,可把主要精力放在一些复杂问题上,以提高咨询服务的效率和质量.
要实现以上目的,要求CVRS具有一定的智能服务能力.
111分词技术需对源文本进行分词处理,对目标文本进行单字索引或词索引4实时问题转表单问题自动提取文本交流记录5从知识库提取FAQ问题基于学科或主题自动提取知识库中同类常见问题文本摘要分词技术以句子或词为基本抽取单位6知识库分类浏览知识库按主题或学科自动分类文本分类分词技术需对文本进行分词预处理6个问题流程涉及4项优化措施和4项文本处理技术:①表单问题智能解答、文本实时交流智能回答和知识库查重三个流程均涉及知识库自动检索,依赖于知识库全文检索技术实现优化;②实时问题转表单问题,通过自动提取文本交流记录实现自动转换;从知识库提取FAQ问题,通过自动提取相同学科或主题的问题形成摘要内容放入FAQ库,这两项流程依赖于文本自动摘要技术;③知识库分类浏览的前提是对知识库问题进行分类处理,比如按主题或学科进行分类,依赖于文本分类处理技术;④全文检索、文本摘要和文本分类三项文本处理技术,均以文本分词处理为基础,分词技术是实现这三项文本处理技术的核心.
3.
2智能优化关键技术3.
2.
1知识库全文检索全文检索技术实现方式主要有三种[6]:①基于全文数据库MSSQL、MYSQL、ORACLE实现静态或半动态全文检索,这是目前最普通最简单的方式,利用数据库工具建立索引,但只能在预定时间段统一更新索引,当数据库记录经常性增删时不能及时更新,全文检索的动态性受限制.
②基于单汉字全文检索[7],数据库中记录关键字及出现该关键字的所有文档,当用户使用关键词检索时,在索引库中逐字匹配索引记录找到相应文档.
单汉字检索是Google和百度搜索引擎全文检索的技术之一,不需要复杂的分词算法,只需要将待检索字串按字拆分后逐一匹配检索,但维护庞大单字索引库和建立快速检索机制比较困难.
③利用Lucene开源软件提供的全文检索工具包和分词模块,基于特定应用建立全文检索系统,容易实现且功能强大,但应用需要基于Lucene建立或者将Lucene嵌入CVRS.
知识库数据量大,每条记录的内容量大,从应用成熟度和便于部署角度考虑,建议选择基于全文数据库方式实施知识库全文检索.
3.
2.
2提取文本交流记录和知识库内容的文本摘要文本摘要是文本处理的另一项重要技术[8],是指从文章中抽取关键信息,以简洁的形式对文本内容进行摘要和描述.
文本摘要可分为普适摘要和查询相关的摘要,文本交流记录的摘要是提取读者关注问题的相关内容,每条知识库内容包含一个或多个主题或学科关键词,因此,CVRS系统中所需要的摘要形式为查询相关的摘要,抽取读者关注的某方面内容.
文本摘要大多以句子为基本单位进行抽取,有时对重要句子进行分词后抽取.
3.
2.
3知识库按主题或学科进行文本分类文本分类由训练过程和测试过程组成[9],训练过程的目的是利用训练文本集获得分类规则,从而构造分类器并使其用于分类;测试过程的目的是根据分类规则构造出的分类器对未知文本进行分类并得到分类结果.
在CVRS中,需要先利用知识库中的若干问题和答案进行211>>第56卷第9期2012年5月训练,以构造合适的分类器,然后才能进行分类测试,参与训练的问题越多越典型,越能构造出好的分类器,在测试过程中也就能获得更准确的分类结果.
训练过程和测试过程都有一个文本预处理步骤,即分词处理.
3.
2.
4分词技术主要包括英文分词和中文分词.
英文字串以词为单位,词与词之间有空格,以空格作为分界符就能把词分拆出来;而中文字串以字为单位,字与字之间没有空格,字与字的组合灵活多变,中文分词比英文分词要困难得多,因此这里主要讨论中文分词处理技术.
现有中文分词技术主要有4类:词典分词法、统计分词法、词典和统计混合分词法、语义分词法.
词典分词法可以精确切分出词典中存在的词,但不能处理歧义字段和未登录词.
统计分词法可以处理未登录词和歧义问题,但需要大量词频计算时间,准确率不如词典分词.
词典和统计相结合的分词方法,可充分发挥词典和统计的优势,在分词速度和精度之间寻求平衡.
语义分词法引入人工智能模型,模仿大脑对语言的理解构建神经元和神经网络,尚在进一步研究中.
从上面几种分词法的比较可以看出,词典和统计相结合的分词方法分词结果较准确,且可处理未登录词和歧义词问题,实现方式上灵活多变,推荐在CVRS系统中使用.
3.
3词典设计分词技术是全文检索、文本摘要和文本分类的基础,CVRS智能优化的关键问题集中于能否很好地解决CVRS系统中文分词的问题,分词处理的对象主要有问题库、知识库、FAQ库的问题和答案、读者咨询问题,分词处理的主要目的是提供检索和知识提取,分词技术的重点是解决好词典设计和未登录词问题.
传统的词典设计方案基于纯文本形式构建词表,在分词过程中经常采用逆向最大匹配算法,从最长的词开始匹配,长词的使用频率低但匹配次数多,降低了分词效率.
还有,读者所提问题经常涉及学科、专业、人名中的生僻词,会造成未登录词较多,如果一有生僻词就加入词典,会严重增加词典的负担.
为能更好地解决这两方面的问题,笔者设计了三级词典,如图3所示:图3分词词典设计结构一级词典是基于语料库创建的通用词典,主要用于查询和分词.
比较实用的语料库现有4种:中国科学院ICTCLAS汉语分词系统中的语料库[10]、搜狗输入法语料库、人民日报1998年中文标注语料库和北京大学中国语言学研究中心的语料库[11].
二级词典是基于主题词表的主题词库,主要功能不是查询和分词,而是用于存放分词时可能出现的未登录词,统计词频并向一级词典输送新词.
三级词典是基于读者咨询问题特点或相关学科添加的姓名、物质名称等专有词汇,主要用于处理未登录词.
一、二、三级词典的设计框架分担了一级词典的压力,并能较好地解决未登录词问题.
4结语CVRS智能优化的核心技术是中文分词,在此基础上应用全文检索、文本摘要和文本分类等文本处理技术,实现知识库全文检索、问题和答案的文本自动提取和知识库的自动分类,可提高CVRS的问题管理能力、智能搜索能力、自动应答能力和读者服务能力,增强咨询馆员、读者和咨询平台的人机交互和体验,大幅度提高CVRS的服务质量和服务效率.
参考文献:[1]QuestionPoint官方网站[EB/OL].
[2011-12-20].
http://www.
questionpoint.
org/.
[2]顾红,白洁,陈涛.
QuestionPoint在中国使用与发展现状的实证分析[J].
图书馆学研究,2010(24):81-84.
[3]CALIS虚拟参考咨询系统项目及其近期进展[EB/OL].
[2011-12-20].
http://project.
calis.
edu.
cn/calisnew/images1/neikan/5/1-3.
htm.
[4]金毅,黄敏,林皓明,等.
CALIS分布式联合虚拟参考咨询系统的开发[J].
大学图书馆学报,2005(3):30-33.
[5]CALIS三期第一次虚拟参考咨询系统培训会议[EB/OL].
[2011-12-20].
http://www.
calis.
edu.
cn/educhina/viewnews.
donewsid=54.
[6]于波.
中文全文检索技术研究[D].
武汉:华中师范大学,2003.
[7]刘雪芹,吴红霞,张立华.
单汉字全文检索研究[J].
情报杂志,2007,26(1):51-53.
[8]胡侠,林晔,王灿,等.
自动文本摘要技术综述[J].
情报杂志,2010,29(8):144-147.
[9]唐剑波.
Web文本挖掘中的文本分类研究[D].
长沙:湖南大学,2007.
[10]ICTCLAS官方网站[EB/OL].
[2011-12-20].
http://ictclas.
org/.
[11]北京大学中国语言学研究中心[EB/OL].
[2011-12-20].
http://ccl.
pku.
edu.
cn/YuLiao_Contents.
Asp.
〔作者简介〕胡朝明,男,1974年生,副研究馆员,发表论文7篇.
311

iWebFusion:独立服务器月付57美元起/5个机房可选,10Gbps服务器月付149美元起

iWebFusion(iWFHosting)在部落分享过很多次了,这是成立于2001年的老牌国外主机商H4Y旗下站点,提供的产品包括虚拟主机、VPS和独立服务器租用等等,其中VPS主机基于KVM架构,数据中心可选美国洛杉矶、北卡、本德、蒙蒂塞洛等。商家独立服务器可选5个不同机房,最低每月57美元起,而大流量10Gbps带宽服务器也仅149美元起。首先我们分享几款常规服务器配置信息,以下机器可选择5...

pacificrack:超级秒杀,VPS低至$7.2/年,美国洛杉矶VPS,1Gbps带宽

pacificrack又追加了3款特价便宜vps搞促销,而且是直接7折优惠(一次性),低至年付7.2美元。这是本月第3波便宜vps了。熟悉pacificrack的知道机房是QN的洛杉矶,接入1Gbps带宽,KVM虚拟,纯SSD RAID10,自带一个IPv4。官方网站:https://pacificrack.com支持PayPal、支付宝等方式付款7折秒杀优惠码:R3UWUYF01T内存CPUSS...

硅云香港CN2+BGP云主机仅188元/年起(香港云服务器专区)

硅云怎么样?硅云是一家专业的云服务商,硅云的主营产品包括域名和服务器,其中香港云服务器、香港云虚拟主机是非常受欢迎的产品。硅云香港可用区接入了中国电信CN2 GIA、中国联通直连、中国移动直连、HGC、NTT、COGENT、PCCW在内的数十家优质的全球顶级运营商,是为数不多的多线香港云服务商之一。目前,硅云香港云服务器,CN2+BGP线路,1核1G香港云主机仅188元/年起,域名无需备案,支持个...

分词技术为你推荐
阿里云系统安卓系统和阿里云系统比较?那个很好?优点缺点?比较一下,最近想买,不知道选哪个系统的。在线漏洞检测网站检测工具,谁有?中国电信互联星空电信不明不白收了我200元互联星空信息费 求解数码资源网安卓有没有可以离线刷题的软件?苹果5怎么越狱苹果5怎么越狱?怎么点亮qq空间图标QQ空间图标怎么点亮?如何快速收录如何掌握百度收录之快速收录怎么上传音乐怎么上传音乐?微信怎么看聊天记录微信在手机上怎么查看聊天记录freebsd安装FreeBSD下如何安装ports的方法
济南域名注册 域名查询工具 美国主机推荐 pw域名 12306抢票攻略 密码泄露 论坛空间 免费cdn 宏讯 中国电信网络测速 阿里云免费邮箱 服务器论坛 114dns 测速电信 成都主机托管 云销售系统 小夜博客 zcloud 镇江高防服务器 美国主机侦探 更多