计算机系统应用http://www.c-s-a.org.cn
robots文件 时间:2021-04-17 阅读:(
)
2013年第22卷第4期186研究开发ResearchandDevelopment语音信息的身份和指令识别方法应用①姬晓飞(沈阳航空航天大学自动化学院,沈阳110136)摘要:针对智能机器人系统对语音交互功能的实际需求,在DM-B200开放式机器人平台上,设计并实现了基于语音信息的说话人身份识别功能和语音指令识别功能.
为了准确识别特定说话人的身份,采用了矢量量化的识别方法,而为了提高机器人语音控制的实时性,语音指令识别采用了动态时间规整的方法.
应用结果表明,所设计的语音识别系统达到96%以上的综合识别率,具有实际应用价值.
关键词:语音指令识别;矢量量化算法;说话人身份识别;动态时间规整ApplicationofVoice-BasedSpeakerIdentificationSystemandCommandRecognitionAlgorithmJIXiao-Fei(SchoolofAutomation,ShenyangAerospaceUniversity,Shenyang110136,China)Abstract:Forsatisfyingthevoice-basedcommunicationrequirementsofintelligentrobotics,basedontheDM-B200robot,thespeakeridentificationsystemandcommandrecognitionsystemaredesigned.
Inordertoimprovethecorrectrecognitionrateofspeakeridentification,thevectorquantizationmethodisused.
Andthedynamictimewarpingalgorithmisusedtospeedthecommandrecognitionprocess.
Theapplicationresultsshowedthedesignedsystemsobtainedmorethan96%correctrecognitionrateandareeasytobeextendedtotherealproduction.
Keywords:voicecommandrecognition;vectorquantizationalgorithm;speakeridentification;dynamictimewarping随着智能机器人的广泛研究,与机器人进行语音交流,让机器人明白人类所说的语言,既是人类长期以来梦寐以求的事情,也是未来机器人更好的服务人类的根本需求.
与此同时,语音识别技术也得到了迅猛发展,支持语音识别的各种产品纷纷面世.
这也为智能机器人的语音交流功能提供了支持.
虽然具有语音交互能力的机器人的应用范围非常广泛,但基本功能主要包括对说话人的身份识别功能和特定说话人的语音指令识别功能.
下面就这两种基本功能的发展现状做一个简单回顾.
语音识别的研究始于五十年代,1952年贝尔实验室的Davis、Biddulph和Balashek建立了一个与说话人相关的孤立英文数字语音识别系统.
该系统能够在说话人和麦克风距离保持不变的情况下达到98%的准①基金项目:国家自然科学基金青年基金(61103123)收稿时间:2012-09-14;收到修改稿时间:2012-10-28确率[1,2].
1959年,美国Lincoln实验室的Rorgie和Forgie首次应用数字计算机来识别以元音和摩擦音开头的孤立字,从此计算机语音识别时代开始[2].
近年来较为常用的、综合效果较好的语音特征形式主要有线性预测倒谱系数(LinearPredictionCepstrumCoffient:LPCC),感知线性预测系数(PreceptualLinearPredictiveCepstrumCoffient),Mel频率倒谱系数(MelFrequencyCepstrumCoefficient:MFCC)等.
在语音识别方法研究方面,于60年代进入初期阶段,提出了动态规划(DynamicProgramming:DP)和线性预测分析(LinearPredictive:LP)技术.
到七十年代末八十年代初LP技术和动态规整技术(DynamicTimeWarping:DTW)基本成熟,后来矢量量化(VectorQuantization:VQ),隐马尔可夫模型(HiddenMarkovModel:HMM),2013年第22卷第4期http://www.
c-s-a.
org.
cn计算机系统应用ResearchandDevelopment研究开发187等理论不断被提出并投入应用、加以改进,使说话人识别技术得到进一步的发展、完善[3-5].
人工神经网络(ArtificalNeuralNetwork:ANN)近年来也被广泛的研究和应用[4].
语音识别用于智能机器人方面已经得到了一定的研究进展,文献[6]利用语音指令实现了机器人的远程控制,文献[7]结合语音和人脸信息实现了陪伴机器人的身份认证.
本文将依托DM-B200研究型全自主移动机器人平台,设计并实现说话人的身份识别功能,以及针对特定人的指令识别功能.
在这两种基本功能基础上,将该移动机器人平台开发成为用于看护孤独老人的服务机器人.
1语音识别系统的软硬件环境1.
1语音识别系统实现的硬件环境硬件环境主要分为声音采集模块和执行机构两大部分.
所依托的机器人平台如图1所示.
图1DM-B200研究型全自动移动机器人平台声音采集模块包括一个精度较高麦克风和一台电脑,用于进行语音信号的采集,形成WAV格式声音文件直接应用于所开发的说话人身份识别系统以及指令识别系统中.
执行机构指DM-B200研究型全自动移动机器人,使用DCT0020为其控制驱动器,配合光电编码器反馈的高精度直流伺服电机.
系统与计算机通讯口采用USB转RS232.
1.
2语音识别系统实现的软件环境(1)应用CyberLinkWaveEditor进行语音的录入,建立训练人模板库.
系统需要录入指定机主语音30次以形成指定说话人模板.
(2)应用Matlab程序进行身份识别系统的程序编译、测试.
(3)应用C++进行机器人运动的编辑及身份识别系统的接入.
2说话人身份识别系统设计说话人身份识别系统的设计流程如图2所示.
根据流程图,语音信息从获取到识别出结果,主要经过语音预处理,语音特征提取和识别三个过程.
图2说话人身份识别系统设计流程图2.
1语音信息的预处理预处理过程包括预加重、分帧加窗、端点检测几个部分.
预加重的作用是提升语音的高频部分,使语音信号的频谱变得平坦,以便于进行频谱分析或声道参数分析系统通过测试选定预加重系数为0.
9375.
语音信号为非平稳时变信号,但可以看作短时平稳,故要将语音信号分为较短的时间间隔的语音帧.
分帧处理会截断频谱和使频谱叠加,故需要对语音帧进行加窗处理,为有效减少旁瓣,通过实验选择加哈明窗.
采用的端点检测方法为双门限法,即同时检测语音的短时过零率和短时能量,以截去语音段的无用语音段(噪声或无声段),增加系统计算速度.
用一帧信号中波形穿越零电平的次数来描述这种变化的剧烈程度,称否是语音数据预处理特征提取参考模型模式匹配判断策略是否为机器人的主人执行相应的操作机器人无动作计算机系统应用http://www.
c-s-a.
org.
cn2013年第22卷第4期188研究开发ResearchandDevelopment为过零率.
短时平均过零率可描述信号的时变频谱.
语音信号的短时能量反映了语音信号幅度随时间的变化,短时能量的主要意义在于,可以用来区分浊音段与清音段,声母与韵母,无声与有声.
2.
2语音特征提取语音特征提取选用Mel倒谱系数及其一阶差分系数复合函数.
Mel倒谱系数是说话人识别中最常用的语音特征参量之一,Mel倒谱系数较好的模拟了人耳的听觉系统,具有识别性能高和抗噪能力强等特点.
其提出是基于以下的事实:人耳对单个音调的感知强度近似的正比于该音调频率的对数.
Mel频率正是表述了这种语音频率与"感知频率"间对应的关系.
在Mel频域内,人对音调的感知度为线性关系.
其中Mel倒谱系数较好的描述了语音的静态特性,而其一阶差分系数能够较好的的重现语音参数的动态特性.
通过对比不同阶数特征提取的效果可知,当所选MFCC参数阶数过小时,说话人之间因方言、语调以及声道构成的差异所带来的差别过于明显,噪声所造成的干扰也十分严重,使系统的准确性变差.
而当阶数过高时,MFCC参数过于复杂,这大大增加了系统的计算量,过大的计算量几乎不能提升系统的准确性,却造成了系统的实时性变低,所以选定的MFCC阶数为20阶.
系统在这一阶数时较为稳定、准确、实时性较高.
2.
3基于VQ的语音识别方法矢量量化(VQ)方法是70年代后期发展起来的一种数据压缩和编码技术,其理论基础是信息论中的率-畸变理论.
对于一定的量化速率R(以量化信号和原信号之间的误差均方值和原信号均方值之比来衡量)是一定的.
矢量量化与标量量化相比,其畸变值能够更加接近于率-畸变理论所给出的畸变下限值,即矢量量化能够在R一定的情况下给出更小畸变,或者在相同畸变下给出更高的量化效率(即R值更低).
矢量量化的研究目的在于针对特定的信息源和矢量维数,找到一种最有效的矢量量化器,使其能够在R一定的情况下给出最低畸变.
VQ算法在限定说话者使用较小词汇时,效果相当好,应用VQ算法进行处理既能达到识别率要求,也能减少计算量.
其中最佳码本设计方法选用LBG算法,其基本思想是每次叠代时都使用最小距离准则对训练样本进行重新分类,使每次叠代后的总的量化失真减小.
相对于VQ方法,动态时间规整(DTW)由于其的时间相关性只能分辨指令,在分辨说话人身份上效果很不好.
而一个基于隐马尔可夫模型(HMM)的语音识别系统在说话者使用较小词汇时,几乎没有带来性能的提高却增加了计算的复杂度,因而使计算时间增长[4,5].
因此本文将对说话人身份识别功能使用VQ方法进行识别.
3语音指令识别系统设计根据语音指令识别的特点,所设计识别系统结构图如图3所示,主要包括声音采集、指令识别和执行机构三个部分以及一个参考特征库.
图3语音指令识别系统设计流程图声音采集模块负责接收外界的声音,这一部分功能与身份识别功能共用相同的硬件设备.
同时也需要与身份识别类似的语音预处理过程.
指令识别模块负责提取声音的有效区段、提取特征并通过一定的算法将特征与参考特征库进行比较,得到识别结果后将其发送给执行机构.
所采用的语音特征是线性预测倒谱系数(LPCC).
采用的识别方法为动态时间规整(DTW)[5].
执行机构从指令识别模块接收识别结果,将识别结果转换为硬件可以识别的控制流,完成相应动作.
具体设备及设置将在第4节给出.
4实验验证在鸥鹏科技的DM-B200研究型全自主移动机器人平台上,将设计的说话人身份识别和语音指令识别系统进行技术移植.
利用PC机的运算速度和MATLAB软件平台强大的语音处理函数,将声音采集、预处理等环节直接使用PC机实现,语音识别程序则通过Matlab中的MCC命令将m文件以动态链接库(DLL)文件的方式进行编译.
之后机器人平台则通过参考特征指令识别声音采集执行机构2013年第22卷第4期http://www.
c-s-a.
org.
cn计算机系统应用ResearchandDevelopment研究开发189VC++引用生成的头文件完成对识别功能的调用.
之间的通讯可以直接调用机器人平台配套的动态链接库实现(DCTMotionCtrl.
dll).
机器人平台上设计的操作界面如图5所示.
图5语音识别系统的操作界面通讯功能通过调用DCT*相关函数完成通讯口(COM)设定、与下位机的通断、下位机驱动器的准备检测和结束检测以及主程序的退出功能.
语音识别部分则调用MAT*相关函数对麦克风或文件中提供的声音源进行识别分析判断,并将判断结果分别以文字和按钮的方式在下方显示.
按钮部分则将当前识别状态变成灰色无效,其余4个命令按钮有效,用于进行手动控制.
另外,Matlab中将m文件编译为DLL使用MCC命令,其方法如下:以功能函数getLpcc.
m为例:mcc-Wcpplib:libgetLpcc–TlibgetLpcc.
m–c该命令实现将getLpcc.
m文件以C++的lib形式生成动态链接库(DLL)文件,文件名为libgetLpcc.
dll.
在以上的测试平台上,在相同的背景噪声下,对30个说话人的5秒钟语音进行录制,预处理后形成说话人身份识别的训练数据库,之后进行了测试,测试结果如表1所示,正确识别率达到96.
7%.
表1实际测试说话人身份识别率结果说话人身份识别正确说话人身份识别错误说话人身份无法识别正确识别率290196.
7%同时针对设计的语音指令识别功能,录制了50个人的6种语音指令(停止,前进,后退,左转,右转,摇摆),形成训练数据库,之后也进行了测试,测试结果如表2所示,在模板库内的语音指令,正确识别率达96%,库外的语音指令,正确识别率为88%.
表2实际测试语音指令识别率结果语音指令识别正确语音指令识别错误语音指令无法识别正确识别率模板库内说话人480396%模板库外说话人442488%通过以上的实际应用结果可以看出,所设计方法可以得到较高的正确识别率,这也为该系统的实际应用和推广提供了依据.
5结论在DM-B200机器人上设计并实现了说话人身份识别功能和语音指令识别功能,实际的测试结果表明,所设计的两个语音识别系统都能够达到96%以上的正确识别率.
这两项功能的成功实现为下一步将该机器人改造为服务机器人提供了数据支持,同时也为不同语音识别方法提供了一个实际的测试平台.
参考文献1张震,王化清.
语音信号特征提取中Mel倒谱系数MFCC的改进算法.
计算机工程与应用,2008,44(22):55-54,58.
2刘玄和,宋庭新.
语音识别与控制应用技术.
北京:科学出版社,2008.
3王秀萍.
基于LBG和DTW的模板训练算法.
计算机工程与应用,2005,26:85-87.
4李继连.
动态时间弯折模式匹配技术(DTW)的算法改进研究.
科技信息,2006,10:83-84.
5KimC,SeoKD.
RobustDTW-basedRecognitionAlgorithmforHand-heldConsumerDevices.
IEEETransactionsonCosumerElectronics,2005,51(2):699-709.
6李书贞,施玉霞.
基于语音指令的远程控制机器人系统设计与实现.
微型电脑应用,2008,24(11):1-3.
7CaoJT,KubotaN.
Thevisual-audiointegratedrecognitionmethodforuserauthenticationsystemofpatternrobots.
InternationalJournalofHumanRobot,2011,8:691-698.
HostKvm也发布了开年促销方案,针对香港国际和美国洛杉矶两个机房的VPS主机提供7折优惠码,其他机房业务提供8折优惠码。商家成立于2013年,提供基于KVM架构的VPS主机,可选数据中心包括日本、新加坡、韩国、美国、中国香港等多个地区机房,均为国内直连或优化线路,延迟较低,适合建站或者远程办公等。下面列出几款主机配置信息。美国洛杉矶套餐:美国 US-Plan1CPU:1core内存:2GB硬盘...
Virtono最近推出了夏季促销活动,为月付、季付、半年付等提供9折优惠码,年付已直接5折,而且下单后在LET回复订单号还能获得双倍内存,不限制付款周期。这是一家成立于2014年的国外VPS主机商,提供VPS和服务器租用等产品,商家支持PayPal、信用卡、支付宝等国内外付款方式,可选数据中心包括罗马尼亚、美国洛杉矶、达拉斯、迈阿密、英国和德国等。下面列出几款VPS主机配置信息,请留意,下列配置中...
melbicom从2015年就开始运作了,在国内也是有一定的粉丝群,站长最早是从2017年开始介绍melbicom。上一次测评melbicom是在2018年,由于期间有不少人持续关注这个品牌,而且站长貌似也听说过路由什么的有变动的迹象。为此,今天重新对莫斯科数据中心的VPS进行一次简单测评,数据仅供参考。官方网站: https://melbicom.net比特币、信用卡、PayPal、支付宝、银联...
robots文件为你推荐
directorytophpweb破解wifi破解黑科技重庆400年老树穿楼生长重庆轻轨穿过居民楼在哪里,从解放碑怎么去支付宝账户是什么好评返现 要支付宝帐号 支付宝帐号是什么啊internetexplorer无法打开电脑的Internet Explorer打不开?闪拍网闪拍网是真的吗中国保健养猪网最具权威的养猪信息网站是哪个 啊欢迎光临本店宾馆欢迎语都有哪些? 越多越专业越好ie假死我的ie浏览器偶尔出现假死的情况 即打开浏览器时无法显示网页 点了关闭窗口也没反应,请问这是怎么回事啊joomla教程如何获得 Joomla,2.5中 itemid 的值
黑龙江域名注册 电信服务器租用 免费域名解析 华为云服务 hostmaster BWH 腾讯云数据库 日志分析软件 lighttpd 美国php空间 e蜗牛 ibox官网 anylink 日本bb瘦 息壤代理 昆明蜗牛家 33456 服务器监测 流媒体加速 shuang12 更多