语音语音识别技术研究进展

语音技术  时间:2021-02-25  阅读:()

第24卷 第9期 甘肃科技 Vol 24 No 92008年5月 Gansu Science and Technology May 2008

语音识别技术研究进展

柳 春

(甘肃中医学院,甘肃兰州730000)

摘要:文章回顾了语音识别技术的发展历史,综述了语音识别系统的分类、结构及研究的基本方法,并探讨了今后语音识

别面临的问题及发展方向。

关键词:语音识别;技术

中图分类号:TP31 1 52

语音的产生是一个复杂的过程,包括心理和生 入:其显著特征是HMM模型和人工神经网络理等方面的一系列动作。当人需要通过语音表达某 (ANN)在语音识别中的成功应用。

语音识别是试图使机器能“听懂”人类语音的技 3.2国内研究历史及现状

术[3 ] 。语音识别的作用是将语音转换成等价的书面 我国在语音识别研究上也投入了很大的精力,信息,也就是让计算机听懂人说话。作为一门交叉 国内中科院的自动化所、声学所以及清华大学等科学科,语音识别又是以语音为研究对象,是语音信号 研机构和高校都在从事语音识别领域的研究和开处理的一个重要研究方向,是模式识别的一个分支, 发。国家863智能计算机专家组为语音识别技术研涉及到计算机、信号处理、生理学、语言学、神经心理 究专门立项,我国语音识别技术的研究水平已经基学、人工智能等诸多领域,甚至还涉及到人的体态语 本上与国外同步。

42 甘 肃 科 技 第24卷

音识别系统。通常包括几十个词的语音识别系统。 型,将之看作一个数学上的双重随机过程:一个是用

(2)中等词汇量的语音识别系统。通常包括几百个 具有有限状态数的Markov链来模拟语音信号统计词到上千个词的识别系统。 (3)大词汇量语音识别 特性变化的隐含的随机过程,另一个是与Markov系统。通常包括几千到几万个词的语音识别系统。 链的每一个状态相关联的观测序列的随机过程。前一般而言,随着词汇表中词汇量的增多,各词汇之间 者通过后者表现出来,但前者的具体参数是不可测的混淆性增加,系统的识别率也会降低[5 ] 。 的。人的言语过程实际上就是一个双重随机过程,

按照发音方式分,可以分为: (1)孤立词识别:孤 语音信号本身是一个可观测的时变序列,是由大脑立词识别是指在发待识别语音时,每次只含词汇表 根据语法知识和言语需要(不可观测的状态)发出中的一个词条。孤立词识别是语音中最简单也是最 的音素的参数流。可见HMM合理地模仿了这一过成熟的识别技术。 (2)连接词识别:连接词识别每次 程,很好地描述了语音信号的整体非平稳性和局部说词汇表中的若干个词条进行识别,该若干词条以 平稳性,是较为理想的一种语音模型。

慢速连读的方式连续说出。 (3)连续语音识别系统: 5. 3 矢量量化(VQ)

连续语音识别指说话人以日常自然的方式讲述并进 矢量量化是一种重要的信号压缩方法。与行识别。连续语音输入是自然流利的连续语音输 HMM相比,矢量量化主要适用于小词汇量、孤立词的入,大量连音和变音会出现。 语音识别中。其过程是:将语音信号波形的k个样

和计算失真的运算量,实

HMM是对语音信号的时间序列结构建立统计模 语音识别本质上是一种模式识别的过程,其基

第9期 柳 春:语音识别技术研究进展 43

本原理框图如图1 ,主要包括语音信号预处理、特征 块,其中后处理模块为可选模块。

提取、特征建模、相似性度量和后处理等几个功能模

在训练阶段,用户输入若干次训练语音,系统经 存在语言障碍。可以想见,多语种自由交流系统将预处理和特征提取后得到特征矢量参数,建立或修 带给我们全新的生活空间。

改训练语音的参考模式库。 6)语音情感识别:近年来随着人工智能的发展,

在识别阶段,将输入的语音的特征矢量参数和 情感智能跟计算机技术结合产生了情感计算[9 ]这一参考模式库中的模式进行相似性度量比较,将相似 研究课题,这将大大的促进计算机技术的发展。情度最高的模式所属的类别作为识别的中间候选结果 感自动识别是通向情感计算的第一步。语音作为人输出。 类最重要的交流媒介,携带着丰富的情感信息。如

后处理模块对候选识别结果继续处理,通过语 何从语音中自动识别说话者的情感状态近年来受到言模型、词法、句法、和语义信息的约束,得到最终的 各领域研究者的广泛关注。

识别结果。 参考文献:

] 北京:商务印书馆,

1)就算法模型方面而言,需要有进一步的突破。 [2] 张雄伟,陈亮,杨吉斌现代语音处理技术及应用目前使用的语言模型只是一种概率模型,还没有用 [M] 北京:机械工业出版社,2003

到以语言学为基础的文法模型,而要使计算机确实 [3]王士元,彭刚语言、语音与技术[M]上海:上海教育出理解人类的语言,就必须在这一点上取得进展。 版社,2006

2)就自适应方面而言,语音识别技术也有待进 [4]http://www ctiforum com CTI论坛语音识别技术及一步改进,做到不受特定人、口音或者方言的影响, 发展

识别关键技术研究何让语音识别技术也能达成这一点是一个艰巨的任 [8] 孙缨支持向量机及其在自然语言处理中的应用[J]务。 东莞理工学院学报,2007(14)

4)多语言混合识别以及无限词汇识别方面:将 [9] 林奕琳,韦岗,杨康才语音情感识别的研究进展[J]来的语音和声学模型可能会做到将多种语言混合纳 电路与系统学报,2007(12)

入,用户因此就可以不必在语种之间来回切换。此

酷锐云香港(19元/月) ,美国1核2G 19元/月,日本独立物理机,

酷锐云是一家2019年开业的国人主机商家,商家为企业运营,主要销售主VPS服务器,提供挂机宝和云服务器,机房有美国CERA、中国香港安畅和电信,CERA为CN2 GIA线路,提供单机10G+天机盾防御,提供美国原生IP,支持媒体流解锁,商家的套餐价格非常美丽,CERA机房月付20元起,香港安畅机房10M带宽月付25元,有需要的朋友可以入手试试。酷锐云自开业以来一直有着良好的产品稳定性及服务态度,支...

日本CN2、香港CTG(150元/月) E5 2650 16G内存 20M CN2带宽 1T硬盘

提速啦简单介绍下提速啦 是成立于2012年的IDC老兵 长期以来是很多入门级IDC用户的必选商家 便宜 稳定 廉价 是你创业分销的不二之选,目前市场上很多的商家都是从提速啦拿货然后去分销的。提速啦最新物理机活动 爆炸便宜的香港CN2物理服务器 和 日本CN2物理服务器香港CTG E5 2650 16G内存 20M CN2带宽 1T硬盘 150元/月日本CN2 E5 2650 16G内存 20M C...

ProfitServer$34.56/年,西班牙vps、荷兰vps、德国vps/不限制流量/支持自定义ISO

profitserver怎么样?profitserver是一家成立于2003的主机商家,是ITC控股的一个部门,主要经营的产品域名、SSL证书、虚拟主机、VPS和独立服务器,机房有俄罗斯、新加坡、荷兰、美国、保加利亚,VPS采用的是KVM虚拟架构,硬盘采用纯SSD,而且最大的优势是不限制流量,大公司运营,机器比较稳定,数据中心众多。此次ProfitServer正在对德国VPS(法兰克福)、西班牙v...

语音技术为你推荐
外网和内网外网和内网的区别中国电信互联星空互联星空是什么?是电信公司的吗?bluestacksBlueStacks是什么?在PC上畅玩Android 45万款应用照片转手绘有没有一种软件是可以把一张照片变成手绘的图片,给推荐下怎么升级ios6iPad怎么升级到iOS6正式版?网管工具做技术网管需要哪些工具?具体做些什么?rewritebase为什么我写.htaccess这个 rewriterule 进入死循环了,高手帮忙修改php购物车php session实现购物车的原理微信怎么看聊天记录怎样才能调取微信聊天记录防钓鱼游戏中的防钓鱼检查是什么?
花生壳动态域名 美国独立服务器 rak机房 unsplash 主机屋免费空间 ev证书 警告本网站美国保护 天互数据 百兆独享 web服务器的架设 linux使用教程 个人免费主页 美国独立日 360云服务 什么是web服务器 全能空间 浙江服务器 注册阿里云邮箱 免备案cdn加速 网络速度 更多