安徽科大讯飞信息科技股份有限公司

安徽双线服务器租用  时间:2020-12-30  阅读:()

ANHUIUSTCiFLYTEKCo.
,LTD.
ViviVoice2.
0产品白皮书Version版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page2目录1.
介绍41.
1概述41.
2主要功能41.
3新增功能52.
ViviVoice语音合成技术72.
1概述72.
2特色72.
3应用83.
ViviVoice2.
0产品简介93.
1包含组件93.
2主要指标93.
3文档和相关资料104.
合成引擎功能特性114.
1开发接口114.
2工具114.
2.
1合成演示程序(ittsgui2)114.
2.
2资源管理中心(TTSResCntr)114.
2.
3CSSML文本编辑工具(CEditor)114.
2.
4技术支持工具(TtsDoctor)124.
2.
5软件锁检测程序(DongleMan)124.
3定制资源包124.
4合成参数设置124.
4.
1字符集转化134.
4.
2断句134.
4.
3数字串发音144.
4.
4英文字符串发音144.
4.
5音库管理144.
4.
6声音数据格式154.
4.
7语速调节设置164.
4.
8声音数据头设置164.
4.
9输出缓冲区设置174.
4.
10系统日志174.
5合成效果优化174.
5.
1分词174.
5.
2多音字处理174.
5.
3自定义词库18版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page34.
5.
4自定义外部规则184.
5.
5标点符号发音184.
5.
6数字串节奏手工定制185.
其他组件功能特性195.
1接口封装195.
2语音合成工具包(可选)196.
合成系统性能特性206.
1性能的度量206.
2影响性能的因素207.
公司介绍21版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page4ViviVoice2.
0产品白皮书1.
介绍1.
1概述ViviVoice2.
0语音合成软件是领先的专业语音技术提供商-科大讯飞公司专门针对日益丰富多样、个性化的语音应用需求而设计的.
ViviVoice2.
0是对ViviVoice1.
0产品的升级,同时集成了诸多新特性,ViviVoice2.
0产品将继续保持着语音合成核心技术的领先度,为用户创造更大的价值.

语音合成(TextToSpeech)技术能够将任意文字实时转换为连续的语音,是一种可以在任何时间、任何地点,向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量信息、动态更新和个性化查询的需求.

科大讯飞的中文语音合成技术代表着世界最高水平,在国内、国际权威机构的评测中,系统主要关键技术指标多次名列第一.
2002年,获中文语音研究领域最高荣誉"国家科技进步二等奖".
2005年11月,荣获"中国信息产业部重大技术发明奖".
同时公司也是全国唯一一家以语音技术为主要产业化方向的"国家863计划成果产业化基地"、"国家火炬计划重点高新技术企业"和"国家规划布局内重点软件企业".
2006至2007年,连续两届在全球英文合成大赛中夺冠.
本文档针对希望了解ViviVoice语音合成系统的详细功能和性能特性的客户,全面介绍了ViviVoice产品的各项指标.
1.
2主要功能ViviVoice2.
0语音合成系统采用最先进的中文文本、韵律分析算法和基于训练的参数合成方法,合成效果已经达到真人朗读的水平.
产品的主要功能特点包括:1.
多语种服务——创新的多语种统一语音合成服务架构,基于同一个引擎,集成中英粤三种语言,支持纯英文发音.
用户根据自身业务的要求可选择普通话、东北话、四川话、台湾话、湖南话、陕西话、河南话等丰富语言的地方语言,主流语种还可实现与英语的同音混读,充分满足多个性化语言语音信息服务需求.
2.
多音色服务——提供风格多样化的音色选择,如浑厚淳正的男声,成熟稳重、轻快活泼、或温柔甜美的女声,以及童声,中年男声、青年女声,老年男声等等,并秉承科大讯飞语音技术一贯的最高质量效果表现.
丰富的音库使客户能够结合业务特点,选择最适合业务需要的音色,并可在实版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page5际应用中,实时进行音库切换.
3.
高精度文本分析技术——ViviVoice语音合成软件应用高准确度智能文本分析与预处理技术,有效保障最终合成语音准确、清晰、流畅.
得益于科大讯飞在语言学研究和实践上的深厚积累,通过与中国社会科学院语言所等相关权威科研机构的紧密合作,以及基于宽广的应用实践平台所积累的海量专业知识库,经过不断训练和优化,即使在面对针对语言分析处理的难点,如多音字、特殊符号、韵律短语、未登录词(如地名、人名)等等,也能保障得到高度准确的自动处理结果.

4.
高表现力的合成引擎——支持疑问和感叹语气,支持高兴和悲伤情感;(目前仅燕萍库支持语气和情感),充分体现产品的个性化和娱乐功能的特点.
5.
多字符集支持——支持输入GB2312、GBK、Big5、Unicode和UTF-8等多种字符集,普通文本和带有CSSML标注等多种格式的文本信息;6.
多种数据输出格式——支持输出多种采用率的线性Wav,A/U率Wav和Vox等格式的语音数据;7.
灵活的接口——提供了预录音、背景音、COM、语音资源管理等接口,便于客户根据自身需要进行灵活选择;8.
强大的调节设置能力——在ViviVoice产品中提供了丰富完善的参数设置与调节功能和工具,帮助用户对语音合成效果进行灵活高效的控制与管理.
提供对全局参数(如音量、语速、音高等)、用户词典、用户规则、定制资源包统一进行配置和管理的工具;数字、标点符号、英文发音方式的设定;中英文加词功能,可以指定每个字词的拼音或音标等等;提供统一的简单易用图形化用户界面进行操作设定.
9.
完善的效果优化方案——提供以定制资源包(加载于合成引擎之上,有效提升既定应用领域语音效果的资源集合)和CSSML和虚拟不定长工具为代表的主流应用环境进行效果优化的高效解决方案,显著提升实际应用效果.
科大讯飞专业服务体系提供高效的定制与优化方案,提升客户体验,帮助客户获得语音自助服务的持续成功.
10.
合理的体系结构——ViviVoice采用基于TCP/IP的高效网络语音合成服务和集中式的资源管理机制,形成客户端-资源管理器-服务器有机结合的体系架构,构建可灵活伸缩的方案,科大讯飞这一业界领先的体系架构,其高可用性历经众多重点行业大规模关键业务的应用检验,确保提供值得信赖的7*24小时不间断自动化语音服务.
版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page611.
背景音和预录音——ViviVoice采用了科大讯飞业界首创的预录音统一管理功能和背景音功能,进一步提升用户体验.

预录音管理能允许客户将预先录制的语音作为语音合成系统的资源,并通过提示音智能匹配和合成模板等方式使预录音与合成音匹配更加容易、衔接更加流畅,同时避免频繁处理提示音播放与语音合成的切换与过渡问题,简化应用流程的复杂程度,进一步提高服务效果与质量.
背景音功能,通过系统提供的简单易用工具,可以便捷高效的添加背景音乐,调整背景音乐和合成语音的音量对比,并可直接试听实际效果,使语音服务更加亲切自然.

1.
3新增功能ViviVoice2.
0相比于之前的ViviVoice1.
0产品有多方面的改进和提升:1.
多语种——目前ViviVoice系列语音合成系统已经能够支持中文普通话、粤语和英文、湖南话、陕西话、河南话等众多语种,并在纯中文、中英文混读方面达到了很好的效果;对英文前端进行效果改进,加入tobi预测,显著提高目前英文的合成效果.
2.
多音色——ViviVoice2.
0系统可以提供小莉、小云、小蓉、小妍、小芹、小峰、老孙、小佳、楠楠、Terry、小梅、天畅等十五个不同发音人录制的音库,每种音库分别提供8K和16K这两种不同采样率的音库安装包.
3.
开发接口改进——加入背景音预录音开发接口,使得用户通过调用开发接口就能对背景音和预录音进行管理.

4.
支持分布式架构——ViviVoice2.
0系统首次支持分布式架构,有效的减小了合成过程中的数据交互量,更加符合互联网语音应用业务的需要.
5.
资源动态加载/卸载——ViviVoice2.
0系统首次增加了资源动态加载/卸载功能,系统固定时间扫描资源的改动,并进行动态的加载/卸载.
6.
开发接口改进——在ViviVoice2.
0系统中淘汰掉了过时的、之前产品提供的SAPI4接口和简单开发接口,新增了方便易用的QuickTTS接口.
7.
CSSML标记扩充——在ViviVoice2.
0系统的CSSML标记中,扩充了Audio、Enviroment、Phoneme和voice四个标记,充分体现你了产品个性化娱乐功能的特点.
8.
桌面应用级别的系统尺寸——在不影响合成效果的基础上,ViviVoice版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page72.
0系统尺寸做了裁剪,降低了资源占用,进一步降低特殊需求及桌面应用门槛.

版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page82.
ViviVoice语音合成技术2.
1概述ViviVoice语音合成系统以先进的可训练的参数合成技术为基础,能提供可比拟真人发音的高自然度、高流畅性、面向任意文本篇章的连续合成语音合成系统.
ViviVoice语音合成系统致力于为个性化语音服务提供可信赖的动力引擎,可覆盖垂直行业、工商企业和个人桌面等全面应用需求,是新概念声讯服务、语音网站、客户联络中心等语音服务业务的内在动力.
ViviVoice语音合成技术的原理示意如下:语音合成系统在完成文本到语音的转化过程包括两个最主要步骤.
文字内容先经过前端的语法分析,通过科大讯飞公司精心制作的词典和规则的处理,得到格式规范,携带语法层次的信息,传送到后端.
后端在前端分析结果的基础上,利用特定发音人的声学模型对经过预处理的文本的声学参数进行预测,得到语音的时长、音高、频谱等声学参数,再通过语音合成器生成最终的语音数据.
为实现高质量的语音合成效果,上述各个模块的设计和具体实现均需精益求精,涵盖众多技术知识和工程实现.
在整个转化处理的过程中牵涉到大量与语言相关的语法和韵律知识的运用,以及语法和语义分析的算法,并和与语音相关的声音特征提取、参数训练合成算法,语音数据编码等技术密不可分.
所以说语音合成技术涵盖了语言文字的社会科学、数字信号处理等自然科学,是跨学科的高新技术.

2.
2特色为更加有效的将持续领先的核心技术转化为效果、功能、性能、应用等各方面全面超越用户要求版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page9的高品质产品,科大讯飞通过产学研相结合模式,保证研发积累和产品品质的同步提高.
公司同国内语音研究领域具有领先水平的中科学声学所、中国科技大学、清华大学、社科院语言所分别合作建立了联合实验室,将一些前瞻性的研究放在联合实验室完成,通过强强联合、优势互补,保证了核心技术的不断进步和领先优势.
科大讯飞公司通过自主地研究和开发,在中文语音合成技术的多个领域都有独创性的技术成果.
独创的语料信息统计模型;完全自动的特征提取算法;听感量化思想指导下,以变长韵律模板为基础的高精度韵律模型;高鲁棒性的智能化文本分析处理技术;利用智能并可训练的建模方法提取发音人声音特征并训练生成其声学模型;特定语种知识和系统建模方法分离的多语种语音合成系统框架;面向特定领域应用的定制语音合成技术;……2.
3应用语音合成技术能够自动将任意文字信息实时转换为连续的语音,是一种能够在任何时间、任何地点向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求.
典型的一些应用包括:移动IVR、新概念声讯业务等语音增值业务电信、金融、能源、企业、政府等各行业客户服务中心的自动语音服务个人电脑端人机智能语音交互软件ViviVoice的应用有利于改变原有的语音信息制作方式,即替代传统的简单拼接、人工录音或人工坐席,在规模语音应用系统中,多路并发的实时语音合成服务,不仅将显著提高信息更新的时效性,同时提供的语音信息内容与范围将得以大大拓展.
ViviVoice语音合成系统高质量的语音效果、灵活的应用方式、经过实际应用验证的稳定性,已经使众多的客户成功地应用自助语音服务来取代传统的人工服务,在应用效果得以保障的前提下,提供了更高自动化程度,更低的成本、更高品质的服务.

版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page103.
ViviVoice2.
0产品简介基于持续领先的核心技术,通过坚持不懈的严谨研发,科大讯飞在语音合成技术产品化方面也取得了丰硕的成果,科大讯飞语音合成产品一贯以自然的效果、高效的性能、稳定的服务为业界所广泛赞誉.
作为新一代个性化语音服务动力引擎的ViviVoice产品,自诞生之初即秉承科大讯飞语音技术的优良品质和强大功能.
3.
1包含组件ViviVoice2.
0语音合成系统从功能上可以分成如下的组件:语音合成引擎:提供语音合成功能的核心功能,包括了合成需要的各种资源文件、配置、标准开发接口和应用程序如:资源管理中心和合成效果演示程序等;接口封装:包括预录音、背景音开发接口,TTSCOM接口,SAPI接口、SEM、SRM等便于集成开发开发的接口封装,及其开发文档和示例程序;每个模块都包含了多个接口和工具,也包括了指导开发使用的文档和示例程序源码.

多个组件在发布时分解组合在多个安装程序中进行安装:语音合成运行库安装包:包含了语音合成引擎的大部分文件和配置,还包括了语音合成服务器程序和接口封装组件;合成音库安装包:多种采样率,多个发音人音库的独立安装包;语音合成工具安装包:包括了语音合成工具包中的多个工具.
3.
2主要指标配置要求:服务器标准配置硬件:至强3.
0GHz*2、2GRAM、36GSCSI硬盘100MEthernet操作系统:WindowsServer2003、ViviVoice2.
0客户端最低配置硬件:Pentium42.
4GHz、512MRAM、100MEthernet操作系统:WindowsXP/Vista分布式客户端标准配置版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page11P43.
0GCPU,1G内存,80G硬盘,100MEthernet网卡操作系统:Windows2000/2003/XP/Vista技术指标:项目指标支持操作系统MicrosoftWindowsNT/2000/XP/2003支持语种普通话、东北话、四川话、湖南话、河南话、陕西话、粤语、台湾普通话以及英语等支持文本类别普通文本、CSSML标记文本支持文本控制标记CSSML(中文语音合成标记语言)采样率16K,8K,声音数据格式16bit/8bitPCM,aLaw/uLaw,ADPCM支持语音数据输出格式声音文件格式MicrosoftPCM/aLaw/uLawWave,DialogicVox英文字符串处理按照英文习惯发音支持字符集GB2312,GBK,BIG5,UNICODE,GB18030,UTF-8识别汉字数量支持GBK字符集,共21003个汉字支持用户定义词库是支持速度调节是,范围是:0.
5倍~2倍支持音量调节是,范围是:0.
5倍~2倍支持音高调节是,范围是:0.
5倍~2倍语音数据缓冲区设置支持64K~2M字节断句参数设置支持回车符处理参数和最大断句长度参数标点符号发音设置支持标点符号发音方式的选择和具体发音的设置数字串发音设置支持数字串发音方式的选择发音停顿风格设置支持发音停顿风格的选择3.
3文档和相关资料语音合成系统的开发和使用可以参阅以下文档和资料:随产品提供的《ViviVoice2.
0用户使用手册》;随产品提供的《ViviVoice2.
0开发手册》;在线帮助文档《ViviVoice2.
0帮助中心》,位于软件安装目录的Help目录下;开发接口使用示例程序,位于安装目录的TTSSDK目录下.
版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page124.
合成引擎功能特性ViviVoice作为一套完整的语音合成系统,除了基本的语音合成功能外还包含很多功能特性,以下简要介绍该系统重要的功能特性:4.
1开发接口科大讯飞的语音合成引擎以Windows动态链接库的形式提供了"iFlyTTSSDK开发接口".
这是所有合成引擎最底层的开发接口,提供最全面的功能.
可以使用任何支持从动态链接库中得到和使用接口函数的语言(如VC,C++Builder,Delphi等)进行合成引擎的集成开发.
合成引擎提供了完善的接口说明文档和Sample程序,便于程序开发人员的查阅和参考.

iFlyTTSSDK开发接口有如下技术特点:满足实时性要求较高的应用需求接口功能全面、性能较高,支持多路合成以动态链接库的形式提供(iFlyTTS.
dll)本地调用和网络调用都封装为相同的接口标准,可以实现透明的访问接口函数和功能简介请参阅在线帮助文档《ViviVoice2.
0帮助中心》:4.
2工具4.
2.
1合成演示程序(ittsgui2)合成演示程序用于演示语音合成的效果,您可以输入一段文字,然后收听合成后的语音.
您可以通过调整常用合成参数的设置,测听合成参数对合成效果的影响.
通过调整合成参数,导出语音文件,用户可以体验合成系统的基本功能.
合成演示程序还可以用于验证系统安装是否正常.

4.
2.
2资源管理中心(TTSResCntr)资源管理中心程序是ViviVoice语音合成系统的管理中枢.
用户可以从资源管理中心查看语音合成系统的基本信息,设置系统参数,并进行资源定制.
资源管理中心内的设置会影响注册表和资源文件等全局资源,因此如果进行了修改,更新的内容在合成系统下次启动之后才能生效.

4.
2.
3CSSML文本编辑工具(CEditor)CSSML(中文语音合成标记语言,ChineseSpeechSynthesisMarkupLanguage)是科大讯飞公司牵头,根据中文语音合成的特点而制定的中文语音合成标记语言规范.
该版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page13规范得到了国家863计划、国家信标委和技术监督局的极大关注与支持,并已由信息产业部正式下文成立标准工作组,推进相关国家标准的制定.
CSSML考虑到中文语音合成应用的特殊性,通过对开放的SSML规范中的标记进行必要扩展,使之更好的用于中文语音交互的使用,并且保持对SSML的兼容注:SSML(SpeechSynthesisMarkLanguage)是W3C国际化标准化组织制定的语音合成文本标记语言的标准,SSML语言使用XML的形式定义了描述合成文本处理方式的多种标记,大致可以分成三类:定义语法层次的标记(如段落、句子、词组等)、定义语法特征的标记(如文本读法等)和定义韵律特征的标记(如语速、音高、音量等).
但SSML主要针对英文的标记制定,并不完全满足中文语音合成的应用需要.

目前CSSML可以对音标、轻重读、韵律层次、语气语调、背景音等多种特性进行灵活标注,并具有良好的扩展特性,有效提升了语音合成系统的实际应用能力.
CSSMLEditor是为CSSML文本标记语言专门定制的可视化文本编辑工具,利用它可以便捷地定制语音合成风格与输出效果,是进行语音效果优化的高效解决方案.
4.
2.
4技术支持工具(TtsDoctor)TTSDoctor是一个自动化技术支持工具,使用TTSDoctor可以查看已安装的TTS产品信息,查看用户系统信息,辅助判断出错原因,以获得高效率的技术支持.
4.
2.
5软件锁检测程序(DongleMan)ViviVoice语音合成系统使用软件锁提供使用授权.
当用户将软件锁安装到计算机上,并安装软件锁的驱动程序后,合成系统在自动认证成功后可正确运行.
加密锁检测程序能够帮助用户检测加密锁是否正确安装,并显示用户当前所使用的语音合成系统的产品名称、版本、授权数量和授权期限、可用资源包、软件锁类型等信息.

4.
3定制资源包在实际的语音应用中,合成文本有时属于某个特定领域(如银行领域),其内容和形式具有显著的特征.
针对这种特性,科大讯飞公司提出了领域定制的概念,领域定制是指在特定领域应用时使用适合的定制资源包来提高合成语音效果.
"定制资源包"是一组语音合成引擎在特定领域应用时使用的版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page14资源的集合,包含音库、词库、外部规则库、自定义符号库等等.
使用定制资源包有助于提升特定应用领域的语音合成效果.
定制资源包为可选组件.
4.
4合成参数设置4.
4.
1字符集转化字符集转化和断句是对输入合成系统的文本进行的第一步处理,合成系统把所有其他编码方式的文本转化为内部的工作内码,同时进行断句操作,这些结果将作为后续处理的前提条件.

ViviVoice2.
0语音合成系统内部使用GBK字符集作为工作字符集,能够处理GBK-95字符集中的全部具有普通话发音的汉字,共计21003个汉字和883个符号.
对于采用GB2312、BIG5、Unicode、UTF-8和GB18030字符集的文本,系统先进行字符集转化,变成内部可以识别的GBK编码文本,再进行语音合成.
合成系统能将其他字符集中的繁体汉字转化为相应的简体汉字,对于没有对应简体汉字的繁体字,系统将按照繁体处理.
缺省情况下,合成系统能够自动识别带有文件头签名(BOM)的UNICODE文本和UTF-8文本.

4.
4.
2断句在进行字符集转化之后,合成系统将进行断句操作.
断句是指将待合成文本切分成通常意义上的"句子",方便合成系统进行下一步的处理.
一般而言,合成系统在遇到以下的标点符号时将进行断句,如果没有遇到,在字符数量达到最大断句长度时强行切分(系统默认将尽量在空格和一些特殊符号处进行断句):半角字符:!
;全角字符:.
,;!
另外,CSSML标记文本的分句除了由上述符号决定外,还可以使用、标记来决定.
用户可以定制影响断句操作结果的两种参数:最大断句长度和对回车符的处理.

4.
4.
2.
1最大断句长度最大断句长度是指如果文本中没有特定的断句标点符号,合成系统会强行断句的最大字符数量.

系统缺省的最大断句长度是128,允许设置的范围是16-256.
用户可以通过两种方法来设置最大断句长度参数:1.
使用"资源管理中心"程序,在"合成参数"目录的"最大断句长度"项中输入需要的值.

2.
使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page154.
4.
2.
2回车处理对回车符的处理参数主要用于控制断句过程中对回车符的处理方式.
在实际应用过程中,不同合成文本中回车符的意义是不相同的:代表句子或段落结束的回车符应作为分句的标志;用户为对齐文本而强行加入的回车符应该被系统过滤.
合成系统可以自动判断文本中回车符的意义.

用户可以通过如下两种方法选择回车符的四种处理方式("自动"、"作为分句标志"、"删除回车符"、"转换成空格"):1使用"资源管理中心"程序,在"合成参数"目录的"回车符号的处理"项中输入需要的值.

2使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
4.
4.
3数字串发音在ViviVoice语音合成系统中,对数字字符串的处理在缺省情况下是靠系统自动判断.
合成系统将根据数字串前后的语流环境,例如之前的汉字或特殊符号、之后的汉字或符号及数字字符串本身的特性,决定数字字符串是按照一个数值来发音(如"一千二百三十四"),还是按照一串数字来发音(如"一二三四").
用户可以通过两种方式来控制文本中数字字符串的发音:1.
使用iFlyTTSSDK进行开发的过程中使用相关接口函数的参数指定来进行设置.
2.
在合成文本中,添加相关的CSSML或TCCM文本标记.
4.
4.
4英文字符串发音在ViviVoice语音合成系统中,通常情况下,如果系统判定当前语句为英文环境,所有的英文字母或单词都按照英文习惯发音;如果当前语句被判定为中文环境或中英文混读环境,所有的英文字母或单词都会按照中文习惯来合成,以达到中英文混读的效果.
用户可以通过加词来指定英文单词的发音.
合成系统自动判断英文字符串按字母发音或者按照单词发音,用户可以通过TCCM标记、CSSML标记或者TTSSDK指定英文的发音方式.
中文环境中,一些作为度量单位的英文字母组合会转化为汉字单位进行合成,如"kg"将读作"公斤".
4.
4.
5音库管理ViviVoice语音合成系统允许同时安装不同发音人、不同声音数据采样率的多种音库.
系统当前支持的音库列表如下:编号音库名称音色支持语种支持采样率缺省输出格式10002小妍青年女声普通话8k/16k16Bit线性PCM版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page1610003小梅青年女声粤语8k/16k16Bit线性PCM10004小峰青年男声普通话8k/16k16Bit线性PCM10006小芹青年女声普通话8k/16k16Bit线性PCM10007小莉青年女声台湾话普通话8k/16k16Bit线性PCM10008楠楠童年女声普通话8k/16k16Bit线性PCM10009小佳少年女声普通话8k/16k16Bit线性PCM10014小芸青年女声东北话8k/16k16Bit线性PCM10015小蓉青年女声四川话8k/16k16Bit线性PCM10016小坤青年男声河南话8k/16k16Bit线性PCM10017小强青年男声湖南话8k/16k16Bit线性PCM10018天畅青年女声普通话8k/16k16Bit线性PCM10019老孙老年男声普通话8k/16k16Bit线性PCM10020Terry青年女声纯英文8k/16k16Bit线性PCM10021小莹青年女声陕西话8k/16k16Bit线性PCM用户可以使用"ViviVoice资源管理中心"对当前安装的音库进行管理,支持添加音库、删除音库、加载/不加载音库、缺省音库选择等功能.
用户可以采用两种方式来选择合成使用的音库:1.
使用"ViviVoice资源管理中心"程序,在"音库管理"目录中,改变缺省的音库选项.

2.
使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
4.
4.
6声音数据格式ViviVoice语音合成系统支持的声音数据格式列表如下,注意只有安装了表中"需安装音库"列的音库,该项数据格式才能被支持:编号数据格式需安装音库18K8bit线性PCM8K音库216K8bit线性PCM16K音库38K16bit线性PCM8K音库版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page17416K16bit线性PCM16K音库511K8bit线性PCM11K音库611K16bit线性PCM11K音库76K8bit线性PCM6K音库86K16bit线性PCM6K音库916Kalaw16K音库1016Kulaw16K音库118Kalaw8K音库128Kulaw8K音库1311Kalaw11K音库1411Kulaw11K音库156Kalaw6K音库166Kulaw6K音库178K4bitG.
721ADPCM8K音库186K4bitG.
721ADPCM6K音库198K3bitG.
723ADPCM8K音库208K5bitG.
723ADPCM8K音库216KDialogicVox6K音库228KDialogicVox8K音库用户可以采用两种方式来选择合成输出的声音数据格式:1.
使用"ViviVoice资源管理中心"程序,在"合成参数"目录的"输出声音数据格式"项中输入需要的值.
2.
使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
4.
4.
7语速调节设置语速调节是指调整输出语音"说话"的快慢.
ViviVoice语音合成系统提供对缺省语速0.
5-2.
0倍的调节,对应的参数范围是-500-+500,参数值越小,语速越慢.
用户可以采用下列方式来调整合成语速:1.
使用"ViviVoice资源管理中心"程序,在"合成参数"目录的"合成语速"项中输入需要的值.

2.
使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
3.
使用CSSML规范中的prosody标记.
4.
4.
8声音数据头设置声音数据头是指合成系统在每次输出声音数据时,声音数据开始部分携带的格式描述信息,包括采样率、量化比特数、压缩方式等.
ViviVoice语音合成系统允许用户选择三种数据头格式:"44字节数据头"、"无数据头"、"标准数据版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page18头".
其中,"44字节数据头"是缺省的设置,表示所有格式的声音数据,都会添加一个长度为44字节的标准WindowsPCMWav数据头(请参考MicrosoftMSDNLibrary中相关的信息).
使用"标准数据头"设置,系统会判断输出的声音数据格式并添加不同的数据头:PCM格式的数据会添加长度为44字节的PCMWav数据头;alaw/ulaw格式的数据会添加长度为58字节的alaw/ulawWav数据头;其他格式的声音数据不带数据头.
用户可以采用两种方式来设置声音数据头格式:1.
使用"ViviVoice资源管理中心"程序,在"合成参数"目录的"输出声音数据头格式"项中输入需要的值.
2.
使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
4.
4.
9输出缓冲区设置ViviVoice语音合成系统允许用户在系统中设置用于保存声音数据的缓存区的大小,用户可以设置范围在64K~2M内的任意大小的缓冲区.
使用较大的缓冲区可以一次获得较多的声音数据.
因为每一个合成服务都会有独立的输出缓冲区,使用小的缓冲区将大大减少大容量应用中对内存资源的消耗.

用户可以采用两种方式来设置输出缓冲区大小:1.
使用"资源管理中心"程序,在缺省使用的资源包配置页的"输出缓冲区大小(K)"项中输入需要的值.
2.
使用iFlyTTSSDK进行开发的过程中,使用相关接口函数的参数指定来进行设置.
4.
4.
10系统日志ViviVoice增加了系统运行日志的功能,用于记录合成系统的运行情况以及作为诊断系统错误的依据.
日志采用文本文件输出的方式,允许设置输出路径、输出详细程度和日志文件大小等多项配置参数,有关日志的设置用户可以使用"资源管理中心"进行.
4.
5合成效果优化4.
5.
1分词分词是指合成系统根据内部的词库对合成句子进行地进一步切分,分词的结果直接影响到合成语音中字与字之间的停顿和连贯.
ViviVoice2.
0语音合成系统的词库中包含约42万条,允许客户添加自定义的词条.
用户可以通过两种方式影响系版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page19统分词的结果:1.
在资源管理中心程序的自定义词库中添加词组,词组的最大长度为4个汉字.

2.
使用CSSML的标记,可以将标记之间的文字声明为一个词.
4.
5.
2多音字处理汉字中的多音字在ViviVoice语音合成系统中主要是靠系统的自动判断,系统参考词库中汉字所在词组和前后的语境得到最合适的拼音.
用户可以通过如下两种方式来定制特定情况下的汉字拼音:1.
在自定义词库中添加词组,用户通过修改词组中汉字的拼音可以实现多音字的正确发音,词组的最大长度为4个汉字.
2.
使用CSSML标记的标记,可以指定文字的拼音读法.
例如,他姓曾.
4.
5.
3自定义词库在ViviVoice语音合成系统中,用户自定义词库的维护是通过"资源管理中心"程序实现的.
自定义词库中添加的词组信息会对分词产生影响,自定义的拼音也会影响汉字的发音.
自定义词库是定制包的组件之一,用户添加的词语只能在当前资源包被加载时产生效果.
目前支持的特性有:1.
添加中文、英文、粤语词语;2.
设置英文词语按字母读或按单词读,但是不支持添加中英文混合的词语;3.
定制词语的朗读节奏.
4.
5.
4自定义外部规则外部规则是对于一类比较复杂的合成习惯而进行的,他基于分词的结果,可以处理一些通过加词无法解决的问题.
例如电话号码、Email的朗读习惯等等.
从InterPhonicC&EVer1.
2开始,合成系统提供了外部规则的管理工具,这个工具集成在"资源管理中心"程序中.
外部规则也是从属于相应的资源包的.
详细的添加方法请参考资源管理中心帮助文档.

4.
5.
5标点符号发音缺省情况下,合成系统对一般的标点符号都不发音(除了符号"等).
在"资源管理中心"自定义资源包的符号资源表中,我们罗列了合成系统支持的所有符号.
不在符号表中的符号,合成系统在任何情况下都不发音.
用户可以通过"资源管理中心"设置来选择是否读出标点符号;在使用iFlyTTSSDK进行开发的过程中,也可以通过相关函数进行参数设置以控制标点符号朗读方式;还可以通过CSSML语言的标记,控制该标记范围内所有的符号是否发音.
版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page204.
5.
6数字串节奏手工定制ViviVoice中更加完善的解决数字串语音合成的相关问题,实现了数字处理规则手工定制功能,用户根据需要可以灵活的对数字串朗读方式、朗读节奏进行定义,进一步提高语音合成的准确度和效果表现.
如何定制数字规则请参见"资源管理中心"数字规则帮助主题.
版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page215.
其他组件功能特性5.
1接口封装在"iFlyTTSSDK开发接口"这个底层开发接口之上,为了便于应用的开发集成,科大讯飞公司还提供了多种接口的封装(Wrapper),如为了解决VB不能引用标准接口的结构(Structure)而提供的QuickTTS接口,为了支持VB、C#乃至网页Script等支持ActiveX控件形式开发而提供的TTSCOM接口,以及预录音、背景音接口等.
5.
2语音合成工具包(可选)科大讯飞公司在长期与客户进行集成开发和效果优化的过程中,总结了客户使用语音合成的方式和应用的特点,逐步开发了多个便于用户在特殊环境中使用语音合成功能的工具.
通过对这些工具的整合,对外正式提供语音合成工具包(ViviVoiceEnterpriseToolkit).
工具包中包含的组件及其说明列表如下:组件名称组件功能SynthArt手动离线语音合成工具,采用人工操作方式、非实时合成的方式实现单文本、文本文件以及批量文件到语音文件的合成SynthBat自动离线语音合成工具,自动搜索指定目录里(可包含子目录)的文本文件进行合成,并按指定的规则生成相应的语音文件,存放到指定的目录.
SynthDB数据库离线语音合成工具,系统通过检索数据库表格中的记录,可以按照指定的合成方式将字段内容转换成相应的语音文件,并生成一数据库记录与语音文件的对应表,供其他系统使用EasyCome文件搬运工,可以实现特定的文件自动搬运的程序.
文件搬运工是将文件搬运到其他目录的工具,支持NFS和远程FTP方式的搬运,并支持压缩打包和解压,以及断点续传功能.
MiniVoxVox播放器,用于播放.
vox(6K、8K)文件.
ReadWord文件转换工具,将Word文件(.
doc)转换成文本文件(.
txt),存放在指定的目录下,提供给其他的系统使用;并且把完成转换的Word搬运到指定的目录.
ReadExcel文件转换工具,将Excel文件中的数据转换成为一个或多个纯文本文件(TXT文件),存放在指定的目录下,提供给其它的系统使用;并且把完成转换的Excel文件搬运到指定的目录.
CSSMLEditorCSSML标记语言的可视化编辑工具,利用它可以方便地从其它格式文本(.
txt或.
xml)生成CSSML格式的文本(.
cssml),从而提升文本的语音合成效果TTSDoctor为科大讯飞的语音合成引擎而配备的技术支持工具,用户使用本工具收集运行语音合成引擎的服务器上的信息,方便问题纠错.
当用户在使用语音合成引擎的过程中遇到问题时,可以把通过本工具收集到的信息反馈给科大讯飞的技术支持人版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page22员,以获得迅速有效的技术支持服务.
用户通过使用这些工具可以简化开发工作、优化合成效果、方便系统维护和技术支持.

版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page236.
合成系统性能特性6.
1性能的度量语音合成系统的主要功能是将文本转化为语音数据,这一转化过程的快慢会影响到使用语音合成系统提供语音服务的应用程序的表现.
如果转化速度过慢,就可能出现播放的语音不连续或者是等待时间过长等问题.
因此,语音合成系统的性能特征也是直接关系到系统应用效果的关键指标.

对于多路并发的语音合成系统,最直观的性能度量方法是测量每一路语音合成服务合成一定量的文本需要的时间,合成需要的时间越短,合成系统的性能越高.
根据科大讯飞从众多实际应用积累的经验,我们以系统合成50个汉字(100字节)的平均"合成时间"来衡量系统合成速度的快慢,并根据实际应用要求,对语音合成系统的性能能否达到"实时"的标准进行了约定:即在多路并发合成不同文本的情况下,如果每一路平均合成50个汉字(100字节)的平均合成时间小于2秒,最长合成时间小于3秒,就认为在该并发路数下,合成系统可以满足实时性要求.
为了准确的测量合成系统的性能指标,科大讯飞公司使用自行开发的测试工具MTTester进行不间断、高密度、多路并发的合成服务测试,在测试过程中获得的数据作为合成的性能数据.
测试工具的每一路合成都使用不同的测试文本,在并发的情况下测量获得一个文本文件的所有语音数据需要的总时间,再平均到50个汉字需要的时间为"合成时间".
随着并发路数的增加,系统的CPU和内存的消耗越来越大.
ViviVoice2.
0系统的总体性能是按照吞吐量来计算的,在满足我们建议的硬件配置条件下,吞吐量的大小取决于每线程(授权,License)平均合成效率和总线程(授权,License)数量.
ViviVoice2.
0系统的单线程平均合成效率为每秒25个汉字),满足我们建议硬件配置条件的语音合成服务器,其每秒总吞吐量为:25字/秒*License数.
6.
2影响性能的因素ViviVoice语音合成产品为了实现最好的合成效果,采用了复杂度非常高的算法,也使用了大量的资源文件(如音库、词库等).
因此合成系统的性能指标是受软件和硬件多方面因素影响的.
下面将对影响合成系统性能的因素进行一些分析和说明.
1.
语音合成系统本身的算法复杂度等因素:因为每个版本的语音合成系统的内部算法和资源使用都不尽相同,不同版本合成系统的性能表现是有差别的,有的系统之间的性能差别会非常大.

2.
测试服务器的CPU运算能力:因为合成系统内部进行了大量的逻辑和数学运算,运行语音合成的服务器的CPU运算能力(简单可以用CPU的主频来表示)和CPU的数量,都会极大的影响合成系统的性能表现.
CPU主频越高,数量越多,合成系统的性能越高;版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page243.
内存:ViviVoice语音合成系统在服务的过程中,需要使用内存进行中间数据的存贮,并且内存中的数据进行了频繁的操作和计算,因此内存的可用大小和存取速度对合成系统的性能也有显较大的影响,如果内存容量低于要求的大小,合成系统不能表现出最佳的性能;内存的存取速度越快,合成系统的性能也会越好.
ViviVoice2.
0建议运行合成服务的计算机配置至少512M的内存,推荐配置2G的内存.
4.
操作系统:不同的操作系统对进程和线程的调度、内存管理、网络服务等方面的实现都存在差异,即使同是MicrosoftWindows操作系统也存在不同.
根据测试结果,基于服务器版(Server版)操作系统的性能表现高于基于桌面级操作系统(如Professional版),而Windows2000的性能表现要高于WinNT及之前的操作系统.
因此科大讯飞公司建议在大规模的语音合成服务应用中使用Windows2000Server或更高版本的操作系统;5.
网络环境:在通过网络调用实现远程语音合成服务的应用中,网络环境的配置也会极大地影响合成系统的性能表现.
在一台并发运行100路以上语音合成服务的计算机上,其网络交换的数据量会达到几十兆bps甚至更高.
因此建议服务端和客户端都配置100Mbps以上的网卡,并且最好都在同一个局域网内.
另外强烈建议使用交换速率和带宽更高的100Mbps网络交换机,而不是100Mbps的集线器.
如果局域网带宽为10Mbps,语音合成网络服务的效率会极大地受到限制.

7.
公司介绍自1999年成立至今,安徽中科大讯飞信息科技有限公司以国际领先的中文语音技术、成熟的产品化水平、丰富深入的语音应用经验以及对语音产业的深入理解和不懈推动而在业界享有盛誉.
公司注册资金7000万元,股东包括中国科技大学、复星集团、联想投资、火炬投资、Intel投资等.

科大讯飞的中文语音合成技术代表着世界最高水平,在国内、国际权威机构的评测中,系统主要关键技术指标多次名列第一,在最近一次(2003年10月)的国家863语音合成效果评测中,科大讯飞的InterPhonic3.
0语音合成系统以大比分领先优势在几乎所有关键指标上获得无可争议的第一名.
2002年,获中文语音研究领域最高荣誉"国家科技进步二等奖".
同时公司也是全国唯一一家以语音技术为主要产业化方向的"国家863计划成果产业化基地"、"国家火炬计划重点高新技术企业"和"国家规划布局内重点软件企业".
因为科大讯飞在核心技术上所取得的领先优势以及在产业化方面所做出的突出成绩,经过国内语音界同行多次讨论,2003年11月,国家信息产业部正式发文,成立中文人机语音交互标准制定工作组,并明确指定由科大讯飞担任组长单位,公司董事长王仁华教授担任工作组组长,组织推动中文语音技术标准的制定.
基于有自主知识产权的世界领先语音合成技术,科大讯飞现已推出从电信级应用到嵌入式应用,版本:ViviVoice2.
0产品白皮书日期:2007-12科大讯飞语音平台产品文档tts_support@iflytek.
comiFLYTEK,2007Page25从垂直行业到企业和家庭用户,从PC到手机和玩具,能够满足不同应用环境的多种产品,合作伙伴近500家,在国内主流行业语音市场的占有率达到80%.
科大讯飞现已经成为中国产业化实体中,在语音技术领域中基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多、市场占有率最高的公司.
地址中国安徽省合肥市黄山路616号高新区信息产业基地讯飞大厦邮编:230088电话(0551)5331813传真(0551)53318015331802网址www.
iflytek.
com技术支持邮件地址tts_support@iflytek.
com各位用户:可以针对具体的发音问题让您进行专业、系统的学习与练习的畅言网在线学习功能即将上线.
.

华纳云新人下单立减40元/香港云服务器月付60元起,香港双向CN2(GIA)

华纳云(HNCloud Limited)是一家专业的全球数据中心基础服务提供商,总部在香港,隶属于香港联合通讯国际有限公司,拥有香港政府颁发的商业登记证明,保证用户的安全性和合规性。 华纳云是APNIC 和 ARIN 会员单位。主要提供数据中心基础服务、互联网业务解决方案, 以及香港服务器租用、香港服务器托管、香港云服务器、美国云服务器,云计算、云安全技术研发等产品和服务。其中云服务器基于成熟的 ...

CYUN(29元/月)美国、香港、台湾、日本、韩国CN2,续费原价

关于CYUN商家在之前有介绍过一次,CYUN是香港蓝米数据有限公司旗下的云计算服务品牌,和蓝米云、蓝米主机等同属该公司。商家主要是为个人开发者用户、中小型、大型企业用户提供一站式核心网络云端部署服务,促使用户云端部署化简为零,轻松快捷运用云计算。目前,CYUN主要运营美国、香港、台湾、日本、韩国CN2线路产品,包括云服务器、站群服务器和独立服务器等。这次看到CYUN夏季优惠活动发布了,依然是熟悉的...

ParkInHost - 俄罗斯VPS主机 抗投诉 55折,月付2.75欧元起

ParkInHost主机商是首次介绍到的主机商,这个商家是2013年的印度主机商,隶属于印度DiggDigital公司,主营业务有俄罗斯、荷兰、德国等机房的抗投诉虚拟主机、VPS主机和独立服务器。也看到商家的数据中心还有中国香港和美国、法国等,不过香港机房肯定不是直连的。根据曾经对于抗投诉外贸主机的了解,虽然ParkInHost以无视DMCA的抗投诉VPS和抗投诉服务器,但是,我们还是要做好数据备...

安徽双线服务器租用为你推荐
域名查询怎么查域名的注册商美国虚拟主机美国虚拟主机用着怎么样?租服务器租个一般的服务器大概多少钱啊?个人虚拟主机个人商城要选多大的虚拟主机?云服务器租用谁知道租用服务器、云主机去哪里租?服务器租用费用价格是多少呀郑州虚拟主机59互联 亿恩科技 和郑州景安那一个公司的虚拟主机最好!我指的是速度和服务!谢谢!请大家凭良心说话!虚拟主机mysql我申请的虚拟主机 ,是MYSQL数据库,但是我安装好网页后,需要更改的数据库地址是我默认的还是找卖家咨询?淘宝虚拟主机请问在淘宝的代购国外虚拟主机可以买吗?虚拟主机排名IDC全国十强是哪几个服务商沈阳虚拟主机沈阳盘古网络技术有限公司的介绍
域名服务器上存放着internet主机的 华为云服务 linode日本 主机评测 香港cdn suspended ubuntu更新源 网站被封 免费smtp服务器 柚子舍官网 hinet 美国在线代理服务器 个人免费主页 优酷黄金会员账号共享 阿里云官方网站 789 深圳域名 阿里云邮箱个人版 asp空间 上海联通 更多