|
地址:长春市亚泰大街与自由大路交汇五环国际大厦1408、1409室
联系人:于先生
全国咨询热线:400-853-5969
邮箱:xgnic@xgnic.com
手机:13624467185 13844844006
网址:http://www.xgsite.com
|
|
|
资讯中心 >> 百度语音合成技术新突破 专属磁性男声品读《琅琊榜》 |
百度语音合成技术新突破 专属磁性男声品读《琅琊榜》 |
点击率:1438 发布人:管理员 发布日期:2015/11/18 10:16:03 【去百度看看】
|
科幻电影《HER》中,男主角爱上了一位搭载人工智能系统的虚拟爱人“萨曼莎”。这段爱情在萨曼莎“开口说话”时便埋下了种子,迷人的声线、细腻的情感丝毫让人察觉不出是在跟一个机器对话。近日,百度公司将这项黑科技带入现实,从此让机器摆脱一板一眼的“僵尸音”,带有情感地为你朗读,和你对话。目前,用户已经可以在手机百度-小说频道中抢先体验,选择朗读模式下的“磁性男生”,就能拥有专属的“小说男神”。
百度语音技术部负责人贾磊介绍:“这是百度在语音合成技术上的最新突破。基于百度大数据与深度学习技术优势,百度研发出新型情感语音合成系统,能够让机器摆脱平铺直叙的发声,为用户带来更自然、更具情感表现力、更接近真人朗读的听觉体验。”
此前,语音合成技术领域的研究主要集中与让用户听清机器的语言,典型应用如:时间播报、天气播报、语音导航等。在这方面,百度的汉语拼接语音合成系统和参数合成系统处于业界领先,新闻播报风格的语音合成解决方案已经在大量产品中成功运用。
然而随着语音人机交互潮流的到来,用户对于语音合成品质的要求逐渐提高。为了给用户带来优质的听觉体验,百度工程师经过长期的技术积累和攻坚,终于在情感语音合成领域取得重大突破:
首先,创新语料生产方式,提升数据规模。传统录音语料库的积累,往往以句子为单位,严格控制发声人录音的声调、节奏,导致文章的语义情感无法融入其中。情感语音语料库的积累,以段落或者篇章为单位,允许发音人基于对文本的理解加入个人自然有感情的语音表达,使得语音中蕴含丰富的语义和情感。由于录音方式更加自然流畅,发音人不易疲劳,大大提升了语料采集效率,扩大了情感语料库的数据规模。
其次,创新数据处理方式,提高数据处理效率。传统语料数据处理方式为手工精标,需要耗费大量人力。百度利用机器学习技术实现了数据的自动化处理,完全代替手工,能够对大量包含情感的语料库快速进行标注,大大提高了语音合成数据处理的效率。
最为核心的突破是,创新韵律和声学建模技术,提高情感表现能力。第一,采用百度独创的多层次双向LSTM韵律建模技术,实现从文本到韵律情感信息的直接端到端的高精度建模。第二,利用多层双向LSTM-RNN模型对语义及长时信息的卓越声学建模能力,将丰富的语义相关信息加入到上下文中,构建文本与语音之间的深层次对应关系,生成富有表现力的模型,使合成的语音具有丰富的情感。
百度语音技术部负责人贾磊认为,传统语音合成技术,由于对整个语料库的生成控制过于严格,缺乏情感表现力,也难以体现语义在语音中的作用。而且,数据标注过于依赖手工和经验规则的方法,需要耗费大量的时间和人力进行语料库标注,客观上限制了语音合成系统所使用的语料库的规模,从而限制了最终合成的语音的情感表现力。基于大数据的情感语音合成技术,实现了规模化的语料生产和自动化的数据标注,并充分发掘了深度学习技术在大数据上的处理能力,极大地扩展了语音合成系统所能使用的合成语料库的体积,使得语音合成系统包含更丰富的情感,探索出了一个全新的语音合成技术框架。未来,语音合成领域的理论创新和算法技术创新,都将围绕大数据和深度学习展开,语音合成技术必将发生深刻的变革。 |
【打印本页】 【关闭本页】 |
|
|
|
|