云南昆明百应电话AI机器人助力语音克隆,人和自己“对话”的障碍在哪?
2018-11-01 11:37


云南黑莓科技——云南昆明百应外呼电销电话机器人

昆明市五华区人民中路33号巨龙大厦20c2

云南黑莓科技提出如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?

这个场景并不遥远,不久前,“AI First”的谷歌表示,其最新版本的人工智能语音合成系统——Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音频。

而麻省理工评论则认为百度的技术则更进一步,百度在最近发布的新论文中表示,该技术只要通过一个半小时的语音数据的学习,就能“克隆”出原对象的声音。虽然以前百度的“Deep Voice”也能够生成语音,但让生成出来的语音附带不同的语言特色正是语音生成的一大突破,而且它除了能“克隆”之外,还能对该声音的性别或口音进行更改,甚至还能赋予该克隆声音一些简单的情感。

语音克隆技术是什么?又能做些什么?

最早的语音合成技术通过预先录制好的字词、短句来实现的,把各个部分串成一行,以此产生完整的句子。生活中各种服务热线的自助语音系统就是用这种方式实现的,所以会经常存在卡顿,音色不一样等问题,语气也很冰冷。

第二种手段虽然能够使语音更加自然,但其中也需要大量的人工处理,首先是制作语音库,确定音色、风格、特性、角色等要求后,投入音库生产线,设计录音脚本、训练录音资源、进行效果优化,在输出的时候还要进行各类语言处理,包括文本规整、词的切分,然后是韵律处理,为其划出音段特征,如音高、音长和音强等等,使合成的语音给人的感觉更加自然些。

但这类合成系统因为进行韵律预测处理方面的工作量巨大、所以也存在表现能力不足等问题,如合成语音对不同情感的表达会不够恰当,使得合成语音听起来缺乏人情味。而语音合成的技术发展不仅要让说话的声音达到真人水准,也应当在情感表达方面有所突破,使语音交互带有情感,达到更好的交流体验。

免费试用可扫码添加微信咨询!