云南昆明百应电话外呼AI系统要实现“完美”的语音克隆,最大的一道坎在哪?
2018-11-01 11:39


云南黑莓科技——云南昆明百应外呼电销电话机器人

昆明市五华区人民中路33号巨龙大厦20c2

云南黑莓科技认为,完美的语音克隆,也应该能够克隆出说话人携带的情感,而不仅仅是音色等表象的元素,就像是这个声音拥有自己的灵魂。而目前语音克隆能够进行的情感表达,更多的是研究人员修改完成的,而且还需要对各类情感进行标注。

谷歌的Tacotron2系统也还只能进行模式化的情感表达,如根据输入文本的标点符号的不同而在语气上有所区分;在读大写单词时加重语气等。

百度和谷歌的语音合成技术暂时不能达到自行合成情感,这也是语音克隆其技术本身所限,要实现合成出的每一句话有其恰当的情感,这里面有情感识别、情感自动标注、、语气调整等大量的数据和工程难度,费用和技术也暂时难以逾越。

而更进一步,想要和机器进行有情感语音的交互就更加困难了,因为这并不是单一技术所能完成的,它除了能输出情感之外,还必须要求自然语言处理技术能够识别出人类表达中的各种情感,以此作为回应的前提,而这已经超出了语音克隆的技术范围。

在语音交互中,让机器能够自然、顺畅的说话是人机交互的一大要求,表现力、音质、复杂度和自然度一直是语音合成所追求的。

而随着AI技术的发展,语音交互的音质、流畅度、自然度都得到了很大的提高,但在表现力方面依旧是其最大的痛点,不过随着各大厂商的持续发力,未来使机器也能像朗读者一样,抑扬顿挫、情感起伏、拿捏到位也不是梦想。

免费试用可扫码添加微信咨询。