智东西(公众号:zhidxcom)
编 | 王颖

智东西2月5日消息,亚马逊推出品牌声音(Brand Voice)定制服务,可将文本转换为语音,为客户提供声音定制。

AI模型只需进行几个小时的训练就可以定制独特的品牌声音,这项工作如果由配音演员来完成则需要十几个小时。

肯德基加拿大分公司和澳大利亚国民银行已经开始与亚马逊合作,在语音服务中使用了定制的品牌声音。

一、声音定制,品牌形象也有独特风格

亚马逊AI语音转换总监Rafal Kuklinski和高级产品经理Ankit Dhawan在博客中解释了品牌声音定制服务。不同公司通过定制独特的品牌声音,强调出产品和服务的特性,与其他品牌做出区分。

▲肯德基桑德斯上校的声音示例

亚马逊的相关负责人表示,他们已经与肯德基加拿大分公司合作,为肯德基的品牌形象桑德上校设计了美国南部英语口音,并在亚马逊Alexa应用程序中开始使用。

亚马逊还为澳大利亚国民银行设计了澳大利亚英语语音,国民银行已将联系中心迁移到了亚马逊全渠道云联系中心产品Amazon Connect中。

二、AI语音转换,配音时间缩短十倍

去年年底,亚马逊在一份研究论文中详细介绍了其在人工智能产生的语音方面的工作。研究人员在论文中描述了一种系统,该系统可以通过几小时的培训掌握一种语言风格。而专业的配音演员完成培训则需要几十个小时。

亚马逊的AI模型由两个部分组成。第一个是生成神经网络,它可以将音素序列转换为声谱图序列,声音随时间的变化使得频谱可以用肉眼清晰的观察到它的变化。第二个是将这些频谱图转换为连续音频信号的声码器。

这种AI模型训练方法,将大量中性风格的语音数据与所需补充数据相结合,通过一种能够区分语音元素的AI系统几个小时的训练,生成风格独特的声音。

亚马逊内部已经开始使用这种模型为Alexa生成新的声音。

这种技术具有很强的商业价值。从前由配音工作者负责录制的交互语音响应系统,或为公司培训视频提供的电子学习脚本,都可以用这种模型来代替。

品牌声音合成可以通过减少辅助录制和接听的方式提高配音演员更工作效率,使他们腾出更多时间从事创造性的工作。

三、AI语音转换竞争激烈,大公司技术领先

借助品牌声音及其他文本语音转换服务,亚马逊和谷歌这两家国际巨头已经在语音领域脱颖而出。

谷歌最近在其Cloud Text-to-Speech服务中推出了31种AI合成的WaveNet语音和24个新的云文本到语音服务标准语音。

微软也通过Azure语音服务API提供了三种AI生成的预览语音和75种标准语音。

亚马逊品牌声音定制服务将与Voicery等多家初创公司的产品展开竞争。

Voicery为客户提供定制数字语音服务,听起来很像人的声音。印度班加罗尔的DeepSync公司提供的也是类似的语音转换服务。文本转换语音技术初创公司iSpeech也拥有类似的语音工具,Modulate、Respeecher、Resemble AI、Descript。

原文来自:VentureBeat