智能语音技术的飞速发展,让 AI 合成语音的听感更加自然、逼真,让越来越多企业实现了与客户的多模态互动。
基于微软 Azure 创建声音定制服务定制的专属声音,已被广泛应用在诸如语音助手、聊天机器人、有声读物或新闻播报等多种使用场景。
传统上,完成一个定制声音时间周期长、复杂度高。需要发音人录制成千上万句语料作为训练数据,再由拥有深度神经网络和语音合成专业背景的专家针对客户的语音数据进行声学模型和语音合成器的训练及调优,整个过程往往需要数月的时间。
微软推出基于深度神经网络的声音定制服务,所需训练数据更少,只要 300 至 2000 句语料数据(约 30-120 分钟);训练调优的难度和复杂度更加简化,即使没有深度神经网络和语音合成专业背景的用户也可实现自助训练,得到媲美人类发音的效果。
用户需注册 Azure Speech Studio,申请获得深度神经网络声音定制权限后,即可一键完成声音模型的训练,并快速部署 API,适用于各种场景的应用开发。