可从混合音源提取特定声音索尼详解最新黑科技AI声音分离技术

来源：IT之家　2021-07-28 10:42:50

索尼公司发布文章，介绍了索尼的一项“黑科技”创新成果 ——AI 声音分离技术。这项技术可以从混合的音源中提取出单个的声音。由于声音信号仅有两个维度，传统技术对声音进行分离十分困难，但是在 2013 年，索尼引入 AI 人工智能技术，在这个领域更进一步。

目前，这项技术在复原经典电影、消除智能手机的噪音、实现音乐流媒体服务的实时卡拉 OK 功能等方面已经取得了成果，未来还将应用到更多领域。

索尼研发人员光藤祐基在接受采访时表示：AI 声音分离技术可以从音频数据中去除不必要的噪音，只提取人声或其他特定乐器的声音。当人类在聆听一场多种声音混合在一起的表演时，可以分辨出各个乐器，或者在进行对话时，即使被一大群人包围，我们也能自然而然地专注于一个声音。这些都是人类独有的能力，而计算机要做到这一点都还是极其困难的。有人将这项任务描述为混合两种果汁，之后提取其中一种。但是在过去的几年里，由于 AI 新方法的引入，这项技术有了极大的提升。

光藤祐基表示，声音分离是由 AI 进行的，而人们可以教计算机来完成这个任务。一把吉他有一个特定的声音或频率，这一点可被神经网络学到。无论混合了多少种声音，我们的 AI 系统都能够识别这些特征。

标签：索尼 AI 声音分离

推荐DIY文章