华盛顿大学研发“空间语音翻译”技术：多人同时发言也能精准识别-灵犀软件园

首页攻略秘籍资讯瞭望台软件教程

华盛顿大学研发“空间语音翻译”技术：多人同时发言也能精准识别 灵犀软件园2025-05-25

本站 5 月 24 日消息，美国华盛顿大学的一项研究提出了一种可穿戴式“空间语音翻译”技术，能够通过双耳耳机在多人交谈环境中实时翻译，并可以保留每位发言者的声音特征与方位感。

据 ITMedia News 昨日报道，借助这项技术，耳机能将每个人的话实时翻译成你的母语，同时保留每个人的声音个性和方向信息，让你清楚分辨谁在说什么。

与现有翻译工具相比，这项技术解决了两大难题：一是支持多人同时发言场景，二是翻译结果不再千篇一律，而是保持每个说话者独特的声音风格与方向。研究结合了音源分离、空间定位、实时翻译与双耳渲染等技术，构建出完整系统。

本站从报道中获悉，研究团队的三大技术突破包括：

通过将空间细分为多个角度区域，并用神经网络识别每个区域内的潜在发言者，实现准确的音源分离与定位；

构建可在 Apple 芯片上实时运行的语音翻译模型，能保留说话者的音质与情感；

开发出双耳渲染方法，让翻译后的语音从原说话者方向传来，增强沉浸感。

在实际测试中，研究人员使用市售降噪耳机和双耳耳机，在苹果 M2 芯片上完成了从法语、德语、西班牙语到英语的实时翻译。10 名受试者在多种环境下测试后，系统展现出较强的通用性。

进一步的评估表明，29 名参与者普遍认为，新系统在多人交流场景中的表现优于传统翻译工具，不仅提升了翻译质量，也更易分辨说话者。此外，在空间感知实验中，用户能准确判断翻译语音的方向，与原声几乎无异。

研究成果：