AI语音大模型时代，助力学生提升科研素养

5月21日上午信息与通信教研室在成学楼组织开展了一场教学观摩活动，特邀朱忠敏教授为学生作题为“数字语音信号处理研究进展”的专题讲座。吴莉、金康等老师参加了本次活动。

朱忠敏教授在讲座中指出，随着语音AI大模型时代的到来，语音核心技术迎来重大变革，语音识别与合成的性能实现了质的飞跃。随之而来的是应用场景的显著拓展，例如个性化语音助手更加智能贴心，车载语音系统实现了全场景免唤醒操作，实时语音翻译技术也日趋普及，为跨语言沟通提供了便捷工具。

朱教授系统介绍了语音技术领域目前的三大研究进展：

一是端到端语音大模型取得突破。端到端大模型与全双工实时交互技术相结合，大幅降低了系统延迟并减少了信息损失。该技术具备“边听边说”、智能抗噪等能力，对话节奏已接近真人水平。能够处理长音频与多角色对话，引入了双分辨率设计、非自回归/扩散架构，模型趋于端侧轻量化。

二是零样本克隆与跨语言TTS技术日臻成熟。朱教授重点介绍了零样本语音克隆、跨语言文本转语音以及精细化情感控制等技术进展，使得语音合成更加灵活自然，适应多语言、多场景的复杂需求。

三是超拟人合成技术达到业界领先水平。以华为虚拟坐席的超拟人控制功能为例，该技术已覆盖数百种语言，MOS（语音质量平均意见分）评分超过4.5分，达到了业界领先的超拟人水平。

朱教授还分享了国内外主流企业在语音AI领域的最新研究成果。具有代表性的是小米公司研发的OmniVoice——超大规模多语言TTS模型。该模型采用极简架构，实现了零样本语音克隆，是一款极为高效的轻量化模型，展示了我国企业在语音大模型技术上的自主创新实力。

讲座最后，朱教授为同学们提出了切实可行的学习建议。鼓励大家善用AI工具查找参考文献，借助智能平台和工具提升科学研究能力。在语音AI大模型快速演进的时代背景下，学好语音处理这门专业课、夯实专业基础、培养科研素养，为今后的职业发展提供强有力的支撑。

在场同学表示受益匪浅，对语音AI大模型时代的技术演进路径和应用前景有了更清晰的认识，也进一步激发了投身语音技术研究的热情。

通讯员：吴莉

审核：刘丽