

5月21日上午信息与通信教研室在成学楼组织开展了一场教学观摩活动,特邀朱忠敏教授为学生作题为“数字语音信号处理研究进展”的专题讲座。吴莉、金康等老师参加了本次活动。
朱忠敏教授在讲座中指出,随着语音AI大模型时代的到来,语音核心技术迎来重大变革,语音识别与合成的性能实现了质的飞跃。随之而来的是应用场景的显著拓展,例如个性化语音助手更加智能贴心,车载语音系统实现了全场景免唤醒操作,实时语音翻译技术也日趋普及,为跨语言沟通提供了便捷工具。
朱教授系统介绍了语音技术领域目前的三大研究进展:
一是端到端语音大模型取得突破。端到端大模型与全双工实时交互技术相结合,大幅降低了系统延迟并减少了信息损失。该技术具备“边听边说”、智能抗噪等能力,对话节奏已接近真人水平。能够处理长音频与多角色对话,引入了双分辨率设计、非自回归/扩散架构,模型趋于端侧轻量化。
二是零样本克隆与跨语言TTS技术日臻成熟。朱教授重点介绍了零样本语音克隆、跨语言文本转语音以及精细化情感控制等技术进展,使得语音合成更加灵活自然,适应多语言、多场景的复杂需求。
三是超拟人合成技术达到业界领先水平。以华为虚拟坐席的超拟人控制功能为例,该技术已覆盖数百种语言,MOS(语音质量平均意见分)评分超过4.5分,达到了业界领先的超拟人水平。
朱教授还分享了国内外主流企业在语音AI领域的最新研究成果。具有代表性的是小米公司研发的OmniVoice——超大规模多语言TTS模型。该模型采用极简架构,实现了零样本语音克隆,是一款极为高效的轻量化模型,展示了我国企业在语音大模型技术上的自主创新实力。
讲座最后,朱教授为同学们提出了切实可行的学习建议。鼓励大家善用AI工具查找参考文献,借助智能平台和工具提升科学研究能力。在语音AI大模型快速演进的时代背景下,学好语音处理这门专业课、夯实专业基础、培养科研素养,为今后的职业发展提供强有力的支撑。
在场同学表示受益匪浅,对语音AI大模型时代的技术演进路径和应用前景有了更清晰的认识,也进一步激发了投身语音技术研究的热情。
通讯员:吴莉
审核:刘丽

