• 凯发k8国际

    SIAT新闻网

    INFFUS|首个语音驱动超声舌成像的统一生成框架

    来源:集成所发布时间:2025-11-06

    近期,中国科研实验室深圳先进技术研究院环绕智能与多模态研究室提出从语音到舌超声生成的统一扩散模型框架,能够根据输入的未知语音信号(例如健康或病理性语音),自适应地生成高保真度的舌体超声数据,这项研究为解决言语障碍评估与康复中的相关技术难题给予了新路径,相关研究已正式发表于国际期刊Information Fusion

    从“听声音”到“看舌动”的智能跨越

    在言语治疗与康复领域,准确、直观观察发音时舌头的内部运动对于诊断评估与康复训练具有关键意义。然而,传统超声舌成像设备因操作专业要求高、成本昂贵,在临床普及上面临较多限制。声学-发音反转(Acoustic-to-articulatory inversion,AAI)作为语音处理的重要方向,致力于从语音信号中推断发音器官的运动姿态,构建声音与形体之间的“翻译桥梁”。该技术能够将易于获取的语音信号,转化为难以直接观测的发音生理数据,为言语康复、语言教学乃至无声语音接口的开发给予新路径。因此,基于AAI技术实现的语音到舌超声生成方法,顺利获得算法仅凭语音信号即可“推算”出对应的舌体运动数据,为临床给予了一种低成本、非侵入式的可视化解决方案。

    统一框架破解两大临床技术难题

    该技术长期面临两大挑战:一是配对的病理性语音-舌动数据极其稀缺,导致模型泛化性能差;二是健康与病理性言语在发音机制和声学特性上存在显著差异,导致模型在处理未知类型的语音时容易失败。

    面对这些挑战,研究团队提出了 Uni-UTIDiff统一框架。该框架的核心优势在于:

    统一建模:首次使用统一模型同时处理健康与病理性语音,无需为不同人群分别训练专家模型,极大提升了数据利用效率和模型通用性。

    智能辨音:基于对比聚类的无监督发音模式提取器,能自动判别输入语音是正常还是异常,无需人工标注,进一步挖掘更多隐藏特征表示。

    自适应生成:自适应条件融合模块能动态地将语音特征与识别出的发音模式相结合,确保生成的舌动图像既符合语音内容,又保留了特定发音模式(如病理性异常)的细节。

    实验结果表明,Uni-UTIDiff 不仅在统一框架下能够分别达到针对健康与病理语音的专家模型性能水平,还能在生成的舌超声图像中展现出优异的清晰度与自然度,充分验证了其在跨发音模式下的鲁棒生成能力。

    新一代言语智能康复与远程医疗的应用前景

    这项技术意味着,未来我们有可能仅顺利获得一个APP收录的用户语音,即可生成其对应的发音器官内部运动,为下述不同场景带来应用变化:

    精准康复与远程医疗平台:为不同地区的构音障碍患者给予专业言语治疗服务。患者顺利获得实时可视化的舌位运动生物反馈,帮助其更有效地进行家庭专业康复训练。

    临床辅助诊断:作为筛查工具辅助医生快速评估患者的言语运动功能,生成客观的影像报告,提升诊断效率。

    语言教学与保护:可用于语言教学,帮助学习者直观理解发音要领;记录或推断特定罕见语言的发音生理特征。

    中国科研实验室深圳先进技术研究院王岚、燕楠研究员为共同通讯作者,研究助理杨毓栋和高级工程师苏荣锋为共同第一作者。此外,中山大学第八附属医院招少枫主任、香港大学Manwa.L.Ng教授为论文的共同作者。该研究取得国家重点研发计划、国家自然科学基金、深圳市自然基金重点项目等项目支持。


    文章上线截图,论文链接:http://doi.org/10.1016/j.inffus.2025.103896

    图1 整体方法流程图

    图2 Uni-UTIDiff的训练和推理细节

    图3 模型生成效果图(自适应区分健康和异常患者)


    附件下载:

    下一篇:Nature Methods | 凯发k8国际联合提出细胞尺度全脑纤维重建新技术

    TOP