进阶教程信号

信号处理与语言理解融合技术实战测评

2026-06-08

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

ICASSP已从信号处理延伸至语义理解，形成涵盖声学处理与自然语言理解的融合谱系。端到端

ICASSP：重新定义“信号处理”的边界

信号处理到语言理解的融合技术

Ariya Rastrow解析声学信号处理与语言理解如何走向深度融合。

作者：Larry Hardesty | 2020年5月4日 | 阅读时间6分钟

会议：ICASSP 2020

ICASSP（国际声学、语音与信号处理会议）已举办45年，在谷歌学术排名中稳居信号处理领域首位。然而随着语音技术迅速成熟，信号处理的内涵已被显著拓宽。Alexa首席研究科学家Ariya Rastrow指出：“如今的ICASSP已成为一个包容万象的熔炉——从底层信号处理一直延伸到语义理解与自然语言理解，覆盖完整的技术链条。”

Alexa高级首席科学家Ariya Rastrow（摄影：Jordan Stead）

为何会如此演变？Rastrow的回答直击本质：人类听觉系统本就错综复杂。大脑绝非仅依赖声学信号识别文字，计算机系统同样不应如此。

“从人类视角而言，语言与声学之间存在高度动态的交互，”Rastrow解释道。“在静谧环境中对话时，我们能在声学层面进行高精度追踪。但若身处嘈杂酒吧，人们会更多借助先验知识——在语义层面推测对方可能的言辞与话题——以此来弥补声学信号的缺失。”

传统口语理解体系被严格拆分为两大模块：自动语音识别（ASR）负责将声学信号转化为文本，自然语言理解（NLU）则解析文本含义。但实际上，语音识别本身往往需要借助高层语言特征来推断词汇。传统ASR系统由三部分组成：声学模型（将声学信号映射为音素）、词典（将音素序列对应到词语）以及语言模型（利用词语共现的高层统计信息来裁定不同候选结果）。

Rastrow回忆道：“二十到二十五年前，采用这种分解式结构是务实的选择。各组件之间边界清晰。传统语音识别系统基于隐马尔可夫模型（HMM）架构，推理时会整合多个知识源，但声学模型与语言模型仍分开训练。”

共享表示学习

然而，这一范式近年已被基于神经网络的端到端大规模训练架构所取代——单一神经网络直接接收声学输入与完整转录输出，从头学习之前分散在ASR各组件中的全部映射关系。

Rastrow表示：“优势显著。首先，联合训练使系统在准确率上得到整体优化。分解式系统的每个组件按各自独立目标函数训练，推理时无法有效处理不流畅与错误。借助架构进步以及联合训练、多任务训练，系统对这些混乱场景的鲁棒性大幅提高。”

“其次是效率提升，”他补充道。“通过知识迁移、联合训练或共享表示，系统不同模块可共用相同的表示或网络层。这能压缩整体模型规模、加速执行，从而有机会部署在资源受限的设备与硬件上。”

举例来说：如果同时处理声学事件检测、唤醒词检测、耳语检测——这些虽属不同音频分类任务——你可以单独构建系统，也可以采用知识迁移与共享表示学习。通过共享网络组件与层，除了准确率提升外，效率亦能获得显著收益。

“而且整个系统都运行在神经网络执行框架内，我们清楚如何在软件与硬件两端加速。但那些基于显式知识表示的词典与语言模型系统则无法实现——它们并非深度学习架构，无法利用这些效率机制。过去两三年，我们一直在着力推进这一点。”

完全融合

让单个大规模模型将ASR底层的声学信号处理与高层语言建模融为一体，意味着可以充分利用高层语言特征。例如，在今年ICASSP发表的某篇论文中，Alexa团队报告了一种方法：利用语义特征区分针对Alexa的语音与非针对Alexa的语音——而此前“设备定向”检测器仅依赖声学特征。

这种融合的终极形态，自然是构建一个能执行完整口语理解任务（包括ASR与NLU）的单一神经网络。

“新兴研究表明，”Rastrow说，“至少对于部分交互场景，可以构建一个体积较小的单一网络，直接将音频映射到语义层面。延迟更低，无需分阶段执行。此外，研究显示人类并非逐词识别——我们会将对话主题与语义关键信息直接编码于语音中。”

“但挑战依然存在，”他补充道。“这些全神经网络系统对数据极度依赖。一旦触及理解层，就必须面对数据稀疏性与独特交互的细微差异。在声学层面，例如音素/p/，即使跨语言也存在大量样本。但越靠近语义与句子级理解，模式越发独特稀少。”

他补充道：“一个挑战是如何将这种直接音频到NLU的新架构与半监督/无监督学习的进展相结合。另一个挑战是如何将极度依赖数据的学习系统与某种推理或逻辑能力相融合。”

他举例说明：“比如你说‘打开卧室灯’，Alexa误开了厨房灯，你接着说‘不，Alexa，别打开厨房灯’——这就涉及否定处理。你说‘别打开它’时，实际意图是‘关掉它’。这类样例很难从数据中获取。传统上我们知道如何利用规则、逻辑与推理来解决，但仅靠数据可能无法给出良好表示。因此未来两三年需要研究的是：如何将这些系统与半监督/无监督学习结合，以及与知识和逻辑结合。”

研究方向

对话式人工智能（对话AI）

标签：人工智能（AI）、自动语音识别（ASR）、信号处理、端到端学习、自然语言理解（NLU）、自然语言处理（NLP）

会议：ICASSP 2020

关于作者：Larry Hardesty，某机构科学博客编辑。曾任《麻省理工科技评论》高级编辑以及麻省理工学院新闻办公室计算机科学撰稿人。

来源：互联网

上一篇 实时PvP对战全链路实战：匹配同步与伤害实现 下一篇 2022年计算机技术论文排行榜Top10

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

信号处理与语言理解融合技术实战测评

摘要

ICASSP：重新定义“信号处理”的边界

共享表示学习

完全融合

研究方向

相关文章推荐