其他资讯
OpenAI Whisper语音识别系统测评:英文识别能力接近人类水平
摘要
9月21日,OpenAI正式推出其开源神经网络“Whisper”,该系统在英语语音识别任务中展现出接
9月21日,OpenAI正式推出其开源神经网络“Whisper”,该系统在英语语音识别任务中展现出接近人类水平的准确性与环境鲁棒性。
Whisper本质上是一个端到端的自动语音识别引擎。其技术突破的核心在于训练数据的规模与多样性:研究团队从公开网络资源中采集并构建了一个包含68万小时的多语言、多任务监督数据集。这一海量数据集的训练效果极为显著,使模型在面对复杂口音、环境背景噪声以及特定领域术语时,均表现出卓越的识别稳定性。
这一成果直接回应了语音识别领域的一个长期挑战。过往研究表明,尽管无监督预训练能有效提升音频编码器的表征能力,但由于缺乏与之匹配的高质量解码器及针对性的微调策略,模型的整体效能与泛化能力往往受限。相比之下,采用大规模有监督数据进行预训练的系统,其鲁棒性通常远超在单一、有限数据集上训练的模型。
OpenAI的Whisper正是将这一“大规模弱监督”范式推向了新的高度——其构建的数据集规模,远超现有所有高质量语音数据的总和。研究团队进一步验证了,在此规模数据上训练的模型,无需对下游特定数据集进行任何微调,即可在“零样本”迁移场景下实现优异的识别性能。这从根本上简化了语音识别系统的部署流程,直接交付了高可用性的解决方案。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。