Stability AI音频模型深度测评:六分钟音乐生成能力全解析
摘要
StabilityAI发布StabilityAudio3 0音频模型系列,包含四款模型。其中中型与大型模型可生成超过
Stability AI,以Stable Diffusion图像模型闻名的公司,正式发布了其新一代音频生成模型系列——Stability Audio 3.0。该系列的核心突破在于,其顶级模型已能生成超过六分钟、具备专业制作水准的完整音乐曲目。

Stability Audio 3.0系列包含四个新模型
Stable Audio 3.0系列包含四个参数规模不同的模型:一个4.59亿参数的小型音效模型、一个4.59亿参数的小型音乐模型、一个14亿参数的中型模型,以及一个27亿参数的大型模型。两款小型模型设计用于本地设备部署,可高效生成最长两分钟的音效或音乐片段。
实现实质性跨越的是中型与大型模型。两者均能创作长达6分20秒的音乐作品,并有效维持连贯的曲式结构与稳定的旋律发展。这一生成时长是其前代产品Stable Audio 2.0(2024年发布)的两倍以上,标志着音频AI生成能力的重要里程碑。
开放权重与商业授权并行
Stability AI采用了开源与商业化并行的发布策略。小型音效、小型及中型这三款模型将以开放权重的形式发布,供社区自由使用、研究与改进。相较于此前开源版本仅47秒的生成上限,此次开放模型的性能实现了质的飞跃。
性能最强的27亿参数大型模型则定位为商业产品,仅通过API接口及付费的自托管方案提供。公司明确设置了商业使用门槛:年收入超过100万美元的企业用户,必须获取专门的企业级授权许可。
音乐生成领域的竞争与版权挑战
当前,谷歌、ElevenLabs等科技巨头正加速布局音乐生成领域,市场竞争日趋激烈。然而,行业普遍面临的核心挑战在于版权合规性。Suno与Udio等公司遭遇的法律诉讼,凸显了训练数据授权问题的严峻性。模型的长期生存能力,很大程度上取决于其训练数据的合法来源以及与主流音乐版权方的深度合作。
Stability AI显然预见了这一挑战。该公司已于去年先后与华纳音乐集团及环球音乐集团达成战略合作,共同开发AI音乐工具。公司特别声明,Stability Audio 3.0系列模型完全基于获得合法授权的数据构建,这为其产品的商业合规性奠定了关键基础。
面向专业音乐人的新产品线
除了面向开发者和大众的模型,Stability AI正秘密筹建一条服务于专业音乐人的新产品线,具体功能尚未公开。为领导此项战略业务,公司引入了资深行业专家——前环球音频与Fender首席数字官Ethan Kaplan,他将执掌Stability的专业音乐部门。
招募顶尖音乐产业高管以提升行业公信力,已成为AI音乐公司的关键策略。今年初,竞争对手Suno聘请了前Merlin首席执行官Jeremy Sirota出任首席商务官;ElevenLabs则从独立音乐出版商Kobalt挖来Derek Cournoyer负责音乐业务战略。这场人才争夺战清晰地表明,专业音乐制作市场正成为AI音频技术商业化竞争的核心战场。
Q&A
Q1:Stability Audio 3.0能生成多长的音乐?
其14亿参数的中型模型与27亿参数的大型模型,均可生成最长6分20秒的完整音乐作品,并能保持稳定的音乐结构与旋律线。这一时长是前代Stable Audio 2.0的两倍多。
Q2:Stability Audio 3.0有哪些模型可以免费使用?
Stability AI开源了小型音效模型、小型音乐模型及中型模型,允许免费商用与研究。大型模型仅提供商业API及付费托管服务,高营收企业需获取企业许可证。
Q3:Stability AI如何解决音乐生成的版权问题?
通过提前与华纳音乐集团、环球音乐集团达成授权合作,Stability AI确保了其模型训练数据的合法性。该公司强调,Audio 3.0系列完全基于授权数据构建,旨在规避潜在的法律风险。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。