5月29日,小米大模型应用团队公布了ControlFoley开源模型。这款模型致力于解决视频音效生成过程中的“可控性”挑战,能够支持三种主要的配音任务:基于文本提示生成音效、根据文本指令控制音效,以及利用参考音频调整音效。
ControlFoley在多项视频音效生成任务中均展现出卓越的开源性能,它在语义匹配、时间同步、音频品质及多模态控制能力方面实现了显著的飞跃。目前,其核心代码、模型参数、技术文档、在线演示以及即用型Skill均已向公众开放。
自动为无声视频添加音效早已不是新鲜事。现有的视频音效生成模型可以根据画面内容生成相应的声音,使无声影像更具细节和沉浸感。
然而,如果模型仅仅依赖画面自动猜测声音,创作者将难以精确掌握最终的配音效果。因此,视频音效生成需要从“看画面配声音”进化到“按意图配声音”。为此,小米大模型应用团队开发并开源了ControlFoley,这一统一且具备强大控制力的视频音效生成框架,旨在让声音真正“按你想要的来”,而不仅仅是让视频“有声音”。
ControlFoley的核心目标是构建一个统一的可控视频音效生成框架,该框架集成了三大核心能力:
TV2A(文本引导视频配音):根据视频画面和文本提示词来生成同步的音效,其中文本用于补充和细化画面中声音的语义信息。
TC-V2A(文本控制视频配音):即使在文本指令与视频画面语义存在冲突时,模型也能优先遵循文本意图生成目标声音,同时确保声音与视频动作在时间上保持同步。
AC-V2A(参考音频控制视频配音):依据视频内容和提供的参考音频来生成同步音效,使得最终输出的声音在音色和风格上能与参考音频保持高度一致,同时不干扰视频本身的节奏。
这意味着,ControlFoley并非仅仅是一个将视频转换为音频的模型,而是一个专为创作控制而设计的多模态音频生成模型。
ControlFoley的模型架构通过联合视觉编码、时间-音色解耦以及多模态鲁棒训练,共同支撑了可控视频音效的生成。其中,联合视觉编码确保模型不仅能理解画面,还能准确识别控制指令。
在视频音效生成过程中,视觉信息往往占据主导地位。它能告知模型画面中发生的一切,但在多模态融合时,却可能压制文本控制的作用。为此,团队研发并独立训练了时空音视频编码器CAV-MAE-ST,以增强模型对音视频事件、动作节奏和时间同步关系的理解能力。
与CLIP模型更擅长处理视觉与文本之间的通用语义关系不同,CAV-MAE-ST专为视频配音任务重新设计和训练,更侧重于捕捉“动作何时发生、声音何时出现”这类音视频时空对应关系。它通过对视频帧和音频特征的联合建模,帮助模型精确识别动作节奏、音频事件及时间同步线索。
将两者结合后,ControlFoley不仅能保持强大的音画同步性能,还能在文本与视觉冲突时更有效地响应文本指令。这使得模型在“画面内容是一回事,用户却希望得到另一种声音”的场景下,不再完全受画面的限制。
参考音频控制的难点在于:一段音频同时包含了“声音听起来如何”和“声音何时出现”两类信息。如果模型直接利用参考音频,其中包含的节奏和时间结构可能会干扰视频自身的动作同步,最终可能导致声音风格控制不佳,同时破坏音画同步。
ControlFoley采用时间-音色解耦策略,该策略旨在抑制参考音频中冗余的时间信息,而仅保留其关键的全局音色特征。这样一来,参考音频主要负责控制“声音听起来是怎样的”,而视频本身则继续负责控制“声音何时发出”。
在实际应用中,用户所提供的信息条件往往是多样的:有时只有视频,有时是视频加文本,有时还会额外附带参考音频。
ControlFoley通过随机模态dropout和统一的多模态表示对齐训练,确保模型在不同的输入组合下都能稳定运行。同时,模型还采用统一的REPA对齐目标,使生成音频的内部表示与聚合后的多模态条件对齐,从而显著提升了语义一致性和控制的鲁棒性。这意味着,ControlFoley并非为单一任务“特化”而成,而是一个能统一处理TV2A、TC-V2A和AC-V2A等多种任务的全面框架。
在常规的视频配音任务TV2A方面,ControlFoley在VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench等多个基准测试中均取得了开源SOTA(State-Of-The-Art)表现。
对比结果显示,ControlFoley在多个数据集上都展现出更优秀的语义对齐、时间同步和声音质量表现。
下图展示了典型视频配音结果的频谱对比。以器乐演奏和体育运动等常见场景为例,ControlFoley生成的音频不仅能在动作发生的关键时刻与视频节奏精准同步,还保留了更为完整的高频细节。相比之下,其他一些方法可能会出现声音事件错位、遗漏关键动作音效,或是生成与画面不匹配的音频。直观地看,ControlFoley不仅能为视频“加上声音”,更能使其配音精准且精细。
与商业闭源系统Kling-Foley相比,ControlFoley在关键体验指标上同样展现出强大的竞争力。在语义对齐、时间同步和声音质量等核心体验维度上,ControlFoley相较于Kling-Foley表现出稳定的优势,完整的客观指标可在技术报告中查阅。ControlFoley的各项资源目前已全面开放。
