小米开源ControlFoley模型，智能视频配音实现“随心所欲”

5月29日，小米大模型应用团队公布了ControlFoley开源模型。这款模型致力于解决视频音效生成过程中的“可控性”挑战，能够支持三种主要的配音任务：基于文本提示生成音效、根据文本指令控制音效，以及利用参考音频调整音效。

ControlFoley在多项视频音效生成任务中均展现出卓越的开源性能，它在语义匹配、时间同步、音频品质及多模态控制能力方面实现了显著的飞跃。目前，其核心代码、模型参数、技术文档、在线演示以及即用型Skill均已向公众开放。

自动为无声视频添加音效早已不是新鲜事。现有的视频音效生成模型可以根据画面内容生成相应的声音，使无声影像更具细节和沉浸感。

然而，如果模型仅仅依赖画面自动猜测声音，创作者将难以精确掌握最终的配音效果。因此，视频音效生成需要从“看画面配声音”进化到“按意图配声音”。为此，小米大模型应用团队开发并开源了ControlFoley，这一统一且具备强大控制力的视频音效生成框架，旨在让声音真正“按你想要的来”，而不仅仅是让视频“有声音”。

ControlFoley的核心目标是构建一个统一的可控视频音效生成框架，该框架集成了三大核心能力：

TV2A（文本引导视频配音）：根据视频画面和文本提示词来生成同步的音效，其中文本用于补充和细化画面中声音的语义信息。

TC-V2A（文本控制视频配音）：即使在文本指令与视频画面语义存在冲突时，模型也能优先遵循文本意图生成目标声音，同时确保声音与视频动作在时间上保持同步。

AC-V2A（参考音频控制视频配音）：依据视频内容和提供的参考音频来生成同步音效，使得最终输出的声音在音色和风格上能与参考音频保持高度一致，同时不干扰视频本身的节奏。

这意味着，ControlFoley并非仅仅是一个将视频转换为音频的模型，而是一个专为创作控制而设计的多模态音频生成模型。

ControlFoley的模型架构通过联合视觉编码、时间-音色解耦以及多模态鲁棒训练，共同支撑了可控视频音效的生成。其中，联合视觉编码确保模型不仅能理解画面，还能准确识别控制指令。

在视频音效生成过程中，视觉信息往往占据主导地位。它能告知模型画面中发生的一切，但在多模态融合时，却可能压制文本控制的作用。为此，团队研发并独立训练了时空音视频编码器CAV-MAE-ST，以增强模型对音视频事件、动作节奏和时间同步关系的理解能力。

与CLIP模型更擅长处理视觉与文本之间的通用语义关系不同，CAV-MAE-ST专为视频配音任务重新设计和训练，更侧重于捕捉“动作何时发生、声音何时出现”这类音视频时空对应关系。它通过对视频帧和音频特征的联合建模，帮助模型精确识别动作节奏、音频事件及时间同步线索。

将两者结合后，ControlFoley不仅能保持强大的音画同步性能，还能在文本与视觉冲突时更有效地响应文本指令。这使得模型在“画面内容是一回事，用户却希望得到另一种声音”的场景下，不再完全受画面的限制。

参考音频控制的难点在于：一段音频同时包含了“声音听起来如何”和“声音何时出现”两类信息。如果模型直接利用参考音频，其中包含的节奏和时间结构可能会干扰视频自身的动作同步，最终可能导致声音风格控制不佳，同时破坏音画同步。

ControlFoley采用时间-音色解耦策略，该策略旨在抑制参考音频中冗余的时间信息，而仅保留其关键的全局音色特征。这样一来，参考音频主要负责控制“声音听起来是怎样的”，而视频本身则继续负责控制“声音何时发出”。

在实际应用中，用户所提供的信息条件往往是多样的：有时只有视频，有时是视频加文本，有时还会额外附带参考音频。

ControlFoley通过随机模态dropout和统一的多模态表示对齐训练，确保模型在不同的输入组合下都能稳定运行。同时，模型还采用统一的REPA对齐目标，使生成音频的内部表示与聚合后的多模态条件对齐，从而显著提升了语义一致性和控制的鲁棒性。这意味着，ControlFoley并非为单一任务“特化”而成，而是一个能统一处理TV2A、TC-V2A和AC-V2A等多种任务的全面框架。

在常规的视频配音任务TV2A方面，ControlFoley在VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench等多个基准测试中均取得了开源SOTA（State-Of-The-Art）表现。

对比结果显示，ControlFoley在多个数据集上都展现出更优秀的语义对齐、时间同步和声音质量表现。

下图展示了典型视频配音结果的频谱对比。以器乐演奏和体育运动等常见场景为例，ControlFoley生成的音频不仅能在动作发生的关键时刻与视频节奏精准同步，还保留了更为完整的高频细节。相比之下，其他一些方法可能会出现声音事件错位、遗漏关键动作音效，或是生成与画面不匹配的音频。直观地看，ControlFoley不仅能为视频“加上声音”，更能使其配音精准且精细。

与商业闭源系统Kling-Foley相比，ControlFoley在关键体验指标上同样展现出强大的竞争力。在语义对齐、时间同步和声音质量等核心体验维度上，ControlFoley相较于Kling-Foley表现出稳定的优势，完整的客观指标可在技术报告中查阅。ControlFoley的各项资源目前已全面开放。