声音模型

Mirelo

Mirelo Video2SFX 1.0

Mirelo Video2SFX 1.0 是总部位于柏林的 Mirelo 的基础视频到音效模型，能够从视频输入生成同步音频，无需文本提示，专为 AI 生成内容而构建。擅长生成纯粹的音效而不会产生不需要的音乐或语音伪影，特别是在竞争对手表现不佳的合成素材上。支持 10 秒视频并实时生成 2–4 个多样化输出变体。通过轻量化的专用架构，所需计算量比典型大语言模型少 50 倍。

官方网站： https://www.mirelo.ai

Mirelo Video2SFX 1.5

Mirelo Video2SFX 1.5 是 Mirelo 于 2025 年发布的增强型视频到音效模型，提供更高的音频保真度、更广的场景覆盖以及更快的处理速度。保持零提示操作，仅通过对视频的分析生成具上下文感知的声景。通过对合成 AI 内容更出色的处理，在盲听测试中获得 70–80% 的偏好率。具备增强的帧级同步、多个变体生成和优化的推理性能。支持从自然环境到复杂动作序列的多种场景。该公司为获得 4400 万美元融资的初创企业，受到 Index Ventures 和 Andreessen Horowitz 的支持。

官方网站： https://www.mirelo.ai

MMAudio

MMAudio 2

MMAudio 2 是伊利诺伊大学和 Sony AI 的多模态音频生成模型（CVPR 2025），通过联合训练框架从视频和/或文本合成同步音频。具有 1.57 亿参数，能以 44.1kHz 生成 8 秒片段，耗时 1.23 秒，仅需 6GB GPU 内存。采用带有 Synchformer 和 CLIP 提取器的流预测网络，比之前的模型在 Fréchet 距离上提高 10%，在 Inception 分数上提高 15%，在同步性上提升 14%。支持视频到音频、文本到音频以及试验性的图像到音频合成，采用 MIT 开源许可证。

官方网站： https://github.com/hkchengrex/MMAudio

最后更新于1个月前

hashtagMirelo Video2SFX 1.0

hashtagMirelo Video2SFX 1.5

hashtagMMAudio 2

Mirelo Video2SFX 1.0

Mirelo Video2SFX 1.5

MMAudio 2