microphone-lines声音模型

chevron-rightMirelohashtag

Mirelo Video2SFX 1.0

Mirelo Video2SFX 1.0 是总部位于柏林的 Mirelo 的基础视频到音效模型,能够从视频输入生成同步音频,无需文本提示,专为 AI 生成内容而构建。擅长生成纯粹的音效而不会产生不需要的音乐或语音伪影,特别是在竞争对手表现不佳的合成素材上。支持 10 秒视频并实时生成 2–4 个多样化输出变体。通过轻量化的专用架构,所需计算量比典型大语言模型少 50 倍。

官方网站: https://www.mirelo.aiarrow-up-right


Mirelo Video2SFX 1.5

Mirelo Video2SFX 1.5 是 Mirelo 于 2025 年发布的增强型视频到音效模型,提供更高的音频保真度、更广的场景覆盖以及更快的处理速度。保持零提示操作,仅通过对视频的分析生成具上下文感知的声景。通过对合成 AI 内容更出色的处理,在盲听测试中获得 70–80% 的偏好率。具备增强的帧级同步、多个变体生成和优化的推理性能。支持从自然环境到复杂动作序列的多种场景。该公司为获得 4400 万美元融资的初创企业,受到 Index Ventures 和 Andreessen Horowitz 的支持。

官方网站: https://www.mirelo.aiarrow-up-right

chevron-rightMMAudiohashtag

MMAudio 2

MMAudio 2 是伊利诺伊大学和 Sony AI 的多模态音频生成模型(CVPR 2025),通过联合训练框架从视频和/或文本合成同步音频。具有 1.57 亿参数,能以 44.1kHz 生成 8 秒片段,耗时 1.23 秒,仅需 6GB GPU 内存。采用带有 Synchformer 和 CLIP 提取器的流预测网络,比之前的模型在 Fréchet 距离上提高 10%,在 Inception 分数上提高 15%,在同步性上提升 14%。支持视频到音频、文本到音频以及试验性的图像到音频合成,采用 MIT 开源许可证。

官方网站: https://github.com/hkchengrex/MMAudioarrow-up-right

最后更新于