microphone-linesサウンドモデル

chevron-rightMirelohashtag

Mirelo Video2SFX 1.0

Mirelo Video2SFX 1.0 はベルリン拠点の Mirelo による基礎的なビデオ→効果音モデルで、テキストプロンプトなしにビデオ入力から同期した音声を生成するよう設計され、AI生成コンテンツ向けに特化しています。不要な音楽や音声のアーティファクトを含まない純粋な効果音の生成に優れており、競合が失敗する合成映像でも特に高性能を発揮します。リアルタイム生成で10秒のビデオをサポートし、2〜4種類の多様な出力バリエーションを生成します。軽量な専門アーキテクチャにより、典型的な大規模言語モデルより50倍少ない計算量を必要とします。

公式サイト: https://www.mirelo.aiarrow-up-right


Mirelo Video2SFX 1.5

Mirelo Video2SFX 1.5 は2025年にリリースされた Mirelo の強化版ビデオ→効果音モデルで、音声の忠実度の向上、より広いシーン対応、処理速度の高速化を実現します。テキスト不要のゼロプロンプト動作を維持し、ビデオ解析のみからコンテクストに応じた音響空間を生成します。合成AIコンテンツの扱いに優れ、ブラインドリスニングテストで70〜80%の支持を獲得しています。フレーム精度の同期強化、複数バリエーション生成、最適化された推論を備え、自然環境から複雑なアクションシーンまで多様なシナリオをサポートします。Index Ventures と Andreessen Horowitz が支援する4,400万ドルの資金調達を受けたスタートアップの一部です。

公式サイト: https://www.mirelo.aiarrow-up-right

chevron-rightMMAudiohashtag

MMAudio 2

MMAudio 2 はイリノイ大学とSony AI によるマルチモーダル音声生成モデル(CVPR 2025)で、共同学習フレームワークを通じてビデオおよび/またはテキストから同期した音声を合成します。1.57億パラメータを特徴とし、44.1kHzで8秒のクリップを1.23秒で生成し、必要GPUメモリはわずか6GBです。Synchformer と CLIP 抽出器を備えたフロー予測ネットワークを利用し、従来モデルに比べてFréchet距離が10%改善、Inceptionスコアが15%向上、同期性能が14%改善されています。ビデオ→音声、テキスト→音声、および実験的な画像→音声合成をサポートし、MITオープンソースライセンスで提供されています。

公式サイト: https://github.com/hkchengrex/MMAudioarrow-up-right

最終更新