microphone-lines사운드 모델

chevron-rightMirelohashtag

Mirelo Video2SFX 1.0

Mirelo Video2SFX 1.0은 베를린 기반 Mirelo의 기초적인 비디오-투-사운드이펙트 모델로, 텍스트 프롬프트 없이 비디오 입력만으로 동기화된 오디오를 생성하도록 제작된 AI 생성 콘텐츠용 모델입니다. 원치 않는 음악이나 음성 아티팩트 없이 순수한 효과음을 생성하는 데 뛰어나며, 경쟁 모델이 실패하는 합성 영상에서 특히 우수합니다. 실시간 생성으로 10초 길이 비디오를 지원하며 2~4개의 다양한 출력 변형을 생성합니다. 경량화된 특수 아키텍처를 통해 일반적인 대형 언어 모델보다 50배 적은 연산을 요구합니다.

공식 사이트: https://www.mirelo.aiarrow-up-right


Mirelo Video2SFX 1.5

Mirelo Video2SFX 1.5는 2025년에 출시된 Mirelo의 향상된 비디오-투-사운드이펙트 모델로, 개선된 오디오 충실도, 더 넓은 장면 커버리지, 그리고 더 빠른 처리 속도를 제공합니다. 비디오 분석만으로 문맥을 인식한 사운드스케이프를 생성하는 무프롬프트(프롬프트 불필요) 운영을 유지합니다. 합성 AI 콘텐츠를 더 잘 처리하여 블라인드 청취 테스트에서 70~80%의 선호도를 얻었습니다. 향상된 프레임 정확 동기화, 다중 변형 생성 및 최적화된 추론을 특징으로 하며, 자연 환경부터 복잡한 액션 시퀀스까지 다양한 시나리오를 지원합니다. Index Ventures와 Andreessen Horowitz가 지원하는 4,400만 달러 펀딩을 받은 스타트업의 일부입니다.

공식 사이트: https://www.mirelo.aiarrow-up-right

chevron-rightMMAudiohashtag

MMAudio 2

MMAudio 2는 일리노이 대학교와 Sony AI의 멀티모달 오디오 생성 모델(CVPR 2025)로, 공동 학습 프레임워크를 통해 비디오 및/또는 텍스트로부터 동기화된 오디오를 합성합니다. 1억 5,700만(157M) 매개변수를 특징으로 하며 44.1kHz에서 8초 길이 클립을 1.23초에 생성하고, GPU 메모리 6GB만을 필요로 합니다. Synchformer 및 CLIP 추출기를 사용하는 플로우 예측 네트워크를 활용하여 이전 모델 대비 프라셰 거리(Fréchet Distance)를 10% 개선하고, 인셉션 스코어는 15% 높이며, 동기화는 14% 향상시켰습니다. 비디오-투-오디오, 텍스트-투-오디오 및 실험적 이미지-투-오디오 합성을 지원하며 MIT 오픈소스 라이선스를 따릅니다.

공식 사이트: https://github.com/hkchengrex/MMAudioarrow-up-right

마지막 업데이트