video비디오 모델

chevron-rightSeedancehashtag

Seedance 1.0 Lite

Seedance 1.0 Lite는 2025년 6월에 공개된 ByteDance의 빠르고 비용 효율적인 비디오 생성 변형으로, 빠른 반복과 예산을 중시하는 워크플로우에 최적화되어 있습니다. 약 40초 내외의 처리 시간으로 720p 비디오를 생성하며, 멀티샷 내러티브와 스타일 다양성의 핵심 기능을 상당히 낮은 계산 비용으로 유지합니다. 빠른 프로토타이핑, A/B 테스트 변형, 소셜 미디어 콘텐츠 및 속도가 최대 화질보다 중요한 대량 제작에 이상적입니다. Volcano Engine, Neural Frames 및 API 파트너를 통해 빠른 피드백 루프가 필요한 간소화된 크리에이티브 워크플로우에서 이용 가능합니다.

공식 사이트: https://seed.bytedance.com/en/seedancearrow-up-right


Seedance 1.0 Pro

Seedance 1.0 Pro는 2025년 6월에 공개된 ByteDance의 플래그십 비디오 생성 모델로, 텍스트-투-비디오와 이미지-투-비디오 과제 모두에서 Artificial Analysis 리더보드 1위를 차지했습니다. 매끄러운 모션, 풍부한 디테일 및 시네마틱 미학을 갖춘 1080p 비디오를 생성하며, 피사체와 스타일 일관성을 유지하는 심리스한 전환으로 멀티샷 내러티브 스토리텔링에 뛰어납니다. 시공간 분리 확산 변환기 아키텍처와 시간적 인과 VAE를 기반으로 구축되어 뛰어난 의미 이해와 프롬프트 준수성을 달성하며, 포토리얼리즘부터 애니메까지 다양한 스타일에서 우수한 성능을 보입니다. 복잡한 카메라 움직임, 다중 에이전트 상호작용 및 미묘한 표정부터 대규모 액션 장면까지 넓은 다이내믹 레인지를 지원합니다.

공식 사이트: https://seed.bytedance.com/en/seedancearrow-up-right


Seedance 1.0 Pro Fast

Seedance 1.0 Pro Fast는 2025년 6월에 공개된 ByteDance의 최적화 변형으로, Seedance 1.0 Pro보다 3배 빠른 생성 속도를 달성하면서도 고품질 1080p 출력을 유지합니다. 속도, 품질 및 비용 효율성 사이의 균형이 필요한 프로덕션 워크플로우를 위해 설계되었으며, 공격적인 다단계 지식 증류를 통해 30-60% 빠른 추론을 제공하면서 멀티샷 내러티브, 의미 이해 및 시네마틱 미학을 포함한 핵심 기능을 보존합니다. 광고, 소셜 미디어 및 단편 내러티브를 포함한 전문 콘텐츠의 빠른 생산이 필요한 크리에이터에게 이상적입니다. ByteDance의 Volcano Engine 및 Replicate, fal.ai 등을 포함한 API 파트너를 통해 이용 가능합니다.

공식 사이트: https://seed.bytedance.com/en/seedancearrow-up-right


Seedance 1.5 Pro

Seedance 1.5 Pro는 2025년에 정식 출시된 ByteDance의 차세대 오디오-비주얼 공동 생성 모델로, 듀얼 브랜치 확산 변환기 아키텍처를 통해 한 번의 패스로 동기화된 비디오와 오디오를 생성합니다. 영어, 표준 중국어, 일본어, 한국어, 스페인어, 포르투갈어, 인도네시아어 및 중국 방언을 포함한 다중 언어에서 밀리초 단위 정밀도의 립싱크를 달성하며, 주변 음향, 감정 표현이 있는 캐릭터 음성 및 시각적 리듬에 맞는 배경 음악을 생성합니다. 향상된 의미 이해는 일관된 캐릭터, 정밀한 카메라 제어(팬, 틸트, 줌, 오빗) 및 극적인 시각적 임팩트를 갖춘 일관된 멀티샷 내러티브를 가능하게 합니다. 영화 제작, 광고, 단편 드라마 및 공연 예술을 위한 전문급 오디오-비주얼 시너지로 1080p 출력을 지원합니다.

공식 사이트: https://seed.bytedance.com/en/seedance1_5_proarrow-up-right

chevron-rightLTXhashtag

LTX 2 Fast

LTX 2 Fast는 2025년 10월에 공개된 Lightricks의 속도 최적화 변형으로, 빠른 아이디어 도출, 스토리보드 작업, 모바일 워크플로우 및 대량 제작을 위해 구축되었습니다. 오디오가 동기화된 4K 비디오(QHD/4K, 24+ fps)를 재생 시간보다 빠르게 6-10초 클립으로 생성하여 즉각적인 피드백을 제공해 크리에이티브 테스트와 반복을 가속화합니다. 경쟁 모델보다 훨씬 높은 스텝 처리량을 달성한 증류 하이브리드 아키텍처를 기반으로 전문 품질을 유지하며, 유동적인 모션, 현실적인 음향 효과, 대사 및 음악을 단일 패스로 생성합니다. 프리뷰, 컨셉 검증 및 최대 품질보다 빠른 처리 속도가 필요한 시나리오에 적합합니다. LTX Studio, API, Replicate 및 ComfyUI 통합을 통해 이용 가능합니다.

공식 사이트: https://ltx.io/model/ltx-2arrow-up-right


LTX 2 Pro

LTX 2 Pro는 2025년 10월에 공개된 Lightricks의 균형 잡힌 프로덕션 변형으로, 전문 워크플로우 전반에서 효율성과 품질을 최적화하도록 설계되었습니다. 최대 10초, 50fps까지 오디오가 동기화된 4K 비디오를 생성하며, 이해관계자 리뷰, 고객 프레젠테이션 및 마케팅 콘텐츠에 적합한 높은 시각적 충실도를 제공합니다. DiT 기반 아키텍처에 다중 키프레임 컨디셔닝, 3D 카메라 로직 및 LoRA 파인튜닝 지원을 결합하여 구조, 모션 및 아이덴티티에 대한 정밀한 크리에이티브 제어를 가능하게 합니다. 경쟁 모델 대비 최대 50% 낮은 계산 비용으로 프로덕션 수준의 품질을 유지하며 소비자급 GPU에서 효율적으로 동작합니다. 에이전시, 스튜디오 및 크리에이티브 팀의 기본 선택입니다.

공식 사이트: https://ltx.io/model/ltx-2arrow-up-right


LTX 2 Retake

LTX 2 Retake는 LTX-2 기반으로 구축된 Lightricks의 혁신적인 비디오 수정 모델로, 전체 클립을 재생성하지 않고 특정 비디오 구간을 정밀하게 편집할 수 있게 합니다. 시간적 마커가 포함된 자연어 프롬프트를 사용하여 타겟 구간(조명, 분위기, 대사, 감정)을 정확히 수정하면서 모션 연속성, 구성 및 환경적 컨텍스트를 포함한 주변 영상의 무결성을 보존합니다. 기존 푸티지를 기반으로 동작하며 처음부터 생성하는 대신 정밀한 편집을 가능하게 해 일회성 렌더링을 반복 가능한 프로덕션급 워크플로우로 전환합니다. 비디오 전용, 오디오 전용 또는 결합된 수정(최대 20초)을 지원합니다. 전문 후반 제작 및 크리에이티브 반복 워크플로우를 위해 WaveSpeedAI API, RunComfy 플랫폼 및 LTX Studio를 통해 제공됩니다.

공식 사이트: https://ltx.io/model/ltx-2arrow-up-right

chevron-rightHailuohashtag

Hailuo 2.3 Fast

Hailuo 2.3 Fast는 2025년 10월에 공개된 MiniMax의 속도 최적화 변형으로, 약 30-50% 빠른 생성(클립당 20-50초)과 약 50% 낮은 비용으로 강력한 시각 품질을 유지합니다. 768p 해상도에서 6-10초 길이의 이미지-투-비디오 워크플로우를 지원하며, 모션 품질, 시각적 일관성 및 애니메, 일러스트, 게임-CG 스타일을 포함한 스타일화 능력을 보존합니다. 빠른 반복, A/B 테스트, 배치 자동화 및 속도가 중요한 대량 콘텐츠 제작을 위해 구축되었습니다. 소셜 미디어 크리에이터, 전자상거래 광고, 변형을 테스트하는 마케팅 팀 및 빠른 처리 시간이 필요한 AI 기반 애플리케이션 개발자에게 이상적입니다. Hailuo AI 플랫폼, WaveSpeedAI, Replicate, fal.ai를 통해 VEED 및 Freepik과 통합되어 이용 가능합니다.

공식 사이트: https://hailuoai.videoarrow-up-right


Hailuo 2.3

Hailuo 2.3는 2025년 10월에 공개된 MiniMax의 플래그십 비디오 생성 모델로, 동적 표현, 물리적 사실성 및 스타일화에서 주요 향상을 기반으로 합니다. 복잡한 신체 움직임, 얼굴의 미세 표정 및 모션 명령 반응에서 상당한 개선을 달성하며, 거의 포토리얼리즘 수준의 조명, 그림자 및 색조를 구현합니다. 768p/1080p 해상도에서 6-10초 길이의 텍스트-투-비디오 및 이미지-투-비디오 워크플로우를 지원하며, 애니메, 일러스트, 수묵화 및 게임-CG 스타일에 뛰어납니다. 향상된 물리 이해는 유동적인 안무, 체조 같은 극한 동작 및 시네마틱 카메라 움직임을 가능하게 합니다. Hailuo 02와 동일한 가격대를 유지하면서 확장된 기능을 제공해 비디오 모델의 비용 효율성 기록을 경신합니다. Hailuo AI, API 플랫폼, VEED 및 fal.ai를 통해 이용 가능합니다.

공식 사이트: https://hailuoai.videoarrow-up-right


Hailuo 2

Hailuo 02는 2025년 6월에 공개된 MiniMax의 획기적인 비디오 생성 모델로, Artificial Analysis 벤치마크에서 전 세계 #2(ELO 1322)를 기록하며 Google Veo 3를 능가했습니다. Noise-aware Compute Redistribution(NCR) 아키텍처를 기반으로 훈련/추론 효율이 2.5배, 파라미터는 3배, 학습 데이터는 4배 증가하는 혁신을 이루었습니다. 네이티브 1080p 비디오를 최대 10초(24-30 fps)까지 생성하며, SOTA 수준의 지시 준수와 곡예, 유체 역학 및 복잡한 물체 상호작용을 포함한 뛰어난 물리 제어 능력을 보유합니다. 텍스트-투-비디오와 이미지-투-비디오를 지원하며 768p-6s, 768p-10s, 1080p-6s의 세 가지 버전을 제공합니다. 전 세계적으로 3억 7천만 개 이상의 비디오 생성에 기여했습니다. Hailuo AI 플랫폼, API, BasedLabs 및 fal.ai를 통해 업계 선도적 가격으로 이용 가능합니다.

공식 사이트: https://hailuoai.videoarrow-up-right

chevron-rightVeohashtag

Veo 3

Veo 3는 2025년 5월 Google I/O에서 공개된 Google DeepMind의 최첨단 비디오 생성 모델로, 대사, 음향 효과 및 주변 소음을 포함한 네이티브 동기화 오디오를 처음으로 탑재했습니다. 24fps로 720p-1080p 해상도의 4-8초 비디오를 생성하며, 향상된 물리 시뮬레이션과 시네마틱 이해를 통해 품질, 현실감 및 프롬프트 준수성이 개선되었습니다. 텍스트-투-비디오와 이미지-투-비디오 워크플로우를 지원하며 사실적인 캐릭터 움직임, 역동적인 카메라 워크 및 포토리얼리즘부터 애니메이션까지 다양한 시각 스타일에 뛰어납니다. 모든 출력물에는 투명성을 위한 SynthID 워터마크가 포함됩니다. 출시 이후 4천만 개 이상의 비디오가 생성되었습니다. Gemini 앱, Flow, Gemini API(Google AI Studio) 및 엔터프라이즈 고객을 위한 Vertex AI를 통해 이용 가능합니다.

공식 사이트: https://deepmind.google/models/veo/arrow-up-right


Veo 3.1

Veo 3.1은 2025년 10월에 공개된 Google DeepMind의 향상된 비디오 생성 모델로, Veo 3를 기반으로 보다 풍부한 네이티브 오디오, 실제감을 더 잘 포착하는 텍스처 및 향상된 시네마틱 스토리텔링을 제공합니다. 4-8초 기본 클립(720p-1080p) 생성과 60초 이상으로 확장 가능한 기능을 지원하며, 다중 이미지 참조 가이드, 시작/종료 프레임 제어 및 장면 확장 등 혁신적인 크리에이티브 제어를 도입합니다. 향상된 이미지-투-비디오 기능은 더 나은 오디오-비주얼 품질과 프롬프트 준수성을 제공하면서 장면 간 캐릭터 일관성을 유지합니다. Flow 통합의 새로운 기능은 Ingredients to Video, Frames to Video, 삽입/제거 편집 및 내러티브 빌딩 도구를 포함합니다. Gemini 앱, Flow, Gemini API 및 Vertex AI를 통해 제공되며 2억 7천5백만 개 이상의 비디오가 생성되었습니다.

공식 사이트: https://deepmind.google/models/veo/arrow-up-right


Veo 3.1 Fast

Veo 3.1 Fast는 2025년 10월 Veo 3.1과 함께 공개된 Google DeepMind의 속도 최적화 변형으로, 빠른 반복, 대량 제작 및 비용 효율적인 워크플로우를 위해 설계되었습니다. 약 62.5% 낮은 비용($0.15/초 vs 표준 $0.40)으로 상당히 빠른 생성 속도를 제공하며, 핵심 품질을 유지하면서 개념 테스트, A/B 테스트 변형, 소셜 미디어 콘텐츠 및 광고 크리에이티브에 적합합니다. Veo 3.1과 동일한 해상도 옵션(720p-1080p) 및 네이티브 오디오 생성 등 창작 제어 기능을 지원하므로 최대 화질보다 빠른 처리 속도가 중요한 프로젝트에 이상적입니다. Gemini 앱(Google AI Pro 플랜), Flow(생성당 10크레딧), Gemini API 및 개발자를 위한 Vertex AI를 통해 이용 가능합니다.

공식 사이트: https://deepmind.google/models/veo/arrow-up-right

chevron-rightRunwayhashtag

Runway Gen-4 Turbo

Runway Gen-4 Turbo는 2025년 4월에 공개된 Runway의 가장 빠르고 강력한 AI 비디오 생성 모델로, 10초 비디오를 단 30초 만에 생성해 표준 Gen-4보다 최대 5배 빠릅니다. 빠른 반복과 크리에이티브 탐색에 최적화되어 선명한 시각, 높은 모션 일관성 및 정확한 프롬프트 준수를 유지하면서 크레딧 비용을 초당 5크레딧으로 낮췄습니다(Gen-4의 초당 12크레딧 대비). 720p 해상도의 이미지-투-비디오 워크플로우를 지원하며 4K 업스케일 기능이 있어 단일 참조 이미지를 사용해 조명 조건과 환경에 걸쳐 일관된 캐릭터 및 객체 생성을 잘 수행합니다. 마케팅, 광고, 영화 및 뮤직비디오 등에서 빠른 프로토타이핑, 컨셉 개발, 실험 및 대량 제작에 적합하게 설계되었습니다. 유료 및 엔터프라이즈 사용자를 위한 Runway 플랫폼에서 API 접근을 통해 통합 제공됩니다.

공식 사이트: https://runwayml.com/research/introducing-runway-gen-4arrow-up-right


Runway Gen-4 Aleph

Runway Gen-4 Aleph는 2025년 7월 25일에 공개된 Runway의 컨텍스트 기반 최첨단 비디오 편집 모델로, 기존 푸티지의 포괄적 변환 및 조작 작업을 위해 설계되었습니다. 새 콘텐츠를 생성하는 생성 모델과 달리 Aleph는 객체 추가, 제거, 교체, 새로운 뷰 생성, 숏 연장 및 모션 전송을 가능하게 하는 프롬프트 기반 워크플로우를 통해 실제 푸티지 편집에 뛰어납니다. 최대 5초 길이를 지원하며 지원되는 해상도로 자동 크롭을 수행하고, 대체 카메라 각도(리버스 샷, 오버더숄더, 항공 시점)를 시뮬레이션하기 위해 공간 매핑과 깊이 추정 기능을 수행합니다. 장면 무결성을 유지하면서 조명, 날씨, 시간대 변환, 스타일 전이 및 지능형 장면 확장 기능을 제공하며, 협업 크리에이티브 파트너 경험을 위한 채팅 모드 또는 수동 제어를 위한 도구 모드에서 사용할 수 있습니다. Runway 플랫폼의 Standard 플랜 이상 가입자에게 4K 업스케일 옵션과 함께 제공됩니다.

공식 사이트: https://runwayml.comarrow-up-right


Runway Video Upscale

Runway Video Upscale은 생성된 비디오를 최대 4K(3840×2160)로 4배 업스케일하되 각 변의 최대 4096픽셀로 제한하는 Runway의 AI 기반 해상도 향상 기능입니다. 모든 유료 플랜(Standard, Pro, Unlimited)에서 Gen-3 Alpha 및 Gen-4 워크플로우와 직접 통합되어 프로덕션 준비 출력물을 원활하게 생성할 수 있습니다. 프레임 레이트 조정 없이 해상도 증가에만 집중하면서 시간적 일관성과 원본 푸티지의 미학을 보존하여 프레임 간 부드러운 모션을 유지합니다. 간단한 픽셀 늘리기가 아니라 AI를 활용해 세부를 지능적으로 복원하지만 결과는 소스 비디오 품질에 따라 달라지며 특히 40초 미만의 양호한 품질 입력에서 최상의 성능을 보입니다. 숏폼 콘텐츠, 소셜 미디어, 아카이브 복원 및 후반 제작 워크플로우에 최적화되어 있습니다. 생성이 완료된 후 Actions 메뉴의 원클릭 "4K로 업스케일" 버튼을 통해 접근할 수 있습니다.

공식 사이트: https://runwayml.comarrow-up-right

chevron-rightKlinghashtag

Kling 1.6 Pro

Kling 1.6 Pro는 2024년 12월에 공개된 Kuaishou의 고품질 비디오 생성 모델로, Artificial Analysis 이미지-투-비디오 리더보드에서 전 세계 1위를 차지한 Arena ELO 1,000 점수를 기록하며 Google Veo 2와 Pika Art를 능가했습니다. 모션 이해, 카메라 안정성, 색상 정확성 및 조명 역학에서 포괄적인 업그레이드를 제공하며, 다중 이미지 참조 기능을 통해 서로 다른 시나리오에서 일관된 캐릭터 및 객체 생성을 가능하게 했습니다. 1080p 해상도에서 5-10초 비디오를 생성하며 텍스트 반응성, 시간적 동작 해석 및 카메라 움직임 이해에 탁월합니다. 텍스트-투-비디오와 이미지-투-비디오 워크플로우를 모두 지원하며 정교한 렌더링과 향상된 시각 품질로 악명 높은 "AI 얼굴 변화" 및 "제품 변형" 문제를 해결했습니다. Kling AI 플랫폼을 통해 전 세계적으로 제공되며 상업적 응용을 위한 API도 제공합니다.

공식 사이트: https://klingai.comarrow-up-right


Kling 2.1

Kling 2.1은 2025년 5월에 공개된 Kuaishou의 고급 비디오 생성 모델로, 비용 효율성과 효율적 콘텐츠 생성을 위해 설계된 Standard(720p) 및 Pro(1080p) 품질 모드를 제공합니다. Kling 2.0 기반을 확장하여 향상된 모션 충실도, 시각적 일관성 및 더 강력한 프롬프트 준수성을 제공하며 고급 3D 시공간 어텐션 메커니즘과 확산 변환기 아키텍처를 통해 이를 실현합니다. 720p/1080p 해상도에서 이미지 또는 텍스트로 5-10초 비디오 생성을 지원하며 사실적인 모션, 표현력 있는 캐릭터 및 포토리얼리틱 렌더링으로 시네마틱 품질을 달성합니다. 액션 시퀀스부터 복잡한 안무에 이르기까지 역동적인 장면에서 부드러운 전환과 물리적으로 정확한 움직임을 잘 처리합니다. 전 세계 Kling AI 플랫폼을 통해 제공되며 전문 및 크리에이티브 워크플로우를 지원하고 현재 중국어 기반의 오디오 생성 기능을 포함합니다.

공식 사이트: https://klingai.comarrow-up-right


Kling 2.1 Master

Kling 2.1 Master는 2025년 5월에 공개된 Kuaishou의 프리미엄 비디오 생성 모델로, 탁월한 모션 성능과 향상된 의미적 반응성을 제공하여 AI 비디오 창작에서 중요한 돌파구를 나타냅니다. Master Edition의 플래그십 변형으로서 사실적인 관절 정렬, 물리적으로 정확한 움직임 및 감정 표현이 풍부한 얼굴 애니메이션 등 미묘한 디테일을 정확히 포착하는 정밀도를 달성합니다. 720p/1080p 해상도에서 5-10초 비디오를 생성하며 일부 평가에서는 Google Veo 3와 벤치마크에서 동급 1위로 평가되기도 합니다. 텍스트-투-비디오 및 이미지-투-비디오 워크플로우를 지원하며 높은 모션 장면, 역동적 구성 및 스타일 실험적 출력에 뛰어납니다. 기술, 미학 및 제어 가능한 생성의 돌파구를 결합한 전반적인 사용자 경험의 도약을 대표합니다. Kling AI 플랫폼 및 WaveSpeedAI를 통해 프리미엄 전문 응용을 위해 제공됩니다.

공식 사이트: https://klingai.comarrow-up-right


Kling 2.5 Turbo

Kling 2.5 Turbo는 Kling 2.1 대비 25% 낮은 가격으로 제공되면서도 유동적인 모션, 시네마틱 비주얼 및 정밀한 프롬프트 기반 제어를 유지하는 Kuaishou의 속도 및 비용 최적화 비디오 생성 모델입니다. 텍스트-투-비디오와 이미지-투-비디오 워크플로우를 모두 지원하는 Standard 및 Pro 변형으로 제공되며, 720p/1080p 해상도에서 5-10초 생성에 대해 향상된 프롬프트-투-모션 응답성을 제공합니다. 대량 제작, 빠른 반복 및 프리미엄 비용 없이 전문 품질을 요구하는 예산 중심 크리에이터를 위해 설계되었습니다. 동적 효과, 매끄러운 전환 및 영화, 광고, 디자인 및 엔터테인먼트 응용 전반에 걸친 창의적 스타일 블렌딩을 지원합니다. 콜드 스타트가 없는 WaveSpeedAI API 및 빠른 추론을 위한 최적화된 인프라를 통해 접근할 수 있어 소셜 미디어 콘텐츠, 마케팅 비디오 및 빠른 처리 시간이 필요한 크리에이티브 실험에 이상적입니다.

공식 사이트: https://klingai.comarrow-up-right


Kling 2.6

Kling 2.6 Pro는 네이티브 오디오 생성, 정교한 모션 충실도 및 방송 품질 출력을 제공하는 Kuaishou의 최고급 비디오 생성 모델입니다. Kling 2.0 아키텍처를 확장하여 향상된 음성 합성 기능, 모션 일관성 및 시네마틱 비주얼을 제공하며, 오디오 끔 상태에서 초당 $0.07, 오디오 켬 상태에서 초당 $0.14의 가격으로 전문적 이미지-투-비디오 생성을 제공합니다. 전용 모션 제어 엔드포인트를 통한 미세한 모션 제어, 강한 디테일 보존을 통한 고충실 렌더링 및 일관된 시간적 일관성을 갖춘 전문급 출력을 지원합니다. 모션 제어, 이미지-투-비디오, 텍스트-투-비디오 등 다양한 프로덕션 워크플로우에 적합한 전문화된 변형으로 제공됩니다. fal.ai 및 WaveSpeedAI 플랫폼을 통해 접근 가능하며 상업적 및 크리에이티브 응용에 적합한 자연스러운 모션, 조명, 대기 현실감 및 고충실 색상 재현을 위한 고급 렌더링을 제공합니다.

공식 사이트: https://klingai.comarrow-up-right

chevron-rightSorahashtag

Sora 2

Sora 2는 2025년 9월 30일에 공개된 OpenAI의 플래그십 비디오 및 오디오 생성 모델로, 물리 시뮬레이션 및 동기화된 오디오 생성에서 획기적인 능력을 보여 "비디오의 GPT-3.5 순간"으로 불립니다. 2024년 2월의 Sora 기반을 확장하여 720p에서 1080p까지 해상도로 최대 25초의 비디오를 네이티브 오디오(대사, 음향 효과 및 주변음 포함)와 완벽하게 동기화하여 생성합니다. 패들보드에서의 백플립과 현실적인 부력, 올림픽 체조 루틴, 트리플 악셀 등 정확한 물리 모델링에 뛰어나며, 프롬프트에 맞추기 위해 현실을 왜곡하는 대신 실패 상태를 적절히 시뮬레이션합니다. 사용자가 자신의 모습과 목소리를 생성 환경에 주입할 수 있는 Cameo 기술, 멀티샷 내러티브 일관성 및 프레임별 제어를 위한 스토리보드 기능을 제공합니다. sora.com, iOS/Android 앱의 소셜 크리에이션 플랫폼 및 API 접근을 통해 이용 가능하며, 가시적인 워터마크와 콘텐츠 출처를 위한 C2PA 메타데이터를 포함합니다.

공식 사이트: https://sora.comarrow-up-right


Sora 2 Pro

Sora 2 Pro는 ChatGPT Pro 구독자에게 실험적으로 더 높은 품질의 출력을 독점 제공하는 OpenAI의 최첨단, 가장 진보된 미디어 생성 모델입니다. Sora 2 기반 아키텍처를 확장하여 향상된 시각적 충실도, 우수한 모션 일관성 및 정교한 물리 정확도를 제공하며 최대 품질을 요구하는 전문 응용에 적합합니다. 스토리보드 인터페이스를 통해 동기화된 오디오와 함께 확장된 25초 비디오 생성을 지원하며, 표준 등급에서는 제공되지 않는 프레임별 창작 제어를 제공합니다. 복잡한 시네마틱 시퀀스, 정교한 캐릭터 애니메이션 및 방송 품질 콘텐츠 제작에 최적화되어 의미적 반응성과 예술적 범위가 향상되었습니다. Pro 사용자는 sora.com을 통해 더 높은 일일 생성 한도와 우선 처리로 접근할 수 있습니다. 향후 엔터프라이즈 워크플로우를 위한 API 제공도 계획되어 일관된 품질과 고급 크리에이티브 기능을 대규모로 지원할 예정입니다.

공식 사이트: https://sora.comarrow-up-right

chevron-rightLumahashtag

Luma Ray 2 Flash

Luma Ray 2 Flash는 Luma AI의 속도 최적화 비디오 생성 모델로, 처리 속도는 3배, 비용은 3배 낮추면서도 최첨단 프로덕션 품질을 유지합니다. 텍스트-투-비디오, 이미지-투-비디오, 오디오 생성 및 제어 기능을 포함한 Ray 2의 모든 기능을 매우 짧은 대기 시간으로 제공하여 일반적으로 5-10초 클립이 몇 초 만에 렌더링됩니다. Ray 1 대비 10배의 컴퓨트 확장을 가진 Ray 2의 멀티모달 아키텍처를 기반으로 자연스럽고 일관된 모션, 실감 나는 텍스처, 부드러운 카메라 워크 및 현실적인 조명을 갖춘 포토리얼리틱 비주얼을 생성합니다. 720p-1080p 해상도에서 5-10초 생성과 최대 30초까지 확장 기능을 지원하며, 키프레임 제어, 루프 기능 및 4K 업스케일을 포함합니다. 느린 모션 문제를 제거한 간소화된 워크플로우를 통해 모든 Dream Machine 구독자에게 제공되며 소셜 미디어, 마케팅 및 빠른 반복이 필요한 전문 응용에 적합합니다.

공식 사이트: https://lumalabs.ai/dream-machinearrow-up-right


Luma Ray 2

Luma Ray 2는 2024년 12월에 발표된 Luma AI의 대규모 비디오 생성 모델로, Ray 1 대비 10배의 컴퓨트 파워를 가진 새로운 멀티모달 아키텍처로 훈련되어 텍스트와 이미지로부터 10초 미만의 시간에 비디오를 생성합니다. 540p-1080p 해상도에서 5-10초 클립을 생성하며 고급 촬영기법, 부드러운 모션 및 초현실적 디테일을 통해 빠른 일관된 모션과 논리적 이벤트 시퀀스를 제공합니다. 비디오 데이터로 직접 학습된 멀티모달 변환기 아키텍처를 기반으로 사람, 동물 및 객체 간 상호작용을 이해하여 물리적으로 정확한 일관된 캐릭터를 생성합니다. 텍스트-투-비디오, 이미지-투-비디오를 지원하며 시작/종료 프레임 제어를 가능하게 하는 키프레임, 최대 60초까지 확장 가능한 Extend 기능, 루프 기능 및 오디오 생성 기능을 포함합니다. 유료 구독자를 위한 Dream Machine 플랫폼과 엔터프라이즈 개발자를 위한 Amazon Bedrock 통합을 통해 제공되며, 창작 및 전문 워크플로우 전반에 걸쳐 사용 가능한 생성의 성공률을 크게 향상시킨 프로덕션 준비 출력물을 제공합니다.

공식 사이트: https://lumalabs.ai/ray2arrow-up-right


Luma Reframe Video

Luma Reframe Video는 Luma AI의 획기적인 비디오 아웃페인팅 기능으로, 최대 30초 길이의 비디오에 대해 즉각적인 가로세로 비율 변환과 지능형 테두리 확장을 가능하게 합니다. Dream Machine의 핵심 AI를 사용하여 원래 프레임 경계를 넘어 새로운 시각적 콘텐츠를 수직, 수평 또는 대각선 방향으로 생성하면서 주 피사체의 무결성을 유지합니다. YouTube 와이드스크린에서 TikTok 세로 포맷으로의 크로스 플랫폼 콘텐츠 적응에 이상적인 6가지 프리셋 가로세로비(9:16, 4:3, 1:1, 3:4, 16:9, 21:9)를 지원합니다. 일관된 모션과 현실적인 디테일을 유지하면서 스타일에 맞춘 시각을 지능적으로 인페인팅하여 재촬영이나 수동 크롭 없이 결과를 만듭니다. 웹 및 iOS에서 Enterprise 및 Unlimited 플랜에 제공되며 Ray2 Flash의 경우 720p(최대 30초), Ray2의 경우 720p(최대 10초)로 출력됩니다. 크레딧 비용: 이미지당 4크레딧, Ray2 Flash는 초당 11크레딧, Ray2는 길이에 따라 160-320크레딧입니다.

공식 사이트: https://lumalabs.ai/reframearrow-up-right

chevron-rightPixversehashtag

Pixverse 4

Pixverse 4는 2025년 2월 25일에 공개된 PixVerse의 생성 AI 비디오 모델로 현실감, 자연스러운 모션 표현 및 가속화된 생성 속도를 크게 향상시켰습니다. 텍스트 또는 이미지 프롬프트로 5-8초 비디오를 생성하며 향상된 프롬프트 준수성과 물리 정확도를 제공하고, 한 번의 클릭으로 오디오-비주얼 콘텐츠를 생성하는 동기화된 오디오 생성을 특징으로 합니다. 라이브액션을 애니메, 수채화 또는 기타 예술적 스타일로 즉시 변환하는 혁신적인 "Restyle" 기능을 도입했습니다. 텍스트-투-비디오 및 이미지-투-비디오 워크플로우를 지원하며 경쟁력 있는 가격($0.01 단위)으로 10초 생성 시간을 제공합니다. 유동적인 캐릭터 움직임, 현실적인 텍스처, 부드러운 카메라 워크 및 뛰어난 캐릭터 일관성으로 소셜 미디어 바이럴 효과에 강합니다. PixVerse 플랫폼, 모바일 앱 및 오픈 API를 통해 광고, 마케팅 및 엔터테인먼트 응용 전반의 크리에이티브 워크플로우에 통합 제공됩니다.

공식 사이트: https://app.pixverse.aiarrow-up-right


Pixverse 4.5

Pixverse 4.5는 2025년 5월 13일에 공개된 PixVerse의 고급 비디오 생성 모델로, 전문급 출력을 위한 시네마틱 카메라 제어 및 다중 이미지 융합 기능을 도입했습니다. 동적 팬, 줌, 푸시-풀 렌즈, 회전 및 수직 이동을 포함한 20개 이상의 카메라 움직임 제어를 통해 간단한 프롬프트로 정밀한 장면 연출이 가능합니다. 혁신적인 Fusion 기능은 여러 이미지의 피사체를 매끄럽게 융합하여 복잡한 구성에서도 캐릭터 일관성을 유지합니다. 향상된 유동적 모션과 현실적인 복잡한 동작은 미묘한 제스처, 협응된 움직임 및 감정 표현을 캡처하며 물리 정확도가 개선되었습니다. 우수한 프롬프트 준수성으로 창작 콘셉트를 정확한 시각 표현으로 변환하고 부드러운 프레임 전환을 제공합니다. 720p-1080p 해상도에서 5-10초 비디오를 생성하며 빠른 처리 속도를 유지해 반복 작업을 가속화합니다. 텍스트-투-비디오 및 이미지-투-비디오 워크플로우를 지원하면서 생성 시간 증가 없이 품질을 개선합니다.

공식 사이트: https://app.pixverse.aiarrow-up-right


Pixverse 5

Pixverse 5는 2025년 8월 28일에 출시된 PixVerse의 최신 세대 모델로, Artificial Analysis 벤치마크에서 이미지-투-비디오 2위, 텍스트-투-비디오 3위를 차지했습니다. 자연스럽고 표현력 있는 움직임과 더 부드러운 일관된 궤적을 갖춘 향상된 모션 품질, 더 선명한 해상도와 풍부한 디테일 및 현실적인 텍스처, 시네마틱 마무리를 위한 개선된 조명 및 프레임 전반에 걸친 안정적인 스타일 일관성을 제공합니다. 맥락적 이해를 통한 전례 없는 프롬프트 정확도를 특징으로 복잡한 장면 생성과 다양한 폰트에 걸친 정확한 텍스트 렌더링을 가능하게 합니다. 고속 접근성을 유지하여 360p 비디오를 5초 내에, 1080p는 약 60초에 생성합니다. PixVerse Agent 기능을 도입해 단일 사진 업로드로 자동으로 5-30초 클립을 생성할 수 있습니다. Ghibli, 2D/3D, 수채화, 베이퍼웨이브, 사이버펑크 등 확장된 스타일 옵션을 지원하여 더 큰 창의적 유연성을 제공합니다. 웹, 모바일 앱 및 오픈 API 플랫폼에서 제공되며 1억 명 이상의 글로벌 사용자에게 서비스를 제공합니다.

공식 사이트: https://app.pixverse.aiarrow-up-right

chevron-rightWanhashtag

Wan 2.2

Wan 2.2는 2025년 7월 28일에 공개된 Alibaba Tongyi Lab의 최초 오픈소스 Mixture-of-Experts(MoE) 비디오 생성 모델로, 270억 파라미터의 이중 전문가 아키텍처를 특징으로 단계당 140억만 활성화되어 계산 효율을 제공합니다. Wan 2.1보다 65.6% 더 많은 이미지와 83.2% 더 많은 비디오로 훈련되었으며 조명, 구성, 대비 및 색조에 대해 정교하게 라벨링된 미적 데이터로 시네마틱 수준의 제어 가능한 생성을 가능하게 합니다. 480p-720p(24fps) 해상도에서 텍스트-투-비디오 및 이미지-투-비디오를 지원하며, 고압축 Wan2.2-VAE를 탑재한 컴팩트한 50억 파라미터 TI2V 모델은 RTX 4090 같은 소비자 GPU에서 9분 이내에 5초 720p 비디오를 생성할 수 있습니다. Wan-Bench 2.0 벤치마크에서 우수한 모션 유동성, 의미 이해 및 프롬프트 준수성을 보여 선도적인 성능을 기록했습니다. GitHub, Hugging Face, ModelScope를 통해 MIT 라이선스로 오픈소스로 제공되며 ComfyUI, DiffusersStudio 통합을 지원해 애니메이션 및 캐릭터 교체와 전체적인 움직임 복제를 가능하게 합니다.

공식 사이트: https://wan22.ioarrow-up-right


Wan 2.5

Wan 2.5는 단일 구조화된 프롬프트에서 한 번의 패스로 오디오-비주얼 동기화를 제공하는 Alibaba의 고급 멀티모달 비디오 생성 모델로 비용 효율적이고 간소화된 제작을 제공합니다. 480p-1080p 해상도에서 네이티브 대사, 음향 효과 및 배경 음악을 포함한 5-10초 비디오를 생성하며 립싱크 자동 정렬을 통해 별도의 녹음이나 수동 정렬이 필요하지 않습니다. 여러 가로세로비(16:9, 9:16, 1:1)를 지원하고 사용자 오디오 입력을 통한 음성 교체나 음악 통합이 가능해 유연한 크리에이티브 제어를 제공합니다. Google Veo 3보다 훨씬 낮은 비용으로 고품질을 유지하며 중국어, 영어, 스페인어, 러시아어 등 다국어 지원을 제공합니다. 넓은 다이내믹 레인지를 유지하며 큰 움직임과 작은 움직임 모두에서 안정적이고 현실적인 모션을 구현합니다. Alibaba Cloud DashScope, WaveSpeedAI 및 제3자 API를 통해 접근 가능하며, 마케팅, 전자상거래, 교육 및 소셜 미디어 응용에 이상적인 약 $0.25/생성 비용입니다.

공식 사이트: https://www.wan-ai.coarrow-up-right


Wan 2.6

Wan 2.6는 2025년 12월 16일에 공개된 Alibaba의 최신 비주얼 생성 모델 시리즈로, 사용자가 자신의 외모와 목소리를 보존한 채 AI 생성 비디오에 출연할 수 있게 하는 혁신적 참조-투-비디오(Wan2.6-R2V)를 도입했습니다. 지능형 멀티샷 스토리텔링, 향상된 오디오-비주얼 동기화 및 1080p/24fps의 전문급 시네마 품질을 갖춘 최대 15초 출력물을 지원합니다. Wan2.6-T2V(텍스트-투-비디오), Wan2.6-I2V(이미지-투-비디오), Wan2.6-image 및 Wan2.6-T2I(이미지 생성)를 포함한 포괄적인 모델 업그레이드를 통해 교차 텍스트-이미지 출력에 대한 고급 논리적 추론을 제공합니다. 다인 대화, 샷 간 캐릭터 일관성 및 향상된 지시 준수 정확도를 갖춘 현실적인 음향 효과를 가능하게 합니다. 중국 최초의 참조-투-비디오 모델로 솔로 퍼포먼스나 이중 캐릭터 상호작용을 동기화된 오디오와 함께 허용합니다. Alibaba Cloud Model Studio, Wan 공식 웹사이트 및 Qwen App을 통해 광고, 엔터테인먼트 및 창작 스토리텔링 전반의 전문 콘텐츠 제작에 접근할 수 있습니다.

공식 사이트: https://www.wan-ai.coarrow-up-right

chevron-rightTopazhashtag

Topaz Video Upscale

Topaz Video Upscale은 영화 품질의 업스케일링, 노이즈 제거, 프레임 레이트 변환 및 복원을 제공하는 Topaz Labs의 전문가급 AI 기반 비디오 향상 소프트웨어입니다. Starlight, Starlight Sharp, Wonder 및 Iris를 포함한 수백만 프레임으로 훈련된 딥러닝 모델을 사용하여 저조도 복원부터 아카이브 푸티지 복원까지 다양한 향상 시나리오를 처리합니다. 최대 8K 해상도로 업스케일을 지원하며 지능적인 디테일 복원, 디인터레이싱, 노이즈 감소, 부드러운 슬로우모션을 위한 최대 16배 프레임 보간 및 카메라 안정화 기능을 후반 제작에서 제공합니다. Mac/Windows용 독립 실행형 애플리케이션 또는 DaVinci Resolve, After Effects용 플러그인으로 제공되며 전문 코덱을 지원합니다. 무제한 로컬 렌더링과 최속 처리를 위한 Cloud Credits를 이용한 클라우드 렌더링을 모두 제공합니다. Topaz Video AI v3.0은 여러 AI 모델을 동시에 스태킹—예: 4K로 업스케일하면서 안정화 및 그레인 추가—할 수 있으며 병렬 작업 실행 및 다중 GPU 지원으로 기업 워크플로우에 적합합니다.

공식 사이트: https://www.topazlabs.com/topaz-videoarrow-up-right

마지막 업데이트