视频模型
Seedance
Seedance 1.0 轻量版
Seedance 1.0 轻量版是字节跳动于2025年6月发布的快速、成本高效的视频生成变体,针对快速迭代和预算敏感的工作流进行了优化。可在约40秒的周转时间内生成720p视频,在显著降低计算成本的同时保持多镜头叙事和风格多样性的核心能力。非常适合快速原型制作、A/B 测试变体、社交媒体内容和对速度要求高于最高保真度的大批量生产。通过字节跳动的火山引擎、Neural Frames 和 API 合作伙伴提供,便于需要快速反馈循环的创意工作流。
官方网站: https://seed.bytedance.com/en/seedance
Seedance 1.0 专业版
Seedance 1.0 专业版是字节跳动于2025年6月发布的旗舰视频生成模型,在Artificial Analysis排行榜上在文本到视频和图像到视频任务中排名第一。能生成具有流畅运动、丰富细节和电影美学的1080p视频,擅长多镜头叙事与无缝过渡,同时保持主体与风格一致性。基于解耦时空扩散变换器架构和时间因果VAE,实现在不同风格(从照片写实到二次元)下的突破性语义理解和提示遵循能力。支持复杂的镜头运动、多体交互以及从细腻表情到大规模动作场面的宽动态范围表现。
官方网站: https://seed.bytedance.com/en/seedance
Seedance 1.0 专业加速版
Seedance 1.0 专业加速版是字节跳动于2025年6月发布的优化变体,比Seedance 1.0 专业版实现约3倍更快的生成速度,同时保持高质量的1080p输出。为需要在速度、质量和成本效率之间取得平衡的生产工作流而设计,通过激进的多阶段知识蒸馏实现30-60%更快的推理速度,同时保留多镜头叙事、语义理解和电影美学等核心能力。非常适合需要快速周转的专业内容创作者,包括广告、社交媒体和短篇叙事。可通过字节跳动的火山引擎及包括Replicate和fal.ai在内的API合作伙伴获得。
官方网站: https://seed.bytedance.com/en/seedance
Seedance 1.5 专业版
Seedance 1.5 专业版是字节跳动于2025年正式发布的下一代视听联合生成模型,通过双分支扩散变换器架构在单次生成中创建同步的视频和音频。能实现多语言(英语、普通话、日语、韩语、西班牙语、葡萄牙语、印尼语及中国方言)毫秒级口型同步,生成与视觉节奏匹配的环境音、具有情感表达的角色语音和背景音乐。增强的语义理解支持连贯的多镜头叙事、保持角色一致性、精确的镜头控制(平移、俯仰、变焦、环绕)及戏剧化的视觉冲击力。支持1080p输出并提供专业级视听协同,适用于电影制作、广告、短剧和文化演出。
LTX
LTX 2 加速版
LTX 2 加速版是Lightricks于2025年10月发布的速度优化变体,面向快速构想、分镜制作、移动工作流和大批量生产。可在比回放更快的时间内生成带音频同步的4K视频(QHD/4K,24+ fps),6-10秒的片段即可完成,能为创意测试和迭代提供即时反馈。基于蒸馏的混合架构实现远超竞品的步长吞吐量,同时保持专业质量,提供流畅运动、逼真音效、对话和音乐的一体化生成。非常适合预览、概念验证及以快速周转优先于最高保真度的场景。通过LTX Studio、API、Replicate 和 ComfyUI 集成可用。
官方网站: https://ltx.io/model/ltx-2
LTX 2 专业版
LTX 2 专业版是Lightricks于2025年10月发布的面向生产的平衡型变体,优化了专业工作流中的效率与精细度。可生成带音频同步的4K视频(最多10秒,50 fps),在概念与交付之间提供高视觉保真度,适用于利益相关者评审、客户演示和营销内容。基于DiT架构,具有多关键帧条件、3D镜头逻辑和LoRA微调支持,能够对结构、运动和身份进行精确创意控制。相比竞品可节省高达50%的计算成本,同时保持生产级质量,可在消费级GPU上高效运行。为代理商、工作室和创意团队的默认选择。
官方网站: https://ltx.io/model/ltx-2
LTX 2 重制(Retake)
LTX 2 重制是基于LTX-2的Lightricks革新性视频精修模型,能够对特定视频片段进行精确编辑而无需重生成整段剪辑。使用带时间标记的自然语言提示,精确修改目标部分(照明、氛围、对话、情绪),同时保留周边画面完整性,包括运动连续性、构图和环境上下文。它在现有素材上操作而非从头生成,将单次渲染的静态流程转变为迭代的生产级工作流。支持仅视频、仅音频或混合修改,最长可达20秒。可通过WaveSpeedAI API、RunComfy 平台和 LTX Studio 获取,适用于专业后期制作和创意迭代工作流。
Hailuo
Hailuo 2.3 加速版
Hailuo 2.3 加速版是MiniMax于2025年10月发布的速度优化变体,提供30-50%更快的生成速度(每片段20-50秒)并在成本上约降低50%,同时保持良好的视觉质量。支持以768p分辨率进行图像到视频的工作流,时长为6-10秒,保留核心运动质量、视觉一致性和风格化能力(包括二次元、插画和游戏CG风格)。为快速迭代、A/B 测试、批量自动化和对速度有较高要求的大批量内容生产而打造。非常适合社交媒体创作者、电商广告、测试变体的营销团队以及需要快速周转的AI应用开发者。可通过Hailuo AI 平台、WaveSpeedAI、Replicate、fal.ai 获取,并集成在VEED和Freepik中。
官方网站: https://hailuoai.video
Hailuo 2.3
Hailuo 2.3 是MiniMax于2025年10月发布的旗舰视频生成模型,在Hailuo 02的基础上对动态表现、物理真实感和风格化进行了重大增强。对复杂肢体动作、面部微表情和动作指令的响应有显著提升,呈现近乎真实的光照、阴影和色彩基调。支持768p/1080p分辨率、6-10秒的文本到视频和图像到视频工作流,擅长二次元、插画、水墨和游戏CG风格。增强的物理理解使得流畅舞蹈编排、极限动作(如体操)和电影级镜头运动成为可能。在保持与Hailuo 02相同定价的同时提供扩展功能,在视频模型的性价比上创纪录。可通过Hailuo AI、API 平台、VEED 和 fal.ai 获取。
官方网站: https://hailuoai.video
Hailuo 2
Hailuo 02 是MiniMax于2025年6月发布的突破性视频生成模型,在Artificial Analysis基准(ELO 1322)上排名全球第二,超过Google Veo 3。基于革命性的噪声感知计算重分配(NCR)架构,实现了2.5倍的训练/推理效率、3倍更大参数量和4倍的训练数据量。可生成原生1080p、最长10秒、24-30 fps的视频,具备最先进的指令遵循能力和对极限物理场景(包括杂技、流体动力学和复杂物体交互)的掌控。支持文本到视频和图像到视频,提供三种版本:768p-6秒、768p-10秒、1080p-6秒。已帮助创作者在全球生成超过3.7亿段视频。可通过Hailuo AI 平台、API、BasedLabs 和 fal.ai 获得,提供业内领先的定价。
官方网站: https://hailuoai.video
Veo
Veo 3
Veo 3 是Google DeepMind于2025年5月在Google I/O发布的最先进视频生成模型,首个具备原生同步音频(包括对话、音效和环境噪声)的型号。能以24 fps生成4-8秒、720p-1080p的16:9和9:16格式视频,通过增强的物理模拟和电影级理解提升质量、真实感和提示遵循性。支持文本到视频和图像到视频工作流,擅长逼真的角色运动、动态镜头运作以及从写实到动画的多种视觉风格。所有输出均包含SynthID水印以提升透明度。自发布以来已生成超过4000万段视频。可通过Gemini应用、Flow、Gemini API(Google AI Studio)和面向企业客户的Vertex AI获得。
官方网站: https://deepmind.google/models/veo/
Veo 3.1
Veo 3.1 是Google DeepMind于2025年10月发布的增强型视频生成模型,在Veo 3基础上扩展了更丰富的原生音频、增强的真实感(捕捉更贴近现实的纹理)以及改进的电影叙事能力。支持720p-1080p的4-8秒基础片段生成,并具备可扩展到60秒以上的延长能力,推出了革命性的创作控制功能,包括多图像参考引导、起止帧控制和场景延伸。增强的图像到视频能力在提升视听质量与提示遵循性的同时保持跨场景的角色一致性。新的Flow集成功能包括“素材到视频”、“帧到视频”、插入/删除编辑以及叙事构建工具。通过Gemini应用、Flow、Gemini API和Vertex AI提供,已生成超过2.75亿段视频。
官方网站: https://deepmind.google/models/veo/
Veo 3.1 加速版
Veo 3.1 加速版是Google DeepMind于2025年10月随Veo 3.1一同发布的速度优化变体,面向快速迭代、高产量生产和成本效益工作流。大幅加快生成速度并将成本降低约62.5%(每秒约$0.15,相较标准$0.40),在优先保证速度的同时维持核心质量,适用于概念测试、A/B 测试变体、社交媒体内容和广告创意。支持与Veo 3.1相同的分辨率选项(720p-1080p)和创作控制,包括原生音频生成,适合对快速周转优先于最高保真度的项目。可通过Gemini应用(Google AI Pro 计划)、Flow(每次生成10积分)、Gemini API 和面向开发者的 Vertex AI 获取,便于构建可扩展应用。
Runway
Runway Gen-4 Turbo
Runway Gen-4 Turbo 是Runway于2025年4月发布的最快且最强大的AI视频生成模型,可在仅30秒内生成10秒视频——比标准Gen-4快至5倍。为快速迭代和创意探索优化,保持清晰视觉、高运动一致性和精确的提示遵循,同时将积分成本降至每秒5积分(而Gen-4为每秒12积分)。支持720p分辨率的图像到视频工作流并提供4K超分辨率能力,擅长在不同光照条件和环境下基于单张参考图实现角色和物体的一致生成。为快速原型、概念开发、试验及营销、广告、电影和音乐视频等高产量生产而打造。对付费与企业用户在Runway平台上开放,并提供API接入以便集成。
官方网站: https://runwayml.com/research/introducing-runway-gen-4
Runway Gen-4 Aleph
Runway Gen-4 Aleph 是Runway于2025年7月25日发布的情境内视频编辑最先进模型,专为对现有素材进行全面变换和操作的任务设计。不同于生成新内容的模型,Aleph 擅长通过提示驱动工作流编辑真实素材,实现对象添加、移除、替换、新视角生成、镜头延续和动作迁移。支持最长5秒的时长,并自动裁剪到受支持分辨率,能执行空间映射与深度估计以模拟替代摄像机角度——如反向镜头、越肩视角、航拍视角——仿佛存在额外摄像机。具备环境控制功能,可在保持场景完整性的同时改变光照、天气和时间,支持风格迁移和智能场景扩展。提供协作式的聊天模式或手动控制的工具模式。面向标准计划及以上订阅者通过Runway平台访问,并具备4K超分选项。
官方网站: https://runwayml.com
Runway 视频超分
Runway 视频超分是Runway的AI驱动分辨率增强功能,可将生成视频放大至4K(3840×2160),以4倍放大为基础,单边像素上限为4096。对所有付费计划(标准、专业、无限)开放,直接集成于Gen-3 Alpha和Gen-4的工作流中,便于创建可直接用于生产的输出。专注于提高分辨率同时保持时间一致性和原始素材美学,不调整帧率,确保帧间运动平滑。利用AI智能填充细节而非简单像素拉伸,但结果依赖于源视频质量,对质量尚可、时长低于40秒的输入表现最佳。针对短视频内容、社交媒体、档案修复和后期制作工作流优化。生成完成后可通过操作菜单一键点击“放大至4K”按钮使用。
官方网站: https://runwayml.com
Kling
Kling 1.6 专业版
Kling 1.6 专业版是快手于2024年12月发布的高质量视频生成模型,在Artificial Analysis的图像到视频排行榜上全球排名第一,Arena ELO 得分为1000,超过Google Veo 2和Pika Art。该模型在运动理解、摄像稳定性、色彩准确性和光照动态方面进行了全面升级,推出了革命性的多图像参考功能,使角色与物体在不同场景下保持一致生成。可生成5-10秒的1080p视频,擅长文本响应、时间性动作解析和镜头运动理解。支持文本到视频和图像到视频工作流,具备细致渲染和增强的视觉质量,解决了臭名昭著的“AI 换脸”和“产品变形”问题。可通过Kling AI 平台在全球范围内获得,并提供用于商业应用的API。
官方网站: https://klingai.com
Kling 2.1
Kling 2.1 是快手于2025年5月发布的先进视频生成模型,提供标准(720p)和专业(1080p)两种质量模式,旨在实现高性价比和高效内容生成。在Kling 2.0基础上,借助先进的3D时空注意力机制和扩散变换器架构,提升了运动保真度、视觉连贯性和提示遵循性。支持从图像或文本生成5-10秒的视频(720p/1080p),实现电影级质量、逼真运动、表现力强的角色和照片级渲染。擅长从动作场面到复杂编舞的动态场景,具有平滑过渡和符合物理规律的运动表现。通过Kling AI 平台在全球范围内提供,支持专业与创意工作流并具备音频生成功能(当前仅支持中文)。
官方网站: https://klingai.com
Kling 2.1 大师版
Kling 2.1 大师版是快手于2025年5月发布的高级视频生成模型,提供卓越的运动性能和增强的语义响应能力,代表了AI视频创作方面的重大突破。作为旗舰大师版变体,它在捕捉细微细节方面实现高精度,包括逼真的关节对齐、符合物理规律的运动和富有情感的面部动画。可生成5-10秒的720p/1080p视频,在基准对比中与行业领先者(如Google Veo 3)并列,有些评估甚至将其评为并列第一。支持文本到视频和图像到视频工作流,擅长高强度运动场景、动态构图和风格化实验性输出。代表在技术、美学和可控生成方面的完整升级,为用户体验带来全面飞跃。可通过Kling AI 平台和WaveSpeedAI获取,用于高级专业应用。
官方网站: https://klingai.com
Kling 2.5 Turbo
Kling 2.5 Turbo 是快手的速度与成本优化视频生成模型,价格较Kling 2.1降低约25%,同时保持流畅的运动、电影级视觉和精确的提示驱动控制。提供标准与专业变体,支持文本到视频和图像到视频工作流,生成5-10秒、720p/1080p分辨率的视频并增强提示到运动的响应性。为大批量生产、快速迭代和预算敏感的创作者设计,能够在不支付高额费用的情况下提供专业质量。支持动态效果、无缝过渡和创意风格混合,适用于电影、广告、设计和娱乐应用。通过WaveSpeedAI API 可访问,基础设施优化以实现快速推理且无冷启动,适合需要快速周转的社交媒体内容、营销视频和创意实验。
官方网站: https://klingai.com
Kling 2.6
Kling 2.6 专业版是快手的顶级视频生成模型,提供原生音频生成、精细的运动保真度和广播级输出。扩展了Kling 2.0架构,改进了语音合成能力、运动连贯性和电影级视觉表现,提供专业的图像到视频生成功能,费用为每秒$0.07(关闭音频)或每秒$0.14(开启音频)。通过专用的运动控制端点支持细粒度动作控制,高保真渲染保持强细节保留并具备一致的时间连贯性。提供多种专业化变体,包括运动控制、图像到视频和文本到视频端点,以适配多样化的生产工作流。可通过fal.ai 和 WaveSpeedAI 平台访问,具备先进渲染以实现自然运动、光照、大气真实感和高保真色彩再现,适用于商业和创意应用。
官方网站: https://klingai.com
Sora
Sora 2
Sora 2 是OpenAI于2025年9月30日发布的旗舰视频与音频生成模型,被誉为“视频领域的 GPT-3.5 时刻”,在物理模拟与同步音频生成方面实现了突破性能力。建立在2024年2月的Sora基础上,可生成最长25秒、分辨率从720p到1080p不等的视频,并包含与视觉完美同步的原生音频(对话、音效和环境声)。擅长准确的物理建模——如在桨板上完成后空翻的真实浮力、奥运体操动作和三周跳等——能模拟失败状态而非单纯将现实变形以匹配提示。具备Cameo技术,允许用户将自身肖像与声音注入生成环境,支持多镜头叙事一致性和逐帧分镜功能以实现逐帧控制。可通过sora.com、iOS/Android应用(含社交创作平台)和API访问。输出含可见水印并包含C2PA元数据以保障内容溯源。
官方网站: https://sora.com
Sora 2 专业版
Sora 2 专业版是OpenAI最先进的媒体生成模型,为ChatGPT Pro订阅者提供试验性更高质量的输出。建立在Sora 2的基础架构之上,提供增强的视觉保真度、更强的运动连贯性和更精确的物理准确性,适用于需要最高质量的专业应用。通过分镜界面支持扩展到25秒的同步音视频生成,提供标准层级不可用的逐帧创作控制。针对复杂电影序列、细致角色动画和广播级内容创作进行优化,具备改进的语义响应能力和更广的艺术表现力。面向Pro用户在sora.com可访问,享有更高的每日生成限额和优先处理。未来计划为企业工作流提供API,支持大规模一致质量的专业媒体生成与高级创意能力。
官方网站: https://sora.com
Luma
Luma Ray 2 极速版
Luma Ray 2 极速版是Luma AI的速度优化视频生成模型,提供3倍更快的处理速度和3倍更低的成本,同时保持前沿的可生产级质量。提供Ray 2的全部能力,包括文本到视频、图像到视频、音频生成和控制功能,并显著缩短等待时间,典型的5-10秒片段可在数秒内渲染完成。基于Ray 2的多模态架构并较Ray 1实现10倍计算扩展,生成具有自然一致运动、逼真纹理、平滑镜头运作和真实光照的照片级视觉效果。支持720p-1080p分辨率的5-10秒生成并可扩展至30秒,包含关键帧控制、循环功能和4K超分。向所有Dream Machine订阅者提供,通过简化的工作流消除慢动作问题,支持社交媒体、营销和需要快速周转的专业应用的快速创意迭代。
官方网站: https://lumalabs.ai/dream-machine
Luma Ray 2
Luma Ray 2 是Luma AI于2024年12月宣布的大规模视频生成模型,基于新的多模态架构、拥有Ray 1 十倍计算能力,从文本和图像生成视频时间低于10秒。可生成5-10秒的片段,分辨率为540p-1080p,具备先进的电影摄影技术、流畅运动和超真实细节,通过快速一致的运动与逻辑事件序列实现高质量结果。基于直接在视频数据上训练的多模态变换器架构,理解人物、动物与物体之间的交互以确保角色的物理一致性。支持文本到视频、图像到视频并提供关键帧以实现起止帧控制、延展功能拓展至60秒、循环功能和音频生成功能。通过Dream Machine平台向付费订阅者提供,并为企业开发者通过Amazon Bedrock 集成,提供可用于生产的高成功率生成结果,适用于创意与专业工作流。
官方网站: https://lumalabs.ai/ray2
Luma 视频重构(Reframe)
Luma 视频重构是Luma AI的突破性画面外扩展功能,能够即时转换纵横比并对最长30秒的视频进行智能边界扩展。利用Dream Machine的核心AI,可在任何方向(纵向、横向或对角)生成超出原始画面边界的新视觉内容,同时保持主体完整性。支持六种预设纵横比(9:16、4:3、1:1、3:4、16:9、21:9),非常适合从YouTube宽屏到TikTok竖屏等跨平台内容适配。智能修补缺失区域以风格匹配的视觉保持连贯运动与真实细节,无需重拍或手动裁切。面向企业与无限计划用户在网页版和iOS端提供:Ray2 Flash 输出720p(最长30s),Ray2 输出720p(最长10s)。积分成本:每张图片4积分,Ray2 Flash 每秒11积分,Ray2 根据时长收费160-320积分。
Pixverse
Pixverse 4
Pixverse 4 是PixVerse于2025年2月25日发布的生成式AI视频模型,在真实感、自然运动表现和加速生成速度方面有显著升级。可从文本或图像提示生成5-8秒视频,具有增强的提示遵循性与改进的物理准确性,并支持同步音频生成,实现一键创建视听内容。引入革命性的“重风格(Restyle)”功能,可一键将实拍转换为二次元、水彩或其他艺术风格。支持文本到视频和图像到视频工作流,10秒生成时间具有竞争性定价(每单元$0.01)。擅长流畅的人物运动、逼真纹理和平滑镜头运作,在社交媒体上容易产生病毒式传播的角色一致性表现。通过PixVerse平台、移动应用和开放API提供,可集成到广告、营销和娱乐等创意工作流中。
官方网站: https://app.pixverse.ai
Pixverse 4.5
Pixverse 4.5 是PixVerse于2025年5月13日发布的高级视频生成模型,引入了电影级镜头控制和多图像融合能力以生成专业级输出。提供20多种镜头运动控制,包括动态平移、变焦、推拉镜头、旋转和垂直移动,通过简单提示即可实现精确的场景引导。革命性的融合功能可无缝将多张图像主体融合为连贯场景,在复杂构图中保持角色一致性。增强的流畅运动与逼真复杂动作捕捉细腻手势、协同运动和情感表达,并提升物理准确性。提供卓越的提示遵循性,将创意概念准确转化为视觉表现并保持平滑的帧间过渡。可生成5-10秒、720p-1080p分辨率的视频并维持快速处理速度以支持快速迭代。支持文本到视频和图像到视频工作流,在不增加生成时间的情况下提升质量。
官方网站: https://app.pixverse.ai
Pixverse 5
Pixverse 5 是PixVerse于2025年8月28日推出的最新一代模型,在Artificial Analysis基准中在图像到视频中获得第二、文本到视频中获得第三名。提升了运动质量,表现为更自然的表情动作和更流畅一致的轨迹;分辨率更高、细节更丰富、纹理更真实;光照改进带来电影质感,并在帧间保持稳定的风格一致性。具备前所未有的提示准确性和上下文理解能力,能生成复杂场景并在各种字体中准确呈现文本。保持高速可访问性:360p视频可在5秒内生成,1080p约需60秒。引入 PixVerse Agent 功能,支持通过单张照片自动生成5-30秒片段。扩展的风格选项包括吉卜力风、2D/3D、水彩、蒸汽波、赛博朋克等,提供更大的创作灵活性。可在网页、移动应用和开放API平台上使用,服务全球超过1亿用户。
官方网站: https://app.pixverse.ai
Wan
Wan 2.2
Wan 2.2 是阿里巴巴通义实验室于2025年7月28日发布的首个开源专家混合(MoE)视频生成模型,具有270亿参数和双专家架构,在每步仅激活140亿参数以提高计算效率。相较于Wan 2.1在训练中使用了65.6%更多的图像和83.2%更多的视频,并通过精心策划的美学数据对光照、构图、对比度和色调进行标注,实现可控的电影级生成。支持480p-720p(24fps)的文本到视频和图像到视频工作流,包括紧凑的5B TI2V 模型,配合高压缩的 Wan2.2-VAE 可在如 RTX 4090 的消费级GPU上在9分钟内生成5秒720p 视频。领导 Wan-Bench 2.0 基准,表现出优越的运动流畅性、语义理解和提示遵循性。以开源方式通过GitHub、Hugging Face、ModelScope 提供,并采用MIT许可证,支持ComfyUI、DiffusersStudio 集成,实现动画、角色替换及整体运动复制。
官方网站: https://wan22.io
Wan 2.5
Wan 2.5 是阿里巴巴的先进多模态视频生成模型,提供成本效益高且流程简化的一次性视听同步生成能力,只需单一结构化提示即可输出音视频同步内容。可生成480p-1080p分辨率、时长5-10秒的视频,并自动对齐原生对白、音效和背景音乐的口型同步,无需单独录音或手动对齐。支持多种纵横比(16:9、9:16、1:1)并允许自定义音频输入以替换声音或整合音乐,提供灵活创作控制。相较于Google Veo 3成本显著更低,同时保持高质量并具备强大的多语言支持(包括中文、英文、西班牙语、俄语)。在宽动态范围场景中表现优异,对大幅度与细微动作均能保持稳定真实的运动表现。可通过阿里云 DashScope、WaveSpeedAI 及第三方 API 访问,单次生成价约$0.25,适用于营销、电商、教育和社交媒体应用。
官方网站: https://www.wan-ai.co
Wan 2.6
Wan 2.6 是阿里巴巴于2025年12月16日发布的最新视觉生成模型系列,推出了革命性的参考到视频(Wan2.6-R2V)功能,使用户能在AI生成的视频中以保留外貌与声音的方式出演。支持最长15秒的视频输出并具备智能多镜头叙事、增强的视听同步以及专业级1080p/24fps的电影质量。包含全面的模型升级,如Wan2.6-T2V(文本到视频)、Wan2.6-I2V(图像到视频)、Wan2.6-image 与 Wan2.6-T2I(图像生成),并具备改进的逻辑推理以实现交错的文本-图像输出。支持多人对话、跨镜头的角色一致性、改进的指令遵循精度与真实音效生成。为中国首个参考到视频模型,支持单人演出或双角色互动并同步音频。可通过阿里云模型工作室、Wan 官方网站及Qwen 应用访问,适用于广告、娱乐和创意叙事的专业内容制作。
官方网站: https://www.wan-ai.co
Topaz
Topaz 视频超分
Topaz 视频超分是Topaz Labs 提供的专业级AI视频增强软件,提供电影级的超分、降噪、帧率转换和修复功能。基于数百万视频帧训练的深度学习模型(包括Starlight、Starlight Sharp、Wonder和Iris),可应对从弱光恢复到档案素材修复的多种增强场景。支持最高可达8K的超分辨率并具备智能细节重构、去交错、降噪、最高16倍帧插以实现平滑慢动作以及后期的相机稳定功能。可作为Mac/Windows的独立应用或DaVinci Resolve、After Effects等的插件使用,支持专业编解码器。提供本地渲染(无限制处理)与使用云积分的云渲染以获得最快速度。Topaz Video AI v3.0 支持同时堆叠多个AI模型—例如在放大至4K的同时进行稳定与加胶片颗粒处理—并支持并行任务执行与多GPU以满足企业级工作流需求。
最后更新于