图像模型
FLUX
FLUX.1 开发版
FLUX.1 开发版是 Black Forest Labs 在 2024 年发布的 120 亿参数开放权重文本到图像模型,供非商业用途使用。通过从 FLUX.1 Pro 进行的引导蒸馏训练,它在输出质量上处于前沿,且在提示遵从性方面可与闭源替代方案竞争。支持 0.1 到 2.0 兆像素的分辨率,并以高效的 25–50 步生成,提供出色的视觉质量和对提示的遵从。以非商业许可发布,权重在 HuggingFace 开放,FLUX.1 开发版使研究人员和开发者能够推动科学创新,同时为艺术家赋能先进的创作工作流。
官方网站: https://bfl.ai/
FLUX Pro
FLUX.1 Pro(FLUX 1.1 Pro)是 Black Forest Labs 的旗舰专有文本到图像模型,提供最先进的性能,具备出色的提示遵从性、视觉质量和输出多样性。于 2024 年 10 月发布,FLUX 1.1 Pro 的生成速度比前代快 6 倍,同时支持原生 2K 分辨率生成。凭借卓越的真实感、复杂细节呈现以及在 Artificial Analysis 图像竞技场中最高的 Elo 分数,它在产品摄影到品牌活动等商业应用中表现出色。可通过 BFL API 与合作伙伴(Replicate、fal.ai、Together.ai)独家获取,FLUX Pro 为生产级工作流提供 Ultra 模式(4MP 分辨率)和 Raw 模式(超真实抓拍摄影风格)。
官方网站: https://bfl.ai/models/flux-pro
FLUX.1 Krea
FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 合作开发的“有风格倾向”的 120 亿参数文本到图像模型,于 2025 年 7 月发布。专门训练以克服过度饱和的“AI 风格”外观,它实现了卓越的照片级真实感、独特美学和多样化输出。其在人类偏好评估中超越先前开放模型并匹配 FLUX 1.1 Pro,擅长生成不具有过度平滑纹理的逼真图像。以 FLUX.1 开发版的非商业许可发布,权重在 HuggingFace 开放,FLUX.1 Krea 可作为下游微调的灵活基础模型,并展示了基础模型实验室与应用团队之间成功的协同开发。
官方网站: https://bfl.ai/blog/flux-1-krea-dev
FLUX.2 开发版
FLUX.2 开发版是 Black Forest Labs 于 2025 年 11 月发布的 320 亿参数开放权重模型,在单一架构中结合了图像生成与编辑。基于潜在流匹配(latent flow matching)并与 Mistral-3 24B 视听语言模型结合,它在前沿性能上表现出色,支持多参考(最多 10 张图片)、4MP 分辨率输出、增强的排版表现和更强的提示遵从性。在真实感、世界知识和空间逻辑方面有显著改进,能够实现角色一致性的广告活动和复杂文本渲染。以 FLUX.2 开发版非商业许可发布,权重在 HuggingFace 提供,虽需要大量显存,但通过 Hugging Face Diffusers 提供面向消费者硬件的量化版本。
官方网站: https://bfl.ai/blog/flux-2
FLUX.2 Pro
FLUX.2 Pro 是 Black Forest Labs 在 2025 年 11 月发布的生产级专有模型,提供在最高速度下的最先进质量。基于 320 亿参数的潜在流匹配架构,它具备卓越的真实感、多参考支持(最多 10 张图片)、4MP 分辨率输出以及可靠的排版生成功能。凭借增强的世界知识、精确的物体定位和复杂场景下一致的光照,它在角色一致性的广告活动、产品置入和品牌准确渲染方面表现优异。可通过 BFL API 与合作伙伴(Replicate、fal.ai、Cloudflare)获取,FLUX.2 Pro 在商业生产工作流中为速度与视觉保真之间提供最佳平衡,无需妥协。
官方网站: https://bfl.ai/models/flux-2
FLUX.2 Flex
FLUX.2 Flex 是 Black Forest Labs 于 2025 年 11 月发布的专用专有模型,提供对生成参数的最大精确度和细粒度控制。通过可调步数(6–50 步)和引导尺度,它让开发者完全控制以在排版准确性、图像细节、质量和延迟之间进行权衡,满足特定用例需求。擅长复杂文本渲染、界面模型(UI)原型、信息图和保持小尺寸细节,FLUX.2 Flex 可根据参数设置在速度与精度之间进行折中。基于与 FLUX.2 Pro 相同的 320 亿参数架构,它可提供生产就绪的结果,为需要对视觉输出质量和生成特性进行精确控制的应用提供前所未有的灵活性。
Seedream
Seedream 4.5
Seedream 4.5 是字节跳动通过模型扩展在 2025 年实现全面改进的最新 AI 图像生成模型,擅长多图编辑,具备准确的主体识别、严格的参考细节保留以及增强的排版渲染,适合专业视觉创作。支持最多 4K 分辨率输出并可融合 14 张参考图像,呈现电影级真实感、角色一致性和改进的空间逻辑。具备设计师级的构图能力和清晰的小文字渲染,在 LM Arena 排行榜中排名第 10。可通过 BytePlus API 与合作伙伴获取,Seedream 4.5 为电商、营销和品牌视觉提供生产级结果。
官方网站: https://seed.bytedance.com/en/seedream4_5
Seedream 4.0
Seedream 4.0 是字节跳动于 2025 年发布的新一代图像创作模型,在统一架构中整合了生成与编辑功能。具备 120 亿参数,能灵活处理复杂的多模态任务,包括基于知识的生成、复杂推理和参考一致性。支持多参考图像的批处理并可输出最高 4K 分辨率,推理速度比前代更快。在 Artificial Analysis 等基准测试上,在提示遵从性、对齐性和美学方面表现出色,Seedream 4.0 能通过单句指令实现高质量图像创作和精确编辑。适用于影视、广告和设计等专业工作流。
官方网站: https://seed.bytedance.com/en/seedream4_0
Seedream 3.0
Seedream 3.0 是字节跳动早期一代的 AI 图像模型,提供文本到图像生成和基本编辑功能的基础能力。虽然不如 Seedream 4.x 系列先进,但它奠定了多模态理解、提示遵从和艺术风格呈现等核心技术。作为 Seedream 4.0 的前身,它展示了字节跳动在 AI 视觉生成方面的能力,并为后续模型改进建立了架构基础。尽管现已被更新版本取代,Seedream 3.0 对字节跳动图像生成技术和商业应用的发展做出了贡献。
Dreamina
Dreamina 3.1
Dreamina 3.1 是字节跳动在 2025 年发布的先进 4MP 文本到图像模型,侧重提升视觉呈现,在美学质量、风格多样性精确度和图像细节丰富性方面有显著改进。由 CapCut 创意团队开发,它擅长专业级电影质量效果,具备细腻的光照、氛围深度和多样化摄影风格(包括水下、人像与宠物摄影)。支持商业应用,优化处理平面设计与海报场景,保持强大的文本渲染能力,并可在野兽派(Fauvism)与巴洛克(Baroque)等艺术流派之间精确控制风格。通过 CapCut 的 Dreamina 平台可用,提供每日 225 次免费代币,适用于社交媒体、营销和创意项目的高分辨率图像生成。
Grok
Grok 2
Grok 2 是 xAI 于 2024 年 8 月发布的旗舰 AI 模型,具备先进的推理、编码能力和通过 Aurora 自回归专家混合网络的图像生成能力。基于海量互联网示例训练,Aurora 在照片级真实感渲染、精确文本指令遵从以及对用户提供图像的多模态输入的编辑方面表现出色。在 X 平台(前 Twitter)上向 Premium 与 Premium+ 用户提供,Grok 2 在实体生成、艺术性文本、表情包创作、真实人像与名人呈现方面表现出色。相比 Grok-1.5,其在准确性、指令遵从与多语言能力上有所提升,并提供网页搜索集成、引用、实时信息访问以及通过 xAI 企业平台向开发者提供的 API 访问。
Reve
Reve Create(Reve Image 1.0)
Reve Image 1.0 是一家位于帕洛阿尔托的初创公司于 2025 年 3 月发布的先进文本到图像模型(代号“Halfmoon”),在提示遵从、美学和排版方面表现出色。基于混合扩散架构并搭配上下文感知提示解析器与在 5000 万字体样本上训练的专有排版引擎,它提供卓越的文本渲染和多字符一致性。支持原生 2048x2048 分辨率并可选 4K 升级与自然语言图像编辑,Reve 提供无需注册的无限制免费生成。在放大测试中具有 92% 的细节准确率和多字符提示中 89% 的一致性,结合拖放编辑界面与 AI 驱动的创作工具,满足专业级成果需求。
官方网站: https://app.reve.com/
Ideogram
Ideogram 3.0 Turbo
Ideogram 3.0 Turbo 是 Ideogram 于 2025 年 3 月发布的旗舰模型中速度最快且成本最高效的变体,针对快速迭代和高量任务进行了优化。作为 Ideogram 3.0 家族的三档之一,Turbo 在图像与提示对齐、照片级真实感和文本渲染质量上有显著进步,呈现惊艳的真实感、创意设计与一致风格。支持最多 3 张参考图像的风格参考功能、来自 43 亿 预设的随机风格探索以及多种长宽比,它擅长专业品质的标志、宣传海报、产品摄影和平面设计。在人工评估中持续优于其他文本到图像模型并取得最高 ELO 评分,Turbo 使专业创作者能够迅速进行创意构思并在大规模上定制图形。
官方网站: https://ideogram.ai/features/3.0
Ideogram 3.0 质量版
Ideogram 3.0 质量版(亦称 Ideogram V3 Quality)是 Ideogram 于 2025 年 3 月发布的旗舰模型中最高保真度的变体,为专业创意工作提供最大精度与细节。建立在与 Turbo 相同的革命性基础之上,质量模式在照片级真实感方面提供更高的清晰度,能精细呈现织物、水滴与动物皮毛等复杂元素,同时在写实与抽象风格中均表现出色。支持最高 2K 分辨率与灵活的长宽比,并为复杂文本构成提供突破性的排版能力,适用于贺卡、海报、漫画、着陆页概念与市场材料等专业设计工作。该模型的复杂空间构图具备细腻的光照、精确的色彩与逼真的环境细节,模糊生成图像与真实影像之间的界限。
Imagen
Imagen 4
Imagen 4 是 Google DeepMind 在 2025 年 Google I/O(5 月 20 日)推出的最先进文本到图像模型,相较于 Imagen 3 在文本渲染、最高 2K 分辨率支持和提示遵从性方面有显著提升。基于潜在扩散架构并使用 Gemini 生成的合成字幕,它提供三种变体:用于一般用途的标准 Imagen 4、用于快速构思的 Imagen 4 Fast(生成速度快 10 倍)以及追求最高精度与细节的 Imagen 4 Ultra。擅长从照片级真实感到印象派等多种艺术风格,提供更佳的光照精确度、细节呈现、清晰排版和复杂多角色场景的空间逻辑。可通过 Gemini API、Google AI Studio 与 Vertex AI 使用,所有输出均包含可识别的 SynthID 隐形水印以便 AI 生成内容识别。
官方网站: https://deepmind.google/models/imagen/
Imagen 4 Ultra
Imagen 4 Ultra 是 Google DeepMind 于 2025 年 5 月发布的 Imagen 4 家族中最高精度的变体,旨在实现最大细节和对复杂文本提示的严格遵从。为需要最高保真度的专业创意工作流构建,Ultra 在照片级渲染、细腻光照、精细细节准确性以及用于贺卡、海报和漫画的复杂文本渲染方面表现优异。支持最高 2K 分辨率并具备增强的提示对齐能力,它在复杂多角色构图、精细空间逻辑和保持清洁无伪影输出方面表现出色。可通过 Gemini API、Google AI Studio 与 Vertex AI 使用,所有输出均包含可识别的 SynthID 隐形水印以实现负责的 AI 透明性与可追溯性。
Luma
Luma Photon
Luma Photon 是 Luma Labs 在 2024 年 12 月发布的革命性文本到图像模型,采用突破性的通用 Transformer 架构,能够以卓越效率生成超高质量的 1080p/2MP 图像。为消除通用的“AI 风格”外观而设计,Photon 在照片级真实感渲染、具有大上下文窗口的高级自然语言理解以及多轮迭代编辑工作流方面表现出色。支持从单张参考图保持角色一致性、多图参考系统的风格迁移,并在盲测评估中在创造力与提示忠实度方面优于竞争对手,使设计师、电影制作者和建筑师能够探索广阔的创意空间。通过 Luma API 与 Dream Machine 服务提供,并有更快的 Photon Flash 变体可用。
Recraft
Recraft 3.0
Recraft V3(代号“红熊猫”)是 2024 年在 Hugging Face 行业领先基准上排名第 1 的文本到图像模型,取得 1172 的 ELO 评分并超越 Midjourney、OpenAI 及所有主要竞争对手。对专业设计师具有革命性意义,它独特地同时支持光栅与矢量(SVG)图像生成,并具备任何尺寸与长度的卓越文本渲染能力。具备品牌一致性的精确风格控制而无需再训练、先进的修补/扩展(inpainting/outpainting)、拖放式文本定位以及卓越的解剖学准确性,V3 能生成具有专业品质的照片级真实图像。通过桌面应用、移动端(iOS/Android)与 API 提供,方便无缝整合到设计工作流中。
官方网站: https://www.recraft.ai/
Qwen
Qwen Image
Qwen Image(Qwen-Image-2512)是阿里云在 2024 年 12 月发布的完全开源 200 亿参数 MMDiT 图像生成模型,在包括 GenEval、DPG 与 OneIG-Bench 在内的 9 项公开基准中获得第一名。以 Apache 2.0 许可提供用于免费商业使用,它在中英双语商业级文本渲染方面表现卓越,支持复杂的多行布局、段落级语义与细粒度视觉细节。通过 DFloat11 量化与 CPU 卸载进行优化后可在单张 RTX 3090 GPU 上部署,提供精确图像编辑的出色性能,同时保持语义完整性与视觉真实感。可通过 Qwen Chat、Hugging Face、ModelScope 与阿里云模型工作室获取,用于文本密集型结构化视觉生成(包括信息图、海报与多语言企业文档)。
官方网站: https://qwen.ai/
SeeEdit
SeeEdit 3.0
SeeEdit 3.0(SeedEdit 3.0)是字节跳动于 2025 年 6 月发布的最先进生成式图像编辑模型,在真实/合成图像编辑任务中实现了 56.1% 的可用率,显著优于 SeedEdit 1.6(38.4%)、GPT-4o(37.1%)和 Gemini 2.0(30.3%)。通过增强的元信息嵌入管线与联合扩散-奖励学习构建,它在上下文感知编辑方面表现出色,具备优越的指令遵从与图像内容保留能力,尤其在身份/知识产权保留方面表现突出。可处理 1K 分辨率以上的高清图像,能在 10–15 秒内提供专业级编辑,擅长背景替换、对象移除、光照调整、文本编辑与角色一致性。支持中英文双语提示并在图像一致性评分中达成 4.07/5,针对摄影师、产品团队和需要精确控制的创意专业人士进行了优化。
Nano Banana
Nano Banana
Nano Banana(Gemini 2.5 Flash Image)是 Google DeepMind 于 2025 年 8 月发布的快速对话式图像生成与编辑模型,在多次提示下维持无与伦比的角色一致性,成为全球顶级的图像编辑模型之一。为快速、多回合创意工作流设计,擅长保持角色外观一致,可通过自然语言命令实现目标性变换,包括背景模糊、对象移除、姿势调整与照片上色。支持无缝多图合成与视觉模板遵循以保证品牌资产一致性,利用 Gemini 的深度语义理解实现超越简单照片级真实感的复杂视觉推理。可在 Gemini 应用中使用并带有可见与不可见的 SynthID 水印,使普通创作者能够通过简单文本提示将想法转化为专业视觉作品。
官方网站: https://gemini.google/overview/image-generation/
Nano Banana Pro
Nano Banana Pro(Gemini 3 Pro Image)是 Google DeepMind 于 2025 年 11 月发布的最先进专业图像生成与编辑模型,基于 Gemini 3 Pro 构建,具备增强的推理能力和现实世界知识以实现工作室级效果。为企业级生产工作流设计,它在可读的多语言文本渲染方面表现出色,支持最多 14 张输入参考图像以进行复杂构图并提供高级创作控制,输出支持 1K/2K/4K 分辨率。具备用于复杂提示推理的“思考模式”、用于事实准确性的 Google 搜索锚定以及对最多 5 人的卓越角色一致性,为样机、海报、信息图与营销素材提供专业级视觉效果。可在 Vertex AI、Google Workspace(幻灯片、视频)、Gemini Enterprise 使用,并集成到 Adobe Firefly、Photoshop、Canva 与 Figma 中。
GPT Image
GPT Image 1.5
GPT Image 1.5 是 OpenAI 在 2025 年 12 月发布的最新生产级图像生成与编辑模型,具有原生多模态架构,在统一神经网络中处理文本和图像以实现更高的编辑精度。内部代号“Hazel”,其生成速度比 DALL·E 3 快多达 4 倍,并在指令遵从、跨多轮编辑的面部与身份保留以及清晰字母排版与一致布局方面表现出色。支持文本到图像生成与针对性图像编辑工作流,擅长包括信息图、界面原型、连环漫画和营销素材在内的复杂结构化视觉,同时保持构图、光照与角色一致性。通过 ChatGPT、OpenAI API 与 Microsoft Foundry 提供,支持灵活的质量-延迟权衡并内置世界知识以实现语境准确的内容。
Reve
Reve Edit
Reve Edit 是 Reve AI 的专业图像编辑模型,在 LMArena 图像编辑任务排名前三,具备理解深度、透视与三维物体关系的空间智能,以实现无缝编辑。为要求构图保留的专业工作流设计,它将自然语言编辑与拖放界面结合,实现目标性变换而不影响未编辑区域。擅长产品摄影变体、照片修复、具有真实天气/光照调整的景观编辑,以及从单一源图像进行创意迭代,能在修改过程中保持正确的纹理、材质呈现与视觉连贯性。由 10 人的研究团队打造并快速进展,具有卓越的提示遵从性与美学质量,支持多图合成与风格参考功能以创建一致的品牌资产。
官方网站: https://app.reve.com/
Flux Kontext
Flux Kontext Max
FLUX.1 Kontext [max] 是 Black Forest Labs 于 2025 年 5 月发布的高端上下文内图像生成与编辑模型,提供最大性能、杰出的提示遵从性和高级排版处理能力。作为革新性的 Kontext 套件的一部分,并使用生成流匹配架构,它将文本到图像生成与基于文本的即时编辑统一起来,支持角色一致性、本地编辑和风格参考功能。支持文本与图像输入,在 1MP 分辨率下实现 3–5 秒的推理速度,使多回合细化的迭代创作工作流成为可能,同时在场景与环境中保留独特的视觉元素。在 KontextBench 基准中取得文本编辑与角色保留的顶级排名,其运行速度比 GPT-Image 等竞争模型快 8 倍,可通过 BFL Playground 与 API 合作伙伴用于专业创意生产。
官方网站: https://bfl.ai/models/flux-kontext
Flux Kontext Pro
FLUX.1 Kontext [pro] 是 Black Forest Labs 于 2025 年 5 月发布的旗舰迭代编辑模型,为快速多回合工作流而构建,结合生成与细化。为专业创意生产设计,它以文本和参考图像作为输入,支持目标性本地编辑与复杂场景变换,同时在多次迭代中保持角色与风格一致性。在文本编辑与角色保留基准中取得顶级性能,推理速度为 3–5 秒,其运行速度比竞争模型快 8 倍。统一架构支持角色一致性、本地编辑和风格参考功能,可通过包括 KreaAI、OpenArt、Replicate 与 BFL Playground 在内的合作伙伴获取以用于生产工作流。
官方网站: https://bfl.ai/models/flux-kontext
Flux Kontext Dev
FLUX.1 Kontext [dev] 是 Black Forest Labs 于 2025 年 5 月发布的开放权重变体,以非商业许可提供用于研究与安全测试。构建于与 Pro 与 Max 变体相同的生成流匹配架构之上,它为开发者提供可自定义的基础以便在像 ComfyUI 之类的节点式管线中进行实验与集成。支持基于上下文的图像生成,接受文本与视觉输入以实现角色一致性与编辑能力,可通过 Hugging Face、GitHub 以及包括 Replicate、FAL 与 TogetherAI 在内的基础设施合作伙伴获取。商业使用可通过许可获得,并集成了使用跟踪以确保合规。
Qwen-Image-Edit
Qwen 图像编辑
Qwen-Image-Edit(Qwen-Image-Edit-2511)是阿里巴巴于 2025 年 11 月发布的开源 200 亿参数图像编辑模型,基于 Qwen-Image 基座并采用双流水线架构构建。结合 Qwen2.5-VL 用于语义控制与 VAE 用于视觉外观,它支持精确的双语(中英)文本编辑与双语义/外观编辑模式。擅长团体照中的多人一致性、保留身份的肖像编辑、风格迁移、对象旋转与文本修改,同时保持字体与布局一致,基于 Apache 2.0 许可提供。可通过 Qwen Chat、Hugging Face、ModelScope 与阿里云模型工作室访问,适用于专业设计与创意工作流。
官方网站: https://qwen.ai/
放大器(Upscaler)
Crisp 放大器
Recraft 的 Crisp Upscale 是一款快速且以精度为中心的 AI 放大工具,专为专业印刷与网页使用而设计。它将图像分辨率提升至最高 4096x4096 像素,同时保持清晰度与锐利度而不修改原始内容。为需要快速周转的设计师、市场人员与销售人员打造,它可在秒级内处理图像且计算成本低。非常适合为高质量输出准备插图、标志、产品摄影与数字资产。通过 Recraft 的网页平台免费提供,并通过包括 Replicate 与 Kie.ai 在内的合作伙伴作为 API 集成以便自动化工作流使用。
官方网站: https://www.recraft.ai/image-upscaler
Creative 放大器
Recraft 的 Creative Upscale 是一款高级 AI 放大工具,能够在提升分辨率的同时细化复杂细节、纹理与面部特征。不同于保留像素精确不变的标准放大,它通过改进细节并恢复丢失信息来智能地增加图像深度。可处理从 256px 到 1600 万像素的图像,擅长人像增强、产品摄影细化与艺术图像提升。结果所需时间长于 Crisp Upscale,但能为专业创作带来更高级的质量。通过 Recraft 平台与包括 Replicate 与 fal.ai 在内的 API 合作伙伴提供以便集成入生产流水线。
官方网站: https://www.recraft.ai/image-upscaler
Topaz 图像放大器
Topaz Gigapixel AI 是 Topaz Labs 的行业领先专业图像放大工具,自 2019 年开始商业化提供。利用由博士研究人员训练的深度学习模型,它可将图像放大至最高 600%(6 倍),并提供九种针对不同图像类型的专用 AI 模型。支持人像、风景、建筑与压缩图像,能够在降低噪点与伪影的同时保留细节。提供独立桌面应用(Windows/Mac)、iOS 移动应用以及适用于 Photoshop 与 Lightroom 等主流编辑软件的插件。被全球专业摄影师、艺术家、商业影楼与创意团队广泛采用,用于打印、修复与裁切工作流。
最后更新于