이미지 모델

FLUX

FLUX.1 개발 버전

FLUX.1 dev는 Black Forest Labs가 2024년에 비상업적 용도로 공개한 120억 파라미터 오픈 웨이트 텍스트-투-이미지 모델입니다. FLUX.1 Pro로부터의 가이던스 증류로 학습되어 최첨단 출력 품질과 폐쇄형 대안과 견줄 만한 경쟁력 있는 프롬프트 준수 성능을 제공합니다. 0.1에서 2.0메가픽셀 범위의 해상도를 지원하며 25-50 스텝의 효율적인 생성으로 탁월한 시각적 품질과 프롬프트 준수도를 제공합니다. 비상업적 라이선스 하에 HuggingFace에 오픈 웨이트가 공개되어 있어 연구자 및 개발자가 과학적 혁신을 추진하고 아티스트에게 고급 창작 워크플로우를 제공할 수 있습니다.

공식 사이트: https://bfl.ai/

FLUX Pro

FLUX.1 Pro(FLUX 1.1 Pro)는 Black Forest Labs의 플래그십 독점 텍스트-투-이미지 모델로, 우수한 프롬프트 준수력, 시각적 품질 및 출력 다양성으로 최첨단 성능을 제공합니다. 2024년 10월에 공개되었으며 전작보다 6배 빠른 생성 속도를 제공하고 네이티브 2K 해상도 생성을 지원합니다. 뛰어난 포토리얼리즘, 정교한 디테일 렌더링 및 Artificial Analysis 이미지 아레나에서 최고 Elo 점수를 기록하여 제품 사진 촬영부터 브랜드 캠페인에 이르기까지 상업적 응용에 탁월합니다. BFL API 및 파트너(Replicate, fal.ai, Together.ai)를 통해 독점 제공되며, FLUX Pro는 Ultra 모드(4MP 해상도)와 Raw 모드(하이퍼 리얼리틱한 캔디드 사진 스타일)를 제공하여 프로덕션급 워크플로우에 적합합니다.

공식 사이트: https://bfl.ai/models/flux-pro

FLUX.1 Krea

FLUX.1 Krea [dev]는 Krea AI와 협력해 개발된 Black Forest Labs의 '의견 기반(opinionated)' 120억 파라미터 텍스트-투-이미지 모델로 2025년 7월에 공개되었습니다. 과도하게 채도 높은 이른바 'AI 룩'을 극복하도록 특별히 학습되어 독특한 미학과 다양한 출력으로 탁월한 포토리얼리즘을 달성합니다. 이전의 오픈 모델을 능가하고 인간 선호도 평가에서 FLUX 1.1 Pro와 맞먹는 성능을 보이며, 과도하게 부드러워진 질감 없이 현실적인 이미지를 생성하는 데 강점이 있습니다. FLUX.1 dev의 비상업적 라이선스 하에 HuggingFace에 오픈 웨이트로 공개되어 있으며, 다운스트림 파인튜닝을 위한 유연한 베이스 모델로 활용될 수 있고 기초 모델 연구소와 응용 팀 간의 성공적인 협업을 보여줍니다.

공식 사이트: https://bfl.ai/blog/flux-1-krea-dev

FLUX.2 개발 버전

FLUX.2 dev는 Black Forest Labs가 2025년 11월에 공개한 320억 파라미터 오픈 웨이트 모델로, 이미지 생성과 편집을 단일 아키텍처에 결합합니다. Mistral-3 24B 비전-언어 모델과 결합된 잠재 흐름 매칭(latent flow matching) 기반으로 구축되어 최첨단 성능을 제공하며 최대 10개 이미지의 다중 레퍼런스 지원, 4MP 출력 해상도, 향상된 타이포그래피 및 우수한 프롬프트 준수를 지원합니다. 포토리얼리즘, 세계 지식, 공간 논리에서 상당한 개선을 특징으로 하여 캐릭터 일관성 캠페인과 복잡한 텍스트 렌더링을 가능하게 합니다. FLUX.2 dev 비상업적 라이선스 하에 HuggingFace에 웨이트가 공개되어 있으며 상당한 VRAM이 필요하지만 Hugging Face Diffusers를 통해 소비자 하드웨어용 양자화 버전도 제공합니다.

공식 사이트: https://bfl.ai/blog/flux-2

FLUX.2 Pro

FLUX.2 Pro는 2025년 11월에 공개된 Black Forest Labs의 프로덕션급 독점 모델로, 최대 속도에서 최첨단 품질을 제공합니다. 320억 파라미터 잠재 흐름 매칭 아키텍처 기반으로 탁월한 포토리얼리즘, 최대 10개 레퍼런스의 다중 레퍼런스 지원, 4MP 출력 해상도 및 신뢰할 수 있는 타이포그래피 생성을 제공합니다. 향상된 세계 지식, 정확한 객체 위치 지정 및 복잡한 장면 전반의 일관된 조명을 통해 캐릭터 일관성 캠페인, 제품 배치 및 브랜드 정확 렌더링에 우수합니다. BFL API 및 파트너(Replicate, fal.ai, Cloudflare)를 통해 제공되며, FLUX.2 Pro는 속도와 시각적 충실도 사이에 타협이 없어야 하는 상업적 제작 워크플로우에 최적의 품질-비용 균형을 제공합니다.

공식 사이트: https://bfl.ai/models/flux-2

FLUX.2 Flex

FLUX.2 Flex는 2025년 11월에 공개된 Black Forest Labs의 특수 독점 모델로, 생성 파라미터에 대한 최대 정밀도와 세밀한 제어를 제공합니다. 조정 가능한 스텝 수(6-50 스텝)와 가이던스 스케일을 통해 개발자가 타이포그래피 정확도, 이미지 디테일, 품질 및 지연 시간 사이에서 균형을 맞출 수 있는 완전한 제어를 제공합니다. 복잡한 텍스트 렌더링, UI 목업, 인포그래픽 및 작은 디테일 유지에 탁월하며, 파라미터 설정에 따라 속도와 정밀도 사이에서 절충합니다. FLUX.2 Pro와 동일한 320억 파라미터 아키텍처 기반으로 구축되어 생산 준비된 결과물을 제공하며 시각적 출력 품질과 생성 특성에 대해 정확한 제어가 필요한 응용에 전례 없는 유연성을 제공합니다.

공식 사이트: https://bfl.ai/models/flux-2

Seedream

Seedream 4.5

Seedream 4.5는 ByteDance가 모델 스케일링을 통해 종합적인 개선을 달성한 최신 AI 이미지 생성 모델입니다. 2025년에 공개되었으며 정확한 피사체 식별, 참조 디테일의 엄격한 보존 및 전문 시각 크리에이터를 위한 향상된 타이포그래피 렌더링으로 멀티 이미지 편집에 탁월합니다. 최대 4K 출력 해상도와 14장의 참조 이미지 융합을 지원하여 영화 같은 사실감, 캐릭터 일관성 및 향상된 공간 논리를 제공합니다. 디자이너 수준의 구성 능력과 선명한 소형 텍스트 렌더링을 갖추었으며 LM Arena 리더보드에서 10위를 기록했습니다. BytePlus API 및 파트너를 통해 제공되며 전자상거래, 마케팅 및 브랜드 비주얼에 적합한 프로덕션급 결과를 제공합니다.

공식 사이트: https://seed.bytedance.com/en/seedream4_5

Seedream 4.0

Seedream 4.0은 2025년에 공개된 ByteDance의 차세대 이미지 생성 모델로, 생성과 편집을 통합된 아키텍처로 결합합니다. 120억 파라미터로 지식 기반 생성, 복잡한 추론 및 참조 일관성을 포함한 복합 멀티모달 작업을 유연하게 처리합니다. 다중 참조 이미지와 배치 처리, 최대 4K 출력 해상도를 지원하며 전작보다 빠른 추론 속도를 제공합니다. 프롬프트 준수, 정렬 및 Artificial Analysis와 같은 벤치마크에서의 미학적 성능이 우수하여 Seedream 4.0은 단일 문장 명령으로 고품질 이미지 생성과 정밀 편집을 가능하게 합니다. 영화, 광고 및 디자인 워크플로우의 전문적 응용에 이상적입니다.

공식 사이트: https://seed.bytedance.com/en/seedream4_0

Seedream 3.0

Seedream 3.0은 ByteDance의 이전 세대 AI 이미지 모델로 텍스트-투-이미지 생성과 기본 편집 기능에 대한 기초 역량을 제공합니다. Seedream 4.x 시리즈보다는 덜 발전했지만 다중모달 이해, 프롬프트 준수 및 예술적 스타일 렌더링과 같은 핵심 기술을 확립했습니다. Seedream 4.0의 전신으로서 ByteDance의 이미지 생성 역량을 보여주고 이후 모델 개선을 위한 아키텍처적 기반을 마련했습니다. 현재는 최신 버전으로 대체되었지만 Seedream 3.0은 ByteDance의 이미지 생성 기술과 상업적 응용 발전에 기여했습니다.

공식 사이트: https://seed.bytedance.com/

Dreamina

Dreamina 3.1

Dreamina 3.1은 CapCut의 크리에이티브 팀이 개발한 ByteDance의 고급 4MP 텍스트-투-이미지 모델로, 2025년에 공개되었으며 미적 품질, 정교한 스타일 다양성 및 이미지 디테일 풍부성에서 중요한 향상을 이뤘습니다. 미묘한 조명, 분위기 깊이 및 수중, 인물 사진, 반려동물 사진 등 다양한 사진 스타일을 포함한 전문가 수준의 영화적 품질에 강점이 있습니다. 그래픽 디자인 및 포스터 시나리오에 최적화된 상업적 응용을 지원하며 강력한 텍스트 렌더링 능력을 유지하고 야수파(Fauvism) 및 바로크(Baroque)와 같은 예술 사조 전반에 걸친 정확한 스타일 제어를 제공합니다. CapCut의 Dreamina 플랫폼을 통해 하루 225개의 무료 토큰으로 제공되어 소셜 미디어, 마케팅 및 창작 프로젝트용 고해상도 이미지 생성을 가능하게 합니다.

공식 사이트: https://dreamina.capcut.com/

Grok

Grok 2

Grok 2는 xAI가 2024년 8월에 공개한 플래그십 AI 모델로 고급 추론, 코딩 능력 및 Aurora 자기회귀 전문가 혼합(autoregressive mixture-of-experts) 네트워크를 통한 이미지 생성 기능을 특징으로 합니다. 수십억 개의 인터넷 예제를 기반으로 구축된 Aurora는 포토리얼리틱 렌더링, 정밀한 텍스트 지시 준수 및 사용자 제공 이미지 편집을 위한 멀티모달 입력 지원에 뛰어납니다. X 플랫폼(구 트위터)의 Premium 및 Premium+ 사용자에게 제공되며 Grok 2는 엔터티 생성, 예술적 텍스트, 밈 생성, 사실적인 초상화 및 유명인 렌더링에서 최첨단 성능을 보여줍니다. Grok-1.5보다 향상된 정확성, 지시 준수 및 다국어 기능을 갖추었으며 웹 검색 통합, 인용, 실시간 정보 액세스 및 xAI의 엔터프라이즈 플랫폼을 통한 개발자용 API 액세스를 제공합니다.

공식 사이트: https://x.ai/news/grok-image-generation-release

Reve

Reve Create (Reve Image 1.0)

Reve Image 1.0은 Palo Alto 소재 스타트업이 2025년 3월에 공개한 고급 텍스트-투-이미지 모델(코드명 'Halfmoon')로 프롬프트 준수, 미학 및 타이포그래피에 뛰어납니다. 컨텍스트 인식 프롬프트 인터프리터와 5천만 폰트 샘플로 학습된 독점 타이포그래피 엔진을 갖춘 하이브리드 디퓨전 아키텍처 기반으로 구축되어 우수한 텍스트 렌더링과 다중 인물 일관성을 제공합니다. 네이티브 2048x2048 해상도를 지원하고 선택적 4K 업스케일 및 자연어 기반 이미지 편집을 제공하며 등록 없이 무제한 무료 생성이 가능합니다. 업스케일 테스트에서 92%의 디테일 정확도와 다중 인물 프롬프트에서 89%의 일관성을 기록했으며 드래그 앤 드롭 편집 인터페이스와 AI 기반 창작 도구를 결합해 전문가급 결과를 제공합니다.

공식 사이트: https://app.reve.com/

Ideogram

Ideogram 3.0 Turbo

Ideogram 3.0 Turbo는 2025년 3월의 플래그십 모델 군에서 가장 빠르고 비용 효율적인 변형으로, 빠른 반복과 대량 작업에 최적화되어 있습니다. Ideogram 3.0 패밀리의 세 가지 등급 중 하나인 Turbo는 이미지-프롬프트 정렬, 포토리얼리즘 및 텍스트 렌더링 품질에서 상당한 발전을 이루며 놀라운 사실감, 창의적 디자인 및 일관된 스타일을 제공합니다. 최대 3개의 레퍼런스 이미지를 지원하는 스타일 레퍼런스 기능, 43억 개 이상의 프리셋에서 무작위 스타일 탐색, 다양한 종횡비를 통해 전문 품질의 로고, 홍보 포스터, 제품 사진 및 그래픽 디자인에 적합합니다. 인간 평가에서 최고 ELO 등급으로 다른 텍스트-투-이미지 모델을 지속적으로 능가하며 Turbo는 전문 크리에이터가 신속하게 아이디어를 구상하고 대규모로 그래픽을 맞춤화하도록 돕습니다.

공식 사이트: https://ideogram.ai/features/3.0

Ideogram 3.0 Quality

Ideogram 3.0 Quality(또는 Ideogram V3 Quality)는 2025년 3월 플래그십 모델의 최고 충실도 변형으로 전문 창작 작업을 위한 최대 정밀도와 디테일을 제공합니다. Turbo 변형과 동일한 혁신적 기반 위에 구축된 Quality 모드는 직물, 물방울, 동물 털과 같은 정교한 요소에 대해 향상된 선명도로 우수한 포토리얼리즘을 제공하며 포토리얼리즘과 추상 스타일 모두에서 탁월합니다. 유연한 종횡비와 최대 2K 해상도를 지원하고 복잡한 텍스트 구성용 획기적인 타이포그래피 기능을 제공하여 축하 카드, 포스터, 만화, 랜딩 페이지 컨셉 및 마케팅 자료 등의 전문 디자인 작업을 가능하게 합니다. 모델의 정교한 공간 구성은 미묘한 조명, 정밀한 색상 및 현실감 있는 환경 디테일을 특징으로 하여 생성 이미지와 실제 이미지의 경계를 흐리게 합니다.

공식 사이트: https://ideogram.ai/features/3.0

Imagen

Imagen 4

Imagen 4는 Google DeepMind가 2025년 Google I/O(5월 20일)에 공개한 가장 진보된 텍스트-투-이미지 모델로, Imagen 3보다 크게 향상된 텍스트 렌더링, 최대 2K 해상도 및 향상된 프롬프트 준수력을 특징으로 합니다. Gemini로 생성된 합성 캡션과 결합된 잠재 확산(latent diffusion) 아키텍처를 기반으로 하며 세 가지 변형을 제공합니다: 일반 용도의 표준 Imagen 4, 빠른 아이디어 구상을 위한 10배 빠른 생성의 Imagen 4 Fast, 그리고 최대 정밀도와 디테일을 위한 Imagen 4 Ultra. 포토리얼리즘부터 인상파까지 다양한 예술 스타일에서 우수하며 향상된 조명 정확성, 세밀한 디테일 렌더링, 깨끗한 타이포그래피 및 복잡한 다인물 장면을 위한 공간 논리를 제공합니다. Gemini API, Google AI Studio 및 Vertex AI를 통해 제공되며 모든 출력에는 AI 생성 콘텐츠 식별을 위한 눈에 띄지 않는 SynthID 워터마크가 포함됩니다.

공식 사이트: https://deepmind.google/models/imagen/

Imagen 4 Ultra

Imagen 4 Ultra는 2025년 5월에 공개된 Imagen 4 제품군의 최고 정밀도 변형으로, 복잡한 텍스트 프롬프트에 대한 엄격한 준수와 최대 디테일을 위해 설계되었습니다. 최고 충실도를 요구하는 전문 창작 워크플로우를 위해 구축된 Ultra는 포토리얼리즘 렌더링, 미묘한 조명, 세밀한 디테일 정확도 및 축하 카드, 포스터 및 만화용 정교한 텍스트 렌더링에서 우수한 결과를 제공합니다. 향상된 프롬프트 정렬 기능과 함께 최대 2K 해상도를 지원하며 복잡한 다인물 구성, 정교한 공간 논리 및 깨끗하고 아티팩트 없는 출력을 유지하는 데 강점이 있습니다. Gemini API, Google AI Studio 및 Vertex AI를 통해 제공되며 모든 출력에는 책임 있는 AI 투명성과 추적을 위한 눈에 띄지 않는 SynthID 워터마크가 포함됩니다.

공식 사이트: https://deepmind.google/models/imagen/

Luma

Luma Photon

Luma Photon은 2024년 12월에 공개된 Luma Labs의 혁신적인 텍스트-투-이미지 모델로, 획기적인 Universal Transformer 아키텍처를 통해 초고품질 1080p/2MP 이미지를 탁월한 효율성으로 생성합니다. 특수하게 설계된 미학을 통해 일반적인 'AI 룩'을 제거하도록 설계되었으며 포토리얼리즘 렌더링, 대형 컨텍스트 창을 통한 고급 자연어 이해 및 다회차 반복 편집 워크플로우에 뛰어납니다. 단일 참조 이미지에서의 캐릭터 일관성, 스타일 전송을 위한 다중 이미지 레퍼런스 시스템을 지원하며 창의성 및 프롬프트 충실도에 대한 블라인드 평가에서 경쟁 제품을 능가합니다. 디자이너, 영화 제작자 및 건축가가 방대한 아이디어 공간을 탐색할 수 있도록 하며 Luma API 및 Dream Machine 서비스와 함께 더 빠른 Photon Flash 변형으로 제공됩니다.

공식 사이트: https://lumalabs.ai/photon

Recraft

Recraft 3.0

Recraft V3(코드명 'Red Panda')는 2024년에 공개된 Hugging Face의 업계 선도 벤치마크에서 1위를 차지한 텍스트-투-이미지 모델로 ELO 등급 1172를 기록하며 Midjourney, OpenAI 및 주요 경쟁사들을 능가했습니다. 전문 디자이너에게 혁신적인 이 모델은 래스터와 벡터(SVG) 이미지 생성을 모두 지원하고 모든 크기와 길이의 텍스트 렌더링에 뛰어난 성능을 발휘합니다. 브랜드 일관성을 위한 정밀한 스타일 제어(재학습 불필요), 고급 인페인팅/아웃페인팅, 드래그 앤 드롭 텍스트 위치 지정 및 우수한 해부학적 정확성을 특징으로 하여 전문적인 품질의 포토리얼리틱 이미지를 제공합니다. 데스크탑 앱, 모바일(iOS/Android) 및 API를 통해 제공되어 디자인 워크플로우에 원활하게 통합됩니다.

공식 사이트: https://www.recraft.ai/

Qwen

Qwen Image

Qwen Image(Qwen-Image-2512)는 2024년 12월에 공개된 Alibaba Cloud의 완전 오픈 소스 200억 파라미터 MMDiT 이미지 생성 모델로 GenEval, DPG 및 OneIG-Bench를 포함한 9개 공개 벤치마크에서 1위를 차지했습니다. Apache 2.0 라이선스로 상업적 무료 사용이 가능하며 복잡한 다중 행 레이아웃, 문단 수준 의미론 및 세밀한 시각적 디테일을 지원하는 상업 등급의 중문 및 영문 텍스트 렌더링에 뛰어납니다. DFloat11 양자화 및 CPU 오프로드를 통해 단일 RTX 3090 GPU에 배포 최적화되어 정확한 이미지 편집에서 우수한 성능을 제공하면서 의미적 완전성과 시각적 사실감을 유지합니다. Qwen Chat, Hugging Face, ModelScope 및 Alibaba Cloud Model Studio를 통해 제공되어 인포그래픽, 포스터 및 다국어 기업 문서 등 텍스트 중심의 구조화된 시각 생성에 적합합니다.

공식 사이트: https://qwen.ai/

SeeEdit

SeeEdit 3.0

SeeEdit 3.0(SeedEdit 3.0)은 2025년 6월에 공개된 ByteDance의 최첨단 생성 이미지 편집 모델로 실제/합성 이미지 편집 작업에서 56.1%의 사용성 비율을 달성하여 SeedEdit 1.6(38.4%), GPT-4o(37.1%) 및 Gemini 2.0(30.3%)를 크게 능가합니다. 향상된 메타정보 임베딩 파이프라인과 결합된 확산-보상 공동 학습(joint diffusion-reward learning)으로 구축되어 문맥 인식 편집에서 우수한 지시 준수 및 이미지 콘텐츠 보존 능력을 제공하며 특히 신원/지적재산 보존에 강점을 보입니다. 1K 이상의 고해상도 이미지를 처리하며 10-15초 내에 전문가급 편집을 제공하고 배경 교체, 객체 제거, 조명 변경, 텍스트 편집 및 캐릭터 일관성에서 탁월한 성능을 발휘합니다. 중국어/영어 병렬 프롬프트를 지원하고 4.07/5의 이미지 일관성 점수를 달성하여 사진작가, 제품 팀 및 정밀 제어가 필요한 크리에이티브 전문가에게 최적화되어 있습니다.

공식 사이트: https://seed.bytedance.com/

Nano Banana

Nano Banana(Gemini 2.5 Flash Image)는 2025년 8월에 공개된 Google DeepMind의 빠르고 대화형 이미지 생성 및 편집 모델로 전 세계적으로 탁월한 다중 프롬프트 간 캐릭터 일관성으로 최고 등급의 이미지 편집 모델로 평가받고 있습니다. 빠른 다회차 창의적 워크플로우를 위해 설계되었으며 완벽한 캐릭터 외형 유지에 강점이 있어 배경 블러, 객체 제거, 포즈 변경 및 사진 채색 등 자연어 명령으로 목표 지향적 변형을 가능하게 합니다. 무결점의 다중 이미지 합성 및 브랜드 자산 일관성 유지를 위한 시각적 템플릿 준수를 지원하며 Gemini의 심층 의미 이해를 활용해 단순한 포토리얼리즘을 넘어선 복잡한 시각적 추론을 수행합니다. 가시적 및 비가시적 SynthID 워터마크와 함께 Gemini 앱에서 제공되며 일반 사용자도 간단한 텍스트 프롬프트로 아이디어를 전문가 수준의 비주얼로 전환할 수 있게 합니다.

공식 사이트: https://gemini.google/overview/image-generation/

Nano Banana Pro

Nano Banana Pro(Gemini 3 Pro Image)는 2025년 11월에 공개된 Google DeepMind의 최첨단 전문 이미지 생성 및 편집 모델로 Gemini 3 Pro를 기반으로 향상된 추론 및 실제 지식을 통합하여 스튜디오 품질 결과를 제공합니다. 엔터프라이즈급 제작 워크플로우를 위해 설계되었으며 가독성 있는 다국어 텍스트 생성 등 고급 텍스트 렌더링에 탁월하고 복잡한 구성용으로 최대 14개의 입력 참조 이미지를 지원하며 1K/2K/4K 해상도 출력을 제공합니다. 복잡한 프롬프트 추론을 위한 '생각 모드', 사실 정확성을 위한 Google 검색 기반 근거 제공 및 최대 5인까지의 우수한 캐릭터 일관성을 특징으로 하여 목업, 포스터, 인포그래픽 및 마케팅 자산을 위한 전문 비주얼을 제공합니다. Vertex AI, Google Workspace(Slides, Vids), Gemini Enterprise에서 제공되며 Adobe Firefly, Photoshop, Canva 및 Figma와 통합됩니다.

공식 사이트: https://blog.google/technology/ai/nano-banana-pro/

GPT Image

GPT Image 1.5

GPT Image 1.5는 2025년 12월에 공개된 OpenAI의 최신 프로덕션급 이미지 생성 및 편집 모델로 텍스트와 이미지를 통합 신경망에서 처리하는 네이티브 멀티모달 아키텍처를 특징으로 하여 편집 정밀도를 개선합니다. 내부 코드네임 'Hazel'로 개발되었으며 DALL·E 3보다 최대 4배 빠른 생성 속도와 향상된 지시 준수, 다회차 편집에서의 견고한 얼굴 및 신원 보존, 선명한 글자체와 일관된 레이아웃을 통한 신뢰할 수 있는 텍스트 렌더링을 제공합니다. 텍스트-투-이미지 생성과 목표지향 이미지 편집 워크플로우를 모두 지원하며 인포그래픽, UI 목업, 만화 스트립 및 마케팅 자료와 같은 복잡한 구조화된 비주얼에서 구성, 조명 및 캐릭터 일관성을 유지하는 데 우수합니다. ChatGPT, OpenAI API 및 Microsoft Foundry를 통해 제공되며 품질-지연 시간 트레이드오프와 문맥상 정확한 콘텐츠를 위한 내장 세계 지식을 유연하게 조정할 수 있습니다.

공식 사이트: https://openai.com/index/new-chatgpt-images-is-here/

Reve

Reve Edit

Reve Edit는 LMArena 이미지 편집 작업에서 상위 3위권에 랭크된 Reve AI의 전문 이미지 편집 모델로 깊이, 원근감 및 3차원 객체 관계를 이해하는 공간적 지능을 갖추어 매끄러운 편집을 지원합니다. 구성 보존이 필요한 전문 워크플로우용으로 설계되어 자연어 편집과 드래그 앤 드롭 인터페이스를 결합해 편집하지 않은 영역에 영향을 주지 않는 대상 변형을 가능하게 합니다. 제품 사진 변형, 사진 복원, 현실적인 날씨/조명 조정이 포함된 풍경 편집 및 단일 소스 이미지로부터의 창의적 반복에서 뛰어나며 텍스처, 재료 렌더링 및 시각적 일관성을 유지합니다. 10인 연구팀에 의해 개발되어 빠르게 진화하고 우수한 프롬프트 준수 및 미학적 품질을 보이며 다중 이미지 합성 및 스타일 레퍼런스 기능을 통해 일관된 브랜드 자산 생성을 가능하게 합니다.

공식 사이트: https://app.reve.com/

Flux Kontext

Flux Kontext Max

FLUX.1 Kontext [max]는 Black Forest Labs가 2025년 5월에 공개한 프리미엄 인컨텍스트 이미지 생성 및 편집 모델로, 탁월한 프롬프트 준수와 고급 타이포그래피 처리를 통해 최대 성능을 제공합니다. 생성 흐름 매칭(generative flow matching) 아키텍처를 사용하는 혁신적인 Kontext 제품군의 일부로 텍스트-투-이미지 생성과 즉각적인 텍스트 기반 편집을 통합하여 캐릭터 일관성, 국소 편집 및 스타일 레퍼런스 기능을 지원합니다. 텍스트와 이미지 입력을 모두 지원하며 1MP 해상도에서 3-5초의 추론 속도를 제공해 다회차 정제를 통한 반복적 창작 워크플로우를 가능하게 하고 장면 및 환경 전반의 고유한 시각 요소를 보존합니다. KontextBench의 텍스트 편집 및 캐릭터 보존 벤치마크에서 상위 순위를 달성했으며 GPT-Image와 같은 경쟁 모델보다 8배 빠르게 동작합니다. BFL 플레이그라운드와 API 파트너를 통해 전문 제작에 접근할 수 있습니다.

공식 사이트: https://bfl.ai/models/flux-kontext

Flux Kontext Pro

FLUX.1 Kontext [pro]는 Black Forest Labs가 2025년 5월에 공개한 플래그십 반복 편집 모델로 생성과 정제를 결합한 빠른 다회차 워크플로우를 위해 설계되었습니다. 전문 창작 제작을 위해 설계되어 텍스트 및 참조 이미지를 입력으로 처리하고 국소 편집 및 복잡한 장면 변형을 가능하게 하며 반복 전반에 걸쳐 캐릭터 및 스타일 일관성을 유지합니다. 텍스트 편집 및 캐릭터 보존 벤치마크에서 최고 성능을 달성하고 3-5초의 추론 속도를 제공하며 경쟁 모델보다 8배 빠르게 동작합니다. 통합 아키텍처에서 캐릭터 일관성, 국소 편집 및 스타일 레퍼런스 기능을 지원하며 KreaAI, OpenArt, Replicate 및 BFL 플레이그라운드 등 파트너를 통해 프로덕션 워크플로우에 접근할 수 있습니다.

공식 사이트: https://bfl.ai/models/flux-kontext

Flux Kontext Dev

FLUX.1 Kontext [dev]는 Black Forest Labs가 2025년 5월에 공개한 비상업적 라이선스의 오픈 웨이트 변형으로 연구 및 안전성 테스트용입니다. Pro 및 Max 변형과 동일한 생성 흐름 매칭 아키텍처 기반으로 구축되어 개발자에게 ComfyUI와 같은 노드 기반 파이프라인에 통합하고 실험할 수 있는 맞춤형 기초를 제공합니다. 텍스트와 비주얼 입력을 모두 사용한 인컨텍스트 이미지 생성, 캐릭터 일관성 및 편집 기능을 지원하며 Hugging Face, GitHub 및 Replicate, FAL, TogetherAI 등 인프라 파트너를 통해 제공됩니다. 상업적 사용은 라이선싱을 통해 가능하며 준수를 위한 사용 추적이 통합되어 있습니다.

공식 사이트: https://bfl.ai/models/flux-kontext

Qwen-Image-Edit

Qwen Image Edit

Qwen-Image-Edit(Qwen-Image-Edit-2511)은 2025년 11월에 공개된 Alibaba의 오픈 소스 200억 파라미터 이미지 편집 모델로 Qwen-Image 기반의 이중 파이프라인 아키텍처로 구축되었습니다. 의미 제어를 위한 Qwen2.5-VL과 시각적 외형을 위한 VAE를 결합하여 정밀한 중영문(중국어/영어) 텍스트 편집과 이중 의미/외형 편집 모드를 지원합니다. 단체 사진에서 다인 일관성, 신원 보존 초상 편집, 스타일 전환, 객체 회전 및 글꼴 및 레이아웃을 유지한 채 텍스트 수정에 탁월하며 Apache 2.0 라이선스로 제공됩니다. Qwen Chat, Hugging Face, ModelScope 및 Alibaba Cloud Model Studio를 통해 액세스 가능하여 전문 디자인 및 창작 워크플로우에 적합합니다.

공식 사이트: https://qwen.ai/

업스케일러

Crisp Upscaler

Recraft의 Crisp Upscale은 전문가용 인쇄 및 웹 사용을 위해 설계된 빠르고 정밀 중심의 AI 업스케일러입니다. 원본 콘텐츠를 변경하지 않고도 해상도를 최대 4096x4096 픽셀까지 증가시키면서 선명도와 명료함을 유지합니다. 빠른 처리와 최소한의 연산 비용으로 신속한 작업이 필요한 디자이너, 마케터 및 판매자를 위해 구축되었습니다. 일러스트레이션, 로고, 제품 사진 및 디지털 자산을 고품질 출력용으로 준비하는 데 이상적입니다. Recraft의 웹 플랫폼에서 무료로 제공되며 Replicate 및 Kie.ai 등 파트너를 통한 API 통합으로 자동화된 워크플로우에 통합할 수 있습니다.

공식 사이트: https://www.recraft.ai/image-upscaler

Creative Upscaler

Recraft의 Creative Upscale은 해상도를 향상시키는 동시에 복잡한 디테일, 질감 및 얼굴 특징을 정교하게 다듬는 고급 AI 업스케일러입니다. 정확한 픽셀을 그대로 보존하는 표준 업스케일과 달리 세밀한 디테일을 개선하고 손실된 정보를 복원하여 깊이를 지능적으로 추가합니다. 256px에서 16MP까지 이미지를 처리하며 인물 보정, 제품 사진 정교화 및 예술적 이미지 개선에 탁월합니다. 결과물은 Crisp Upscale보다 처리 시간이 더 걸리지만 전문가용 창작 작업에 더 우수한 품질을 제공합니다. Recraft 플랫폼과 Replicate 및 fal.ai 등 API 파트너를 통해 제공되어 프로덕션 파이프라인에 통합할 수 있습니다.

공식 사이트: https://www.recraft.ai/image-upscaler

Topaz \bImage Upscaler

Topaz Gigapixel AI는 Topaz Labs의 업계 선도 전문 이미지 업스케일러로 2019년부터 상업적으로 제공되어 왔습니다. 박사 연구원이 학습시킨 딥러닝 모델을 활용하여 이미지를 최대 600%(6배)까지 업스케일하며 다양한 이미지 유형에 맞춘 아홉 가지 특화 AI 모델을 제공합니다. 인물, 풍경, 건축 및 압축 이미지 지원을 통해 디테일을 보존하면서 노이즈와 아티팩트를 줄입니다. 독립형 데스크탑 애플리케이션(Windows/Mac), iOS 모바일 앱 및 Photoshop과 Lightroom을 포함한 주요 편집 소프트웨어용 플러그인으로 제공됩니다. 인쇄, 복원 및 크롭 워크플로우에 대해 전 세계의 전문 사진작가, 미술가, 상업 스튜디오 및 크리에이티브 팀에게 널리 채택되고 있습니다.

공식 사이트: https://www.topazlabs.com/topaz-gigapixel

이전텍스트 모델 다음비디오 모델

마지막 업데이트 1개월 전

hashtagFLUX.1 개발 버전

hashtagFLUX Pro

hashtagFLUX.1 Krea

hashtagFLUX.2 개발 버전

hashtagFLUX.2 Pro

hashtagFLUX.2 Flex

hashtagSeedream 4.5

hashtagSeedream 4.0

hashtagSeedream 3.0

hashtagDreamina 3.1

hashtagGrok 2

hashtagReve Create (Reve Image 1.0)

hashtagIdeogram 3.0 Turbo

hashtagIdeogram 3.0 Quality

hashtagImagen 4

hashtagImagen 4 Ultra

hashtagLuma Photon

hashtagRecraft 3.0

hashtagQwen Image

hashtagSeeEdit 3.0

hashtagNano Banana

hashtagNano Banana Pro

hashtagGPT Image 1.5

hashtagReve Edit

hashtagFlux Kontext Max

hashtagFlux Kontext Pro

hashtagFlux Kontext Dev

hashtagQwen Image Edit

hashtagCrisp Upscaler

hashtagCreative Upscaler

hashtagTopaz \bImage Upscaler

FLUX.1 개발 버전

FLUX Pro

FLUX.1 Krea

FLUX.2 개발 버전

FLUX.2 Pro

FLUX.2 Flex

Seedream 4.5

Seedream 4.0

Seedream 3.0

Dreamina 3.1

Grok 2

Reve Create (Reve Image 1.0)

Ideogram 3.0 Turbo

Ideogram 3.0 Quality

Imagen 4

Imagen 4 Ultra

Luma Photon

Recraft 3.0

Qwen Image

SeeEdit 3.0

Nano Banana

Nano Banana Pro

GPT Image 1.5

Reve Edit

Flux Kontext Max

Flux Kontext Pro

Flux Kontext Dev

Qwen Image Edit

Crisp Upscaler

Creative Upscaler

Topaz \bImage Upscaler