ビデオモデル
Seedance(シーダンス)
Seedance 1.0 Lite(シーダンス 1.0 ライト)
Seedance 1.0 Lite は、ByteDance が 2025 年 6 月に発表した高速でコスト効率に優れたビデオ生成バリアントで、迅速な反復と予算重視のワークフロー向けに最適化されています。約 40 秒のターンアラウンドで 720p 動画を生成し、マルチショットの物語表現やスタイル多様性といったコア機能を、著しく低い計算コストで維持します。クイックプロトタイピング、A/B テストのバリエーション作成、ソーシャルメディアコンテンツ、大量生産で速度が最大忠実度より重視される用途に最適です。ByteDance の Volcano Engine、Neural Frames、および API パートナー経由で提供され、迅速なフィードバックループを必要とするクリエイティブなワークフローに対応します。
公式サイト: https://seed.bytedance.com/en/seedance
Seedance 1.0 Pro(シーダンス 1.0 プロ)
Seedance 1.0 Pro は、ByteDance が 2025 年 6 月に発表した旗艦ビデオ生成モデルで、テキスト→ビデオおよび画像→ビデオの両タスクで Artificial Analysis のリーダーボードで首位に立ちました。滑らかな動き、豊かなディテール、映画的美学を備えた 1080p 動画を生成し、マルチショットの物語表現において被写体やスタイルの一貫性を保ちながらシームレスな遷移を実現します。分離型の時空間拡散トランスフォーマーアーキテクチャと時間因果性を持つ VAE を基盤に、幅広いスタイル(フォトリアリズムからアニメまで)に対する卓越した意味理解とプロンプト準拠を達成しています。複雑なカメラ動作、マルチエージェントの相互作用、微細な表情から大規模アクションシーンまでの広いダイナミックレンジをサポートします。
公式サイト: https://seed.bytedance.com/en/seedance
Seedance 1.0 Pro Fast(シーダンス 1.0 プロ ファスト)
Seedance 1.0 Pro Fast は、ByteDance が 2025 年 6 月に発表した最適化バリアントで、Seedance 1.0 Pro と比較して生成速度が 3 倍速く、1080p の高品質出力を維持します。速度、品質、コスト効率のバランスが求められるプロダクションワークフロー向けに設計されており、段階的な知識蒸留を積極的に導入することで推論速度を 30~60% 向上させつつ、マルチショット物語、意味理解、映画的美学などのコア機能を保持します。広告、ソーシャルメディア、短編ナラティブなど専門的なコンテンツで迅速なターンアラウンドが必要なクリエイターに最適です。ByteDance の Volcano Engine および Replicate、fal.ai を含む API パートナー経由で利用可能です。
公式サイト: https://seed.bytedance.com/en/seedance
Seedance 1.5 Pro(シーダンス 1.5 プロ)
Seedance 1.5 Pro は、ByteDance が 2025 年に正式リリースした次世代の音声映像同時生成モデルで、二枝構造の拡散トランスフォーマーアーキテクチャにより単一パスで音声と映像を同期生成します。英語、中国語(北京語)、日本語、韓国語、スペイン語、ポルトガル語、インドネシア語および中国の方言を含む複数言語でミリ秒精度のリップシンクを実現し、映像リズムに合った環境音、感情表現を持つキャラクターボイス、背景音楽を生成します。強化された意味理解により、一貫したキャラクター、正確なカメラ制御(パン、チルト、ズーム、オービット)、劇的な視覚効果を備えた整合性のあるマルチショット物語を可能にします。1080p 出力とプロフェッショナル品質の音声映像シナジーをサポートし、映画制作、広告、短編ドラマ、文化公演に適しています。
LTX(エルティーエックス)
LTX 2 Fast(エルティーエックス 2 ファスト)
LTX 2 Fast は Lightricks が 2025 年 10 月に発表した速度最適化バリアントで、アイデア出し、絵コンテ作成、モバイルワークフロー、高ボリューム生産に向けて構築されています。オーディオを伴う同期 4K(QHD/4K、24fps 以上)の動画を再生時間より短い 6~10 秒のクリップで生成し、クリエイティブなテストと反復の即時フィードバックを提供します。競合モデルより格段に高いステップスループットを実現する蒸留ハイブリッドアーキテクチャを基盤に、流麗な動き、現実的な効果音、対話、音楽を単一パスで保ちながらプロ品質を維持します。プレビュー、コンセプト検証、最大忠実度よりも迅速なターンアラウンドが求められるシナリオに最適です。LTX Studio、API、Replicate、ComfyUI 統合を通じて提供されます。
公式サイト: https://ltx.io/model/ltx-2
LTX 2 Pro(エルティーエックス 2 プロ)
LTX 2 Pro は Lightricks が 2025 年 10 月に発表したバランス型のプロダクションバリアントで、プロフェッショナルなワークフロー全体で効率と仕上がりを最適化するよう設計されています。最大 10 秒、50 fps までのオーディオ同期 4K 動画生成を行い、関係者のレビュー、クライアントプレゼンテーション、マーケティング素材に適した高い視覚忠実度でコンセプトと納品を橋渡しします。DiT ベースのアーキテクチャ、複数キーフレーム条件付け、3D カメラロジック、LoRA ファインチューニング対応を備え、構成、動作、アイデンティティに対する精密なクリエイティブ制御を可能にします。競合モデルと比べ最大 50% の計算コスト削減を実現しつつプロダクションレベルの品質を維持し、コンシューマー向け GPU 上でも効率的に動作します。代理店、スタジオ、クリエイティブチームのデフォルト選択肢です。
公式サイト: https://ltx.io/model/ltx-2
LTX 2 Retake(エルティーエックス 2 リテイク)
LTX 2 Retake は LTX-2 を基盤に構築された革新的なビデオ修正モデルで、クリップ全体を再生成することなく特定の映像セグメントを精密に編集できます。時間的マーカーを含む自然言語プロンプトを使用して、照明、雰囲気、台詞、感情などの対象部分を正確に変更し、周辺の映像の整合性(動きの連続性、構図、環境コンテキスト)を保持します。新規生成ではなく既存映像上で動作するため、静的なワンショットレンダリングを反復可能なプロダクション品質のワークフローに変革します。最大 20 秒までの映像のみ、音声のみ、またはその組み合わせの変更をサポートします。WaveSpeedAI API、RunComfy プラットフォーム、LTX Studio を通じてプロ向けポストプロダクションとクリエイティブ反復ワークフローで利用可能です。
公式サイト: https://ltx.io/model/ltx-2
Hailuo(ハイルオ)
Hailuo 2.3 Fast(ハイルオ 2.3 ファスト)
Hailuo 2.3 Fast は MiniMax が 2025 年 10 月に発表した速度最適化バリアントで、生成速度を 30〜50% 向上(クリップあたり 20〜50 秒)させつつコストを約 50% 低減し、強い視覚品質を維持します。768p、6〜10 秒の画像→ビデオワークフローをサポートし、アニメ、イラスト、ゲーム CG スタイルなどのスタイライズ機能や基本的な動きの品質と視覚的一貫性を保持します。迅速な反復、A/B テスト、バッチ自動化、高ボリュームのコンテンツ生産向けに構築されています。ソーシャルメディアクリエイター、e コマース広告、バリエーションを試すマーケティングチーム、迅速なターンアラウンドを必要とする AI 搭載アプリ開発者に理想的です。Hailuo AI プラットフォーム、WaveSpeedAI、Replicate、fal.ai を通じて提供され、VEED と Freepik に統合されています。
公式サイト: https://hailuoai.video
Hailuo 2.3(ハイルオ 2.3)
Hailuo 2.3 は MiniMax が 2025 年 10 月に発表した旗艦ビデオ生成モデルで、Hailuo 02 を基盤に動的表現、物理的リアリズム、スタイライズ面で大幅な強化を行っています。複雑な身体動作、顔の微表情、モーションコマンド応答が大きく改善され、ほぼフォトリアリスティックな照明、影、色調を実現します。768p/1080p 解像度で 6〜10 秒のテキスト→ビデオおよび画像→ビデオワークフローをサポートし、アニメ、イラスト、水墨画、ゲーム CG スタイルに優れています。強化された物理理解により流動的な振付、体操のような極端な動作、映画的なカメラワークを可能にします。Hailuo 02 と同価格を維持しつつ機能を拡張し、ビデオモデルのコスト効率で記録を樹立しています。Hailuo AI、API プラットフォーム、VEED、fal.ai を通じて提供されます。
公式サイト: https://hailuoai.video
Hailuo 2(ハイルオ 2)
Hailuo 02 は MiniMax が 2025 年 6 月に発表した画期的なビデオ生成モデルで、Artificial Analysis ベンチマークで世界第 2 位(ELO 1322)を獲得し、Google Veo 3 を上回りました。Noise-aware Compute Redistribution(NCR)アーキテクチャに基づき、トレーニング/推論効率が 2.5 倍、パラメータが 3 倍、トレーニングデータが 4 倍という性能を達成しています。ネイティブ 1080p、24–30 fps で最大 10 秒の動画を生成し、最先端の指示準拠と高度な物理挙動(アクロバット、流体力学、複雑な物体相互作用)を備えます。768p-6s、768p-10s、1080p-6s の 3 バージョンをサポートし、クリエイターに世界で 3.7 億本以上の動画生成を可能にしました。Hailuo AI プラットフォーム、API、BasedLabs、fal.ai を通じて業界をリードする価格で提供されます。
公式サイト: https://hailuoai.video
Veo(ヴィオ)
Veo 3(ヴィオ 3)
Veo 3 は Google DeepMind が 2025 年 5 月の Google I/O で発表した最先端のビデオ生成モデルで、対話、効果音、環境音を含むネイティブ同期オーディオを初めて特徴としました。720p〜1080p、24 fps で 4〜8 秒の動画(16:9 および 9:16)を生成し、強化された物理シミュレーションと映画的理解により品質、リアリズム、プロンプト準拠が向上しています。テキスト→ビデオおよび画像→ビデオワークフローをサポートし、リアルなキャラクターの動き、ダイナミックなカメラワーク、フォトリアリズムからアニメーションまで多様なビジュアルスタイルに優れます。全出力には透明性のため SynthID のウォーターマークが含まれます。ローンチ以降 4,000 万本以上の動画が生成されています。Gemini アプリ、Flow、Gemini API(Google AI Studio)、Vertex AI(企業向け)を通じて利用可能です。
公式サイト: https://deepmind.google/models/veo/
Veo 3.1(ヴィオ 3.1)
Veo 3.1 は Google DeepMind が 2025 年 10 月に発表した拡張版ビデオ生成モデルで、Veo 3 を基盤に豊かなネイティブオーディオ、実物に近い質感の再現、映画的なストーリーテリングを強化しています。4〜8 秒のベースクリップ(720p–1080p)生成および最大 60 秒以上への拡張機能をサポートし、マルチイメージ参照ガイダンス、開始/終了フレーム制御、シーン拡張などの革新的なクリエイティブコントロールを導入します。画像→ビデオ機能も強化され、音声映像品質とプロンプト準拠が向上しつつキャラクターの一貫性を保持します。Flow との新しい統合機能として Ingredients to Video、Frames to Video、挿入/削除編集、ナラティブ構築ツールを備えます。Gemini アプリ、Flow、Gemini API、Vertex AI を通じて利用可能で、2.75 億本以上の動画が生成されています。
公式サイト: https://deepmind.google/models/veo/
Veo 3.1 Fast(ヴィオ 3.1 ファスト)
Veo 3.1 Fast は Veo 3.1 と同時に 2025 年 10 月に発表された速度最適化バリアントで、迅速な反復、高ボリューム生成、コスト効率の良いワークフロー向けに設計されています。約 62.5% 低コスト(標準 $0.40/秒 に対し $0.15/秒)で大幅に速い生成を提供し、コア品質を維持しながら概念検証、A/B テスト、ソーシャルメディアコンテンツや広告クリエイティブのための速度を優先します。720p–1080p の同一解像度オプションと Veo 3.1 と同等のクリエイティブコントロール(ネイティブオーディオ生成を含む)をサポートし、最大忠実度よりも迅速なターンアラウンドが重要なプロジェクトに最適です。Gemini アプリ(Google AI Pro プラン)、Flow(生成ごとに 10 クレジット)、Gemini API、Vertex AI を通じて開発者向けに提供されます。
Runway(ランウェイ)
Runway Gen-4 Turbo(ランウェイ Gen-4 ターボ)
Runway Gen-4 Turbo は Runway が 2025 年 4 月に発表した最速かつ最も高性能な AI ビデオ生成モデルで、10 秒の動画をわずか 30 秒で生成—標準 Gen-4 より最大 5 倍高速です。迅速な反復とクリエイティブ探究のために最適化され、シャープな映像、高い動作一貫性、正確なプロンプト準拠を維持しつつクレジットコストを 1 秒あたり 5 クレジット(Gen-4 の 12 クレジット/秒と比較)に削減します。720p 解像度での画像→ビデオワークフローと 4K アップスケール機能をサポートし、単一の参照画像で照明条件や環境を跨いだ一貫したキャラクター・オブジェクト生成に優れます。マーケティング、広告、映画、ミュージックビデオなどの高速プロトタイピング、コンセプト開発、実験、高ボリューム生産向けに構築されています。有料およびエンタープライズユーザー向けに Runway プラットフォームで利用可能で、統合用の API もあります。
公式サイト: https://runwayml.com/research/introducing-runway-gen-4
Runway Gen-4 Aleph(ランウェイ Gen-4 アレフ)
Runway Gen-4 Aleph は Runway が 2025 年 7 月 25 日に発表したインコンテキスト動画編集の最先端モデルで、既存の映像に対する包括的な変換・操作タスク向けに設計されています。新しいコンテンツを生成する生成モデルとは異なり、Aleph はプロンプト駆動ワークフローで実映像を編集することに優れ、オブジェクトの追加、削除、置換、新規視点生成、ショットの継続、モーショントランスファーなどを可能にします。最大 5 秒の継続時間をサポートし、対応解像度に自動クロップされます。空間マッピングと深度推定を実行して追加カメラが存在するかのように逆ショット、オーバーザショルダー、空撮視点をシミュレートします。照明、天候、時間帯を変換してシーンの整合性を維持する環境制御、スタイル転送、インテリジェントなシーン拡張機能を備えています。共同クリエイティブ体験向けのチャットモードまたは手動操作向けのツールモードを搭載し、Runway プラットフォームの Standard プラン以上で 4K アップスケールオプションとともに利用可能です。
公式サイト: https://runwayml.com
Runway Video Upscale(ランウェイ ビデオ アップスケール)
Runway Video Upscale は、生成された動画を 4K(3840×2160)まで 4 倍倍率でアップスケールする Runway の AI 搭載解像度向上機能で、片辺最大 4096 ピクセルに制限されます。Gen-3 Alpha および Gen-4 のワークフローと直接統合され、すべての有料プラン(Standard、Pro、Unlimited)で利用可能にしてプロダクション対応の出力をシームレスに作成します。フレームレート調整を行わずに時間的一貫性と元映像の美学を保持しつつ解像度だけを向上させることに注力しており、フレーム間の滑らかな動きを維持します。単純なピクセル拡大ではなく AI を用いて詳細を知的に補完しますが、結果はソース動画の品質に依存し、最良の性能は 40 秒未満の適度な品質の入力で得られます。ショートフォームコンテンツ、ソーシャルメディア、資料修復、ポストプロダクション向けに最適化されています。生成完了後に Actions メニューからワンクリックで「Upscale to 4K」ボタンを使用してアクセスできます。
公式サイト: https://runwayml.com
Kling(クリング)
Kling 1.6 Pro(クリング 1.6 プロ)
Kling 1.6 Pro は Kuaishou が 2024 年 12 月に発表した高品質ビデオ生成モデルで、Artificial Analysis の画像→ビデオリーダーボードで世界首位(Arena ELO スコア 1000)を獲得し、Google Veo 2 と Pika Art を上回りました。動作理解、カメラ安定性、色精度、照明ダイナミクスにおける包括的アップグレードを特徴とし、異なるシナリオ間で一貫したキャラクターとオブジェクト生成を可能にする複数画像参照機能を導入しました。1080p 解像度で 5〜10 秒の動画を生成し、テキスト応答性、時間的な行動解釈、カメラ動作の理解に優れます。テキスト→ビデオおよび画像→ビデオワークフローの両方をサポートし、詳細なレンダリングと視覚品質の向上により、いわゆる「AI による顔変化」や「製品のモーフィング」といった問題を解決しました。Kling AI プラットフォームを通じて商用用途でグローバルに提供されます。
公式サイト: https://klingai.com
Kling 2.1(クリング 2.1)
Kling 2.1 は Kuaishou が 2025 年 5 月に発表した先進的なビデオ生成モデルで、Standard(720p)と Pro(1080p)の品質モードを備え、コスト効率と効率的なコンテンツ生成を意識して設計されています。Kling 2.0 を基盤に、動きの忠実度、視覚的一貫性、プロンプト準拠が向上しており、高度な 3D 時空間アテンション機構と拡散トランスフォーマーアーキテクチャにより実現されています。720p/1080p で 5〜10 秒の画像またはテキストからの動画生成をサポートし、リアルな動き、表現豊かなキャラクター、フォトリアリスティックなレンダリングにより映画品質を達成します。アクションシーケンスから複雑な振付まで、滑らかな遷移と物理に即した動作で動的なシーンに優れます。Kling AI プラットフォームを通じて世界中で提供され、音声生成機能(現時点では中国語のみ)もサポートしています。
公式サイト: https://klingai.com
Kling 2.1 Master(クリング 2.1 マスター)
Kling 2.1 Master は Kuaishou が 2025 年 5 月に発表したプレミアムなビデオ生成モデルで、優れた動作性能とセマンティック応答性を提供し、AI ビデオ制作における重要なブレークスルーを表します。Master Edition として、関節の精密な整列、物理に即した動き、感情豊かな顔のアニメーションなど微細なディテールの捕捉に高い精度を実現します。720p/1080p の 5〜10 秒動画を生成し、ベンチマーク比較では Google Veo 3 などの業界リーダーと肩を並べる評価を受け、いくつかの評価では事実上の同率首位と見なされています。テキスト→ビデオおよび画像→ビデオワークフローをサポートし、高速動作シーン、動的構図、実験的なスタイライズ出力に優れます。技術、美学、制御可能な生成を組み合わせたユーザー体験の全面的な飛躍を表しており、Kling AI プラットフォームと WaveSpeedAI を通じてプレミアムなプロ用途で利用可能です。
公式サイト: https://klingai.com
Kling 2.5 Turbo(クリング 2.5 ターボ)
Kling 2.5 Turbo は Kuaishou の速度およびコスト最適化ビデオ生成モデルで、Kling 2.1 と比べて価格を 25% 引き下げながら流麗な動き、映画的ビジュアル、正確なプロンプト駆動制御を維持します。Standard と Pro の両バリアントで提供され、テキスト→ビデオおよび画像→ビデオワークフローをサポートし、720p/1080p の 5〜10 秒生成でプロンプトから動きへの応答性が向上しています。高ボリューム生産、迅速な反復、予算重視のクリエイター向けにプロ品質を低コストで提供するよう設計されています。動的エフェクト、シームレスなトランジション、スタイルブレンドをサポートし、映画、広告、デザイン、エンターテインメント用途に適しています。WaveSpeedAI API を通じてコールドスタートなしで最適化インフラにより高速推論を提供し、ソーシャルメディアコンテンツ、マーケティング動画、迅速な実験を必要とするクリエイティブに最適です。
公式サイト: https://klingai.com
Kling 2.6(クリング 2.6)
Kling 2.6 Pro は Kuaishou の最上位ビデオ生成モデルで、ネイティブな音声生成、改良された動作忠実度、放送品質の出力を提供します。Kling 2.0 アーキテクチャを拡張し、音声合成機能、動作の一貫性、映画的ビジュアルを改善しており、音声オフ時 $0.07/秒、音声オン時 $0.14/秒という料金でプロフェッショナルな画像→ビデオ生成を提供します。専用のモーションコントロールエンドポイントを通じた細粒度の動作制御、高精細レンダリングによる詳細保持、時間的一貫性のあるプロ品質出力をサポートします。モーションコントロール、画像→ビデオ、テキスト→ビデオなど多様なプロダクションワークフロー向けの専門化バリアントで利用可能です。fal.ai と WaveSpeedAI プラットフォームを通じて商用・クリエイティブ用途に適した自然な動き、照明、雰囲気再現、高忠実度な色再現を提供します。
公式サイト: https://klingai.com
Sora(ソラ)
Sora 2(ソラ 2)
Sora 2 は OpenAI が 2025 年 9 月 30 日に発表した旗艦ビデオ&オーディオ生成モデルで、物理シミュレーションと同期音声生成におけるブレークスルーを示す「ビデオの GPT-3.5 モーメント」と表現されます。2024 年 2 月の Sora 基盤を踏襲し、720p〜1080p の解像度で最大 25 秒の動画を生成し、対話、効果音、環境音を含むネイティブなオーディオを映像に完璧に同期させます。浮力を伴うパドルボードでのバックフリップやオリンピック体操、トリプルアクセルなどの正確な物理モデリングに優れており、プロンプトに合わせるために現実を不自然に変形させるのではなく、失敗状態を適切にシミュレートします。ユーザーの容姿と声を生成環境に注入する Cameo 技術、マルチショットでの物語一貫性、フレーム単位の制御が可能な絵コンテ機能を備えます。sora.com、iOS/Android のソーシャルクリエイションプラットフォームアプリ、API 経由で利用可能です。出力には可視ウォーターマークと C2PA メタデータが含まれ、コンテンツの出所が保証されます。
公式サイト: https://sora.com
Sora 2 Pro(ソラ 2 プロ)
Sora 2 Pro は OpenAI の最先端かつ最も高度なメディア生成モデルで、ChatGPT Pro 会員向けに実験的に高品質な出力を提供します。Sora 2 の基盤アーキテクチャを発展させ、視覚的忠実度、動作の一貫性、物理精度をさらに高めており、最大品質を必要とするプロフェッショナル用途に適しています。絵コンテインターフェースを通じた同期音声付きの 25 秒拡張生成をサポートし、標準ティアでは利用できないフレーム単位の創作コントロールを提供します。複雑な映画的シークエンス、詳細なキャラクターアニメーション、放送品質のコンテンツ制作に最適化されており、意味的応答性と芸術的表現の幅も拡張されています。Pro ユーザー向けに sora.com でアクセスでき、より高い日次生成上限と優先処理が提供されます。将来的に一貫した品質と高度なクリエイティブ機能を必要とする企業向けワークフロー向けに API の提供が予定されています。
公式サイト: https://sora.com
Luma(ルマ)
Luma Ray 2 Flash(ルマ レイ 2 フラッシュ)
Luma Ray 2 Flash は Luma AI が提供する速度最適化ビデオ生成モデルで、処理速度が 3 倍、コストが 3 倍低くなりつつ最前線のプロダクション品質を維持します。Ray 2 のすべての機能(テキスト→ビデオ、画像→ビデオ、音声生成、制御機能)を提供し、待ち時間を劇的に短縮して通常は 5〜10 秒のクリップが数秒でレンダリングされます。Ray 1 から 10 倍の計算スケールを持つ Ray 2 のマルチモーダルアーキテクチャに基づき、自然で一貫した動き、実物のような質感、滑らかなカメラワーク、現実的な照明を伴うフォトリアリスティックな映像を生成します。720p–1080p の 5〜10 秒生成(最大 30 秒まで拡張可能)、キーフレーム制御、ループ機能、4K アップスケーリングをサポートします。Dream Machine のすべてのサブスクライバー向けに提供され、スローモーション問題を解消する合理化されたワークフローでソーシャルメディア、マーケティング、プロ用途での迅速なクリエイティブ反復を可能にします。
公式サイト: https://lumalabs.ai/dream-machine
Luma Ray 2(ルマ レイ 2)
Luma Ray 2 は Luma AI が 2024 年 12 月に発表した大規模ビデオ生成モデルで、Ray 1 に対して 10 倍の計算力を持つ新しいマルチモーダルアーキテクチャで訓練され、10 秒未満でテキストや画像から動画を生成します。540p–1080p の解像度で 5〜10 秒のクリップを生成し、高度な撮影表現、滑らかな動き、超リアルなディテールを速やかに実現します。映像データに直接学習したマルチモーダルトランスフォーマーアーキテクチャにより、人、動物、物体の相互作用を理解して物理的に一貫したキャラクターを生成します。テキスト→ビデオ、画像→ビデオをサポートし、開始/終了フレーム制御を可能にするキーフレーム、最大 60 秒への拡張機能、ループ機能、音声生成を備えます。Dream Machine プラットフォームの有料サブスクライバー向けに提供され、企業向けには Amazon Bedrock 統合があり、クリエイティブおよびプロフェッショナルなワークフローで実用的な生成成功率を大幅に向上させます。
公式サイト: https://lumalabs.ai/ray2
Luma Reframe Video(ルマ リフレーム ビデオ)
Luma Reframe Video は Luma AI の画期的なビデオアウトペインティング機能で、最大 30 秒の動画に対して瞬時のアスペクト比変換と知的な境界拡張を可能にします。Dream Machine のコア AI を使用して、元のフレーム境界を超える新しい視覚コンテンツをあらゆる方向(垂直、水平、斜め)に生成しつつ、主被写体の整合性を保持します。9:16、4:3、1:1、3:4、16:9、21:9 の 6 つのプリセットアスペクト比をサポートし、YouTube のワイドスクリーンから TikTok の縦型フォーマットへのクロスプラットフォーム適応に最適です。動きの一貫性と現実的なディテールを維持するようスタイルに整合したインペインティングを行い、再撮影や手作業のトリミングを不要にします。Enterprise と Unlimited プランの web と iOS 向けに提供され、Ray2 Flash では最大 30 秒、Ray2 では最大 10 秒まで 720p 出力に対応します。クレジットコストは画像あたり 4 クレジット、Ray2 Flash は 1 秒あたり 11 クレジット、Ray2 は長さにより 160–320 クレジットです。
公式サイト: https://lumalabs.ai/reframe
Pixverse(ピクスヴァース)
Pixverse 4(ピクスヴァース 4)
Pixverse 4 は PixVerse が 2025 年 2 月 25 日に発表した生成 AI ビデオモデルで、リアリズムの大幅な向上、自然な動作表現、加速された生成速度を提供します。テキストまたは画像プロンプトから 5–8 秒の動画を生成し、プロンプト準拠と物理精度が向上、同期オーディオ生成によりワンクリックで音声映像コンテンツを作成できます。ワンクリックでライブアクションをアニメ、透明水彩画、その他の芸術スタイルに瞬時に変換する革新的な「Restyle」機能を導入します。テキスト→ビデオと画像→ビデオのワークフローをサポートし、競争力のある価格($0.01/ユニット)で 10 秒の生成時間を実現します。流れるようなキャラクターの動き、現実的な質感、滑らかなカメラワーク、高いキャラクター一貫性に優れ、ソーシャルメディアでのバイラル効果に適しています。PixVerse プラットフォーム、モバイルアプリ、およびオープン API を通じて広告、マーケティング、エンターテインメントのクリエイティブワークフローに統合可能です。
公式サイト: https://app.pixverse.ai
Pixverse 4.5(ピクスヴァース 4.5)
Pixverse 4.5 は PixVerse が 2025 年 5 月 13 日に発表した上位ビデオ生成モデルで、映画的なカメラ制御とマルチイメージ融合機能を導入し、プロ品質の出力を提供します。動的パン、ズーム、プッシュ/プルレンズ、回転、垂直移動など 20 種類以上のカメラ動作制御を備え、シンプルなプロンプトで精密なシーン演出を行えます。革新的な Fusion 機能は複数の画像被写体をシームレスに融合して複雑な構図でもキャラクターの一貫性を維持します。改良された流麗な動きと複雑な動作の再現により、微妙なジェスチャー、協調動作、感情表現をキャプチャし、物理精度を高めています。優れたプロンプト遵守により創造的概念を正確な視覚表現に変換し、滑らかなフレーム遷移を実現します。720p–1080p の 5–10 秒動画を高速処理で生成し、生成時間を増やすことなく品質を向上させます。テキスト→ビデオおよび画像→ビデオワークフローをサポートします。
公式サイト: https://app.pixverse.ai
Pixverse 5(ピクスヴァース 5)
Pixverse 5 は PixVerse が 2025 年 8 月 28 日にローンチした最新世代モデルで、Artificial Analysis ベンチマークの画像→ビデオで 2 位、テキスト→ビデオで 3 位を達成しました。自然で表現力豊かな動きと滑らかで一貫した軌跡、豊かなディテールとリアルな質感による鮮明な解像度、映画的な仕上がりのための改善された照明、フレーム間での安定したスタイル一貫性を提供します。文脈を理解する前例のないプロンプト精度により複雑なシーン生成や様々なフォントでの正確なテキスト表現が可能です。360p 動画を 5 秒で、1080p を約 60 秒で生成する高速アクセス性を維持します。PixVerse Agent 機能により単一写真アップロードから自動で 5–30 秒クリップを生成できます。ジブリ風、2D/3D、水彩、ヴェイパーウェーブ、サイバーパンクなど拡張されたスタイルオプションをサポートし、より高い創造的柔軟性を提供します。Web、モバイルアプリ、オープン API を通じて 1 億人以上のグローバルユーザーに提供されています。
公式サイト: https://app.pixverse.ai
Wan(ワン)
Wan 2.2(ワン 2.2)
Wan 2.2 は Alibaba Tongyi Lab が 2025 年 7 月 28 日に公開した最初のオープンソース Mixture-of-Experts(MoE)ビデオ生成モデルで、27B パラメータを持ち、各ステップで 14B のみを活性化する二重エキスパートアーキテクチャにより計算効率を高めています。Wan 2.1 より 65.6% 多い画像と 83.2% 多い動画で訓練され、照明、構図、コントラスト、色調にラベル付けされた厳選された美的データにより映画レベルの制御可能な生成を可能にしています。480p–720p(24fps)でのテキスト→ビデオおよび画像→ビデオをサポートし、消費者向け GPU(RTX 4090 等)で 5 秒 720p 動画を 9 分未満で生成する高圧縮 Wan2.2-VAE を備えたコンパクトな 5B TI2V モデルも含みます。Wan-Bench 2.0 ベンチマークで優れた動きの流動性、意味理解、プロンプト準拠を示しています。GitHub、Hugging Face、ModelScope を通じて MIT ライセンスでオープンソース提供され、ComfyUI、DiffusersStudio 統合をサポートし、アニメーションやキャラクター置換、全体的な動きの再現を可能にします。
公式サイト: https://wan22.io
Wan 2.5(ワン 2.5)
Wan 2.5 は Alibaba の高度なマルチモーダルビデオ生成モデルで、単一の構造化プロンプトからワンパスで音声映像同時生成を行い、コスト効率の高い合理化された制作を提供します。480p–1080p の 5–10 秒動画を生成し、ネイティブの台詞、効果音、背景音楽を自動的にリップシンクに合わせて整列させ、別録りや手動調整を不要にします。複数のアスペクト比(16:9、9:16、1:1)をサポートし、音声入力のカスタム化により音声置換や音楽統合が可能で柔軟なクリエイティブ制御を提供します。Google Veo 3 より著しく低コストで高品質を維持し、中国語、英語、スペイン語、ロシア語など堅牢な多言語サポートを備えます。大きな動きと小さな動きの両方で安定した現実的な動作を維持する広いダイナミックレンジに優れます。Alibaba Cloud DashScope、WaveSpeedAI、サードパーティ API を通じて提供され、1 回の生成あたり約 $0.25 でマーケティング、e コマース、教育、ソーシャルメディア用途に最適です。
公式サイト: https://www.wan-ai.co
Wan 2.6(ワン 2.6)
Wan 2.6 は Alibaba が 2025 年 12 月 16 日に発表した最新の視覚生成モデルシリーズで、参照→ビデオ(Wan2.6-R2V)という革新的機能を導入し、ユーザーが外見と声を保持したまま AI 生成動画に出演できるようにします。最大 15 秒の動画出力、インテリジェントなマルチショット物語化、強化された音声映像同期、1080p/24fps のプロフェッショナル品質をサポートします。Wan2.6-T2V(テキスト→ビデオ)、Wan2.6-I2V(画像→ビデオ)、Wan2.6-image、Wan2.6-T2I(画像生成)など広範なモデルアップグレードを特徴とし、テキストと画像が混在する出力に対する高度な論理的推論を提供します。複数人物の対話、ショット間でのキャラクター一貫性、改善された指示遵守精度を備えたリアルな効果音を可能にします。中国初の参照→ビデオモデルとして、単独出演や二人のキャラクターによる対話を同期音声付きで実現します。Alibaba Cloud Model Studio、Wan の公式サイト、Qwen アプリを通じて広告、エンターテインメント、ストーリーテリング等のプロ制作向けに提供されます。
公式サイト: https://www.wan-ai.co
Topaz(トパーズ)
Topaz Video Upscale(トパーズ ビデオ アップスケール)
Topaz Video Upscale は Topaz Labs のプロフェッショナル向け AI ベースの映像強化ソフトウェアで、映画品質のアップスケール、ノイズ除去、フレームレート変換、修復を提供します。Starlight、Starlight Sharp、Wonder、Iris などの深層学習モデルで数百万フレームを訓練し、低照度復元からアーカイブ映像修復まで多様な強化シナリオに対応します。最大 8K 解像度までのアップスケール、知的なディテール再構築、逆走査(デインターレース)、ノイズ低減、滑らかなスローモーションのための最大 16 倍のフレーム補間、カメラ安定化をポストプロダクションで提供します。Mac/Windows のスタンドアロンアプリまたは DaVinci Resolve、After Effects 用プラグインとして利用可能で、プロ向けコーデックをサポートします。ローカルレンダリングによる無制限処理と、最速処理のための Cloud Credits を使ったクラウドレンダリングの両方を提供します。Topaz Video AI v3.0 は複数の AI モデルを同時に積み重ねて実行でき(例:4K へのアップスケールと同時に手ぶれ補正とフィルム粒子追加)、並列タスク実行とマルチ GPU サポートにより企業向けワークフローに対応します。
最終更新