テキストモデル
AICRONで利用可能なテキスト生成モデル
GPT-4o(OpenAI)
GPT-4o (「o」は「omni」を意味します)は、2024年5月にリリースされたOpenAIのフラッグシップとなるマルチモーダルAIモデルです。単一の統合ニューラルネットワークを通じてリアルタイムでテキスト、画像、音声を処理・生成します。GPT-4oはGPT-4レベルの知能を提供し、応答時間が大幅に短縮され(音声では平均320msで人間の会話に匹敵)、非英語言語での性能が向上し、APIコストが50%低減されています。本モデルは自然な人間とコンピュータの対話に優れ、視覚と音声の理解能力が強化されており、ChatGPTおよびOpenAIのAPIを通じて利用できます。
GPT-4o mini(OpenAI)
GPT-4o mini は、2024年7月にリリースされたOpenAIの最もコスト効率に優れた小型モデルです。コンパクトで手頃なパッケージでGPT-4レベルの性能を提供し、MMLUで82%のスコアを達成しつつ、GPT-3.5 Turboと比べて60%安価で、入力トークンあたり0.15ドル/百万というコストです。テキストとビジョン入力をサポートし、128Kのコンテキストウィンドウを持つため、カスタマーサポートや並列API呼び出し、リアルタイムアプリケーションなどの高ボリュームなタスクに適しています。推論やコーディング能力も高く、プロダクション規模での導入に必要な速度と効率を維持します。
公式サイト: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
GPT-4.1(OpenAI)
GPT-4.1 は、2025年4月にリリースされたOpenAIの最新APIモデルで、コーディング、指示追従、長いコンテキスト処理において大幅な改善をもたらします。SWE-bench Verifiedで54.6%(GPT-4oより21ポイント高い)を達成し、ソフトウェアエンジニアリング能力における大きな飛躍を示しています。最大100万トークンのコンテキストをサポートし、長文コンテキストの理解が強化されているため、エージェントワークフロー、複雑なコーディングタスク、複数ステップの推論に優れています。MultiChallengeの指示ベンチマークで38.3%を記録し、ツール使用や差分フォーマット遵守の信頼性が向上しています。GPT-4oより26%低コストで、プロンプトキャッシュ割引が75%適用されるため、プロダクション用途において優れた性能と効率を提供します。
GPT-4.1-nano(OpenAI)
GPT-4.1 nano は、2025年4月にリリースされたOpenAIの最速かつ最もコスト効率に優れたモデルで、100万トークンのコンテキストウィンドウとMMLUで80.1%の性能を持ち、GPT-4o miniを上回ります。高ボリュームかつ低レイテンシを要求される用途向けに設計されており、分類、自動補完、単純な推論、データ抽出など、速度と効率が求められるタスクに適しています。GPT-4.1ファミリーの一部として、高い知能能力を維持しながら迅速な応答時間と資源効率を最適化します。ナレッジカットオフは2024年6月で、テキストおよびビジョン入力をサポートしており、単純なタスクで品質を犠牲にすることなく迅速かつ正確な応答を必要とするスケーラブルなアプリケーションの構築を可能にします。
Claude 4 Sonnet(Anthropic)
Claude Sonnet 4 は、2025年5月にリリースされたAnthropicの多用途モデルで、即時応答と拡張思考モードを組み合わせたハイブリッド推論機能によりSWE-benchで72.7%の性能を達成しています。前バージョンよりも指示追従、ツール選択、エラー修正が強化されており、コーディング、分析、汎用タスクでバランスの取れた知能と効率を発揮します。テキスト、画像、ドキュメントなどのマルチモーダル入力をサポートし、200Kのコンテキストウィンドウを持つSonnetは、複雑なワークフローを扱いながら持続的なマルチステップ操作でも高い性能を維持します。ハイブリッドアプローチにより推論の深さを制御できるため、簡単なクエリから高度な問題解決まで幅広い用途に最適です。
Claude 4 Opus(Anthropic)
Claude Opus 4 は、2025年5月にリリースされたAnthropicの最も強力なモデルで、世界最高水準となるSWE-benchで72.5%の性能を達成し、最良のコーディングモデルとされています。数千の推論ステップを要する数時間規模の持続的なタスクでの性能を想定して設計されており、複雑な問題解決、高度なコーディング、研究、分析において卓越した能力を発揮します。長文コンテンツに対する優れた精度で拡張コンテキスト理解をサポートし、深い推論、綿密な注意、包括的な出力を要求されるタスクに適しています。本モデルは持続的な運用でも高品質の性能を維持するため、最も困難なワークフローに対して最大の知能と信頼性を必要とするプロフェッショナルな開発者、研究者、企業に理想的です。
Gemini 2.5 Flash(Google)
Gemini 2.5 Flash は、2025年4月にリリースされた価格性能比に優れたGoogleのベストモデルです。Google初の完全ハイブリッド推論Flashモデルとして、開発者は思考モードのオン/オフを切り替えたり、品質・コスト・レイテンシを最適化するための思考予算を設定したりできます。100万トークンのコンテキストウィンドウとテキスト、画像、音声、動画にまたがるマルチモーダル機能を備え、大規模処理、低レイテンシタスク、エージェント的ユースケースに優れています。本モデルはGemini 2.0 Flashに対する主要な推論のアップグレードを提供しつつ、高ボリュームなプロダクション用途での速度とコスト効率を維持します。
公式サイト: https://blog.google/products/gemini/gemini-2-5-flash-preview/
Gemini 2.5 Pro(Google)
Gemini 2.5 Pro は、2025年3月にリリースされたGoogleの最も高度な推論モデルです。強化された推論を中核能力として設計された「思考モデル」として位置づけられ、人類最後の試験(Humanity's Last Exam)で18.8%、SWE-bench Verifiedで63.8%など、困難なベンチマークで先導しています。100万トークンのコンテキストウィンドウ(最大200万まで拡張可能)を備え、テキスト、画像、音声、動画、コードを含むマルチモーダル入力に対して膨大なデータセットや複雑な問題の理解に優れています。高度な強化学習および事後トレーニング技術を取り入れ、コーディング、数学、科学、深い推論において最先端の性能をエンタープライズ規模のアプリケーション向けに提供します。
公式サイト: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
最終更新