文本模型

在 AICRON 中可用的生成文本模型

GPT-4o（OpenAI）

GPT-4o （“o”代表“omni”）是 OpenAI 于 2024 年 5 月发布的旗舰多模态 AI 模型。它通过单一统一的神经网络实时处理并生成文本、图像和音频。GPT-4o 提供与 GPT-4 相当的智能，响应时间显著更快（音频平均 320 毫秒，可与人类对话相媲美），在非英语语言上表现更佳，API 成本降低 50%。该模型在自然的人机交互方面表现出色，具有增强的视觉和音频理解能力，可通过 ChatGPT 使用，也可通过 OpenAI 的 API 调用。

官方网站： https://openai.com/index/hello-gpt-4o/

GPT-4o mini（OpenAI）

GPT-4o mini 是 OpenAI 于 2024 年 7 月发布的最具成本效益的小型模型。它在紧凑、价格实惠的包中提供 GPT-4 级别的性能，MMLU 达到 82%，每百万输入令牌价格为 0.15 美元，比 GPT-3.5 Turbo 便宜 60%。支持文本和视觉输入并具有 128K 的上下文窗口，擅长高容量任务，如客户支持、并行 API 调用和实时应用。该模型在推理和编码能力方面表现强劲，同时保持生产级部署所需的速度和效率。

官方网站： https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

GPT-4.1（OpenAI）

GPT-4.1 是 OpenAI 于 2025 年 4 月发布的最新 API 模型，在编码、遵循指令和长上下文处理方面带来了重大改进。在 SWE-bench Verified 上得分 54.6%（比 GPT-4o 高出 21 个点），在软件工程能力方面实现了显著跃升。支持高达 100 万令牌的上下文并增强了长上下文理解，擅长代理工作流、复杂编码任务和多步推理。该模型在 MultiChallenge 指令基准上得分 38.3%，在工具使用和 diff 格式遵守方面的可靠性有所提高。相较于 GPT-4o 成本降低 26%，并提供 75% 的提示缓存折扣，GPT-4.1 为生产应用提供了更优的性能和效率。

官方网站： https://openai.com/index/gpt-4-1/

GPT-4.1-nano（OpenAI）

GPT-4.1 nano 是 OpenAI 于 2025 年 4 月发布的最快且最具成本效益的模型，具有 1M 令牌的上下文窗口和 80.1% 的 MMLU 性能，表现优于 GPT-4o mini。为高容量、低延迟应用设计，擅长需要速度和效率的任务，包括分类、自动完成、简单推理和数据提取。作为 GPT-4.1 系列的一部分，它在优化快速响应时间和资源效率的同时保持强大的智能能力。具有 2024 年 6 月的知识截止时间并支持文本和视觉输入，nano 使开发者能够构建可扩展的应用，在不牺牲质量的前提下为直接任务提供快速准确的响应。

官方网站： https://openai.com/index/gpt-4-1/

Claude 4 Sonnet（Anthropic）

Claude Sonnet 4 是 Anthropic 于 2025 年 5 月发布的通用模型，在 SWE-bench 上取得 72.7% 的表现，具备将即时响应与延展思考模式相结合的混合推理能力。相比先前版本，在遵循指令、工具选择和错误修正方面有所增强，擅长编码、分析以及需要平衡智能与效率的一般任务。支持包括文本、图像和文档在内的多模态输入，并具有 200K 的上下文窗口，Sonnet 能够处理复杂工作流，同时在持续的多步操作中保持强劲表现。该模型的混合方法允许用户控制推理深度，适用于从快速查询到复杂问题解决等多样化应用。

官方网站： https://www.anthropic.com/news/claude-4

Claude 4 Opus（Anthropic）

Claude Opus 4 是 Anthropic 于 2025 年 5 月发布的最强大模型，以 72.5% 的 SWE-bench 成绩位居世界前列，是目前可用的最佳编码模型。为在需要数千步推理的数小时持续任务中保持性能而设计，Opus 在复杂问题解决、高级编码、研究和分析方面提供卓越能力。支持对长篇内容的扩展上下文理解并在长文准确性上表现出色，擅长需要深度推理、细致关注细节和全面输出的任务。该模型在持续运行的操作中保持高质量表现，非常适合需要最大智能和可靠性的专业开发者、研究人员和企业用于最具挑战性的工作流。

官方网站： https://www.anthropic.com/news/claude-4

Gemini 2.5 Flash（Google）

Gemini 2.5 Flash 是 Google 于 2025 年 4 月发布的在性价比方面表现最佳的模型。作为 Google 首个完全混合推理的 Flash 模型，它允许开发者开启/关闭思考并设置思考预算，以优化质量、成本和延迟。具有 100 万令牌的上下文窗口，并在文本、图像、音频和视频等多模态方面具备能力，擅长大规模处理、低延迟任务和代理式用例。该模型在保持速度和成本效率的同时，相较于 Gemini 2.0 Flash 带来了重大的推理升级，适用于高容量的生产级应用。

官方网站： https://blog.google/products/gemini/gemini-2-5-flash-preview/

Gemini 2.5 Pro（Google）

Gemini 2.5 Pro 是 Google 于 2025 年 3 月发布的最先进推理模型。作为专为“思考模型”构建、以增强推理为核心能力的模型，它在若干挑战性基准上领先，包括 Humanity's Last Exam 得分 18.8% 和 SWE-bench Verified 得分 63.8%。具有 100 万令牌的上下文窗口（可扩展至 200 万），擅长理解大量数据集和复杂问题，支持包括文本、图像、音频、视频和代码在内的多模态输入。通过先进的强化学习和训练后技术，它在编码、数学、科学和深度推理方面为企业级应用提供了最先进的性能。

官方网站： https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

最后更新于1个月前