文本模型
在 AICRON 中可用的生成文本模型
GPT-4o(OpenAI)
GPT-4o (“o”代表“omni”)是 OpenAI 于 2024 年 5 月发布的旗舰多模态 AI 模型。它通过单一统一的神经网络实时处理并生成文本、图像和音频。GPT-4o 提供与 GPT-4 相当的智能,响应时间显著更快(音频平均 320 毫秒,可与人类对话相媲美),在非英语语言上表现更佳,API 成本降低 50%。该模型在自然的人机交互方面表现出色,具有增强的视觉和音频理解能力,可通过 ChatGPT 使用,也可通过 OpenAI 的 API 调用。
GPT-4o mini(OpenAI)
GPT-4o mini 是 OpenAI 于 2024 年 7 月发布的最具成本效益的小型模型。它在紧凑、价格实惠的包中提供 GPT-4 级别的性能,MMLU 达到 82%,每百万输入令牌价格为 0.15 美元,比 GPT-3.5 Turbo 便宜 60%。支持文本和视觉输入并具有 128K 的上下文窗口,擅长高容量任务,如客户支持、并行 API 调用和实时应用。该模型在推理和编码能力方面表现强劲,同时保持生产级部署所需的速度和效率。
官方网站: https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
GPT-4.1(OpenAI)
GPT-4.1 是 OpenAI 于 2025 年 4 月发布的最新 API 模型,在编码、遵循指令和长上下文处理方面带来了重大改进。在 SWE-bench Verified 上得分 54.6%(比 GPT-4o 高出 21 个点),在软件工程能力方面实现了显著跃升。支持高达 100 万令牌的上下文并增强了长上下文理解,擅长代理工作流、复杂编码任务和多步推理。该模型在 MultiChallenge 指令基准上得分 38.3%,在工具使用和 diff 格式遵守方面的可靠性有所提高。相较于 GPT-4o 成本降低 26%,并提供 75% 的提示缓存折扣,GPT-4.1 为生产应用提供了更优的性能和效率。
GPT-4.1-nano(OpenAI)
GPT-4.1 nano 是 OpenAI 于 2025 年 4 月发布的最快且最具成本效益的模型,具有 1M 令牌的上下文窗口和 80.1% 的 MMLU 性能,表现优于 GPT-4o mini。为高容量、低延迟应用设计,擅长需要速度和效率的任务,包括分类、自动完成、简单推理和数据提取。作为 GPT-4.1 系列的一部分,它在优化快速响应时间和资源效率的同时保持强大的智能能力。具有 2024 年 6 月的知识截止时间并支持文本和视觉输入,nano 使开发者能够构建可扩展的应用,在不牺牲质量的前提下为直接任务提供快速准确的响应。
Claude 4 Sonnet(Anthropic)
Claude Sonnet 4 是 Anthropic 于 2025 年 5 月发布的通用模型,在 SWE-bench 上取得 72.7% 的表现,具备将即时响应与延展思考模式相结合的混合推理能力。相比先前版本,在遵循指令、工具选择和错误修正方面有所增强,擅长编码、分析以及需要平衡智能与效率的一般任务。支持包括文本、图像和文档在内的多模态输入,并具有 200K 的上下文窗口,Sonnet 能够处理复杂工作流,同时在持续的多步操作中保持强劲表现。该模型的混合方法允许用户控制推理深度,适用于从快速查询到复杂问题解决等多样化应用。
Claude 4 Opus(Anthropic)
Claude Opus 4 是 Anthropic 于 2025 年 5 月发布的最强大模型,以 72.5% 的 SWE-bench 成绩位居世界前列,是目前可用的最佳编码模型。为在需要数千步推理的数小时持续任务中保持性能而设计,Opus 在复杂问题解决、高级编码、研究和分析方面提供卓越能力。支持对长篇内容的扩展上下文理解并在长文准确性上表现出色,擅长需要深度推理、细致关注细节和全面输出的任务。该模型在持续运行的操作中保持高质量表现,非常适合需要最大智能和可靠性的专业开发者、研究人员和企业用于最具挑战性的工作流。
Gemini 2.5 Flash(Google)
Gemini 2.5 Flash 是 Google 于 2025 年 4 月发布的在性价比方面表现最佳的模型。作为 Google 首个完全混合推理的 Flash 模型,它允许开发者开启/关闭思考并设置思考预算,以优化质量、成本和延迟。具有 100 万令牌的上下文窗口,并在文本、图像、音频和视频等多模态方面具备能力,擅长大规模处理、低延迟任务和代理式用例。该模型在保持速度和成本效率的同时,相较于 Gemini 2.0 Flash 带来了重大的推理升级,适用于高容量的生产级应用。
官方网站: https://blog.google/products/gemini/gemini-2-5-flash-preview/
Gemini 2.5 Pro(Google)
Gemini 2.5 Pro 是 Google 于 2025 年 3 月发布的最先进推理模型。作为专为“思考模型”构建、以增强推理为核心能力的模型,它在若干挑战性基准上领先,包括 Humanity's Last Exam 得分 18.8% 和 SWE-bench Verified 得分 63.8%。具有 100 万令牌的上下文窗口(可扩展至 200 万),擅长理解大量数据集和复杂问题,支持包括文本、图像、音频、视频和代码在内的多模态输入。通过先进的强化学习和训练后技术,它在编码、数学、科学和深度推理方面为企业级应用提供了最先进的性能。
官方网站: https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/
最后更新于