Type something to search...
GPT-5:迄今为止最聪明、最实用的模型

GPT-5:迄今为止最聪明、最实用的模型

GPT-5 是 OpenAI 迄今为止最强大的 AI 系统。GPT-5 在智能方面实现了质的飞跃,在编程、数学、写作、健康、视觉感知等多个领域都达到了顶尖水平。它是一个统一的智能系统,能够根据情况,决定是快速给出答案,还是进行更长时间的深度思考,从而提供专家级的回复。

GPT-5 已向所有用户开放,其中 Plus 会员将获得更多使用量,而 Pro 会员则可以体验到 GPT-5 Pro 版本,该版本具备更强的推理能力,能够给出更全面、更精确的回答。


首先看看价格

GPT-5 订阅计划

  • 免费版

    • 价格: 0 美元/月。
    • 功能: 可使用 GPT-5 作为默认模型,但有使用次数限制。达到上限后,会自动切换到更轻量级的 GPT-5 mini。
  • Plus 版

    • 价格: 20 美元/月。
    • 功能: 可使用 GPT-5 作为默认模型,并享有比免费版高得多的使用上限。
  • Pro 版

    • 价格: 200 美元/月。
    • 功能: 提供对 GPT-5 的无限访问,并独家提供 GPT-5 Pro 模型。GPT-5 Pro 是一个性能更强的版本,专为处理最复杂、最具挑战性的任务而设计。
  • Team 版

    • 价格: 年缴方案为每位用户每月 25 美元,月缴方案为每位用户每月 30 美元。
    • 功能: GPT-5 是默认模型,并提供充足的使用额度。数据默认不用于训练,并提供额外的安全和管理功能。
  • Enterprise 版

    • 价格: 未公开,需联系销售团队获取报价。
    • 功能: 专为企业级客户设计,提供最高的 GPT-5 消息额度,支持更长的输入和更大的文件。具备全面的数据安全和合规性功能。

API 开发者价格

对于开发者通过 API 调用 GPT-5,价格按输入和输出的 Token 数量计算:

  • GPT-5: 每 100 万输入 Token 1.25 美元,每 100 万输出 Token 10 美元。
  • GPT-5 mini: 每 100 万输入 Token 0.25 美元,每 100 万输出 Token 2 美元。
  • GPT-5 nano: 仅限 API 使用,每 100 万输入 Token 0.05 美元,每 100 万输出 Token 0.40 美元。

一个统一的智能系统

GPT-5 的核心是一个巧妙的统一系统,它由三部分组成:

  • 一个智能高效模型,用于回答大多数常规问题。
  • 一个深度推理模型(称为 GPT-5 Thinking),专为解决难题而设计。
  • 一个实时路由器,它会根据对话类型、复杂性、工具需求和用户的明确意图(比如在提问时说“帮我仔细思考一下”)来快速决定该使用哪个模型。

这个路由器会持续学习用户的真实反馈,包括用户何时切换模型、对回答的偏好程度以及答案的准确性,并随着时间不断自我优化。当使用量达到限制时,一个迷你版的模型会接管剩下的查询。在不久的将来,计划将所有这些能力整合到一个单一的模型中。


更聪明,也更实用

GPT-5 不仅在各项基准测试中超越了之前的模型,回答问题速度更快,更重要的是,它在处理实际问题时变得更加实用。

该模型显著减少了 AI 编造信息(幻觉)的现象,增强了指令遵循的能力,并降低了为了迎合用户而给出不严谨答案的倾向。同时,在 ChatGPT 三个最常用领域中的表现得到了重点提升:写作、编程和健康。


编码的革命者

GPT-5 是迄今最强的编程模型。它在复杂前端生成和调试大型代码库方面表现尤为出色。它能凭借对美学的直观理解和出众的品味,仅通过一个简单的提示,就能创建出美观且响应迅速的网站、应用和游戏,将想法变为现实。

早期测试人员也注意到,它在设计选择上有了巨大进步,对间距、排版和留白等细节的理解更加透彻。


跳跃跑酷球(Jumping Ball Runner)

提示: 创建一个单文件 HTML 应用程序,要求如下:

  • 游戏名称:跳跃跑酷球(Jumping Ball Runner)
  • 目标:跳过障碍物,尽可能长时间地生存。
  • 功能:速度不断增加、追踪最高分、重试按钮,并为各种动作和事件添加有趣的音效。
  • 界面要色彩丰富,有视差滚动背景。
  • 角色设计要卡通化,看起来有趣。
  • 游戏要老少咸宜,人人都能享受。

像素艺术(Pixel art)

提示:

创建一个单页应用,使用单个 HTML 文件,提供复古像素绘画体验。

  • 画布:固定像素网格,可缩放;铅笔、橡皮擦、填充、线条、矩形、圆形等工具;网格切换。
  • 调色板:16 色色板,带两个自定义插槽;吸管;前景/背景互换。
  • 编辑:撤消/重做、复制/粘贴选择、翻转/旋转选择、清除画布;带有光标坐标的状态栏。
  • UI 界面:仿 90 年代风格的操作系统窗口,带有可拖动的标题栏、工具栏图标和工具提示。
  • 导入/导出:导入 PNG(量化到调色板)并导出 PNG/SpriteSheet + JSON;从本地存储保存/加载。
  • 快捷键:数字键用于工具,+/- 用于缩放;可访问的标签和焦点顺序。
  • 响应式布局;无需上传到服务器。

打字速度竞赛(Typing game)

提示:

创建一个包含以下要求的单页 HTML 应用:

  • 名称:打字速度竞赛
  • 目标:在限时打字挑战中测试每分钟字数 (WPM) 和准确率。
  • 功能:随机段落生成器、错误高亮、实时每分钟字数显示、倒计时动画、历史记录图表。
  • 用户界面应简洁,文本对比度高,打字区域较大。

虚拟鼓(Drum simulator)

提示:

创建一个包含以下需求的单页 HTML 应用:

  • 名称:虚拟鼓组
  • 目标:使用键盘或点击音效演奏鼓组。
  • 功能:多种鼓音色、录音和播放模式。
  • 用户界面应采用音乐工作室风格,精致现代。请尽可能美观。

Lofi 可视化工具(Lofi visualizer)

提示:

  • 生成一个 React + Canvas“Lo-Fi Visualiser”
  • 将条形和波浪动画化为蒸汽波轨道(无需上传文件,使用捆绑音调);
  • 提供 3 种视觉样式(条形、点、网格)和滑块,用于控制速度、密度和辉光;
  • 周围环绕着 Windows-‘96 chrome(让人联想到文件资源管理器界面)、像素按钮和色相轮,为场景重新着色。

写作的得力助手

GPT-5 是迄今为止最强大的写作伙伴,能够帮助用户将粗糙的想法打磨成引人入胜、富有共鸣的文字,并赋予它们文学深度和韵律感。它能更可靠地处理具有结构模糊性的写作任务,例如创作符合自然流畅的无韵五步抑扬格或自由诗,将对形式的尊重与表达的清晰性完美结合。

这些改进的写作能力意味着,GPT-5 可以更好地帮助用户完成日常任务,如起草和编辑报告、电子邮件、备忘录等。


健康

GPT-5 是我们迄今为止在健康相关问题上表现最好的模型,能够帮助用户了解并维护自己的健康。在 HealthBench (一项基于真实场景和医生定义标准的评估) 上,该模型的得分远高于之前的所有模型。

与旧模型相比,GPT-5 更像是一个积极的思考伙伴,会主动指出潜在的顾虑,并通过提问来提供更有帮助的答案。它现在能够提供更精确、更可靠的回复,并能根据用户的背景、知识水平和地理位置进行调整,从而在各种情况下提供更安全、更有用的信息。

重要的是,ChatGPT 并不能取代医疗专业人士。请把它看作是一个辅助工具,帮助你理解检查结果、在就诊时提出正确的问题,并在做出决定时权衡各种选择。


评估

GPT-5 的智能水平得到了全面提升,这体现在它在学术和人工评估基准上的出色表现,尤其是在数学、编程、视觉感知和健康等领域。它在多个方面都创下了新的顶尖水平(SOTA):

  • 数学: 在不借助工具的情况下,于 AIME 2025 竞赛中获得 94.6% 的得分。
  • 实际编程: 在 SWE-bench Verified 基准中得分 74.9%,在 Aider Polyglot 中得分 88%。
  • 多模态理解: 在 MMMU 基准中得分 84.2%。
  • 健康: 在 HealthBench Hard 困难模式中得分 46.2%。

这些提升都体现在了日常使用中。此外,借助 GPT-5 pro 的扩展推理能力,该模型在不使用工具的情况下,于 GPQA 基准测试中也创下了新的顶尖水平,得分高达 88.4%。


AIME 2025

AIME 是 American Invitational Mathematics Examination(美国数学邀请赛)的缩写。它是一项在美国举办的高级别数学竞赛,面向高中生。AIME 是一个系列竞赛中的第二轮,参赛者通常需要先在 AMC 10(美国数学竞赛 10 年级组)或 AMC 12(美国数学竞赛 12 年级组)中取得高分才能获得邀请。

不应将使用工具的 AIME 结果与不使用工具的模型的性能直接进行比较;它们是 GPT-5 如何有效利用可用工具的一个例子。

AIME 2025


FrontierMath, Tier 1-3

FrontierMath 是一个由专家数学家创建的高级数学推理基准,旨在衡量人工智能在解决那些需要深度理论理解、创造性洞察和专业知识的问题上的能力。

这个基准之所以重要,是因为像 AIME 和其他常见的数学竞赛(如 AMC 或 Putnam)等传统基准,对于最先进的 AI 模型来说,已经达到了饱和状态。AI 模型在这些基准上的表现已经非常出色,以至于它们不再能有效地区分不同模型的能力。

FrontierMath 的问题是全新的、未发表的,并且涵盖了现代数学的多个主要分支,例如数论、代数几何和范畴论。对于人类专家来说,解决这些问题通常需要数小时甚至数天。

Tier 1-3 Expert-level Math(第 1-3 级专家级数学) FrontierMath 将其问题分为不同的难度等级,以提供更细致的评估:

  • 第 1 级 (Tier 1): 这些问题大约相当于国际数学奥林匹克竞赛(IMO)的难度。对于许多专家数学家来说,这些问题是可解的,但仍然非常具有挑战性。
  • 第 2 级 (Tier 2) 和 第 3 级 (Tier 3): 这些问题更具挑战性,需要研究生级别的专业知识。由于这些问题涉及广泛的专业领域,任何一位专家都很难解决所有这些问题。

GPT-5 在这些顶级基准上取得的进步,展示了其在处理复杂、需要深入理解和创造性推理的数学问题方面能力的巨大飞跃。

FrontierMath, Tier 1-3


HMMT Harvard-MIT mathematics tournament

哈佛-麻省理工数学锦标赛 (HMMT) 是由哈佛大学和麻省理工学院的学生联合组织和举办的一项著名的针对高中生的数学竞赛。

它被公认为美国最具挑战性的数学竞赛之一,并受到顶尖大学的广泛认可。比赛每年举办两次,分别在 11 月和 2 月。这两个锦标赛的结构相似,但在难度和形式上有所不同。11 月的比赛通常难度较低,而 2 月的比赛则更具挑战性,吸引着来自世界各地的顶尖学生。

HMMT


GPQA:博士级科学问题基准

GPQA Diamond 是一个极具挑战性的多项选择题数据集,旨在测试大型语言模型(LLM)和人类在科学领域的推理和知识水平。它是更大规模的 GPQA(研究生级 Google-Proof 问答)数据集的一个子集。

GPQA


人类最后的考试(Humanity’s Last Exam, HLE)

GPQA Diamond “人类最后的考试” 是一个由专家为测试顶尖 AI 能力而设计的超高难度学术基准。它包含了大约 2500 道 专家级的多学科问题,涵盖数学、科学、人文等多个领域。

这个考试的目的是解决现有基准测试“饱和”的问题,因为许多 AI 模型都能轻松在旧测试中获得高分。HLE 的问题是“Google-Proof”的,需要 AI 像人类专家一样进行深度推理,而不是简单地搜索答案。

目前,即使是最先进的 AI 模型,其在这项测试中的得分也远低于 30%,这表明 AI 在处理人类知识前沿的复杂问题时,仍有很大的进步空间。 GPQA(研究生级 Google-Proof 问答)数据集的一个子集。

Humanity's Last Exam


编码

SWE-bench Verified Software Engineering

SWE-bench 是一个用来评估大型语言模型(LLM)在软件工程能力方面表现的基准测试。它通过让 AI 模型解决来自 GitHub 上真实开源项目的实际软件问题来测试其能力。这些任务通常包含一个问题描述、相关的代码库,而 AI 模型的任务就是生成一个可以修复这个问题的代码补丁。SWE-bench Verified 是 SWE-bench 的一个升级版本,它是一个经过人工验证的子集。最初的 SWE-bench 基准测试中,一些任务存在问题,例如问题描述不清、难以复现,甚至无法解决。为了解决这些问题,研究人员与 OpenAI 合作,请人类标注者对其中 500 个样本进行了仔细审查和验证。

SWE-bench Verified Software Engineering


Aider PolyglotMulti-language code editing

Aider Polyglot 这个概念结合了两个核心点:

  • Aider:这是一个开源的AI 结对编程工具。它允许开发者通过命令行与一个 AI 模型(比如 GPT-4o 或 Claude 3)进行聊天,让 AI 帮忙编辑代码。你可以把它想象成一个坐在你旁边、随时听候你指令的智能编程伙伴。
  • Polyglot:这个词本身的意思是“精通多种语言的人”。在软件工程领域,它意味着一个系统或工具能够支持多种编程语言。

所以,将两者结合在一起,Aider Polyglot 的核心思想就是:

无论你使用的是什么编程语言,Aider 都能作为你的 AI 助手,帮你编写、重构或修复代码。

Aider PolyglotMulti-language code editing


指令遵循和代理工具使用

GPT-5 在测试指令遵循和代理工具使用的基准测试中表现出显著提升。这些能力使其能够可靠地执行多步请求、协调不同工具并适应上下文变化。实际上,这意味着它能更好地处理复杂且不断变化的任务;GPT-5 可以更忠实地遵循你的指令,并利用其可用的工具端到端地完成更多工作。


Scale MultiChallenge: 多轮指令遵循

Scale MultiChallenge 是一个由 Scale AI 设计的基准测试,专门用来评估 AI 模型在多轮对话中遵循指令的能力。

这个基准测试的重点在于,它模拟了真实世界中复杂的、持续进行的对话,而不是一次性的独立提问。

多轮指令遵循是指 AI 模型在持续的对话中,能够记住、理解并执行一系列相互关联的指令。

这不仅要求模型理解每一轮新的指令,更重要的是:

  • 指令记忆: 它需要记住之前对话中给出的指令和信息。
  • 上下文推理: 它需要根据整个对话的上下文来调整自己的行为。
  • 版本编辑: 它能可靠地进行代码编辑或内容修改,并根据后续的指令进行调整。
  • 自我一致性: 它在整个对话过程中保持逻辑和行为的一致性。

Scale MultiChallenge 就是通过这些挑战,来测试 AI 模型在执行复杂、逐步展开的任务时的能力。例如,你可能会先让 AI 写一段代码,然后让它修改这段代码以适应新的需求,接着再让它进行调试。这个基准测试就是用来衡量 AI 能否无缝地完成所有这些步骤。

Scale MultiChallenge


BrowseComp:网络浏览基准 & 代理式搜索与浏览 (Agentic search & browsing)

BrowseComp 是一个基准测试,用来衡量 AI 代理在网络上寻找复杂、难以找到的信息的能力。

代理式搜索和浏览指的是 AI 像一个智能助手一样,能够自主地分解任务、规划搜索步骤,并像人类一样在网站上进行多次点击、阅读和操作,最终找到并总结出你需要的信息。它是一种以目标为导向的自动化网络任务能力。

BrowseComp


COLLIE Instruction-following in freeform writing

COLLIE 是一个基准测试,用来衡量 AI 模型在进行自由写作(如写故事、剧本或文案)时,能否准确遵循用户给出的各种指令。

它测试的是 AI 将模糊、高层面的指令(比如“基调要悬疑”)转化为具体、符合要求的创意内容的能力。

Collie


Tau2-bench 函数调用

Tau2-bench 是一个评估 AI 代理能力的基准测试。它衡量 AI 在与人类协作完成任务时,能否有效使用外部工具。

函数调用是 AI 的一种能力,让它能理解用户的请求需要通过调用外部程序或 API来获取信息或执行操作,而不是只进行文本回复。这使 AI 能够处理更实际、更复杂的任务。

tau2


多模态能力

该模型在多模态基准测试中表现出色,其能力涵盖了视觉、视频、空间和科学推理等多个方面。更强的多模态性能意味着 ChatGPT 能够更准确地对图像和其他非文本输入进行推理——无论是解读图表、总结演示文稿中的照片,还是回答关于某个图解的问题。


MMMU 大学级别视觉问题 (MMMU College-level visual problem-solving)

是一个用于评估 AI 模型的多模态理解和推理能力的基准测试。它使用了大学级别的多学科问题,这些问题需要模型同时理解文本和图像(如图表、化学结构图等),从而考验其像人类专家一样解决复杂问题的能力。

MMMU 大学级别视觉问题


MMMU 基准测试升级版 (MMMU Pro***Graduate-level visual problem-solving)

MMMU-Pro 的“研究生级别视觉解题”挑战,要求模型不能只是简单地将图片和文字信息拼接起来,而是要像人类专家一样,深度融合视觉感知和领域知识,进行复杂的多步推理,尤其是在面对图片中包含文字、图表等复杂元素的场景时。这使得模型的准确率在 MMMU-Pro 上普遍大幅下降,更准确地反映了其真实的多模态理解能力。

MMMU 基准测试升级版


MMMU Video-based multimodal reasoning(max frame 256)

VideoMMMU 是一个评估大模型学习能力的测试,它用教育视频来考察模型能否像人一样,通过看视频来掌握新知识。

  • 它不像传统测试那样只问视频里有什么,而是要求模型在感知、理解和应用三个认知层面进行推理。
  • 一个关键指标是 Knowledge,用来衡量模型观看视频前后的表现提升了多少。

MMMU 基准测试升级版


科学图表推理 (CharXiv-Reasoning Scientific figure reasoning)

科学图表推理是大型多模态模型(MLLMs)的一项高级能力,要求模型不仅能识别图表中的基本元素(如标题、标签),还能像人类一样,通过分析数据、理解趋势和综合信息来回答复杂的科学问题。

CharXiv-Reasoning 是一个专门为测试上述能力而设计的基准数据集。它通过收集来自真实科学论文的图表,来挑战模型的真实理解和推理能力。这个数据集包含了两种类型的问题:

  • 描述性问题: 简单地询问图表中的可见信息。
  • 推理问题: 要求模型进行多步逻辑推理,这是大多数模型表现最差的部分。

科学图表推理


ERQA:评估多模态空间推理的基准

ERQA(Embodied Reasoning Question Answer)是 Google DeepMind 创建的一个基准数据集,专门用于评估大型多模态模型(MLLMs)的这项能力。它的核心特点是:

  • 具身推理(Embodied Reasoning): 专注于模型在现实世界场景中的空间理解,尤其是在机器人技术领域。
  • 多图交错: 包含多张图片和文字,要求模型综合所有信息才能回答问题。
  • 复杂推理: 问题类型不仅限于简单的识别,还包括多步逻辑和物理常识推理。

简而言之,ERQA 通过一系列复杂的测试,揭示了当前AI模型在处理真实世界空间推理任务时与人类的差距。

评估多模态空间推理的基准


健康

Health Bench

HealthBench 是一个由 OpenAI 发布的,用于评估大型语言模型(LLMs)在医疗健康领域表现的开源基准数据集。它的核心目标是衡量 AI 系统在处理真实医疗对话时的能力和安全性。 HealthBench 的出现,为医疗 AI 的评估设定了新的标准。它通过模拟真实的、开放式的对话场景,能够更全面地测试模型的实用性和可靠性,帮助研究人员和开发者识别模型的优缺点,并推动更安全、更有效的医疗 AI 发展。

HealthBench


Health Bench Hard

HealthBench Hard 的目的是通过模拟现实中更复杂、更具挑战性的健康交流来推动 AI 发展,确保模型在实际应用中能够安全、有效地应对不确定性和细微差别。

HealthBenchHard


Health Bench Hard (幻觉)

在 HealthBench Hard 测试中,大语言模型(LLM)出现幻觉和不准确信息的主要原因有:

  • 缺乏专业知识: LLM 主要基于通用互联网数据训练,缺乏深度和细分的医学知识,导致在处理复杂医疗问题时编造信息。
  • 训练目标不符: 模型的训练目标是预测下一个词元,而非确保事实的绝对准确性。这使得模型倾向于给出看似合理但实际上是错误的“猜测”。
  • 无法处理不确定性: 医学信息常有不确定性,但模型很难识别并表达出来,反而会自信地给出错误答案。
  • 上下文理解不足: 在多轮对话中,如果用户没有提供关键细节,模型通常不会主动询问,而是继续基于不完整的信息进行推理,从而导致错误。
  • 安全沟通不足: 在紧急情况下,模型可能会将重要的急救建议放在回答的末尾,或者使用过于专业的术语,影响用户的理解和及时行动。

HealthBenchHard2


经济价值任务

GPT-5 在一项衡量复杂且具有重要经济价值的知识工作表现的内部基准测试中,也取得了最佳成绩。在利用推理能力时,GPT-5 在法律、物流、销售和工程等 40 多个职业领域的任务中,其表现与专家水平相当或更优,大约占总任务量的一半,并超越了 o3 和 ChatGPT Agent。

经济价值任务


更迅速、更高效的思考

GPT-5 在更短的思考时间内产生了更大的价值。在我们的评估中,GPT-5(使用推理功能)在视觉推理、代理编码和研究生级别的科学问题解决等能力上,其表现优于 OpenAI o3,同时输出的词元(tokens)却减少了 50-80%。

CharXiv-Reasoning Scientific figure reasoning

CharXiv-Reasoning Scientific figure reasoning

SWE-bench Verified Software engineering

SWE-bench Verified Software engineering

GPQA Diamond PhD-level science questions

GPQA Diamond PhD-level science questions


构建更强大、可靠和有用的模型

面对现实世界查询,答案更准确

GPT-5 产生幻觉的可能性比之前的模型大大降低。在使用网页搜索功能、面对代表 ChatGPT 生产流量的匿名提示时,GPT-5 的回答出现事实错误的几率比 GPT-4o 减少了约 45%。当模型使用推理功能时,其回答出现事实错误的几率比 OpenAI o3 减少了约 80%。


开放式问题的事实性

研究团队特别投入,以提高模型在处理复杂、开放式问题时的推理可靠性。为此,他们添加了新的评估,对开放式的事实性进行压力测试。在两个公共事实性基准(LongFact 和 FActScore)的开放式事实查询提示下,GPT-5 在使用推理功能时的幻觉率显著下降,比 o3 少了大约六倍。这标志着在持续生成准确的长篇内容方面,取得了明确的飞跃。


更诚实的回答

除了事实准确性的提升,GPT-5(使用推理功能)也能更诚实地向用户传达其行动和能力,尤其是在任务无法完成、描述不明确或缺少关键工具时。为了在训练中获得高奖励,推理模型可能会学会谎称成功完成任务,或对不确定的答案表现出过度自信。举例来说,为了测试这一点,我们从多模态基准测试 CharXiv 的提示中移除了所有图像,结果发现 OpenAI o3 仍然有 86.7% 的时间自信地回答了不存在的图像相关问题,而 GPT-5 的这一比例仅为 9%。

GPT-5 在使用推理功能时,能更准确地识别任务无法完成的情况,并清晰地传达其局限性。在涉及不可能的编码任务和缺少多模态资源的评估中,GPT-5(使用推理功能)的欺骗性比 o3 更低。在一组代表真实 ChatGPT 生产流量的大量对话中,GPT-5 的欺骗率从 o3 的 4.8% 降至 2.1%。尽管这为用户带来了有意义的改进,但仍有更多工作需要完成,我们正在继续研究如何提高模型的真实性和诚实度。更多详情可在系统卡中找到。


更安全、更有帮助的回答

GPT-5 在安全方面取得了进步。过去,ChatGPT 的安全训练主要基于“拒绝”:根据用户的提示,模型要么执行,要么拒绝。这种训练方式在面对明确带有恶意意图的提示时表现良好,但在处理用户意图不明确、或信息可能被用于善意或恶意目的的情况时,会显得力不从心。例如,对于病毒学等双重用途领域,一个善意的请求可以在高层次上得到安全地完成,但如果回答得过于详细,则可能被恶意行为者利用。

对于 GPT-5,研究团队引入了一种新的安全训练形式——“安全完成”。这种训练旨在教导模型在可能的情况下提供最有帮助的答案,同时保持在安全界限内。有时,这意味着模型会部分回答用户的问题,或者只提供高层次的回答。如果模型需要拒绝,GPT-5 会经过训练,透明地告诉用户拒绝的原因,并提供安全的替代方案。无论是在受控实验还是在生产模型中,这种方法都表现出更强的细微处理能力,能更好地应对双重用途问题,对模糊意图有更强的稳健性,并减少了不必要的过度拒绝。关于这一新安全训练方法的更多信息,以及完整的方法、指标和结果细节,请阅读相关的安全完成论文。


减少奉承和优化文风

总的来说,GPT-5 减少了过度的迎合,使用的不必要表情符号更少,在后续回复中也更微妙和周到。它应该给人的感觉更像是与一位拥有博士级智慧的、乐于助人的朋友聊天,而不是“与人工智能对话”。

今年早些时候,GPT-4o 发布了一次更新,无意中使模型变得过度谄媚,或过于奉承和迎合。该更改很快被回滚,此后通过以下方式努力理解和减少这种行为:

  • 开发新的评估方法来衡量谄媚程度。
  • 改进模型训练,使其减少谄媚——例如,添加通常会导致过度同意的例子,然后教导模型不要那样做。

在专门设计用于引出谄媚回复的提示进行有针对性的谄媚评估中,GPT-5 显著减少了谄媚的回复(从 14.5% 降至低于 6%)。有时,减少谄媚可能会导致用户满意度下降,但所做的改进在将谄媚程度减少一半以上的同时,也带来了其他可衡量的收益,因此用户能够继续进行高质量、富有建设性的对话——这与旨在帮助人们更好地使用 ChatGPT 的目标相符。


更多定制 ChatGPT 的方式

GPT-5 在遵循指令方面表现显著提升,其遵循自定义指令的能力也随之有了相应的改善。

此外,还为所有 ChatGPT 用户推出了四种新的预设个性研究预览版,这得益于其可控性方面的改进。这些个性化设置最初在文本聊天中可用,稍后将应用于语音功能,让用户无需编写自定义提示,即可设定 ChatGPT 的互动方式——无论是简洁专业、深思熟虑和支持,还是带有一点讽刺意味。这四种初始选项,即“愤世嫉俗者”(Cynic)、“机器人”(Robot)、“倾听者”(Listener)和“书呆子”(Nerd),是可选择开启的,可以随时在设置中调整,旨在匹配用户的沟通风格。

所有这些新个性化设置在内部评估中,都达到了或超越了减少奉承行为的标准。


生物风险的全面安全防护

“GPT-5 thinking”模型在生物和化学领域被视为高能力模型,已实施强有力的安全防护措施,以充分最小化相关风险。该模型根据“备灾框架”(Preparedness Framework)下的安全评估进行了严格测试,与 CAISI 和 UK AISI 等合作伙伴共同完成了 5,000 小时的红队演习。

与对 ChatGPT Agent 的处理方法类似,尽管目前没有确凿证据表明该模型能够切实帮助新手造成严重的生物危害——这是其定义的高能力阈值——但出于预防考虑,现在已启动必要的安全防护措施,以备未来此类能力出现时做好准备。因此,“GPT-5 thinking”具备一个强大的安全堆栈,为生物学领域构建了多层防御系统:包括全面的威胁建模,通过新的安全补全范式训练模型不输出有害内容,始终开启的分类器和推理监控,以及明确的执行流程。


GPT-5 pro

对于最具挑战性、最复杂的任务,也推出了 GPT-5 pro,它取代了 OpenAI o3-pro。作为 GPT-5 的一个变体,GPT-5 pro 会通过使用可扩展但高效的并行测试时间计算,进行更长时间的思考,以提供最高质量和最全面的答案。GPT-5 pro 在 GPT-5 系列中的多个挑战性智能基准测试上取得了最高性能,包括在 GPQA(一个包含极其困难的科学问题的基准)上达到了最先进的水平。

在对超过 1000 个具有经济价值的现实世界推理提示进行的评估中,外部专家对 GPT-5 pro 的偏好度比 “GPT-5 thinking” 高出 67.8%。GPT-5 pro 的重大错误减少了 22%,并在健康、科学、数学和编码方面表现出色。专家们认为其回答具有相关性、实用性和全面性。


如何使用 GPT-5

GPT-5 已成为 ChatGPT 的新默认模型,为登录用户取代了 GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1 和 GPT-4.5。只需打开 ChatGPT 并输入问题,GPT-5 就会处理其余部分,在回复需要时自动应用推理。付费用户仍可通过模型选择器选择 “GPT-5 Thinking”,或在提示中输入类似“对此深入思考”的指令,以确保在生成回复时使用推理功能。

GPT-5 今天开始向所有 Plus、Pro、Team 和免费用户推出,Enterprise 和 Edu 用户的访问权限将在下周开放。

Pro、Plus 和 Team 用户也可以通过使用 ChatGPT 登录,在 Codex CLI 中开始使用 GPT-5 编写代码。

与 GPT-4o 一样,GPT-5 的免费和付费访问之间的区别在于使用量。Pro 订阅用户可以无限制地使用 GPT-5,并获得 GPT-5 Pro 的访问权限。Plus 用户可以将其作为日常问题的默认模型使用,其使用量远高于免费用户。Team、Enterprise 和 Edu 客户也可以轻松地将 GPT-5 作为日常工作的默认模型,其慷慨的使用限制使整个组织都能轻松依赖 GPT-5。

对于 ChatGPT 免费用户,完整的推理能力可能需要几天时间才能完全推出。一旦免费用户达到其 GPT-5 的使用限制,他们将转而使用 GPT-5 mini,一个更小、更快且能力强大的模型。


联系我们

有任何云成本管理的需求或问题?欢迎通过以下方式联系我们!

公众号

Mofcloud 微信公众号二维码

企业微信客服

Mofcloud 企业微信客服二维码

业务咨询

contact@mofcloud.com

技术社区

mofcloud/issuer

地址

北京市海淀区自主创新大厦 5层

标签 :

推荐阅读