Codex Cyber Safety | 高风险场景与限制

GPT-5.3-Codex 是 OpenAI 按照 Preparedness Framework（准备度框架）视作“高网络安全能力”的第一个模型，因此需要额外防护。这些防护包括训练模型拒绝明显恶意的请求，例如窃取凭据。

除了安全训练之外，基于分类器的自动监控也会检测可疑网络安全活动信号，并把高风险流量切换到网络安全能力更低的模型 GPT-5.2。OpenAI 预计只有极少一部分流量会受到这些缓解措施影响，并正在持续打磨相应的策略、分类器和产品内通知。

为什么要这样做

最近几个月，模型在网络安全任务上的表现出现了明显提升，这既让开发者受益，也让安全专业人员受益。随着模型在漏洞发现等网络安全相关任务上越来越强，OpenAI 正采取一种预防式做法：在支持正当研究的同时，加强保护和执行，尽量减缓滥用。

网络安全能力天然具有双重用途。支持重要防御工作的那些知识和技术，例如渗透测试、漏洞研究、大规模扫描、恶意软件分析和威胁情报，也同样可能被用于现实世界中的伤害。

这些能力和技术需要在那些可以真正提升安全性的场景中变得更可用、更易用。OpenAI 的 Trusted Access for Cyber 试点，正是为了让个人和组织能够在不被打断的情况下，继续把模型用于可能属于高风险的网络安全活动。

从事网络安全相关工作，或进行其他可能被自动检测系统误判的活动的开发者和安全专业人员，可能会被切换到 GPT-5.2 作为后备模型。OpenAI 预计只有极少一部分流量会受到缓解措施影响，并正在积极校准相关策略和分类器。

受这些缓解措施影响的账号，可以通过加入下文的可信访问计划，恢复对 GPT-5.3-Codex 的访问。

OpenAI 也意识到，加入可信访问并不适合所有人，因此随着这些缓解措施扩大规模、并继续加强网络韧性，OpenAI 计划在多数情况下从账号级安全检查迁移到请求级检查。

OpenAI 正在试点“可信访问”，以便在继续校准通用可用阶段的策略与分类器期间，让开发者仍能保留高级能力。OpenAI 的目标是，真正需要加入 Trusted Access for Cyber 的用户应当非常少。

如果你要把模型用于潜在高风险的网络安全工作：

如果安全研究人员和团队需要访问能力更强、限制更少的模型，以加速正当防御工作，也可以表达对 OpenAI 邀请制项目的兴趣。获得可信访问资格的用户仍然必须遵守 OpenAI 的使用政策和使用条款。

正当活动，或并非网络安全相关的活动，也有可能偶尔被标记。当发生切换时，响应模型会显示在 API 请求日志中，也会在 CLI 中通过产品内提示展示；很快所有客户端入口都会支持这一提示。如果你认为自己遭遇的是错误切换，可以通过 /feedback 报告误报。