news 2026/4/16 13:59:10

万众瞩目的 GPT 5.2,连个火柴人游戏都做不明白?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
万众瞩目的 GPT 5.2,连个火柴人游戏都做不明白?
本文共 1906 字,阅读预计需要 4 分钟。
Hi,你好,我是Carl,一个本科进大厂做了2年+AI研发后,裸辞的AI创业者。
今早,一个月内第三个号称“地表最强”的模型发布了,OpenAI的GPT-5.2官方定位是“最强大的专业知识工作模型”
看腻了那些复杂的跑分和论文,我此刻更想在一个最朴素的场景下,试试这些“王炸”们的成色。
提示词非常简单,
“你是一个资深全栈游戏开发工程师。请在当前目录下创建一个新文件夹,写一个火柴人第一人称射击游戏,并直接帮我完成所有构建工作。”
三分钟,代码生成完毕。我启动服务,打开浏览器,屏幕上确实出现了一个火柴人,手里也确实拿着枪,也确实能攻击周围的敌人。
但我晃动鼠标,发现它开始在屏幕上左右射击,像一个比魂斗罗还要古早的横屏射击游戏。
说好的第一人称射击呢?这明明是个横版第三人称游戏啊!
那一刻我意识到一个被由于过度营销而掩盖的真相,参数量再大,听不懂人话也是白搭。
于是我准备不看跑分,不看论文,试试各个模型,就看谁能真正帮我把这个游戏做出来。

亲历:当“全能神”听不懂人话

这次规则非常简单粗暴,还原最真实的“懒人开发”场景:
1. 环境:VS Code + Copilot 插件。
2. 提示词:统一使用上文中,与GPT 5.2相同的一段 Prompt。
3. 干涉:零干涉。不解释,不修 Bug,生成什么跑什么。
尝试的模型除了刚才翻车的 GPT 5.2,还有 Google 的 Gemini 3,Anthropic 的 Opus 4.5,以及 OpenAI 自家的两个偏科生:GPT 5.1 Codex 和 GPT 5.1 Codex Max。

战况:谁才是真正的程序员?

如果把这几个模型比作你的同事,他们的画风是这样的:

Gemini 3:稳重的老干部

Gemini 3 是那个让你最放心的老员工。
它写得最慢,磨蹭了 5 分钟。生成的项目结构也最简单:game.jsindex.htmlstyle.css,外加一个内容很简单的 README,只讲如何启动。
但是,它跑起来了。
没有花哨的特效,界面简陋得像 90 年代的 Flash 游戏,颜色也是最基础的黑白灰。但它稳稳当当地执行了“第一人称射击”的指令,没有报错,没有崩溃。
这个简单的界面倒是与它多模态之神的标签不符,不过也是因为在copilot的环境里它获取上下文和渲染的能力受限,并不能释放Google AI Studio的原生环境里的能力。
在文章末尾,我加上了Gemini3在Google AI Studio中的表现。“主场作战”形态的Gemini3,依然是最均衡、最稳定的那个。

Opus 4.5:偏科的设计师

Opus 4.5 则是那个很前卫的设计师。
它速度很快,也是3分钟完成构建,也是简单的三个游戏文件。
打开游戏的一瞬间,我也确实被惊艳到了:丰富的配色,细腻的 UI 风格,甚至启动界面是动态的。
但当我按下鼠标左键开火时,每次开火,屏幕都会疯狂闪烁。也许这是它独到的设计?

GPT 5.1 Codex:不修边幅的后端程序员

这才是真正的“扫地僧”。
GPT 5.1 Codex 交出的作业,让我看到了专业程序员的影子。看看这个文件结构:
  • enemies.js
  • game.js
  • stickman.js
  • utils.js
  • weapons.js
  • ...
它是唯一一个知道要把“敌人”、“武器”、“工具函数”拆分成独立模块的模型。生成的 README 文档也最长、最详细。
甚至每次开枪射击也是有音效的,即使很难听。
运行游戏,典型的程序员审美,界面丑得令人发指,但打击感是最好的。子弹的弹道、敌人的反馈,都像模像样。
它不修边幅,不善言辞,但它是唯一一个真正懂“软件工程”的家伙,构建的项目也是最完整的。

GPT 5.1 Codex Max:走火入魔、急于证明自己的____

它没能交出一个能正常运行的项目。画面错乱,鼠标控制也是反的(鼠标左移,视角右转)
它想得太多了。它试图引入更复杂的物理引擎和交互逻辑,结果导致了灾难性的后果,甚至连敌人模型都加载不出来。
这就是典型的“过度工程”。为了炫技,把最基础的可用性搞丢了。

盲区与反思:Copilot 的“中间商差价”

这里必须帮 Gemini 3 说句公道话。
我在 VS Code 的 Copilot 里调用它,效果肯定远不如它在自家主场 Google AI Studio 里表现得好。
IDE 插件往往会对 Prompt 进行一层包装,或者受限于上下文窗口的截断,导致模型发挥受限。
所以,我又在Google AI Studio里构建了一次,呈现的效果完全不同:
震动效果、音效,交互感,远胜于copilot下的Gemini3,也比其它的模型的完成度高得多。

风险:迷信“最新版”的代价

这次测试倒是给了我一个不一样的审视最新模型的视角,也许,在 AI 编程领域,最新 ≠ 最好,Max ≠ 最强。
很多团队在做技术选型时,习惯性地把所有业务都切到最新模型上,结果往往是成本飙升,效果却不升反降。
也许,当下模型的能力正在逐步靠近瓶颈期,“更新换代”所带来的提升正在逐步减少,上下文工程的重要性越来越大。

结语:几个落地建议

1. 过度推理的陷阱:
像 GPT 5.1 Codex Max 这种“聪明过头”的模型,很容易在简单任务上加戏。
对策:对于 CRUD 或基础逻辑代码,强制指定使用参数量较小、针对代码微调过的版本(如 Codex 基础版)。
2. 指令遵循的随机性:
强如 GPT 5.2 也会把 FPS 做成横版游戏。
对策:不要过度迷信“一句话生成”,将复杂需求拆解为 Step-by-Step 的原子指令。先让它写大纲,确认理解无误后,再让它写代码。
3. “各取所长”:
尝试“组合拳”。用 Codex 写后端逻辑和核心算法与任务规划,让Gemini3来干活或者做前端的设计。
总之,无论 AI 多强,永远保留人工 Review 的环节。毕竟,它可能连左右都分不清。
我是Carl,我们下期再见。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 2:15:40

GitPuk基础到实践,如何创建第一个代码库

GitPuk是一款开源免费的代码管理工具,在上一篇已经介绍了如何安装与配置GitPuk,这篇文章将介绍如何创建你的第一个GitPuk仓库 1、创建第一个 Git 仓库 获取新仓库分为创建新的仓库、导入第三方仓库 1.1 创建仓库 在仓库界面中点击创建仓库&#xff0…

作者头像 李华
网站建设 2026/4/16 5:16:09

好写作AI:顶刊论文“窃格不窃形”,三步教你模仿精髓到自成风格

深夜的研究室里,博士生李岩沮丧地推开键盘,屏幕上是他模仿《自然》期刊范文写的论文初稿。他抄了“形”——同样的八段结构、同样的数据呈现顺序,但导师的批注一针见血:“逻辑散乱,未得精髓。” 许多研究者都曾陷入“静…

作者头像 李华
网站建设 2026/4/13 14:24:59

Laravel 项目报错与功能不足问题解决全指南

Laravel 作为主流 PHP 框架,开发中既会遇到语法、环境、逻辑类报错,也会面临功能设计缺陷、扩展性不足等问题。本文从报错排查体系、常见报错解决方案、功能不足优化思路三大维度,给出系统化解决方法,覆盖开发、测试、生产全阶段。…

作者头像 李华
网站建设 2026/4/16 1:15:03

前端函数式编程实战技巧

前端函数式编程实用指南 什么是函数式编程? 函数式编程(Functional Programming,FP)是一种编程范式,它将计算视为数学函数的求值过程,避免使用可变状态和可变数据。在前端开发中,函数式编程可…

作者头像 李华
网站建设 2026/4/16 12:37:21

UI-TARS Desktop:重新定义人机交互的智能桌面助手完整指南

你是否曾经幻想过,只需动动嘴皮子就能让电脑自动完成所有繁琐操作?当你面对重复的点击、拖拽、输入时,是否渴望有一个得力的数字助手?UI-TARS Desktop正是这样一个革命性的GUI自动化工具,它正在彻底改变我们与计算机的…

作者头像 李华
网站建设 2026/4/16 1:22:26

前端数据链路分层架构全解析

前端数据链路分层架构指南 什么是数据链路分层架构? 数据链路分层架构(Layered Data Architecture)是一种软件设计模式,将应用程序划分为多个层次,每一层有特定的职责,通过明确的接口进行通信。这种架构模式…

作者头像 李华