news 2026/4/16 21:34:43

Science重磅:AI编程新手与资深开发者之间的差距巨大

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Science重磅:AI编程新手与资深开发者之间的差距巨大

一篇AI编程的全球调查研究,发表在《科学》杂志上。

美国程序员提交的Python代码中已有29%由人工智能代笔,资深开发者正在利用这一工具拉大与新手的差距。

研究团队训练了一个神经网络分类器,扫描了全球16万名开发者在六年间提交的3000万次代码修改,精准量化了生成式AI在软件开发领域的扩散程度、全球分布差异以及它对不同经验等级程序员产生的不同影响,揭示了技术红利背后的隐忧。

机器嗅觉精准捕捉代码指纹

生成式AI被誉为蒸汽机、发电机之后的新一代通用技术,关于它将如何革命性地提升生产力,人们有着无穷的想象与争论。

现有的证据大多来自问卷调查、受控的实验室实验或是特定公司的内部数据。

问卷调查容易受到受访者记忆偏差和社会期望的影响,人们可能因为害怕被评判而隐瞒在工作中使用AI的事实,或者仅仅是因为好奇而尝试了一下就声称自己是使用者。

实验室实验虽然能精准测量因果关系,但往往只观察很短的时间窗口,无法反映真实工作流中复杂的代码维护和长期迭代。

为了获得一张高清晰度的全景图,研究人员决定不再依赖人们说了什么,而是直接去看他们做了什么。

研究团队设计了一种更为客观的监测手段,他们把目光投向了GitHub。

GitHub是程序员工作的数字足迹记录仪,每一次提交(commit)都忠实地记录了谁、在什么时间、修改了哪些代码。

为了从海量的数据中把AI生成的代码揪出来,研究者构建了一个基于GraphCodeBert模型的机器学习分类器。

GraphCodeBert是一种预训练的编程语言模型,它不仅理解代码的文本字符,还能理解代码的逻辑结构、变量之间的数据流向以及注释信息,就像一个深谙编程语法的语言学家。

研究人员构建了一个包含人类纯手写代码和AI生成代码的对照数据集。

为了确保人类代码的纯粹性,他们选取了2018年的代码作为样本,那时像ChatGPT这样强大的生成式AI尚未问世,所有的代码必然出自人类大脑。

考虑到编程风格会随时间演变,他们也补充了后续年份中确定由人类编写的代码。

对于AI生成的代码,研究者采用了一种巧妙的双盲生成法:先让一个大语言模型阅读一段人类代码并用英语描述其功能,再把这段英语描述喂给另一个不同的大语言模型,让它根据描述重新生成代码。

这种方法切断了人类原始代码与AI生成代码之间不必要的文本相似性,确保分类器真正学习到的是人类逻辑与AI逻辑在深层结构上的差异,而不是简单地背诵代码片段。

经过训练的分类器表现惊人,在测试集上区分人类代码和AI代码的准确度极高,ROC AUC得分达到0.96。

它能以极高的置信度判断一段Python函数究竟是人类敲击键盘的产物,还是AI生成。

随后,研究团队将这个训练有素的分类器投入实战,对2019年初至2024年底期间,由10万名美国开发者和6万名其他国家(中国、法国、德国、印度、俄罗斯)开发者提交的超过3000万次代码修改进行了地毯式扫描。

为了保证分析的颗粒度,他们将分析单位锁定在函数这一级别,这是代码中具有独立功能的最小逻辑单元。

这种监测方法的优势在于其非侵入性和回溯能力。

它不需要打扰开发者,也不需要安装监控插件,就能从公开的历史记录中还原出技术扩散的真实轨迹。

数据显示,随着Copilot技术预览版、ChatGPT发布以及GPT-4等更强模型的陆续登场,代码库中AI生成的痕迹呈现出爆发式增长。

这直观地记录了AI工具从尝鲜品变为生产力工具的历史进程。

全球算力版图上的速度与阻碍

透过这面大数据的透镜,全球AI采用率的地理分布图景清晰地浮现出来。

美国作为生成式AI技术的发源地,在这场竞赛中占据了明显的先发优势。

数据显示,每当有重大的AI产品发布,美国开发者的采用率曲线就会出现陡峭的攀升。

截至2024年底,美国开发者提交的Python函数中,已有约29%被算法判定为AI生成。

这一比例相当可观,在美国的开源软件生态中,接近三分之一的基础代码构建工作已有AI的深度参与。

紧随其后的是欧洲国家。

德国和法国的开发者展现了极高的接受度,其AI代码占比分别达到了23%和24%,与美国的差距正在逐步缩小。

这表明在开放的互联网环境下,技术的扩散几乎没有国界,优秀的生产力工具会迅速跨越得克萨斯州的服务器,流向柏林和巴黎的办公室。

印度作为全球重要的软件外包和开发中心,虽然起步稍晚,但追赶速度惊人,采用率已逼近20%。

这种快速的追赶可能源于印度庞大的开发者基数以及对于提升交付效率的强烈市场需求。

与欧美印的高歌猛进形成鲜明对比的是,中国和俄罗斯的采用率曲线显得相对平缓,处于较落后的位置。

这种地理差异并非源于技术能力的匮乏,而更多地受到软件供应链和访问渠道的影响。

OpenAI和Anthropic等主流模型提供商对部分地区的IP地址进行了封锁,同时这些国家内部也存在网络访问的限制。

此外,中国拥有自己独立的开源代码托管生态,如Gitee,GitHub的数据可能无法完全反映中国开发者的全貌。

尽管如此,作为全球通用的代码库,GitHub上的数据仍然揭示了明显的区域性技术鸿沟。

值得注意的是,数据并未显示出明显的性别差异。

通过对开发者用户名的分析推断性别,研究发现男性和女性开发者在AI工具的使用频率上几乎没有区别。

这打破了一些关于技术采纳中性别刻板印象的假设,表明生成式AI作为一种旨在降低工作门槛的工具,具有普惠的特质。无论性别如何,只要能提升效率,开发者都会积极拥抱。

从宏观经济的角度来看,这种采用率的差异可能在未来转化为数字经济产出的差距。

如果AI确实能显著提升编程效率,那么先行采纳的国家将在软件迭代速度、创新成本上获得累积性的优势。

历史上的通用技术扩散往往需要数十年才能在宏观经济数据上显现出生产率的飞跃,而生成式AI在短短几年内就达到了如此高的渗透率,其带来的经济影响可能会比蒸汽机或电力来得更加迅猛。

经验鸿沟中的马太效应

文章最引人深思的发现在于AI对不同经验水平开发者的不对称影响。

人们通常认为,AI能通过填补知识空白,帮助新手迅速达到平均水平,从而起到技能拉平的作用。

数据讲述了一个完全不同的故事。

在GitHub平台上,资深开发者(即在平台上活跃多年、拥有丰富提交记录的用户)不仅采用了AI,而且从中获得了实实在在的生产力飞跃。

相比之下,初级开发者虽然也积极使用AI工具,甚至在某些指标上使用率更高,但他们的产出并没有出现统计学意义上的显著增长。

数据显示,对于资深开发者而言,使用AI与代码产出量的增加呈正相关。

模型测算表明,按照美国目前的采用率,AI工具推动了季度代码提交量增长了约3.6%。

这种增长主要由经验丰富的程序员驱动,在这一群体中,高强度的AI使用甚至能带来超过6%的产出提升。

资深开发者似乎拥有某种点石成金的能力,他们能够熟练地指挥AI生成代码框架,迅速识别并修正AI可能产生的幻觉或错误,将AI生成的半成品转化为高质量的最终代码。

正如一些研究所指出的,AI让资深开发者从繁琐的重复性编码和协调工作中解脱出来,让他们有更多时间专注于核心逻辑的构建。

图D部分直观地展示了这种马太效应:随着开发者经验值的增加,AI带来的边际收益直线上升。

对于刚入行的新手,曲线则在零值附近徘徊。

初级开发者可能因为缺乏鉴别AI代码质量的能力,陷入了生成-调试-再生成的低效循环。

他们可能花费了大量时间在提示词工程上,却无法有效整合AI生成的片段,导致整体开发效率并未提升。

这种现象引发了对未来人才培养的担忧:如果初级开发者无法通过简单的编码任务积累经验,又无法从AI工具中获得即时的生产力反馈,他们的职业阶梯可能会断裂。

除了单纯的代码量,AI还改变了代码的性质。

研究发现,使用AI的开发者更倾向于引入新的软件库(Library)和尝试新的库组合。

AI像一个向导,它鼓励开发者走出舒适区,探索未曾使用过的技术栈。

例如,一个原本只擅长数据处理的开发者,可能会在AI的辅助下快速引入可视化或网络交互的库,从而扩展软件的功能边界。

同样地,这种探索性的红利也主要被资深开发者收割。

他们在AI的帮助下,能更安全、更快速地将新技术融合到现有项目中,实现了能力的横向扩展。

基于这些微观数据,研究者对AI产生的经济价值进行了估算。

即便是采用保守的估计方法,仅计算代码产量的增加,生成式AI每年为美国软件行业带来的直接劳动价值就高达230亿至380亿美元。

如果考虑到实验室研究中显示的更高效率提升(减少任务完成时间),这一数字可能高达1670亿美元。

这还只是直接的代码编写价值,尚未计入由于软件质量提升、功能迭代加快所带来的更广泛的经济溢出效应。

这项研究像是一次对全球软件开发行业的深度体检。

它证实了AI浪潮的真实存在与汹涌势头,也暴露了其在不同地区和不同人群中分布的不均衡。

美国依然领跑,欧洲紧随,新兴市场奋力追赶。

而在微观层面,AI正在成为资深程序员手中的利器,帮助他们跑得更快、探索得更远,却似乎尚未成为初级程序员的救命稻草。

这种技术带来的两极分化,或许是我们在拥抱效率红利时必须正视的挑战。

参考资料:

https://www.science.org/doi/10.1126/science.adz9311

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 4:13:37

0.005%参数量超越SOTA!提升模型能力无需庞大奖励模型

增强大模型能力,无需庞大外部奖励模型作为裁判了! 上海交通大学、新加坡国立大学、同济大学、伊利诺伊大学的联合研究团队提出了一种全新的轻量级奖励模型SWIFT(Simple Weighted Intrinsic Feedback Technique)。 SWIFT利用大模型…

作者头像 李华
网站建设 2026/4/16 12:45:48

Skill来了MCP已死!谷歌DeepMind工程师开怼:是你的Server不行

模型上下文协议(MCP)的浪潮大约在一年前席卷而来,开发者们蜂拥而上构建服务器,希望借此释放大语言模型的全部潜能。 现实却不尽如人意,许多MCP服务器的表现令人失望,社交媒体上甚至出现了协议已死的论调。…

作者头像 李华
网站建设 2026/4/16 12:57:10

黑客入侵无处遁形!Windows日志分析完全揭秘

在网络安全领域,系统日志是进行安全分析、事件响应和取证调查的关键依据。Windows系统在运行过程中会不断记录各类事件信息,这些记录为我们了解系统行为、检测异常活动和追踪攻击者的活动提供了宝贵的线索。本文将深入解析Windows日志系统,并…

作者头像 李华
网站建设 2026/4/16 12:57:36

从零实现MOSFET开关电路:手把手教程

以下是对您提供的博文《从零实现MOSFET开关电路:原理、设计与工程实践深度解析》的全面润色与重构版本。本次优化严格遵循您的全部要求:✅ 彻底去除AI痕迹,语言自然、专业、有“人味”——像一位在实验室焊过百块PCB、调过千次波形的工程师在…

作者头像 李华
网站建设 2026/4/16 13:05:32

YOLOv13 SSH远程调试技巧,效率翻倍

YOLOv13 SSH远程调试技巧,效率翻倍 在目标检测工程实践中,一个高频却常被低估的痛点是:模型训练跑通了,但调试卡在SSH连接慢、日志难追踪、GPU状态看不清、代码改了却不知是否生效——整个过程像在黑盒里摸开关。 尤其当YOLOv13这…

作者头像 李华
网站建设 2026/4/16 2:59:58

告别卡顿!TurboDiffusion视频生成避坑使用指南

告别卡顿!TurboDiffusion视频生成避坑使用指南 1. 这不是“又一个视频生成工具”,而是真正能跑起来的加速框架 你是不是也经历过这些时刻? 输入一段提示词,点击生成,盯着进度条等了三分钟——结果显存爆了&#xff0…

作者头像 李华