news 2026/4/16 17:05:33

Andrej Karpathy大模型深度解析:技术演进与未来趋势,小白程序员必读

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Andrej Karpathy大模型深度解析:技术演进与未来趋势,小白程序员必读

文章回顾了大模型技术发展的四个阶段,指出技术重点正从预训练向后训练转移。通过分析Cursor、Claude Code等现象级产品,揭示了AI应用的创新范式。提出"Vibe Coding"概念,预示编程将民主化,程序员需转向技术审美,非程序员可借助AI实现创意。未来AI将拥有图形界面,人机交互将更加自然。这是一个充满机遇的时代,个体应积极拥抱AI大潮。


2026 年的第一篇文章,想从 AI 大神 Andrej Karpathy(AK)在 12 月底发的一篇博文开始,聊一聊一些收获,以及对未来的一些想法。博文的原文在这里:2025 LLM Year in Review[1],感兴趣的朋友可以阅读原文。

大模型技术发展的几个阶段

第一个阶段是预训练阶段(Pretraining),时间点大概在 2020 年左右。这个阶段的技术,核心是通过不断提升大模型的参数量,来提升模型的智能。典型的模型是 GPT-2/3。

第二个阶段是监督微调阶段(SFT),时间点大概在 2022 年左右。这个阶段的技术,核心是通过人类专家标注的高质量数据,来提升模型在特定方面的智能。典型的模型是 Instruct-GPT。

第三个阶段是根据人类反馈进行强化学习阶段(RLHF),时间点也大概在 2022 年左右。这个阶段的技术,核心是通过人类的反馈,来使大模型的行为向人类的偏好对齐。各家的 Chatbot 类应用,都有尝试做 RLHF。

第四个阶段是根据可验证的奖励进行强化学习阶段(RLVR),时间点大概在 2025 年左右。这个阶段的技术,核心是通过可验证的奖励,比如解数学题、编程等这些有确定性正确结果的事情,来提升模型的推理能力。从 OpenAI O3 开始,到后来的 DeepSeek R1,都是典型的代表。

看完这个发展过程的总结,我的一个强烈感受是,大模型的智能的提升,技术的重点越来越从预训练后训练转移了。这也特别符合一般事务发展的规律:刚刚兴起的时候,有技术红利,通过堆资源(扩参数、堆 GPU)就可以实现增长;越到了后期,技术红利褪去,就需要精耕细作,通过技术创新(当下是RLVR,未来是什么?)来寻求突破。

如何理解大模型的智能

AK 给了一个很好的角度来理解大模型的智能。他说大模型的智能,不像是我们人类和其它动物这样的智能,而是像幽灵一样。这个怎么来理解呢?

人类和其它动物的智能,是可以通过培养、训练来提升的。比如一个小孩子,我们从小教他学习各种各样的知识,他的智力水平(智能)就会提升,就会越来越聪明,越来越能够解决更加复杂的问题。

而对于大模型而言,以它们现在的参数量来说,它们几乎是压缩了能够公开获取的所有人类知识。所以,大模型们不缺知识,再去教他们更多的知识,这条路线的边际收益会很低。

用好大模型的关键,在于给它提供合适的上下文(Context,简单理解也可以是 Prompt),所以 AK 说,用好大模型的关键就像是在“召唤幽灵(Summoning Ghosts)”,而不是在“培育动物(Growing Animals)”。

这是一个非常直观(Intuitive)的比喻,让我们一下子感知到了大模型的智能和人类智能之间有着本质的不同。我们在用大模型的过程中,不能再简单地通过类比人类来进行,而要从大模型自身的智能的特点出发。

对个人的启发是:提示词工程(Prompt Engineering) 、上下文工程(Context Engineering),就是在大模型时代“召唤幽灵”的“巫术”,要用好大模型,发挥好 AI 的威力,这是每个人都应该去学习的基本技能。

Cursor 带来的启示

Cursor 是 2025 年上半年最火的 AI 编程领域的明星产品。它的火爆,在一定程度上助力了 AI 编程领域在 2025 年下半年百花齐放的蓬勃发展的局面。

Cursor 带来的一个现象是,很多产品在介绍自己的时候,都就是某某领域的 Cursor(Cursor for X)。因为 Cursor 带来的体验足够创新,也足够为很多人所知,所以这样说大众一下子就能 Get 到产品的重点。

Cursor 所带来的,是一种应用创新的范式。应用可以通过上下文工程(Context Engineering),把要完成的任务(在 Cursor 里是编程)的相关信息传给精心编排好的大模型调用,然后在产品中提供让人机进行交互的友好图形界面,而且在过程中人还可以自主控制 AI 的参与度。

顺着上面的思路,Cursor for X,确实是AI 时代做应用的一个基本的模式,在这个基础上再去创新,也算是站在“巨人”的肩膀上了。

Claude Code带来的启示

Claude Code 是 2025 年下半年最火的 AI 编程领域的明星产品,它的光芒甚至盖过了 Cursor,大有后来居上的势头。

Claude Code 带来的是一种全新的使用 AI 的范式,具体体现在以下几个方面:

第一个方面,Claude Code 让大众体会了什么是真正的 AI 智能体(Agent),它让大众对智能体有了具象的认知。智能体的核心就是通过循环的推理(Reasoning)和工具使用(Tool Use),来自主解决问题的一种机制。这里的推理需要依赖大模型,由它来决定解决问题具体有哪些步骤,每一步要调用什么样的工具;工具是大模型之外的,每个工具可以用来解决一类具体的问题;大模型决定调用哪个工具,具体的工具调用由 Agent 来驱动,工具调用的结果再反馈给大模型,让大模型做进一步的推理决策,直至最终解决问题。

第二个方面,Claude Code 带来了一种全新的本地化(Localhost)的体验。在 Claude Code 中,除了调用大模型 API 进行推理这一步在云端,其它所有的操作都在用户本地。这样带来好处是,在用户自己本地的环境中,访问用户自己电脑上的私有数据、调用系统提供的工具,就是一个很自然的事情。也只有这样,Agent 才能真正为用户解决好自己环境中所遇到的特定问题。

AK 说,Claude Code 就像一个住在我们每个人电脑上的小精灵(A little spirit)一样,他足够了解我们,也能时刻为我们提供一些“魔法”,让我们个体都拥有了一些超能力。

我个人是 Claude Code 的深度用户,从一开始出来一直用到现在,切身体会过 Claude Code 的威力。AK 点出的 Localhost 这个点,我觉得是非常关键的,这对我们做 AI Agent 类的应用是非常不错的一个思路。

关于Vibe Coding

Vibe Coding 这个词是 AK 原创的,现下已经成了一种现象。

以前的程序员是一个很“神秘”的职业,外行人看着,一堆堆的字母、符号组合在一起,就能成为这样、那样的软件运行起来,非常神奇。AI 时代,大模型把这层神秘的面纱一点点给揭去了,普通人也能编程成为了一种现实。

从语言的角度来讲,我们人类有自己的语言,即我们平时所说的自然语言,汉语、英语等。计算机也有自己的语言,就是程序员们所用的语言,Java、Python 等。以前需要专业的程序员,才能跟计算机进行交流、沟通;未来人人都可以跟计算机交流、沟通。

Vibe Coding 就是对这种现象的一种描述,人类可以通过自然语言描述自己的需求,计算机通过大模型把人类的需求转成自己能理解的程序,然后就可以去执行、去完成特定的任务了。

在这样一个大的背景下,Vibe Coding 带给我们的启示是:

对于程序员来说,要意识到基础的编程工作,越来越会没有竞争力。未来几乎所有的编码工作都可以由 AI 来完成,人类程序员的核心是我之前在《[AI 时代,程序员路在何方?]》这里提过的技术审美:构建在扎实的专业能力之上的感知力和判断力。

对于非程序员来说,这是最好的时代。以前有个想法要实现,要依赖程序员,未来有想法自己就可以开干了。对写程序这件事要去魅,不要再惧怕。AI 时代,做这样的尝试的试错成本已经非常低了,大胆地尝试起来。

这真的是最好的时代,专业的程序员的能力边界被极大的拓展,可以去写很多以前自己写不了的程序了;普通大众也有了可以通过编程来实现自己想法的可能性。重要的是,要开放心态,纵身一跃,积极地跳入这波 AI 大潮中去,去学习、去创造。

Nano Banana 带来的启示

Nano Banana 也是 2025 年一个现象级的 AI 产品,它是由传统互联网大厂 Google 推出的。

AK 把大模型(LLM)比作是未来的“电脑”。现在我们通过对话的方式跟大模型进行沟通,就很像 80 年代的人们使用命令行跟电脑进行沟通。

但是,文字交互其实对人类来说是不友好的,我们人类其实更喜欢看图形、图像的东西。所以,后来电脑发展出了今天我们每个人都在用的图形用户界面(GUI)。

顺着这个思路往下延伸,未来的电脑也需要有一个图形用户界面,才能够更好地跟人类进行交互。Nano Banana 的出现,让 AK 觉得看到了这个事情的曙光。

Nano Banana 的出现的意义,不单是通过文字来生成图片,更是让人们看到了一种未来的可能性:文本生成、图像生成、世界知识,它们可以结合到一起,成为一个统一的模型。未来,AI 时代的电脑的 GUI,可能离我们不太远了。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:27:25

值得收藏!Tool-to-Agent检索技术:解决大模型多智能体系统工具检索痛点

本文提出Tool-to-Agent Retrieval (T2A)方法,将工具和智能体纳入同一向量空间解决检索难题。通过构建二分图和统一编码器,实验显示该方法在LiveMCPBench数据集上最高提升28%召回率,轻量模型也有13%提升。研究表明工具细节补充了智能体语义缺失…

作者头像 李华
网站建设 2026/4/15 23:47:11

JAVA (Springboot) i18n国际化语言配置

JAVA i18n国际化语言配置 一、简介二、功能三、Java配置国际化步骤四、Java国际化配置工具类五、Spring Boot配置六、测试 一、简介 在Java中,国际化(Internationalization,通常简称为i18n)是一个过程,它允许应用程…

作者头像 李华
网站建设 2026/4/16 14:50:10

Java进阶13 线程池

Java进阶13 线程池 一、线程生命周期 线程被创建并启动以后,它并不是一启动就进入了执行状态,也不是一直处于执行状态。线程对象在不同的时期有不同的状态,这各种状态就是线程的生命周期。 Java中的线程状态被定义在了java.lang.Thread.State…

作者头像 李华
网站建设 2026/4/16 11:15:56

Java进阶09文件

Java进阶09 一、File类 File类代表操作系统的文件对象**(文件、文件夹)** 1、File类创建对象 方法 说明 public File(String pathname) 根据文件路径创建文件对象 public Fie(String parent,String child) 根据父路径名字符串和子路径名字符串创建文件对…

作者头像 李华
网站建设 2026/4/16 11:00:16

通信协议仿真:蓝牙协议仿真_(4).蓝牙低功耗协议

蓝牙低功耗协议 引言 蓝牙低功耗(Bluetooth Low Energy,简称BLE)是一种旨在降低功耗的无线通信技术,广泛应用于健康、运动、智能家居等领域。与经典蓝牙相比,BLE在功耗、连接速度和数据传输方面有显著的改进。本节将详…

作者头像 李华
网站建设 2026/4/16 12:52:03

jEasyUI 设置冻结列详解

jEasyUI 设置冻结列详解 引言 jEasyUI 是一款流行的前端框架,它简化了网页的UI开发。在jEasyUI中,表格是常用的组件之一。冻结列功能允许用户在滚动表格时保持某些列固定显示,这对于展示大量数据时保持关键信息的可见性非常有用。本文将详细讲解如何在jEasyUI中设置冻结列…

作者头像 李华