本文为大模型领域的学习者提供了转型建议,介绍了大模型工程师的四大需求方向:数据、平台、应用和部署。文章指出,虽然许多新人倾向于成为应用端工程师,但该职位需要丰富的业务经验。相比之下,数据工程师、平台工程师和部署工程师是更易于新人入门的领域。文章还强调了数据的重要性,并建议新人关注数据构建、工程技巧和系统能力,为进入大模型领域做好准备。
随着AI大模型的爆火,在全球范围内引发了一场AI“狂飙”,也在业界点燃了一场百模大战。
基于近两年我在大模型领域的实践经历,想为在校学生/行业新人提供一些转型到大模型领域的建议。
首先你可以在求职网站搜索一下“大模型”关键词,看一下招聘JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求。
总结一下,大致可以分为4类:
1.做数据的(大模型数据工程师,爬虫/清洗/ETL/Data Engine/Pipeline)
2.做平台的(大模型平台工程师,分布式训练大模型集群/工程基建)
3.做应用的(大模型算法工程师,搜/广/推/对话机器人/AIGC)
4.做部署的(大模型部署工程师,推理加速/跨平台/端智能/嵌入式)
如果是你,会怎么选? 很多人第一眼恐怕会毫不犹豫锁定选项3,一门心思要做应用端,站在技术最前沿,做出老板和用户都能直接感知的核心“产品”。
不过,我得先给大家浇点冷水:在AI算法这行,3号位可是相当吃业务经验的。
如果你本就是算法老兵,比如NLP工程师,或者搞语音助手、对话机器人的,顺理成章转向相关方向的大模型算法工程师,这很自然。
把大模型的新方法融入现有业务,拿到实在的产出,在市场上找这类岗位也相对容易。
但如果你是CS方向的实习生/应届生,或是跨界转行奔大模型来的,3号位未必是最佳起点。
别陷入一个误区:以为大模型算法工程师就是调调模型、拉拉超参,搞搞预训练、微调(finetune)、指令微调(SFT)这些。
现实是,这类核心模型工作只占很小一块,一个团队里通常也就个把人专职做,或者只是工程师工作的一小部分。
注意一点:新人进去,超过90%都不可能直接上手模型调优。
绝大多数情况,会让你从配环境、搭链路开始干起,然后是做数据、整理数据、清洗数据、分析数据、做调研、写写功能(function)、工具(tools)……这些都是基础体力活。
干熟、干出色了,表现机灵的,才可能慢慢接触模型实验。表现更突出的,才有机会逐步对接线上业务。
甚至有不少人,干了好几年,还在处理边角料、脏活累活,核心业务的门都摸不着。
对于刚入行的新人,学历背景好的,争取进大公司实习转正;背景稍弱的,不妨考虑中小公司积累业务经验。
很多人常常忽略了1、2、4号位。可能觉得学了那么多算法基础、机器/深度学习、了解了大模型,回头去做数据有点“屈才”。
但我想告诉你,1号位其实是更多转行选手更容易上岸的路径。条条大路通罗马,并非只有一条独木桥。
首先, 国外大模型技术目前至少领先国内两年。虽然国内模型雨后春笋般冒出几十上百个,真正能打的没几个。
究其根本,许多关键技术仍未突破。算法本身,GPT的秘密已非独家。剩下的关键是什么?一是数据,二是工程技巧。
单说数据。通用大模型训练,数据来源哪里找?数据质量怎么控?如何过滤有毒信息?语言筛选与比例如何定?数据去重怎么做?数据规范化处理如何执行?评测集怎么构建?这些活,既是体力活,更是技术活。
至于垂直领域(如金融、电商、车企)的数据构建,就更考验功夫了:业务数据怎么来?数据不够怎么办?完全没有数据怎么办?高质量微调数据如何构建?能把这些问题解决好,模型就成功了一大半。
因此, 当下现状是,有经验的数据工程师,非常稀缺。
再说2号位。 如果你原本就是搞工程的,或者对工程感兴趣,我比较建议选这个。1和2本质没区别,都是服务于大模型业务,也叫大模型基础设施建设,目的就是让模型训练得更好、跑得更快。这岗位主要干啥?
计算层面: 搞分布式计算、并行计算、高性能计算(不少公司这三者也不严格区分)。
硬件层面: 折腾大模型训练集群、GPU集群、CPU/GPU混合集群,管着几百上千张卡,操心它们的利用率和机器健康状态(有没有挂掉的)。中小公司这里通常是开发运维一体,一人干俩工种。
平台层面: 做LLMOps,也就是pipeline。把数据、模型训练、预测、上线监控打包集成,跟着业务团队跑,做适配,造很多高效(高校应为高效?)的轮子,让业务团队用着顺手,省去重复开发时间。
这块整体在大模型时代稳中有升,因为很多从业者是从之前的深度学习平台、大规模机器学习平台转过来的,技术代沟相对小。所以,对AI工程感兴趣的,可选此方向。
最后说4号位。 这岗位之前就有,但大模型这两年让它尤其火热。为啥?部署大模型太烧钱了!模型本身延迟就高,30B以上的模型,对算力、显存要求极高。
老板关心啥?一方面是大模型产品(业务指标)要好看,方便宣传(PR);另一方面,必须控制成本。大公司、独角兽资源丰厚除外。一般企业里,一个P8级别的leader,要在公司抓业务、拉资源、找人,本就不易。
“降本增效”是2023年以来几乎所有公司的主旋律。老板们非常关心你省了多少钱——比如把推理效率提高一倍,成本就实实在在地降了一半。
回到大模型部署工程师,这岗位主要有两大方向:
云端部署: 能做推理加速平台;也能跟着业务走,做大模型定制化加速(比如Owen-7b的加速)。
还可以搞大模型推理引擎(比如搜索/问答的推理引擎),核心是在高并发用户场景下,保证用户SLO的前提下,使劲优化延迟(latency)和吞吐量(throughput)。
端侧部署: 也就是在消费级GPU/NPU以及边缘设备上部署大模型,同时让领域大模型小型化,推动业务真正落地。
总的来说, 大模型部署工程师需要掌握工程能力、系统能力,并对硬件有一定了解。
虽然现在各种推理框架降低了点难度,它依然是个很有竞争力的工种。
你得懂计算图和算子(OP)的优化,了解各种推理框架的缓存/显存优化策略,还得明白LLM结构在运行时的系统架构。
这个岗位一般不建议新人入场,因为太吃经验了。建议先从2进场,然后逐步转到4
最后总结一下,给准备入场大模型的新人几点小的建议:
1.不要只关心finetune,SFT,RLHF,作为系统性学习是OK的,切忌花太多精力。
2.想做应用的,建议focus到某个垂直领域比如对话机器人,问答系统,金融/医疗/教育方向,找一个具体的场景,把它做好,做深
3.多关心数据,data pipeline,高质量训练/测试集的构建经验,对数据的sense,是最直接,也是最适合用到未来工作当中的
4.大模型不只有算法,也可以有工程。大公司拼的都是基建,平台是对业务的支撑,牛比的infrastrure是大模型产品成功不可或缺的因素
以上就是对新手入行LLM的一些建议和分享。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。