news 2026/5/9 0:04:33

从机械转行互联网CV后,我决定再转多模态大模型,我的GitHub学习日志,带你避坑多模态转型之路!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从机械转行互联网CV后,我决定再转多模态大模型,我的GitHub学习日志,带你避坑多模态转型之路!

分享自己从机械专业背景出发,经历工业缺陷检测到互联网公司CV算法岗位,如今转向大模型/多模态方向的学习历程。作者创建了一个GitHub仓库"From0to1-MLLM-StudyLog",按周记录学习过程和踩坑经验,强调工程实践和部署。文章鼓励非AI科班出身、对大模型感兴趣但不知如何下手的CV从业者,可以边学边记,慢慢靠拢这一趋势,并通过GitHub等工具留下学习轨迹,共同成长。


先简单自我介绍一下:

本科是机械专业出身;

第一份工作做工业缺陷检测,主要是传统机器视觉 + 深度学习;

现在在互联网公司做计算机视觉算法(分类、检测、分割、OCR 外加 TensorRT/OpenVINO 部署)。

绕了一大圈,其实一直都是在「看图」这条路上。所以,我给自己定了一个新的方向:

在现有 CV 算法的基础上,系统性地转向大模型 / 多模态方向。

目前还在探索阶段,谈不上“转行成功”,但我不想等到完全确定了才开始记录。

于是我先做了一件比较笨但踏实的事:

把自己从 0 开始学多模态大模型的过程,全部整理成一个 GitHub 仓库,边学边记,边踩坑边写。

GitHub 仓库:From0to1-MLLM-StudyLog

👉 仓库地址:

https://github.com/wz940216/From0to1-MLLM-StudyLog.git

这个仓库主要是我的「多模态大模型学习日志」,特点有几点:

从机械专业转过来的视角: 不会扯太虚的理论,更偏工程、偏“怎么跑起来、怎么部署”。

按周记录: 仓库按 Week1–Week24 组织,每周会尽量放上:

覆盖方向大致包括:

目前仓库还在持续更新,很多东西也在边学边补充,不是教程,更像给自己和同样想转型的人留一份可以复盘的轨迹。

想说给同样在纠结「要不要转大模型」的你

我不是科班 AI 出身,中间也走了机械 → 工业视觉 → 互联网 CV 这一大圈;

现在开始正式补多模态和大模型,说早不早,说晚不晚。

如果你也:

本科专业不对口;

在传统 CV / 工业视觉 / 算法岗位;

对大模型很感兴趣,又有点不知道从哪下手;

可以先不用给自己「转行成功」的压力,我们可以先做两件小事:

承认这是趋势,允许自己慢慢靠过去;

让学习过程有迹可循——不管是记在本子上,还是像我一样丢在 GitHub 上。

结语:抓住大模型时代的职业机遇

AI大模型的发展不是“替代人类”,而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作,却催生了更多需要“技术+业务”交叉能力的高端岗位。对于求职者而言,想要在这波浪潮中立足,不仅需要掌握Python、TensorFlow/PyTorch等技术工具,更要深入理解目标行业的业务逻辑(如金融的风险控制、医疗的临床需求),成为“懂技术、懂业务”的复合型人才。

无论是技术研发岗(如算法工程师、研究员),还是业务落地岗(如产品经理、应用工程师),大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情,紧跟技术趋势,就能在AI大模型时代找到属于自己的职业新蓝海。

最近两年大模型发展很迅速,在理论研究方面得到很大的拓展,基础模型的能力也取得重大突破,大模型现在正在积极探索落地的方向,如果与各行各业结合起来是未来落地的一个重大研究方向

大模型应用工程师年包50w+属于中等水平,如果想要入门大模型,那现在正是最佳时机

2025年Agent的元年,2026年将会百花齐放,相应的应用将覆盖文本,视频,语音,图像等全模态

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

扫描下方csdn官方合作二维码获取哦!

给大家推荐一个大模型应用学习路线

这个学习路线的具体内容如下:

第一节:提示词工程

提示词是用于与AI模型沟通交流的,这一部分主要介绍基本概念和相应的实践,高级的提示词工程来实现模型最佳效果,以现实案例为基础进行案例讲解,在企业中除了微调之外,最喜欢的就是用提示词工程技术来实现模型性能的提升

第二节:检索增强生成(RAG)

可能大家经常会看见RAG这个名词,这个就是将向量数据库与大模型结合的技术,通过外部知识来增强改进提升大模型的回答结果,这一部分主要介绍RAG架构与组件,从零开始搭建RAG系统,生成部署RAG,性能优化等

第三节:微调

预训练之后的模型想要在具体任务上进行适配,那就需要通过微调来提升模型的性能,能满足定制化的需求,这一部分主要介绍微调的基础,模型适配技术,最佳实践的案例,以及资源优化等内容

第四节:模型部署

想要把预训练或者微调之后的模型应用于生产实践,那就需要部署,模型部署分为云端部署和本地部署,部署的过程中需要考虑硬件支持,服务器性能,以及对性能进行优化,使用过程中的监控维护等

第五节:人工智能系统和项目

这一部分主要介绍自主人工智能系统,包括代理框架,决策框架,多智能体系统,以及实际应用,然后通过实践项目应用前面学习到的知识,包括端到端的实现,行业相关情景等

学完上面的大模型应用技术,就可以去做一些开源的项目,大模型领域现在非常注重项目的落地,后续可以学习一些Agent框架等内容

上面的资料做了一些整理,有需要的同学可以下方添加二维码获取(仅供学习使用)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 23:55:40

别再删 AI 废片了!3 招零成本拯救,算力省 90%,出片率直接翻倍

前言:你扔掉的不是废片,是未被开采的 “数字资产”2026 年,Nano Banana Pro、即梦 AI、Midjourney 等工具的全面普及,让 AI 生成图像的门槛降到了前所未有的低点。但与此同时,一种低效且烧钱的 “抽卡式创作”&#xf…

作者头像 李华
网站建设 2026/5/8 23:52:34

3401黄大年茶思屋榜文保姆级全落地解法「34期 1题」全系统可编程安全易用高效统一架构重构与原约束双路径落地解法

华夏之光永存・开源:黄大年茶思屋榜文保姆级全落地解法「34期 1题」 小标题:全系统可编程安全易用高效统一架构重构与原约束双路径落地解法 一、摘要 全系统可编程赛道当下全球现代工程技术已触达绝对性能天花板,现有eBPF、Wasm分立方案、传统内核可编程框架、常规工具链…

作者头像 李华
网站建设 2026/5/8 23:45:52

Golang log包如何打印日志_Golang日志输出教程【收藏】

日常调试用log.Println,结构化日志必须用log.Printf;需时间戳和行号则设log.SetFlags(log.LstdFlags | log.Lshortfile);写文件要用os.OpenFile并检查err;分级和上下文需换zap/slog。log.Println 和 log.Printf 到底该用哪个直接结…

作者头像 李华
网站建设 2026/5/8 23:43:34

轻量级进程守护工具openclaw-keep-alive的设计与实现

1. 项目概述:一个守护进程的诞生与价值在服务器运维和自动化脚本的世界里,我们经常会遇到一个看似简单却令人头疼的问题:如何确保一个关键的后台进程能够“长生不老”?无论是用于数据采集的爬虫脚本、提供实时服务的API接口&#…

作者头像 李华
网站建设 2026/5/8 23:41:32

基于Python与机器学习的职业推荐系统:从算法原理到工程实践

1. 项目概述:一个数据驱动的职业路径推荐引擎 最近在GitHub上看到一个挺有意思的项目,叫Career Recommender。简单来说,这是一个用Python写的、基于机器学习的职业推荐系统。它的目标用户很明确:那些站在职业十字路口的学生&…

作者头像 李华
网站建设 2026/5/8 23:41:29

基于MCP协议为AI智能体构建可插拔技能库:Semgrep与Comby实战

1. 项目概述:为AI智能体打造可插拔的“技能库”最近在折腾AI智能体(Agent)的开发,特别是想让Claude、Cursor这类大模型助手能更深入地介入我的编码工作流。我发现,虽然它们能写代码,但要让它们真正理解代码…

作者头像 李华