news 2026/4/16 13:55:57

微调Gemma3:文本生成CAD

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微调Gemma3:文本生成CAD

这是一个使用小型语言模型创建3D模型的实验项目。

在CloudRift和Prime Intellect提供的GPU算力额度以及Huggingface慷慨的免费资源支持下,我开始构建一个用于生成3D文件的语言模型——CADMonkey。

1、模型架构与3D编程语言

在Starmind,我们需要模型足够小巧,能够在树莓派4和5上运行。

基础语言模型选择的是Gemma3-1B,原因如下:

  • 易于微调(也就是说不需要花费10多个小时调试代码)
  • 没有对话模板(便于开发和使用)
  • 训练工具(Unsloth)、部署和量化(llama.cpp)已经成熟

我们也曾简单考虑过扩散模型,但开发复杂度太高。也许改天我们会重新审视这个想法。

该模型将生成OPENSCAD代码,用于渲染3D模型。

为什么选择OpenSCAD?作为一名机械工程师,我发现传统的体素和网格3D模型几乎没有价值。工程需要不断的修改和迭代,而基于形状和基于代码的模型正好适合这一点。

2、数据集生成

你的模型好坏取决于你的数据集。但"好"的定义取决于具体任务。

以下是我们创建数据集的尝试:

#1:Huggingface上有从Thingiverse抓取的开源OpenSCAD数据集,约7,000行数据(redcathode/thingiverse-openscad)。然而,我们有几个问题:

  • 代码结构过于多样化,代码质量不高。这导致训练后的模型生成不连贯的代码(Python和C的混合)。
  • 数据集中的物体不是常见物体,而是"某个特定东西的特定齿轮"类型。这无法教会模型代码的语义含义。

#2:合成数据生成是我们选择的方法。

  • 首先,我们按类别(动物、厨房用具、宝可梦等)创建常见物体名称列表。然后,让大型语言模型(Kimi)生成代码,渲染代码,并使用VLM(Qwen2.5-VL)根据相似度评判输出结果。
    结果就是这个数据集:https://kdataset.web.app

这是互联网上第一个大规模合成生成并审核的OpenSCAD数据集:ThomasTheMaker/Synthetic-Object-v3(35,000行已验证数据)。

如果没有CloudRift提供的资助,这一切都不可能实现。非常感谢!

在数据集上微调模型后,我们发现:

  • 模型80%的时间能生成可运行的OpenSCAD代码
  • 但是,代码与物体不匹配。

事实上,只有1/400的模型与物体匹配。下面是唯一生成的好物体——鸭子:

#3:水平扩展数据集

我们尝试用更多物体来扩大数据集规模,但物体不匹配的问题依然存在。

#4:垂直扩展数据集

只有在我们垂直扩展数据集时,模型性能才真正提升:

  • 使用相同数量的物体
  • 增加每个物体的示例数量
  • 增加用于生成数据集的模型多样性
    你可以看到下面的改进:

3、我们犯过的错误

有很多我们尝试过但不起作用的东西,希望这能帮助你避免浪费时间和精力:

  • 首先,我们尝试使用AWS Bedrock上的Claude Sonnet和Haiku模型生成数据。根据token数量估算成本为40-60美元。但由于推理token的存在,实际花费了170美元,而输出仅略高于Kimi-K2(非思考模式)和Deepseek-V2等开源模型。
  • 其次,我们尝试通过图书馆和字典生成物体名称列表。这是个糟糕的想法,因为列表相当随机,包含基础模型甚至都不了解的物体。

4、训练

准备好数据集后,我们使用以下提示微调Gemma3 1B模型:

‘嘿,cadmonkey,给我做一个{物体名称}’

这是使用Unsloth 4位微调完成的。

输出模型被转换为GGUF模型,使用q8量化。

所有内容都在这里:https://hf.co/collections/ThomasTheMaker/cadmonkey

5、让它面向世界!

我使用Modal来托管模型。由于模型很小,即使在CPU、树莓派等上也能很好地运行。

为了速度优化,我在Modal上使用T4 GPU,输出速度非常快。虽然GPU利用率只有8%。

平均每次提示运行成本为2美分。

在这里试用应用:https://cadmonkey.web.app

6、总结

我知道这听起来很老套,但你真的可以做出东西!

5年前,要达到这个目标需要5位数的投资和20名科学家的团队。

现在,我利用来自各种来源的500美元额度,在3个周末内完成了整个实验。

到目前为止,我对语言模型的知识只是一年的自学。

你真的可以做到。你只需要足够疯狂去开始。


原文链接:微调Gemma3:文本生成CAD - 汇智网

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 7:35:42

OpenClaw(Clawdbot):2026年新手部署教程,拥有智能小助手

OpenClaw(Clawdbot):2026年新手部署教程,拥有智能小助手!OpenClaw是什么?2026年OpenClaw搭建简易指南。OpenClaw(原Clawdbot/Moltbot)是一个开源的AI智能体平台,凭借其强…

作者头像 李华
网站建设 2026/4/16 7:37:10

振动器-Android studio软件源代码-java语言

振动器 App 简介与使用说明 一、软件简介 📱 软件定位 本软件是一款基于 Android 系统的多功能振动控制应用,通过调用设备振动马达,提供多种预设振动模式和高度自定义的振动编辑功能,满足用户在提醒、反馈、娱乐等场景下的多样化…

作者头像 李华
网站建设 2026/4/16 7:35:52

人工智能应用- 人机对战:04. 蒙特卡洛树搜索

蒙特卡洛树搜索(MCTS)是 AlphaGo 成功的核心技术之一。围棋中的最大挑战在于如何评估当前局势,而MCTS 通过模拟走棋到终局来进行评估。为了提高模拟走棋的效率,MCTS 并不会扩展所有可能的路径,而是通过随机采样的…

作者头像 李华
网站建设 2026/4/15 15:54:58

雨量监测站 雨量实时监测系统

问:这款翻斗式自动雨量站的核心定位是什么?为什么能被称为防汛抗旱的“千里眼”?答:核心定位是全自动高精度雨量监测终端,主打“精准采集、稳定运行、免维护、低功耗”,专为防汛抗旱、水资源监测设计&#…

作者头像 李华
网站建设 2026/4/15 20:19:24

拖延症福音 10个AI论文网站测评:MBA毕业论文写作+格式规范全攻略

在当前学术研究日益数字化的背景下,MBA学员在撰写毕业论文时面临诸多挑战,如选题构思困难、文献资料繁杂、格式规范不熟悉以及写作效率低下等问题。为帮助更多学生高效完成论文任务,本次测评基于2026年的实测数据与用户真实反馈,全…

作者头像 李华
网站建设 2026/4/16 7:38:21

JumpServer API 使用指南

JumpServer 是开源的堡垒机系统,本文档介绍如何通过 API 进行自动化管理。 一、API 认证方式 JumpServer 支持多种认证方式: 认证方式 说明 适用场景 Session 登录后使用 session_id Web 页面 Token 一次性 Token,有有效期 临时调用 Private Token 永久 Token 脚本调用 Acc…

作者头像 李华