参加深信服SF-Fastgpt培训小结
今天参加了深信服组织的SF-Fastgpt商业版培训,整天的内容安排比较紧凑,上午讲AI基础概念,下午重点介绍商业版的功能特性。我简单梳理一下主要的收获。
上午的部分主要是AI基础知识的串讲。讲师把tokenizer的分词原理、embedding向量化的生成机制、模型的训练和推理流程、以及微调的基本思路都过了一遍。这些概念我之前零零散散接触过一些,但这次从分词到向量化再到检索生成的完整链路讲得比较清楚,尤其是embedding在知识库检索中的实际作用,结合后续产品功能来看,理解起来更直观了。模型微调这部分讲完,知道了什么情况下需要微调、什么情况下用提示词工程就够了,这个界限很重要。
下午进入正题,讲深信服推出的商业版Fastgpt。我之前用过社区版,对基本的工作流编排和知识库搭建有概念,但社区版用在内部小范围还行,真要拿去给客户交付,明显会碰到不少短板。商业版这次主要在两个方向上做了增强。
第一个是权限体系。社区版的权限基本是粗粒度的,管理员和普通用户,没有更细的划分。但在实际的企业交付场景中,一个应用可能同时面向多个客户,每个客户只能看到自己的数据,内部运维人员、应用开发人员、知识库管理员之间的权限也需要分开。商业版这次加入的权限功能覆盖了这些场景,比如可以控制某个用户对特定知识库只有读取权限、对另一个知识库有写入权限;还可以按应用隔离数据,不同的项目组或不同的客户之间互相不可见。演示的时候看到角色配置界面比较直观,基本上能想到的企业级权限需求都能配置出来。这一点对于想用Fastgpt做商业化交付的团队来说,应该是最直接的刚需。
第二个是知识库的文档处理能力。用过其他开源知识库产品的人可能都有同样的体验——文档解析是最大的坑。PDF样式稍微复杂一点,比如带表格、多栏排版、图片混排,解析出来的文本顺序就全乱了;Markdown格式不规范也会导致分段奇怪。通常拿到一个开源产品之后,光是在文档解析和预处理上就要花不少时间,自己写脚本做清洗、分块策略调优、特殊格式处理,折腾很久才能勉强达到可用的效果。今天看商业版演示,讲师直接拖拽上传了几个格式不太规整的文档,系统自动处理之后检索出来的结果质量还不错,段落切分合理,表格内容也能识别出来。讲师说这是做了大量工程优化的结果,“上传即可获得最佳处理效果”这个说法不算夸张。对于不想在文档解析上投入太多人力的团队来说,这个确实很省事。而且它还支持多种文档格式,常见的Word、PDF、PPT、Excel都能直接处理,不需要提前转换。
除了这两个核心功能,商业版在应用交付的整体设计上也更完整。很多都是实际落地中会碰到的问题。能感觉到这次不是简单地在社区版基础上加几个功能,而是真正按照商业产品交付的标准重新做了设计和打磨。
当然,今天主要是在培训环境里看演示和听讲解,实际使用中会不会遇到性能瓶颈、复杂文档的解析准确率到底能达到多少,这些还需要回头自己搭一套环境做进一步测试。我计划先用一个内部的知识问答项目试试权限隔离和文档解析这两个核心功能,看看跟演示效果有没有差距。
总的来说,今天的培训信息量挺大,对商业版的能力定位有了比较清晰的认识。相比社区版和其他开源产品,商业版在权限管理和文档处理这两个痛点上的提升很明显,确实是朝着“可以直接交付给客户”的方向在做的。后续有实际测试结果再补充。