智能问数指的是对结构化数据(数据库、Excel)的数据智能查询。
在大模型出现之前,有些BI系统通过预定义数据集、字段别名、同义词、规则模板(槽填充),把自然语言映射到字段、筛选、排序、聚合,从而实现一定程度的自助问数。
大模型出现后,基于大模型的能力生成IR或SQL成为智能问数的重要技术方向。当前主流的智能问数有下面几个技术路线:
路线1:Text2SQL
大量希望借助大模型探索智能问数的团队,都会天然采用这种技术路线。
用户问题→ 读取 schema / 样例 SQL / 字段说明→ LLM 生成 SQL→ SQL 校验→ 数据库执行→ 返回表格/图表在单表、小宽表、字段含义清晰、口径简单的场景中,Text2SQL 往往只需要 schema、字段描述、样例数据和少量 SQL 示例即可启动。技术流程很直观,最能体现大模型能力的直接使用。langchain、dify的文档中,也提供了这种路线的案例。
对于单表 / 小宽表问数的简单场景,这个路线是合适的,实现也是最快的;此外,如果是数据开发、分析师使用,由于用户本身对底层数据非常清楚,使用也没问题。但是如果场景稍微复杂一点,很快就到很多问题。
Text2SQL特点:
| 维度 | 表现 |
|---|---|
| 优点 | 接入快,适合原型和结构化数据 |
| 缺点 | 对 schema 质量、样例 SQL、校验要求高 |
| 适合 | 数据结构清晰、表少、口径简单的场景 |
| 核心风险 | SQL 幻觉、join 错误、指标口径错误 |
路线2:Text2DSL / Text2Semantic 路线
对追求可信、可治理、可复用指标口径的企业级问数,Text2DSL / 语义层路线正在成为更稳妥的主流架构。
Text2DSL不是让大模型直接写 SQL,而是让它先生成一个更受控的中间表示(IR),比如:
用户问题→ 意图解析→ 指标 / 维度 / 时间 / 筛选 / 排序 / TopN / 对比方式→ 语义查询 DSL→ BI 引擎或语义层生成 SQL / DAX / LookML Query / SemQL→ 执行→ 结果解释Text2DSL主要解决的是业务概念的澄清(指向性)和约束问题。例如销售部门、运营部门、财务部门内部问数:
本月 GMV 是多少?(GMV是什么)
新客转化率是多少?(什么是新客、什么是转化率、什么是新客转化率)
各渠道 ROI 怎么样?
哪些产品销售额下降最多?(销售额使用那个指标)
这类场景通常需要语义层(而且对于业务域也基本够用),因为涉及:
- • 指标定义
- • 维度定义
- • 时间口径
- • 聚合规则
- • 常用过滤条件
- • join 路径
此外,之前很多做数据治理的公司,有较好的数仓模型,比如:
- • 事实表
- • 维度表
- • 主题域
- • 指标体系
- • 统一维度编码
这个时候也很适合使用语义层,因为很多对象关系已经体现在数仓模型里:
- • 订单事实表关联客户维表;
- • 销售事实表关联产品维表;
- • 财务事实表关联组织维表;
- • 时间、区域、渠道有标准维表。
需要说明,现在也有专门的语义层产品或项目,例如cube(智能时代,企业的可信数据底座怎么建)。
Text2DSL特点:
| 维度 | 表现 |
|---|---|
| 优点 | 更可控、更可解释、更适合企业级 |
| 缺点 | 需要建设语义层、指标层、对象层 |
| 适合 | 复杂指标、复杂业务口径、多部门共用 |
| 核心壁垒 | 语义层、指标治理、DSL、查询编译器 |
路线3:语义层 + 本体 + 图谱
当问数从单一业务域进入跨部门、跨系统、对象关系复杂、需要归因解释或需要结合文档证据的场景时,仅有指标语义层往往不够,还需要引入本体和图谱能力。语义层负责“指标如何计算”,本体图谱负责“对象是谁、关系是什么、上下文和证据是什么”。
典型结构:
业务对象 / 指标 / 维度 / 关系 / 规则 / 知识→ 本体/语义层/知识图谱→ LLM 只负责理解意图→ 查询和计算交给确定性引擎指标语义层:回答“怎么算”
对象本体层:回答“谁是谁、关系是什么”
上下文/证据层:回答“为什么、依据来自哪里、当前状态是什么”
本体+图谱的技术路线,不是简单地让大模型“多知道一些业务知识”,而是把企业中的核心对象、对象关系、指标口径、业务规则、状态事件和证据来源显式建模。LLM 主要负责理解用户意图,并将问题映射到受治理的对象、指标和关系上;真正的查询、计算、推理和溯源,则交给语义层、图谱引擎、查询引擎或规则引擎完成。这条路线适合跨部门、跨系统、对象关系复杂、需要消歧、归因解释或证据溯源的企业级问数场景。它的建设成本更高,但可信度、可解释性和可扩展性也更强。
需要说明,路线2和路线3对企业的数据治理提出了要求,但也正因为对数据做了治理,所以才可能实现可信数据查询。去年美国AI行业发生了多起对数据治理公司的收购,即是企业开始意识到agent落地过程中首先需要进行数据治理(企业可信数据底座架构与厂家梳理)。
特点:
| 维度 | 表现 |
|---|---|
| 优点 | 适合企业级可信问数 |
| 缺点 | 建模成本高,需要治理能力 |
| 适合 | 大企业、多系统、多指标、多对象场景 |
| 核心壁垒 | 企业对象层、语义模型、图谱、指标治理 |
Agentic趋势
上面的路线是基本的智能问数技术,智能问数系统现在正在向Agentic(问数后还要行动)方向发展。例如用户问:
找出本月收入下降最严重的客户,并生成跟进任务。
发现库存异常后通知供应链负责人。
如果某指标连续三天下降,自动生成分析报告和整改建议。
这时智能问数不只是回答,而是进入执行。这其实也是一种最近红杉资本、黄仁勋提到的市场价值巨大的AI服务。
但是要让Agentic准确执行,系统必须清楚知道:
- • 指标是否真的异常;
- • 异常影响哪些对象;
- • 相关负责人是谁;
- • 应该触发什么动作;
- • 动作会影响哪些系统;
- • 结论依据是什么。
因此,这种场景通常需要有:
- • 语义层:保证指标计算正确;
- • 本体 / 图谱:保证对象识别正确;
- • 状态图谱:保证当前上下文正确;
- • 动作契约:保证执行动作正确;
- • 审计链路:保证可追溯。
结语
智能问数不是简单让大模型写 SQL。轻量场景可以从 Text2SQL 快速启动,但企业级可信问数通常需要语义层、指标治理、权限治理、查询编译、结果校验和审计链路。跨系统、跨对象、需要归因与证据溯源时,才进一步引入本体和图谱。
未来 Agentic 问数会从“回答数据问题”走向“发现问题并触发行动”,但它能否真正进入企业核心业务,取决于底层可信技术设施是否完备。当前很多 Agentic 产品过于强调 Skill 和 Memory,但 Skill 和 Memory 只是 Agent 的能力表达层;可信数据、可信语义、可信执行、可信审计,才是支撑 Agent 可靠行动的基础。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~