news 2026/6/17 13:45:58

UI Output Protocol 架构拆解:Markdown、HTML 和 UI DSL 如何分工

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
UI Output Protocol 架构拆解:Markdown、HTML 和 UI DSL 如何分工

拆解 AI 产品输出从文本到工作台的协议分层:Markdown 写文档,HTML 承载页面,UI DSL 接住操作。
原文链接:AI 小老六

导语

最近不少 AI 产品开始把回答做得越来越"像页面":有卡片、有筛选器、有图表,也有可点击操作。于是一个问题被反复拿出来讨论:​HTML 会不会替代 Markdown​?

这个问法容易把方向带偏。真正变化的不是某个标记语言赢了另一个,而是 ​AI 产品的输出对象变了​。

早期 Chatbot 只需要把话说清楚,Markdown 已经够用;Agent 产品要把结果接到任务流里,用户不只看,还要点、筛、改、提交、回滚。到了这一步,产品需要的就不是"更强的文本格式",而是一套模型和前端都能遵守的 ​UI Output Protocol​。

图:AI 产品输出从可读文本,逐步走向可操作的任务工作台

Markdown、HTML、UI DSL 不是一条简单的替代链。它们更像三种不同层级的接口:​Markdown 适合文档,HTML 适合页面,UI DSL 适合把模型意图变成受控组件​。

先换个问题:模型到底在交付什么

如果用户问"帮我总结这篇文章",模型交付的是内容。标题、列表、引用、表格,Markdown 很顺手。

如果用户问"帮我分析这组数据,异常项可以展开看,结论能一键生成工单",模型交付的就不只是内容了。它还要表达信息层级、组件类型、操作入口、状态变化和下一步动作。

这两类需求放在一张表里,差别很明显:

维度文档型输出工作台型输出
用户目标阅读、复制、转发探索、筛选、操作、继续推进
内容结构线性段落为主多块信息并列,常有主从关系
状态管理基本不需要需要保存筛选、展开、选择和执行状态
系统风险格式错了影响阅读操作错了可能影响业务数据
前端职责把文本渲染好把结构映射成安全的可操作界面

所以,"HTML 会不会替代 Markdown"不是主问题。主问题是:当模型输出会进入产品流程时,用什么协议承接它,才能既灵活又可控。

Markdown:低摩擦,但天然偏静态

Markdown 的生命力很强,因为它足够简单。模型容易生成,人容易读,系统也容易存。报告、会议纪要、需求草稿、代码解释、PR 摘要,这些场景用 Markdown 反而更好。

它的优点很直接:

  • Token 成本低,模型生成稳定。
  • 标题、列表、表格、代码块已经覆盖大多数线性表达。
  • 可读性好,复制到文档、Issue、IM 里不太容易坏。
  • 安全边界清楚,渲染器可以做严格白名单。

但 Markdown 的上限也清楚。它擅长"读",不擅长"操作"。一旦用户想对结果继续筛选、展开、排序、局部刷新,Markdown 就只能靠链接、表格和文字说明硬撑。

Markdown 可以描述一个按钮,但不能自然地成为一个按钮。

HTML:交互能力强,但别让模型裸写页面

HTML 的优势在交互承载。Tab、折叠面板、表单、图表、局部刷新、响应式布局,这些能力本来就是前端页面的主场。

问题在于:让模型直接输出 HTML,工程上并不舒服。

  • 稳定性不好​:模型可能漏闭合标签,也可能把样式、数据和交互逻辑混在一起。
  • 安全边界重​:脚本、事件属性、外链资源、内联样式都要治理,否则 XSS 和数据泄露风险会冒出来。
  • 设计系统会失控​:每次回答都生成一套新 HTML,看起来灵活,长期会让产品视觉、交互和无障碍规范变成一锅粥。

所以在严肃产品里,HTML 更适合作为渲染层,而不是模型的直接输出目标。模型不该关心按钮圆角几像素,也不该自己拼一段随时可能越权的 DOM。它更适合交付结构和意图。

UI DSL:模型和前端之间的窄腰协议

UI DSL 可以理解成一份受控的界面描述。模型输出的不是最终页面,而是一棵组件树:这里是一张卡片,那里是一张表,某列可排序,某个按钮代表"创建工单",某个筛选条件会回传给 Agent。

图:UI DSL 把模型意图收束为受控组件、数据引用和动作入口

一个很简化的例子可能长这样:

{"type":"dashboard","title":"异常订单分析","children":[{"type":"metricCard","title":"高风险订单","value":37,"action":{"type":"filter","payload":{"risk":"high"}}},{"type":"table","columns":["订单号","风险原因","负责人"],"dataRef":"risk_orders","actions":["openTicket","assignOwner"]}]}

这段 JSON 不负责视觉细节。它只告诉系统:该用什么组件、组件拿什么数据、用户能做什么动作。前端再把它映射到真实组件库里。

这就是 UI DSL 的价值:给模型留表达空间,但把它限制在产品允许的组件、字段和权限里。

图:模型生成结构和意图,平台校验边界,前端负责渲染和交互

这条链路里,模型负责内容和意图,平台负责校验和权限,前端负责渲染和交互。三者分清楚,系统才不会变成"模型想怎么画就怎么画"。

从文本到工作台:输出形态的演进不是替代

更合理的演进路径不是"Markdown -> HTML -> UI DSL",而是输出能力从低到高分层:

层级输出形态适合场景用户行为主要成本
L1Plain Text简单问答、短回复结构弱
L2Markdown报告、说明、PRD、代码解释读、复制、评论交互弱
L3HTML / Web View可视化报告、轻量交互页点击、筛选、展开安全和一致性治理
L4UI DSL / Component TreeAgent Workspace、任务流、数据分析台操作、回传、驱动下一步需要协议、组件体系和权限模型

不同层级可以长期共存。一个 Agent 产品里,解释性文本继续用 Markdown;数据探索区用组件树;复杂详情页最终渲染成 HTML;高风险操作需要后端权限校验。没有必要为了"统一格式"把所有输出都塞进 UI DSL。

头部产品用的是同一种思路

很多成熟产品看起来形态不一样,底层思路接近:模型输出结构化结果,前端把它变成可操作界面。

产品形态模型更像在输出什么前端负责什么如果只用 Markdown 会卡在哪里
搜索问答卡片答案块、引用源、相关问题卡片布局、引用跳转、折叠展开引用只能变成普通列表
文档编辑器 AIBlock Tree、表格、数据库字段渲染成可编辑块,保持文档结构用户要手动复制到正确位置
办公 Copilot操作意图、数据范围、图表配置在 Excel、PPT、BI 中执行只能给文字建议,不能直接生成对象
Agent IDE文件操作、Diff、命令、检查结果展示可 Apply 的变更和验证状态Diff 只能读,无法安全执行
自动化工作流节点、边、条件、状态渲染流程图并绑定后端执行流程只能写成说明文档

这些产品并不是简单地让模型写 HTML。它们把输出拆成数据、组件、动作三部分,再由系统接管渲染和执行。

决策树:什么时候该用哪一层

可以用一个很简单的判断逻辑:

图:从阅读、复杂布局、继续操作和事件回传四个问题选择输出层级

再换成工程问题,就是下面这张表:

判断问题更偏 Markdown更偏 HTML / UI DSL
用户读完之后会不会继续操作读完就走还要筛选、点击、提交
内容会不会持续变化一次性结果会被刷新、编辑、追踪
信息结构是不是线性的段落、列表、表格即可多区域、多状态、多联动
是否需要系统权限控制基本没有操作会影响任务、数据或外部系统
是否需要和 Agent 继续对话结果即终点用户动作会触发下一轮推理

协议设计比组件数量更重要

做 UI DSL 时,很多团队第一反应是多定义组件:卡片、表格、图表、时间线、流程图、表单、地图、文件树。组件当然重要,但更难的是协议边界。

图:真正难的是在组件表达力、权限边界和运行时治理之间取得平衡

至少要提前定清楚这些事:

协议问题如果不设计清楚
模型能输出哪些组件组件爆炸,前端无法维护
每个组件有哪些必填字段渲染时大量兜底,错误难定位
数据是内联还是引用大对象塞进上下文,成本和泄露风险上升
用户事件如何命名前端事件和 Agent 动作对不上
哪些动作需要权限确认模型可能诱导执行高风险操作
Schema 校验失败怎么办用户看到半成品界面
版本如何演进老回答、老会话、老组件全部兼容困难

我的建议是先做窄。只开放少量稳定组件,比如cardtablechartformactionList。等产品场景跑通,再扩展组件库。

UI DSL 不是越像前端框架越好。越早变成通用前端框架,越难管。

一个可落地的分层方案

如果要在 Agent 产品里落这套机制,可以按四层拆:

图:Model Output、Protocol、Render、Runtime 四层形成可校验、可渲染、可审计的闭环

每一层的职责要硬切开:

负责什么不该负责什么
Model Output生成内容、结构和操作意图直接写业务权限逻辑
Protocol校验 Schema、过滤动作、处理版本决定视觉样式
Render映射组件、处理交互和布局信任未经校验的模型输出
Runtime执行动作、记录状态、回传结果让模型绕过审计直接操作

这样做的好处是,模型能力变强时,产品可以放宽协议;模型出错时,系统仍然有护栏。

结语

Markdown 不会因为 Agent 产品出现就过时。它仍然是 AI 内容输出里最便宜、最稳、最通用的一层。

HTML 也不会凭空"一统天下"。它适合承载交互,但模型裸写 HTML 不是一个让人放心的长期方案。

真正值得投入的是 ​UI Output Protocol​:一套让模型表达界面意图、让系统校验边界、让前端稳定渲染的协议。它不追求让模型变成前端工程师,而是让模型说清楚"这里应该是什么、用户能做什么、动作要交给谁执行"。

Agent 产品往深处走,输出就会从文本变成工作台。到那时,格式选择只是表层问题;​协议设计,才是工程问题​。

推荐阅读

GEPA 架构拆解:让 Prompt 和 Skill 优化不靠玄学

Agent Workflow Runtime 架构拆解:把 Agent Loop 从提示词搬进代码,长任务才真正稳了

Google AX 控制面拆解:分布式 Agent 如何把断点恢复、审计策略和执行调度收进同一条链路

AI Native 竞争力:真正稀缺的不是会用 AI,而是把事往前推的人

Harness Engineering:Agent 真正能交付,靠的不是更强模型,而是上下文、执行协议和验收闸门

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 13:41:01

数据科学需要多少编程?三层能力模型帮你精准匹配岗位需求

1. 这个问题背后,藏着多少人不敢说出口的焦虑 “How Much Programming do I need in Data Science?”——这句话不是技术面试题,也不是课程宣传语,而是我过去八年带过上百名转行学员、审阅过两千多份简历、参与三十多场企业数据岗终面后&…

作者头像 李华
网站建设 2026/6/17 13:32:08

基于LCU API的英雄联盟客户端工具包架构设计与技术实现

基于LCU API的英雄联盟客户端工具包架构设计与技术实现 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 技术痛点:游戏数据获取与客…

作者头像 李华
网站建设 2026/6/17 13:30:20

国产大模型合规落地指南:从RAG优化到政务AI审计要点

我不能提供任何关于绕过国家网络监管、使用虚拟信用卡注册境外服务或开通受限制平台功能的内容。该标题涉及的行为可能违反《中华人民共和国计算机信息网络国际联网管理暂行规定》《反洗钱法》及央行关于支付结算的多项监管要求,尤其“虚拟信用卡”“国内开通境外AI…

作者头像 李华
网站建设 2026/6/17 13:21:59

SSCom串口调试工具:嵌入式开发者的3分钟终极配置指南

SSCom串口调试工具:嵌入式开发者的3分钟终极配置指南 【免费下载链接】sscom Linux/Mac版本 串口调试助手 项目地址: https://gitcode.com/gh_mirrors/ss/sscom 你是否曾经在Linux或macOS系统上调试嵌入式设备时,面对复杂的串口工具配置感到困惑&…

作者头像 李华
网站建设 2026/6/17 13:20:05

RMSprop优化器原理与实战:动态学习率如何解决训练停滞

1. 为什么 RMSprop 不是“又一个优化器”,而是解决实际训练卡点的利器在深度学习项目里,我几乎每次调参都会遇到同一个场景:模型训练初期 loss 掉得飞快,但跑到第30轮左右就突然“僵住”——loss 曲线变得像一条被拉直的橡皮筋&am…

作者头像 李华