端云协同评测 JSON Schema + Failure Taxonomy-编程阁

一、设计原则

这套 Schema 的目标是：

评的是系统行为，不是模型输出
能复现、能回放、能自动打分
Failure 是一等公民（不是附属）
端 / 云 / Agent 责任可归因

二、顶层结构总览

{ "scenario_meta": {...}, "initial_state": {...}, "events": [...], "constraints": {...}, "expected_outcome": {...}, "failure_taxonomy": [...], "metrics": {...} }

每个 scenario = 一个完整世界

三、JSON Schema 设计

1️⃣ scenario_meta（实验身份）

{ "scenario_id": "edge_cloud_anomaly_001", "domain": "industrial_iot", "risk_level": "high", "description": "高温异常，可能损坏设备" }

用于：

分组评测
风险分层
A/B 对比

2️⃣ initial_state（端侧初始世界）

{ "sensor_summary": "temperature spike detected", "risk_score": 0.82, "device_status": "running", "network_status": "unstable" }

注意：

不是 raw data
是 Agent 可见的“摘要世界”

3️⃣ events（时间线扰动）

这是端云协同评测的核心设计点

[ { "time": 3, "type": "network_delay", "params": { "latency_ms": 800 } }, { "time": 5, "type": "cloud_response_corruption", "params": { "mode": "partial" } } ]

用来评测：

鲁棒性
回退能力
Agent 是否失控

4️⃣ constraints（系统硬约束）

{ "max_cloud_calls": 1, "max_latency_ms": 1000, "unsafe_actions": ["shutdown_without_confirmation"] }

约束 = 可自动判定的规则

5️⃣ expected_outcome（行为级预期）

{ "final_action": "shutdown", "cloud_call_required": true, "should_enter_safe_mode": true }

不评：

文本好不好
推理漂不漂亮

只评：

最后有没有把事办对

6️⃣ metrics（场景专属指标）

{ "primary": "task_success", "secondary": [ "cloud_call_efficiency", "latency_budget" ] }

7️⃣ failure_taxonomy（失败即规格）⭐

[ "MISSED_CLOUD_ESCALATION", "UNNECESSARY_CLOUD_CALL", "UNSAFE_ACTION_EXECUTED", "NO_FALLBACK_ON_CLOUD_FAILURE" ]

Failure 是预期的一部分

四、Failure Taxonomy

下面分类可直接作为系统规范。

A. 感知与判断失败（Edge-level）

Code	含义
EDGE_FALSE_NEGATIVE	高风险未识别
EDGE_FALSE_POSITIVE	误报风险
CONFIDENCE_MISALIGNED	置信度与事实不符

B. 协同决策失败（Edge ↔ Cloud）

Code	含义
MISSED_CLOUD_ESCALATION	应上云却没上
UNNECESSARY_CLOUD_CALL	不该上云却上了
CLOUD_CALL_LOOP	云调用死循环

C. 云智能失败（Cloud-level）

Code	含义
HALLUCINATED_SUGGESTION	云建议胡说
OVERCONFIDENT_ADVICE	缺乏不确定性提示
POLICY_VIOLATION	建议违反规则

D. 执行与安全失败（Action-level）⭐⭐⭐

Code	含义
UNSAFE_ACTION_EXECUTED	危险动作被执行
NO_CONFIRMATION	高风险无确认
NO_FALLBACK_ON_FAILURE	无兜底

E. 系统级失败（System-level）

Code	含义
DEADLOCK	Agent 停滞
STATE_CORRUPTION	状态被破坏
NON_DETERMINISTIC	行为不可复现

五、Failure ↔ 指标 ↔ 责任映射

{ "UNSAFE_ACTION_EXECUTED": { "layer": "edge_agent", "severity": "critical", "metric": "safe_action_rate" }, "HALLUCINATED_SUGGESTION": { "layer": "cloud_agent", "severity": "high", "metric": "hallucination_action_rate" } }

这一步让系统“可治理”

六、和 LangGraph + LLM-Judge 怎么对接？

LangGraph

每一步写入trajectory
标注：
- source（edge / cloud）
- decision_type

Rule Engine

根据constraints自动打 failure

LLM-Judge

只评：
- 决策合理性
- 策略是否稳健
不碰硬规则

做到这一步，已经具备：

✅工业级 Agent 评测设计能力
✅可写方法论的 Failure taxonomy
✅可规模化自动生成评测样本的 Schema
✅端云协同系统的“治理视角”

基于SpringBoot的爱心公益网站

社会价值 SpringBoot爱心公益网站通过技术手段降低公益参与门槛，让更多人便捷地参与捐赠、志愿服务或信息传播。数字化平台能高效匹配资源与需求，解决传统公益中信息不对称、流程繁琐等问题，例如偏远地区物资需求可快速触达潜在捐赠者。技…

李华

2026敏捷咨询新趋势：不止于流程，更在于组织生态重构

当敏捷理念在企业界普及二十余年，2026年的市场对敏捷咨询机构提出了全新要求：不再是单纯的流程优化或工具导入，而是要构建适配业务增长的敏捷生态。在这一趋势下，像翰德恩咨询这样深耕敏捷与DevOps领域的机构，正以“全…

李华

第六课 · 6.1从 JDBC 到 MyBatis：SQL 工程化是如何发生的？

如果说 ORM 是“对象如何存在于数据库中的体系”， 那 MyBatis，就是这套体系中最靠近数据库的一条工程路线。这一篇不讲 XML 怎么写，不讲分页插件，不教 CRUD。我们只回答一个问题：👉 为什么 JDBC 一定会进化…

李华

工信部发布人形机器人标准化指南，博银合创落地工业具身智能实验室，Meta发布V-JEPA 2世界模型，博世与OpenAI深化合作

工信部发布人形机器人标准化体系指南，推动产业规模化发展国新办发布会上，工信部明确宣布将正式印发《人形机器人与具身智能综合标准化体系建设指南》，同步加大国家人工智能产业基金扶持力度，推进开源社区建设，破解行…

李华

端云协同评测 JSON Schema + Failure Taxonomy

一、设计原则

二、顶层结构总览

三、JSON Schema 设计

1️⃣ scenario_meta（实验身份）

2️⃣ initial_state（端侧初始世界）

3️⃣ events（时间线扰动）

4️⃣ constraints（系统硬约束）

5️⃣ expected_outcome（行为级预期）

6️⃣ metrics（场景专属指标）

7️⃣ failure_taxonomy（失败即规格）⭐

四、Failure Taxonomy

A. 感知与判断失败（Edge-level）

B. 协同决策失败（Edge ↔ Cloud）

C. 云智能失败（Cloud-level）

D. 执行与安全失败（Action-level）⭐⭐⭐

E. 系统级失败（System-level）

五、Failure ↔ 指标 ↔ 责任映射

六、和 LangGraph + LLM-Judge 怎么对接？

LangGraph

Rule Engine

LLM-Judge

基于SpringBoot的爱心公益网站

2026敏捷咨询新趋势：不止于流程，更在于组织生态重构

Java锁优化：从synchronized到CAS的演进与实战选择

第六课 · 6.1从 JDBC 到 MyBatis：SQL 工程化是如何发生的？

工信部发布人形机器人标准化指南，博银合创落地工业具身智能实验室，Meta发布V-JEPA 2世界模型，博世与OpenAI深化合作

150N03NF-ASEMI中低压MOS界的“全能战士”

一、设计原则

二、顶层结构总览

三、JSON Schema 设计

1️⃣ scenario_meta（实验身份）

2️⃣ initial_state（端侧初始世界）

3️⃣ events（时间线扰动）

4️⃣ constraints（系统硬约束）

5️⃣ expected_outcome（行为级预期）

6️⃣ metrics（场景专属指标）

7️⃣ failure_taxonomy（失败即规格）⭐

四、Failure Taxonomy

A. 感知与判断失败（Edge-level）

B. 协同决策失败（Edge ↔ Cloud）

C. 云智能失败（Cloud-level）

D. 执行与安全失败（Action-level）⭐⭐⭐

E. 系统级失败（System-level）

五、Failure ↔ 指标 ↔ 责任映射

六、和 LangGraph + LLM-Judge 怎么对接？

LangGraph

Rule Engine

LLM-Judge

基于SpringBoot的爱心公益网站

2026敏捷咨询新趋势：不止于流程，更在于组织生态重构

Java锁优化：从synchronized到CAS的演进与实战选择

第六课 · 6.1从 JDBC 到 MyBatis：SQL 工程化是如何发生的？

​工信部发布人形机器人标准化指南，博银合创落地工业具身智能实验室，Meta发布V-JEPA 2世界模型，博世与OpenAI深化合作

150N03NF-ASEMI中低压MOS界的“全能战士”

工信部发布人形机器人标准化指南，博银合创落地工业具身智能实验室，Meta发布V-JEPA 2世界模型，博世与OpenAI深化合作