news 2026/6/18 22:02:04

当 max_tokens=1 遇上 reasoning 模型:从 Xagent 一次“测试连接“按钮的失败说起

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
当 max_tokens=1 遇上 reasoning 模型:从 Xagent 一次“测试连接“按钮的失败说起

一个测连通的按钮,把 reasoning 模型挡在了门外

如果你用过开源 AI 平台,肯定见过这样的设计——配置一个新模型时,UI 上有个"测试连接"按钮:你填好 base_url、api_key、模型名,点一下,平台后端发个最小成本的请求验证它能不能跑。

通常这个请求长这样:

awaitllm.chat([{"role":"user","content":"Hello"}],max_tokens=1)

为什么max_tokens=1?因为只是要"验证连通性"——只要 API 返回 200、能拿到一个 token,就算连上。便宜、快、对模型供应商也友好。

这套设计在传统 chat 模型上工作了多年。直到 reasoning 模型登场。

最近 Xagent 通过两个连续合并的 PR 修复了这个问题:

  • PR #625:fix(xinference): handle reasoning models in chat response and test-connection(d8794f2已 merge)
  • PR #626:fix(openai): fall back to reasoning_content when content is empty(3ca54bb已 merge)

这两个 PR 看起来在修同一件事,但合在一起读,能讲清楚一个非常微妙的兼容性故事——以及一段关于 PR review 的好示范。

故事开始:用户连不上 qwen3.6_27b

具体复现:用户在 Xagent UI 上配置一个 Xinference 服务上的 reasoning 模型qwen3.6_27b,点"测试连接",前端报错:

Invalid Xinference response: { 'id': 'chat...', 'choices': [{ 'message': { 'role': 'assistant', 'content': '', 'reasoning_content': 'Here' }, 'finish_reason': 'length' }], 'usage': {'prompt_tokens': 11, 'completion_tokens': 1} }

看起来响应是好的——HTTP 200、有 choices、有 usage。问题在content=''reasoning_content='Here'

Reasoning 模型的"脑内独白"机制

Reasoning 模型(qwen3-thinking、deepseek-r1、qwen3.x_*、openai o1/o3 等)在生成最终答案之前,会先在reasoning_content字段里做"思考"——这部分是模型的草稿、推理链、自我对话;最终答案才放到content里。

正常完成时,响应是这样:

{"content":"答案是 42","reasoning_content":"需要计算 6×7..."}

但当max_tokens=1时,模型刚开始 reasoning 就被截断——reasoning_content="Here"(thinking 的第一个 token),content=""(还没开始写最终答案),finish_reason="length"

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/18 21:58:22

质数取石子游戏【牛客tracker 每日一题】

质数取石子游戏 时间限制:1秒 空间限制:256M 网页链接 牛客tracker 牛客tracker & 每日一题,完成每日打卡,即可获得牛币。获得相应数量的牛币,能在【牛币兑换中心】,换取相应奖品!助力每…

作者头像 李华
网站建设 2026/6/18 21:55:08

OC6830工业级升降压DC-DC芯片|宽压全场景电源解决方案

在消费电子、车载快充、工业自控、新能源储能多领域电源方案迭代升级的当下,一款兼顾宽电压输入、大功率输出、高转换效率、全维度保护的电源管理芯片,成为硬件研发的刚需。OC6830作为全新推出的升压/升降压双模专用DC-DC芯片,采用紧凑型SOT2…

作者头像 李华
网站建设 2026/6/18 21:51:08

Windows 11太臃肿?这个开源工具让你的电脑运行速度提升51%

Windows 11太臃肿?这个开源工具让你的电脑运行速度提升51% 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter an…

作者头像 李华
网站建设 2026/6/18 21:50:56

海外闭源模型断供风险凸显:GLM-5.2 开源技术详解与 API 落地实践

一、国家博弈视角:Claude-fable-5 强制下架深层原因1. 美国 AI 出口管制的地缘战略底层逻辑2026年6月9日美西时间发布的Claude-fable-5,仅上线4天便于6月13日全域永久下架,这款顶尖闭源模型无任何缓冲、无任何自救方案,根源在于其…

作者头像 李华
网站建设 2026/6/18 21:47:35

离线环境Selenium自动化测试部署指南:从依赖打包到CI/CD集成

1. 项目概述:为什么我们需要一个离线的Selenium环境?在自动化测试的日常工作中,Selenium几乎是绕不开的名字。它就像测试工程师手中的瑞士军刀,能驱动浏览器完成各种复杂的模拟操作。但不知道你有没有遇到过这样的场景&#xff1a…

作者头像 李华
网站建设 2026/6/18 21:44:26

AI是怎么学会思考的

AI 是怎么学会"思考"的——从一句话生成到一步步推演去年你问 ChatGPT 一道数学题,它张嘴就来,对的少错的多。今年你问 DeepSeek-R1 或 o1,它先想上两分钟再回答,对的多错的少。这一"想"之间,是整…

作者头像 李华