实测通义千问2.5-7B-Instruct：AI导游+天气查询工具调用演示-编程阁

实测通义千问2.5-7B-Instruct：AI导游+天气查询工具调用演示

1. 引言

随着大语言模型在实际业务场景中的深入应用，具备指令理解能力和外部工具集成能力的中等体量模型正成为企业级AI服务的重要选择。通义千问2.5-7B-Instruct作为阿里于2024年9月发布的70亿参数指令微调模型，定位“中等体量、全能型、可商用”，不仅在多项基准测试中表现优异，更原生支持Function Calling与JSON格式输出，为构建智能Agent系统提供了坚实基础。

本文将基于已部署的vLLM推理服务环境，实测通义千问2.5-7B-Instruct在两个典型场景下的表现： -AI导游功能：展示其对本地化知识的理解与表达能力 -天气查询工具调用：验证其函数调用（Tool Call）机制的准确性与工程可用性

通过完整代码示例与交互流程解析，帮助开发者快速掌握如何利用该模型构建具备实时信息获取能力的智能对话系统。

2. 模型能力概览

2.1 核心技术指标

通义千问2.5-7B-Instruct在多个维度展现出领先同级别模型的技术优势：

维度	指标
参数规模	70亿（非MoE结构，全权重激活）
上下文长度	最高支持128K tokens，适合长文档处理
推理速度	RTX 3060上可达 >100 tokens/s（量化后仅需4GB显存）
多语言支持	支持30+自然语言，中英文并重
编程能力	HumanEval通过率85+，媲美CodeLlama-34B
数学能力	MATH数据集得分超80，优于多数13B模型
工具调用	原生支持Function Calling与JSON强制输出

特别值得注意的是，该模型采用RLHF + DPO双阶段对齐训练，显著提升了有害内容拒答率（提升约30%），增强了在生产环境中的安全性。

2.2 部署环境说明

本次实测基于以下软硬件环境运行：

GPU设备：NVIDIA Tesla V100-SXM2-32GB
CUDA版本：12.2
推理框架：vLLM 0.6.1（Docker镜像vllm/vllm-openai:latest）
模型加载方式：FP16精度，启用PagedAttention优化
关键启动参数：bash --enable-auto-tool-choice --tool-call-parser hermes

提示：若未开启--enable-auto-tool-choice，调用工具时会返回400错误，详见文末附录说明。

3. AI导游功能实测

3.1 场景设定与系统提示词设计

我们设定一个典型的旅游咨询场景，要求模型扮演专业导游角色，介绍广州特色景点。为此，使用如下system prompt进行角色引导：

{ "role": "system", "content": "你是一位专业的导游." }

该提示词简洁明确地定义了模型的角色身份，使其输出更具专业性和一致性。

3.2 对话请求实现

以下是Python端调用OpenAI兼容API的完整代码：

# -*- coding: utf-8 -*- import json from openai import OpenAI openai_api_key = "EMPTY" openai_api_base = "http://localhost:9000/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id def chat(messages): for chunk in client.chat.completions.create( messages=messages, model=model, stream=True): msg = chunk.choices[0].delta.content print(msg, end='', flush=True) if __name__ == '__main__': messages = [ { "role": "system", "content": "你是一位专业的导游." }, { "role": "user", "content": "请介绍一些广州的特色景点?" } ] chat(messages)

3.3 输出结果分析

执行上述脚本后，模型返回如下内容（节选）：

广州，这座历史悠久的城市，有着丰富的文化底蕴和独特的城市风貌，下面为您介绍一些广州的特色景点： 1. **白云山**：位于广州市区北边，是广州的“绿肺”。不仅风景秀美，还有凉亭、飞水潭等自然景观，是市民和游客休闲的好去处…… 2. **珠江夜游**：乘坐游船游览珠江，沿途可以欣赏到广州塔、海心沙、上下九步行街等城市标志性建筑夜景，是一次不可多得的城市夜景体验。 ……

从输出可以看出，模型具备以下优点： - 结构清晰，分点叙述，逻辑性强 - 内容详实，涵盖自然景观、历史文化、现代地标等多个维度 - 表达流畅，符合中文口语习惯，适合作为导游解说词使用

这表明通义千问2.5-7B-Instruct在本地知识理解和结构化表达方面具有出色表现。

4. 工具调用功能实战：天气查询

4.1 功能需求与设计思路

真实场景中，用户常需要获取实时信息（如天气、交通、价格等）。传统LLM无法主动访问外部数据源，而通过工具调用（Function Calling）机制，可以让模型根据语义判断是否需要调用特定函数，并生成符合规范的参数。

本节我们将实现一个简单的天气查询功能： 1. 用户询问“广州天气情况如何？” 2. 模型识别意图并调用get_current_weather(city)函数 3. 系统执行函数获取模拟天气数据 4. 将结果回传给模型生成最终回复

4.2 工具定义与注册

首先定义待调用的函数及其元信息（即tool schema）：

def get_current_weather(city: str): return f"目前{city}多云到晴，气温28~31℃，吹轻微的偏北风。" tools = [{ "type": "function", "function": { "name": "get_current_weather", "description": "获取指定位置的当前天气", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "查询当前天气的城市，例如：深圳" } }, "required": ["city"] } } }]

注意：tools数组需作为请求参数传递给API，用于告知模型可用工具列表。

4.3 完整调用流程

整个工具调用过程分为三个阶段：

阶段一：模型发起工具调用

output = client.chat.completions.create( messages=[{"role": "user", "content": "广州天气情况如何？"}], model=model, tools=tools, stream=False )

模型响应中包含工具调用指令：

"tool_calls": [ { "id": "chatcmpl-tool-xxx", "function": { "name": "get_current_weather", "arguments": "{\"city\": \"\\u5e7f\\u5dde\"}" }, "type": "function" } ]

其中arguments字段为JSON字符串，需解码后提取参数。

阶段二：执行工具函数并构造回调消息

tool_calls = output.choices[0].message.tool_calls tool_functions = {"get_current_weather": get_current_weather} for call in tool_calls: func_name = call.function.name args = json.loads(call.function.arguments) result = tool_functions[func_name](**args) # 构造tool role消息回传 messages.append({ "role": "tool", "content": result, "tool_call_id": call.id, "name": func_name })

阶段三：模型生成最终回答

将包含工具执行结果的消息序列重新发送给模型：

final_response = client.chat.completions.create( messages=messages, model=model, stream=True ) for chunk in final_response: content = chunk.choices[0].delta.content print(content, end='', flush=True)

输出结果为：

目前广州的天气是多云到晴，气温在28到31℃之间，吹的是轻微的偏北风。

整个流程实现了意图识别 → 工具调用 → 数据获取 → 自然语言生成的闭环。

5. 关键问题与解决方案

5.1 工具调用失败：400 Bad Request

常见错误信息：

{ "error": { "message": "\"auto\" tool choice requires --enable-auto-tool-choice and --tool-call-parser to be set" }, "code": 400 }

原因分析

vLLM默认不启用自动工具选择功能。即使客户端传入tools参数，服务端也会忽略。

解决方案

启动容器时必须添加以下两个参数：

--enable-auto-tool-choice --tool-call-parser hermes

完整命令示例如下：

docker run --runtime nvidia --gpus "device=0" \ -p 9000:9000 \ --ipc=host \ -v /data/model/qwen2.5-7b-instruct:/qwen2.5-7b-instruct \ -it --rm \ vllm/vllm-openai:latest \ --model /qwen2.5-7b-instruct \ --dtype float16 \ --max-model-len 10240 \ --enforce-eager \ --host 0.0.0.0 \ --port 9000 \ --enable-auto-tool-choice \ --tool-call-parser hermes

注意：hermes是vLLM支持的一种工具解析器，专为Qwen系列优化，确保参数正确解析。

6. 总结

6.1 技术价值总结

本文通过实测验证了通义千问2.5-7B-Instruct在两大核心能力上的表现：

高质量内容生成能力：在AI导游场景中，能够准确理解指令，输出结构清晰、内容丰富的本地化知识介绍。
可靠的工具调用能力：支持标准OpenAI风格的Function Calling，能精准提取参数并触发外部函数，适用于构建具备实时数据获取能力的Agent系统。

结合其7B级别的轻量级体积、出色的中英文双语能力以及商业友好的开源协议，该模型非常适合用于： - 智能客服机器人 - 本地生活服务平台助手 - 企业内部知识问答系统 - 多模态Agent前端决策模块

6.2 最佳实践建议

务必启用工具调用开关：部署时添加--enable-auto-tool-choice --tool-call-parser hermes，否则无法使用tool calling功能。
合理控制上下文长度：虽然支持128K上下文，但长文本会显著增加显存占用，建议根据实际需求设置max-model-len。
优先使用流式输出（streaming）：提升用户体验，降低感知延迟。
做好异常处理：对工具调用失败、参数解析错误等情况进行兜底处理，保障系统稳定性。