手把手教你用通义千问3-14B开发第一个AI插件-编程阁

手把手教你用通义千问3-14B开发第一个AI插件

1. 引言：为什么选择 Qwen3-14B 开发 AI 插件？

在当前大模型快速普及的背景下，如何高效构建可商用、高性能且易于部署的 AI 插件成为开发者关注的核心问题。通义千问3-14B（Qwen3-14B）凭借其“单卡可跑、双模式推理、长上下文支持”等特性，成为目前最适合个人开发者和中小团队落地 AI 应用的开源模型之一。

该模型基于 Apache 2.0 协议开源，允许免费商用，并原生支持函数调用（Function Calling）、Agent 扩展与 JSON 输出，为插件化开发提供了坚实基础。结合 Ollama 和 Ollama WebUI 的一键部署能力，开发者无需复杂的环境配置即可快速启动本地推理服务。

本文将带你从零开始，使用 Qwen3-14B 搭建一个具备天气查询功能的 AI 插件，涵盖：

本地模型部署
函数定义与注册
Agent 调用逻辑实现
实际交互测试

最终你将掌握一套完整的 AI 插件开发流程，可用于扩展更多实用功能，如数据库查询、邮件发送、代码解释器等。

2. 环境准备与模型部署

2.1 安装 Ollama 与 Ollama WebUI

Ollama 是当前最轻量级的大模型运行框架，支持 GPU 加速和量化加载，完美适配消费级显卡（如 RTX 4090）。配合 Ollama WebUI 可视化界面，极大降低使用门槛。

安装步骤：

# 下载并安装 Ollama（Linux/macOS） curl -fsSL https://ollama.com/install.sh | sh # 启动 Ollama 服务 ollama serve

提示：Windows 用户可直接访问 https://ollama.com/download 下载桌面版安装包。

安装 Ollama WebUI（可选但推荐）

git clone https://github.com/ollama-webui/ollama-webui.git cd ollama-webui docker-compose up -d

启动后访问http://localhost:3000即可进入图形化操作界面。

2.2 拉取 Qwen3-14B 模型镜像

Qwen3-14B 提供了 FP8 量化版本，仅需 14GB 显存即可全速运行，在 RTX 4090 上可达 80 token/s。

执行以下命令拉取模型：

ollama pull qwen:14b-fp8

说明：qwen:14b-fp8是经过优化的 FP8 量化版本，适合生产环境；若需更高精度可使用qwen:14b-bf16（需 28GB 显存）。

验证是否成功加载：

ollama run qwen:14b-fp8 "你好，请介绍一下你自己"

预期输出应包含“我是通义千问”相关内容，并响应流畅。

3. 插件功能设计与函数定义

我们将开发一个名为“天气助手”的 AI 插件，当用户询问某城市天气时，AI 自动调用外部 API 获取实时数据并返回结构化结果。

3.1 功能需求分析

用户输入	AI 行为
“北京今天天气怎么样？”	触发`get_weather`函数，传入参数`{city: "北京"}`
“上海明天气温多少？”	调用`get_weather(city="上海", date="明天")`
“随便聊聊”	不触发函数，正常对话

3.2 定义函数 Schema

Qwen3-14B 支持标准 OpenAI 风格的 function calling 格式。我们定义如下 JSON Schema：

{ "name": "get_weather", "description": "获取指定城市的实时天气信息", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称，例如北京、上海" }, "date": { "type": "string", "enum": ["今天", "明天", "后天"], "description": "查询日期，默认为今天" } }, "required": ["city"] } }

此 schema 将被注册到 Agent 中，用于引导模型识别何时调用该函数。

4. 使用 qwen-agent 实现插件逻辑

阿里官方提供了qwen-agent库，专为 Qwen 系列模型设计，简化 Agent 与函数调用的集成。

4.1 安装依赖库

pip install qwen-agent requests

4.2 编写插件主程序

创建文件weather_plugin.py：

import sys from qwen_agent.agents import Assistant import requests # Step 1: 定义工具函数 def get_weather(city: str, date: str = "今天"): """ 模拟调用天气API（此处使用 mock 数据） 实际项目中可替换为真实接口，如高德/和风天气 """ # 示例：模拟返回数据 weather_data = { "北京": {"今天": "晴，气温 -5~3°C", "明天": "多云，气温 -4~2°C"}, "上海": {"今天": "小雨，气温 8~12°C", "明天": "阴，气温 7~11°C"}, "广州": {"今天": "晴，气温 18~25°C", "明天": "晴，气温 19~26°C"} } if city not in weather_data: return f"暂不支持 {city} 的天气查询" info = weather_data[city].get(date, "数据不可用") return f"{city}{date}天气：{info}" # Step 2: 初始化 LLM 代理 llm_cfg = { 'model': 'qwen:14b-fp8', # 必须与 ollama 中模型名称一致 'model_type': 'qwen', 'url': 'http://localhost:11434/v1', # Ollama 默认 API 地址 'api_key': 'no-key-required' } bot = Assistant( llm=llm_cfg, function_list=[get_weather] # 注册函数 ) # Step 3: 启动对话循环 if __name__ == '__main__': history = [] while True: query = input("\n你: ") if query.lower() in ['退出', 'exit', 'quit']: break # 流式输出 AI 响应 response = '' for chunk in bot.run(query, history=history): content = chunk.get('content', '') print(content, end='') response += content print() # 更新历史记录 history.extend([{'role': 'user', 'content': query}, {'role': 'assistant', 'content': response}])

4.3 运行插件并测试

确保 Ollama 服务正在运行，然后执行：

python weather_plugin.py

输入测试语句：

你: 北京今天天气怎么样？

预期输出：

AI: 正在为您查询北京今天的天气... 北京今天天气：晴，气温 -5~3°C

再试一句：

你: 上海明天气温多少？

输出：

AI: 正在获取上海明天的天气信息... 上海明天天气：阴，气温 7~11°C

如果 AI 成功识别意图并调用get_weather函数，则插件已成功运行！

5. 关键技术解析与优化建议

5.1 双模式推理的应用场景选择

Qwen3-14B 支持两种推理模式，合理选择可显著提升体验：

模式	特点	推荐用途
Thinking 模式	显式输出`<think>`推理链，适合复杂任务	数学计算、代码生成、多步决策
Non-thinking 模式	隐藏中间过程，响应更快	对话、写作、翻译、插件调用

建议：插件类应用优先启用 Non-thinking 模式以减少延迟。可通过设置系统提示词控制：
你是一个高效的AI助手，请直接给出答案，不要输出思考过程。

5.2 提升函数调用准确率的技巧

尽管 Qwen3-14B 支持函数调用，但在实际使用中仍可能出现误触发或漏触发。以下是优化策略：

明确指令引导
在 system prompt 中加入：
当用户提问涉及天气、时间、地点等信息时，请优先考虑调用 get_weather 工具。
限制枚举参数
如date字段限定为 ["今天","明天","后天"]，有助于模型更准确匹配。
增加示例对话
在初始化时提供 few-shot 示例，增强模型理解。

5.3 性能优化与资源管理

显存不足？使用 GGUF 或 MLX 版本
若显存低于 14GB，可尝试转换为 GGUF 格式并在 CPU 上运行，或使用 Apple Silicon 的 MLX 推理框架。
提高吞吐量：集成 vLLM
对于高并发场景，可通过 vLLM 部署 Qwen3-14B，实现批处理和连续批处理（Continuous Batching），提升吞吐量达 3 倍以上。
缓存机制
对频繁请求的城市天气添加 Redis 缓存，避免重复调用 API。