Azure Functions 部署 AutoGen 多智能体实战指南-编程阁

1. 项目概述：为什么要在 Azure Functions 上跑 AutoGen 多智能体？

我从去年开始在生产环境里落地 AI Agent 应用，从最开始用 Flask 搭单体服务，到后来上 Kubernetes 做弹性伸缩，再到去年底彻底转向 Serverless 架构——不是为了赶时髦，而是被真实业务场景逼出来的。我们团队做的是一套面向金融合规部门的实时舆情摘要系统，每天要处理上千个监管关键词的突发新闻，要求响应延迟必须控制在 3 秒内，但流量又极不均衡：早盘开盘前、重大政策发布后会出现短时峰值，其余时间几乎为零。这时候你让运维半夜起来扩 Pod？或者为每秒 0.2 个请求常年开着 4 核 8G 的 VM？成本和体验都不可接受。

AutoGen 0.4 正是我在这种背景下深度验证后选定的框架。它不像 LangChain 那样把所有逻辑塞进一个链式调用里，也不像 LlamaIndex 那样强绑定 RAG 流程，而是真正把“人”这个角色拆解成可编排、可替换、可审计的独立单元。比如我们最终上线的版本里，一个典型任务流是：用户输入“请分析最近一周关于‘碳关税’的欧盟政策动向”，系统会自动启动 4 个 Agent——关键词扩展 Agent（把“碳关税”扩展成“CBAM”“EU Carbon Border Adjustment Mechanism”等术语）、多源检索 Agent（并行调 Bing、Reuters API、欧盟官网 RSS）、事实校验 Agent（交叉比对不同信源的时间戳与措辞差异）、合规摘要 Agent（按银保监会《AI生成内容披露指引》第 3.2 条格式输出）。这四个 Agent 各自专注一件事，出问题只影响局部，而不是整个链路崩掉。

Azure Functions 成了这套架构的天然载体。它不是简单地把 AutoGen “搬上去”，而是让 Serverless 的基因和 Agent 的协作范式产生了化学反应：每个 HTTP 请求触发一次完整的多 Agent 协作会话，函数执行完资源立即释放；冷启动时间从早期的 8 秒压到现在的 1.2 秒（后面会讲怎么做到的）；更重要的是，它天然支持按毫秒计费——我们线上环境实测，处理一个中等复杂度查询平均消耗 1420ms，按 Azure 当前定价，单次成本是 0.00037 元。算下来每月 50 万次调用，云服务成本不到 200 元，比租一台最低配 VM 还便宜。这不是理论值，是我们财务系统导出的真实账单。

你可能会问：为什么不用 AWS Lambda 或 Google Cloud Functions？我们做过三个月的横向对比测试。Azure Functions 对 Python 异步生态的支持更成熟，特别是async for message in team.run_stream()这种流式响应模式，在 Lambda 上需要额外封装成 WebSockets 才能实现，而 Azure 原生支持 HTTP 流式传输；另外 Azure OpenAI 的集成是开箱即用的，不需要手动处理 token 刷新或 endpoint 路由，这对快速迭代至关重要。当然，如果你的基础设施已经在 AWS 生态里深耕多年，那另当别论——技术选型永远要服务于你的现有资产，而不是教条主义。

这篇文章要讲的，就是如何把这套经过生产验证的方案，变成你能直接抄作业的完整流程。我会从最底层的环境约束讲起，比如为什么必须用 Python 3.11 而不是 3.12（因为 Azure Functions 当前 runtime 还没完全适配 3.12 的 async generator 行为），到最关键的 Bing 搜索结果清洗技巧（90% 的初学者在这里翻车，返回的 HTML 里藏着大量广告脚本和动态加载的 div，直接soup.get_text()会拿到一堆乱码），再到部署时那个让所有人抓狂的pydantic版本冲突问题——这些都不是文档里写的，而是我在凌晨三点盯着日志反复重试后记下的血泪经验。

2. 整体架构设计与核心取舍逻辑

2.1 为什么放弃传统微服务，选择纯 Serverless Agent 编排？

很多人看到“多 Agent”第一反应是拆成多个微服务：Search Service、Report Service、Validation Service……然后用 Kafka 或 RabbitMQ 做消息队列。我们在 PoC 阶段确实这么干过，结果发现三个致命问题：

第一是状态同步成本爆炸。Agent 之间需要传递的不只是最终结果，还有中间态：比如搜索 Agent 返回了 5 个链接，但校验 Agent 只需要其中 3 个的原始 HTML；报告 Agent 又需要校验 Agent 输出的置信度分数。如果每个服务都存一份中间数据到 Redis，光序列化/反序列化就吃掉 300ms；如果用共享数据库，事务锁又成了瓶颈。而 AutoGen 的GroupChat机制把所有消息存在内存队列里，Agent 通过message.source和message.content直接读取上下文，延迟压到 20ms 以内。

第二是错误传播不可控。微服务里一个 Agent 报错，上游服务得自己实现重试逻辑、降级策略、熔断开关。但在 AutoGen 的RoundRobinGroupChat里，你可以精确控制：max_turns=3意味着每个 Agent 最多发言 3 次，termination_condition=TextMentionTermination("TERMINATE")让报告 Agent 主动终结会话。我们在线上加了监控埋点，发现 92% 的失败会话都在第 2 轮就因工具调用超时被自动终止，根本不会污染后续流程。

第三是调试成本高到无法忍受。微服务架构下，你得同时看 4 个服务的日志，再用 trace ID 关联。而 Azure Functions 的 Application Insights 会自动把整个 HTTP 请求生命周期里的所有 Agent 日志打上同一个 operation_id，你在 KQL 里写一句requests | join (traces) on operation_Id | where message contains "bing_Search_Agent"就能拉出完整协作链路。这是生产力的代差。

所以我们的架构图极其简单：一个 HTTP 触发器 → 一个RoundRobinGroupChat实例 → 两个（或更多）AssistantAgent→ 各自调用封装好的FunctionTool。没有网关，没有注册中心，没有配置中心——所有状态都在单次函数执行周期内闭环。

2.2 AutoGen 0.4 的关键升级：为什么必须用这个版本？

AutoGen 在 0.3 到 0.4 的升级中，重构了整个异步通信层。老版本用asyncio.Queue做消息中转，新版本改用autogen_core提供的EventStream接口。这个改动看似微小，实则决定了能否在 Serverless 环境稳定运行。

我们对比过 0.3.12 和 0.4.0 的冷启动表现：0.3 版本在 Azure Functions 上首次调用平均耗时 8.7 秒，其中 6.2 秒花在初始化Queue和建立事件循环上；0.4 版本优化了EventStream的懒加载机制，首次调用压到 1.2 秒。这个差距不是数字游戏——金融客户要求首字响应时间 < 2 秒，超过阈值就会触发 SLA 赔偿。

更关键的是工具调用的可靠性。0.3 的FunctionTool在并发场景下会出现tool_call_id冲突，导致 Agent 把 A 请求的搜索结果当成 B 请求的输入。0.4 引入了ToolCallContext，每个工具调用都绑定唯一的request_id，配合 Azure Functions 的context.invocation_id，能精准追溯到每一次调用源头。我们在压力测试中模拟 100 并发请求，0.3 版本报错率 17%，0.4 版本是 0.3%。

所以如果你还在用 0.3.x，请立刻升级。升级过程要注意两点：一是autogen_agentchat包名已改为autogen_core，二是AzureOpenAIChatCompletionClient的参数签名变了——api_key改成api_key_provider，需要传入一个返回字符串的 lambda 函数，这是为了支持密钥轮换。我们线上用的是 Azure Key Vault 的get_secret方法封装，代码片段后面会给出。

2.3 Azure Functions 的 Runtime 选择：Python 3.11 还是 3.10？

Azure Functions 官方支持 Python 3.10 和 3.11，但我们的实测结论很明确：必须用 3.11。原因有三：

首先是asyncio的性能提升。3.11 引入了TaskGroup和ExceptionGroup，让RoundRobinGroupChat.run_stream()的异常处理更轻量。我们用相同负载测试，3.10 下 100 并发的 P95 延迟是 2.8 秒，3.11 是 2.1 秒。

其次是依赖兼容性。AutoGen 0.4 依赖的httpx0.27+ 要求 Python >=3.11，而beautifulsoup44.12+ 的lxml后端在 3.10 上有内存泄漏问题——我们线上曾出现函数执行 50 次后内存占用飙升到 1.2GB，重启才恢复。

最重要的是冷启动优化。Azure Functions 的 Python 3.11 runtime 内置了importlib.metadata的缓存机制，from autogen_core.tools import FunctionTool这种导入操作从 3.10 的 420ms 降到 3.11 的 180ms。别小看这 240ms，它占到了冷启动总时间的 20%。

当然，3.11 也有坑：它的typing模块对Literal类型的解析更严格，如果你的工具函数签名里写了def bing_search(query: str, num_results: Literal[1,3,5])，在 3.11 下会报TypeError: unsupported operand type(s)。解决方案是降级到typing_extensions，或者直接用int类型加运行时校验——我们选后者，因为更符合生产环境的防御性编程原则。

2.4 工具链的精简哲学：为什么只用 Bing 和 Azure OpenAI？

看到标题你可能觉得：“就这两个工具？太单薄了吧！” 但我要告诉你，这是经过 17 个业务场景验证后的最优解。我们最初设计了 7 个工具：Bing、Google Scholar、SEC EDGAR、Reuters、彭博终端 API、维基百科、本地知识库。上线两周后砍掉了 5 个，只剩 Bing 和 Azure OpenAI。

砍掉的理由很现实：工具越多，失败率越高，维护成本指数级上升。Google Scholar 的反爬机制让我们每周都要更新 UA 和 Cookie；SEC EDGAR 的 XML 解析规则半年一变；彭博终端 API 的认证流程需要物理硬件密钥，根本没法放进 Serverless 环境。最后保留 Bing，是因为它有三个不可替代的优势：一是微软官方 SDK 完善，Ocp-Apim-Subscription-Key认证稳定；二是搜索结果结构化程度高，webPages.value字段始终包含name、url、snippet三个必填字段；三是免费额度够用——我们每月 50 万次调用，只用了 Bing Search API 免费层的 60%。

Azure OpenAI 的选择更是深思熟虑。很多人用开源模型 + vLLM 自建服务，但我们算过账：vLLM 集群的运维人力成本，加上 GPU 服务器的折旧和电费，单次推理成本是 Azure OpenAI 的 3.2 倍。更重要的是稳定性——我们线上用gpt-4o，P99 延迟稳定在 800ms，而自建的 Llama-3-70B 集群在流量高峰时 P99 延迟会飙到 4.2 秒，且每天要处理 3-5 次 OOM Kill。Azure 的 SLA 是 99.95%，我们合同里白纸黑字写着赔偿条款，这才是企业级应用的底线。

所以我的建议是：先用最稳的两个工具跑通 MVP，再根据真实业务反馈逐步扩展。我们下一个要接入的工具是 Azure AI Search，因为它和 Bing 共享同一套认证体系，SDK 也都是微软官方维护，迁移成本几乎为零。

3. 核心组件实现与避坑指南

3.1 Bing 搜索工具的深度改造：从“能用”到“好用”

原教程里的bing_search函数有个严重缺陷：它用requests.get(url)同步抓取网页，这在 Azure Functions 的异步环境中会阻塞整个事件循环。我们线上遇到过最惨的一次，某个广告页面加载了 12 个第三方 tracker，get_page_content卡住 15 秒，导致整个函数超时失败。解决方案是彻底重写为异步版本，并加入三重防护：

import asyncio import aiohttp from bs4 import BeautifulSoup from typing import List, Dict, Optional async def bing_search_async( query: str, num_results: int = 1, max_chars: int = 500, timeout: float = 8.0 # 总超时，含搜索+抓取 ) -> List[Dict[str, str]]: """ 异步 Bing 搜索工具，带超时控制和错误隔离 """ # 第一步：Bing 搜索 API 调用（同步，但极快） api_key = os.getenv("BING_SEARCH_KEY") if not api_key: raise ValueError("BING_SEARCH_KEY not found in environment variables") async with aiohttp.ClientSession() as session: try: # Bing 搜索本身超时设为 3 秒 async with session.get( "https://api.bing.microsoft.com/v7.0/search", params={"q": query, "count": num_results}, headers={"Ocp-Apim-Subscription-Key": api_key}, timeout=aiohttp.ClientTimeout(total=3.0) ) as resp: if resp.status != 200: raise Exception(f"Bing search failed: {resp.status}") data = await resp.json() results = data.get("webPages", {}).get("value", []) except asyncio.TimeoutError: raise Exception("Bing search timeout") except Exception as e: raise Exception(f"Bing search error: {str(e)}") # 第二步：并发抓取网页内容（异步，带独立超时） tasks = [] for item in results: # 每个网页抓取单独设置 5 秒超时，避免单点拖垮全局 task = asyncio.create_task( _fetch_single_page(item["url"], max_chars, timeout=5.0) ) tasks.append(task) # 使用 asyncio.gather 并发执行，但捕获单个失败 page_contents = await asyncio.gather(*tasks, return_exceptions=True) # 第三步：结果组装，过滤失败项 enriched_results = [] for i, (item, content) in enumerate(zip(results, page_contents)): if isinstance(content, Exception): print(f"Failed to fetch {item['url']}: {str(content)}") continue if content: # 确保有内容才加入 enriched_results.append({ "title": item["name"], "link": item["url"], "snippet": item["snippet"], "body": content }) return enriched_results async def _fetch_single_page( url: str, max_chars: int, timeout: float = 5.0 ) -> Optional[str]: """单个网页抓取，带 HTML 清洗""" try: async with aiohttp.ClientSession() as session: async with session.get(url, timeout=aiohttp.ClientTimeout(total=timeout)) as resp: if resp.status != 200: return None html = await resp.text() # 关键清洗：移除 script/style 标签，防止执行恶意 JS soup = BeautifulSoup(html, "html.parser") for tag in soup(["script", "style", "nav", "footer", "header"]): tag.decompose() # 提取纯文本，但保留段落结构 text = soup.get_text(separator="\n", strip=True) lines = [line.strip() for line in text.split("\n") if line.strip()] # 按字符数截断，但优先保留完整段落 content = "" for line in lines: if len(content) + len(line) + 1 > max_chars: break content += line + "\n" return content.strip() except asyncio.TimeoutError: return None except Exception as e: print(f"Error fetching {url}: {str(e)}") return None

这个版本解决了五个关键问题：

超时分级：搜索 API 3 秒，单网页抓取 5 秒，总流程 8 秒，避免长尾请求拖垮整个函数；
错误隔离：一个网页抓取失败不影响其他结果，return_exceptions=True让gather继续执行；
HTML 安全清洗：移除script/style标签，防止 XSS 风险（虽然 Agent 不直面用户，但数据会进日志系统）；
段落感知截断：不是简单按字符切，而是按\n分割后逐段累加，确保返回的内容是语义完整的；
空结果过滤：if content:避免把空字符串塞进 Agent 上下文，导致模型胡说。

提示：我们线上还加了一层缓存，用 Azure Cache for Redis 存query -> results映射，TTL 设为 300 秒。实测命中率 42%，平均降低 350ms 延迟。缓存 key 用f"bing:{hashlib.md5(query.encode()).hexdigest()[:8]}"，避免长 key 占用内存。

3.2 Azure OpenAI 客户端的安全封装：密钥管理与重试策略

原教程里api_key="<<your-azure-openai-api-key-here>>这种硬编码方式，在生产环境是自杀行为。Azure Functions 提供了更安全的方案：使用 Azure Key Vault + Managed Identity。步骤如下：

在 Azure Portal 创建 Key Vault，启用“软删除”和“清除保护”；
为你的 Function App 开启系统分配的 Managed Identity；
在 Key Vault 的“访问策略”里，给该 Identity 授予Get权限；
把 OpenAI 密钥存为 Secret，名称设为AZURE-OPENAI-KEY；
在 Function App 的“配置”里，添加应用设置KEY_VAULT_URL，值为 Key Vault 的 DNS 名称（如https://myvault.vault.azure.net/）。

客户端代码这样写：

from azure.keyvault.secrets import SecretClient from azure.identity import ManagedIdentityCredential from autogen_ext.models.openai import AzureOpenAIChatCompletionClient # 初始化 Key Vault 客户端（单例，避免重复创建） _credential = ManagedIdentityCredential() _vault_url = os.getenv("KEY_VAULT_URL") _secret_client = SecretClient(vault_url=_vault_url, credential=_credential) def get_openai_api_key() -> str: """安全获取密钥，带重试和缓存""" try: # 先查内存缓存（函数实例内有效） if not hasattr(get_openai_api_key, "_cached_key"): secret = _secret_client.get_secret("AZURE-OPENAI-KEY") setattr(get_openai_api_key, "_cached_key", secret.value) return getattr(get_openai_api_key, "_cached_key") except Exception as e: # 重试 2 次，每次间隔 1 秒 for i in range(2): try: secret = _secret_client.get_secret("AZURE-OPENAI-KEY") setattr(get_openai_api_key, "_cached_key", secret.value) return secret.value except: if i == 1: raise e time.sleep(1) raise e # 创建客户端（注意 api_key_provider 参数） az_model_client = AzureOpenAIChatCompletionClient( azure_deployment="gpt-4o", model="gpt-4o", api_version="2024-08-01-preview", azure_endpoint="https://your-service-name.openai.azure.com/", api_key_provider=get_openai_api_key # 传入函数，不是字符串！ )

这个封装带来了三重保障：

密钥不落地：密钥只存在于 Key Vault，Function App 内存里只有临时副本；
自动轮换：Key Vault 支持密钥自动轮换，客户端无感；
故障隔离：get_openai_api_key里的重试逻辑，避免 Key Vault 瞬时抖动导致整个函数失败。

注意：AzureOpenAIChatCompletionClient的api_key_provider必须是 callable，不能是字符串。这是 0.4 版本强制要求，否则会报TypeError: expected callable。

3.3 Agent 的角色定义与提示词工程：让它们真的“各司其职”

很多初学者以为 Agent 就是换个名字的 LLM 调用，其实不然。Agent 的核心是角色契约——它必须清楚知道自己能做什么、不能做什么、什么时候该停止。我们为两个 Agent 设计的系统提示词，经过 37 轮 A/B 测试才定稿：

# Bing Search Agent 的 system_message（关键在最后一句） bing_search_agent = AssistantAgent( name="bing_Search_Agent", model_client=az_model_client, tools=[bing_search_tool], description="Search Bing for information, returns top 1 result with a snippet and body content", system_message=( "You are a precise web search specialist. Your ONLY job is to call the 'bing_search' tool " "with the exact user query. Do NOT modify the query, do NOT add explanations, do NOT " "generate any text. After calling the tool, immediately output ONLY the raw JSON result " "from the tool, without wrapping it in markdown or adding commentary. If the tool fails, " "output 'TOOL_CALL_FAILED' and stop." ) ) # Report Agent 的 system_message（关键在终止机制） report_agent = AssistantAgent( name="Report_Agent", model_client=az_model_client, description="Generate output only based on search results", system_message=( "You are a senior research analyst at a financial compliance firm. Your job is to synthesize " "ONLY the information from the 'bing_Search_Agent' into a concise, factual report. " "Follow these rules strictly: " "1. Never invent facts not present in the search result. " "2. If the search result is empty or contains 'TOOL_CALL_FAILED', output 'NO_RELEVANT_INFORMATION_FOUND'. " "3. Use formal business English, no markdown, no bullet points. " "4. End your response with exactly 'TERMINATE' on a new line, nothing else." ) )

为什么这么写？看几个真实案例：

Case 1：用户问“比特币价格”
Bing Agent 返回{title: "CoinGecko", link: "...", snippet: "Bitcoin price is $62,340", body: "..."}
Report Agent 输出"As of today, Bitcoin's price is $62,340 according to CoinGecko. TERMINATE"
✅ 完美。
Case 2：用户问“量子计算最新突破”
Bing Agent 因网络问题返回TOOL_CALL_FAILED
Report Agent 输出"NO_RELEVANT_INFORMATION_FOUND"
✅ 符合预期，不会胡编。
Case 3：用户问“如何做蛋糕”（无关领域）
Bing Agent 返回正常结果，但 Report Agent 的提示词里有“financial compliance firm”，它会主动忽略非金融内容，输出"NO_RELEVANT_INFORMATION_FOUND"
✅ 领域隔离生效。

实操心得：我们发现TERMINATE必须独占一行，且前后不能有空格。早期版本写成"Please terminate. TERMINATE"，导致TextMentionTermination("TERMINATE")无法匹配，会话无限循环。这个细节在 AutoGen 文档里根本没提，是我们在日志里逐行比对才发现的。

3.4 RoundRobinGroupChat 的调优：控制协作节奏与防死锁

RoundRobinGroupChat看似简单，但默认参数在 Serverless 环境下极易出问题。我们线上踩过的坑包括：

max_turns=3太小：金融类查询常需 4-5 轮交互（比如搜索→校验→追问→再搜索→总结），设成 3 会导致会话被强制截断；
enable_feedback=False的隐患：默认关闭反馈，但 Agent 有时需要知道上一轮是否成功，我们开了反馈后 P95 延迟只增加 40ms，却把失败率从 8% 降到 0.5%；
缺少超时控制：run_stream()默认不设超时，函数可能卡在某轮不动。

最终采用的配置：

from autogen_agentchat.conditions import TextMentionTermination from autogen_agentchat.teams import RoundRobinGroupChat # 终止条件：Report_Agent 输出 TERMINATE，或总耗时超 15 秒 termination_condition = TextMentionTermination("TERMINATE") team = RoundRobinGroupChat( agents=[bing_search_agent, report_agent], max_turns=6, # 足够处理复杂查询 enable_feedback=True, # 开启反馈，让 Agent 知道上一轮状态 termination_condition=termination_condition, # 添加超时装饰器（自定义） run_stream=lambda *args, **kwargs: _timeout_wrapper( RoundRobinGroupChat.run_stream, *args, timeout=15.0, **kwargs ) ) def _timeout_wrapper(func, *args, timeout=15.0, **kwargs): """为 run_stream 添加超时包装""" try: return asyncio.wait_for(func(*args, **kwargs), timeout=timeout) except asyncio.TimeoutError: raise Exception(f"Group chat timed out after {timeout} seconds")

这个timeout_wrapper是关键。Azure Functions 的默认超时是 5 分钟，但我们的业务 SLA 是 3 秒首字响应，15 秒内必须结束。一旦超时，函数主动抛异常，Azure 会记录为失败，触发告警，我们运维能立刻介入。

注意：wait_for的timeout参数单位是秒，不是毫秒。写成timeout=15000会报TypeError: an integer is required，这个错误信息极其误导，实际是单位错了。

4. 完整部署流程与生产级配置

4.1 本地开发环境搭建：从零开始的 7 步

别跳过这一步。很多人的部署失败，根源在本地环境就不一致。我们用的是 Windows + WSL2 Ubuntu 22.04，但步骤通用：

安装 Azure Functions Core Tools

# Ubuntu curl https://packages.microsoft.com/keys/microsoft.asc | gpg --dearmor > microsoft.gpg sudo install -o root -g root -m 644 microsoft.gpg /usr/share/keyrings/microsoft-archive-keyring.gpg sudo sh -c 'echo "deb [arch=amd64 signed-by=/usr/share/keyrings/microsoft-archive-keyring.gpg] https://packages.microsoft.com/repos/microsoft-debian-jammy-prod jammy main" > /etc/apt/sources.list.d/microsoft.list' sudo apt-get update sudo apt-get install azure-functions-core-tools-4

创建函数项目

func init MyAutogenFunc --python --worker-runtime python --docker cd MyAutogenFunc func new --name autogen_func --template "HTTP trigger" --authlevel "anonymous"

安装生产依赖（注意版本锁定）

pip install "autogen-core>=0.4.0,<0.5.0" \ "autogen-ext>=0.4.0,<0.5.0" \ "aiohttp>=3.9.0,<4.0.0" \ "beautifulsoup4>=4.12.0,<4.13.0" \ "azure-identity>=1.14.0,<2.0.0" \ "azure-keyvault-secrets>=4.4.0,<4.5.0" pip freeze > requirements.txt

创建本地密钥文件（.env）

BING_SEARCH_KEY=your_bing_key_here KEY_VAULT_URL=https://your-vault.vault.azure.net/ # 注意：本地开发用环境变量，生产用 Key Vault

修改__init__.py（核心逻辑）
把前面写的bing_search_async、get_openai_api_key、Agent 定义、team配置全部粘贴进去，注意@app.function_name装饰器要对应。
本地测试（关键验证点）
```
func start # 在另一个终端 curl "http://localhost:7071/api/autogen_func?name=latest+AI+regulation+in+EU"
```
验证三件事：
- 是否返回Result: ...开头的字符串（不是 500 错误）
- 日志里是否有bing_Search_Agent和Report_Agent的交替输出
- 响应时间是否 < 3 秒（用time curl ...测）

Dockerfile 适配（为 Azure Container Apps 准备）

FROM mcr.microsoft.com/azure-functions/python:4-python311 ENV AzureWebJobsScriptRoot=/home/site/wwwroot \ AzureFunctionsJobHost__Logging__Console__IsEnabled=true COPY requirements.txt / RUN pip install -r /requirements.txt COPY . /home/site/wwwroot # 设置启动命令 CMD exec dotnet /azure-functions-host/Microsoft.Azure.WebJobs.Script.WebHost.dll

提示：func start默认用python3.10，要指定--python-version 3.11，否则本地和线上环境不一致。命令是func start --python-version 3.11。

4.2 Azure Portal 部署：12 个必填配置项详解

配置项	推荐值	为什么
订阅	你的付费订阅	别选试用订阅，额度不够
资源组	新建`rg-autogen-prod`	隔离资源，方便权限管理
函数应用名称	`func-autogen-prod-<region>`（如`func-autogen-prod-eastus`）	全局唯一，且含区域便于定位
发布	Code	别选 Container，我们用 zip deploy
运行时堆栈	Python	明确指定
版本	3.11	强制要求，见前文
区域	与用户最近的区域	我们选`East US`，P95 延迟比`West US`低 120ms
操作系统	Linux	Python 3.11 runtime 只在 Linux 上可用
计划类型	Premium v3	关键！Consumption plan 不支持 WebSocket 流式响应，且冷启动慢 3 倍
高级选项 > 启用应用见解	是	必须开，否则看不到 Agent 日志
高级选项 > 启用托管标识	是	Key Vault 认证必需
高级选项 > 允许匿名访问	否	安全起见，后面用 API Management 加鉴权

创建完成后，进入 Function App 的“配置”页，添加以下应用设置：

BING_SEARCH_KEY：留空（生产用 Key Vault）
KEY_VAULT_URL：https://your-vault.vault.azure.net/
WEBSITE_RUN_FROM_PACKAGE：1（启用 zip deploy）
PYTHONPATH：/home/site/wwwroot（避免模块导入错误）

注意：Premium v3计划的最小实例是 1 个，但可以设置“始终开启”，这样就没有冷启动。我们线上用的就是这个配置，月成本约 $120，换来的是 100% 的 < 2 秒首字响应。

4.3 Zip Deploy 部署全流程：从本地到生产的 5 分钟

Azure CLI 部署是最可靠的方式。确保你已登录az login，且有 Contributor 权限：

# 1. 打包（在项目根目录） func azure functionapp publish func-autogen-prod-eastus --build-native-deps # 2. 如果失败，手动打包（推荐） cd MyAutogenFunc pip install --target ./dist --no-cache-dir -r requirements.txt cp -r *.py ./dist/ cd dist zip -r ../deploy.zip . cd .. func azure functionapp publish func-autogen-prod-eastus --no-build --dotnet-isolated # 3. 验证部署 curl "https://func-autogen-prod-eastus.azurewebsites.net/api/autogen_func?name=test"

--no-build参数是关键。Azure Functions 的在线构建经常失败，尤其是aiohttp编译 C 扩展时。我们用--no-build，把所有依赖提前装好再 zip，成功率 100%。

部署后，去 Portal 的“函数”页，点击autogen_func，在“代码+测试”里能看到实时日志。发起一次测试请求，你应该看到类似这样的输出：