从单兵作战到集团军协同：电商广告竞价优化的范式跃迁-编程阁

从单兵作战到集团军协同：电商广告竞价优化的范式跃迁

当数百万广告主在电商平台上争夺有限的广告位时，竞价系统就像一场没有硝烟的战争。传统竞价优化如同单兵作战，每个广告主只关注自身利益最大化；而现代多智能体协同竞价则像集团军协同作战，在平台统一指挥下实现整体效益最优。这场技术革命正在重塑电商广告的竞争格局。

1. 电商广告竞价演进的三个阶段

电商广告竞价技术经历了从简单到复杂、从孤立到协同的演进过程。我们可以将其划分为三个主要发展阶段：

1.1 静态竞价时代（2000-2010）

早期的电商广告竞价相对简单，主要特征包括：

固定出价策略：广告主设置固定CPC（每次点击成本）或CPM（每千次展示成本）
独立决策：每个广告主独立优化，不考虑竞争对手行为变化
简单排序规则：通常按eCPM（effective Cost Per Mille）排序，即CTR×bid

# 传统GSP（广义第二价格）拍卖示例 def gsp_auction(bids, ctrs): eCPMs = [bid * ctr for bid, ctr in zip(bids, ctrs)] ranked = sorted(zip(eCPMs, bids, ctrs), reverse=True) # 获胜者按第二高价扣费 if len(ranked) > 1: return ranked[0][1], ranked[1][0]/ranked[0][2] return ranked[0][1], 0

这种模式的局限性显而易见：广告主无法根据实时竞争环境调整策略，容易陷入"囚徒困境"——个体理性导致集体非最优。

1.2 单智能体优化时代（2010-2018）

随着机器学习技术发展，出现了基于强化学习的单智能体优化方法：

动态调价：根据预算消耗进度实时调整出价
目标多样化：支持GMV、ROI、收藏加购等多目标优化
环境建模：尝试预测竞争对手行为和市场环境

注意：单智能体方法假设竞争对手策略固定，这在实际动态竞价环境中往往不成立，导致策略失效。

1.3 多智能体协同时代（2018至今）

最新一代竞价系统采用多智能体协同框架，核心突破包括：

特征	单智能体	多智能体协同
决策视角	孤立	全局
信息共享	无	部分共享
优化目标	单一	多目标平衡
收敛速度	慢	快
抗串谋能力	无	有

阿里妈妈提出的MACG（多智能体协同竞价博弈）框架代表了这一领域的最新进展，其创新点在于：

通过私有网络保留广告主个性化目标
通过共享网络实现全局协同
通过融合网络动态平衡个体与整体利益

2. MACG框架的三层神经网络架构

MACG框架的核心在于其精巧的三层网络设计，既保护广告主隐私，又实现必要协同。

2.1 私有网络：保护广告主个性化诉求

私有网络为每类广告主单独设计，输入包括：

实时竞价特征（用户画像、商品属性等）
广告主KPI完成进度（预算消耗、目标达成率）
历史表现数据

class PrivateNetwork(nn.Module): def __init__(self, input_dim, hidden_dim): super().__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.fc2 = nn.Linear(hidden_dim, 1) def forward(self, x): x = torch.sigmoid(self.fc1(x)) return torch.sigmoid(self.fc2(x)) * 2 - 1 # 输出归一化到[-1,1]

关键优势：不同品类广告主可以有不同的网络结构，真正实现"千人千面"的竞价策略。

2.2 共享网络：实现全局协同优化

共享网络处理跨广告主的协同信息：

市场整体竞争热度
平台收益保障
流量分配公平性

提示：共享网络通过注意力机制捕捉不同广告主间的博弈关系，避免完全信息共享导致的串谋风险。

2.3 融合网络：动态权重分配

融合网络的核心创新在于：

实时评估个体目标与全局目标的重要性
动态调整私有网络和共享网络的权重
防止平台收益受损的约束机制

def fusion_network(global_state): # 输入：市场整体状态特征 # 输出：私有网络与共享网络的融合权重α∈(0,1) alpha = torch.sigmoid(global_state.mean(dim=1)) return alpha.unsqueeze(1)

这种设计使得系统既不会过度偏向个体广告主，也不会为了平台利益牺牲广告主体验。

3. 多目标进化策略：跳出局部最优

传统强化学习在电商广告竞价场景面临两大挑战：

超大规模动作空间（百万级广告主×千亿级竞价）
多目标之间的权衡取舍

MACG采用进化策略（Evolution Strategies）突破这些限制：

3.1 算法流程

初始化：随机生成10万组网络参数
评估：用离线模拟器计算每组参数的目标分数
选择：保留前2000组最优参数作为"种子"
变异：对种子参数添加高斯噪声生成新参数
迭代：重复2-4步直至收敛

3.2 目标函数设计

MACG同时优化三类广告主目标和平台目标：

目标类型	数学表达	业务含义
CPC约束下最大化点击	max(CTR), s.t. CPC ≤ C	效果广告主需求
预算约束下最大化GMV	max(GMV), s.t. cost ≤ B	品牌广告主需求
预算约束下最大化加购	max(CART), s.t. cost ≤ B	中间转化目标
平台RPM保障	RPM ≥ R	防止广告主串谋

进化策略的优势在于：

不需要建模复杂的状态转移过程
天然适合并行计算，处理超大规模问题
对非凸多目标优化有良好收敛性

4. 实战效果与部署经验

MACG框架已在淘宝搜索广告平台全量上线，服务上百万广告主的实时竞价优化。

4.1 离线实验结果

在淘宝4天真实数据上的测试显示：

指标	MACG	OCPC	提升幅度
GMV	1.05	1.00	+5%
CTR	1.06	1.00	+6%
CART	1.07	1.00	+7%
RPM	1.05	1.00	+5%

4.2 在线A/B测试

连续15天的在线实验表明：

各项指标提升超过5%
天级波动标准差小于1%，稳定性优异
广告主满意度显著提高

部署过程中的关键经验：

冷启动问题：采用历史数据预训练+在线微调策略
计算效率：设计轻量级网络结构，参数总量控制在200以内
异常检测：建立竞价策略健康度监控体系

# 在线服务伪代码 def serve_request(user, context): # 并行获取各广告主特征 ad_features = get_ad_features(user) # 私有网络计算 private_bids = private_nn(ad_features) # 共享网络计算 global_bid = shared_nn(ad_features) # 融合网络计算权重 alpha = fusion_nn(ad_features) # 最终出价 final_bids = alpha*private_bids + (1-alpha)*global_bid return rank_by_ecpm(final_bids)

电商广告竞价优化已经从简单的价格竞争，发展为融合博弈论、多智能体学习和进化算法的复杂系统工程。MACG框架的成功实践表明，在保护广告主自主权的前提下实现全局协同，是提升电商广告生态效率的关键突破点。