目录
第4章 合约广告
4.1 广告位合约
一、本质:传统广告思维的数字化投影
二、技术支撑:广告服务器的诞生与演化
三、产品形态的演进:从粗放到精细
四、内在矛盾与向“受众定向”的必然演进
五、我的实践视角:雅虎门户时代的合约风云
六、历史遗产与当代价值
4.2 受众定向
4.2.1 受众定向方法概览
一、定向方法的分类与原理
二、技术架构:从数据到决策的管道
三、我的实践视角:在雅虎和MediaV的早期探索
4.2.2 受众定向标签体系
一、标签体系的层次与类型
二、标签体系的设计原则
三、标签生产的技术路径
四、从我的实践视角看:设计一个面向效果的标签体系
4.2.3 标签体系的设计思路
一、设计流程:从需求到落地
二、核心挑战与应对策略
三、未来展望:从“人工定义标签”到“机器理解用户”
第4章 合约广告
4.1 广告位合约
在在线广告波澜壮阔的演进史中,合约广告是最初的形态,也是最直观的商业逻辑映射。它将传统媒体(如电视、报纸)的广告售卖模式,几乎原封不动地移植到了互联网这个新媒介上。在计算广告的宏大叙事里,合约广告常常被视为“古老”和“不够智能”的代名词。然而,深入其肌理便会发现,合约广告不仅是历史的起点,更是一套成熟、稳定、且在特定场景下无可替代的商业模式。它定义了在线广告市场最初的权力结构、交易单元和结算方式,其影响至今仍深刻烙印在行业之中。
本节将深入剖析合约广告的基石——广告位合约。我们将看到,这种看似简单的“按位置、按时间卖广告”的模式,如何在互联网特性的催化下,演化出复杂的工程技术挑战,并最终孕育出后续所有更先进广告形态的雏形。
一、本质:传统广告思维的数字化投影
广告位合约的核心逻辑极其直接:媒体将其网站或应用页面上的一个特定物理位置(广告位),在一段特定时间周期内,以固定的价格,独家或非独家地售卖给一个广告主。
交易单元:广告位本身。例如,新浪首页首屏通栏(尺寸:1000x90像素)、搜狐财经频道右侧矩形框(300x250像素)。
售卖方式:按时间周期。通常以“天”为最小单位,也可以是一周、一个月或一个季度。这被称为“排期(Schedule)”。
定价方式:固定价格。价格基于广告位的预期流量(如日均PV)、历史表现、品牌价值以及销售人员的谈判能力确定。通常以“按千次展示成本(CPM)”或包段总价的形式约定。
交付保证:展示量(Impression)担保。合同会约定一个最低展示量,媒体必须完成。若未完成,通常需进行补量或退款。
这是一种“空间租赁”模式。广告主购买的,本质上是一块数字地产在特定时间段内的使用权。其优势在于:
对广告主:确定性高。品牌形象得以在优质、固定的位置持续曝光,适合品牌建设。
对媒体:收入稳定。可以提前锁定大笔收入,便于财务规划。
然而,其内在缺陷在互联网环境中被迅速放大:
效率低下:销售过程高度依赖人工谈判、合同签署和素材人工上传,无法规模化。
资源浪费:无法做到“因人而异”。一个对汽车毫无兴趣的用户,也会在汽车广告位上看到汽车广告,对广告主是浪费,对用户是骚扰。
无法动态优化:一旦合同签订,投放就固定下来。即使发现某个广告位在夜间效果很差,也无法临时调整。
二、技术支撑:广告服务器的诞生与演化
广告位合约模式催生了在线广告最早的核心技术系统——广告服务器(Ad Server)。它的首要任务,就是自动化地、可靠地执行成千上万份已售出的广告排期合同。
1. 核心功能:排期投放与担保式投送
广告服务器的核心是一个复杂的“排期系统”。它需要解决的核心问题是:如何在正确的时间,将正确的广告(创意),投放到正确的广告位上,并确保完成合同约定的展示量?
合同管理:将销售签订的合同(广告主、广告位、创意、排期日期、时段、目标展示量)录入系统,形成一个“广告活动(Campaign)”。
流量匹配:当用户访问一个带有广告位的页面时,广告服务器需要:
识别广告位:通过嵌入页面的广告位ID代码。
筛选候选广告:从所有活跃的广告活动中,找出那些“排期包含当前时间”且“广告位ID匹配”的活动。
决策与选择:如果只有一个匹配活动,直接返回其创意。如果有多个(例如,同一个广告位同时段卖给了多个广告主进行轮播),则需要按照预设的轮播比例(如50%/50%)或权重进行选择。
计数与扣量:记录本次展示,并从该广告活动的剩余展示量配额中扣除一次。当配额用完,该活动自动下线。
2. 早期挑战与解决方案:
流量预测难题:要担保展示量,媒体必须能相对准确地预测未来某段时间、某个广告位的流量。早期基于历史均值的预测非常粗糙,遇到热点事件流量激增(可超额完成)或技术故障流量暴跌(无法完成)时,都会带来履约风险。这催生了初步的流量预测模型需求。
多广告主竞争与分配:当多个广告活动竞争同一个广告位的相同时段时,如何公平、透明地分配展示机会?简单的轮播(Round Robin)虽然公平,但可能不符合商业优先级(例如,优先级更高的品牌广告主应获得更多曝光)。这引入了优先级(Priority)和权重(Weight)的概念,广告服务器需要据此进行复杂的在线分配决策。
三、产品形态的演进:从粗放到精细
随着门户网站的流量增长和广告主需求的细化,简单的“按位置+时间”售卖暴露出巨大弊端。媒体开始对广告位合约进行“产品化”改造,创造出更精细的售卖单元。
1. 按位置细分:
频道/垂直领域售卖:将首页流量按频道(新闻、体育、财经、娱乐)拆分售卖。广告主可以只购买体育频道内的广告位,触达更精准的受众。这可以看作最早的“上下文定向”雏形。
页面层级价值分级:首页、频道首页、内容页,其流量价值和价格天差地别。媒体建立了清晰的价格体系。
2. 按时间与情境细分:
时段售卖:将一天分为黄金时段(如9:00-12:00, 19:00-22:00)和非黄金时段,差异化定价。
情境化售卖:结合特定内容或事件。例如,在奥运会期间,体育频道相关广告位溢价出售;在天气预报页面,售卖旅游或服装广告。这要求广告服务器能识别页面内容(通过关键词或分类标签),是“上下文定向”技术的直接驱动力。
3. 套餐化与组合售卖:
为了提升销售额和填充率,媒体销售开始将不同位置、不同时段的广告位打包成“套餐”出售。例如,“首页套餐”包含首页通栏、焦点图、右侧矩形框各一周。这要求广告服务器的投放逻辑能够支持跨广告位的统一预算管理和展示量分配。
四、内在矛盾与向“受众定向”的必然演进
尽管产品形态不断细化,广告位合约的根本矛盾——将“对人”的营销,固化在“对位置”的交易上——始终无法解决。这个矛盾在数据积累和技术进步的催化下,最终引爆了广告产业的第一次范式革命。
矛盾的核心:广告主真正想要的是“影响潜在消费者”,而不是“占据一块屏幕像素”。互联网相比传统媒体的巨大优势,在于它可以识别用户(通过Cookie等),并追踪其行为。当媒体意识到,自己拥有的核心资产不是“广告位”,而是“访问这些广告位的用户及其行为数据”时,一场变革就已不可避免。
演进的第一步:受众售卖(Audience Selling)的萌芽。
一些前瞻性的媒体和广告网络开始尝试:不再承诺固定的广告位,而是承诺“向符合某种特征(如‘北京地区汽车兴趣者’)的人群,投放一定次数的广告”。广告可以出现在该人群访问的任何合作网站的合适位置上。这被称为“展示量合约(Guaranteed Display)”的早期形态。
这对广告服务器提出了革命性要求:
受众定向能力:系统必须能够根据规则(如地域、行为标签)实时判断当前用户是否属于合约约定的目标人群。
跨广告位流量整合与分配:合同不再绑定于单一广告位,而是绑定于目标人群。系统需要在全网范围内,寻找所有能触达该人群的广告位资源,并进行全局优化分配,以最低成本、最高效率完成合约展示量。这被称为“担保式投送系统(Guaranteed Delivery System)”,其核心是一个复杂的“在线分配(Online Allocation)”数学问题。
图4-1:从广告位合约到受众定向合约的演进
(此处可配图:左侧是“广告位合约”示意图,一个固定的广告位(如首页Banner)与一个固定的广告创意绑定,箭头指向所有来访用户(模糊的人形)。右侧是“受众定向合约”示意图,一个特定的用户画像(如“汽车兴趣者”)与一个广告创意绑定,箭头指向这个画像的用户可能出现的多个不同广告位(新闻页、体育页、财经页等)。)
因此,广告位合约的极致发展,恰恰孕育了其自身的掘墓人——受众定向技术。当技术准备好,市场有需求时,广告的交易单元便从“广告位”跃迁到了“目标人群”,合约广告由此进入了一个更高级的阶段。这也标志着计算广告从简单的“自动化”走向了“智能化”。
五、我的实践视角:雅虎门户时代的合约风云
在雅虎北京研究院的时期,我们正身处合约广告的鼎盛时代,同时也亲身参与了向更精准广告演进的技术攻坚。
当时,雅虎中国门户首页的焦点图、通栏等核心广告位,是众多品牌客户争夺的焦点,价格不菲,销售团队手握一份排期长单。我们的广告服务器团队,核心使命就是保障这些高价合同的完美执行。
我们遇到的一个经典难题是“流量塑形(Traffic Shaping)”。例如,某汽车品牌购买了首页通栏的“男性用户”定向合约,要求展示1000万次。但自然流量中,男性用户的比例可能只有60%。如果完全被动地按照自然流量投放,要么无法完成合约(如果只选男性用户),要么会掺杂大量女性用户曝光(如果放宽条件),造成广告主预算浪费。
我们的解决方案是设计一个“在线分配”系统,它不仅仅被动匹配,而是主动干预:
全局视图:系统会统揽所有未完成的合约(包括不同定向条件的合约),以及预测的未来流量(包括用户属性分布)。
动态决策:当一个女性用户访问时,系统知道无法满足汽车品牌的“男性”合约,但可以满足另一个女性化妆品合约。它会优先将这次展示机会分配给化妆品合约。反之,当一个男性用户访问时,系统可能会在汽车合约和另一个男性运动品牌合约之间,根据各自的剩余量、优先级和综合价值进行抉择。
目标:在满足所有合约的定向条件和展示量要求的前提下,最大化整体流量价值(例如,为未来可能到来的更高价合约预留一些优质流量)。
这本质上是在用算法做一件销售和运营人力无法完成的事:对海量、异构的流量进行实时、全局的优化调度。我们当时使用的基于线性规划对偶问题的贪心算法,虽然今天看来已不新奇,但在当时成功地提升了合约填充率约15%,并显著降低了未完成合约的风险。这段经历让我深刻认识到,即使是最“传统”的合约广告,其背后也蕴含着深刻的计算问题,而解决这些问题带来的商业价值是实实在在的。
六、历史遗产与当代价值
今天,纯粹的、粗放的广告位合约已不多见,但其遗产无处不在:
开屏广告、视频贴片广告:这些强曝光、高干扰度的形式,本质上仍是“广告位合约”的逻辑——购买一个特定的、用户无法跳过的时间和空间。
大型品牌活动的核心资源:在超级碗直播、奥运会转播、顶级APP的开屏等稀缺资源上,合约模式因其确定性和排他性,仍然是品牌广告主的首选。
程序化世界中的“直接交易”变体:程序化直投(PG)和首选交易(PD),可以看作是合约广告在程序化技术栈上的现代化重构,融合了合约的确定性与程序化的效率。
结论:
广告位合约,作为在线广告的起源,其历史意义在于它完成了从线下到线上的媒介平移,并催生了广告服务器这一核心基础设施。它的局限性则清晰地指明了行业进化的方向:从买位置到买人群,从固定排期到实时竞价,从人工操作到算法决策。理解广告位合约,不仅是为了了解过去,更是为了理解后续所有广告产品形态为何会以某种方式出现。它是一面镜子,映照出广告商业逻辑与技术能力之间持续不断的互动与博弈。在下一节,我们将沿着它指明的方向,深入探讨使广告交易单元发生质变的关键技术——受众定向。
4.2 受众定向
广告位合约的困境,将在线广告产业的进化指针,明确地拨向了“受众”这一全新的交易维度。当广告主不再满足于仅仅占据一块屏幕,而是希望与特定的人群对话时,一场深刻的技术革命便拉开了序幕。受众定向(Audience Targeting),作为这场革命的核心技术,其目标直指广告营销的圣杯:在正确的时间,将正确的信息,传递给正确的人。
本节将系统性地解构受众定向技术。我们将看到,从最初基于网页内容的简单推测,到基于海量用户行为数据的复杂建模,受众定向如何一步步地将模糊的“人群”概念,拆解为可计算、可预测、可交易的“用户画像”,并最终催生了程序化广告的盛世。
4.2.1 受众定向方法概览
受众定向并非单一技术,而是一个庞大的方法集合。其演进历程,本质上是对“如何定义一个人”这个问题的回答不断深化的过程。我们可以将这些方法按照其依赖的数据维度和技术复杂度,绘制成一个全景图谱(见图4-2)。
技术复杂度与数据深度
^
|
[模型驱动定向] | [社交定向]
(Look-alike, 预测模型) | (社交关系, 好友互动)
|
[行为定向] | [人口属性定向]
(长期兴趣, 意图) | (年龄, 性别, 收入)
|
[地理位置定向] | [上下文定向]
(GPS, IP, LBS) | (页面内容, 关键词)
|
[基础属性定向] | [重定向]
(设备, 浏览器, 运营商) | (网站访客, App用户)
|
+------------------------>
从“当下场景”到“长期个体”
图4-2:受众定向方法演进与分类图谱
一、定向方法的分类与原理
1. 基于当前场景的定向(Contextual Targeting)
这是最古老、最直观的定向方式,其逻辑是:用户当前正在看什么,就可能对什么感兴趣。
原理:分析广告所在页面的内容(文本、图像、视频),提取关键词或主题,然后匹配相关广告。
技术实现:
关键词匹配:早期方法。从页面提取高频词,与广告关键词库匹配。
主题模型:使用如LDA(潜在狄利克雷分布)等算法,将页面内容归类到预设的主题分类(如“体育”、“财经”、“汽车”)中。
优势:不依赖用户历史数据,隐私友好;与页面内容相关度高,用户体验较好。
局限:只能反映用户当下的兴趣点,无法刻画其长期、稳定的兴趣;无法识别跨场景的同一用户。
2. 基于用户地理位置的定向(Geographic Targeting)
原理:根据用户的物理位置投放相关广告。
数据源:IP地址(精度较低)、GPS(移动设备,精度高)、Wi-Fi/基站定位、用户填写的资料。
应用场景:
本地服务:向某城市用户推送本地餐厅、影院优惠。
区域化营销:针对不同地区推广不同的产品或促销活动。
场景营销:在机场推送旅行用品,在商场推送商户折扣。
3. 基于用户人口属性的定向(Demographic Targeting)
原理:这是传统营销的经典方法,在互联网上通过数据推测来实现。
数据来源与推测方法:
注册信息:最直接,但用户可能提供虚假信息。
行为推测模型:通过机器学习模型,基于用户的浏览、购物、社交等行为,预测其年龄、性别、收入、教育水平等。例如,经常浏览母婴社区和购买奶粉的用户,很可能被预测为“有婴幼儿的家庭”。
挑战:推测准确性是关键,模型需要不断用真实数据(如购买记录)来校正。
4. 行为定向(Behavioral Targeting)—— 里程碑式的跨越
这是受众定向从“场景”走向“个体”的关键一步,也是程序化广告的基石。
核心思想:用户过去的行为,是其未来兴趣的最佳预测指标。
数据基础:通过Cookie、设备ID等追踪用户跨网站、跨APP的长期行为,包括搜索、浏览、点击、购买、停留时长等。
实现流程:
数据收集:在广告网络或DSP覆盖的众多媒体上部署监测代码,收集匿名化的用户行为日志。
标签化:将原始行为映射到预先定义的兴趣标签体系(Taxonomy)上。例如,用户多次浏览汽车评测文章和车型对比页面,会被打上“汽车兴趣者-中级”标签。
画像构建:为每个用户ID维护一个动态更新的兴趣标签向量,以及各兴趣的强度分数。
投放应用:当广告主选择定向“汽车兴趣者”时,系统会筛选出标签向量中包含此标签的用户进行广告投放。
优势:能够反映用户稳定、长期的兴趣,精准度远高于上下文定向。
重大争议:涉及跨站追踪,引发严重的隐私担忧,是当前全球隐私法规(如GDPR)和平台政策(如苹果ATT)主要限制的对象。
5. 重定向(Retargeting)—— 行为定向的极致应用
原理:针对曾经与品牌有过交互(如访问网站、将商品加入购物车)但未转化的用户,再次投放广告,旨在“挽回”潜在客户。
技术实现:在广告主网站或APP内植入监测代码(像素),当用户访问时,将其匿名ID加入特定列表(如“网站访客”)。当该用户在其他媒体上出现时,DSP识别其ID在列表中,则投放相关广告。
效果:由于用户已表达过明确兴趣,重定向广告的转化率通常是所有定向方式中最高的之一。
6. 社交定向(Social Targeting)
原理:利用用户的社交关系、好友互动、加入的群组等信息进行定向。
独特优势:不仅能基于“你是谁”,还能基于“你的朋友是谁”和“你信任谁”来推荐广告。例如,“你的好友A点赞了品牌B”的广告,利用了社会认同原理。
实践:主要应用于社交平台内部(如Facebook、微信朋友圈),是其围墙花园内强大的定向工具。
7. 模型驱动定向(Model-Driven Targeting)—— 智能化的巅峰
这是当前最前沿的定向方式,其核心是用复杂的预测模型替代人工规则。
人群扩展(Look-alike Modeling):给定一小群高价值用户(种子人群,如已购买客户),通过机器学习算法(逻辑回归、随机森林、深度学习),在全网用户中寻找与种子用户在行为特征上相似的潜在客户。这实现了从“定义特征”到“发现特征”的跃迁。
意图预测(Intent Prediction):不依赖于静态的兴趣标签,而是用模型实时预测用户当下最可能的意图。例如,综合用户近期的搜索、点击、地理位置(如在汽车4S店附近)等信号,实时判断其“购车意图”的强度。
价值预测(Value Prediction):直接预测用户点击或转化后的长期价值(LTV),用于指导出价和预算分配。
二、技术架构:从数据到决策的管道
一个工业级的受众定向系统,其技术架构通常包含以下几个核心模块(见图4-3):
+-------------------+ +-------------------+ +-------------------+
| 数据采集层 | -> | 数据加工层 | -> | 用户画像服务层 |
| (Data Collection) | | (Data Processing) | | (User Profile |
| - 日志埋点 | | - 实时流处理 | | Service) |
| - Cookie同步 | | (Flink/Storm) | | - 标签存储 |
| - 第三方数据接入 | | - 离线批处理 | | (Redis/HBase) |
| | | (Hadoop/Spark) | | - 实时查询API |
+-------------------+ +-------------------+ +-------------------+
|
v
+-------------------+ +-------------------+ +-------------------+
| 广告投放引擎 | <- | 定向决策模块 | <- | 广告检索系统 |
| (Ad Serving) | | (Targeting Logic) | | (Ad Retrieval) |
| | | - 布尔表达式解析 | | - 倒排索引 |
| | | - 实时规则匹配 | | - 向量检索 |
+-------------------+ +-------------------+ +-------------------+
图4-3:受众定向系统技术架构简图
数据采集层:负责从各个触点(网站、APP、第三方数据提供商)收集用户行为数据,并进行用户标识(如Cookie Mapping)。
数据加工层:对原始数据进行清洗、归因、聚合,并运行定向模型(如兴趣挖掘、人口属性预测),产出结构化的用户标签。
用户画像服务层:以键值对(Key-Value)形式存储每个用户ID对应的标签向量,并提供毫秒级查询接口。常用Redis、HBase等高性能存储。
定向决策模块:在广告检索时,实时查询用户画像,并判断其是否满足广告主设置的复杂定向条件(如“北京 & 男性 & (汽车兴趣者 | 科技爱好者) & 最近7天访问过汽车网站”)。这需要高效的布尔表达式求值引擎。
三、我的实践视角:在雅虎和MediaV的早期探索
在雅虎北京研究院,我们面临的挑战是如何在门户时代的海量流量中,实现初步的受众定向。当时,行为数据主要来自雅虎站内(新闻、邮箱、搜索)。我们的一项核心工作是“站内兴趣挖掘”。
我们采用了基于协同过滤(Collaborative Filtering)和“物品-物品”关联的思路:如果一个用户同时点击了A和B两篇文章,那么A和B就被认为是相关的。当大量用户的行为累积起来,我们就构建了一个庞大的“内容关联网络”。当一个用户阅读了A文章,系统就可以从网络中找出与A最相关的B、C、D等文章,并推测用户可能也对它们感兴趣。我们将这种“相关文章推荐”的逻辑,应用于广告推荐:如果A文章是汽车评测,那么与A相关的文章很可能也是汽车内容,那么在A文章页面上,就可以尝试投放汽车广告。这本质上是“上下文定向”的增强版,通过用户行为数据丰富了内容关联的维度。
到了MediaV时期(中国程序化广告的拓荒时代),我们面临的是完全不同的战场:跨站行为定向。我们要构建一个能覆盖中国互联网海量用户的兴趣图谱。技术挑战陡增:
数据稀疏性与冷启动:单个用户在我们监测网络中的行为非常稀疏,可能一个月只有几次曝光或点击。如何从极少的行为中,可靠地推断出用户的长期兴趣?
标签体系设计:应该用什么样的分类法来定义兴趣?是粗粒度(如“汽车”、“金融”)还是细粒度(如“新能源汽车”、“股票投资”)?我们采取了“层次化标签体系”,既有顶层大类,也有底层细类,允许广告主在不同粒度上选择定向。
实时性要求:用户行为需要多快反映到画像中?对于搜索行为,我们要求秒级更新,以捕捉实时意图;对于浏览行为,可以按小时或天批量更新。这要求数据处理管道是混合架构(流+批)。
作弊与噪声过滤:网络中存在大量非人为流量(爬虫、作弊点击),这些噪声数据会严重污染用户画像。我们必须建立强大的反作弊过滤层,在数据进入画像系统前将其剔除。
我们的解决方案是构建了一个基于“行为主题模型”和“时间衰减权重”的系统。每个用户行为(如一次页面浏览)被表示成一个主题分布(通过LDA等模型),然后根据行为发生的时间远近进行加权求和,得到用户当前的综合兴趣向量。对于实时意图,我们单独维护一个短期兴趣队列。这套系统在2012年左右,将中国程序化广告的定向精度提升到了一个新的水平,为后续效果广告的爆发奠定了基础。
4.2.2 受众定向标签体系
如果说定向算法是大脑,那么标签体系(Tagging System 或 Taxonomy)就是它理解和描述世界的“语言”。一个设计良好的标签体系,是连接原始数据与商业需求的桥梁,决定了受众定向能力的上限。它不仅仅是一个技术分类,更是一个涉及商业、产品和数据的战略资产。
一、标签体系的层次与类型
一个完整的标签体系通常是层次化、多维度的。
1. 按照数据来源划分:
第一方标签(First-party Tags):来自广告主或媒体自身的数据。对于广告主,如官网访客、CRM客户名单、购买记录。对于媒体,如用户的站内浏览、搜索、互动数据。价值最高,相关性最强。
第二方标签(Second-party Tags):由合作伙伴直接共享的标签数据。例如,一个汽车资讯网站将其“高意向购车用户”标签共享给汽车品牌广告主。
第三方标签(Third-party Tags):由独立的数据公司(如Acxiom, BlueKai)通过广泛的数据收集和整合,提供的标准化人口属性、兴趣、购买倾向等标签。在隐私监管下,这类标签的可用性正在急剧下降。
2. 按照标签性质划分:
事实标签(Factual Tags):描述客观事实,如地理位置(北京)、设备类型(iPhone)、当前时间(工作日白天)。
兴趣标签(Interest Tags):描述用户可能喜欢什么,如“体育爱好者”、“美妆达人”、“旅行爱好者”。通常由行为数据推断而来,是动态的。
意图标签(Intent Tags):描述用户近期可能想做什么,如“购车意向”、“求职中”、“装修准备”。是短期、高价值的信号。
人群属性标签(Demographic Tags):描述用户的社会人口属性,如“年龄25-34”、“男性”、“高收入”。多为推测。
3. 按照标签的层级划分:
一个良好的体系应有清晰的层级结构,例如:
这种结构既支持粗放定向(“汽车”大类),也支持精细化定向(“新能源汽车”),满足了不同广告主的诉求。
二、标签体系的设计原则
设计一个标签体系,需要在覆盖率、准确性、可解释性和商业价值之间取得平衡。
商业驱动,而非技术驱动:标签的最终消费者是广告主和运营人员。标签的设计必须围绕“广告主会如何描述他们的目标客户”展开。例如,一个奶粉品牌的目标客户不是“25-30岁女性”,而是“0-1岁新生儿的妈妈”。后者才是商业上有意义的标签。
互斥性与完备性(MECE原则):在同一层级下,标签应尽可能相互排斥且集合完备,避免歧义和重叠。例如,“体育”和“足球”不应并列在同一层级。
可解释性与可控性:广告主必须能理解每个标签的含义,并能预测选择该标签后触达的人群特征。过于技术化、黑盒化的标签(如“模型聚类第7类”)会阻碍使用。
动态演化能力:社会热点、新兴品类层出不穷(如“元宇宙”、“露营”),标签体系必须有机制能够快速纳入新标签,同时淘汰过时的标签。
可规模化生产:标签的生产过程(从数据到标签)应尽可能自动化,以应对亿级用户和不断增长的数据量。
三、标签生产的技术路径
从原始行为数据到用户标签,主要有三种技术路径:
规则映射:最传统的方法。人工定义规则,例如:
IF 用户最近30天浏览“汽车之家”次数 > 5 THEN 打上“汽车兴趣者”标签。优点是可解释性强,可控;缺点是难以维护,无法发现复杂、非显性的模式。主题模型:无监督学习方法。如LDA(潜在狄利克雷分布),可以从大量文本内容(用户浏览的文章)中,自动抽象出若干“主题”(可理解为兴趣维度),并计算每个用户对每个主题的隶属度。这些主题可以作为标签的基础。优点是能发现隐藏主题,自动化程度高;缺点是主题含义需要人工归纳和命名,且对于非文本行为(如购买、点击)效果有限。
监督学习与嵌入表示:
分类模型:将打标签问题转化为分类问题。例如,利用已有的一部分标注数据(如已知性别、年龄的用户),训练分类器来预测其他用户的标签。
嵌入(Embedding)技术:这是当前的主流方向。将用户、行为(点击的物品)、上下文等全部映射到一个低维向量空间。在这个空间中,兴趣相似的用户或内容距离相近。用户向量本身就可以作为一种高度浓缩的“标签”,用于人群扩展(Look-alike)或深度兴趣匹配。Word2vec、Item2vec、以及各种基于深度学习的序列模型(如BERT)被广泛应用。其优势是表征能力强,能捕捉复杂关系;缺点是“黑盒”性较强,可解释性差。
四、从我的实践视角看:设计一个面向效果的标签体系
在MediaV,我们的标签体系设计经历了从“媒体思维”到“广告主思维”的艰难转变。
初期,我们像许多媒体一样,按照内容频道(新闻、体育、财经……)来划分兴趣。但很快发现,广告主,特别是效果广告主(游戏、电商),并不这样思考问题。他们关心的是“什么样的人更容易下载我的游戏”或“什么样的人更可能买我的商品”。
因此,我们推动了一次标签体系的重大重构,核心是引入“商业意图标签”。我们不再仅仅说用户是“体育爱好者”,而是进一步区分:
“观赏型体育爱好者”:主要看比赛直播、新闻。
“参与型体育爱好者”:经常搜索运动装备、查看健身教程。
对于游戏广告主,后者显然是更优质的潜在用户。我们还为电商广告主开发了“品类购买倾向”标签,基于用户的历史浏览和跨站行为,预测其对“女装”、“零食”、“家电”等品类的购买可能性分数。
这个转变的启示是:标签体系的价值,不在于它多么学术化地描述了用户,而在于它能否在商业决策中创造可衡量的增量效果。一个能直接关联到下游转化行为的标签体系,才是好的商业产品。
4.2.3 标签体系的设计思路
在理解了标签体系的构成和分类后,我们需要一个系统性的方法论来指导其设计和迭代。这不仅仅是一个数据科学问题,更是一个融合了产品思维、商业洞察和工程能力的综合课题。
一、设计流程:从需求到落地
一个可落地的标签体系设计,通常遵循以下流程:
阶段一:需求挖掘与定义
目标:明确标签体系为谁服务,解决什么问题。
活动:
与商业团队(销售、运营)深度访谈:了解广告主最常见的定向需求是什么?他们用什么样的语言描述目标人群?现有的定向工具存在哪些痛点?
分析历史投放数据:哪些定向组合(如“地域+兴趣”)被高频使用?哪些广告计划因为定向不准导致效果差?
竞品分析:研究领先的广告平台(如Google、Facebook)和DSP提供了哪些标签,它们的分类逻辑是什么?
产出物:《标签体系需求说明书》,包含核心使用场景、目标用户画像、初步的标签维度列表。
阶段二:体系架构设计
目标:设计标签的层次结构、命名规范、以及生产逻辑。
活动:
维度划分:确定标签的一级维度,如“人口属性”、“长期兴趣”、“短期意图”、“消费能力”等。维度之间应相对独立。
层级设计:为每个维度设计树状层级。层级深度通常为2-4层。过深会增加复杂度,过浅则不够精细。例如:
一级:兴趣
二级:汽车
三级:购车意向、汽车文化、新能源车
四级(可选):SUV、轿车、二手车命名规范:制定标签命名规则,确保清晰、一致、无歧义。例如,使用“名词+行为”结构(如“汽车_购车意向”)。
生产逻辑设计:对每个叶子标签,定义其产生的数据源、算法模型、更新频率(实时/天级/周级)。
产出物:《标签体系架构设计文档》、标签树状图、数据字典。
阶段三:数据与算法实现
目标:建立从原始数据到标签的自动化生产流水线。
活动:
数据管道搭建:确保所需的行为日志、第三方数据能够稳定、实时地流入。
算法模型开发与训练:对于规则类标签,编写规则引擎;对于模型类标签(兴趣、意图、人口属性),进行特征工程、模型选型、训练和评估。
画像存储设计:设计用户画像存储表结构,考虑查询性能(如支持多条件筛选)和存储成本。
产出物:可运行的标签生产流水线、用户画像数据表、模型评估报告。
阶段四:产品化与效果验证
目标:将标签集成到广告投放平台中,并验证其商业价值。
活动:
投放平台集成:在广告主定向设置界面中,以清晰的方式(如下拉树、搜索框)呈现标签体系。
A/B测试:设计严格的实验,对比使用新标签定向的广告活动与使用旧标签(或通投)的广告活动,在CTR、CVR、ROI等核心指标上的增量提升(Lift)。
监控与迭代:监控各标签的使用频率、覆盖用户数、以及带来的平均eCPM等指标。根据数据和反馈,持续优化标签定义和生产逻辑。
产出物:上线的标签定向功能、A/B测试分析报告、标签使用情况监控仪表盘。
二、核心挑战与应对策略
在设计过程中,会反复遇到几个核心挑战:
挑战一:覆盖率(Coverage)与准确率(Precision)的权衡
问题:一个高度精准的标签(如“计划三个月内购买30万元以上SUV的男性”),其覆盖的用户数可能极少,无法支撑大规模广告活动。而一个覆盖广泛的标签(如“男性”),准确率又太低。
策略:采用“分层标签”策略。提供不同颗粒度的标签供选择:既有宽泛的“汽车兴趣者”(高覆盖),也有精细的“新能源SUV高意向用户”(高精准)。同时,在投放系统中提供“人群扩展(Look-alike)”功能,可以从高精准的小种子人群,自动扩展出覆盖更广、但特征相似的潜在人群,实现覆盖与精准的平衡。
挑战二:冷启动问题
问题:对于新用户或行为数据稀疏的用户,系统无法为其打上有效的兴趣标签。
策略:
基于上下文的兜底:当用户画像为空或稀疏时,使用其当前访问的页面内容(上下文定向)作为补充。
基于设备的群体画像:对于全新设备,使用该设备型号、运营商、安装APP列表等属性,匹配到一个“群体平均画像”。
主动探索:在广告投放中,分配少量预算给这些“冷”用户,尝试投放不同品类的广告,通过其反馈行为(点击与否)快速积累数据。
挑战三:隐私合规与数据安全
问题:在GDPR、CCPA等法规下,基于跨站追踪的行为定向受到严格限制。第三方Cookie消亡,设备ID获取困难。
策略:
强化第一方数据建设:引导媒体和广告主建立并运营自己的第一方数据池(CDP),在获得用户明确同意的前提下进行定向。
探索隐私计算技术:如联邦学习,可以在不交换原始数据的前提下,联合多方数据训练标签模型。
采用聚合的、去标识化的方法:如谷歌的Topics API,基于用户近期浏览历史,将其归入几百个兴趣类别之一,且不关联个人身份。
挑战四:标签的“概念漂移”
问题:用户的兴趣会随时间变化。一个学生毕业后成为上班族,其兴趣标签应从“校园生活”转向“职场技能”、“租房”等。标签体系如何动态更新?
策略:为标签引入“时间衰减”和“生命周期”管理。旧的行为数据权重逐渐降低,新的行为数据权重更高。同时,可以设计专门检测用户人生阶段变化的模型(如毕业、结婚、生育),触发标签体系的重大更新。
三、未来展望:从“人工定义标签”到“机器理解用户”
当前,主流的标签体系仍然依赖于预先定义的分类法(Taxonomy),这是一种“封闭世界”的假设。未来的方向是“开放世界”的理解:
自然语言需求理解:广告主不再需要从复杂的树状图中挑选标签,而是可以直接输入自然语言描述,如“寻找那些对可持续生活方式感兴趣,且经常进行户外活动的都市年轻女性”。系统通过大语言模型(LLM)理解其语义,并直接从用户的行为序列向量中寻找匹配的人群。
多模态融合画像:未来的用户画像将不再局限于点击、浏览等行为日志,而是融合视觉(用户上传的图片、视频风格)、听觉(常听的音乐类型)、甚至地理位置轨迹等多模态信息,构建更立体、更丰富的数字孪生。
因果推断与增量人群:标签的目的不仅是描述“谁更可能转化”,更是要识别“谁会因为看到广告而转化”(即增量人群)。这需要因果推断技术的介入,从观测数据中剥离出广告的真实效应,从而定义出对广告更敏感的人群标签。
结论:
受众定向是计算广告从“媒体时代”迈向“用户时代”的桥梁。标签体系则是这座桥梁的施工蓝图。它的设计,是一场永无止境的在商业诉求、技术可行性、用户体验和隐私伦理之间的精巧舞蹈。理解这套体系的设计思路,不仅有助于我们用好现有的广告工具,更能让我们洞察到下一代智能营销技术的演进方向。它告诉我们,在数据的加持下,我们对“人”的理解可以深入到何种程度,以及这种理解将如何继续重塑商业沟通的本质。
在下一节,我们将探讨当受众定向能力成熟后,合约广告所演变成的高级形态——展示量合约,看看如何将“对人”的承诺,通过复杂的计算系统大规模、高效率地兑现。