自然语言处理-序列标注算法-01-编程阁

序列标注算法工程指南：HMM、CRF、BiLSTM-CRF 与 BERT-CRF

大模型时代公司接了序列标注相关的项目，乘此机会简单整理下之前所学，有不对之处还请指教，互相学习。
本系列共 5 篇，本文为总览篇，后续四篇分别深入每个算法的原理推导与完整可运行代码。

一、什么是序列标注

序列标注（Sequence Labeling）是 NLP 中最基础的结构预测任务：给定输入序列x=(x1,x2,…,xn)x = (x_1, x_2, \ldots, x_n)x=(x1,x2,…,xn)，为每个位置预测一个标签yiy_iyi，输出标签序列y=(y1,y2,…,yn)y = (y_1, y_2, \ldots, y_n)y=(y1,y2,…,yn)。

典型任务：

任务	输入示例	输出示例
命名实体识别（NER）	张三在北京工作	B-PER O B-LOC O
词性标注（POS）	I love NLP	PRP VBP NN
中文分词	我爱自然语言处理	B I B I I I I I
语义角色标注（SRL）	张三打了李四	A0 V O A1

二、标注方案：BIO / BIOES

工程中最常用BIO和BIOES两种方案：

BIO 格式

B-{TYPE}：实体开始
I-{TYPE}：实体内部
O：非实体

张 三 是 北 京 人 B-PER I-PER O B-LOC I-LOC O

BIOES 格式（推荐）

B-{TYPE}：多词实体开始
I-{TYPE}：多词实体中间
O：非实体
E-{TYPE}：多词实体结束
S-{TYPE}：单词实体

张 三 是 京 城 人 B-PER E-PER O S-LOC ... O

工程建议：BIOES 对边界区分更精细，NER 任务中通常比 BIO 高 0.5~1% F1。

三、四大算法一览

序列标注 ├── 统计学习方法（可解释 · 低资源） │ ├── HMM 隐马尔可夫模型 → 详见 01_HMM.md │ └── CRF 条件随机场 → 详见 02_CRF.md └── 深度学习方法（高精度 · 端对端） ├── BiLSTM-CRF → 详见 03_BiLSTM-CRF.md └── BERT-CRF → 详见 04_BERT-CRF.md

四、横向对比

维度	HMM	CRF	BiLSTM-CRF	BERT-CRF
建模类型	生成模型	判别模型	判别模型	判别模型
特征工程	无需	需要人工	自动学习	预训练表示
训练数据量	极少	少~中	中	少（微调）
推理速度	极快	快	中	慢
典型 F1（NER CoNLL-03）	~70	~85	~90	~93+
可解释性	高	高	低	极低
适用场景	资源极受限	可解释/低资源	无预训练条件	主流生产方案
显存占用	无	无	低	高

五、技术演进路线

HMM (1990s) └─► 解决了：序列建模问题 └─► 缺陷：生成模型，特征独立性假设强 CRF (2001, Lafferty et al.) └─► 解决了：判别建模，任意特征，无独立性假设 └─► 缺陷：需要人工特征模板，特征工程成本高 BiLSTM-CRF (2016, Lample et al.) └─► 解决了：自动学习特征，端到端训练 └─► 缺陷：从零训练，需要一定标注数据量 BERT-CRF (2019, Devlin et al. + CRF) └─► 解决了：迁移学习，少量数据高精度 └─► 缺陷：推理慢，部署成本高

六、工程化选型建议

标注数据量 < 500 条？ └─► 用 CRF（sklearn-crfsuite），快速验证数据可行性 有 GPU + 数据量 1k~10k？ └─► 直接上 BERT-CRF（bert-base-chinese） 需要极低延迟（< 10ms）？ └─► 蒸馏到 BiLSTM-CRF 或量化 BERT 需要可解释的特征权重？ └─► CRF，可查看每个特征的权重系数

七、评估标准

序列标注统一使用span-level F1（而非 token-level accuracy），通过seqeval库计算：

fromseqeval.metricsimportf1_score,classification_report y_true=[['B-PER','I-PER','O','B-LOC']]y_pred=[['B-PER','I-PER','O','O']]print(f1_score(y_true,y_pred))# output: 0.6667print(classification_report(y_true,y_pred))# precision / recall / f1 / support by entity type

token-level accuracy 在 O 标签占多数时虚高，必须用 span-level F1 才能真实反映实体识别质量。

八、文档索引

文件	内容
`自然语言处理-序列标注算法-01`	本文：概念、对比、选型
`自然语言处理-HMM深度解析-02`	HMM 完整推导 + 可运行训练代码
`自然语言处理-CRF深度解析-03`	CRF 完整推导 + sklearn-crfsuite 完整代码
`自然语言处理-BiLSTM-CRF深度解析-04`	BiLSTM-CRF 完整推导 + PyTorch 完整训练代码
`自然语言处理-BERT-CRF深度解析-05`	BERT-CRF 完整推导 + HuggingFace 完整训练代码

亲测丝滑，体验跃迁｜AllData 通过集成开源项目TIS，可视化配置即可完成数据抽取、清洗、同步全流程操作!

在企业日常数据运营过程中，多源数据同步一直是数据团队的一大痛点：各类数据源杂乱分散、连接配置流程复杂繁琐，不同业务线重复开发大量同步脚本。 AIIData数据中台集成 TIS 构建数据集成平台，实现全流程数据同步统一管控。依托一体…

李华

稀疏多项式优化：基于树宽与状态提升的SLchord/SLpush方法解析

1. 项目概述：从“稀疏”到“可解”的优化之路在算法与优化理论的世界里，我们常常面临一个核心矛盾：问题的表达力越强（比如允许更高阶的多项式、更复杂的约束），其计算复杂度往往就越高，甚至直接…

李华

SRAM、DRAM与SDRAM这几种存储芯片原理和应用场景对比

在计算机硬件、嵌入式开发、电子设备存储系统中，SRAM、DRAM、SDRAM是三类应用最广泛的易失性随机存取存储芯片。三者核心功能均为临时存储设备运行数据、指令，但在硬件结构、工作原理、运行速度、功耗成本、适用场景上存在极大差异。很多用户容易混淆三者…

李华

探索 AI Infra 国产化落地路径，OC城市行·深圳站正式启动！

近年来，国产服务器操作系统与自研 GPU 芯片相继落地、进入产业主舞台，这也标志着国产底层核心技术向着产业自主化的长远目标又迈出坚实一步。OpenCloudOS 作为腾讯开源、面向云与 AI 算力集群的国产 Linux 底座，拥有强大的内核、驱动、虚拟化…

李华

从清华学霸到AI布道者，祝雪娇的下一个战场在哪里？

在人工智能的浪潮里，祝雪娇绝对是个“狠角色”。这位1986年出生的清华学霸，凭着对技术的痴迷和对未来的敏锐嗅觉，从传统互联网跨界而来，在AI应用赛道一路“狂飙”，至今依然站在行业的最前沿。他的创业之路就像坐过山车…

李华

NLP工程落地暗语手册：面向真实场景的决策诊断体系

1. 项目概述：这不是一个“NLP教程”，而是一份自然语言处理实战者的暗语手册“The NLP Cypher | 03.28.21”——这个标题乍看像某次加密会议的代号，或是黑客松里某个神秘项目的内部代称，但其实它指向的是我2021年3月28日完成的一套…

李华