news 2026/6/26 5:55:45

自然语言处理-序列标注算法-01

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
自然语言处理-序列标注算法-01

序列标注算法工程指南:HMM、CRF、BiLSTM-CRF 与 BERT-CRF

大模型时代公司接了序列标注相关的项目,乘此机会简单整理下之前所学,有不对之处还请指教,互相学习。
本系列共 5 篇,本文为总览篇,后续四篇分别深入每个算法的原理推导与完整可运行代码。


一、什么是序列标注

序列标注(Sequence Labeling)是 NLP 中最基础的结构预测任务:给定输入序列x=(x1,x2,…,xn)x = (x_1, x_2, \ldots, x_n)x=(x1,x2,,xn),为每个位置预测一个标签yiy_iyi,输出标签序列y=(y1,y2,…,yn)y = (y_1, y_2, \ldots, y_n)y=(y1,y2,,yn)

典型任务:

任务输入示例输出示例
命名实体识别(NER)张三 在 北京 工作B-PER O B-LOC O
词性标注(POS)I love NLPPRP VBP NN
中文分词我爱自然语言处理B I B I I I I I
语义角色标注(SRL)张三 打 了 李四A0 V O A1

二、标注方案:BIO / BIOES

工程中最常用BIOBIOES两种方案:

BIO 格式

  • B-{TYPE}:实体开始
  • I-{TYPE}:实体内部
  • O:非实体
张 三 是 北 京 人 B-PER I-PER O B-LOC I-LOC O

BIOES 格式(推荐)

  • B-{TYPE}:多词实体开始
  • I-{TYPE}:多词实体中间
  • O:非实体
  • E-{TYPE}:多词实体结束
  • S-{TYPE}:单词实体
张 三 是 京 城 人 B-PER E-PER O S-LOC ... O

工程建议:BIOES 对边界区分更精细,NER 任务中通常比 BIO 高 0.5~1% F1。


三、四大算法一览

序列标注 ├── 统计学习方法(可解释 · 低资源) │ ├── HMM 隐马尔可夫模型 → 详见 01_HMM.md │ └── CRF 条件随机场 → 详见 02_CRF.md └── 深度学习方法(高精度 · 端对端) ├── BiLSTM-CRF → 详见 03_BiLSTM-CRF.md └── BERT-CRF → 详见 04_BERT-CRF.md

四、横向对比

维度HMMCRFBiLSTM-CRFBERT-CRF
建模类型生成模型判别模型判别模型判别模型
特征工程无需需要人工自动学习预训练表示
训练数据量极少少~中少(微调)
推理速度极快
典型 F1(NER CoNLL-03)~70~85~90~93+
可解释性极低
适用场景资源极受限可解释/低资源无预训练条件主流生产方案
显存占用

五、技术演进路线

HMM (1990s) └─► 解决了:序列建模问题 └─► 缺陷:生成模型,特征独立性假设强 CRF (2001, Lafferty et al.) └─► 解决了:判别建模,任意特征,无独立性假设 └─► 缺陷:需要人工特征模板,特征工程成本高 BiLSTM-CRF (2016, Lample et al.) └─► 解决了:自动学习特征,端到端训练 └─► 缺陷:从零训练,需要一定标注数据量 BERT-CRF (2019, Devlin et al. + CRF) └─► 解决了:迁移学习,少量数据高精度 └─► 缺陷:推理慢,部署成本高

六、工程化选型建议

标注数据量 < 500 条? └─► 用 CRF(sklearn-crfsuite),快速验证数据可行性 有 GPU + 数据量 1k~10k? └─► 直接上 BERT-CRF(bert-base-chinese) 需要极低延迟(< 10ms)? └─► 蒸馏到 BiLSTM-CRF 或量化 BERT 需要可解释的特征权重? └─► CRF,可查看每个特征的权重系数

七、评估标准

序列标注统一使用span-level F1(而非 token-level accuracy),通过seqeval库计算:

fromseqeval.metricsimportf1_score,classification_report y_true=[['B-PER','I-PER','O','B-LOC']]y_pred=[['B-PER','I-PER','O','O']]print(f1_score(y_true,y_pred))# output: 0.6667print(classification_report(y_true,y_pred))# precision / recall / f1 / support by entity type

token-level accuracy 在 O 标签占多数时虚高,必须用 span-level F1 才能真实反映实体识别质量。


八、文档索引

文件内容
自然语言处理-序列标注算法-01本文:概念、对比、选型
自然语言处理-HMM深度解析-02HMM 完整推导 + 可运行训练代码
自然语言处理-CRF深度解析-03CRF 完整推导 + sklearn-crfsuite 完整代码
自然语言处理-BiLSTM-CRF深度解析-04BiLSTM-CRF 完整推导 + PyTorch 完整训练代码
自然语言处理-BERT-CRF深度解析-05BERT-CRF 完整推导 + HuggingFace 完整训练代码
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 5:54:12

亲测丝滑,体验跃迁|AllData 通过集成开源项目TIS,可视化配置即可完成数据抽取、清洗、同步全流程操作!

在企业日常数据运营过程中&#xff0c;多源数据同步一直是数据团队的一大痛点&#xff1a;各类数据源杂乱分散、连接配置流程复杂繁琐&#xff0c;不同业务线重复开发大量同步脚本。 AIIData数据中台集成 TIS 构建数据集成平台&#xff0c;实现全流程数据同步统一管控。依托一体…

作者头像 李华
网站建设 2026/6/26 5:53:32

稀疏多项式优化:基于树宽与状态提升的SLchord/SLpush方法解析

1. 项目概述&#xff1a;从“稀疏”到“可解”的优化之路 在算法与优化理论的世界里&#xff0c;我们常常面临一个核心矛盾&#xff1a;问题的表达力越强&#xff08;比如允许更高阶的多项式、更复杂的约束&#xff09;&#xff0c;其计算复杂度往往就越高&#xff0c;甚至直接…

作者头像 李华
网站建设 2026/6/26 5:49:38

SRAM、DRAM与SDRAM这几种存储芯片原理和应用场景对比

在计算机硬件、嵌入式开发、电子设备存储系统中&#xff0c;SRAM、DRAM、SDRAM是三类应用最广泛的易失性随机存取存储芯片。三者核心功能均为临时存储设备运行数据、指令&#xff0c;但在硬件结构、工作原理、运行速度、功耗成本、适用场景上存在极大差异。很多用户容易混淆三者…

作者头像 李华
网站建设 2026/6/26 5:47:27

探索 AI Infra 国产化落地路径,OC城市行·深圳站正式启动!

近年来&#xff0c;国产服务器操作系统与自研 GPU 芯片相继落地、进入产业主舞台&#xff0c;这也标志着国产底层核心技术向着产业自主化的长远目标又迈出坚实一步。OpenCloudOS 作为腾讯开源、面向云与 AI 算力集群的国产 Linux 底座&#xff0c;拥有强大的内核、驱动、虚拟化…

作者头像 李华
网站建设 2026/6/26 5:42:28

从清华学霸到AI布道者,祝雪娇的下一个战场在哪里?

在人工智能的浪潮里&#xff0c;祝雪娇绝对是个“狠角色”。这位1986年出生的清华学霸&#xff0c;凭着对技术的痴迷和对未来的敏锐嗅觉&#xff0c;从传统互联网跨界而来&#xff0c;在AI应用赛道一路“狂飙”&#xff0c;至今依然站在行业的最前沿。他的创业之路就像坐过山车…

作者头像 李华
网站建设 2026/6/26 5:40:12

NLP工程落地暗语手册:面向真实场景的决策诊断体系

1. 项目概述&#xff1a;这不是一个“NLP教程”&#xff0c;而是一份自然语言处理实战者的暗语手册“The NLP Cypher | 03.28.21”——这个标题乍看像某次加密会议的代号&#xff0c;或是黑客松里某个神秘项目的内部代称&#xff0c;但其实它指向的是我2021年3月28日完成的一套…

作者头像 李华