news 2026/5/9 1:07:30

jieba-analysis(Java 版结巴分词)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
jieba-analysis(Java 版结巴分词)

jieba-analysis(Java 版结巴分词)虽然只有 9 个核心类,但它完整复现了 Python jieba 的三大分词模式,并高效实现了中文分词的核心流程。下面我用技术拆解 + 代码逻辑映射的方式,告诉你它到底做了哪些事:

✅ 一、整体目标

输入一段中文文本 → 输出一个词语列表(带位置信息)

例如:

String text = "小明硕士毕业于中国科学院";

List tokens = segmenter.process(text, SegMode.INDEX);

// 输出: [小明, 硕士, 毕业, 于, 中国, 科学, 学院, 中国科学院]

背后经历了 词典匹配 + 统计模型补漏 + 路径优化 三步。

🔧 二、核心工作流程(对应你的 9 个类)

1️⃣ 加载词典:WordDictionary

- 干的事:

- 读取 dict.txt(格式:词语 词频 词性)

- 构建 双数组 Trie 树(Double-Array Trie),实现 O(1) 前缀查询

- 同时加载 HMM 所需的四个概率文件:

- prob_start.txt(B/M/E/S 初始概率)

- prob_trans.txt(状态转移概率)

- prob_emit.txt(发射概率)

- hmm_model.bin(可选)

- 为什么重要?

Trie 树让“从任意位置开始能匹配哪些词”变得极快,这是性能基石。

2️⃣ 生成 DAG(有向无环图):JiebaSegmenter + Node

- 干的事:

- 对输入文本每个字符位置 i,用 WordDictionary 查出所有以 i 开头的词

- 构建 DAG:节点是字符位置,边是可能的词语(如位置0→2 表示“小明”)

- 数据结构:

Map> dag = new HashMap();

// key=起始位置, value=所有结束位置

- 例子:

“中国科学院” → DAG 包含路径:

0→1("中"), 0→3("中国"), 0→6("中国科学院"), 2→3("国")...

📌 这一步把“所有可能的切分方式”编码成一张图。

3️⃣ 计算最优路径:动态规划(DP)

- 干的事:

- 在 DAG 上跑 DP,计算从每个位置到结尾的最大路径概率

- 概率 = 词频(来自 dict.txt)的对数和(避免浮点下溢)

- 关键公式:

route[i] = max( log(freq(word)) + route[j+1] ) // for all j in dag[i]

- 结果:得到一个 route[] 数组,记录每个位置的最佳切分终点。

💡 这就是 精确模式(cut_all=False)的核心——找最可能的词序列。

4️⃣ 处理未登录词:FinalSeg + HMM + Viterbi

- 触发条件:当 DAG 中某个片段没有匹配到任何词(全是单字)

- 干的事:

1. 把连续单字交给 FinalSeg

2. FinalSeg 调用 Viterbi 算法(在 viterbi 包中实现)

3. 利用 HMM 的 B/M/E/S 四状态模型,将单字序列重新组合成词

- B: Begin(词首)

- M: Middle(词中)

- E: End(词尾)

- S: Single(单字词)

- 例子:

输入“阿巴斯”(不在词典)→ HMM 推断为 B-M-E → 合并为“阿巴斯”

⚠️ 注意:jieba-analysis 的 HMM 只用于处理连续单字,不是全句重分析。

5️⃣ 模式适配:SegMode 控制输出粒度

- INDEX 模式(默认):

- 先按 DAG 最优路径切分

- 再对长词做二次切分(如“中国科学院” → 加入“科学”、“学院”)

- 适合搜索引擎(提高召回率)

- SEARCH 模式:

- 同 INDEX(在 jieba-analysis 中两者等价)

- OTHER 模式(精确模式):

- 只输出 DAG 最优路径,不做二次切分

- 适合文本分析

📌 这就是 Python jieba 的 cut() vs cut_for_search() 的 Java 实现。

6️⃣ 结果封装:SegToken

- 干的事:

- 把每个词包装成 SegToken 对象,包含:

- word: 词语本身

- startOffset: 起始字符位置(UTF-16)

- endOffset: 结束字符位置

- 为什么重要?

支持 Lucene/Solr 集成(需要位置信息做高亮、短语查询等)。

7️⃣ 辅助工具:CharacterUtil + Pair + Hit

- CharacterUtil:判断字符类型(中文/数字/英文/符号),决定是否跳过或单独切分

- Hit:Trie 树查询的返回状态(完全匹配 / 前缀匹配 / 不匹配)

- Pair:临时存储(如词+频率)

🔄 三、完整调用链(以 sentenceProcess 为例)

JiebaSegmenter segmenter = new JiebaSegmenter();

List tokens = segmenter.sentenceProcess("小明去北京大学");

// 内部流程:

1. WordDictionary.getSingleton().init() → 加载词典 & HMM 模型

2. CharacterUtil.cleanText() → 清理无效字符

3. generateDAG() → 构建 DAG 图

4. calc() → 动态规划求最优路径

5. for each segment in path:

if segment is single chars → FinalSeg.segment()

6. wrap result into List

✅ 四、总结:这 9 个类到底做了什么?

类 核心职责 技术关键词

JiebaSegmenter 总调度器 DAG 生成、模式选择、流程控制

WordDictionary 词典引擎 Double-Array Trie、HMM 参数加载

DictSegment / Hit Trie 节点与查询 前缀匹配、状态反馈

Node DAG 节点 动态规划状态存储

FinalSeg 未登录词处理器 HMM、Viterbi 解码

SegToken 结果载体 词语 + 位置信息

CharacterUtil 字符预处理 中英文判别、清洗

Pair 临时数据结构 键值对存储

💡 它没做(所以代码少):

- 词性标注(POS)

- 关键词提取(TF-IDF/TextRank)

- 繁简转换

- 句法分析

- 深度学习模型

🎯 最终结论

jieba-analysis 用 9 个类精准聚焦于“中文分词”这一件事,通过:

- Trie 树(高速词典匹配)

- DAG + DP(最优路径搜索)

- HMM + Viterbi(未登录词补全)

实现了 高性能、低内存、高兼容性 的工业级分词器。

它的简洁不是“功能弱”,而是恰到好处的工程取舍 —— 这正是它能在 Java 生态中广泛流行的原因。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 1:01:22

Python 爬虫反爬突破:随机参数生成算法还原

前言 在现代高反爬站点架构中,固定参数、静态签名早已被淘汰,绝大多数平台接口请求都会携带随机字符串、随机设备标识、随机时间戳、随机盐值、随机流水号一类动态参数。这类参数每次请求都不重复、无固定规律,前端通过内置 JS 算法实时生成…

作者头像 李华
网站建设 2026/5/9 0:48:30

Emacs集成AI编程助手:agent-shell配置与工作流实战指南

1. 项目概述:在Emacs中构建你的AI副驾驶如果你和我一样,是个重度Emacs用户,同时又对AI编程助手(比如Claude Code、Cursor、Gemini CLI这些)爱不释手,那你肯定也经历过这种“精神分裂”般的开发体验&#xf…

作者头像 李华
网站建设 2026/5/9 0:43:36

08-MLOps与工程落地——数据漂移监控:Evidently

数据漂移监控:Evidently(数据漂移检测、模型性能监控、报告生成) 一、Evidently概述 1.1 什么是Evidently? import matplotlib.pyplot as plt from matplotlib.patches import Rectangle, FancyBboxPatch import warnings warn…

作者头像 李华
网站建设 2026/5/9 0:33:16

量子心灵感应技术:突破光速限制的通信革命

1. 量子心灵感应技术概述量子心灵感应(Quantum Telepathy)并非科幻小说中的超能力,而是一种基于量子纠缠原理的实用技术方案。这项技术的核心价值在于解决那些由于通信延迟或物理隔离导致协调困难的现实问题。想象一下,当两个交易…

作者头像 李华