jieba-analysis(Java 版结巴分词)虽然只有 9 个核心类,但它完整复现了 Python jieba 的三大分词模式,并高效实现了中文分词的核心流程。下面我用技术拆解 + 代码逻辑映射的方式,告诉你它到底做了哪些事:
✅ 一、整体目标
输入一段中文文本 → 输出一个词语列表(带位置信息)
例如:
String text = "小明硕士毕业于中国科学院";
List tokens = segmenter.process(text, SegMode.INDEX);
// 输出: [小明, 硕士, 毕业, 于, 中国, 科学, 学院, 中国科学院]
背后经历了 词典匹配 + 统计模型补漏 + 路径优化 三步。
🔧 二、核心工作流程(对应你的 9 个类)
1️⃣ 加载词典:WordDictionary
- 干的事:
- 读取 dict.txt(格式:词语 词频 词性)
- 构建 双数组 Trie 树(Double-Array Trie),实现 O(1) 前缀查询
- 同时加载 HMM 所需的四个概率文件:
- prob_start.txt(B/M/E/S 初始概率)
- prob_trans.txt(状态转移概率)
- prob_emit.txt(发射概率)
- hmm_model.bin(可选)
- 为什么重要?
Trie 树让“从任意位置开始能匹配哪些词”变得极快,这是性能基石。
2️⃣ 生成 DAG(有向无环图):JiebaSegmenter + Node
- 干的事:
- 对输入文本每个字符位置 i,用 WordDictionary 查出所有以 i 开头的词
- 构建 DAG:节点是字符位置,边是可能的词语(如位置0→2 表示“小明”)
- 数据结构:
Map> dag = new HashMap();
// key=起始位置, value=所有结束位置
- 例子:
“中国科学院” → DAG 包含路径:
0→1("中"), 0→3("中国"), 0→6("中国科学院"), 2→3("国")...
📌 这一步把“所有可能的切分方式”编码成一张图。
3️⃣ 计算最优路径:动态规划(DP)
- 干的事:
- 在 DAG 上跑 DP,计算从每个位置到结尾的最大路径概率
- 概率 = 词频(来自 dict.txt)的对数和(避免浮点下溢)
- 关键公式:
route[i] = max( log(freq(word)) + route[j+1] ) // for all j in dag[i]
- 结果:得到一个 route[] 数组,记录每个位置的最佳切分终点。
💡 这就是 精确模式(cut_all=False)的核心——找最可能的词序列。
4️⃣ 处理未登录词:FinalSeg + HMM + Viterbi
- 触发条件:当 DAG 中某个片段没有匹配到任何词(全是单字)
- 干的事:
1. 把连续单字交给 FinalSeg
2. FinalSeg 调用 Viterbi 算法(在 viterbi 包中实现)
3. 利用 HMM 的 B/M/E/S 四状态模型,将单字序列重新组合成词
- B: Begin(词首)
- M: Middle(词中)
- E: End(词尾)
- S: Single(单字词)
- 例子:
输入“阿巴斯”(不在词典)→ HMM 推断为 B-M-E → 合并为“阿巴斯”
⚠️ 注意:jieba-analysis 的 HMM 只用于处理连续单字,不是全句重分析。
5️⃣ 模式适配:SegMode 控制输出粒度
- INDEX 模式(默认):
- 先按 DAG 最优路径切分
- 再对长词做二次切分(如“中国科学院” → 加入“科学”、“学院”)
- 适合搜索引擎(提高召回率)
- SEARCH 模式:
- 同 INDEX(在 jieba-analysis 中两者等价)
- OTHER 模式(精确模式):
- 只输出 DAG 最优路径,不做二次切分
- 适合文本分析
📌 这就是 Python jieba 的 cut() vs cut_for_search() 的 Java 实现。
6️⃣ 结果封装:SegToken
- 干的事:
- 把每个词包装成 SegToken 对象,包含:
- word: 词语本身
- startOffset: 起始字符位置(UTF-16)
- endOffset: 结束字符位置
- 为什么重要?
支持 Lucene/Solr 集成(需要位置信息做高亮、短语查询等)。
7️⃣ 辅助工具:CharacterUtil + Pair + Hit
- CharacterUtil:判断字符类型(中文/数字/英文/符号),决定是否跳过或单独切分
- Hit:Trie 树查询的返回状态(完全匹配 / 前缀匹配 / 不匹配)
- Pair:临时存储(如词+频率)
🔄 三、完整调用链(以 sentenceProcess 为例)
JiebaSegmenter segmenter = new JiebaSegmenter();
List tokens = segmenter.sentenceProcess("小明去北京大学");
// 内部流程:
1. WordDictionary.getSingleton().init() → 加载词典 & HMM 模型
2. CharacterUtil.cleanText() → 清理无效字符
3. generateDAG() → 构建 DAG 图
4. calc() → 动态规划求最优路径
5. for each segment in path:
if segment is single chars → FinalSeg.segment()
6. wrap result into List
✅ 四、总结:这 9 个类到底做了什么?
类 核心职责 技术关键词
JiebaSegmenter 总调度器 DAG 生成、模式选择、流程控制
WordDictionary 词典引擎 Double-Array Trie、HMM 参数加载
DictSegment / Hit Trie 节点与查询 前缀匹配、状态反馈
Node DAG 节点 动态规划状态存储
FinalSeg 未登录词处理器 HMM、Viterbi 解码
SegToken 结果载体 词语 + 位置信息
CharacterUtil 字符预处理 中英文判别、清洗
Pair 临时数据结构 键值对存储
💡 它没做(所以代码少):
- 词性标注(POS)
- 关键词提取(TF-IDF/TextRank)
- 繁简转换
- 句法分析
- 深度学习模型
🎯 最终结论
jieba-analysis 用 9 个类精准聚焦于“中文分词”这一件事,通过:
- Trie 树(高速词典匹配)
- DAG + DP(最优路径搜索)
- HMM + Viterbi(未登录词补全)
实现了 高性能、低内存、高兼容性 的工业级分词器。
它的简洁不是“功能弱”,而是恰到好处的工程取舍 —— 这正是它能在 Java 生态中广泛流行的原因。