8、词嵌入与循环神经网络技术解析-编程阁

词嵌入与循环神经网络技术解析

1. 困惑度与语言模型基础

在语言模型中，对一个“示例”进行建模，本质上是为可能出现的下一个单词分配概率。因此，训练示例的数量等同于训练语料库中的单词数量。相较于讨论每个示例的平均损失，我们更关注每个单词的平均损失。为了更直观地衡量模型性能，我们不直接输出每个单词的平均损失，而是将其作为指数对自然常数 $e$ 进行幂运算。

对于一个包含 $|d|$ 个单词的语料库 $d$，若总损失为 $x_d$，则输出的公式为：
[f(d) = e^{\frac{x_d}{|d|}}]
这个值被称为语料库 $d$ 的困惑度。困惑度具有直观的意义，平均而言，预测下一个单词就相当于猜测具有相应面数的公平骰子的掷出结果。例如，如果语料库的词汇量大小为 10,000，且初始所有参数都接近零，那么第一个示例的 10,000 个对数几率（logits）均为零，所有概率均为 $10^{-4}$，此时困惑度恰好等于词汇量大小。

随着训练的进行，困惑度会逐渐降低。以一个词汇量约为 7,800 个单词的特定语料库为例，在使用约 106 个单词的训练集进行两个训练周期后，开发集的困惑度约为 180。在配备四个 CPU 的笔记本电脑上，每个周期的训练大约需要 3 分钟。

2. 改进前馈语言模型

提升语言模型性能有多种方法。例如，在之前的实践中，添加一个隐藏层（两层之间带有激活函数）能将 Mnist 数据集的识别准确率从 92% 提高到 98%。在当前的语言模型中，添加隐藏层可将开发集的困惑度从 180 降低到约 177。

不过，最直接有效的提升困惑度的方法是从二元语言模型过渡到三元语言模型。在之前的模型中，

GoldHEN作弊管理器：解锁PS4游戏无限潜能的终极利器

GoldHEN作弊管理器：解锁PS4游戏无限潜能的终极利器【免费下载链接】GoldHEN_Cheat_Manager GoldHEN Cheats Manager 项目地址: https://gitcode.com/gh_mirrors/go/GoldHEN_Cheat_Manager 还在为游戏卡关而苦恼？GoldHEN作弊管理器将彻底改变你的…

李华

Mi-Create：重新定义小米智能穿戴设备的表盘创作体验

你是否曾经对智能手表上那些千篇一律的表盘感到厌倦？想要打造属于自己的个性表盘却苦于技术门槛？现在，Mi-Create 为你带来了全新的解决方案！✨ 【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~20…

李华

3分钟搞定网页监控：changedetection.io扩展让你秒变信息达人

还在为错过限时优惠抓狂？😤 盯着心仪商品却总在补货瞬间被抢光？别急，今天给你安利一个超好用的神器——changedetection.io Chrome扩展，让你彻底告别手动刷新的痛苦！ 【免费下载链接】changedetection.io T…

李华

Path of Building：流放之路玩家的终极构建规划指南

Path of Building：流放之路玩家的终极构建规划指南【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding 想象一下，你正在流放之路中构建一个全新的角色…

李华

8、词嵌入与循环神经网络技术解析