标题:论文解读:文档的时间序列排序
一、翻译全文
论文原标题:Temporal Sequencing of Documents
原文链接:arXiv:2311.02578
摘要
本文概述了一种无监督方法,用于对历史文档集合进行时间排序,具体对象包括美国国情咨文(SOTU)和中世纪英语财产转让文件语料库(DEEDS)。该方法依赖于通过非参数广义线性模型的带宽估计来有效捕捉词汇使用的逐渐变化。即使对于小型文档集,与带宽相关的成本函数所需的可能排序数量也相当巨大。我们利用模拟退火算法解决了这一组合优化问题,从而获得了最优的文档时间顺序。与随机排序基线相比,我们的排序方法显著改善了两个语料库的时间序列。这种无监督方法应能实现未注明日期的文档集的自动时间排序。
1. 引言
历史与遗产文本的准确断代对历史学家至关重要。基于正确排序的文本,历史学家可以在特定时间段的背景下检查、判断和分析事件。通常,历史学家只能获得未注明日期的文本内容,并据此推断创作日期。英国财产转让文件(宪章或契约)被选为本研究的一个组成部分,因为它们具有特殊的性质。虽然盎格鲁-撒克逊时期(约公元670年至1066年)现存最早的例子总是注明日期的,但在大约1600份文件中,只有300份可以被认为是原件。专家指出,许多所谓的盎格鲁-撒克逊文件实际上是后来的伪造品,但很难与真正的宪章区分开来。在某些情况下,给出的日期要么明显是虚构的,要么是可疑的;或者在许多情况下,宪章仅在发行日期几个世纪后的副本中幸存下来,导致抄写员误读或误抄产生真正的错误。
当1066年诺曼征服英格兰后,盎格鲁-撒克逊的政治和司法体系在很大程度上被诺曼体系取代,出现了一个全新的现象:未注明日期的宪章。从1066年到大约1307年(爱德华二世统治开始),在已知发行的百万份或更多宪章中,只有约3%带有内部日期。虽然理查一世于1189年在皇家大法官法庭重新引入了日期标注,但贵族和平民在之后的一百年里并没有效仿。与欧洲大陆的宪章相比,英国宪章记录的前600年一直漂浮在不确定的海洋上。
在历史研究中,确定事件的正确顺序是一项基本原则。未注明日期的文件无处不在,给律师、警察、情报机构、法医语言学家、密码破译者、艺术史学家等留下了确定事件先后顺序的责任。本研究为任何拥有一系列未注明日期的数字化文本或列表的人奠定了基础,使其无需承担检查每个文档的上下文线索和特定事件引用的艰巨任务,即可确定其时间顺序。
此前在文档排序方面的努力主要集中在历史语言模型的开发上。在更广泛的信息检索领域,研究者采用了包含术语使用时间方面的统计模型。然而,依赖时间术语进行断代存在缺陷,因为术语可能非常稀疏且模棱两可。在本研究中,我们提出了TempSeq,一种用于文档时间排序或排名的无监督方法。该方法设计用于仅有未注明日期的文档可用的情况。TempSeq依赖于“词袋”方法,不使用关于时间的语言特征,也不使用带有时间标签的训练集。TempSeq依赖于测量词汇使用的漂移,假设词汇使用随时间逐渐变化。我们通过非参数广义线性模型回归对词汇使用漂移进行建模,并估计文档的正确时间排序是使相关核带宽(词汇使用时间变异性的直接度量)平均最小化的排序。
2. 语料库
我们在两组带有时间标签的语料库上评估了我们的时间排序方法。第一个语料库由240份美国国情咨文(SOTU)的抄本组成,年份从1790年到2020年。每个抄本的中位平均长度为6400个单词。第二个语料库来自早期英格兰文件数据集(DEEDS)。在该语料库中,我们专注于1120年至1300年间发行的11,463份英语财产转让记录。所有记录均用拉丁文书写,并经过主题专家历史学家的内容检查以验证发行日期。拉丁文档的中位长度为175个单词。我们在两种不同形式下考虑DEEDS语料库:第一种是将给定年份的所有文档合并为单一文本(DEEDS-conflated),产生181份合并记录;第二种是保持11,463份未合并记录的原样(DEEDS-single)。
3. 概述
当有一组已知日期的训练文档可用时,Tilahun等人提出了“最大流行度”方法进行断代。这种方法基于对描述未注明日期的文档中每个单词出现概率的时间模式曲线的建模。例如,在DEEDS语料库中,该方法实现了非常可靠的日期估计,测试集的中位断代误差为±5年。这种高精度验证了模型的一个潜在特征,即用于断代文档的有用单词是那些在日期范围内出现概率不均匀且其使用变化变异性呈现逐渐变化的单词。像et、de、huic(拉丁语)或the、to、that(英语)这样的功能词,在任何时候都以一致的比例出现,即非信息性单词,对未注明日期的文档的日期估计没有贡献。
我们寻求一种优化过程来平衡偏差-方差权衡。这种优化一方面寻求最小化偏差,从而增加曲线波动以准确跟踪单词出现的经验值;同时最小化方差,从而减少曲线波动以获得平滑曲线。用于平衡这些需求的最佳平滑曲线是一个可量化的参数值,可以使用“经验法则”平滑参数估计。在没有注明日期的训练数据集的情况下,我们计算用于估计文档中每个单词出现概率的最佳平滑参数的平均值。我们通过组合优化(使用模拟退火算法)在所有可能的时间排序中搜索,以识别最高平均最佳平滑参数,从而找到文档集的正确时间顺序的近似估计。
4. 词汇使用时间模式的建模
我们的基本假设是词汇使用是逐渐变化的。我们使用广义线性模型的局部多项式核回归将词汇使用概率建模为时间的函数。假设( D i , t D i ) (D_i, t_{D_i})(Di,tDi)代表数据对序列,其中t D i t_{D_i}tDi代表第i ii个文档的日期。令n w ( D i ) n_w(D_i)nw(Di)表示单词w ww在文档D i D_iDi中的出现次数,N ( D i ) N(D_i)N(Di)表示文档的总词数。我们感兴趣的是估计术语w ww在时间t tt的出现概率,公式如下:
[ \hat{\pi}{w,h}(t) = \frac{\sum{i=1}^n n_w(D_i)K_h(t_{D_i} - t)}{\sum_{i=1}^n N(D_i)K_h(t_{D_i} - t)} ]
其中K h K_hKh是权重项,h hh是带宽参数(平滑参数)。如果h hh非常大(高度平滑),则π ^ w , h ( t ) \hat{\pi}_{w,h}(t)π^w,h(t)近似于单词w ww的整体比例结果,不随t tt变化。如果h hh非常小,曲线会过拟合,迅速波动以达到每个时间点的值。带宽控制偏差和方差,是估计器的关键参数。
我们通过SOTU语料库中的单词“Drug(s)”(毒品/药物)说明了带宽的作用。最佳平滑曲线揭示了数据中的清晰模式:第一个峰值(尼克松时期)与“毒品战争”有关,第二个峰值(克林顿至布什时期)与处方药的可负担性有关。相比之下,像“de”(of)这样的停用词,其平滑概率曲线在整个日期范围内是均匀的。这被称为非信息性(信息性)单词的时间均匀性(非均匀性)原则。
5. TempSeq时间排序方法
对于一组文档{ D 1 , … , D m } \{D_1, \dots, D_m\}{D1,…,Dm},假设l = ( 1 , … , m ) l = (1, \dots, m)l=(1,…,m)代表真实的文档时间排名顺序。对于每个单词w ww和文档的时间排名排序σ ( l ) \sigma(l)σ(l),我们计算π ^ w , h ( t ) \hat{\pi}_{w,h}(t)π^w,h(t)的渐近最优带宽值,记为h a m i s e , w , σ ( l ) h_{amise,w,\sigma(l)}hamise,w,σ(l)。根据信息性单词的时间非均匀性原则,在正确的文档时间排序下,最佳平滑参数h a m i s e , w , σ ( l ) h_{amise,w,\sigma(l)}hamise,w,σ(l)将更大,因为曲线不需要如此剧烈的振荡来获得小偏差。因此,我们通常期望h a m i s e , w , σ 0 ( l ) ≥ h a m i s e , w , σ ( l ) h_{amise,w,\sigma_0(l)} \ge h_{amise,w,\sigma(l)}hamise,w,σ0(l)≥hamise,w,σ(l)成立。
对于一组文档,我们通过首先计算H σ ( l ) H_{\sigma(l)}Hσ(l)来估计时间排名顺序,其中H σ ( l ) H_{\sigma(l)}Hσ(l)是与m mm个文档中存在的每个单词相关的最佳带宽的统一中位数值。估计的时间排名顺序σ ^ ( l ) \hat{\sigma}(l)σ^(l)是在所有可能的排列中最大化H σ ( l ) H_{\sigma(l)}Hσ(l)的排名顺序:
[ \hat{\sigma}(l) = \arg \max_{\sigma} H_{\sigma(l)} ]
为了解决组合优化问题,我们使用模拟退火算法。该算法通过反转和/或移动子序列从当前解生成随机排列解,从而在邻域内搜索以最大化H σ ( l ) H_{\sigma(l)}Hσ(l)。
6. 评估与结果
我们使用斯皮尔曼等级相关系数(Spearman’sρ \rhoρ)来衡量预测顺序与真实顺序的接近程度。对于SOTU和DEEDS-conflated语料库,我们随机选择了间隔约24年和18年的10个文档集。对于100次重复实验,估计的排名顺序与真实排名顺序之间的相关系数绝对值的中位数对于SOTU语料库为0.66,对于DEEDS-conflated语料库为0.78。相比之下,随机排列的基线相关系数中位数为0.24。TempSeq方法的表现显著优于基线。
然而,对于DEEDS-single语料库,TempSeq的表现不如合并集合。虽然统计上显著优于基线,但中位相关系数仅为0.45。这是因为DEEDS-single文档的平均长度仅为175个单词,而合并文档为11,000个单词,导致用于估计时间顺序的单词样本非常少。
TempSeq方法还允许识别对确定正确时间顺序最具信息量的单词。例如,在SOTU语料库中,“Britain”(英国)、“Families”(家庭)和“Court”(法院)被识别为信息性单词。通过LDA主题模型分析,我们发现这些单词的使用上下文随时间发生了显著变化,例如“Britain”从早期的海战封锁背景转变为后来的贸易和渔业权利背景。
7. 误差分析
我们对TempSeq表现不佳的子集进行了误差分析。当比较估计的时间排序的平均带宽值与正确时间排序下的平均带宽值时,后者的值通常更大。这反映了词汇使用的较小变异性和随时间的逐渐变化。TempSeq在这些文档集上的表现不佳可以解释为模拟退火算法的搜索运行不足。
8. 结论
大型语言模型(LLM)虽然在自然语言理解方面能力卓越,但通常需要海量数据进行训练。相比之下,SOTU和DEEDS语料库的规模远小于LLM所需的训练数据。我们的无监督方法TempSeq依赖于词汇使用随时间逐渐变化的原则,有效地捕捉了语料库中的变化。该方法在SOTU和DEEDS-conflated语料库上的表现显著优于随机排序。未来,我们将检查该方法在文档间隔时间可变以及文档字数极少的情况下的表现。
附录
附录部分详细介绍了二项式模型的非参数核回归推导,包括广义线性模型(GLM)的指数族形式、条件均值和方差,以及局部多项式估计量的最大似然估计。此外,还详细说明了带宽估计的“经验法则”程序,包括渐近均方误差(AMSE)和渐近平均积分平方误差(AMISE)的计算公式。
二、解读
这篇论文的核心贡献在于提出了一种在完全无监督的情况下,仅凭文本内容就能对历史文档进行时间排序的数学方法。其背后的直觉非常优雅且符合语言演化的规律:语言的使用是随时间平滑演变的,而不是突变的。
作者将这一直觉转化为一个统计学问题。如果我们把文档按照正确的时间顺序排列,那么某个特定单词(如“drug”或“court”)在这些文档中的出现频率曲线应该是相对平滑的(例如,先上升后下降,或者保持稳定)。这种“平滑度”在数学上可以通过核回归模型中的**带宽(Bandwidth,h hh)**来衡量。带宽越大,意味着曲线越平滑,噪音越小。反之,如果我们把文档的时间顺序打乱,同一个单词的频率曲线就会变得剧烈波动,为了拟合这些波动,模型不得不选择很小的带宽。
因此,整个排序问题被转化为了一个优化问题:在所有可能的文档排列组合中,哪一种排列方式能让所有单词的平均带宽最大化?
为了解决这个问题,作者引入了**非参数广义线性模型(Non-parametric GLM)来拟合词频曲线,并利用模拟退火算法(Simulated Annealing)**来在巨大的排列空间中寻找最优解。这避免了穷举法带来的计算灾难(例如10个文档就有约180万种排列)。
该方法的优势在于它不需要外部的训练数据或标签,这对于那些缺乏标注数据的历史文献(如中世纪宪章)尤为重要。它不仅能排序,还能反向挖掘出那些“信息量大”的单词,即那些随时间有明显且平滑演变规律的词汇,这为历史学家分析特定时期的社会变迁提供了量化依据。
然而,该方法的局限性也在论文中坦诚地展示了出来:它对数据量敏感。当处理单词数量极少的单个中世纪契约(DEEDS-single)时,由于样本稀疏,统计规律被噪音淹没,排序效果明显下降。这提示我们,基于统计规律的文本分析方法,其效力往往受限于文本的长度和词汇的丰富程度。
三、问答
TempSeq方法的核心假设是什么?
TempSeq的核心假设是词汇的使用习惯是随时间逐渐变化的,而不是突变的。这意味着在正确的时间序列下,单词出现概率的曲线应当是相对平滑的,具有较低的时间变异性。为什么说带宽(Bandwidth)是衡量排序质量的关键指标?
在核回归模型中,带宽控制曲线的平滑程度。如果文档顺序正确,词汇变化平缓,模型会估计出较大的带宽;如果顺序混乱,词汇频率剧烈跳动,模型为了拟合数据会估计出极小的带宽。因此,带宽越大,意味着当前的排序越符合词汇演变的平滑规律。该方法与传统的监督学习方法有何不同?
传统的监督学习(如论文提到的Maximum Prevalence方法)需要一组已知日期的文档作为训练集来学习词汇的时间模式。而TempSeq是无监督的,它不需要任何已知日期的文档,仅通过最大化词汇变化的平滑度来推断文档的相对顺序。模拟退火算法在其中扮演了什么角色?
对于m mm个文档,可能的排列组合有m ! / 2 m!/2m!/2种。当文档数量增加时,穷举搜索是不可能的。模拟退火算法作为一种组合优化技术,通过随机扰动(反转或移动子序列)来高效地在巨大的搜索空间中寻找能使平均带宽最大化的最优排序。什么是“信息性单词”(Informative Words)?
信息性单词是指那些随时间推移,其使用频率表现出明显且平滑变化模式的单词(如“Britain”、“Drug”)。相反,像“the”、“of”这样的停用词在所有时间段频率稳定,对确定时间顺序没有帮助,被称为非信息性单词。为什么DEEDS-single语料库的排序效果不如DEEDS-conflated?
DEEDS-single中的文档是独立的契约,平均长度仅175词,数据非常稀疏。而DEEDS-conflated将同一年份的文档合并,平均长度达11,000词。统计方法依赖于足够的数据量来消除噪音,单文档词数过少导致无法准确估计词汇概率的变化曲线。论文中使用了哪种数学模型来估计词汇概率?
论文使用了二项式族(Binomial family)的非参数广义线性模型(Non-parametric Generalized Linear Models),结合局部多项式核回归(Local Polynomial Kernel Regression)来估计单词在特定时间的出现概率。除了排序,这种方法对历史学家还有什么潜在价值?
除了恢复文档顺序,该方法还能识别出“不合时宜”的词汇。如果某个文档声称来自某个时代,但其中包含的词汇在该时代的平滑曲线中极不协调,这可能提示该文档是伪造的或被错误归档。为什么作者认为LLM(大型语言模型)不适合解决这个问题?
作者指出,训练LLM需要海量数据(数十亿词),而历史语料库(如SOTU或DEEDS)通常只有几百万词,数据量远不足以训练或微调大模型。此外,LLM难以直接应用于无标签数据的纯时间排序任务。评估排序效果时使用了什么指标?
使用了斯皮尔曼等级相关系数(Spearman’s Rank Correlation,ρ \rhoρ)。该指标衡量了算法预测的文档排名与真实时间排名之间的单调相关性,值越接近1表示排序越准确。