此文章发表在MTSR2024会议,主题和能力问题有关,另外结合了RAG。
作者信息
荷兰的机构,文章12页。
要点1
我在2024年想到所谓需求驱动,也是结合能力问题的。当时觉得能力问题像是上个世纪的产物,一种古老的验证手段,但我的文章经过24年6月投稿,25年6月一审被拒,现在改投一审结果未出。这段时间,已经看到不少篇结合LLM做问题能力相关工作的文章了。
这篇文章说的是能力问题的生成,我当时想的是结合能力问题库做自动化验证。其实我把问题想简单了,自动化验证不是查询不报错就行的,而且还要查询结果符合预期。
要点2
有关其中的BigCQ参考文献,该作者也提到了BigCQ,表示是最大的CQ模板库。
但这里的CNL有疑问,我当时选取BigCQ中的一些句子举例,但审稿人表示这不是受控自然语言。或许BigCQ中存在一些常识性错误?
要点3
文中提及一种验证方法,针对有既定本体的知识图谱,从本体中提取能力问题,这种能力问题是形式化的,可以转为SPARQL进行查询验证。但这种验证,其实是不合适的,类似于拿自己写的答案作为标准,然后来评估自己。
要点4
方法流程,文章显示了简单的三步走:数据索引、数据获取、生成。从图中看不出有什么特殊设计,那就看文字。
文字表示,首先选择合适的paper作为知识库很重要,然后他设置了三个原则。相当于把这些文章作为RAG的外挂向量库,算是比较直接的想法。
作者还把文章数量作为一个超参数,另外还有大模型的温度和所选取的大模型作为参数。
随后就是提示词工程了,这也没啥好深入说的,还是提示词模板那一套东西(话说大家的想法都差不多啊,应用层面的东西就是这样,太容易撞车了)。
要点5
如何说明它生成的能力问题是好的?
这就是实验验证部分了,看之前先想一想,怎样算是好的能力问题?
- 专家审核一下,数量不多的话,可以人工判断哪些能力问题是有实际意义的;
- 文中有提到他们生成的是非正式能力问题,那就不是很容易直接转换成SPARQL查询的那种,但要实际验证,必须要想办法把它们转换成SPARQL查询,验证得到预期的结果;
- 验证能力问题同样也是验证本体,这里给人的感觉是能力问题是由本体衍生的,而不像我之前做的(能力问题可以用于验证,但它更是需求分析的步骤)。
那这个文章是怎么做的,他做了两个实验。 - 针对需求工程,KG-EmpiRE,通过三个领域专家根据一篇关于研究人员如何开展RE实证研究的现状和发展,手工推导出77个CQ进行评估;
- 构建人机交互中的核心参考问题HCIO,针对15个CQ进行评估。
这里还是看不出评估方法。
要点6
使用precision来评估CQ质量,把生成的CQ质量和专家设计的CQ进行对比。这种感觉还是gold standard,那种把本体和reference本体对比的方法。
在计算所谓precision之前,先用余弦相似度计算了一波。
这让人有些困惑,首先觉得生成的CQ的数量就不一定和专家写的CQ对得上,其次,怎么知道哪两个CQ之间来计算相似度呢?一开始就设定了成对的CQ?
再然后,怎么从相似度到precision的呢?作者给了公式。
这里说明了,TP和FP的含义。比较简单粗暴,意思是有效的生成CQ和无效的生成CQ。
随后,作者还弄了一个consistency的验证,这个验证是来判断CQ生成的稳定性的。大致意思是,我换一些参数,生成的CQ是不是差不多(感觉这个算是对所谓提示词模板的考验吧)?
要点7
说到对比实验了,和谁比?
作者和所谓的Zero-shot比,可以理解为让LLM自由发挥,这个比较好理解,就是体现RAG对CQ生成效果的提升(大概率是有效的,有约束就是比自由发挥厉害一些)。
另外就是N_paper超参数变化的比较,这也是个线性思维,一般来说,外挂库越大,效果就应该越好,事实上基本呈现的就是这个趋势。
最后还有一个绿色的柱子,他表示这个visionary paper给出了最好的precision。
要点8
第二个对比实验,即consistency的实验。作者使用了余弦相似度的标准差来看稳定性。
这里讨论了参数对CQ生成的影响,例如温度参数对任务表现的影响不大。
要点9
从实验部分来看,比较数据来自zero-shot,不同的数据集,不同的参数,但是没有和其他人的方法的比较。我觉得可能是不好比,这种工作不是热点工作,但这样的比较就不太容易被所谓审稿人认可。
但我觉得这样的工作仍然是有意义的,算是个应用测试,能想到去测参数对consistency的影响就很不错了。
要点10
虽然文章涉及了对参数的讨论,但是这类工作的出发点都是找一个老问题,拿大模型来试试,看看效果如何?我之前也是这么想的,所以这类问题容易被人抢先做。看今年的ISWC上的文章,有不少都是借用LLM,老树开新花的。
要点11
回头看,我之前写的文章似乎更没啥意义了。以后再有写文章的需求,得先多了解一些前沿技术,拓宽视野,然后再去考虑可做的点。