news 2026/4/16 13:54:29

会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering


此文章发表在MTSR2024会议,主题和能力问题有关,另外结合了RAG。

作者信息

荷兰的机构,文章12页。

要点1

我在2024年想到所谓需求驱动,也是结合能力问题的。当时觉得能力问题像是上个世纪的产物,一种古老的验证手段,但我的文章经过24年6月投稿,25年6月一审被拒,现在改投一审结果未出。这段时间,已经看到不少篇结合LLM做问题能力相关工作的文章了。
这篇文章说的是能力问题的生成,我当时想的是结合能力问题库做自动化验证。其实我把问题想简单了,自动化验证不是查询不报错就行的,而且还要查询结果符合预期。

要点2

有关其中的BigCQ参考文献,该作者也提到了BigCQ,表示是最大的CQ模板库。

但这里的CNL有疑问,我当时选取BigCQ中的一些句子举例,但审稿人表示这不是受控自然语言。或许BigCQ中存在一些常识性错误?

要点3

文中提及一种验证方法,针对有既定本体的知识图谱,从本体中提取能力问题,这种能力问题是形式化的,可以转为SPARQL进行查询验证。但这种验证,其实是不合适的,类似于拿自己写的答案作为标准,然后来评估自己。

要点4

方法流程,文章显示了简单的三步走:数据索引、数据获取、生成。从图中看不出有什么特殊设计,那就看文字。

文字表示,首先选择合适的paper作为知识库很重要,然后他设置了三个原则。相当于把这些文章作为RAG的外挂向量库,算是比较直接的想法。
作者还把文章数量作为一个超参数,另外还有大模型的温度和所选取的大模型作为参数。
随后就是提示词工程了,这也没啥好深入说的,还是提示词模板那一套东西(话说大家的想法都差不多啊,应用层面的东西就是这样,太容易撞车了)。

要点5

如何说明它生成的能力问题是好的?
这就是实验验证部分了,看之前先想一想,怎样算是好的能力问题?

  1. 专家审核一下,数量不多的话,可以人工判断哪些能力问题是有实际意义的;
  2. 文中有提到他们生成的是非正式能力问题,那就不是很容易直接转换成SPARQL查询的那种,但要实际验证,必须要想办法把它们转换成SPARQL查询,验证得到预期的结果;
  3. 验证能力问题同样也是验证本体,这里给人的感觉是能力问题是由本体衍生的,而不像我之前做的(能力问题可以用于验证,但它更是需求分析的步骤)。
    那这个文章是怎么做的,他做了两个实验。
  4. 针对需求工程,KG-EmpiRE,通过三个领域专家根据一篇关于研究人员如何开展RE实证研究的现状和发展,手工推导出77个CQ进行评估;
  5. 构建人机交互中的核心参考问题HCIO,针对15个CQ进行评估。
    这里还是看不出评估方法。
要点6

使用precision来评估CQ质量,把生成的CQ质量和专家设计的CQ进行对比。这种感觉还是gold standard,那种把本体和reference本体对比的方法。
在计算所谓precision之前,先用余弦相似度计算了一波。

这让人有些困惑,首先觉得生成的CQ的数量就不一定和专家写的CQ对得上,其次,怎么知道哪两个CQ之间来计算相似度呢?一开始就设定了成对的CQ?
再然后,怎么从相似度到precision的呢?作者给了公式。

这里说明了,TP和FP的含义。比较简单粗暴,意思是有效的生成CQ和无效的生成CQ。
随后,作者还弄了一个consistency的验证,这个验证是来判断CQ生成的稳定性的。大致意思是,我换一些参数,生成的CQ是不是差不多(感觉这个算是对所谓提示词模板的考验吧)?

要点7

说到对比实验了,和谁比?
作者和所谓的Zero-shot比,可以理解为让LLM自由发挥,这个比较好理解,就是体现RAG对CQ生成效果的提升(大概率是有效的,有约束就是比自由发挥厉害一些)。
另外就是N_paper超参数变化的比较,这也是个线性思维,一般来说,外挂库越大,效果就应该越好,事实上基本呈现的就是这个趋势。
最后还有一个绿色的柱子,他表示这个visionary paper给出了最好的precision。

要点8

第二个对比实验,即consistency的实验。作者使用了余弦相似度的标准差来看稳定性。
这里讨论了参数对CQ生成的影响,例如温度参数对任务表现的影响不大。

要点9

从实验部分来看,比较数据来自zero-shot,不同的数据集,不同的参数,但是没有和其他人的方法的比较。我觉得可能是不好比,这种工作不是热点工作,但这样的比较就不太容易被所谓审稿人认可。
但我觉得这样的工作仍然是有意义的,算是个应用测试,能想到去测参数对consistency的影响就很不错了。

要点10

虽然文章涉及了对参数的讨论,但是这类工作的出发点都是找一个老问题,拿大模型来试试,看看效果如何?我之前也是这么想的,所以这类问题容易被人抢先做。看今年的ISWC上的文章,有不少都是借用LLM,老树开新花的。

要点11

回头看,我之前写的文章似乎更没啥意义了。以后再有写文章的需求,得先多了解一些前沿技术,拓宽视野,然后再去考虑可做的点。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 8:00:46

钻井工程的老师傅们总爱念叨一句话——井筒周围的应力分布能决定钻井成败。今天咱们用COMSOL做个流固耦合的实战模拟,看看地层压力是怎么在井筒周围“搞事情“的

COMSOL模拟流固耦合井筒周围应力分布。 此案列介绍在井筒壁周围施加径向荷载(孔压和地应力),分析其径向应力、环向应力以及孔压变化,附有详细的建模说明书。打开COMSOL新建模型,先选"多物理场耦合"里的达西流-固体力学接…

作者头像 李华
网站建设 2026/4/16 12:17:53

二维钻孔封孔技术效果模拟案例:从实践到理论,探索最佳封孔策略

二维钻孔封孔效果模拟案例钻孔封孔效果模拟这事挺有意思的。咱今天拿个简化版的二维模型练手,用Python搞个渗流场可视化。先说场景:地下50米有个直径0.2米的钻孔,现在要往里面注水泥浆,得看看封堵效果咋样。先整网格。用numpy搞个…

作者头像 李华
网站建设 2026/4/12 16:09:31

软件测试管理的创新路径与实践探索

随着数字化转型的加速和软件交付周期的不断缩短,传统的软件测试管理方法正面临前所未有的挑战。测试团队不仅需要保障产品的质量与稳定性,还要在敏捷与DevOps环境中实现快速反馈与持续验证。在这一背景下,测试管理的创新成为提升工程效能、推…

作者头像 李华
网站建设 2026/4/15 1:23:39

软件测试从业者的终身学习指南:驱动力、挑战与实践

为何终身学习对测试从业者至关重要 在数字化浪潮席卷全球的今天,软件测试行业正经历前所未有的变革。从传统的手动测试到自动化、性能测试,再到如今的AI驱动测试和DevOps集成,测试技术日新月异。根据行业报告,到2025年&#xff0…

作者头像 李华