news 2026/4/16 10:44:20

Nature和Science同时报道了一篇论文,试图根治AI幻觉

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Nature和Science同时报道了一篇论文,试图根治AI幻觉

《Nature》重磅:80 亿参数小模型 OpenScholar 终结「参数崇拜」!它摒弃死记硬背,凭「检索+自查」根治幻觉,在科学综述任务上表现超越行业顶尖巨头。

昨天,一篇刚刚登上《Nature》正刊的论文,开源了名为 OpenScholar 的模型,也同时被 Science 报道了。

它只有 8B 参数,但正是这个小模型,在科学文献综述任务上,击败了旗舰模型。

这是一场范式转移的信号:在严谨的科学探索中,全知全能的「黑盒」记忆已成过去,精准调用的「外挂」知识库才是未来。

告别幻觉

彼时,科研人员对通用大模型爱恨交织。

恨意主要源于那个致命缺陷——幻觉。

当时的数据令人触目惊心:当被要求回答生物医学等领域的专业问题时,AI 伪造引用的比例一度高达 90%。

它能自信地编造出不存在的论文标题、作者甚至页码。对于需要字斟句酌的科学研究,这种不可靠性是毁灭性的。

OpenScholar 的出现,正是为了修正这一偏差。

由华盛顿大学和艾伦人工智能研究所(Ai2)主导开发的这套系统,本质上不再试图让模型「记住」所有知识,而是教会模型如何像人类学者一样去「查资料」。

OpenScholar 并不依赖参数中的模糊记忆,它外接了一个包含 4500 万篇开放获取论文的巨型数据库。

当你提出一个问题时,它不会直接生成答案,而是执行一套严密的流程:

  1. 检索:先在 4500 万篇文献中快速捞取最相关的片段。
  2. 重排序:利用交叉编码器对片段进行精细筛选,去伪存真。
  3. 生成与反馈:这是最关键的一步。模型生成答案草稿后,会进行自我审查——「这句话有证据支持吗?」如果发现证据不足,它会发起第二轮、第三轮检索,直到每一条论述都有确凿的文献背书。

结果是降维打击式的。在涵盖计算机科学、物理学等领域的 ScholarQABench 基准测试中,OpenScholar-8B 的正确率不仅超越了当时的旗舰模型,更将推理成本降低了两个数量级(约 0.003 美元/次)。

它证明了在特定领域,一个带了「图书馆」的本科生,比一个赤手空拳却爱产生幻觉的博士生更可靠。

DR Tulu
从「回答问题」到「深度研究」

如果说 OpenScholar 解决的是「准确性」问题,那么素材中提及的后续迭代版本——DR Tulu(Deep Research Tulu),则是在向「深度」进军。

科研往往不是简单的一问一答,而是漫长的探索与综合。

2025年11月发布的 DR Tulu,针对的是长篇幅、多维度的「深度研究」任务。

它的核心突破在于引入了「演化评分规则的强化学习」(RLER, Reinforcement Learning with Evolving Rubrics)。

在以往的训练中,AI 很难判断一篇长达数千字的文献综述写得好不好。

DR Tulu 并不依赖固定的评分标准,而是让模型在搜索和研究的过程中,动态生成针对当前问题的评分细则。

它既学习「什么是好的研究策略」(如挖掘冷门数据源),也学习「什么是坏的行为」(如为了凑字数而堆砌引用)。

这种训练让 DR Tulu 具备了更强的规划能力。

面对复杂的科学命题,它能像成熟的研究员一样,先制定大纲,再分头检索,最后综合多源信息撰写长篇报告。

在最新的测试中,DR Tulu-8B 的表现已经足以比肩甚至超越当时的旗舰专有模型,且代码和权重完全开源。

幕后推手:Akari Asai

这一系列颠覆性工作的核心人物,是即将于2026年秋季入职卡内基梅隆大学(CMU)的 Akari Asai(浅井明里)。

这位从东京大学本科毕业、在华盛顿大学获得博士学位的年轻学者,是近年来「检索增强生成」(RAG)领域最活跃的声音之一。

早在 Meta AI 实习期间,她就致力于解决大模型的知识瓶颈问题。

Akari Asai 的研究哲学非常清晰:不要试图把世界装进模型里,要让模型学会拥抱世界。

她主导的 OpenScholar 和 DR Tulu 项目,不仅是技术上的精进,更带有一种强烈的「民主化」色彩。

通过开源高性能的小模型和检索架构,她正在打破只有科技巨头才能垄断顶级科研 AI 工具的局面,让全球资源匮乏地区的科学家也能拥有一位不知疲倦的「超级科研助理」。

结语

科学的本质不是记忆,而是发现。

当我们将 AI 从死记硬背的参数竞赛中解放出来,赋予其查阅、验证和反思的能力时,我们创造的不再是一个仅仅会聊天的机器,而是一把能帮人类在浩瀚知识海洋中披荆斩棘的利刃。

未来的科研,或许不再取决于你读过多少论文,而在于你如何驾驭那位读过所有论文的 AI 助手。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 5:29:19

pgAgent创建job

1.在安装postgresql的时候,要选择pgagent如下图所示2.打开pgadmin找到pgagent3.设置job名称4.设置步骤5.设置连接字符串,不设置正确的话,job会不运行的6.在code中编写需要执行的sql语句7.设置schedules 我设置的是每天凌晨3:05分执…

作者头像 李华
网站建设 2026/4/8 19:43:22

前端编程 课程十六、:CSS 盒子模型

本阶段目标彻底理解CSS盒子模型的组成、尺寸计算方式和内外边距的使用,能精准控制元素的大小和位置,解决“元素尺寸和预期不符”“元素间距无法控制”的布局难题,为后续Flex、Grid布局打牢基础。学习节奏:按「模型认知 → 组成拆解…

作者头像 李华
网站建设 2026/3/27 11:03:11

必收藏!大模型推理优化实战指南(小白/程序员入门必备)

在AI技术飞速迭代的今天,大模型早已从实验室走向实际应用,成为程序员进阶、小白入门的核心知识点。从智能客服秒级响应用户咨询,到AI写作助手快速生成规范文案,再到代码助手一键补全复杂逻辑,大模型的身影已经渗透到我…

作者头像 李华
网站建设 2026/4/10 22:09:59

AI大模型学习路线图+实战案例,助你把握AI就业风口_AI大模型的就业岗位及薪资(附学习指南)

文章介绍了AI大模型相关就业机会及零基础学习方法,包括典型应用场景和详细学习路线图。通过系统学习大模型技术,读者可提升就业竞争力,掌握全栈工程实现和实际项目开发能力,文末提供免费学习资料获取方式。前言 随着AI技术的迅猛发…

作者头像 李华
网站建设 2026/4/13 5:19:13

NAS系统漏洞炸一次,各种WAF防护满天飞

最近NAS的漏洞问题引发了广大玩耍NAS的小伙伴焦虑啊!漏洞一出,于是各种各样的WAF开始满天飞了。 防护其实是一种必要的手段,你可以把WAF理解为应用层面的防火墙。传统防火墙构建外围防线,而WAF为暴露在互联网上的关键Web业务提供…

作者头像 李华