LLMs Are Dumber Than a House Cat-编程阁

原文：towardsdatascience.com/llms-are-dumber-than-a-house-cat-81e7b3d63190

挫折？困惑？或许“缺乏优雅”是一个更好的表达。这是当你看到顶级科学家对已经理解的技术感到惊奇时所感受到的痛苦。

AI 影响者用惊奇牌来吸引点击，但对于科学家和工程师来说，情况就不同了。一旦你揭开了魔术的真相，它就会消失。

因此，看到微软等公司的研究人员在 GPT-4 发布四个月后还用“不可能”、“疯狂”和“惊人”这样的词来描述它，真是让人感到刺痛。

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//twitter.com/Nabil_Alouani_/status/1742870695929889050&image=

并不是特别针对 Sebastian Bubeck，但如果自动补全功能可以“震撼他的心灵”，想象一下这对普通用户的影响。

开发者和数据从业者每天都在使用大型语言模型（LLM）来生成代码、合成数据和文档。他们也可能被夸大的能力所误导。错误发生往往是在人类过度信任工具的时候。

TL;DR:这是一个反炒作的观点，你将了解 LLM 是如何工作的，为什么它们很愚蠢，以及为什么它们仍然非常有用——尤其是在有人的情况下。

忙碌人士对 LLM 的入门介绍

如果一个 LLM 是一个文件夹，它会有两个文件：第一个是可以执行代码，第二个是填充着数字的大型 CSV（表格）文件。

代码定义了你的模型神经网络的架构以及运行它的必要指令。这就像告诉你的计算机如何组织自己以执行特定类型的计算。
CSV 文件是一长串数字列表，称为权重。这些权重决定了你的人工神经网络（神经网）中的神经元如何行为。

想象一个神经网就像一个厨师试图完善一个食谱。每个成分（输入）都可能极大地改变菜肴（输出）的味道。

神经网的权重代表了每个成分的精确测量值。就像厨师调整每个成分的量以改善味道一样，神经网调整每个输入的权重以获得期望的结果。

随着时间的推移和重复（训练），厨师学会了调味的平衡——神经网络也是如此。它学会了最优的权重，以做出准确的预测或决策。

每一个成功的食谱，通过试错法精炼，都会记录下精确的测量值。那就是你的 CSV 文件。那就是你的权重集合。就像训练一位技艺高超的厨师需要时间和资源一样，权重也是昂贵的。

你必须向你的模型注入大量数据，并让它连续训练数天。你还需要专门的计算机，称为 GPU，以同时运行多个计算（并行处理）。

例如，Meta 的 Llama2 70B 模型使用了 6,000 个 GPU 进行了 12 天的训练（观看视频），达到了 2 百万美元的成本。是的，这只是为了获得权重。

链接

一旦你支付了数百万美元来获取你的“秘方”，你可以无限期地重复使用它们，成本只是几分钱。每次你将一个秘方应用于一系列原料时，你就是在执行我们所说的“推理”。

这些“秘方”比厨师的要复杂一些。它们包括数千篇科学文献、小说和博客文章。几乎任何在线发布的单词序列——包括废话——都会进入 LLM 的训练数据中。

到目前为止，你有一个“预训练”的模型，它还不能回答你的问题。你得到的是“预测下一个标记”。你给模型一系列单词，然后它想象可能的延续。

例如，你说“生命、宇宙和万物的终极问题的答案是……”然后模型会说“42”。

现在，如果你向你的预训练模型提问：“法国的首都是什么？”它可能会说“西班牙的首都是什么？”因为它在成千上万的在线测验中看到过这种模式。

如果你想让你的模型回答问题，你需要添加额外的步骤。

微调：你整理了一份问题（Q）和适当的答案（A）的列表，并将这些 Q/A 对输入到你的模型中。然后模型会根据你提供的示例学习回答问题。
指南（更多微调）：在这个步骤中，你添加了安全护栏，提高了准确性，并调整了语气。指南技术涉及进一步的微调、评分（RLHF）和编写核心提示。

令人印象深刻的是，你保留了预训练模型的“幻想”能力，并在其之上添加了问答能力。

经过训练和几个微调步骤后，你得到的东西就像 ChatGPT Classic——一个可以回答你的问题并生成各种输出的聊天机器人。

然而，很多人没有意识到，你现在非常有用的助手 LLM 仍然在为每个答案冥思苦想。

LLMs 不会思考，它们 24/7 都在产生幻觉。

当人们说“LLMs 产生幻觉”时，他们通常是指“LLMs 产生事实错误”。这种解释离目标还有几英里。

“当我被问到 LLMs 中的‘幻觉问题’时，我总是有点挣扎。因为，从某种意义上说，幻觉就是 LLMs 所做的一切。它们是梦境制造机。” —— “安德烈·卡帕西，OpenAI 联合创始人。”

LLMs 就像自由式说唱者。它们并不太关心准确性。他们的目标是根据你给出的提示生成一个合理的答案。就像即兴创作歌词的说唱者一样，LLMs 一次预测一个标记——同时试图保持在对上下文的接地感。

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.tiktok.com%2Fembed%2Fv2%2F7296510861110185246&display_name=tiktok&url=https%3A%2F%2Fwww.tiktok.com%2F%40harrymackofficial%2Fvideo%2F7296510861110185246&image=https%3A%2F%2Fp16-sign-va.tiktokcdn.com%2Fobj%2Ftos-maliva-p-0068c799-us%2F8b00880beea148ef96795c4e9f989b94_1698851338%3Fx-expires%3D1703689200%26x-signature%3Do5iHNiCUrXqM0g23T8U7WGnSEoc%253D&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=tiktok

当然，LLMs 会从它们训练阶段获得的知识中汲取信息，但在撰写回复之前，它们并不进行推理。准确性仅仅是由于巧妙的方法而产生的一个积极的“副作用”。

假设你正在构建一个 LLM。你的最终目标是生成事实信息。如果你将人类所写的内容全部压缩成“知识配方”，那么当你尝试预测下一个词语时，你应该能够得出事实，对吧？

在某种程度上，你是在打一个赌，即大部分训练数据都是事实。然后，通过微调和安全指南，你增加了成功的机会。事实输入；事实输出。

然而，你的 LLM 本身并不对什么是真什么是假进行推理。它只是根据之前看到的语言模式预测最可能出现的词语。

这就是人们为什么称 LLMs 为胡说八道机器的原因。这不是指该词的俚语含义，而是指哲学上的含义。

哲学家哈里·弗兰克福特将胡说八道描述为与现实脱节的信息。当你撒谎时，你会扭曲现实。当你讲述真相时，你描述你对现实的表征。但当你胡说八道时，你会不考虑现实（或真相）地编造事物。

正是这种对真理关注度的缺乏——这种对事物真实状态的漠不关心——我认为是胡说八道的本质所在。
*这指向了垃圾话本质的一个相似且基本方面：尽管它是在不考虑真相的情况下产生的，但它不必是错误的。
——《垃圾话》哈里·法兰克福. [作者强调].

“但是，真的有必要进行推理吗？”你可能问。“如果我们有大量干净的数据，预测下一个标记应该能让我们达到一个创意的事实喷射机，甚至可能是 AGI……不是吗？”

保持这个想法。

失落在压缩中

OpenAI 的联合创始人之一伊利亚·苏茨克维认为: “预测下一个标记，嗯，意味着你理解了导致该标记产生的底层现实。”

伊利亚是当今世界上最聪明的人之一，但他并非对逻辑谬误免疫。

cdn.embedly.com/widgets/media.html?src=https%3A%2F%2Fwww.youtube.com%2Fembed%2FYEUclZdj_Sc%3Fstart%3D1%26feature%3Doembed%26start%3D1&display_name=YouTube&url=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DYEUclZdj_Sc&image=https%3A%2F%2Fi.ytimg.com%2Fvi%2FYEUclZdj_Sc%2Fhqdefault.jpg&key=a19fcc184b9711e1b4764040d3dc5c07&type=text%2Fhtml&schema=youtube

人类语言是现实的压缩版本，但它是一种有损压缩。当你将现实的描述压缩成一系列词语时，你会丢失信息。

当你压缩一张图片或一个 Excel 表格时，你会得到一个 zip 文件。如果你右键点击并提取内容，你可以恢复之前压缩的 100%信息。

与人类语言不同。当有人告诉你“想象一只紫色的大象飞越一片橙色的海洋”时，他们正在将一个虚构场景压缩成九个词语。

很可能你只是将上一句话解压缩成你脑海中播放的短视频。欣赏你如何获得一般概念，但一些（关键）信息在压缩中丢失了。

你不知道大象的确切大小。你不知道它是什么紫色的，以及它是不是一个生物大象还是一个人工大象。此外，是什么让海洋变成橙色的？它有什么样的波浪？

当然，你可以添加词语来弥补缺失的信息——颜色、质地和速度，仅举几例。但为了让这些额外的描述有意义，你需要能够模拟它们的意义。

如果大象是由肝磷脂制成的，并以三倍音速飞行呢？如果你没有“肝磷脂”和“三倍音速”的模型，你的解压缩就会失败。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f0a63bf089beb00f3e4f377b1e1c4d49.png

Hepatizon 是一种古老的紫色金属，Mach-3 是音速的三倍。

你使用人类语言来编码现实，但你需要比语言更多的东西来解码它。想想符号、逻辑、心理模拟和对物理定律的理解。

现在让我们将 LLMs 加入这幅画面。

LLMs 是人类语言的压缩——而且它也是一种有损压缩。你压缩两次，信息就会丢失两次。这意味着你离现实的真实表征越来越远。

同样的逻辑也适用于存在紫色金属大象以亚音速飞行的替代现实。如果你不掌握现实所遵循的物理定律，你就无法模拟假设的现实。

让我们用一个例子来说明。

Sanjok 谜题

My friend,who's about33feet(10meters)awayfromme,very playfully,gently,andslowly throws a Sanjok at me.A Sanjokisa pillow-likeobjectmade of a special kind of steel:a state-shifting steel.The state-shifting ability activates only when the Sanjokistraveling through the air.Every second,the steel switches backandforthfrombeingaslightasa bag of feathers to a state where it'sasheavyasa giant boulder.This means the total weight of the Sanjok can varyfrom1pound(0.45kg)to5,000pounds(2268kgs)--andvice versa.Who'sindanger? What should I do?

花上一分钟。你可能还需要一张纸。

准备好答案了吗？

让我们先看看 ChatGPT-4 的答案：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/40c652c851e02f56a35d4a9836c75bd4.png

这里是依据力学物理和简单启发式方法的事件顺序。

你的朋友扔出 Sanjok。这是一个缓慢、轻柔的投掷，速度大约为每秒 10 英尺（3 米）。
在第一秒内，Sanjok 处于“轻模式”，重量为一磅（0.45 千克）。
在空中飞行一秒后，Sanjok 切换到“重模式”。现在 Sanjok 的重量为 5,000 磅（2,268 千克）。
让我们在这里“暂停”时间。
Sanjok 现在悬挂在空中，高度为 6 英尺（2 米）。
它距离你的朋友 10 英尺（3 米），距离你 23 英尺（7 米）。
Sanjok 的重量抵消了你朋友弱投掷的初速度。
Sanjok 将从 6 英尺（2 米）的高度开始自由落体。
现在按“播放”。
5,000 磅的 Sanjok 大约需要0.64 秒落地。牛顿和伽利略可以作证。考虑到 Sanjok 的重量，你可以忽略所有外部力（如空气阻力），除了重力。
Sanjok 在 0.64 秒后落地。它落在距离你的朋友大约 6 英尺（3 米）和距离你 23 英尺（7 米）的地方，上下几英寸不等。

结论：如果你在开阔场地玩这个游戏，没有人处于危险之中。无需躲藏或寻找掩护。但如果你在木屋顶上玩 Sanjok，那就另当别论了。

你可以解决 Sanjok 谜题，因为你的现实模型包括了物理定律。LLMs 难以解决，因为它们的现实模型是 100%的抽象语言模式——除此之外什么都没有（目前如此）。

如果你想让 LLM 给出正确答案，你必须：

将 Sanjok 谜题分解成几个步骤。让每个步骤都类似于你的 LLM 在训练数据中看到的其他谜题。
将几个（数百个）三句谜语的变体输入到训练/微调数据中。
在提示中写下答案。

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//twitter.com/ylecun/status/1734551536129196464&image=

你仍然可以通过在许多领域使用下一个标记预测来超越人类输出。每个 LLM 在写日本诗歌方面都比我强。

但是，预测下一个标记并不意味着你的 LLM 理解导致该标记创建的现实。

你只需要知道在训练数据中单词前后是什么，无论它们的意思如何。这就是为什么 LLMs 在处理他们以前从未见过的简单物理谜题时很困难。

这就是为什么伊利亚的论点在更仔细的审视下站不住脚。

LLMs 虽然很棒

LLMs 在伪造知识方面非常出色，这得益于它们的流畅性。即使它们生成错误的陈述，它们也会使用连贯而优雅的表述，这使得非专家难以区分事实和虚构的胡言乱语。

“我们很容易被这些系统欺骗，认为它们很聪明，只是因为它们能够流畅地操纵语言。”
我们拥有的唯一能够操纵语言的实体例子是人类，所以当我们看到能够灵活操纵语言的东西时，我们假设该实体将具有与人类相同的智能，但这并不正确。
这些系统非常愚蠢。
部分原因是它们愚蠢，因为它们只训练了语言，而大多数人类知识与语言无关。
在某种程度上，今天最聪明的 AI 系统对物理世界的理解不如你的家猫。
Yann Lecun，Facebook AI Research (FAIR)的首席人工智能科学家。

“与语言无关的人类知识”是所有在压缩过程中丢失的信息。它包括数学、推理、计划和物理定律等。当考虑实际场景时，这些知识差距就会显现出来。

例如，一家名为 Patronus AI 的初创公司对 GPT-4 进行了一系列金融任务的测试。2023 年可用的最强大模型得分为 79%——虽然这个数字令人印象深刻，但考虑到任务的重大风险，仍然是不够的。

“那种表现率绝对不能接受，”Patronus AI 联合创始人 Anand Kannappan 说。“它必须高得多，才能真正以自动化和成品的方式工作。”

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//twitter.com/Grady_Booch/status/1737170101202530602&image=

许多 AI 专家认为我们需要进一步的创新来解锁更多功能，这并不奇怪。扩大 LLMs 的规模有潜力，但它不会填补所有现有的差距，更不用说达到人工通用智能了。

“我认为我们需要另一个突破。我们可以对大型语言模型施加相当大的压力，我们应该这样做，我们也将这样做，”OpenAI 首席执行官萨姆·奥特曼说。“我们可以继续攀登我们目前所在的山峰，而顶峰还相当遥远。”

“但是，在合理的范围内，如果你把它推到极致，也许所有这些其他东西都会出现，”他补充道。“但是，在合理的范围内，我认为这不会做我认为对通用智能至关重要的东西。”

这是否意味着在此期间 LLMs（大型语言模型）就毫无用处了？

人类 + LLMs + 工具 = 超级力量

Patronus AI 将 GPT-4 在自动化 100%特定任务方面的表现描述为“不可接受”。

另一种看待结果的方式是：LLMs 可以处理那令人厌烦的 79%，而人类操作员则专注于关键的 21%。换句话说，你的工作量同时变得更小、更有挑战性。

在其他研究中也观察到了类似趋势，其中开发者、数据从业者和商业顾问在使用 LLMs 时，某些任务的速度提高了两倍。输出质量也有所提高。

你会看到很多“LLMs 能否取代数据科学家？”和“LLMs 能否取代开发者？”的问题。目前，这些问题的答案是：不。LLMs 不会取代你，但使用 LLMs 的人会。

此外，我们谈论的并不是 LLMs。它是“LLMs + 工具”。

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//twitter.com/OpenAI/status/1715050642560151963&image=

单独的 LLMs 就像是梦想机器。装备上代码解释器、网络浏览器和图像生成器，它们就变成了 AI 助手。想象一下 ChatGPT 刚推出时与现在的区别。

使用这样的 AI 助手，你不再需要从零开始每个任务。然而，你必须验证你的提示的输出。

链接

我们使用人工智能助手越多，就越需要验证。作为闭环中的人类，这是你的主要角色。

“[LLMs] 就算有保证也无法进行自己的规划/推理，”人工智能研究员 Subbarao Kambhampati 说**。“因此，它们最好在 LLM-Modulo 设置（带有合理的推理器或闭环中的专家人类）中使用。”

这种场景有两种互补的演绎方式：

用人工智能助手增强人类：人类成为结合信息和人工智能输出以产生结果的手工艺人。
将任务委托给人工智能助手：人类成为管理者、监督者，负责委托、验证和纠正人工智能的输出。

你为什么还在这里？

大型语言模型（LLMs）虽然愚笨，但它们能让你变得更聪明、更快、更有资源。它们是你与计算能力之间的桥梁——一座由自然语言构成的桥梁。

在“LLM + 工具”的正确组合下，你只需一个提示就能解决任何问题，或者至少朝着解决方案迈进。

“这就是我们即将看到的革命，朋友们。不是机器取代工作，而是一次前所未有的个人生产力激增，这为社会整体带来了机遇和问题。” —— 来自前谷歌首席决策科学家 Cassie Kozyrkov 的评论。

生产力的大幅提升不会自然而然发生。你需要亲自动手；你需要敲击键盘。你想要编写提示，设计人工智能助手，并养成验证的习惯。

大多数这些任务都是用自然语言完成的。但就像人类一样，AI 模型不会仅仅因为你用普通的英语说话就能读懂你的心思。

链接

你想要学习如何编写清晰的指令，将它们与代码结合，并尝试不同的模型。说到这里，这里有四个资源可以帮助你开始：

如何为 LLMs 编写专家提示—— 由这位秃头大叔（25+ 提示技巧、示例和评论）撰写。
Midjourney 快速入门指南 –由 Midjourney 研究实验室（图像生成简介）。
开发者 Prompt Engineering– 由伊莎·富兰德和安德鲁·吴（免费在线课程，教授如何编程式地提示）
Prompt Engineering 是编程的未来– 同样由这位秃头先生（深入探讨，附简洁示例）。

技术持续改变我们做的工作类型以及我们工作的方式。那些迅速拥抱它的人，在适应游戏中会领先一步。

问题是：为什么你还在阅读关于 LLMs 的内容，而不是去实际操作它们？

保持联系？

你可以通过**成为 Medium 会员来支持我，并获得微薄的佣金。你也可以订阅以获取邮件通知.**微笑也同样有效。

通过我的推荐链接加入 Medium – 纳比勒·阿卢安尼

我也在**领英和X**上活跃，并回复每一条信息。

对于 Prompt Engineering 相关咨询，请通过以下邮箱联系我：[email protected].

LLMs Are Dumber Than a House Cat

忙碌人士对 LLM 的入门介绍

LLMs 不会思考，它们 24/7 都在产生幻觉。

失落在压缩中

Sanjok 谜题

LLMs 虽然很棒

人类 + LLMs + 工具 = 超级力量

你为什么还在这里？

保持联系？

2026年牛客网最新版Java面试题及答案整理

深度测评9个AI论文平台，MBA高效写作必备！

EpiQuik Plant ChIP Kit：高灵敏度与特异性，专为植物样本优化

2026 中专大数据技术专业证书含金量怎么样?

【SRC】从任意文件上传bypass到SSRF内网突破

设计副业复盘工具，录入副业运营数据，分析优势与不足，生成复盘报告，制定优化计划，帮副业从业者持续提升收益。