Qwen1.5-1.8B-Chat-GPTQ-Int4效果展示：复杂嵌套逻辑题与数学推理准确率实测-编程阁

Qwen1.5-1.8B-Chat-GPTQ-Int4效果展示：复杂嵌套逻辑题与数学推理准确率实测

最近，一个经过量化压缩的小模型——通义千问1.5-1.8B-Chat-GPTQ-Int4，引起了我的注意。它只有18亿参数，还经过了4位整数量化，理论上对资源要求极低。但一个很现实的问题摆在面前：这么小的模型，处理复杂问题的能力到底行不行？特别是那些需要多层逻辑推理和精确计算的题目，它会不会“智商”不够用？

为了找到答案，我决定做一次彻底的实测。我准备了一批“硬骨头”题目，包括逻辑陷阱题、多步骤数学题和需要理解上下文的情景题。今天这篇文章，就带你一起看看，这个“小身材”的模型，到底有没有“大智慧”。我们会用真实的提问和它的回答来评判，看看它在面对真正挑战时的表现究竟如何。

1. 测试环境与模型简介

在开始“拷问”模型之前，我们先快速了解一下这次测试的“考场”和“考生”。

1.1 测试环境搭建

这次测试基于一个已经部署好的环境。模型使用vLLM进行高效推理服务部署，这是一个针对大模型推理优化的服务框架，能显著提升生成速度。前端则使用了Chainlit，这是一个专门为对话式AI应用设计的UI框架，界面简洁，交互方便。

部署成功后，通过一个简单的命令就能查看服务状态：

cat /root/workspace/llm.log

当看到服务正常运行的日志后，就可以在Chainlit的网页界面里直接和模型对话了。整个环境搭建过程对于想快速体验模型的开发者来说非常友好。

1.2 模型背景：Qwen1.5-1.8B-Chat-GPTQ-Int4

简单来说，这是我们今天的主角档案：

家族：通义千问1.5 (Qwen1.5) 模型系列。
体型：1.8B，即18亿参数，属于“小模型”范畴。
特长：Chat，意味着它经过了对话对齐优化，更擅长理解和生成对话内容。
“瘦身”技术：GPTQ-Int4。这是一种模型量化压缩技术，能把模型权重从通常的16位浮点数（FP16）压缩到4位整数（INT4）。好处是模型体积大幅减小，运行所需的内存也少了很多，可以在更普通的硬件上运行；潜在的代价是，精度可能会有微小的损失。

所以，我们测试的核心就是：这个又小又“瘦”的模型，在需要动脑筋的推理任务上，到底能得多少分？

2. 复杂逻辑推理能力实测

逻辑推理是检验模型思维清晰度和严谨性的试金石。我设计了几个有陷阱、需要多步推导的题目，让我们看看模型的应对。

2.1 经典逻辑陷阱题：“谁养鱼？”

这是著名的“爱因斯坦谜题”的变种，题目信息量大，条件嵌套复杂。

我的提问： “请解这个逻辑题：有五间房子，每间房子颜色不同，里面住着不同国籍的人，喝不同的饮料，抽不同的烟，养不同的宠物。已知：1.英国人住红色房子。2.瑞典人养狗。3.丹麦人喝茶。4.绿色房子在白色房子左边。5.绿色房子主人喝咖啡。6.抽Pall Mall烟的人养鸟。7.黄色房子主人抽Dunhill烟。8.住在中间房子的人喝牛奶。9.挪威人住第一间房。10.抽Blends烟的人住在养猫的人隔壁。11.养马的人住在抽Dunhill烟的人隔壁。12.抽Blue Master烟的人喝啤酒。13.德国人抽Prince烟。14.挪威人住在蓝色房子隔壁。15.抽Blends烟的人有一个喝水的邻居。问题是：谁养鱼？”

模型回答： “这是一个经典的爱因斯坦逻辑谜题……我们需要通过条件逐步推理出所有属性。……（此处模型展示了一个非常详细、分步骤的推理过程，依次推断了国籍、颜色、饮料、香烟、宠物的完整表格）……最终，我们得到完整的分配是：第一间：黄色，挪威，水，Dunhill，猫；第二间：蓝色，丹麦，茶，Blends，马；第三间：红色，英国，牛奶，Pall Mall，鸟；第四间：绿色，德国，咖啡，Prince，鱼；第五间：白色，瑞典，啤酒，Blue Master，狗。所以，养鱼的是德国人。”

结果分析：

准确性：完全正确。模型不仅给出了正确答案（德国人），而且其逐步推理的过程清晰、完整，每一步都引用了题目条件，最终呈现的5x5属性表也是对的。
表现评价：令人印象深刻。面对15个交错的条件，模型没有混乱，展现出了强大的约束满足问题求解能力和清晰的“思维链”。这对于一个1.8B的量化模型来说，表现超乎预期。

2.2 情景演绎与排除法：“三个开关”

这是一个需要结合物理常识和逻辑推理的情景题。

我的提问： “房间里有三盏灯，屋外有三个开关，分别控制这三盏灯。你只能进房间一次。如何确定哪个开关控制哪盏灯？”

模型回答： “1. 先打开第一个开关，让它开几分钟，然后关闭它。2. 立即打开第二个开关。3. 现在走进房间。观察三盏灯：- 亮着的那盏灯是由第二个开关控制的。- 摸一下另外两盏不亮的灯：有一盏灯是热的，这盏灯是由第一个开关控制的（因为它亮过几分钟，有余热）。- 剩下那盏既不亮也不热的灯，就是由第三个开关控制的。”

结果分析：

准确性：完全正确。模型准确地抓住了“利用灯泡发热的物理特性”这一关键点，并给出了标准解决方案。
表现评价：优秀。回答简洁、步骤清晰，表明模型不仅能处理抽象逻辑，还能将逻辑推理与简单的物理世界常识相结合。

3. 数学推理与计算能力实测

接下来考验模型的“数学大脑”。我选择了需要多步计算和概念理解的题目。

3.1 基础代数与理解：“鸡兔同笼”

这是检验模型将文字描述转化为数学方程的能力。

我的提问： “鸡和兔关在同一个笼子里，从上面数有35个头，从下面数有94只脚。问鸡和兔各有多少只？”

模型回答： “设鸡有x只，兔有y只。根据题意：1. 头的总数：x + y = 35。2. 脚的总数：2x + 4y = 94（因为鸡2只脚，兔4只脚）。解这个方程组：由方程1得 y = 35 - x，代入方程2：2x + 4(35 - x) = 94 -> 2x + 140 - 4x = 94 -> -2x = 94 - 140 -> -2x = -46 -> x = 23。则 y = 35 - 23 = 12。所以，鸡有23只，兔有12只。”

结果分析：

准确性：完全正确。模型正确设立变量和方程，并准确求解。
表现评价：稳定可靠。展现了扎实的基础数学问题解决能力。

3.2 多步骤应用题：“工程问题”

这类问题需要理解速率、时间和工作量的关系，并进行分步计算。

我的提问： “一个水池，有一个进水管和一个出水管。单开进水管6小时可以注满水池，单开出水管8小时可以把满池水放完。如果同时打开进水管和出水管，问需要多少小时才能注满水池？”

模型回答： “1. 进水管每小时进水效率：1/6（池/小时）。2. 出水管每小时出水效率：1/8（池/小时）。3. 同时打开时，每小时净进水效率：(1/6) - (1/8) = (4/24) - (3/24) = 1/24（池/小时）。4. 注满一整池（1池）所需时间：1 ÷ (1/24) = 24（小时）。所以，同时打开进水管和出水管，需要24小时才能注满水池。”

结果分析：

准确性：完全正确。模型准确理解了“净效率”的概念，计算过程无误。
表现评价：良好。展示了处理经典工程问题的能力，思维步骤符合人类解题习惯。

3.3 挑战题：概率计算

概率问题容易在理解题意和计算过程中出错。

我的提问： “一枚均匀的硬币连续抛掷3次，恰好出现2次正面的概率是多少？”

模型回答： “连续抛掷3次硬币，所有可能的结果有 2^3 = 8 种。恰好出现2次正面的情况有：正正反、正反正、反正正，共3种。所以，概率 P = 3/8。”

结果分析：

准确性：完全正确。模型正确列出了所有等可能基本事件和满足条件的事件，并计算了概率。
表现评价：准确。对于基础的概率组合计算，模型表现稳定。

4. 综合表现总结与评价

经过以上多个维度的实测，我们可以对Qwen1.5-1.8B-Chat-GPTQ-Int4模型的推理能力做一个全面的总结了。

4.1 实测结果总览

测试类别	题目类型	模型回答	准确性	评价
逻辑推理	复杂条件推理（谁养鱼）	详细步骤推导，得出正确答案	正确	表现惊艳，思维链清晰
逻辑推理	情景推理（三个开关）	结合物理常识给出标准方案	正确	优秀，能关联常识
数学计算	基础代数（鸡兔同笼）	正确列方程并求解	正确	稳定可靠
数学计算	多步骤应用（工程问题）	理解净效率概念并计算	正确	良好，步骤清晰
数学计算	概率计算（抛硬币）	正确列举事件并计算概率	正确	准确

4.2 核心能力亮点

强大的约束推理能力：在“谁养鱼”这种多条件嵌套的经典难题上，模型展现出了媲美更大规模模型的推理能力。它能逐步解析条件，建立关联，最终推导出唯一解，这个过程非常清晰。
可靠的数学基础：对于中小学数学范围内的代数、应用题和基础概率问题，模型的准确率很高。它能正确理解题意，转化为数学语言，并执行准确计算。
结合常识的推理：在“三个开关”问题中，模型成功地将“灯泡会发热”这一日常物理常识纳入推理链条，说明其知识库中包含了有用的现实世界知识。
“思维链”清晰可见：在多数回答中，模型倾向于展示其推理步骤，而不是直接抛出答案。这不仅让答案更可信，也便于我们理解它的“思考”过程。

4.3 能力边界与注意事项

当然，测试也反映出一些潜在的边界：

测试范围有限：本次测试主要集中在逻辑和基础数学。对于更复杂的数学证明、高等数学或需要极深专业知识的逻辑谜题，其能力有待进一步检验。
量化可能的影响：虽然本次测试中未发现明显错误，但GPTQ-Int4量化理论上可能在某些极端复杂的数值计算或对精度极其敏感的任务中引入微小误差。对于绝大多数常识推理和基础计算，影响微乎其微。
提示词依赖性：模型的发挥与提问方式有一定关系。清晰、无歧义的问题描述能获得更可靠的回答。