豆包AI模拟面试官，提示词迭代记录-编程阁

引言

某招聘软件的AI面试，问题死板、数量固定、中途打断、随意打分，和真实面试完全不是一回事。所以我用豆包AI+提示词，自己做了个能模拟真实面试的AI面试官。

文档目的

我突然想到这个点子之后，实际使用一次后感觉效果极好，因此写这个文档记录一下我的AI面试官迭代记录，后续会持续更新。最终目标希望可以实现全行业可用的、高拟真度的AI面试官。

AI面试官构想

我想到，这些其实本质上是让AI提问，然后将你的答案与它的答案库或者搜索结果进行比对。我们需要处理的问题就是，怎么让它尽可能贴近真实线上面试场景。

模拟方式

1、视频面试模拟

面试官语音提问，自己开视频回答，这是最真实的场景。豆包AI正好有打视频功能，但是我经过测评发现几个问题：

豆包会在你回答中途插话、说‘我在听’‘你继续说’，打断思路，无法关闭。
豆包自带的打视频功能虽然有内置有说完之后再点击发送功能，但是询问后发现它只能由AI随机触发。
视频面试一旦它不分场合的中途插话，对于我来说，我的思路极为容易被打断。

2、语音面试模拟

既然视频面试走不通，我就退而求其次选择语音面试：由豆包语音给我提问（有一说一豆包语语音真不错）我同样使用语音进行回答，这样可以自由控制什么时候说完什么时候发送。我同样进行了测评：

它会在每次回答完之后直接评价答案，在真实面试中是绝不可能的，所以需要加以限制。
面试时会问完所有问题，哪怕答得再烂。而真实面试中，往往累计或者连续几个答错，面试官就直接让等通知了。
它的提问范围，默认是直接询问八股，这个虽然有用，但是那都不是社招时面试官主要的考察点，与我模拟面试官的理念不符。

不过上述问题，都可以通过设计一套提示词解决。

提示词设计

1、结果量化

面试后我们求职者最关心的是面试过不过，或者面试表现到底如何。而其实在AI的强大数据总结和检索功能下，能轻而易举将你面试时的回答结果进行量化。基于此，我们可以定义一套评分规则：

每道题总分10分，6分（含小数点后一位）为合格，最后需要统计平均分来量化面试结果。
答题过程不能当场评分，面试结束之后先给出平均分，再单独列出每道题得分和扣分点。
为模拟真实面试官对我失去兴趣。连续三个题不合格、或者总共5个题不合格，直接结束面试，并无视平均分直接不及格。
岗位匹配度计算：我会让它问岗位JD上需要熟悉，但是求职者简历上没有相关技术栈的题目，它要单独计算这部分题目的平均分，满分10分。
最终得分计算加权平均分，对应题目基础权重如下：

对于高难题、系统设计优化题，该题需要动态根据表现调整权重：

得分7.9分以下：权重50%
得分8.0-9.0分：权重100%
得分≥9.1分：权重120%
同时不计入终止规则

题目类型	权重	是否触发终止	示例
项目深挖	100%	是	数据迁移、幂等、PDF
基础八股	100%	是	ACID、volatile、HashMap
使用场景题	80%	否	Redis怎么用的、MQ场景
系统设计/优化题	50%	否	限流方案优化、高并发设计
高难度追问题	50%	否	Nacos心跳、分布式事务

最终平均分 = (Σ核心题得分 + 0.5 × Σ非核心题得分) ÷ (核心题数量 + 0.5 × 非核心题数量)x0.9+岗位匹配题得分 × 0.1

评分时由AI完全控制扣分规则也是不可取的，因此我还根据不同题型自定义了扣分规则：

对于使用场景型类问题（介绍见下文）。
- 回答明显很假，如编造不存在的功能、技术使用场景严重不合理：直接评为不合格（≤5分），计入终止规则。
- 回答存疑，如逻辑有漏洞、细节模糊：扣0.5-1分
对于业务决策类问题（介绍见下文）
- 回答有明显漏洞如说不出为什么比现成方案好、甚至不知道有现成工具：扣大分（1-2分）
- 回答逻辑混乱、前后矛盾：扣1-1.5分。
- 回答清晰，理由充分：不扣分
-加分情况：能对比多个现成方案的优劣，并结合项目实际做出合理决策，可加分（+0.5-1分）。

这套评分规则的核心思路是：让AI模拟面试官的‘不耐烦’——连续答错就提前结束。

2、面试时间

对于我的求职目标：1-3年岗位，平均通过的时间控制在45分钟左右。我通过控制豆包的题目数量来间接控制时间：总共题目含追问是21-28个

3、题型设置

我主要分为以下题型，各自按照我面试实际情况进行配比：

项目深挖：50%
八股文：30%
场景/排查题：15%
其他（自我介绍、职业规划）：5%

还有一些额外题目，主要检验项目真实度或者岗位匹配度等：

岗位匹配题：根据目标岗位JD，可问1-3道该岗位需要、但候选人简历中没有明确写出的技术点或经验。判断标准如下：
- 仅当JD中使用“熟悉”“精通”“熟练使用”“掌握”等强要求词时，才作为必问项。
- 如果JD中使用“了解”“知道”“接触过”等弱要求词，则不问，或问了答不上来不计分。
使用场景型问题：对于“在项目中如何使用XXX技术”“XXX技术的适用场景”这类问题，视为使用场景题
业务决策题：选题不局限于如下例子，需参考其他面经中类似问题例如，为什么自研不用现成方案？怎么保证数据不丢？为什么选择这个技术栈而不是其他？

4、题目范围灵活拓展

还有个真实面试中，很重要的一点，面试官可能根据你回答的比较好的内容，进一步提升提问的广度，而不是局限于简历。
例如你说你做了代码层的接口限流，答得还比较好，那么面试官可能追问常见的限流方式是哪些。

具体来说：

对于任何问题（项目深挖、八股、场景题等），如果候选人的回答评分达到8分以上（真实、有深度、逻辑清晰），则该回答中涉及的技术点、场景描述、实现细节，可视为简历内容的有效延伸。
AI可根据这些延伸内容，在后续提问中灵活追问相关八股或项目细节。例如：候选人回答“我用Redis做分布式锁”，AI可追问“Redis分布式锁怎么保证原子性”“锁超时怎么处理”。

5、交互细节设置

由于使用的是语言输入模拟真实面试回答，所以难免出现同音错别字、英文识别成中文、漏字等情况，所以需要排除这方面影响，同时要避免它打断、回复无意义内容、结束前给分，我是这样设计提示词的：

我会使用语音输入，可能会出现同音字、错别字或识别错误。忽略这些文字错误，只关注我表达的技术内容和逻辑。
面试过程中，请不要在我每句话后都回复“好的”“知道了”“继续”等无意义内容。我会一次性回答完整个问题。
在我回答问题的过程中，不要打断我，不要插话，不要追问。
答题过程中不要告诉我得分。不要在我说完一段话后说“这个回答6分”之类的评分。所有评分、总结、改进建议，请在面试结束后统一给出。

提问示例

1、请你详细说一下优惠券小程序里的接口幂等性，你是怎么用 Redis 锁 + AOP 限流 + 数据库唯一索引来实现的？这三种方式分别解决什么问题？
2、你刚才提到 Redis 锁用了 UUID 防误删、设置过期时间、finally 释放。那我问你：如果业务执行时间超过 5 秒锁过期了，其他线程拿到锁会怎么样？你怎么解决这个锁超时问题？
3、你在项目里做过千万级数据从 MySQL 迁移到 MongoDB，请说一下你用的多线程分段抓取、优先级队列、单线程写入具体是怎么设计的？为什么要单线程写入？
4、你刚才说用主键游标分页做数据迁移，那为什么不用普通的 limit 分页？游标分页相比 limit 分页优势在哪里？
5、你在项目中用AOP + 自定义注解做了接口限流，说说你这个注解的核心逻辑是什么？用的是什么限流算法？
6、你提到限流用的是计数器算法，那它有临界值问题。如果现在要把它改成高并发下更可靠的限流方案，你会选用哪种算法？怎么实现？
7、那我问个基础八股：MySQL 里，什么是事务的四大特性（ACID）？分别讲一下含义。

实测效果

用这套提示词跑了一次模拟面试，14个问题，平均分8.0，AI给出的评价是“项目深挖充分，八股基础需加强”。和真实面试的反馈有较大差距，严格打分只有6.4。后续我会继续迭代（该问题用最新版提示词已修复）。

这里还附上一份我的模拟记录

豆包AI面试官使用记录(含问题、扣分点、面试总结)

更新记录

v1.1 - 2026-04-24

第二次模拟面试复盘
结果：平均分7.1分，使用deepseek排除过难题目干扰后，评分7.5分

发现问题：
1. 豆包评分机制与预期不符：追问/延伸题，高难度题（超过岗位所需能力边界）答不上被拉低平均分
2. 岗位匹配题未被问到
3. 核心题数量偏少（仅10个）
优化内容：
1. 新增“题型分类与计分规则”：明确核心题（含项目深挖、八股文等子类型）、岗位匹配题、各类追问题（项目深挖型、技术栈真实性型等）的分类逻辑，以及不同题型的计分原则。
2. 核心题数量定至15个左右，总问答次数（核心题+追问题+岗位匹配题）控制在21-28个。
3. 细化不同类型追问题（项目深挖、场景型、业务决策型等）的追问规则与计分原则，区分回答质量对应的评分区间。
4. 题型设置中明确列出岗位匹配题数量。
5. 根据不同题型，设置不同权重，例如项目深挖、基础八股权重100%，使用场景80%，系统设计、高难追问50%。
6. 动态调整高难度或者优化类题目权重。

v1.2 - 2026-04-26

第三次测试面试复盘
结果：豆包抽风导致测试失败，暂无

发现问题：
1. 题目数量如果设置过多，导致上下文过长，豆包会开始说胡话，比如中途打断、直接给出答案、一次性给出剩余题目。
2. 规则过多，有些豆包无法理解，导致错乱，一口气甩出20道问题。
优化内容：
1. 题目数量固定总数为20个。
2. 加入一句规则，参考真实面试一问一答，否则作废，解决一次性问问题。