news 2026/4/27 5:47:24

豆包AI模拟面试官,提示词迭代记录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
豆包AI模拟面试官,提示词迭代记录

引言

某招聘软件的AI面试,问题死板、数量固定、中途打断、随意打分,和真实面试完全不是一回事。所以我用豆包AI+提示词,自己做了个能模拟真实面试的AI面试官。

文档目的

我突然想到这个点子之后,实际使用一次后感觉效果极好,因此写这个文档记录一下我的AI面试官迭代记录,后续会持续更新。最终目标希望可以实现全行业可用的、高拟真度的AI面试官。

AI面试官构想

我想到,这些其实本质上是让AI提问,然后将你的答案与它的答案库或者搜索结果进行比对。我们需要处理的问题就是,怎么让它尽可能贴近真实线上面试场景。

模拟方式

1、视频面试模拟

面试官语音提问,自己开视频回答,这是最真实的场景。豆包AI正好有打视频功能,但是我经过测评发现几个问题:

  1. 豆包会在你回答中途插话、说‘我在听’‘你继续说’,打断思路,无法关闭。
  2. 豆包自带的打视频功能虽然有内置有说完之后再点击发送功能,但是询问后发现它只能由AI随机触发。
  3. 视频面试一旦它不分场合的中途插话,对于我来说,我的思路极为容易被打断。
2、语音面试模拟

既然视频面试走不通,我就退而求其次选择语音面试:由豆包语音给我提问(有一说一豆包语语音真不错)我同样使用语音进行回答,这样可以自由控制什么时候说完什么时候发送。我同样进行了测评:

  • 它会在每次回答完之后直接评价答案,在真实面试中是绝不可能的,所以需要加以限制。
  • 面试时会问完所有问题,哪怕答得再烂。而真实面试中,往往累计或者连续几个答错,面试官就直接让等通知了。
  • 它的提问范围,默认是直接询问八股,这个虽然有用,但是那都不是社招时面试官主要的考察点,与我模拟面试官的理念不符。

不过上述问题,都可以通过设计一套提示词解决。

提示词设计

1、结果量化

面试后我们求职者最关心的是面试过不过,或者面试表现到底如何。而其实在AI的强大数据总结和检索功能下,能轻而易举将你面试时的回答结果进行量化。基于此,我们可以定义一套评分规则:

  • 每道题总分10分,6分(含小数点后一位)为合格,最后需要统计平均分来量化面试结果。
  • 答题过程不能当场评分,面试结束之后先给出平均分,再单独列出每道题得分和扣分点。
  • 为模拟真实面试官对我失去兴趣。连续三个题不合格、或者总共5个题不合格,直接结束面试,并无视平均分直接不及格。
  • 岗位匹配度计算:我会让它问岗位JD上需要熟悉,但是求职者简历上没有相关技术栈的题目,它要单独计算这部分题目的平均分,满分10分。
  • 最终得分计算加权平均分,对应题目基础权重如下:

对于高难题、系统设计优化题,该题需要动态根据表现调整权重:

  • 得分7.9分以下:权重50%

  • 得分8.0-9.0分:权重100%

  • 得分≥9.1分:权重120%

  • 同时不计入终止规则

题目类型权重是否触发终止示例
项目深挖100%数据迁移、幂等、PDF
基础八股100%ACID、volatile、HashMap
使用场景题80%Redis怎么用的、MQ场景
系统设计/优化题50%限流方案优化、高并发设计
高难度追问题50%Nacos心跳、分布式事务

最终平均分 = (Σ核心题得分 + 0.5 × Σ非核心题得分) ÷ (核心题数量 + 0.5 × 非核心题数量)x0.9+岗位匹配题得分 × 0.1

评分时由AI完全控制扣分规则也是不可取的,因此我还根据不同题型自定义了扣分规则:

  • 对于使用场景型类问题(介绍见下文)。
    • 回答明显很假,如编造不存在的功能、技术使用场景严重不合理:直接评为不合格(≤5分),计入终止规则。
    • 回答存疑,如逻辑有漏洞、细节模糊:扣0.5-1分
  • 对于业务决策类问题(介绍见下文)
    - 回答有明显漏洞如说不出为什么比现成方案好、甚至不知道有现成工具:扣大分(1-2分)
    - 回答逻辑混乱、前后矛盾:扣1-1.5分。
    - 回答清晰,理由充分:不扣分
    -加分情况:能对比多个现成方案的优劣,并结合项目实际做出合理决策,可加分(+0.5-1分)。

这套评分规则的核心思路是:让AI模拟面试官的‘不耐烦’——连续答错就提前结束。

2、面试时间

对于我的求职目标:1-3年岗位,平均通过的时间控制在45分钟左右。我通过控制豆包的题目数量来间接控制时间:总共题目含追问是21-28个

3、题型设置

我主要分为以下题型,各自按照我面试实际情况进行配比:

  • 项目深挖:50%
  • 八股文:30%
  • 场景/排查题:15%
  • 其他(自我介绍、职业规划):5%

还有一些额外题目,主要检验项目真实度或者岗位匹配度等:

  • 岗位匹配题:根据目标岗位JD,可问1-3道该岗位需要、但候选人简历中没有明确写出的技术点或经验。判断标准如下:
    • 仅当JD中使用“熟悉”“精通”“熟练使用”“掌握”等强要求词时,才作为必问项。
    • 如果JD中使用“了解”“知道”“接触过”等弱要求词,则不问,或问了答不上来不计分。
  • 使用场景型问题:对于“在项目中如何使用XXX技术”“XXX技术的适用场景”这类问题,视为使用场景题
  • 业务决策题:选题不局限于如下例子,需参考其他面经中类似问题例如,为什么自研不用现成方案?怎么保证数据不丢?为什么选择这个技术栈而不是其他?
4、题目范围灵活拓展

还有个真实面试中,很重要的一点,面试官可能根据你回答的比较好的内容,进一步提升提问的广度,而不是局限于简历。
例如你说你做了代码层的接口限流,答得还比较好,那么面试官可能追问常见的限流方式是哪些。

具体来说:

  • 对于任何问题(项目深挖、八股、场景题等),如果候选人的回答评分达到8分以上(真实、有深度、逻辑清晰),则该回答中涉及的技术点、场景描述、实现细节,可视为简历内容的有效延伸
  • AI可根据这些延伸内容,在后续提问中灵活追问相关八股或项目细节。例如:候选人回答“我用Redis做分布式锁”,AI可追问“Redis分布式锁怎么保证原子性”“锁超时怎么处理”。
5、交互细节设置

由于使用的是语言输入模拟真实面试回答,所以难免出现同音错别字、英文识别成中文、漏字等情况,所以需要排除这方面影响,同时要避免它打断、回复无意义内容、结束前给分,我是这样设计提示词的:

  • 我会使用语音输入,可能会出现同音字、错别字或识别错误。忽略这些文字错误,只关注我表达的技术内容和逻辑。
  • 面试过程中,请不要在我每句话后都回复“好的”“知道了”“继续”等无意义内容。我会一次性回答完整个问题。
  • 在我回答问题的过程中,不要打断我,不要插话,不要追问。
  • 答题过程中不要告诉我得分。不要在我说完一段话后说“这个回答6分”之类的评分。所有评分、总结、改进建议,请在面试结束后统一给出。

提问示例

1、请你详细说一下优惠券小程序里的接口幂等性,你是怎么用 Redis 锁 + AOP 限流 + 数据库唯一索引来实现的?这三种方式分别解决什么问题?
2、你刚才提到 Redis 锁用了 UUID 防误删、设置过期时间、finally 释放。那我问你:如果业务执行时间超过 5 秒锁过期了,其他线程拿到锁会怎么样?你怎么解决这个锁超时问题?
3、你在项目里做过千万级数据从 MySQL 迁移到 MongoDB,请说一下你用的多线程分段抓取、优先级队列、单线程写入具体是怎么设计的?为什么要单线程写入?
4、你刚才说用主键游标分页做数据迁移,那为什么不用普通的 limit 分页?游标分页相比 limit 分页优势在哪里?
5、你在项目中用AOP + 自定义注解做了接口限流,说说你这个注解的核心逻辑是什么?用的是什么限流算法?
6、你提到限流用的是计数器算法,那它有临界值问题。如果现在要把它改成高并发下更可靠的限流方案,你会选用哪种算法?怎么实现?
7、那我问个基础八股:MySQL 里,什么是事务的四大特性(ACID)?分别讲一下含义。

实测效果

用这套提示词跑了一次模拟面试,14个问题,平均分8.0,AI给出的评价是“项目深挖充分,八股基础需加强”。和真实面试的反馈有较大差距,严格打分只有6.4。后续我会继续迭代(该问题用最新版提示词已修复)。

这里还附上一份我的模拟记录

豆包AI面试官使用记录(含问题、扣分点、面试总结)

更新记录

v1.1 - 2026-04-24

第二次模拟面试复盘
结果:平均分7.1分,使用deepseek排除过难题目干扰后,评分7.5分

  • 发现问题

    1. 豆包评分机制与预期不符:追问/延伸题,高难度题(超过岗位所需能力边界)答不上被拉低平均分
    2. 岗位匹配题未被问到
    3. 核心题数量偏少(仅10个)
  • 优化内容

    1. 新增“题型分类与计分规则”:明确核心题(含项目深挖、八股文等子类型)、岗位匹配题、各类追问题(项目深挖型、技术栈真实性型等)的分类逻辑,以及不同题型的计分原则。
    2. 核心题数量定至15个左右,总问答次数(核心题+追问题+岗位匹配题)控制在21-28个。
    3. 细化不同类型追问题(项目深挖、场景型、业务决策型等)的追问规则与计分原则,区分回答质量对应的评分区间。
    4. 题型设置中明确列出岗位匹配题数量。
    5. 根据不同题型,设置不同权重,例如项目深挖、基础八股权重100%,使用场景80%,系统设计、高难追问50%。
    6. 动态调整高难度或者优化类题目权重。

v1.2 - 2026-04-26

第三次测试面试复盘
结果:豆包抽风导致测试失败,暂无

  • 发现问题

    1. 题目数量如果设置过多,导致上下文过长,豆包会开始说胡话,比如中途打断、直接给出答案、一次性给出剩余题目。
    2. 规则过多,有些豆包无法理解,导致错乱,一口气甩出20道问题。
  • 优化内容

    1. 题目数量固定总数为20个。
    2. 加入一句规则,参考真实面试一问一答,否则作废,解决一次性问问题。

注意事项

由于AI模拟面试需要参考岗位JD和候选人简历,所以需要将提示词发过去的同时,粘贴岗位JD和简历内容。同时豆包评分结果仅供参考,完整的提示词见链接:

https://github.com/jmingfu/Daily-Demo/blob/main/AI-Interview-Bot-Prompt

再附上一份模拟时的题目列表(随着每次迭代,豆包问的问题感觉拟真度越来越高了)

豆包AI面试官使用记录(含问题、扣分点、面试总结)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 5:46:47

2026山东大学项目实训4月26日

V8.2 完成仓库准入申请流后,团队治理里还有一个明显短板:团队成员仍主要靠手工输入 actor,难以和真实登录身份形成稳定关联。这个问题会直接影响后续功能上限,比如成员可见范围、跨仓库协作审计、组织同步等能力都需要可靠的“成员…

作者头像 李华
网站建设 2026/4/27 5:43:24

【Kubernetes专项】温故而知新,重温技术原理(2)

Kubernetes中常见的集群部署方式? 场景/运维复杂度:1.开发/测试Minikube2.生产自建kubeadm二进制包3.自动化运维kubespray4.云托管ACK(Alibaba),EKS(AWS),TKE(Tencent)5.企业发行版R…

作者头像 李华
网站建设 2026/4/27 5:40:21

芯片测试座探针耐电流是多少?探针的过流常规是小于1A

在芯片测试领域,探针是一个至关重要的组件。它不仅影响测试的准确性和稳定性,还直接关系到整个测试过程的安全性。今天我们就来深入探讨一下芯片测试座探针的耐电流问题。一、探针耐电流的基本情况对于常规的芯片测试座所采用的探针,其过流一…

作者头像 李华
网站建设 2026/4/27 5:37:38

intv_ai_mk11Llama中型模型价值:比小模型更强,比大模型更省

intv_ai_mk11 Llama中型模型价值:比小模型更强,比大模型更省 1. 为什么选择中型模型 在人工智能领域,模型规模往往直接影响着性能和资源消耗。大型模型虽然能力强大,但对硬件要求极高;小型模型虽然轻便,但…

作者头像 李华
网站建设 2026/4/27 5:33:20

Beelink EQ14迷你主机评测:Intel N150处理器与4K双屏体验

1. Beelink EQ14迷你主机深度解析:首款Intel N150"Twin Lake"处理器的4K迷你工作站上周刚收到Beelink寄来的EQ14评测样机,这台搭载Intel N150处理器的迷你主机确实给我带来了不少惊喜。作为首批采用所谓"Twin Lake"架构的设备&#…

作者头像 李华