选择性检索增强代码补全技术解析-编程阁

通过选择性检索增强仓库级代码补全

大型代码语言模型在补全任意程序函数代码方面表现出色，但面对大型软件开发项目时，正确的代码补全可能依赖于代码仓库中其他地方定义的API调用或函数。检索增强生成通过从仓库中获取相关上下文来解决此问题，从而丰富模型的理解并改善其输出。但执行检索需要时间并会减慢生成速度：它总是最佳选择吗？

在今年的国际机器学习会议上发表的一篇论文中，我们研究了这个问题，并发现，实际上，80%的情况下，检索并没有提高代码生成的质量。

方法概述

为了解决这种低效问题，我们微调了一个大型语言模型，以确定检索是否可能有所帮助，并根据答案输出两个特殊令牌中的一个。

为了进行微调，我们使用了一个通过以下方式构建的数据集：从开源许可证的仓库中采样代码，随机掩码代码行，并从仓库的其他地方检索相关代码。然后，我们比较了大型语言模型在有和没有附加上下文的情况下对掩码代码的重建效果。随后，根据检索是否改善了生成效果来为示例打标。

在实验中，我们发现在代码补全任务上，在我们的数据集上微调的代码大型语言模型，其表现甚至优于总是执行检索的模型——但由于选择性检索，推理速度提高了70%。在论文中，我们还报告了大量实验，旨在证明我们的方法能够很好地推广到不同的模型和不同的代码补全任务。

技术细节

创建我们数据集的所有步骤——采样和掩码代码、检索相关代码、以及在有/无检索上下文的情况下进行代码生成——都可以自动化，这使得我们的方法是自监督的：它不需要人工标注，并且可以扩展到任意大的数据集规模。

我们试验了多种从仓库检索上下文信息的方法，包括使用基于Transformer的语义嵌入来匹配代码序列的UniXCoder，以及使用n-gram数据、语法树和代码流语义的CodeBLEU。然而，两者都没有比更高效的Jaccard相似度（两个符号序列的交集与并集之比）表现得更好。因此，在我们的大多数实验中，我们使用Jaccard相似度进行检索。我们假设，使用结构感知分块而不是固定行分块的语义检索可以获得更好的性能。我们将此留作未来的工作。

对于模型微调，我们使用了“中间填充”机制，即掩码代码从代码序列中切出，前面和后面的部分用特殊令牌标识。训练目标由输入字符串组成，掩码代码附加在字符串末尾，同样用特殊令牌标识。这使得模型能够利用掩码代码前后的上下文信息；研究表明，这比训练模型在前后的部分之间插入生成的代码能产生更好的结果。

在微调过程中，我们有两个训练目标：正确重建缺失的代码，以及准确评估检索到的信息何时有助于重建。

准确性与延迟评估

与现有模型（如StarCoder）相比，我们的方法（称为Repoformer）在多个基准测试（包括RepoEval和针对长格式代码补全的新基准CrossCodeEval）上提高了准确性并减少了推理延迟。

我们通过一个现实的“在线服务”场景来说明Repoformer降低延迟的能力。我们假设工作仓库已被索引。给定一个包含当前文件的代码补全请求，系统同时启动三个进程：

使用Repoformer做出检索决策；
使用代码大型语言模型生成没有跨文件上下文的代码补全；
检索跨文件上下文并使用它生成代码补全。

在一系列固定的选择阈值下，Repoformer的选择性检索能够同时提高准确性和推理速度。这种性能在广泛的阈值设置下也保持稳定。

更有趣的是，Repoformer能够作为一个即插即用的策略模型，减少作为检索增强生成中生成模型的各种强大代码大型语言模型的推理延迟。

凭借超过85%的检索决策准确率，Repoformer确保仅在检索增加价值时才使用上下文检索。进一步的分析表明，所提出的策略提高了Repoformer对检索的鲁棒性，减少了有害检索，并增加了通过检索改进的实例数量。FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

电商大模型应用：知识图谱构建实战指南，如何基于⼤模型构建电商知识图谱？

文章分享了基于大模型构建电商知识图谱的实战案例，解决电商领域人工标注效率低、成本高的问题。通过构建商品品类词和品类描述词生成Agent，使用字节火山引擎方舟平台的豆包模型作为基座，结合Prompt工程和SFT微调技术，实现自动化数…

李华

P9333 [JOIST 2023] 议会 / Council题解

P9333 [JOIST 2023] 议会 / Council 题目背景本题子任务编号如果为 0 表示样例，如果是非 0 的一位数表示满足对应的子任务，如果是两位数表示同时满足这两个子任务。题目描述题目翻译在 JOI 市议会中，有 NNN 名议员，编号从 111…

李华

ops-nn仓库深度实操：AIGC模型适配的核心算子调用与避坑指南

在上一篇博客中，我们全景拆解了CANN开源仓的四大核心模块，明确了ops-nn仓库作为AIGC模型适配的“基础基石”，承载着卷积、激活、归一化等核心算子的支撑作用。但很多开发者在实际上手后，依然会遇到各种问题：调用ops-nn…

李华

DeepSeek-OCR 2上线魔乐社区，让AI像人一样读文档

当我们阅读一页复杂文档时，视线并不是从左上到右下机械扫描，而是会沿着标题、段落、表格、公式的逻辑顺序自然跳转。DeepSeek 最新发布的 DeepSeek-OCR 2，正是第一次把这种人类阅读逻辑引入OCR模型架构。它不仅识别更准，更重要的是…

李华

MiniCPM-o 4.5开源上线魔乐社区：「眼耳口」并用，模型交互从「一问一答」变为「即时自由对话」

2月4日，面壁智能开源了新一代全模态旗舰模型 MiniCPM-o 4.5 ！作为原生全双工的全模态大模型，MiniCPM-o 4.5 让人机交互再上新台阶——通过「边看、边听、主动说」的全模态能力，让 AI 告别死板的“对讲机”回合制交互，成…

李华

算法学习——素数筛法

素数：一个大于1的自然数，除了1和它本身以外不再有其他因数的数称为素数。合数:一个大于1的自然数，除了1和它本身以外还有其他因数的数称为合数。因数：整数a除以整数b（b≠0）的商正好是整数而没有余数&#x…

李华