LFM2.5-1.2B-Thinking代码补全：VSCode插件开发实战-编程阁

LFM2.5-1.2B-Thinking代码补全：VSCode插件开发实战

写代码的时候，你有没有过这样的体验：脑子里有个大概的思路，但具体到某个函数怎么写、某个API怎么调用，总得停下来查文档或者翻看之前的代码。这种打断特别影响思路的连贯性，有时候查着查着，刚才想好的逻辑都忘了。

最近我在尝试一个挺有意思的东西：用LFM2.5-1.2B-Thinking这个专门为推理优化的小模型，给自己做一个本地的代码补全插件。这个模型只有12亿参数，在我的笔记本上跑起来轻轻松松，内存占用不到1GB，但代码补全的效果却意外地不错。

今天我就来分享一下怎么把这个小模型变成你VSCode里的智能编程助手，从插件架构设计到性能优化，一步步带你实现。

1. 为什么选择LFM2.5-1.2B-Thinking？

你可能听说过很多大模型，动辄几十亿甚至几百亿参数，跑起来需要专门的显卡，普通电脑根本带不动。LFM2.5-1.2B-Thinking不一样，它是专门为端侧设备设计的，主打的就是轻量高效。

我选择它来做代码补全，主要是看中这几个特点：

推理能力强：这个模型的名字里带“Thinking”，就是因为它会先生成内部的思考轨迹，再输出最终答案。对于代码补全这种需要逻辑推理的任务特别合适。比如你写了一半的函数，它能理解上下文，推测出你接下来想写什么。

速度快：在我的MacBook Pro上，一次补全建议的生成时间大概在200-300毫秒，这个延迟对于日常编码来说完全能接受。你敲完代码，稍微停顿一下，建议就出来了。

资源占用少：模型文件只有700多MB，运行时内存占用控制在900MB以内。这意味着你可以在写代码的同时，后台跑着模型，还能开浏览器查资料、开终端测试，电脑不会卡顿。

完全本地运行：所有计算都在你电脑上完成，代码不会上传到任何服务器。对于处理公司内部代码或者敏感项目，这一点特别重要。

2. 插件整体架构设计

我们先来看看这个插件的整体架构。我不想把它做得太复杂，核心目标就是：在你写代码的时候，实时给出合理的补全建议。

整个插件分为三个主要部分：

2.1 模型服务层

这是最底层，负责加载和运行LFM2.5-1.2B-Thinking模型。我选择了Ollama作为推理引擎，因为它对LFM2.5系列模型支持得很好，而且安装配置特别简单。

// 模型服务配置 const modelConfig = { name: 'lfm2.5-thinking:1.2b', endpoint: 'http://localhost:11434/api/generate', parameters: { temperature: 0.2, // 温度设低一点，让输出更确定 top_k: 40, // 只考虑概率最高的40个token num_predict: 50, // 最多预测50个token repeat_penalty: 1.1 // 轻微惩罚重复，避免循环 } };

2.2 上下文处理层

代码补全的质量很大程度上取决于给模型的上下文信息。这部分负责收集和分析你正在编辑的代码，提取出对补全有用的信息。

我设计了几个关键的上下文收集策略：

当前文件内容：获取光标前后一定范围的代码，通常取前200行和后50行，这样模型能理解局部的代码结构。

导入的模块和函数：分析文件开头的import语句，知道可用的外部API。

最近的函数定义：如果光标在函数内部，获取该函数的签名和之前的代码。

项目结构信息：如果是TypeScript项目，还会收集类型定义信息。

// 上下文收集器 class CodeContextCollector { async collectContext(document: vscode.TextDocument, position: vscode.Position) { const context = { // 获取当前文件内容 fileContent: this.getFileContentAroundCursor(document, position), // 分析语言特性 languageId: document.languageId, // 提取导入语句 imports: this.extractImports(document), // 获取最近的函数或类定义 currentScope: this.getCurrentScope(document, position), // 如果是TS/JS，收集类型信息 typeInfo: await this.collectTypeInfo(document, position) }; return this.formatContextForModel(context); } private getFileContentAroundCursor(document: vscode.TextDocument, position: vscode.Position) { const startLine = Math.max(0, position.line - 100); const endLine = Math.min(document.lineCount, position.line + 50); let content = ''; for (let i = startLine; i < endLine; i++) { content += document.lineAt(i).text + '\n'; } return content; } }

2.3 用户界面层

这一层负责和VSCode编辑器交互，包括显示补全建议、处理用户选择、管理补全会话等。

VSCode提供了完善的补全API，我们需要注册一个补全提供者，在用户输入时触发建议。

// 注册补全提供者 export function activate(context: vscode.ExtensionContext) { // 初始化模型服务 const modelService = new ModelService(); const contextCollector = new CodeContextCollector(); const completionProvider = new CompletionProvider(modelService, contextCollector); // 注册代码补全提供者 const provider = vscode.languages.registerCompletionItemProvider( { scheme: 'file', language: 'typescript' }, completionProvider, '.', // 触发字符：点号（访问属性） ' ', // 空格 '(' // 左括号 ); context.subscriptions.push(provider); // 注册命令 const generateCommand = vscode.commands.registerCommand('lfm-completion.generate', async () => { await completionProvider.triggerManualCompletion(); }); context.subscriptions.push(generateCommand); }

3. 核心实现步骤

3.1 第一步：设置Ollama和模型

首先确保你的电脑上安装了Ollama。如果还没装，去官网下载安装就行，过程很简单。

安装好后，打开终端，拉取LFM2.5-1.2B-Thinking模型：

# 拉取模型 ollama pull lfm2.5-thinking:1.2b # 测试模型是否正常工作 ollama run lfm2.5-thinking:1.2b "写一个Python函数计算斐波那契数列"

如果模型能正常回复，说明环境配置成功了。

3.2 第二步：创建VSCode插件项目

用VSCode自带的插件生成工具创建项目：

# 安装Yeoman和VS Code扩展生成器 npm install -g yo generator-code # 生成插件项目 yo code # 按照提示选择： # ? What type of extension do you want to create? New Extension (TypeScript) # ? What's the name of your extension? lfm-code-completion # ... 其他选项按需选择

3.3 第三步：实现模型调用

创建一个专门负责和Ollama API交互的服务类：

import * as vscode from 'vscode'; import axios from 'axios'; export class ModelService { private endpoint: string; private modelName: string; constructor() { const config = vscode.workspace.getConfiguration('lfmCompletion'); this.endpoint = config.get('ollamaEndpoint', 'http://localhost:11434/api/generate'); this.modelName = config.get('modelName', 'lfm2.5-thinking:1.2b'); } async generateCompletion(prompt: string, context: string): Promise<string> { try { const fullPrompt = this.buildPrompt(prompt, context); const response = await axios.post(this.endpoint, { model: this.modelName, prompt: fullPrompt, stream: false, options: { temperature: 0.2, top_k: 40, num_predict: 100, repeat_penalty: 1.1, stop: ['\n\n', '```', '//', '#', '/*'] } }, { timeout: 10000 // 10秒超时 }); return response.data.response.trim(); } catch (error) { vscode.window.showErrorMessage(`模型调用失败: ${error.message}`); return ''; } } private buildPrompt(userPrompt: string, context: string): string { // 构建适合代码补全的提示词 return `你是一个专业的代码助手。请根据以下上下文，补全代码。 上下文代码： \`\`\` ${context} \`\`\` 用户需要补全的位置标记为：<CURSOR> 请只输出补全的代码部分，不要解释，不要额外文本。 补全结果：`; } // 检查Ollama服务是否可用 async checkHealth(): Promise<boolean> { try { await axios.get('http://localhost:11434/api/tags', { timeout: 3000 }); return true; } catch { return false; } } }

3.4 第四步：实现智能补全逻辑

这是插件的核心，需要处理好几种常见的补全场景：

export class CompletionProvider implements vscode.CompletionItemProvider { constructor( private modelService: ModelService, private contextCollector: CodeContextCollector ) {} async provideCompletionItems( document: vscode.TextDocument, position: vscode.Position, token: vscode.CancellationToken ): Promise<vscode.CompletionItem[]> { // 检查是否应该触发补全 if (!this.shouldTriggerCompletion(document, position)) { return []; } // 收集上下文 const context = await this.contextCollector.collectContext(document, position); // 获取光标前的文本作为提示 const linePrefix = document.lineAt(position).text.substr(0, position.character); // 根据不同的场景构建不同的提示 const prompt = this.buildCompletionPrompt(linePrefix, context); // 调用模型生成补全 const completionText = await this.modelService.generateCompletion(prompt, context); if (!completionText) { return []; } // 将模型输出转换为VSCode的补全项 return this.parseCompletionToItems(completionText, position); } private shouldTriggerCompletion(document: vscode.TextDocument, position: vscode.Position): boolean { const line = document.lineAt(position.line); const textBeforeCursor = line.text.substring(0, position.character); // 触发补全的场景： // 1. 输入点号访问属性 if (textBeforeCursor.endsWith('.')) { return true; } // 2. 输入空格后（某些语言中） if (textBeforeCursor.endsWith(' ') && textBeforeCursor.length > 1) { return true; } // 3. 输入左括号开始函数调用 if (textBeforeCursor.endsWith('(')) { return true; } // 4. 新的一行开始 if (textBeforeCursor.trim().length === 0 && position.character === 0) { return true; } return false; } private buildCompletionPrompt(linePrefix: string, context: any): string { // 根据不同的编程语言和场景构建提示 const language = context.languageId; if (language === 'typescript' || language === 'javascript') { if (linePrefix.includes('.')) { // 属性访问补全 return `补全属性访问：${linePrefix}`; } else if (linePrefix.includes('import')) { // 导入语句补全 return `补全导入语句：${linePrefix}`; } else { // 通用代码补全 return `补全代码：${linePrefix}`; } } // 默认提示 return `继续编写代码：${linePrefix}`; } private parseCompletionToItems(completionText: string, position: vscode.Position): vscode.CompletionItem[] { // 将模型输出的文本拆分成多个补全建议 const items: vscode.CompletionItem[] = []; // 常见的补全模式 const patterns = [ // 函数调用补全 /(\w+)\([^)]*\)/g, // 属性访问补全 /\.(\w+)/g, // 变量/方法名补全 /(\b\w+\b)(?=\s*[=;,)])/g ]; // 提取所有可能的补全 const seen = new Set<string>(); for (const pattern of patterns) { let match; while ((match = pattern.exec(completionText)) !== null) { const text = match[1] || match[0]; if (text.length > 1 && !seen.has(text)) { seen.add(text); const item = new vscode.CompletionItem(text, vscode.CompletionItemKind.Method); item.insertText = text; item.detail = 'LFM智能补全'; item.documentation = new vscode.MarkdownString(`由LFM2.5模型生成的补全建议`); items.push(item); } } } // 如果没有提取到特定模式，使用整个补全文本作为一个建议 if (items.length === 0 && completionText.trim().length > 0) { const trimmed = completionText.trim().split('\n')[0]; if (trimmed.length > 0) { const item = new vscode.CompletionItem(trimmed, vscode.CompletionItemKind.Text); item.insertText = trimmed; items.push(item); } } return items; } }

3.5 第五步：添加配置和状态管理

为了让插件更灵活，我添加了一些配置选项：

// package.json中的配置部分 "contributes": { "configuration": { "title": "LFM代码补全", "properties": { "lfmCompletion.enabled": { "type": "boolean", "default": true, "description": "启用/禁用LFM代码补全" }, "lfmCompletion.ollamaEndpoint": { "type": "string", "default": "http://localhost:11434/api/generate", "description": "Ollama API端点" }, "lfmCompletion.modelName": { "type": "string", "default": "lfm2.5-thinking:1.2b", "description": "使用的模型名称" }, "lfmCompletion.maxContextLines": { "type": "number", "default": 200, "description": "最大上下文行数" }, "lfmCompletion.delayMs": { "type": "number", "default": 300, "description": "触发补全的延迟毫秒数" } } } }

4. 性能优化技巧

在实际使用中，我发现有几个地方对性能影响很大，做了针对性的优化：

4.1 上下文长度控制

模型处理长文本会变慢，而且LFM2.5的上下文长度有限。我实现了一个智能的上下文截断策略：

class SmartContextTruncator { truncateContext(context: string, maxTokens: number = 2000): string { // 优先保留重要部分： // 1. 光标附近的代码 // 2. 函数/类定义 // 3. 导入语句 // 4. 类型定义 const lines = context.split('\n'); if (lines.length <= maxTokens / 10) { // 粗略估算 return context; } // 标记重要行 const importantLines = new Set<number>(); lines.forEach((line, index) => { if (this.isImportantLine(line)) { importantLines.add(index); // 保留重要行前后的几行作为上下文 for (let i = Math.max(0, index - 2); i <= Math.min(lines.length - 1, index + 2); i++) { importantLines.add(i); } } }); // 构建截断后的上下文 const truncatedLines: string[] = []; const included = new Set<number>(); // 按重要性排序并选择 Array.from(importantLines) .sort((a, b) => Math.abs(a - lines.length / 2) - Math.abs(b - lines.length / 2)) .forEach(index => { if (truncatedLines.length < maxTokens / 10 && !included.has(index)) { truncatedLines.push(lines[index]); included.add(index); } }); return truncatedLines.join('\n'); } private isImportantLine(line: string): boolean { const trimmed = line.trim(); // 函数/类定义 if (trimmed.match(/^(function|class|interface|type|enum)\s+\w+/)) { return true; } // 导入语句 if (trimmed.startsWith('import ') || trimmed.startsWith('export ')) { return true; } // 类型定义 if (trimmed.includes(': ') && (trimmed.includes('string') || trimmed.includes('number') || trimmed.includes('boolean'))) { return true; } // 注释（可能包含重要信息） if (trimmed.startsWith('//') || trimmed.startsWith('/*')) { return true; } return false; } }

4.2 请求缓存和去重

避免对相同的输入重复调用模型：

class CompletionCache { private cache = new Map<string, { items: vscode.CompletionItem[], timestamp: number }>(); private readonly TTL = 5 * 60 * 1000; // 5分钟 getKey(document: vscode.TextDocument, position: vscode.Position): string { // 基于文档内容和光标位置生成缓存键 const line = document.lineAt(position.line).text; const context = document.getText(new vscode.Range( new vscode.Position(Math.max(0, position.line - 3), 0), new vscode.Position(Math.min(document.lineCount, position.line + 1), 0) )); return `${document.uri.toString()}:${position.line}:${position.character}:${hash(context)}`; } get(key: string): vscode.CompletionItem[] | null { const entry = this.cache.get(key); if (!entry) return null; // 检查是否过期 if (Date.now() - entry.timestamp > this.TTL) { this.cache.delete(key); return null; } return entry.items; } set(key: string, items: vscode.CompletionItem[]): void { this.cache.set(key, { items, timestamp: Date.now() }); // 限制缓存大小 if (this.cache.size > 100) { const oldestKey = Array.from(this.cache.entries()) .sort((a, b) => a[1].timestamp - b[1].timestamp)[0][0]; this.cache.delete(oldestKey); } } }

4.3 异步处理和取消机制

确保插件响应迅速，不会阻塞编辑器：

async provideCompletionItems( document: vscode.TextDocument, position: vscode.Position, token: vscode.CancellationToken ): Promise<vscode.CompletionItem[]> { // 快速返回一个空数组，然后异步加载补全 const quickItems: vscode.CompletionItem[] = []; // 异步加载详细补全 setTimeout(async () => { if (token.isCancellationRequested) { return; } try { const detailedItems = await this.loadDetailedCompletions(document, position); // 使用VSCode API更新补全列表 // 注意：这需要特定的API支持，实际实现可能有所不同 } catch (error) { console.error('加载补全失败:', error); } }, 0); return quickItems; }

5. 实际使用效果

我用了这个插件几周，发现它在几个场景下特别有用：

API补全：当你输入fetch(的时候，它能根据上下文推测出你要调用的API地址和参数。

方法链补全：比如输入array.，它会建议filter、map、reduce等常用方法。

类型推导：在TypeScript中，它能根据变量类型建议可用的属性和方法。

代码片段补全：开始输入useEff，它会补全成完整的React useEffect钩子。

当然，它也有局限性。毕竟只是个12亿参数的小模型，复杂的算法实现或者不常见的API可能就不太准。但对于日常的编码工作，能解决80%的简单补全需求，我已经很满意了。

6. 总结

用LFM2.5-1.2B-Thinking做本地代码补全插件，最大的好处就是隐私和速度。所有计算都在本地，不用担心代码泄露，响应速度也很快。虽然补全的准确性比不上那些云端的大模型，但对于个人使用或者对隐私要求高的场景，是个不错的折中方案。

开发过程中，我觉得最重要的几点是：合理的上下文收集、智能的提示词构建、还有性能优化。模型本身的能力是固定的，但怎么用好它，很大程度上取决于我们怎么设计整个系统。

如果你也想试试，可以从简单的版本开始。先实现基本的模型调用和补全显示，然后再慢慢添加缓存、优化、多语言支持这些高级功能。整个项目代码大概1000行左右，一个周末就能搞定基础版本。

用自己做的工具写代码，感觉还是挺不一样的。每次它给出一个准确的补全建议，都有种小小的成就感。也许这就是编程的乐趣之一吧——创造工具，然后让工具帮助我们更好地创造。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

LFM2.5-1.2B-Thinking代码补全：VSCode插件开发实战