Yi-Coder-1.5B大模型微调指南：使用Hugging Face实战-编程阁

Yi-Coder-1.5B大模型微调指南：使用Hugging Face实战

1. 为什么选择Yi-Coder-1.5B进行微调

刚开始接触代码大模型微调时，很多人会直接奔着参数量更大的模型去，但实际用下来发现，Yi-Coder-1.5B反而成了我最常使用的微调起点。它不像那些动辄几十亿参数的模型那样吃资源，一台带3090显卡的工作站就能跑起来，训练过程稳定不崩溃，对新手特别友好。

这个模型最打动我的地方在于它的专注性——它不是泛泛而谈的通用大模型，而是专门针对代码理解与生成优化过的。官方资料显示它支持52种主流编程语言，从Python、JavaScript到Rust、Go，甚至包括一些小众但实用的语言如Typst和COBOL。更关键的是，它原生支持128K的超长上下文，这意味着你给它看一个几千行的代码文件，它依然能准确理解其中的逻辑关系。

我试过用它微调后做内部代码审查助手，效果比预期好很多。它不会像某些通用模型那样在代码细节上犯低级错误，比如把Python的缩进当成无关紧要的格式问题，或者混淆C++的指针和引用概念。这种专业领域的扎实功底，让微调后的效果更有保障。

如果你正在寻找一个既能快速上手、又能在实际工程中真正发挥作用的代码大模型，Yi-Coder-1.5B确实是个值得认真考虑的选择。它不大不小，不快不慢，恰到好处地平衡了性能、资源消耗和专业能力。

2. 环境准备与模型加载

2.1 基础环境搭建

微调的第一步永远是环境准备。我建议用conda创建一个干净的虚拟环境，避免和其他项目依赖冲突：

conda create -n yi-coder-ft python=3.10 conda activate yi-coder-ft pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers datasets accelerate peft bitsandbytes scikit-learn

这里特别注意PyTorch版本要匹配你的CUDA驱动。我用的是CUDA 11.8，所以安装对应版本。如果你用的是较新的显卡，可能需要CUDA 12.x版本，记得调整安装命令。

2.2 模型与分词器加载

Yi-Coder-1.5B在Hugging Face上有两个主要版本：基础版（Base）和对话版（Chat）。对于微调任务，我推荐从基础版开始，因为它没有预设的对话模板，更容易根据你的具体需求定制。

from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 加载分词器和模型 model_name = "01-ai/Yi-Coder-1.5B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.bfloat16, # 使用bfloat16节省显存 device_map="auto" # 自动分配到可用GPU ) # 设置特殊token if tokenizer.pad_token is None: tokenizer.pad_token = tokenizer.eos_token model.config.pad_token_id = model.config.eos_token_id

这里有个小技巧：Yi-Coder使用<|im_start|>和<|im_end|>作为对话标记，但基础版没有预设的pad token。我们手动把它设为eos token，这样后续处理填充时就不会出错。

2.3 数据准备与格式转换

微调效果好不好，七分靠数据。我一般会准备三类数据：

代码补全数据：函数签名+注释→完整实现
代码解释数据：代码片段→自然语言描述
错误修复数据：有bug的代码→修复后的版本

以代码补全为例，数据格式可以这样组织：

{ "instruction": "实现一个计算斐波那契数列第n项的函数", "input": "def fibonacci(n):", "output": " if n <= 1:\n return n\n return fibonacci(n-1) + fibonacci(n-2)" }

然后用datasets库加载并预处理：

from datasets import load_dataset import json def format_sample(sample): """将原始样本格式化为模型输入""" prompt = f"""<|im_start|>system 你是一个专业的代码助手，专注于编写高质量、可维护的代码。<|im_end|> <|im_start|>user {sample['instruction']} {sample['input']}<|im_end|> <|im_start|>assistant {sample['output']}<|im_end|>""" return {"text": prompt} # 加载数据集（假设你有自己的JSONL文件） dataset = load_dataset("json", data_files="your_data.jsonl") dataset = dataset.map(format_sample, remove_columns=["instruction", "input", "output"])

关键点在于保持和模型原生训练时相似的格式。Yi-Coder的对话模板很明确，我们最好遵循它，而不是自己发明一套新格式。

3. 微调配置与训练策略

3.1 LoRA微调设置

全参数微调对1.5B模型来说还是有点吃力，所以我强烈推荐使用LoRA（Low-Rank Adaptation）。它只训练少量新增参数，既节省显存又不容易破坏原有知识。

from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training # 准备模型进行量化训练 model = prepare_model_for_kbit_training(model) # 配置LoRA peft_config = LoraConfig( r=8, # 秩，8-16是常用范围 lora_alpha=16, # 缩放因子 target_modules=["q_proj", "v_proj", "k_proj", "o_proj"], # 目标模块 lora_dropout=0.05, # dropout率 bias="none", # 不训练偏置 task_type="CAUSAL_LM" # 因果语言建模任务 ) # 应用LoRA model = get_peft_model(model, peft_config) model.print_trainable_parameters()

运行print_trainable_parameters()会显示类似这样的结果：trainable params: 1,245,760 || all params: 1,480,000,000 || trainable%: 0.08417，意味着只训练了0.08%的参数，显存占用大幅降低。

3.2 训练参数配置

Hugging Face的Trainer提供了非常灵活的训练配置。这是我常用的设置：

from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="./yi-coder-finetuned", num_train_epochs=3, # 通常3轮足够 per_device_train_batch_size=2, # 根据显存调整，3090可设为2 gradient_accumulation_steps=4, # 梯度累积，模拟更大的batch size optim="paged_adamw_8bit", # 内存优化的AdamW logging_steps=10, save_steps=100, learning_rate=2e-4, # LoRA常用学习率 fp16=True, # 半精度训练 warmup_ratio=0.1, # 10%的warmup步数 lr_scheduler_type="cosine", # 余弦退火 report_to="none", # 不上报到wandb等平台 save_total_limit=2, # 只保存最近2个检查点 load_best_model_at_end=True, evaluation_strategy="steps", eval_steps=100, metric_for_best_model="eval_loss", greater_is_better=False, )

有几个参数值得特别说明：

gradient_accumulation_steps=4配合per_device_train_batch_size=2，相当于每个step使用batch size 8，这对小批量数据很友好
optim="paged_adamw_8bit"能显著减少内存碎片，避免OOM错误
warmup_ratio=0.1让学习率从0平滑上升到设定值，避免初期训练不稳定

3.3 数据预处理与打包

微调效果很大程度上取决于数据如何喂给模型。我习惯把数据处理成固定长度的序列：

def tokenize_function(examples): # 对每个样本进行分词 tokenized = tokenizer( examples["text"], truncation=True, max_length=2048, # 根据任务调整，代码任务通常2048足够 padding="max_length", return_tensors="pt" ) # 设置labels，用于计算loss tokenized["labels"] = tokenized["input_ids"].clone() # 将padding位置的label设为-100，忽略这些位置的loss计算 tokenized["labels"][tokenized["attention_mask"] == 0] = -100 return tokenized # 应用分词 tokenized_datasets = dataset.map( tokenize_function, batched=True, num_proc=4, # 使用4个进程加速 remove_columns=["text"] )

这里的关键是labels的设置。我们让模型预测下一个token，所以labels就是input_ids本身，只是把padding位置设为-100，这样损失函数会自动忽略这些位置。

4. 实战微调流程详解

4.1 完整训练脚本

把前面所有部分组合起来，就是一个完整的微调脚本：

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training from datasets import load_dataset import torch # 1. 加载模型和分词器 model_name = "01-ai/Yi-Coder-1.5B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.bfloat16, device_map="auto" ) # 2. 准备模型 model = prepare_model_for_kbit_training(model) # 3. 配置LoRA peft_config = LoraConfig( r=8, lora_alpha=16, target_modules=["q_proj", "v_proj", "k_proj", "o_proj"], lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, peft_config) # 4. 加载和预处理数据 dataset = load_dataset("json", data_files="your_data.jsonl") def format_sample(sample): prompt = f"""<|im_start|>system 你是一个专业的代码助手，专注于编写高质量、可维护的代码。<|im_end|> <|im_start|>user {sample['instruction']} {sample['input']}<|im_end|> <|im_start|>assistant {sample['output']}<|im_end|>""" return {"text": prompt} dataset = dataset.map(format_sample, remove_columns=["instruction", "input", "output"]) def tokenize_function(examples): tokenized = tokenizer( examples["text"], truncation=True, max_length=2048, padding="max_length", return_tensors="pt" ) tokenized["labels"] = tokenized["input_ids"].clone() tokenized["labels"][tokenized["attention_mask"] == 0] = -100 return tokenized tokenized_datasets = dataset.map( tokenize_function, batched=True, num_proc=4, remove_columns=["text"] ) # 5. 配置训练参数 training_args = TrainingArguments( output_dir="./yi-coder-finetuned", num_train_epochs=3, per_device_train_batch_size=2, gradient_accumulation_steps=4, optim="paged_adamw_8bit", logging_steps=10, save_steps=100, learning_rate=2e-4, fp16=True, warmup_ratio=0.1, lr_scheduler_type="cosine", report_to="none", save_total_limit=2, load_best_model_at_end=True, evaluation_strategy="steps", eval_steps=100, metric_for_best_model="eval_loss", greater_is_better=False, ) # 6. 创建Trainer并开始训练 trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets["train"], eval_dataset=tokenized_datasets["validation"] if "validation" in tokenized_datasets else None, tokenizer=tokenizer, ) trainer.train() # 7. 保存最终模型 trainer.save_model("./yi-coder-finetuned-final")

4.2 训练过程中的关键观察点

训练过程中，我重点关注三个指标：

第一是loss曲线。正常情况下，训练loss应该稳步下降，如果出现剧烈波动或突然飙升，可能是学习率太高或数据有问题。我一般会把learning_rate从2e-4开始，如果收敛太慢再适当提高。

第二是GPU显存占用。使用LoRA后，3090显卡上通常占用12-14GB，如果超过15GB就要检查是否哪里配置错了。常见原因是忘了设置device_map="auto"或torch_dtype=torch.bfloat16。

第三是生成质量的实时验证。我习惯每100步就手动测试一下当前模型的生成效果：

def test_generation(model, tokenizer, prompt): inputs = tokenizer(prompt, return_tensors="pt").to(model.device) outputs = model.generate( **inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_p=0.9 ) return tokenizer.decode(outputs[0], skip_special_tokens=True) # 测试示例 test_prompt = """<|im_start|>system 你是一个专业的代码助手，专注于编写高质量、可维护的代码。<|im_end|> <|im_start|>user 实现一个快速排序算法。 def quicksort(arr):<|im_end|> <|im_start|>assistant """ result = test_generation(model, tokenizer, test_prompt) print(result)

通过这种方式，我能直观感受到模型在进步，而不是只看抽象的数字。

5. 模型评估与效果验证

5.1 量化评估方法

微调完成后，不能只凭感觉判断效果好坏，需要有客观的评估标准。我通常采用三种方式：

代码正确性评估：用HumanEval类似的测试集，统计生成代码通过单元测试的比例。对于内部工具，我会准备20-30个典型场景的测试用例。

代码质量评估：用CodeBLEU等指标衡量生成代码与参考答案的相似度。虽然不是完美指标，但能提供一定参考。

人工评估：邀请3-5位有经验的开发者，对同一任务的原始模型输出和微调后输出进行盲评，从可读性、健壮性、效率三个维度打分。

5.2 实际效果对比案例

让我分享一个真实的微调案例。我们想让模型更好地理解公司内部的API规范，原始模型经常生成不符合规范的调用方式。

原始模型输出：

# 调用用户服务获取用户信息 response = requests.get("https://api.company.com/v1/users/123") data = response.json()

微调后模型输出：

# 使用公司标准SDK调用用户服务 from company_sdk.user_service import UserService service = UserService(api_key="your_api_key") try: user = service.get_user(user_id="123") print(f"Found user: {user.name}") except UserServiceError as e: logger.error(f"Failed to get user: {e}")

差别很明显：微调后的模型不仅知道要用SDK，还知道异常处理和日志记录的标准做法。这种专业性的提升，正是领域微调的价值所在。

5.3 常见问题与解决方案

在多次微调实践中，我遇到了几个高频问题：

问题1：生成内容重复

现象：模型反复输出相同的代码片段
解决：降低temperature到0.5以下，增加top_p到0.95，或者在generate参数中加入repetition_penalty=1.2

问题2：忽略指令要求

现象：用户要求用特定语言或框架，模型却用其他方式实现
解决：在system prompt中强化约束，比如"你必须使用TypeScript和React Hooks实现"

问题3：生成不完整代码

现象：函数定义后缺少实现，或类定义不完整
解决：在数据预处理时确保所有样本都有完整实现，训练时增加max_new_tokens限制

这些问题的解决往往不在模型架构层面，而是在数据构造和推理参数的精细调整上。

6. 微调后的部署与应用

6.1 模型合并与导出

训练完成后，有两种部署方式：

方式一：保留LoRA适配器

# 保存LoRA权重 model.save_pretrained("./yi-coder-lora-adapter") tokenizer.save_pretrained("./yi-coder-lora-adapter") # 加载时合并 from peft import PeftModel base_model = AutoModelForCausalLM.from_pretrained("01-ai/Yi-Coder-1.5B") model = PeftModel.from_pretrained(base_model, "./yi-coder-lora-adapter") merged_model = model.merge_and_unload() # 合并到基础模型

方式二：完全合并后导出

# 合并并保存完整模型 merged_model.save_pretrained("./yi-coder-merged") tokenizer.save_pretrained("./yi-coder-merged")

我通常选择方式二，因为部署更简单，不需要额外的peft依赖。

6.2 实际应用场景

微调后的Yi-Coder-1.5B，我在三个场景中取得了不错的效果：

内部文档生成：给定API接口定义，自动生成符合公司风格的Markdown文档，包含请求示例、响应格式、错误码说明等。

代码审查辅助：分析Pull Request中的代码变更，指出潜在的性能问题、安全漏洞和风格不一致处，并给出改进建议。

新人培训助手：根据公司技术栈特点，回答新人关于"如何在我们的系统中实现XX功能"的问题，提供带注释的代码示例。

这些应用的共同特点是：它们都需要模型理解公司特有的约定和规范，而这正是微调带来的核心价值。

6.3 性能优化建议

最后分享几个让微调模型更好用的小技巧：

提示词工程：设计固定的system prompt模板，包含角色定义、能力边界和输出格式要求
缓存机制：对常见查询建立结果缓存，避免重复计算
渐进式生成：对于复杂任务，先生成大纲，再逐步填充细节，提高成功率
后处理校验：用简单的规则检查生成代码的语法正确性，过滤明显错误

记住，微调不是终点，而是让模型更好地服务于你的具体需求的起点。每次微调后，都要回到实际业务场景中去验证，看看它是否真的解决了你最初想解决的问题。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Yi-Coder-1.5B大模型微调指南：使用Hugging Face实战