LLMs-from-scratch-CN实战案例：构建垃圾邮件分类器与用户界面-编程阁

LLMs-from-scratch-CN实战案例：构建垃圾邮件分类器与用户界面

【免费下载链接】LLMs-from-scratch-CNLLMs-from-scratch项目中文翻译项目地址: https://gitcode.com/gh_mirrors/llm/LLMs-from-scratch-CN

LLMs-from-scratch-CN是一个优秀的开源项目，它提供了LLMs-from-scratch项目的中文翻译版本，帮助开发者从零开始构建大型语言模型。本文将以该项目为基础，详细介绍如何利用其提供的资源和代码，构建一个高效的垃圾邮件分类器并开发直观的用户界面。

项目准备与环境搭建

要开始构建垃圾邮件分类器，首先需要获取LLMs-from-scratch-CN项目的代码。你可以通过以下命令克隆仓库：

git clone https://gitcode.com/gh_mirrors/llm/LLMs-from-scratch-CN

克隆完成后，进入项目目录，并安装所需的依赖库。项目根目录下的requirements.txt文件列出了必要的依赖，可以使用pip进行安装：

cd LLMs-from-scratch-CN pip install -r requirements.txt

此外，对于垃圾邮件分类器的用户界面部分，还需要安装额外的依赖。相关的依赖信息可以在ch06/04_user_interface/requirements-extra.txt中找到。

垃圾邮件分类器的实现

数据准备与处理

垃圾邮件分类器的实现主要基于项目中的ch06/01_main-chapter-code/gpt_class_finetune.py文件。该文件提供了完整的垃圾邮件分类器训练流程。

首先，我们需要下载并准备垃圾邮件数据集。代码中使用了UCI的SMS垃圾邮件收集数据集，通过download_and_unzip_spam_data函数自动下载并解压数据。数据处理包括创建平衡数据集、将标签映射为数字（"ham"为0，"spam"为1），以及将数据集分割为训练集、验证集和测试集。

模型构建与训练

垃圾邮件分类器使用GPT模型进行构建。代码中提供了两种模式：测试模式和正常模式。在正常模式下，默认使用GPT2-small模型（124M参数）。模型的配置信息如下：

BASE_CONFIG = { "vocab_size": 50257, # 词汇表大小 "context_length": 1024, # 上下文长度 "emb_dim": 768, # 嵌入维度 "n_heads": 12, # 注意力头数 "n_layers": 12, # 层数 "drop_rate": 0.1, # Dropout率 "qkv_bias": True # Query-key-value偏置 }

为了适应分类任务，代码对预训练的GPT模型进行了修改，将输出头替换为一个线性层，用于二分类（垃圾邮件/非垃圾邮件）。训练过程中，采用了AdamW优化器，学习率为5e-5，权重衰减为0.1，共训练5个epoch。

模型评估

训练完成后，代码会计算模型在训练集和验证集上的损失和准确率，并绘制损失曲线和准确率曲线。这有助于我们直观地了解模型的训练效果和泛化能力。

用户界面的开发

界面实现代码

垃圾邮件分类器的用户界面基于Chainlit框架开发，相关代码位于ch06/04_user_interface/app.py文件中。该界面允许用户输入文本，然后使用训练好的模型对文本进行分类，判断其是否为垃圾邮件。

界面功能介绍

用户界面的主要功能包括：

加载训练好的模型和分词器
接收用户输入的文本
使用模型对文本进行分类
显示分类结果

界面的核心代码如下：

@chainlit.on_message async def main(message: chainlit.Message): user_input = message.content label = classify_review(user_input, model, tokenizer, device, max_length=120) await chainlit.Message( content=f"{label}", ).send()

这段代码定义了一个消息处理函数，当用户输入文本时，它会调用classify_review函数对文本进行分类，并将结果返回给用户界面。