MT5 Zero-Shot部署教程（Linux服务器）：systemd守护进程+日志轮转+内存监控-编程阁

MT5 Zero-Shot部署教程（Linux服务器）：systemd守护进程+日志轮转+内存监控

1. 为什么需要专业级部署——不只是跑起来，更要稳得住

你可能已经成功在本地笔记本上用streamlit run app.py启动了 MT5 中文文本增强工具，输入一句话，几秒后看到几个语义一致但表达各异的改写结果——很酷。但当你把它搬到生产环境的 Linux 服务器上，准备给团队共享、接入自动化流程，甚至作为微服务的一部分长期运行时，问题就来了：

一不小心关了终端，Streamlit 进程就断了；
日志文件越积越大，几天后占满磁盘，连 SSH 都登不上；
模型加载后常驻内存约 3.2GB，某次批量请求突增，内存飙到 95%，系统开始杀进程；
每次服务器重启后，还得手动 cd 到目录、激活环境、再敲一遍启动命令。

这不是“能用”，而是“随时会崩”。

本教程不讲怎么下载模型、不重复 Streamlit 基础语法，只聚焦一件事：如何让这个基于 mT5 的中文文本增强服务，在 Linux 服务器上真正像一个工业级应用那样——自动启停、自我保护、可监控、可追溯、不掉链子。
全程使用系统原生工具（systemd + logrotate + bash + psutil），零额外依赖，适配 Ubuntu 20.04+/CentOS 8+，所有操作均可复制粘贴执行。

2. 环境准备与项目结构标准化

2.1 基础依赖确认

请确保服务器已安装：

# Python 3.9+（推荐 3.10） python3 --version # pip（建议升级） python3 -m pip install --upgrade pip # Git（用于克隆或管理代码） git --version

注意：不要用sudo apt install python3-pip安装旧版 pip，务必用python3 -m ensurepip --upgrade或get-pip.py保证 pip ≥ 22.0。

2.2 项目目录规范（关键！）

我们不把代码散放在家目录或/tmp，而是建立清晰、可复用的部署结构：

sudo mkdir -p /opt/mt5-augment sudo chown $USER:$USER /opt/mt5-augment cd /opt/mt5-augment # 创建标准子目录 mkdir -p {src,logs,models,venv}

src/：存放全部源码（app.py,requirements.txt, 配置文件等）
logs/：所有日志统一落在此处，便于轮转和审计
models/：存放 mT5 模型（如alimama-creative/mt5-base-zh），避免每次启动都从 Hugging Face 下载
venv/：独立虚拟环境，与系统 Python 隔离

2.3 模型预下载与缓存固化

mT5 模型首次加载会触发自动下载，但生产环境应杜绝网络不确定性。我们提前拉取并固定路径：

# 激活虚拟环境（先创建） python3 -m venv venv source venv/bin/activate # 安装核心依赖（注意：streamlit 不要加 --user） pip install streamlit transformers torch sentencepiece datasets # 手动下载模型到 models/ 目录（静默 + 指定缓存路径） python3 -c " from transformers import AutoTokenizer, AutoModelForSeq2SeqLM model_name = 'alimama-creative/mt5-base-zh' tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir='./models') model = AutoModelForSeq2SeqLM.from_pretrained(model_name, cache_dir='./models') print(' 模型已缓存至 ./models') "

验证：ls models/alimama-creative/mt5-base-zh/应包含config.json,pytorch_model.bin,tokenizer.json等文件。后续 Streamlit 启动时将直接读取该路径，无需联网。

3. systemd 服务配置：开机自启 + 进程守护 + 异常重启

3.1 编写服务单元文件

创建 systemd 服务定义，路径为/etc/systemd/system/mt5-augment.service：

sudo tee /etc/systemd/system/mt5-augment.service > /dev/null << 'EOF' [Unit] Description=MT5 Chinese Text Augmentation Service Documentation=https://github.com/alimama-creative/mt5-base-zh After=network.target [Service] Type=simple User=ubuntu # ← 替换为你的实际用户名（如 centos、ec2-user） Group=ubuntu # ← 同上 WorkingDirectory=/opt/mt5-augment/src Environment="PATH=/opt/mt5-augment/venv/bin:/usr/local/bin:/usr/bin:/bin" Environment="PYTHONPATH=/opt/mt5-augment/src" Restart=always RestartSec=10 StartLimitInterval=60 StartLimitBurst=3 KillMode=control-group TimeoutStopSec=30 MemoryLimit=4G # 关键！硬性限制内存上限，防 OOM # 启动命令：指定端口、禁用浏览器自动打开、后台日志输出 ExecStart=/opt/mt5-augment/venv/bin/streamlit run app.py \ --server.port=8501 \ --server.address=0.0.0.0 \ --server.headless=true \ --logger.level=info \ --browser.gatherUsageStats=false \ >> /opt/mt5-augment/logs/streamlit.log 2>&1 # 可选：添加内存使用告警（需配合后续监控脚本） # ExecStartPost=/opt/mt5-augment/bin/check-memory.sh [Install] WantedBy=multi-user.target EOF

关键点说明：
Restart=always：进程退出即重启（包括崩溃、OOM 被杀）
MemoryLimit=4G：systemd 层面强制内存上限，超出则直接 kill，比靠 Python 检测更底层可靠
>> ... 2>&1：将 stdout/stderr 统一重定向到日志文件，避免日志丢失
--server.headless=true：禁用 GUI，纯服务模式

3.2 启用并验证服务

# 重载配置 sudo systemctl daemon-reload # 启用开机自启 sudo systemctl enable mt5-augment.service # 启动服务 sudo systemctl start mt5-augment.service # 查看状态（重点关注 active (running) 和 Memory limit） sudo systemctl status mt5-augment.service -l --no-pager # 实时跟踪日志（按 Ctrl+C 退出） sudo journalctl -u mt5-augment.service -f

正常输出应含：Started MT5 Chinese Text Augmentation Service，且journalctl中能看到 Streamlit 启动成功的日志（如Listening on http://0.0.0.0:8501）。

4. 日志轮转配置：防止磁盘被日志撑爆

4.1 创建 logrotate 配置

新建/etc/logrotate.d/mt5-augment：

sudo tee /etc/logrotate.d/mt5-augment > /dev/null << 'EOF' /opt/mt5-augment/logs/*.log { daily missingok rotate 30 compress delaycompress notifempty create 644 ubuntu ubuntu # ← 替换为你的用户名和组名 sharedscripts postrotate # 通知 systemd 重新加载日志（可选，确保 journalctl 可读新日志） /bin/systemctl kill --signal=SIGHUP --kill-who=main mt5-augment.service >/dev/null 2>&1 || true endscript } EOF

效果说明：
每天轮转一次，保留 30 天压缩日志（.log.1.gz~.log.30.gz）
自动创建新日志文件，权限644，属主为你指定的用户
postrotate中发送SIGHUP给 Streamlit 主进程（若支持重载日志），否则忽略

4.2 手动触发测试轮转

# 强制执行一次轮转（测试用） sudo logrotate -f /etc/logrotate.d/mt5-augment # 查看结果 ls -lh /opt/mt5-augment/logs/ # 应看到：streamlit.log（新空文件） + streamlit.log.1.gz（压缩旧日志）

5. 内存监控与主动防护：当用量逼近阈值时自动干预

5.1 编写轻量级内存检查脚本

创建/opt/mt5-augment/bin/check-memory.sh：

sudo mkdir -p /opt/mt5-augment/bin sudo tee /opt/mt5-augment/bin/check-memory.sh > /dev/null << 'EOF' #!/bin/bash # 检查 mt5-augment 进程内存占用（RSS），超阈值则发警告或重启 SERVICE_NAME="mt5-augment.service" THRESHOLD_MB=3200 # 触发警告的 RSS 内存阈值（MB） RESTART_THRESHOLD_MB=3800 # 触发自动重启的阈值（MB） # 获取主进程 PID（排除 sh -c 等壳进程） PID=$(systemctl show --property MainPID --value $SERVICE_NAME 2>/dev/null | grep -E '^[0-9]+$') if [ -z "$PID" ] || ! kill -0 $PID 2>/dev/null; then echo "[$(date)] $SERVICE_NAME not running or PID invalid" >> /opt/mt5-augment/logs/memory-monitor.log exit 0 fi # 获取 RSS 内存（KB） RSS_KB=$(ps -o rss= -p $PID 2>/dev/null | tr -d ' ') if [ -z "$RSS_KB" ]; then echo "[$(date)] Failed to read RSS for PID $PID" >> /opt/mt5-augment/logs/memory-monitor.log exit 0 fi RSS_MB=$((RSS_KB / 1024)) # 记录当前状态 echo "[$(date)] PID $PID RSS: ${RSS_MB}MB" >> /opt/mt5-augment/logs/memory-monitor.log # 警告（仅记录日志） if [ $RSS_MB -gt $THRESHOLD_MB ] && [ $RSS_MB -le $RESTART_THRESHOLD_MB ]; then echo "[$(date)] WARNING: RSS ${RSS_MB}MB > ${THRESHOLD_MB}MB" >> /opt/mt5-augment/logs/memory-monitor.log fi # 自动重启（防 OOM） if [ $RSS_MB -gt $RESTART_THRESHOLD_MB ]; then echo "[$(date)] 🚨 CRITICAL: RSS ${RSS_MB}MB > ${RESTART_THRESHOLD_MB}MB → restarting..." >> /opt/mt5-augment/logs/memory-monitor.log sudo systemctl restart $SERVICE_NAME sleep 3 if systemctl is-active --quiet $SERVICE_NAME; then echo "[$(date)] Restart successful" >> /opt/mt5-augment/logs/memory-monitor.log else echo "[$(date)] Restart failed!" >> /opt/mt5-augment/logs/memory-monitor.log fi fi EOF sudo chmod +x /opt/mt5-augment/bin/check-memory.sh

5.2 设置定时任务（每5分钟检查一次）

# 编辑 root 用户 crontab sudo crontab -e

添加一行：

*/5 * * * * /opt/mt5-augment/bin/check-memory.sh

验证：等待 5 分钟后，查看/opt/mt5-augment/logs/memory-monitor.log是否有记录；可手动修改脚本中RESTART_THRESHOLD_MB=100测试重启逻辑。

6. 安全加固与生产就绪检查清单

6.1 网络与访问控制

默认绑定0.0.0.0:8501是危险的。生产环境必须加反向代理（Nginx）并启用认证：

# Nginx 示例（/etc/nginx/sites-available/mt5-augment） server { listen 80; server_name mt5.yourdomain.com; auth_basic "MT5 Augmentation Admin"; auth_basic_user_file /etc/nginx/.htpasswd; location / { proxy_pass http://127.0.0.1:8501; proxy_http_version 1.1; proxy_set_header Upgrade $http_upgrade; proxy_set_header Connection "upgrade"; proxy_set_header X-Forwarded-For $remote_addr; } }

使用htpasswd -c /etc/nginx/.htpasswd admin创建账号。

6.2 快速健康检查端点（可选但推荐）

在app.py开头添加简易健康检查路由（需 Streamlit ≥ 1.28）：

import streamlit as st from streamlit.server.server_util import make_url # 在 app.py 最顶部添加 if st.query_params.get("health") == "true": st.json({"status": "ok", "model": "mt5-base-zh", "memory_mb": 3200}) st.stop()

访问http://your-server:8501/?health=true即可返回 JSON 健康状态，方便集成到 Prometheus 或运维平台。

6.3 生产就绪核对表

项目	是否完成	检查方式
systemd 服务启用并开机自启	☐	`systemctl is-enabled mt5-augment.service`
日志轮转每日执行且保留30天	☐	`ls /opt/mt5-augment/logs/`
内存监控脚本每5分钟运行	☐	`sudo tail -20 /opt/mt5-augment/logs/memory-monitor.log`
Streamlit 绑定`0.0.0.0:8501`已通过 Nginx 代理并加认证	☐	`curl -I http://localhost`
模型文件固化在`/opt/mt5-augment/models/`，无网络依赖	☐	`grep -r "alimama-creative" /opt/mt5-augment/src/`

7. 总结：从玩具到生产服务的三步跨越

部署一个 NLP 工具，从来不只是pip install && streamlit run。本教程带你完成了三个本质跃迁：

从交互式到服务化：用 systemd 将临时进程变成受管服务，具备启停、重启、资源约束能力；
从裸奔到可运维：logrotate + cron + 自定义脚本构成轻量可观测体系，日志不堆积、内存不失控、异常可追溯；
从可用到可信：通过反向代理、认证、健康检查，让这个文本增强服务真正能嵌入企业数据流水线，成为稳定基础设施的一环。

你不需要 Kubernetes、不需要 Docker Compose、不需要复杂监控栈。Linux 原生工具链 + 清晰的工程习惯，就是最扎实的生产就绪方案。

下一步，你可以：
→ 把app.py改造成 FastAPI 接口，对接其他系统；
→ 加入 Redis 缓存高频改写结果，降低 GPU/CPU 压力；
→ 用 Prometheus + Grafana 可视化内存/请求延迟曲线；
→ 或者，就让它安静地在服务器角落，每天默默生成上千条高质量中文训练样本。

它已经准备好了。你，也准备好了吗？