Janus-Pro-7B多模态模型一键部署教程：基于Linux系统的快速安装指南-编程阁

Janus-Pro-7B多模态模型一键部署教程：基于Linux系统的快速安装指南

想试试那个既能看懂图片又能生成图片的AI模型吗？就是最近挺火的Janus-Pro-7B。你可能听说过它，但一想到要在Linux系统上部署，是不是觉得有点头大？别担心，今天我就带你一步步搞定它，从环境准备到实际使用，整个过程其实比你想象的要简单。

Janus-Pro-7B是DeepSeek开源的一个多模态模型，简单来说就是它既能理解图片内容，又能根据文字描述生成图片。这种“全能型”模型在实际应用中特别有用，比如你可以让它分析一张商品图片，然后帮你生成营销文案，或者反过来，根据你的文字描述创作出对应的视觉内容。

1. 准备工作：环境检查与依赖安装

在开始之前，我们先看看你的Linux系统需要满足哪些条件。Janus-Pro-7B对硬件有一定要求，但不算特别苛刻。

1.1 系统要求检查

首先打开你的终端，我们来检查几个关键配置：

# 查看Python版本 python3 --version # 查看CUDA版本（如果有NVIDIA GPU） nvcc --version # 查看GPU信息 nvidia-smi

理想情况下，你需要：

Python 3.8或更高版本
如果有GPU，CUDA 11.8或更高版本
至少16GB内存（建议32GB以上）
如果有GPU，显存最好在16GB以上（RTX 4090或同级别）

如果你的系统没有Python 3.8，可以通过包管理器安装：

# Ubuntu/Debian系统 sudo apt update sudo apt install python3.9 python3.9-venv python3.9-dev # CentOS/RHEL系统 sudo yum install python39 python39-devel

1.2 创建虚拟环境

我强烈建议你创建一个独立的虚拟环境，这样不会影响系统原有的Python环境，出了问题也容易清理。

# 创建名为janus的虚拟环境 python3.9 -m venv janus_env # 激活虚拟环境 source janus_env/bin/activate

激活后，你的命令行提示符前面应该会出现(janus_env)，表示你现在在这个虚拟环境中工作。

1.3 安装PyTorch

接下来安装PyTorch，这是运行Janus-Pro的基础框架。根据你的CUDA版本选择合适的命令：

# 如果你有CUDA 11.8 pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 # 如果你只有CPU或者CUDA版本不同 pip install torch torchvision torchaudio

安装完成后，可以简单测试一下PyTorch是否能正常识别GPU：

import torch print(f"PyTorch版本: {torch.__version__}") print(f"CUDA是否可用: {torch.cuda.is_available()}") if torch.cuda.is_available(): print(f"GPU型号: {torch.cuda.get_device_name(0)}")

2. 获取Janus-Pro模型和代码

现在我们来获取Janus-Pro的源代码和模型文件。

2.1 克隆代码仓库

直接从GitHub克隆官方仓库是最简单的方式：

# 克隆Janus项目 git clone https://github.com/deepseek-ai/Janus.git cd Janus # 安装项目依赖 pip install -e .

这里有个小细节需要注意：Janus项目对numpy版本有要求，如果安装过程中报错，可能需要调整numpy版本：

# 如果遇到numpy相关错误，可以尝试 pip install numpy==1.26.3

2.2 下载模型文件

模型文件比较大（大概15GB左右），你可以从Hugging Face直接下载：

# 使用git-lfs下载（如果已安装） git lfs install git clone https://huggingface.co/deepseek-ai/Janus-Pro-7B # 或者使用wget逐个下载主要文件 mkdir Janus-Pro-7B cd Janus-Pro-7B wget https://huggingface.co/deepseek-ai/Janus-Pro-7B/resolve/main/pytorch_model.bin wget https://huggingface.co/deepseek-ai/Janus-Pro-7B/resolve/main/config.json wget https://huggingface.co/deepseek-ai/Janus-Pro-7B/resolve/main/tokenizer.json

如果下载速度慢，可以考虑用国内镜像，比如ModelScope：

pip install modelscope python -c "from modelscope import snapshot_download; snapshot_download('deepseek-ai/Janus-Pro-7B')"

3. 快速测试：让模型跑起来

模型下载好后，我们写个简单的测试脚本，看看一切是否正常。

3.1 图片理解测试

创建一个名为test_understanding.py的文件：

import torch from transformers import AutoModelForCausalLM from janus.models import MultiModalityCausalLM, VLChatProcessor from janus.utils.io import load_pil_images from PIL import Image import requests from io import BytesIO # 设置模型路径 model_path = "./Janus-Pro-7B" # 修改为你的实际路径 # 下载一张测试图片 url = "https://images.unsplash.com/photo-1506744038136-46273834b3fb" response = requests.get(url) test_image = Image.open(BytesIO(response.content)) test_image.save("test_image.jpg") print("正在加载模型，这可能需要几分钟...") vl_chat_processor = VLChatProcessor.from_pretrained(model_path) tokenizer = vl_chat_processor.tokenizer vl_gpt = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True, torch_dtype=torch.bfloat16 ) # 如果有GPU就移到GPU上 if torch.cuda.is_available(): vl_gpt = vl_gpt.cuda() vl_gpt.eval() print("模型加载完成！") # 准备对话 conversation = [ { "role": "<|User|>", "content": "<image_placeholder>\n请描述这张图片的内容", "images": ["test_image.jpg"], }, {"role": "<|Assistant|>", "content": ""}, ] # 加载图片并准备输入 pil_images = load_pil_images(conversation) prepare_inputs = vl_chat_processor( conversations=conversation, images=pil_images, force_batchify=True ).to(vl_gpt.device) # 获取图片特征 inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs) # 生成回答 print("正在分析图片...") outputs = vl_gpt.language_model.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=200, do_sample=False, use_cache=True, ) answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True) print("\n模型回答：") print(answer)

运行这个脚本：

python test_understanding.py

第一次运行会比较慢，因为要加载模型。如果一切正常，你会看到模型对图片的描述。

3.2 图片生成测试

再创建一个测试图片生成的文件test_generation.py：

import os import torch import numpy as np from PIL import Image from transformers import AutoModelForCausalLM from janus.models import MultiModalityCausalLM, VLChatProcessor model_path = "./Janus-Pro-7B" print("加载模型中...") vl_chat_processor = VLChatProcessor.from_pretrained(model_path) tokenizer = vl_chat_processor.tokenizer vl_gpt = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True, torch_dtype=torch.bfloat16 ) if torch.cuda.is_available(): vl_gpt = vl_gpt.cuda() vl_gpt.eval() print("模型加载完成！") # 准备一个简单的描述 conversation = [ { "role": "<|User|>", "content": "一只可爱的橘猫在沙发上睡觉，阳光从窗户照进来", }, {"role": "<|Assistant|>", "content": ""}, ] # 应用对话模板 sft_format = vl_chat_processor.apply_sft_template_for_multi_turn_prompts( conversations=conversation, sft_format=vl_chat_processor.sft_format, system_prompt="", ) prompt = sft_format + vl_chat_processor.image_start_tag @torch.inference_mode() def generate_image(): print("开始生成图片...") # 简化参数，加快测试速度 parallel_size = 4 # 减少生成数量 cfg_weight = 5 image_token_num_per_image = 576 img_size = 384 patch_size = 16 input_ids = vl_chat_processor.tokenizer.encode(prompt) input_ids = torch.LongTensor(input_ids) tokens = torch.zeros((parallel_size * 2, len(input_ids)), dtype=torch.int) if torch.cuda.is_available(): tokens = tokens.cuda() for i in range(parallel_size * 2): tokens[i, :] = input_ids if i % 2 != 0: tokens[i, 1:-1] = vl_chat_processor.pad_id inputs_embeds = vl_gpt.language_model.get_input_embeddings()(tokens) generated_tokens = torch.zeros((parallel_size, image_token_num_per_image), dtype=torch.int) if torch.cuda.is_available(): generated_tokens = generated_tokens.cuda() outputs = None for i in range(image_token_num_per_image): outputs = vl_gpt.language_model.model( inputs_embeds=inputs_embeds, use_cache=True, past_key_values=outputs.past_key_values if i != 0 else None ) hidden_states = outputs.last_hidden_state logits = vl_gpt.gen_head(hidden_states[:, -1, :]) logit_cond = logits[0::2, :] logit_uncond = logits[1::2, :] logits = logit_uncond + cfg_weight * (logit_cond - logit_uncond) probs = torch.softmax(logits / 1.0, dim=-1) next_token = torch.multinomial(probs, num_samples=1) generated_tokens[:, i] = next_token.squeeze(dim=-1) next_token = torch.cat([next_token.unsqueeze(dim=1), next_token.unsqueeze(dim=1)], dim=1).view(-1) img_embeds = vl_gpt.prepare_gen_img_embeds(next_token) inputs_embeds = img_embeds.unsqueeze(dim=1) # 解码生成图片 dec = vl_gpt.gen_vision_model.decode_code( generated_tokens.to(dtype=torch.int), shape=[parallel_size, 8, img_size // patch_size, img_size // patch_size] ) dec = dec.to(torch.float32).cpu().numpy().transpose(0, 2, 3, 1) dec = np.clip((dec + 1) / 2 * 255, 0, 255).astype(np.uint8) # 保存图片 os.makedirs('generated_images', exist_ok=True) for i in range(parallel_size): img = Image.fromarray(dec[i]) save_path = os.path.join('generated_images', f"cat_{i}.jpg") img.save(save_path) print(f"图片已保存: {save_path}") return dec # 生成图片 images = generate_image() print("\n图片生成完成！检查 generated_images 文件夹")

运行生成脚本：

python test_generation.py

图片生成需要一些时间，大概几分钟。完成后你会在generated_images文件夹里看到生成的猫猫图片。

4. 使用Gradio创建Web界面

如果你想要一个更友好的界面，可以用Gradio快速搭建一个Web应用。

4.1 安装Gradio

pip install gradio

4.2 创建简单的Web应用

创建一个app.py文件：

import gradio as gr import torch import numpy as np from PIL import Image import os from transformers import AutoModelForCausalLM from janus.models import MultiModalityCausalLM, VLChatProcessor from janus.utils.io import load_pil_images # 全局变量 model = None processor = None tokenizer = None def load_model(): """加载模型""" global model, processor, tokenizer if model is None: print("正在加载模型，请稍候...") model_path = "./Janus-Pro-7B" processor = VLChatProcessor.from_pretrained(model_path) tokenizer = processor.tokenizer model = AutoModelForCausalLM.from_pretrained( model_path, trust_remote_code=True, torch_dtype=torch.bfloat16 ) if torch.cuda.is_available(): model = model.cuda() model.eval() print("模型加载完成！") return model, processor, tokenizer def analyze_image(image, question): """分析图片""" model, processor, tokenizer = load_model() if image is None: return "请上传一张图片" # 保存临时图片 temp_path = "temp_image.jpg" image.save(temp_path) # 准备对话 conversation = [ { "role": "<|User|>", "content": f"<image_placeholder>\n{question}", "images": [temp_path], }, {"role": "<|Assistant|>", "content": ""}, ] # 处理输入 pil_images = load_pil_images(conversation) prepare_inputs = processor( conversations=conversation, images=pil_images, force_batchify=True ).to(model.device) # 生成回答 inputs_embeds = model.prepare_inputs_embeds(**prepare_inputs) outputs = model.language_model.generate( inputs_embeds=inputs_embeds, attention_mask=prepare_inputs.attention_mask, pad_token_id=tokenizer.eos_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, max_new_tokens=300, do_sample=False, use_cache=True, ) answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True) # 清理临时文件 if os.path.exists(temp_path): os.remove(temp_path) return answer def generate_image(prompt): """根据描述生成图片""" model, processor, tokenizer = load_model() if not prompt: return None, "请输入描述文字" conversation = [ { "role": "<|User|>", "content": prompt, }, {"role": "<|Assistant|>", "content": ""}, ] sft_format = processor.apply_sft_template_for_multi_turn_prompts( conversations=conversation, sft_format=processor.sft_format, system_prompt="", ) full_prompt = sft_format + processor.image_start_tag # 简化生成过程 @torch.inference_mode() def simple_generate(): parallel_size = 1 # 只生成一张 cfg_weight = 5 image_token_num_per_image = 576 img_size = 384 patch_size = 16 input_ids = processor.tokenizer.encode(full_prompt) input_ids = torch.LongTensor(input_ids) tokens = torch.zeros((parallel_size * 2, len(input_ids)), dtype=torch.int) if torch.cuda.is_available(): tokens = tokens.cuda() for i in range(parallel_size * 2): tokens[i, :] = input_ids if i % 2 != 0: tokens[i, 1:-1] = processor.pad_id inputs_embeds = model.language_model.get_input_embeddings()(tokens) generated_tokens = torch.zeros((parallel_size, image_token_num_per_image), dtype=torch.int) if torch.cuda.is_available(): generated_tokens = generated_tokens.cuda() outputs = None for i in range(image_token_num_per_image): outputs = model.language_model.model( inputs_embeds=inputs_embeds, use_cache=True, past_key_values=outputs.past_key_values if i != 0 else None ) hidden_states = outputs.last_hidden_state logits = model.gen_head(hidden_states[:, -1, :]) logit_cond = logits[0::2, :] logit_uncond = logits[1::2, :] logits = logit_uncond + cfg_weight * (logit_cond - logit_uncond) probs = torch.softmax(logits / 1.0, dim=-1) next_token = torch.multinomial(probs, num_samples=1) generated_tokens[:, i] = next_token.squeeze(dim=-1) next_token = torch.cat([next_token.unsqueeze(dim=1), next_token.unsqueeze(dim=1)], dim=1).view(-1) img_embeds = model.prepare_gen_img_embeds(next_token) inputs_embeds = img_embeds.unsqueeze(dim=1) # 解码图片 dec = model.gen_vision_model.decode_code( generated_tokens.to(dtype=torch.int), shape=[parallel_size, 8, img_size // patch_size, img_size // patch_size] ) dec = dec.to(torch.float32).cpu().numpy().transpose(0, 2, 3, 1) dec = np.clip((dec + 1) / 2 * 255, 0, 255).astype(np.uint8) return dec[0] # 生成图片 image_array = simple_generate() pil_image = Image.fromarray(image_array) # 保存结果 output_dir = "gradio_outputs" os.makedirs(output_dir, exist_ok=True) import time timestamp = int(time.time()) save_path = os.path.join(output_dir, f"generated_{timestamp}.jpg") pil_image.save(save_path) return pil_image, f"图片已生成并保存到: {save_path}" # 创建界面 with gr.Blocks(title="Janus-Pro-7B 多模态模型") as demo: gr.Markdown("# Janus-Pro-7B 多模态模型演示") gr.Markdown("这是一个既能理解图片又能生成图片的AI模型") with gr.Tab("图片理解"): with gr.Row(): with gr.Column(): image_input = gr.Image(label="上传图片", type="pil") question_input = gr.Textbox( label="问题", placeholder="例如：描述这张图片的内容、图片里有什么、这是什么地方等", value="请描述这张图片的内容" ) analyze_btn = gr.Button("分析图片", variant="primary") with gr.Column(): output_text = gr.Textbox(label="分析结果", lines=10) analyze_btn.click( fn=analyze_image, inputs=[image_input, question_input], outputs=output_text ) with gr.Tab("图片生成"): with gr.Row(): with gr.Column(): prompt_input = gr.Textbox( label="描述文字", placeholder="例如：一只可爱的橘猫在沙发上睡觉，阳光从窗户照进来", lines=3 ) generate_btn = gr.Button("生成图片", variant="primary") status_text = gr.Textbox(label="状态", interactive=False) with gr.Column(): output_image = gr.Image(label="生成的图片") generate_btn.click( fn=generate_image, inputs=prompt_input, outputs=[output_image, status_text] ) gr.Markdown("### 使用提示") gr.Markdown(""" 1. **图片理解**：上传图片后，可以问各种关于图片的问题 2. **图片生成**：用中文或英文描述你想要的画面，越详细越好 3. 第一次使用需要加载模型，请耐心等待 4. 图片生成需要一些时间，大概1-3分钟 """) if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

运行这个应用：

python app.py

然后在浏览器中打开http://localhost:7860，你就能看到一个简单的Web界面了。

5. 常见问题与解决方法

在实际部署过程中，你可能会遇到一些问题，这里整理了几个常见的：

5.1 内存或显存不足

如果遇到内存不足的错误，可以尝试：

# 在代码中添加这些设置 import torch torch.cuda.empty_cache() # 清理GPU缓存 # 使用更小的批次 batch_size = 1 # 改为1 # 使用CPU模式（速度会慢很多） if not torch.cuda.is_available(): model = model.to(torch.float32).cpu()

5.2 模型加载失败

如果模型加载失败，检查：

# 检查模型文件是否完整 ls -lh Janus-Pro-7B/ # 应该看到类似这样的文件： # -rw-r--r-- 1 user user 15G Jan 1 00:00 pytorch_model.bin # -rw-r--r-- 1 user user 10K Jan 1 00:00 config.json # 检查文件权限 chmod -R 755 Janus-Pro-7B/ # 重新下载损坏的文件 cd Janus-Pro-7B rm pytorch_model.bin wget https://huggingface.co/deepseek-ai/Janus-Pro-7B/resolve/main/pytorch_model.bin

5.3 依赖包冲突

如果遇到包版本冲突：

# 创建干净的环境 deactivate # 退出当前环境 rm -rf janus_env # 删除旧环境 # 重新创建 python3.9 -m venv janus_env source janus_env/bin/activate # 按顺序安装 pip install torch==2.2.2 pip install numpy==1.26.3 pip install -e .

5.4 生成图片质量不佳

如果生成的图片效果不好，可以调整参数：

# 在generate函数中调整这些参数 cfg_weight = 7.5 # 提高这个值可以让图片更符合描述 temperature = 0.8 # 降低这个值可以让生成更稳定 # 使用更详细的描述 prompt = "一只非常可爱的橘猫，毛色鲜艳，正在柔软的灰色沙发上蜷缩着睡觉，温暖的阳光从窗户斜射进来，形成光斑，室内环境温馨，细节丰富，高清画质"

6. 实际应用建议

部署完成后，你可以考虑这些实际应用方向：

6.1 内容创作助手

如果你做自媒体或内容创作，可以用Janus-Pro来：

根据文章内容自动配图
分析现有图片生成描述文案
批量处理产品图片并生成介绍

6.2 教育辅助工具

在教育场景中：

让学生上传作业图片，自动批改或给出建议
根据课文内容生成插图
分析科学实验图片并解释原理

6.3 产品开发原型

对于开发者：

快速生成UI设计原型
根据用户反馈图片改进产品
自动化测试中的视觉验证

6.4 性能优化建议

如果对速度有要求：

考虑使用量化版本（如果有的话）
将模型部署到性能更好的GPU上
对常用功能进行缓存
使用批处理提高效率

7. 总结

整个部署过程走下来，你会发现其实没有想象中那么复杂。关键就是按步骤来：准备好Python环境，安装好依赖，下载模型文件，然后写个简单的测试脚本验证一下。Janus-Pro-7B作为一个多模态模型，最大的优势就是既能理解又能生成，这在很多实际场景中特别有用。

我建议你先把基础功能跑通，然后再根据实际需求去调整和优化。比如如果你主要用图片生成功能，可以多研究一下提示词的写法；如果主要用图片理解，可以试试不同的提问方式。

Linux系统部署的好处是稳定且灵活，一旦配置好，可以长期稳定运行。如果你需要对外提供服务，还可以考虑用Nginx做个反向代理，或者用Docker容器化部署，这样管理和迁移都会更方便。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Janus-Pro-7B多模态模型一键部署教程：基于Linux系统的快速安装指南