HunyuanVideo-Foley快速上手:output目录文件结构与元数据标准说明
1. 镜像概述与环境准备
HunyuanVideo-Foley是一款集视频生成与音效生成于一体的AI工具,本教程将详细介绍其私有部署镜像的使用方法,特别是输出文件的结构与元数据标准。
1.1 镜像基本信息
本镜像专为RTX 4090D 24GB显存显卡优化,包含以下核心组件:
- 基础环境:Python 3.10+、PyTorch 2.4+(CUDA 12.4编译)
- 加速库:xFormers、FlashAttention视频推理加速
- 音视频工具:FFmpeg音视频处理工具链
- 预装模型:HunyuanVideo-Foley完整模型权重
1.2 快速启动方法
启动服务有三种方式:
- WebUI可视化服务:
cd /workspace bash start_webui.sh- API推理服务:
cd /workspace bash start_api.sh- 命令行直接调用:
python infer.py \ --prompt "生成一段雨林环境的音效" \ --output ./output/jungle_audio.wav2. 输出目录结构解析
所有生成内容默认保存在/workspace/output/目录下,其结构设计如下:
2.1 基础目录结构
/workspace/output/ ├── videos/ # 视频文件存储目录 │ ├── 20240515_143022_urban_scene.mp4 │ └── 20240515_143125_nature_documentary.mp4 ├── audios/ # 音效文件存储目录 │ ├── 20240515_143022_street_noise.wav │ └── 20240515_143125_birds_singing.wav ├── metadata/ # 元数据存储目录 │ ├── 20240515_143022.json │ └── 20240515_143125.json └── temp/ # 临时文件目录2.2 文件命名规则
生成文件采用标准化命名格式:
[生成时间]_[内容描述].[扩展名]示例:
20240515_143022_urban_scene.mp420240515_143125_birds_singing.wav
时间格式为YYYYMMDD_HHMMSS,确保文件按生成时间有序排列。
3. 元数据标准说明
每个生成任务都会在metadata/目录下创建对应的JSON元数据文件,包含完整生成信息。
3.1 元数据结构示例
{ "task_id": "a1b2c3d4-e5f6-7890", "create_time": "2024-05-15 14:30:22", "content_type": "video", // 或"audio" "prompt": "生成一段城市街道的白天场景,包含车辆和行人声音", "duration_seconds": 15.2, "resolution": "1920x1080", "frame_rate": 30, "audio_sample_rate": 48000, "model_params": { "temperature": 0.7, "top_p": 0.9, "seed": 424242 }, "output_path": "/workspace/output/videos/20240515_143022_urban_scene.mp4", "related_files": [ "/workspace/output/audios/20240515_143022_street_noise.wav" ] }3.2 关键字段说明
- task_id:唯一任务标识符
- content_type:区分视频(video)或音效(audio)
- duration_seconds:生成内容时长(秒)
- resolution:视频分辨率(仅视频类型)
- audio_sample_rate:音频采样率(Hz)
- model_params:生成时使用的模型参数
- related_files:关联文件路径(如视频对应的音效文件)
4. 实际应用示例
4.1 视频生成工作流
- 通过WebUI或API提交生成请求:
{ "prompt": "日落时分的海滩场景,有海浪声和海鸥叫声", "duration": 10, "resolution": "1080p" }系统生成以下文件:
videos/20240515_150000_beach_sunset.mp4audios/20240515_150000_ocean_waves.wavmetadata/20240515_150000.json
元数据文件自动记录生成参数和关联关系。
4.2 音效独立生成
通过命令行生成独立音效:
python infer.py \ --prompt "咖啡厅环境音,包含杯碟碰撞和人群交谈声" \ --duration 30 \ --output ./output/audios/cafe_ambience.wav将生成:
audios/cafe_ambience.wavmetadata/[timestamp].json
5. 总结
HunyuanVideo-Foley的输出系统设计具有以下特点:
- 结构化存储:视频、音频、元数据分类存放,便于管理
- 完整追溯:元数据记录生成全过程参数和关联关系
- 标准化命名:时间戳+描述确保文件有序且可读
- 灵活集成:JSON格式元数据易于被其他系统解析使用
通过理解output目录结构和元数据标准,用户可以更好地组织生成内容,并为后续的自动化处理和二次开发奠定基础。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。