news 2026/4/16 19:57:43

【RL】verl 数据处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【RL】verl 数据处理

您的 Eurus-2-RL-Data 数据集需要做两个主要适配:文件格式转换字段映射配置

快速解决方案

1. 转换文件格式(推荐)

将 arrow 文件转换为 parquet 格式:

fromdatasetsimportload_datasetimportos# 加载原始数据ds=load_dataset("PRIME-RL/Eurus-2-RL-Data")# 保存为 parquet 格式output_dir="/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data-parquet"os.makedirs(output_dir,exist_ok=True)ds["train"].to_parquet(os.path.join(output_dir,"train.parquet"))ds["validation"].to_parquet(os.path.join(output_dir,"validation.parquet"))

2. 配置数据路径

在训练命令中使用转换后的文件:

python3 -m verl.trainer.main_fastrl\data.train_files=/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data-parquet/train.parquet\data.val_files=/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data-parquet/validation.parquet

详细适配说明

数据格式兼容性

FastRL 的RLHFDataset类默认使用datasets.load_dataset("parquet", data_files=parquet_file)读取数据 1 。虽然您的数据是 arrow 格式,但可以通过以下方式处理:

方案一:格式转换(推荐)

如上所示,转换为 parquet 格式,这是最简单直接的方案。

方案二:自定义数据集类

如果不想转换格式,可以创建自定义数据集类:

fromverl.utils.datasetimportRLHFDatasetfromdatasetsimportload_datasetclassEurusDataset(RLHFDataset):def_read_files_and_tokenize(self):# 直接加载 arrow 格式if"train"inself.data_files[0]:self.dataframe=load_dataset("arrow",data_files=self.data_files)["train"]else:self.dataframe=load_dataset("arrow",data_files=self.data_files)["validation"]print(f"dataset len:{len(self.dataframe)}")self.dataframe=self.maybe_filter_out_long_prompts(self.dataframe)

然后在配置中指定:

data:custom_cls:path:/path/to/your/custom_dataset.pyname:EurusDataset

字段映射验证

您的数据字段与 FastRL 默认配置兼容 2 :

  • prompt✓ - 对应配置中的prompt_key: prompt
  • data_source✓ - 对应配置中的reward_fn_key: data_source
  • reward_model- 可用于多奖励模型场景
  • ability,extra_info- 额外信息,训练时会保留

多文件配置

如果您想直接使用原始的多个 arrow 文件,可以这样配置:

data:train_files:-/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data/eurus-2-rl-data-train-00000-of-00004.arrow-/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data/eurus-2-rl-data-train-00001-of-00004.arrow-/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data/eurus-2-rl-data-train-00002-of-00004.arrow-/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data/eurus-2-rl-data-train-00003-of-00004.arrowval_files:/data/oss_bucket_0/seadawn/openlm_hub/eurus-2-rl-data/eurus-2-rl-data-validation.arrow

RLHFDataset支持文件列表输入 3 ,会自动合并多个文件。

Notes

  • 如果使用自定义数据集类,需要确保它继承自torch.utils.data.Dataset4
  • 数据会被下载到本地缓存目录(默认~/.cache/verl/rlhf) 5
  • 可以通过filter_overlong_prompts过滤过长的提示 6

Citations

File:verl/utils/dataset/rl_dataset.py (L92-93)

ifnotisinstance(data_files,list|ListConfig):data_files=[data_files]

File:verl/utils/dataset/rl_dataset.py (L101-101)

self.cache_dir=os.path.expanduser(config.get("cache_dir","~/.cache/verl/rlhf"))

File:verl/utils/dataset/rl_dataset.py (L109-109)

self.filter_overlong_prompts=config.get("filter_overlong_prompts",True)

File:verl/utils/dataset/rl_dataset.py (L130-136)

def_read_files_and_tokenize(self):dataframes=[]forparquet_fileinself.data_files:# read parquet files and cachedataframe=datasets.load_dataset("parquet",data_files=parquet_file)["train"]dataframes.append(dataframe)self.dataframe:datasets.Dataset=datasets.concatenate_datasets(dataframes)

File:verl/trainer/config/data/legacy_data.yaml (L16-20)

# The field in the dataset where the prompt is located. Default is 'prompt'.prompt_key:prompt# The field used to select the reward function (if using different ones per example).reward_fn_key:data_source

File:verl/trainer/main_ppo.py (L300-308)

if"custom_cls"indata_configanddata_config.custom_cls.get("path",None)isnotNone:# Dynamically load the custom dataset classdataset_cls=load_extern_type(data_config.custom_cls.path,data_config.custom_cls.name)# Verify that the custom dataset class inherits from torch.utils.data.Datasetifnotissubclass(dataset_cls,Dataset):raiseTypeError(f"The custom dataset class '{data_config.custom_cls.name}' from "f"'{data_config.custom_cls.path}' must inherit from torch.utils.data.Dataset")

是的,FastRL 会自动合并多个文件,但默认不支持直接处理 arrow 格式。

自动合并多个文件

RLHFDataset类会自动合并多个文件。在_read_files_and_tokenize方法中,它遍历所有文件路径,加载每个文件,然后使用datasets.concatenate_datasets将它们合并成一个数据集 1 :

def_read_files_and_tokenize(self):dataframes=[]forparquet_fileinself.data_files:# read parquet files and cachedataframe=datasets.load_dataset("parquet",data_files=parquet_file)["train"]dataframes.append(dataframe)self.dataframe:datasets.Dataset=datasets.concatenate_datasets(dataframes)

Arrow 格式支持

默认情况下,RLHFDataset只支持 parquet 格式 2 。要支持 arrow 格式,有两种方案:

方案一:修改加载方式(简单)

datasets 库本身支持 arrow 格式,只需修改一行代码:

# 原代码dataframe=datasets.load_dataset("parquet",data_files=parquet_file)["train"]# 改为dataframe=datasets.load_dataset("arrow",data_files=parquet_file)["train"]

方案二:自定义数据集类(推荐)

创建继承自RLHFDataset的自定义类,重写_read_files_and_tokenize方法 3 :

fromverl.utils.datasetimportRLHFDatasetclassArrowDataset(RLHFDataset):def_read_files_and_tokenize(self):dataframes=[]forarrow_fileinself.data_files:# 直接加载 arrow 格式dataframe=datasets.load_dataset("arrow",data_files=arrow_file)["train"]dataframes.append(dataframe)self.dataframe=datasets.concatenate_datasets(dataframes)print(f"dataset len:{len(self.dataframe)}")self.dataframe=self.maybe_filter_out_long_prompts(self.dataframe)

然后在配置中指定使用自定义类 4 :

data:custom_cls:path:/path/to/your/custom_dataset.pyname:ArrowDataset

Notes

  • 多文件合并功能是内置的,无需额外配置 5
  • datasets 库支持多种格式:parquet、arrow、csv、json 等
  • 自定义数据集类必须继承自torch.utils.data.Dataset6

Wiki pages you might want to explore:

  • Data Generation Pipeline (mit-han-lab/fastrl)

Citations

File:verl/utils/dataset/rl_dataset.py (L92-93)

ifnotisinstance(data_files,list|ListConfig):data_files=[data_files]

File:verl/utils/dataset/rl_dataset.py (L130-136)

def_read_files_and_tokenize(self):dataframes=[]forparquet_fileinself.data_files:# read parquet files and cachedataframe=datasets.load_dataset("parquet",data_files=parquet_file)["train"]dataframes.append(dataframe)self.dataframe:datasets.Dataset=datasets.concatenate_datasets(dataframes)

File:verl/trainer/main_ppo.py (L300-308)

if"custom_cls"indata_configanddata_config.custom_cls.get("path",None)isnotNone:# Dynamically load the custom dataset classdataset_cls=load_extern_type(data_config.custom_cls.path,data_config.custom_cls.name)# Verify that the custom dataset class inherits from torch.utils.data.Datasetifnotissubclass(dataset_cls,Dataset):raiseTypeError(f"The custom dataset class '{data_config.custom_cls.name}' from "f"'{data_config.custom_cls.path}' must inherit from torch.utils.data.Dataset")

File:verl/trainer/config/data/legacy_data.yaml (L283-286)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 9:07:44

多台三相逆变器并联的 Matlab/Simulink 仿真探索

多台三相逆变器并联(本模型为三台并联,市面上多为两台并联)matlab/simulink仿真。 功能:实现并联系统中各逆变器输出功率均分。 (有能力的话还可以研究下垂特性、功率指令以及静态功工作点三者之间的联系) …

作者头像 李华
网站建设 2026/4/16 9:05:25

VIPCalendar-全球节假日日历工具,支持打印与ICS导入

VIPCalendar(https://vipcalendar.me/)是一款面向全球用户的免费在线日历工具,覆盖100多个国家和地区的官方节假日信息。该平台不仅提供结构清晰的年历视图,还支持下载、打印与个人日历的导入同步,适合日常安排、出行规…

作者头像 李华
网站建设 2026/4/16 11:07:41

通达信老鹰抓鱼主图指标公式

{}老鹰:EMA(LOW,3),COLORFFFFFF,LINETHICK1; 浅水:EMA(LOW,30)*0.849,COLORC08000,DOTLINE; 深水:EMA(LOW,30)*0.624,COLORFF0000,LINETHICK2; J:BARSLAST(crOSS(老鹰,浅水)); S:BARSLAST(CROSS(浅水,老鹰)); N1:BARSLAST(J)1; N2:BARSLAST(S)1; LY:REF(LLV(C,N1),N2),COLOR404…

作者头像 李华
网站建设 2026/4/16 10:43:37

22、网络管理与跨平台编程的Python实践

网络管理与跨平台编程的Python实践 在网络管理和系统管理领域,Python 以其强大的功能和丰富的库成为了一种重要的工具。下面将介绍 SNMP 相关工具的创建、Net - SNMP 的扩展、SNMP 设备控制、企业级 SNMP 与 Zenoss 的集成,以及跨平台 Unix 编程等方面的内容。 SNMP 查询与…

作者头像 李华
网站建设 2026/4/16 7:10:47

Chrome扩展截图功能实现

Chrome扩展截图主要逻辑实现 本文档详细描述了一个浏览器扩展程序中的截图功能实现,该功能允许用户通过鼠标拖拽选择网页上的特定区域,并将该区域截取为图片(base64格式)。 一、整体架构 1.1 系统组件 ┌────────────…

作者头像 李华
网站建设 2026/4/16 12:16:23

4、使用Git管理Puppet代码

使用Git管理Puppet代码 1. 版本控制概述 在软件开发过程中,版本控制是一项非常重要的技术。即使你是唯一处理一段源代码(如Puppet清单)的人,能够查看自己所做的更改以及更改时间也是很有用的。例如,你可能会发现过去某个时间引入了一个bug,这时就需要确切检查某个文件是…

作者头像 李华