news 2026/4/16 18:20:48

UKB数据库/RAP平台批量下载数据教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
UKB数据库/RAP平台批量下载数据教程

使用 Table Exporter方法
第一步:
通过在本地终端(请确保你的机器上安装了dx-toolkit)或ttyd终端,执行以下命令,获取包含你数据集中所有可用数据字段的文件:

dx extract_dataset project-xxxx:record-yyyy -ddd --delimiter ","
where project-xxxx:record-yyyy is ID of your Dataset

【安装dx-toolkit】打开本地电脑中的Anaconda Prompt
【安装dx-toolkit】在Anaconda Prompt中输入

pip install dxpy

系统会进行自动安装。

假如出现类似以下报错:

WARNING: The scripts dx, dx-app-wizard, dx-build-app and dx-build-applet are installed in '/Users/user-amy/Library/Python/3.9/bin' which is not on PATH. Consider adding this directory to PATH

说明需要更新电脑的PATH环境变量配置,以包括pip安装新命令的路径(具体解决方案自行百度)。

【CLI登录】在Anaconda Prompt中输入

dx login

服务器连接成功后按提示输入RAP的用户名和密码即可

现在输入:

dx extract_dataset project-xxxx:record-yyyy -ddd --delimiter ","

注意!

project-xxxx:record-yyyy为你的数据库 例如xxxxx.dataset

完成后有三个文件

上述命令将生成3个*.csv文件,其中*.dataset.data_dictionary.csv文件包含所有可用数据字段的完整信息(字段名称位于称为 的第二列name)。

where project-xxxx:record-yyyy is ID of your Dataset

【登出/注销CLI】使用完毕养成好习惯需要登出/注销,在Anaconda Prompt中输入:

dx logout

第二步:
接下来使用Table Exporter

收集所有感兴趣的数据字段名称,并写入field_name.txt文件。文件应有1列,每行只有1个数据字段名称。上述文件应仅包含同一实体中的数据字段(例如“参与者”、“olink_instance_0”等)。不同实体中的数据字段应写入独立文件。用于的值可以在.dataset.data_dictionary.csv文件的第一列中找到(注:这与entity_dictionary.csv文件中的不同)

注意这一步:
可以在自己电脑上新建txt,
但是!
需要用Visual Studio Code软件将txt转化为unix格式的txt !!!
也可,自行百度查看其他方法windows的txt转unix的txt.

用 VS Code 打开文件 查看右下角状态栏,会显示 "CRLF" 或 "LF" 点击 "CRLF" 或 "LF",选择 "LF" 保存文件

第三步
将field_name.txt文件上传到RAP项目

根据需要,
我用这个

注意:指定实体会快更多!


到这个就批量下载完成!

RAP官网下载教程如下:

https://dnanexus.gitbook.io/uk-biobank-rap/working-on-the-research-analysis-platform/accessing-data/accessing-phenotypic-data
https://documentation.dnanexus.com/developer/apps/developing-spark-apps/table-exporter-application

可进行进一步参考!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:59:40

Java+React全栈开发面试宝典(完整60题)

📌 Java后端篇(15题) 1. 说说JVM的内存结构? 答案框架(记忆口诀:堆栈方本程) JVM内存分为5个区域: 堆(Heap):存放对象实例,是GC的主要区域,分为新生代(Eden、S0、S1)和老年代 栈(Stack):每个线程私有,存局部变量、方法调用,栈帧包含局部变量表、操作数…

作者头像 李华
网站建设 2026/4/16 14:28:55

CCF-GESP计算机学会等级考试2025年12月四级C++T2 优先购买

B4452 [GESP202512 四级] 优先购买 题目描述 小 A 有 MMM 元预算。商店有 NNN 个商品,每个商品有商品名 SSS、价格 PPP 和优先级 VVV 三种属性,其中 VVV 为正整数,且 VVV 越小代表商品的优先级越高。 小 A 的购物策略为: 总是优先…

作者头像 李华
网站建设 2026/4/16 18:14:00

net美食点餐系统 校园外卖跑腿系统vue骑手

目录已开发项目效果实现截图关于博主开发技术介绍核心代码参考示例1.建立用户稀疏矩阵,用于用户相似度计算【相似度矩阵】2.计算目标用户与其他用户的相似度系统测试总结源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!已开发…

作者头像 李华
网站建设 2026/4/16 14:33:38

日语补助动词

一、什么是补助动词?(先给核心) 补助动词是:本来是动词,但失去原本具体意义, 接在「て形」或「连用形」后, 用来补充说明动作的状态、方向、完成度、态度等📌 常见特点: …

作者头像 李华
网站建设 2026/4/16 15:00:03

近视防控越做越焦虑?这些实用干货你都掌握了吗?

如今,近视低龄化、高发化趋势愈发明显,不少家长从孩子幼儿园阶段就开始关注近视防控,却仍难免陷入“越防控越焦虑”的困境:严格控制屏幕时间,孩子还是出现了视物模糊的情况。其实,近视防控并非盲目跟风&…

作者头像 李华
网站建设 2026/4/16 14:39:29

双碳背景下24小时分时综合能源系统低碳优化调度实践

双碳24小时分时综合能源系统低碳优化调度(用MatlabYalmip+Cplex) 包含新能源消纳、热电联产、电锅炉、储能电池、天然气、碳捕集CCS、计及碳交易市场等综合元素,实现系统总运行成本最小 包括购电成本、购气成本、碳交易成本、运维…

作者头像 李华