news 2026/6/10 22:09:47

单细胞数据解读与获取示范

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
单细胞数据解读与获取示范

在单细胞测序数据分析中,barcodes、features和matrix是三个最核心的基础文件,它们共同构成了所有分析的基石。

特性维度细胞条形码 (barcodes,BC)表达矩阵 (Matrix)
​核心角色​​细胞身份证​​核心数据账本​
​功能定位​定位数据属于哪个细胞分析每个细胞中基因表达量有多少
​数据结构​表达矩阵的列名​ (Column Names)一个二维表格:行是基因,列是细胞,元素是表达量
​文件表现​通常为 barcodes.tsv文件,每行是一个条形码序列通常为 matrix.mtx文件(稀疏矩阵格式),存储非零表达值
​依赖关系​表达矩阵的列数由有效的细胞条形码数量决定表达矩阵的列标识完全依赖于细胞条形码文件

一、进入GEO官网:https://www.ncbi.nlm.nih.gov/geo/

在GEO(Gene Expression Omnibus)数据库中下载单细胞数据时,最常见的数据存储和提供形式主要有以下四种类型:


  1. 10x Genomics 标准格式(最主流)

在GEO的数据集中,我们通常会找到一个包含以下三个核心文件的文件夹(通常以 *_filtered_feature_bc_matrix.tar.gz或类似名称的压缩包提供):

barcodes.tsv(.gz): 包含所有检测到的细胞条形码(Cell Barcode),每个条形码代表一个可能的细胞。

features.tsv(.gz)​ 或 genes.tsv(.gz): 包含所有被检测的基因(或转录本、抗体标签)的标识符和名称。

matrix.mtx(.gz): 以稀疏矩阵格式存储的基因表达计数矩阵,行对应基因,列对应细胞。


  1. H5 格式(高效二进制格式)

这是一种用于存储大规模数据的二进制文件格式。在单细胞上下文中,它通常是将上述10x标准格式的三个文件整合到了一个单一的 .h5文件中。

典型命名: *_filtered_feature_bc_matrix.h5

优势: 文件单一,便于管理和传输,存储效率高。


  1. R 数据文件(可直接使用的分析对象)

部分数据提交者会将已初步处理好的单细胞数据直接保存为R语言特有的数据文件格式,供其他研究者快速载入。

.rds文件: 存储单个R对象(如一个Seurat对象或表达矩阵)。使用 readRDS()函数读取。

.RData或 .rda文件: 可存储一个或多个R对象。使用 load()函数读取,对象会被载入当前工作环境。

优势: 读取速度极快,且能保留完整的对象结构和中间分析结果。


  1. 压缩文本矩阵(通用表格格式)

这是一种比较传统和通用的数据提供方式,将表达矩阵保存为纯文本表格,并进行压缩以减小体积。

格式: 通常是 .txt.gz或 .csv.gz文件。

内容: 行是基因,列是细胞(或样本),表格内的值为表达量。有时也可能提供转置后的格式(行是细胞,列是基因)。

如何读取: 可以使用 data.table::fread()、read.delim()等函数读取,或在Excel中打开(不推荐用于大型数据)。读取后通常需要转换为矩阵或数据框,才能用于创建Seurat对象。


二、以”GSE234527”为例子:读取一个10× Genomics格式文件

1、搜索“GSE234527”:

2、在补充材料里下载(点击“custom”)


3、在桌面解压缩,分类整理:数据来自五个不同样本,分成五类,每个样本包含多个细胞
修改前:

修改后:


*修改的目的是为了更好地用R语言进行数据处理
详细过程请参考:https://www.bilibili.com/video/BV1Ct421j7X3?spm_id_from=333.788.videopod.sections&p=4
(B站:生信幻想家——单细胞数据分析)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:51:19

Emotion2Vec+ Large心理咨询进度管理:来访者情绪演变图表生成

Emotion2Vec Large心理咨询进度管理:来访者情绪演变图表生成 1. 引言:用AI看懂情绪变化,让心理咨询更科学 你有没有想过,一个人说话时的情绪波动,其实可以用一张图完整记录下来?在心理咨询过程中&#xf…

作者头像 李华
网站建设 2026/6/10 12:52:28

FSMN-VAD表格输出乱码?Markdown格式化修复实战

FSMN-VAD表格输出乱码?Markdown格式化修复实战 1. 问题背景:当语音检测结果变成“乱码” 你有没有遇到过这种情况——明明模型已经成功识别出音频中的语音片段,但最终在网页界面上看到的 Markdown 表格却显示异常,内容错位、排版…

作者头像 李华
网站建设 2026/6/10 14:52:51

低成本实现专业级修复:GPEN镜像免费部署实战教程

低成本实现专业级修复:GPEN镜像免费部署实战教程 你是否遇到过老照片模糊、人像噪点多、细节丢失严重的问题?传统修图软件操作复杂,效果还不理想。今天要介绍的 GPEN 图像肖像增强工具,能让你用零成本的方式,一键实现…

作者头像 李华
网站建设 2026/6/10 11:30:27

Emotion2Vec+ Large GPU利用率偏低?推理加速与批处理优化方案

Emotion2Vec Large GPU利用率偏低?推理加速与批处理优化方案 1. 问题背景:为什么GPU跑不满? 你有没有遇到这种情况:明明用的是高性能GPU,但运行Emotion2Vec Large语音情感识别系统时,nvidia-smi一看——G…

作者头像 李华
网站建设 2026/6/10 15:11:05

Emotion2Vec+ Large实战案例:客服录音情绪监控系统搭建步骤

Emotion2Vec Large实战案例:客服录音情绪监控系统搭建步骤 1. 项目背景与核心价值 在现代客户服务中,客户的情绪状态直接影响服务质量评估和后续处理策略。传统的录音回听方式效率低下,难以实现大规模、实时的情绪分析。本文将带你从零开始…

作者头像 李华
网站建设 2026/6/10 15:07:19

YOLOv9本地部署对比云端:成本与效率权衡分析

YOLOv9本地部署对比云端:成本与效率权衡分析 你是不是也在纠结:YOLOv9这么强的模型,到底该在本地跑还是上云?训练一个目标检测任务,花几千块买显卡值不值?还是按小时付费租用GPU更划算?别急&am…

作者头像 李华