在我之前的帖子单细胞分析实录(7): 差异表达分析/细胞类型注释里面,我已经介绍了如何使用SingleR给单细胞数据做注释,当时只讲了SingleR配套的参考集。这次就讲讲如何使用自己定义/找到的基因集做注释,使用场景还是比较多的,比如想根据某篇论文里面的注释结果,给自己的数据做注释。本文配套的视频讲解已上传到B站,新手UP: TOP菌。gongzhong号后台回复20211023可获取本文所用到的示例数据和代码。

本次演示用到的数据集来自2020年发表在Nature Genetics的一篇结直肠癌研究。文中用到了韩国患者(SMC)和比利时患者(KUL3)两套数据集,两套数据平行分析,相互印证。

我以里面的髓系细胞为例,用KUL3数据集中的髓系细胞为参考,来注释SMC里面的髓系细胞

两套数据集中髓系细胞部分的数据,已经跑完Seurat标准流程并整理成rds文件:SMC_mye.rdsKUL3_mye.rds。代码存放在0.R中,这里就不展示了,很简单。代码中fread()用于快速读取4G矩阵文件是可以学习的地方。

mat=fread("GSE132465_GEO_processed_CRC_10X_raw_UMI_count_matrix.txt",select = c("Index",SMC.mye.anno$Index))

之后就是创建参考集,被存储为SummarizedExperiment对象

library(Seurat)
library(tidyverse)
library(SummarizedExperiment)
library(scuttle) KUL3_mye=readRDS("KUL3_mye.rds")

属性数据框中主要用到cell index和cell annotation这两个信息,此外还需导入表达矩阵

KUL3_mye_count=KUL3_mye[["RNA"]]@counts

pdata=KUL3_mye@meta.data[,c("Index","Cell_subtype")]
rownames(pdata)=pdata$Index
pdata$Index=NULL
colnames(pdata)="ref_label" KUL3_mye_SE <- SummarizedExperiment(assays=list(counts=KUL3_mye_count),colData = pdata)
#创建SummarizedExperiment对象

KUL3_mye_SE <- logNormCounts(KUL3_mye_SE)
#Compute log-transformed normalized expression values,要有这一行,对于单细胞数据normalize之后会再算一个log
saveRDS(KUL3_mye_SE,"KUL3_mye_SE.ref.rds")

log normalize之后就多了一个logcounts的assay,singleR的官网示例都是基于logcounts这种数据

将这个参考对象保存为rds文件,方便以后多次调用

现在导入我们的待注释数据集和参考数据集

library(tidyverse)
library(Seurat)
library(SingleR)
library(scuttle)
library(SummarizedExperiment) KUL3_mye_SE=readRDS("KUL3_mye_SE.ref.rds")
SMC_mye=readRDS("SMC_mye.rds")
SMC_mye_count=SMC_mye[["RNA"]]@counts #需要取不同数据集的基因交集
common_gene <- intersect(rownames(SMC_mye_count), rownames(KUL3_mye_SE))
KUL3_mye_SE <- KUL3_mye_SE[common_gene,]
SMC_mye_count <- SMC_mye_count[common_gene,] #也要创建SummarizedExperiment对象,以及log normalize
SMC_mye_SE <- SummarizedExperiment(assays=list(counts=SMC_mye_count))
SMC_mye_SE <- logNormCounts(SMC_mye_SE) #注释代码
singleR_res <- SingleR(test = SMC_mye_SE, ref = KUL3_mye_SE, labels = KUL3_mye_SE$ref_label)
#导出注释结果
anno_df <- as.data.frame(singleR_res$labels)
anno_df$Index <- rownames(singleR_res)
colnames(anno_df)[1] <- 'ref_label_from_KUL3' #将注释信息添加到Seurat对象
SMC_mye@meta.data=SMC_mye@meta.data%>%inner_join(anno_df,by="Index")
rownames(SMC_mye@meta.data)=SMC_mye@meta.data$Index
DimPlot(SMC_mye, reduction = "tsne", group.by = "Cell_subtype", pt.size=2)+
DimPlot(SMC_mye, reduction = "tsne", group.by = "ref_label_from_KUL3", pt.size=2)

左图是原文给的注释,右图是依据KUL3来注释SMC数据集,可以看出还是有一些不一致的。

像这种依据某个参考集来做注释,对参考集质量要求很高,原文KUL3只有两千髓系细胞,考虑到10X单细胞数据的稀疏性,这个数量是不够的。也可能是软件的限制,在做小类注释时,类与类之间的表达特征其实是比较相似的,软件不一定能精确给出合适的label,相比之下,软件做大类注释一般比较准。

因水平有限,有错误的地方,欢迎批评指正!

SingleR如何使用自定义的参考集的更多相关文章

  1. Android 自定义View合集

    自定义控件学习 https://github.com/GcsSloop/AndroidNote/tree/master/CustomView 小良自定义控件合集 https://github.com/ ...

  2. MyBatis 多表联合查询及优化 以及自定义返回结果集

    下面就来说一下 mybatis 是通过什么来实现多表联合查询的.首先看一下表关系,如图: 这 里,我已经搭好了开发的环境,用到的是 SpringMVC + Spring + MyBatis,当然,为了 ...

  3. VB6文件操作自定义函数合集之一

    '--与文件及文件夹操作相关的函数 '--必须引用FSO的ACTIVE OBJECT Dim strList As String '--列表串,返回文件列表 '================ '-- ...

  4. Sublime Text3学习参考集

    1.如何优雅地使用Sublime Text: http://jeffjade.com/2015/12/15/2015-04-17-toss-sublime-text/#three 持续更新中..... ...

  5. Struts学习之自定义结果集

    转自:http://blog.csdn.net/hanxuemin12345/article/details/38763057 项目中我们经常遇到这样的需求——页面部分刷新,例如:添加用户,转到添加用 ...

  6. 制作ACK集群自定义节点镜像的正确姿势

    随着云原生时代的到来,用户应用.业务上云的需求也越来越多,不同的业务场景对容器平台的需求也不尽相同,其中一个非常重要的需求就是使用自定义镜像创建ACK集群. ACK支持用户使用自定义镜像创建Kuber ...

  7. Linq to Sql:N层应用中的查询(上) : 返回自定义实体

    原文:Linq to Sql:N层应用中的查询(上) : 返回自定义实体 如果允许在UI层直接访问Linq to Sql的DataContext,可以省去很多问题,譬如在处理多表join的时候,我们使 ...

  8. mongodb副本集原理及部署记录

    工作原理 1.副本集之间的复制是通过oplog日志现实的.备份节点通过查询这个集合就可以知道需要进行复制的操作 2.oplog是节点中local库中的一个固定的集合,在默认情况下oplog初始化大小为 ...

  9. CentOS7.5搭建ELK6.2.4集群及插件安装

    一 简介 Elasticsearch是一个高度可扩展的开源全文搜索和分析引擎.它允许您快速,近实时地存储,搜索和分析大量数据.它通常用作支持具有复杂搜索功能和需求的应用程序的底层引擎/技术. 下载地址 ...

随机推荐

  1. .net中使用JSON

    在.NET使用JSON作为数据交换格式 ASP.NET中JSON的序列化和反序列化 三种方式: 使用System.Web.Script.Serialization.JavaScriptSerializ ...

  2. POJ1426——Find The Multiple (简单搜索+取余)

    题意: 给一个数n,让你找出一个只有1,0,组成的十进制数,要求是找到的数可以被n整除. 用DFS是搜索 当前位数字 (除最高位固定为1),因为每一位都只有0或1两种选择,换而言之是一个双入口BFS. ...

  3. 30天自制操作系统(二)汇编语言学习和Makefile入门

    我们继续学习操作系统的相关内容. ; hello-os ; TAB=4 ORG 0x7c00 ; このプログラムがどこに読み込まれるのか ; 以下は標準的なFAT12フォーマットフロッピーディスクのた ...

  4. c++ 打包函数教程

    c++当要重复运行一些代码时可以打包一个函数 当没有返回值时用void打包函数: #include <iostream> #include <stdio.h> using na ...

  5. TP生成二维码插件

    安装 composer require endroid/qrcode 使用: use Endroid\QrCode\QrCode 然后 这个类库要改一下 在路径:你的项目路径\vendor\endro ...

  6. 带你掌握Vue过滤器filters及时间戳转换

    摘要:Vue的filters过滤器是比较常见的一个知识点,下面我将结合时间戳转换的例子带你快速了解filters的用法. 本文分享自华为云社区<三分钟掌握Vue过滤器filters及时间戳转换& ...

  7. jQuery has been removed

    jQuery has been removed, 新的项目不要用jQuery了 这些问题都已经有了解决方案 * $()选择器, * $.ajax, * $dom.on("click" ...

  8. 《如何进行接口mock测试》

    前言: Mock通常是指:在测试一个对象时,我们构造一些假的对象来模拟与其交互.而这些Mock对象的行为是我们事先设定且符合预期.通过这些Mock对象来测试对象在正常逻辑,异常逻辑或压力情况下工作是否 ...

  9. three.js 纹理动画实现

    需求: 1.使用一张长图.分别播放这张长图的不同位置 来达到动态内容的目的 解决方案: 1.纹理创建并指定重复方向:this.texture.wrapS = this.texture.wrapT = ...

  10. ❤️❤️新生代农民工爆肝8万字,整理Python编程从入门到实践(建议收藏)已码:8万字❤️❤️

    @ 目录 开发环境搭建 安装 Python 验证是否安装成功 安装Pycharm 配置pycharm 编码规范 基本语法规则 保留字 单行注释 多行注释 行与缩进 多行语句 数据类型 空行 等待用户输 ...