本次演示使用的数据来自2017年发表于Cell的头颈鳞癌单细胞文章:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer.本次演示提供处理好的测试数据,以及所有代码,一共6个脚本(我目前写得最详细的教程,也是全网少有的). 数据的预处理就不演示了,预处理的代码存放在0.pre.R文件中. 以下是肿瘤细胞tsne图和原图的对比,和原文一致,说明前面…
1. 起因 之前的代码(单细胞分析实录(17): 非负矩阵分解(NMF)代码演示)没有涉及到python语法,只有4个python命令行,就跟Linux下面的ls grep一样的.然鹅,有几个小伙伴不会命令行,所以我决定再改写一下,把命令行都放到R下面运行. 2. 尝试 2.1 一开始,我的想法是教大家在R里面调用python,需要提前下载好anaconda和一些python包 然而想了想在Windows上安装python包可能对大家不是很友好,有些包很难装,我之前也弄了很久.考虑到这次更新是针…
之前写过三篇和CNV相关的帖子,如果你做肿瘤单细胞转录组,大概率看过: 单细胞分析实录(11): inferCNV的基本用法 单细胞分析实录(12): 如何推断肿瘤细胞 单细胞分析实录(13): inferCNV结合UPhyloplot2分析肿瘤进化 其中,第三篇帖子里面有两个注释代码,可以在基因和染色体长短臂两个层面对CNV做注释 这次对tree_anno.R代码做了更新,简单来说就是对原始CNV region的长度做了限制,最后的结果会输出更少更明显的CNV 之前在我这里拿过代码的读者如果需…
http://blog.csdn.net/pipisorry/article/details/52098864 非负矩阵分解(NMF,Non-negative matrix factorization) NMF的发展及原理 著名的科学杂志<Nature>于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果.该文提出了一种新的矩阵分解思想--非负矩阵分解(Non-negative Matrix Factorization,NMF)算法,即NMF是在矩阵中所…
在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题.这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解,但是计算量和处理速度则比LSI快,它是怎么做到的呢? 1. 非负矩阵分解(NMF)概述 非负矩阵分解(non-negative matrix factorization,以下简称NMF)是一种非常常用的矩阵分解方法,它可以适用于很多领域,比如图像特征识别,语音识别等,这里我们会主要关注于它在文本主…
一.矩阵分解回想 在博文推荐算法--基于矩阵分解的推荐算法中,提到了将用户-商品矩阵进行分解.从而实现对未打分项进行打分. 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积.对于上述的用户-商品矩阵(评分矩阵),记为Vm×n.能够将其分解成两个或者多个矩阵的乘积,如果分解成两个矩阵Wm×k和Hk×n.我们要使得矩阵Wm×k和Hk×n的乘积能够还原原始的矩阵Vm×n: Vm×n≈Wm×k×Hk×n=V^m×n 当中,矩阵Wm×k表示的是m个用户与k个主题之间的关系,而矩阵Hk×n表示的是k个主题…
本文从基础介绍隐语义模型和NMF. 隐语义模型 ”隐语义模型“常常在推荐系统和文本分类中遇到,最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解. 向用户推荐物品 在推荐系统中,可以通过隐含语义模型将用户(user)和物品(item)自动分类,这些类别是自动生成的.这些类别也可以叫做“隐含的分类”,也许看不懂.每个用户或者物品会被分到多个类别中,属于某个类别的权重会被计算出来. 假设现在有一个大小为m×n的评分矩阵V,包含了m个用户对n个物品的…
最近Cell Systems杂志发表了一篇针对现有几种检测单细胞测序doublet的工具的评估文章,系统比较了常见的例如Scrublet.DoubletFinder等工具在检测准确性.计算效率等方面的优劣,以及比较了使用不同方法去除doublet后对下游DE分析.轨迹分析的影响. 现有的检测方法,基本都会先构造出虚拟doublet,然后将候选droplet与这些虚拟doublet比较,很相似的那些就定义为doublet.这里的虚拟doublet是通过随机组合两个(类)细胞的表达值得到的虚拟的do…
前面我们已经学习了单细胞转录组分析的:使用Cell Ranger得到表达矩阵和doublet检测,今天我们开始Seurat标准流程的学习.这一部分的内容,网上有很多帖子,基本上都是把Seurat官网PBMC的例子重复一遍,这回我换一个数据集,细胞类型更多,同时也会加入一些实际分析中很有用的技巧. 1. 导入数据,创建Seurat对象 library(Seurat) library(tidyverse) testdf=read.table("test_20210105.txt",head…
今天的内容讲讲单细胞文章中经常出现的展示细胞marker的图:tsne/umap图.热图.堆叠小提琴图.气泡图,每个图我都会用两种方法绘制. 使用的数据来自文献:Single-cell transcriptomics reveals regulators underlying immune cell diversity and immune subtypes associated with prognosis in nasopharyngeal carcinoma. 去年7月发表在Cell Re…