RNA-seq是利器,大部分做实验的老板手下都有大量转录组数据,所以RNA-seq的分析需求应该是很大的(大部分的生信从业人员应该都差不多要沾边吧). 普通的转录组套路并不多,差异表达基因.富集分析.WGCNA network以及一些没卵用的花式分析.DEG分析是基础,up and down,做个富集,了解一下处理后到底是什么通路被改变了:WGCNA主要就是根据相关性来找出一些co-express的gene module. 单细胞的转录组的玩法就比较多了,可以理解为超多样本的普通转录组,普通转录…
http://software.broadinstitute.org/gsea/index.jsp GSEA(Gene Set Enrichment Analysis)是一种生物信息学的计算方法,用于确定是否存在这样一个基因集,能在两个生物学状态中显示出显著的一致性的差异.表达谱数据里的基因数目众多,我们需要对基因进行功能注释,看哪些基因属于同一通路,以及该通路上的上调.下调情况,这就是富集分析了. 例如2019年4月在Cancer cell(PMID 30991027)上发表的一篇文章中有一张…
一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清楚,甚至有可能误导大家了) 以下以一个案例来详细说明两者的区别: 推荐一个没有任何基础的人都能使用的gene set注释工具 http://www.webgestalt.org/option.php GCLC TFPI HSPB6 TSPOAP1 ITGA2B OSBPL7 BAIAP2L1 NOS…
clusterProfiler没有显性的接口,但是可以直接扣取clusterProfiler里的函数. 核心函数就是get_GO_data GO_DATA <- get_GO_data("org.Hs.eg.db", "BP", "SYMBOL") 可以看到输入的是GO数据库,选定类别,基因名字类型,输出的就是整个数据库. 但是想调用这个函数没那么简单,得导入一系列的基础函数. 一个常见的任务就是获取GO数据库里所有的cell cycle相…
Spark Streaming揭秘 Day31 集群模式下SparkStreaming日志分析(续) 今天延续昨天的内容,主要对为什么一个处理会分解成多个Job执行进行解析. 让我们跟踪下Job调用过程. 从框架代码开始 我们从生成Job开始,generateJobs方法产生了Job,之后,提交了一个JobSet来进行处理. JobSet会根据输出情况来确定Job数量,有多少个输出就有多少个Job,在我们的演示代码中,只有一个outputDStream,所以job是一个.jobExecutor…
Spark Streaming揭秘 Day30 集群模式下SparkStreaming日志分析 今天通过集群运行模式观察.研究和透彻的刨析SparkStreaming的日志和web监控台. Day28已经分析过local模式下的日志,集群模式会比较类似,这次主要是对集群模式在的web监控台,进行统一的深度刨析. 我们从wordcount程序开始,代码如下,为了展示出SparkStreaming在集群中的运行,Batch Duration设置为5分钟. 系统作业 为了观察持续运行的情况,我们运行了…
Power BI 与 Azure  Analysis Services 的数据关联:2.Azure  Analysis Services与 本地版本的 SQL   Analysis Services 连接…
转载于https://blog.csdn.net/Johan_Joe_King/article/details/79058597?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-3 上回把文法的LR(0)项目集规范族搞了半天,革命进行了一半. 鼓捣了半天整了一堆项目集规范族出来,总是有用的呀,接下来就是在那堆的基础上构造分析表了,构造好分析表就能分析输入串了.本文主要讲LR(0)分析表的构造和输入串分析过程. 我这个菜鸡都觉得是通…
全基因组关联分析除了找到显著的关联位点,我们还可以做基因优化.geneset富集分析.组织富集分析,下面具体讲一讲怎么利用GWAS的summary数据做这个分析. summary数据就是关联分析的结果文件 1 软件安装前请确保需要满足的系统环境 1.1 支持Mac OS X 或者 UNIX, 不支持windows系统 1.2 Java SE 6(或者更高),没有安装Java请自行安装 1.3 需要PIP 怎么确定系统有没有安装PIP呢,输入命令which pip,如果没有路径弹出,说明没有PIP…
paper:cepip: context-dependent epigenomic weighting for prioritization of regulatory variants and disease-associated genes Genotype-Tissue Expression Project (GTEx) - genome上的eQTL位点及其对特定组织的特定基因表达的影响,同时包含了不同eQTL之间的LD关系.这个整合多个疾病的数据.正如其名,该数据包含了genotype.…
参考:http://www.biotrainee.com/thread-558-1-1.html http://bioconductor.org/packages/3.7/bioc/ http://www.bioconductor.org/packages/release/bioc/html/topGO.html https://www.jianshu.com/p/9e21f2196178 https://rpubs.com/aemoore62/TopGo_colMap_Func_Trouble…
最近在复习编译原理,考试之前以为自己懂了,眼高手低就没去实践.结果一考试出问题了.... 学习就要脚踏实地,容不得半点模糊.凭着侥幸心理很危险的.以后要引以为戒啊. 特别写出这篇文章 :一来总结一下这几天的收获.二来与君共勉. 一.概念 1.概念解释 1.活前缀:不包含句柄右侧任一符号的规范句型的前缀称为该句型的活前缀.                 例如:Bab是下面那个文法的一个句型,其中b是句柄.                 那么针对这个句型的活前缀有:ε.B.Ba 和Bab    …
一个简单的例子! 环境:CentOS6.5 Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目 --有一个用户数据样本(表名huserinfo)10万数据左右:--其中有一个字段:身份证号(id_card)--身份证号前两位代表:省,例如:11北京,12天津,13河北:--身份证前x位对照表(表名hidcard_province)--要求1:计算出每个省份出现的次数,并按从大到小排序取前30个:--要求2:使用R画出柱状图. 2.编写Hive提取数据脚本:…
一.Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结束,下一个stage阶段开始 关于RDD中的分区,在默认情况下(也就是未指明分区数的情况) 1.如果从HDFS中读取数据创建RDD,在默认情况下 二.spark架构原理 1.Spark架构原理 Driver 进程                    编写的Spark程序就在Driver上, 由Dr…
此文已由作者温正湖授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 一.日志复制流程: a.raft leader节点在接收client请求后,先将请求写到日志中,再将日志通过AppendEntries RPC发送到follow上.如果收到了大多数follow的确认消息,则对应日志可以在leader节点回放,之后follow上对应的日志也会被应用: b.mongodb primary节点在接收到client/driver请求后,将数据变化写到数据库上,同时写一份日志到op…
今天想停止spark集群,发现执行stop-all.sh的时候spark的相关进程都无法停止.提示: no org.apache.spark.deploy.master.Master to stop no org.apache.spark.deploy.worker.Worker to stop 上网查了一些资料,再翻看了一下stop-all.sh,stop-master.sh,stop-slaves.sh,spark-daemon.sh,spark-daemons.sh等脚本,发现很有可能是由…
传送门 Description 有n个城市,标号为1到n,修建道路花费m天,第i天时,若gcd(a,b)=m-i+1,则标号为a的城市和标号为b的城市会建好一条直接相连的道路,有多次询问,每次询问某两座城市最早什么时候能连通. Input 第一行输入三个正整数n,m,q,其中q表示询问个数. 接下来q行,每行两个正整数x,y,表示询问城市x和城市y最早什么时候连通. Output 输出q行,每行一个正整数,表示最早连通的天数 Sample Input Input 1 8 3 3 2 5 3 6…
改造dubbo-demo-web项目为Tomcat启动项目 Tomcat官网 准备Tomcat的镜像底包 准备tomcat二进制包 运维主机HDSS7-200.host.com上:Tomcat8下载链接 复制/opt/src 1234 [root@hdss7-200 src]# ls -l|grep tomcat-rw-r--r-- 1 root root 9690027 Apr 10 22:57 apache-tomcat-8.5.40.tar.gz[root@hdss7-200 src]#…
一.为什么要Session共享 Session存储在服务器的内存中,比如Java中,Session存放在JVM的中,Session也可以持久化到file,MySQL,redis等,SessionID存放在Cookie中. 比如一个系统登录后,假如用户的请求通过Nginx被转发到tomcat1上,这时一些当前用户的信息放入session中,比如登录信息让用户一直处于登录状态.那么Nginx负载均衡后,可能用户刷新页面后重新跳转到了tomcat2,而tomcat2上没有Session,系统就会要求用…
安装 下载压缩包 解压 修改zoo.cfg文件 创建myid文件 启动 自启动配置 有时间再补hhh 报错处理 很荣幸的遇到了大部分报错,日志再zookeeper目录的bin下的zookeeper.outvim zookeeper.out 首先zookeeper集群需要至少3台服务器,不然就会出现下面的报错: 2020-06-24 09:17:39,299 [myid:] - WARN [main:QuorumPeerConfig@351] - No server failure will be…
​ KingbaseES R3集群网关检测工作机制: 1.Cluster下watchdog进程在固定间隔时间,通过ping 网关地址监控链路的连通性,如果连通网关地址失败,则修改cluster status,比如将"master"修改为"lost",并摘除主节点的Cluster VIP. 2.在部署完成cluster后,会通过crond定时(每隔1分钟)运行network_rewind.sh脚本,在脚本通过函数checktrustip(),检测网关地址的连通性,如果…
例1:http://lx.lanqiao.cn/problem.page?gpid=T444 蓝桥杯 问题描述 给定一个长度为N的数列,A1, A2, ... AN,如果其中一段连续的子序列Ai, Ai+1, ... Aj(i <= j)之和是K的倍数,我们就称这个区间[i, j]是K倍区间. 你能求出数列中总共有多少个K倍区间吗? 输入格式 第一行包含两个整数N和K.(1 <= N, K <= 100000) 以下N行每行包含一个整数Ai.(1 <= Ai <= 10000…
随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era),向基因的功能及基因的多样性倾斜.通过对个体在不同生长发育阶段或不同生理状态下大量基因表达的平行分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机理,进而在人类重大疾病如癌症.心血管疾病的发病机理.诊断治疗.药物开发等方面的研究发挥巨大的作用.它将大大推动人类结构基因组及功能基因组的各项基因组研究计划.生物信息学在基因组…
前言 关于clusterProfiler这个R包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做GO和KEGG的功能富集及其可视化.简单总结下用法,以后用时可直接找来用. 首先考虑一个问题:clusterProfiler做GO和KEGG富集分析的注释信息来自哪里? GO的注释信息来自Bioconductor,提供了19个物种的org类型的GO注释信息,如下表所示.Bioconductor中更多的注释包可参考http://www.bioconductor.org/packages/rel…
引用自https://mp.weixin.qq.com/s?__biz=MzU4NjU4ODQ2MQ==&mid=2247484662&idx=1&sn=194668553f954e231f4526f5c944a195&chksm=fdf84cb4ca8fc5a2c0e8355377f9d6abdc4fa36b304aa8c533b5e82e49de30d443366ff3346a&mpshare=1&scene=1&srcid=09097IKbsc…
MAGENTA是一款计算工具,利用全基因组遗传数据,计算预先设定的涉及生物过程或者功能性基因集在遗传相关性的富集程度.开发的目的是分析基因型不是现成的数据集,比如大型的全基因组关联荟萃分析.在以下两种情况下可以使用:1,检验某个特定的假设:2,通过检测一系列已知的生物基因集(从不同的公共数据库提供的通路)提出某个假设. 输入文本格式:变体相关的P值和它们的染色体位置(数据从全基因组关联分析文件或者荟萃分析文件获得) 输出文本格式:针对给定的基因集或通路,计算出基因集富集分析后的P值和错误发现率(…
该文献纳入了EGG(Early Growth Genetics Consortium)和UK biobank两大数据库,分为欧洲祖先和非欧洲祖先群体.这两个数据用到的样本量分别如下: Early Growth Genetics Consortium(网址:http://egg-consortium.org/) » 30 studies (European ancestry) N=75,891 » 6 studies (Non-European ancestry), N=10,104 UK Bio…
GSVA的简介 Gene Set Variation Analysis,被称为基因集变异分析,是一种非参数的无监督分析方法,主要用来评估芯片核转录组的基因集富集结果.主要是通过将基因在不同样品间的表达量矩阵转化成基因集在样品间的表达量矩阵,从而来评估不同的代谢通路在不同样品间是否富集.其实就是研究这些感兴趣的基因集在不同样品间的差异,或者寻找比较重要的基因集,作为一种分析方法,主要是是为了从生物信息学的角度去解释导致表型差异的原因.它的主要输入文件为表达量的矩阵和基因集的文件,通过gsva的方法…
文献名:Proteomic Profiling of Paired Interstitial Fluids Reveals Dysregulated Pathways and Salivary NID1 as a Biomarker of Oral Cavity Squamous Cell Carcinoma(口腔癌配对肿瘤组织液的蛋白质组学分析揭示了通路失调和唾液中NID1作为口腔腔鳞状细胞癌的生物标志物) 期刊名:Molecular & Cellular Proteomics 发表时间:(2…
  image Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes). 用GSEA做富集分析是非常简单的,结…