Computational biological hypothesis generation using "-omics" data

Forming biological hypotheses are crucial to the success of scientific investigations in modern biology and medicine. To generate good biological hypotheses efficiently, computational approaches have been playing increasingly important roles due to the development of high-throughput technologies that enable the production of a vast amount of "-omics" data at a rapidly increasing rate. Despite the fact that most such data are freely available publicly, they are typically not well organized and not annotated consistently, making it difficult for data-driven hypothesis generation to catch up with the pace of data generation. To address this challenge, we propose a computational hypothesis-generation paradigm that is based on systematic manual curation of public datasets. Using the data resource built upon the curated data, we applied our proposed computational framework to find key gene regulators in skin biology, thermogenesis, and neurobiology. A number of candidate genes have been experimentally validated by wet-lab experiments and the published literature. The remaining candidates are also good targets for additional experimental validation. More importantly, these identified genes may serve as potential targets for the related diseases. In summary, our research paves the way for developing more effective automated hypothesis-generation methods and will help biologists designing targeted experiments aimed at increasing the speed of meaningful biological discoveries.

使用“组学”数据生成计算生物学假设

在现代生物学和医学中,形成生物学假设对于科学研究的成功至关重要。为了有效地生成良好的生物学假设,随着高通量技术的发展,计算方法扮演着越来越重要的角色,这些技术使大量的“组学”数据能够以快速增长的速度产生。尽管大多数这样的数据都是免费公开的,但它们通常没有很好的组织和一致的注释,这使得数据驱动的假设生成很难跟上数据生成的速度。为了解决这一挑战,我们提出了一个基于公共数据集的系统人工管理的计算性假设生成范式。利用建立在策展数据基础上的数据资源,我们应用我们提出的计算框架来寻找皮肤生物学、产热学和神经生物学中的关键基因调控因子。

大量的候选基因已经通过湿实验室实验已发表的文献得到了实验验证。剩下的候选者也是额外实验验证的良好目标。

更重要的是,这些被识别的基因可能成为相关疾病的潜在靶点。

总之,我们的研究为开发更有效的自动假设生成方法铺平了道路,并将帮助生物学家设计有针对性的实验,旨在提高有意义的生物学发现的速度。

在生物大数据的背景下,如何利用机器学习,统计分析等方法生成有效的生物假设。

其中,重点介绍了通过构建高可信的生物网络寻找致病基因的方法,以及如何利用RNA测序数据高效识别transcripts。

报告人简介:

俞鹏博士是四川大学华西医院生物医学大数据中心特聘研究员,国家级青年人才项目获得者。博士毕业于美国德州大学奥斯汀分校,先后在贝勒医学院、德州农机大学开展生物医学信息学的研究,主要包括转录组学、选择性剪接、高通量生物数据分析、数据审编、文本挖掘和本体构建等方面。在本领域权威期刊如Proc Natl Acad Sci USA、Bioinformatics 、Nucleic Acids Res 等上发表论文四十余篇,单篇最高Google学术引用284次,论文Google学术总引用1500余次。曾多次受邀于国内外高校、会议等做研究报告。其研究获得了多家机构的支持,多次担任CCF推荐B类会议ISMB和BIBM的技术程序委员会委员,还担任学术期刊BMC Bioinformatics、Sci Rep 和PLoS One的副主编,并多次为学术期刊审稿。

Computational biological hypothesis generation using "-omics" data的更多相关文章

  1. 深数据 - Deep Data

    暂无中文方面的信息,E文的也非常少,原文连接: A lot of great pieces have been written about the relatively recent surge in ...

  2. Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)

    ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...

  3. (转)AutoML for Data Augmentation

    AutoML for Data Augmentation 2019-04-01 09:26:19 This blog is copied from: https://blog.insightdatas ...

  4. 斯坦福CS课程列表

    http://exploredegrees.stanford.edu/coursedescriptions/cs/ CS 101. Introduction to Computing Principl ...

  5. 【bioinfo】生物信息学——代码遇见生物学的地方

    注:从进入生信领域到现在,已经过去快8年了.生物信息学包含了我最喜欢的三门学科:生物学.计算机科学和数学.但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案.于是便有了这篇博客. ...

  6. (转)Awesome Courses

    Awesome Courses  Introduction There is a lot of hidden treasure lying within university pages scatte ...

  7. Bioinfomatics dataset

    ##Genomic sequence variation ###1000 Genomes Projecthttp://www.1000genomes.org/Data collection and a ...

  8. CVPR 2017 Paper list

    CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View ...

  9. cvpr2015papers

    @http://www-cs-faculty.stanford.edu/people/karpathy/cvpr2015papers/ CVPR 2015 papers (in nicer forma ...

随机推荐

  1. 第10组alpha冲刺(2/4)

    队名:凹凸曼 组长博客 作业博客 组员实践情况 童景霖 过去两天完成了哪些任务 文字/口头描述 继续学习Android studio和Java 完善项目APP原型 展示GitHub当日代码/文档签入记 ...

  2. 蚂蚁Pincap头条

    去年(18年)年底想出来看看机会,最后很幸运地拿到了 PingCAP,今日头条的 offer 以及蚂蚁金服的口头 offer.想着可以总结一下经验,分享一下自己这一段”骑驴找马”过的心路历程.当然,一 ...

  3. 反向传播BP算法

    前向传播模型 一般我们使用的公式是: \[ a=\frac{1}{1+\exp \left(-\left(w^{T} x+b\right)\right)} = \frac{1}{1+\exp \lef ...

  4. python项目总结--学生选课

    题目要求: 根据业务需求,现要对慕课学院(1)班的所有学员进行选修课程分配,使得每一名学生都可以选修到一门课程.具体要求如下: 1.自定义学生信息.课程信息.教师信息三者的具体描述 2.自定义exam ...

  5. 实验与作业(Python)-02 Python函数入门与温度转换程序(函数、input、eval、int、float、列表)

    截止日期 实验目标 学会定义函数,使用函数.学会导入在某个文件中定义的函数. input获得值,然后通过eval或者int.float将其转换为相应的类型. 学会使用列表:访问列表.append.遍历 ...

  6. Java URLDecoder和URLEncoder对中文进行编码和解码

    URLDecoder类包含一个decode(String s,String enc)静态方法,它可以将application/x-www-form-urlencoded MIME字符串转成普通字符串: ...

  7. web服务器请求代理方式

    1 通信数据转发程序:代理.网关.隧道 代理:是一种有转发功能的应用程序,他扮演了位于服务器和客户端“中间人”的角色,接收客户端发送的请求并转发给服务器:同时也接收服务器返回的响应并转发给客户端. 使 ...

  8. ubantu使用ssh服务

    Secure Shell(SSH)是一种加密网络协议,用于在不安全的网络上安全地运行网络服务.利用SSH可以实现加密并安全地远程登录计算机系统. Ubuntu安装后默认只有ssh客户端,即只能在Ubu ...

  9. Sql server 中将数据行转列列转行(二)

    老规矩,先弄一波测试数据,数据填充代码没有什么意义,先折叠起来: /* 第一步:创建临时表结构 */ CREATE TABLE #Student --创建临时表 ( StuName ), --学生名称 ...

  10. ubuntu下MySQL忘记密码重置方法

    方法一: 1):编辑mysqld.cnf文件 sudo vi /etc/mysql/mysql.conf.d/mysqld.cnf 2):在文件中的skip-external-locking一行的下面 ...