Geneformer为什么使用 rank value?
.markdown-body h1, .markdown-body h2, .markdown-body h3, .markdown-body h4, .markdown-body h5, .markdown-body h6 { line-height: 1.5; margin-top: 35px; margin-bottom: 10px; padding-bottom: 5px }
.markdown-body h1 { font-size: 24px; line-height: 38px; margin-bottom: 5px }
.markdown-body h2 { font-size: 22px; line-height: 34px; padding-bottom: 12px; border-bottom: 1px solid rgba(236, 236, 236, 1) }
.markdown-body h3 { font-size: 20px; line-height: 28px }
.markdown-body h4 { font-size: 18px; line-height: 26px }
.markdown-body h5 { font-size: 17px; line-height: 24px }
.markdown-body h6 { font-size: 16px; line-height: 24px }
.markdown-body p { line-height: inherit; margin-top: 22px; margin-bottom: 22px }
.markdown-body img { max-width: 100% }
.markdown-body hr { border-top: 1px solid rgba(221, 221, 221, 1); border-right: none; border-bottom: none; border-left: none; margin-top: 32px; margin-bottom: 32px }
.markdown-body code { border-radius: 2px; overflow-x: auto; background-color: rgba(255, 245, 245, 1); color: rgba(255, 80, 44, 1); font-size: 0.87em; padding: 0.065em 0.4em }
.markdown-body code, .markdown-body pre { font-family: Menlo, Monaco, Consolas, Courier New, monospace }
.markdown-body pre { overflow: auto; position: relative; line-height: 1.75 }
.markdown-body pre>code { font-size: 12px; padding: 15px 12px; margin: 0; word-break: normal; display: block; overflow-x: auto; color: rgba(51, 51, 51, 1); background: rgba(248, 248, 248, 1) }
.markdown-body a { text-decoration: none; color: rgba(2, 105, 200, 1); border-bottom: 1px solid rgba(209, 233, 255, 1) }
.markdown-body a:active, .markdown-body a:hover { color: rgba(39, 91, 140, 1) }
.markdown-body table { display: inline-block !important; font-size: 12px; width: auto; max-width: 100%; overflow: auto; border: 1px solid rgba(246, 246, 246, 1) }
.markdown-body thead { background: rgba(246, 246, 246, 1); color: rgba(0, 0, 0, 1); text-align: left }
.markdown-body tr:nth-child(2n) { background-color: rgba(252, 252, 252, 1) }
.markdown-body td, .markdown-body th { padding: 12px 7px; line-height: 24px }
.markdown-body td { min-width: 120px }
.markdown-body blockquote { color: rgba(102, 102, 102, 1); padding: 1px 23px; margin: 22px 0; border-left: 4px solid rgba(203, 203, 203, 1); background-color: rgba(248, 248, 248, 1) }
.markdown-body blockquote:after { display: block; content: "" }
.markdown-body blockquote>p { margin: 10px 0 }
.markdown-body ol, .markdown-body ul { padding-left: 28px }
.markdown-body ol li, .markdown-body ul li { margin-bottom: 0; list-style: inherit }
.markdown-body ol li .task-list-item, .markdown-body ul li .task-list-item { list-style: none }
.markdown-body ol li .task-list-item ol, .markdown-body ol li .task-list-item ul, .markdown-body ul li .task-list-item ol, .markdown-body ul li .task-list-item ul { margin-top: 0 }
.markdown-body ol ol, .markdown-body ol ul, .markdown-body ul ol, .markdown-body ul ul { margin-top: 3px }
.markdown-body ol li { padding-left: 6px }
.markdown-body .contains-task-list { padding-left: 0 }
.markdown-body .task-list-item { list-style: none }
@media (max-width: 720px) { .markdown-body h1 { font-size: 24px } .markdown-body h2 { font-size: 20px } .markdown-body h3 { font-size: 18px } }.markdown-body pre, .markdown-body pre>code.hljs { color: rgba(51, 51, 51, 1); background: rgba(248, 248, 248, 1) }
.hljs-comment, .hljs-quote { color: rgba(153, 153, 136, 1); font-style: italic }
.hljs-keyword, .hljs-selector-tag, .hljs-subst { color: rgba(51, 51, 51, 1); font-weight: 700 }
.hljs-literal, .hljs-number, .hljs-tag .hljs-attr, .hljs-template-variable, .hljs-variable { color: rgba(0, 128, 128, 1) }
.hljs-doctag, .hljs-string { color: rgba(221, 17, 68, 1) }
.hljs-section, .hljs-selector-id, .hljs-title { color: rgba(153, 0, 0, 1); font-weight: 700 }
.hljs-subst { font-weight: 400 }
.hljs-class .hljs-title, .hljs-type { color: rgba(68, 85, 136, 1); font-weight: 700 }
.hljs-attribute, .hljs-name, .hljs-tag { color: rgba(0, 0, 128, 1); font-weight: 400 }
.hljs-link, .hljs-regexp { color: rgba(0, 153, 38, 1) }
.hljs-bullet, .hljs-symbol { color: rgba(153, 0, 115, 1) }
.hljs-built_in, .hljs-builtin-name { color: rgba(0, 134, 179, 1) }
.hljs-meta { color: rgba(153, 153, 153, 1); font-weight: 700 }
.hljs-deletion { background: rgba(255, 221, 221, 1) }
.hljs-addition { background: rgba(221, 255, 221, 1) }
.hljs-emphasis { font-style: italic }
.hljs-strong { font-weight: 700 }
大模型训练为何使用 rank value 而不使用原始的测序表达值?
Although the rank-based representation has limitations including not fully taking advantage of the precise gene expression measurements provided in transcript counts, the rank value encoding provides a non-parametric representation of the transcriptome of each single cell and takes advantage of the many observations of the expression of each gene across Genecorpus-30M to prioritize genes that distinguish cell state.
这句话讨论了基于排名的基因表达数据表示方法的优缺点。这种表示方法在处理单细胞转录组数据时使用排名值编码(rank value encoding),但这种方法并非没有限制。以下是对这句话的逐句解释:
1. 开头部分
- Although the rank-based representation has limitations:尽管基于排名的数据表示法有其局限性。这里的“局限性”可能指的是该方法不能完全利用所有可用的数据信息。
2. 局限性具体描述
- including not fully taking advantage of the precise gene expression measurements provided in transcript counts:这些局限性包括没有充分利用转录本计数提供的精确基因表达测量数据。在单细胞转录组分析中,原始的转录本计数可以提供关于基因活动水平的详细和精确信息。基于排名的表示法可能无法完全捕捉这些细节,因为它通过相对排名而不是实际表达水平来表示数据。
3. 排名值编码的优点
- the rank value encoding provides a non-parametric representation of the transcriptome of each single cell:然而,排名值编码为每个单细胞的转录组提供了一种非参数化的表示方法。这意味着该方法不依赖于假设特定的数据分布模型,而是通过相对排名来捕捉和表示数据,这在某些统计分析中是有优势的。
4. 利用大量观测数据的优势
- and takes advantage of the many observations of the expression of each gene across Genecorpus-30M to prioritize genes that distinguish cell state:并且利用 Genecorpus-30M 中每个基因表达的大量观察数据来优先处理能够区分细胞状态的基因。这表明,通过分析在大规模数据集(如 Genecorpus-30M)中的基因表达模式,排名值编码能够识别出那些在不同细胞类型或状态中表达差异显著的基因,从而有助于标识和区分细胞的生物学状态。
综合理解
这段描述在强调基于排名的表示法虽然无法完全利用转录本计数的所有精确信息,但其为数据提供了有效的非参数化表示,并能有效利用大数据集中的表达信息来揭示对细胞状态具有重要区分作用的基因。这种方法在简化数据的同时,也保留了对生物学功能和状态具有关键指示意义的信息。
Specifically, this method will deprioritize ubiquitously highly expressed housekeeping genes by normalizing them to a lower rank. Conversely, genes such as transcription factors that may be expressed at low levels when they are expressed but have a high power to distinguish cell state will move to a higher rank within the encoding (Extended Data Fig. 1c). Furthermore, this rank-based approach may be more robust against technical artefacts that may systematically bias the absolute transcript counts value whereas the overall relative ranking of genes within each cell remains more stable.
这句话详细阐述了基于排名的方法如何有效处理不同类型基因的表达数据,并说明了其在减少技术偏差方面的潜在优势。下面是对这句话的逐句解释:
1. 对于普遍高表达的基因的处理方式
- Specifically, this method will deprioritize ubiquitously highly expressed housekeeping genes by normalizing them to a lower rank.
- 特别地,指的是这种方法的具体操作。
- This method will deprioritize:这种方法将降低某些基因的优先级。
- ubiquitously highly expressed housekeeping genes:普遍高表达的保守基因,这些基因在几乎所有细胞类型中都保持高水平的表达,通常参与基本的生物细胞功能。
- by normalizing them to a lower rank:通过将它们标准化到较低的排名。这意味着在分析数据时,这些基因的表达水平的重要性会被降低,因为它们对区分细胞状态的贡献较小。
2. 对于表达水平低但具有高区分力的基因的处理方式
- Conversely, genes such as transcription factors that may be expressed at low levels when they are expressed but have a high power to distinguish cell state will move to a higher rank within the encoding.
- Conversely:相反地,指出与前述内容相对的情况。
- genes such as transcription factors:例如转录因子这类基因,它们在特定条件下表达水平可能不高。
- that may be expressed at low levels:可能表达水平较低。
- but have a high power to distinguish cell state:但具有很强的区分细胞状态的能力。
- will move to a higher rank within the encoding:在编码中将被赋予更高的排名。这意味着尽管这些基因的绝对表达水平可能较低,但由于它们在生物学上的重要性,它们在数据分析中的优先级会被提高。
3. 方法对抗技术偏差的鲁棒性
- Furthermore, this rank-based approach may be more robust against technical artefacts that may systematically bias the absolute transcript counts value whereas the overall relative ranking of genes within each cell remains more stable.
- Furthermore:此外,引入进一步的讨论。
- this rank-based approach:这种基于排名的方法。
- may be more robust against technical artefacts:可能对技术偏差更为鲁棒,即该方法能较好地抵抗可能影响数据质量的技术误差。
- that may systematically bias the absolute transcript counts value:这些技术误差可能系统性地偏移了绝对的转录本计数值。
- whereas the overall relative ranking of genes within each cell remains more stable:而每个细胞内基因的总体相对排名则保持更加稳定。这表明排名方法减少了对绝对数值的依赖,转而侧重于基因之间的相对重要性,这使得数据分析结果对于实验条件下的变化不那么敏感。
这段描述揭示了基于排名的数据表示方法在生物信息学数据分析中的应用,特别是如何通过调整基因的相对重要性来提高数据处理的准确性和鲁棒性。
Geneformer为什么使用 rank value?的更多相关文章
- UVA, 10336 Rank the Languages
难点在于:递归函数和输出: #include <iostream> #include <vector> #include <algorithm> #include ...
- [LeetCode] Rank Scores 分数排行
Write a SQL query to rank scores. If there is a tie between two scores, both should have the same ra ...
- rank()函数的使用
排序: ---rank()over(order by 列名 排序)的结果是不连续的,如果有4个人,其中有3个是并列第1名,那么最后的排序结果结果如:1 1 1 4select scoreid, stu ...
- [转]oracle分析函数Rank, Dense_rank, row_number
oracle分析函数Rank, Dense_rank, row_number 分析函数2(Rank, Dense_rank, row_number) 目录 ==================== ...
- 分区函数Partition By的与row_number()的用法以及与排序rank()的用法详解(获取分组(分区)中前几条记录)
partition by关键字是分析性函数的一部分,它和聚合函数不同的地方在于它能返回一个分组中的多条记录,而聚合函数一般只有一条反映统计值的记录,partition by用于给结果集分组,如果没有指 ...
- Learning to rank 介绍
PS:文章主要转载自CSDN大神hguisu的文章"机器学习排序": http://blog.csdn.net/hguisu/article/details/79 ...
- R语言排序:sort(),rank(),order()示例
> x<-c(97,93,85,74,32,100,99,67) > sort(x) [1] 32 67 74 85 93 97 99 100 > order(x) [1] 5 ...
- [Machine Learning] Learning to rank算法简介
声明:以下内容根据潘的博客和crackcell's dustbin进行整理,尊重原著,向两位作者致谢! 1 现有的排序模型 排序(Ranking)一直是信息检索的核心研究问题,有大量的成熟的方法,主要 ...
- sqlserver 中row_number,rank,dense_rank,ntile排名函数的用法
1.row_number() 就是行号 2.rank:类似于row_number,不同之处在于,它会对order by 的字段进行处理,如果这个字段值相同,那么,行号保持不变 3.dense_rank ...
- sql rank()函数
RANK() OVER([<partiton_by_clause>]) partition_by_clause 将from子句生成的结果集划分为应用到RANK函数的分区. Order_b ...
随机推荐
- matlab 求解高阶方程
简介 van der Pol 方程 code dy = @(t,y)[y(2); 1000 * (1-y(1)^2)*y(2)-y(1)]; % 定义匿名函数 [t,y]= ode15s(dy,[0 ...
- SciTech-BigDataAI-ImageProcessing-OpenCV-OpenCV modules
OpenCV modules https://docs.opencv.org/3.4/ Introduction OpenCV Tutorials OpenCV-Python Tutorials Op ...
- 官宣!Dora-rs 官方中文教程正式发布!
Dora-rs:是一个为现代AI机器人应用设计的.以数据流为核心的机器人开发框架 . 在机器人开发的世界里,我们常常面临这样的困境: 过于复杂: 传统软件栈学习曲线陡峭,配置繁琐,让快速原型验证成为奢 ...
- unity2d 完美斜坡方案
来自油管大神:https://www.youtube.com/watch?v=QPiZSTEuZnw&lc=z22ehdxp5wmrg1jkvacdp431qmalafpquvm0apfrjr ...
- 从频繁告警到平稳发布:服务冷启动 CPU 风暴优化实践
作者:vivo 互联网服务器团队- Xie Xiaopeng 本文针对服务启动后几分钟内 CPU 持续处于高峰状态的问题,提出了自己的分析思路与解决方案.最终线上效果比较显著,成功解决了每次发版过程中 ...
- 全志T113核心板一张表介绍其参数|性能|功耗|-盈鹏飞嵌入式
随着市场应用的逐渐细化,细分市场的处理器逐渐浮出水面,盈鹏飞嵌入式顺应市场大势,推出了以全志主控T113-i/S3/S4和A40I(T3)的相关核心模块产品和主板,那么这些处理器到底有什么优势?用户该 ...
- AI 赋能的故障排除:技术趋势与实践
AI 赋能的故障排除:技术趋势与实践 随着人工智能技术的飞速发展,AI 在 IT 运维领域的应用日益广泛.AI 赋能的故障排除正在成为一种趋势,可以帮助 IT 团队更快.更准确地解决问题,提高系统的可 ...
- 转码刷 LeetCode 笔记[1]:3.无重复字符的最长子串
题目描述 初次错解 看 B 站视频后,了解到"滑动窗口"思想,遂自己动手尝试 class Solution: def lengthOfLongestSubstring(self, ...
- ubuntu 10.04.4版本第一次安装注意点和说明
引语:linux现在主要有两个系,一个是Redhat系和debian系,redhat系有redhat,centos等版本操作系统,debian系有ubuntu等版本操作系统:可能大家习惯用了redha ...
- Web视频通话时怎么美颜?教你3步轻松搞定!
功能简介 我们在视频通话.直播等场景中,为用户呈现出良好的肌肤状态,打造独特自然的美颜效果.我们需要使用到美颜功能,通过调整美白.磨皮.锐化以及红润的程度,轻松实现最佳的视频效果. 那么我们如何使用 ...