人体由近 40 万亿个细胞组成,有许多不同类型。实验生物学的最新进展使探索单个细胞的遗传物质成为可能。随着单细胞基因组学这一新领域的诞生,科学家们现在可以探测人体内单个细胞的 dna 和 rna 。
单细胞基因组分析已经确定了人体内的新型细胞,发现了是什么使这些细胞彼此不同,以及不同类型的细胞如何对疾病或药物作出反应。单细胞基因组学也被证明是当前 covid-19 大流行的关键,它可以识别易受感染的细胞并揭示感染患者免疫系统的变化。
图 1 。单细胞 rna 测序实验的工作流程。分离单个细胞并测量每个细胞的基因活性。具有相似基因活性的细胞聚集在一起以识别群体中的各种类型的细胞。
随着最近的实验对数百万个细胞进行测序,单细胞数据的可用性和数据集的大小也在不断增加。这种分析通常是探索性的,并从互动中得到进一步的好处——在更精细的尺度上识别不同类型的细胞,比较细胞类型并可视化它们之间的关系。当前的工作流仍然非常缓慢,这使得它们对于研究所需的交互分析来说是不可能的。
rapids :用 gpus 加速数据科学
rapids 是一套开源库,通过 gpu 加速的力量,可以加速端到端的数据科学工作流程。 rapids 使得使用类似于 numpy 、 pandas 和 scikit learn 的 python api 对大型数据集执行交互式数据分析成为可能。
考虑执行单单元分析的典型工作流。这从一个矩阵开始,这个矩阵映射每个细胞中遇到的每个基因的数量。对数据进行预处理,滤除噪声,然后对数据进行归一化处理,得到每个细胞中每个人类基因的活性。在这一步中,机器学习也常用于纠正数据收集中的工件。接下来,在聚类和可视化之前执行维数缩减,以识别具有相似遗传活动的细胞簇。最后,你比较这些细胞群的遗传活动,以了解为什么不同类型的细胞表现和反应不同。
图 2 :显示单细胞 rna 测序数据分析步骤的管道。从每个细胞的基因活性矩阵开始, rapids 库可以用于进行数据处理、降维、聚类和可视化,并在不同的簇间发现不同活性的差异基因。
我们在 clara-parabricks/rapids-single-cell-examples github repo 中发布了这个精确工作流的 gpu – 加速版本。 repo 包含一个示例 notebook ,它使用 rapids 和 scanpy 分析 70000 个人体肺细胞的数据集,以识别对 covid-19 敏感的细胞。 scanpy 是一个用于分析单细胞基因表达数据的工具包,提供了使用 rapids 加速特定命令的选项。我们在回购中也有一个笔记本的 cpu 版本 以供比较。
例如,运行 umap 以使用 rapids 可视化近 70000 个单元格需要以下命令:
sc.tl.umap(adata, min_dist=umap_min_dist, spread=umap_spread, method='rapids')
图 3 。由 rapids 创建的人肺样本中约 70000 个细胞的 umap 可视化。细胞被洛文聚类标记。
使用 rapids 生成这个 umap 可视化需要 1 秒,而在 cpu 上则需要 80 秒。事实上, rapids 可以加速整个单单元分析工作流程,甚至可以在大型数据集上进行交互式探索性数据分析。
在 11 分钟内分析一百万个细胞
我们将我们的 rapids 分析工作流程应用于现有最大的单细胞数据集之一, 100 万个小鼠脑细胞通过 10 倍基因组学测序。有关详细信息,请参阅 1m_brain_gpu_analysis_uvm.ipynb jupyter 笔记本。
有了如此大的数据量,对 cpu 的分析变得不切实际地慢了下来;我们的端到端工作流在 awsm5a cpu 实例上运行了 3 个多小时。这使得交互式分析几乎不可能。另一方面,我们在这个更大的数据集上观察到了更高的 gpu 加速,并且能够在一个 gpu 上分析整个数据集。在 aws 上运行 rapids 分析也比 cpu 版本便宜 3 倍!
用于交互式单细胞分析的 gpu 功能单元浏览器
如前所述, rapids 的数据分析速度使研究人员能够实时交互式地分析数据。我们开发了一个在 jupyter 笔记本 中运行的、支持 gpu 的交互式小区浏览器,使这一过程更加简单。在这个单元格浏览器中,您可以可视化数据集中的所有单元格,并通过点击方法对数据执行聚类分析。使用 rapids ,这些步骤可以实时运行。
在这篇文章中,我将向您展示如何轻松地选择一组细胞,并执行 umap 和 louvain 聚类来识别这种细胞类型中的子种群。
图 4 通过在交互式单元格浏览器中使用 rapids 指向并单击实时重新聚类选定的单元格组。
结论
在这篇文章中,您看到了使用 rapids 加速 gpus 上的单细胞基因组分析是多么容易。使用 rapids ,可以方便地实时交互地探索数据,对不同尺度的单元进行聚类,以及对具有不同参数的大型数据集进行重新分析。所有这些都有助于更快的科学发现。
除了涵盖的 api 之外, rapids 还有一个大型的其他算法库,您会发现这些算法在您的工作中很有用。
关于作者
avantika lal 是 nvidia 基因组学团队的资深科学家。她开发了使用 gpus 和深入学习来加速和改进人类基因组分析的工具。在 nvidia 之前,她是斯坦福大学遗传学和病理学系的博士后研究员。
新版SmartZone网络控制器系列适用于托管服务提供商、运营商和中大型企业
Vishay继续保证IHLP®薄型大电流电感器的供货周期优势
常见的音视频转换器有哪些 音视频转换器怎样接电视
Vishay推出适用于各种压力感测应用的新型全集成汽车级接近传感器
恩智浦推出一款新型回声消除及降噪解决方案
通过RAPIDS加速单细胞DNA和RNA基因组分析
Linus Torvalds发布Linux 6.3首个预览版
岩土工程监测振弦采集仪与振弦传感器的兼容性问题
触发器及其应用_钟控双稳态触发器详解
动环监控系统的介绍,它的特点有哪些
抗干扰工业液晶屏的选择和利用
光纤光缆的知识合集!45条问题告诉你!
MAX66020 ISO/IEC 14443 B型1Kb存储器
红外感应开关
PCB阻抗设计主要类型及影响因素
无需电池的物联网设备说明了什么
桥田快换产品在超声波焊接工艺的应用
stm32f103zet6如何识别flash大小
舵机对比伺服电机,步进电机有哪些优点?
5G的发展对于我国科技和经济发展来说是难得的机遇