单细胞分辨率的研究使我们能发现细胞间的细微差异,而不因样本平均值而丢失有意义的信息。许多技术已用于研究单细胞,基于质谱的单细胞蛋白质组学 (SCP)就是其中之一。近年来,SCP一直在不断的改进中,细胞通量愈发提高,所以目前主要问题是当前的技术状态是否已准备好用于广泛生物学研究。
自2023年来,SCP已能实现每个单细胞超过 4,000 种蛋白质检测通量。目前SCP广泛应用的主要限制是样本的细胞通量。与单细胞转录组测序相比,SCP文献的平均捕获细胞数量少了两个数量级。但由于蛋白质为是细胞功能的直接载体,且蛋白质与RNA的表达量相关性较低,通过高通量测序技术估算蛋白质丰度并不可靠,因此直接测量单细胞内的蛋白质比RNA更有意义。因此,基于质谱的单细胞蛋白质组学 (MS-based SCP)是未来更关键的单细胞技术,有必要评估SCP是否已准备好作为生物学研究的应用工具。
图1. RNA并不能代表蛋白质的丰度
从基于高通量测序的单细胞转录组学文献来看,他们的共同核心可以简化为三个基本研究策略:细胞注释、发育轨迹和空间映射。2024年7月美国杨百翰大学研究团队在期刊Journal of Proteome Research发表文章,以评估单细胞蛋白质组学目前是否已准备好应用于广泛的生物学研究。本文的主要研究点就在于从这三个研究策略评估SCP的应用水平。
图2.评估单细胞蛋白质组学应用水平的三个研究策略
假设有一堆由黄豆、绿豆、红豆组成混合豆子,随便拿起一颗,通过视觉判断就知道是哪种豆子,这是通过颜色进行的豆子注释。类似地,从组织解离得到的单细胞悬液里,也包含各种类型的细胞,而我们可以通过细胞表达的特征基因进行细胞注释,以将检测到的每一个细胞都进行分门别类。细胞注释通常需要数据库来提供各种细胞的特征基因,比如CellMarker数据库。SCP可以利用目前已有的数据库进行细胞注释,且经过验证发现细胞注释效率和精度高于scRNA-Seq。
图3.SCP细胞注释更细致和准确
为了给下游分析提供有意义的注释,SCP需要足够的细胞通量和蛋白组学深度。但具体是多少呢?作者概括了在分析时必须考虑的几个因素:
捕获的细胞数量;
每个细胞的蛋白检测深度;
批次效应;
Double-Dipping数据重复使用。
SCP分析需要的细胞数量取决于许多参数(所需细胞类型的预期稀有性/浓度、预期样本脱落/存活率等),作者以白细胞主要亚型为例,演示如何估算需要采样的细胞数量:假如在一份样本中细胞占比为中性粒细胞(62%)、淋巴细胞(30%)、单核细胞(5.3%)、嗜酸性粒细胞(2.3%)和嗜碱性粒细胞(0.4%),为了确保最稀有的嗜碱性粒细胞能被注释到,设定需要至少5个细胞被捕获。假设从样本中随机抽取细胞,则需要 3,274 个细胞才能有99%的概率成功对最稀有的细胞类型进行至少 5 次采样,考虑到细胞质控的过滤规则,设定1%为损耗,则至少需要3,308 个细胞被捕获。因此,细胞通量是 SCP 中细胞注释的一大难点。
注:n表示细胞总数,x表示成功次数,k表示所需的最小成功次数,p表示成功事件的概率,P表示总体概率
注:n表示细胞数量,d表示细胞质控损失率,nadj表示需要采集的质控过滤后细胞数量
细胞注释所需的蛋白质组学深度并不容易计算,这取决于目的细胞类型以及特征蛋白的丰度。目前,SCP通常检测到细胞内较丰富的蛋白,因为在实际情况中被测蛋白是随机采样的。随着深度的增加,SCP文献中报道了更多中低丰度蛋白。从细胞注释原理来说,绝大部分情况是基于单个蛋白阳性或阴性进行的,比如CD4+T细胞,CD4蛋白分子的丰度已经足够区分这个亚群。但少数的细胞类型依靠低丰度蛋白进行注释,原因是一方面这些细胞占比可能很低,另一方面可能是蛋白本身表达较低但亚群特异性高。而在公开的数据中,已经证实了基于蛋白表达的细胞注释远比基于RNA的注释更准确,更能注释稀有细胞亚群。而目前SCP 覆盖的深度(4000+蛋白质)与 scRNA-Seq的覆盖深度相当甚至超过,具体取决于技术平台、细胞类型等。
许多基础分析如细胞注释的前提是假设丰度值可以在样本间进行比较。批次效应是一种技术噪声,它会导致蛋白丰度产生偏移,令数据无法在样本之间直接比较。在 SCP 中,批次效应也是阻碍分析进度的一座大山,但质谱检测有一个好处,在实验条件不变的情况下,可以使用内标或外标校准样品之间的蛋白丰度值。这是scRNA-Seq无法做到的一点。
生物体从胚胎时期一个受精卵开始发育,细胞经过不断分裂壮大数量,经过不断分化各司其职。比如免疫学上的T细胞包括CD4+T细胞、CD8+T细胞等,这些T细胞均由幼稚T细胞分化发育而来。在单细胞层面看来,生物体内正在发育的细胞可以观察到中间分化阶段的连续分布,比如从幼稚T细胞→幼稚CD4+T细胞→Treg细胞,这称为发育轨迹。根据定义,细胞注释不允许渐进的连续细胞分布,所以通过单细胞轨迹分析得到细胞发育路径,也是SCP的重要分析之一。
轨迹分析是单细胞水平的特色分析手段。在scRNA-Seq中,常用的分析工具包括monocle2、GeneSwitch、PAGA等,核心原理都是通过一些特征基因表达模式的改变判断细胞在分化路径上的位置。然而,转录层面的改变并不完全代表蛋白丰度的变化,特别是在单细胞水平。所以,在SCP中进行轨迹分析显得尤为重要。
将轨迹分析用于SCP,需要足够的细胞通量与合适的分析工具。下面概述了在发育轨迹推断分析中 SCP 数据的三个重要考虑因素:
捕获的细胞数量;
SCP 轨迹推断工具的可用性;
Double-Dipping数据重复使用。
如果轨迹的所有阶段同时出现在一个样本中(例如,骨髓样本中的造血细胞发育),那么对样本中的细胞进行充分采样可以捕捉到所有的细胞发育状态,这里的“充分”就是关键。所需的确切细胞数量取决于三个因素,构建轨迹的复杂性、过渡状态的数量以及细胞在每个状态下所花的时间。采样策略必须考虑在发育的单个时刻、轨迹上以及生物重复之间捕捉细胞多样性的方法。由于目前 SCP 的细胞通量较为有限,因此在实验设计中需要在每条轨迹的细胞数量和轨迹的重复数量之间进行权衡(如下图)。重复的轨迹可以帮助我们确定轨迹的推断结构,以及轨迹在多个样本间是否成立,但细胞数量少可能导致轨迹准确度下降。为此,Boekweg 等人开发了一个基于轨迹的功效分析框架,并模拟了实验中的真正阳性和假阳性发现率(DOI: 10.1016/j.mcpro.2021.100085)。
图 4. 在发育轨迹实验中平衡每次重复的细胞数量和重复次数。例如可以制作一个 200 个细胞的轨迹 (a),或者可以制作四个 50 个细胞的轨迹 (b)。
目前常用的轨迹分析软件是为scRNA-Seq开发的,可以适用于其他类型包括SCP的数据。但也有例外——RNA velocity——通过分析未剪接和剪接RNA的比例获取细胞发育轨迹,常见的蛋白质组学流程不会模拟“未成熟”的蛋白质。
空间映射是在组织的空间层面进行原位分子检测。最早的空间映射方法是免疫染色法,使用染色剂对组织切片进行分子标记,再通过显微镜观察被标记的程度和位置。但这样的方法检测通量很低,且会受到分子特异性的影响。随着 MALDI-MS 、 LCM-MS 等技术的出现,细胞内的无偏分子测量应运而生,通过获取组织“像素级”的质谱图并对整个样本进行分析。
目前,空间蛋白质组学采用两种常见的实验设计:MALDI 和LCM激光捕获显微切割。这两种技术都需要权衡数据采集速度和蛋白检测深度。
图5. 两种蛋白质组学空间映射技术的功能比较
MALDI 在质谱成像方面有着悠久的历史,在原位进行样本局部破坏以快速的质谱检测,原理决定了这项技术在高空间分辨率下使用时灵敏度会较低,且难以获取大量离子的 MS2 信息,导致蛋白检测深度较低。激光捕获显微切割与质谱联用(LCM-MS)使用激光从样本中手动切割出单个目标区域,再进行单独的蛋白质组学检测。LCM-MS可以切割任何感兴趣的区域,包括单个细胞的精确边界或亚细胞位置,且由于是单独进行的质谱检测,LCM-MS的蛋白检测深度很高,可以对样品进行深入探究。
类比scRNA-Seq与空间转录组学,SCP也可以对空间蛋白质组学结果进行空间映射,以提高空间分群的准确性。但同时也存在两个重要考虑因素:
样本的分辨率;
样本数量。
在对组织切片进行空间分析时,空间分辨率很重要。LCM可以切出单个细胞或者剪切出任意形状和大小的较大区域,区域越大,包含的肽越多,质谱信号就越强。例如1个细胞和 10 个细胞,或一个神经元和一个上皮细胞,识别的肽段数量差很多。但区域越大,分辨率越低,显然也是需要衡量的一个因素。
在 SCP 中,获取的样本数量也是一个重要的参数。在空间转录组学中,市售平台具有标准化的空间分辨率和几何形状,例如 10X Visium 平台每张载玻片包含 5,000 个Spot。然而,在空间蛋白质组学中,商业平台较少,实验设计以适合研究目的为主要,具有较大的自由度。马竞直播可以为您提供全流程一站式的空间蛋白组学服务,从样品准备到目标区域选取,从蛋白检测到数据分析,提供个性化解决方案,可接受OCT包埋或FFPE样本。而且国内首篇空间蛋白组学文章——SCP构建人类皮肤的细胞空间图谱(北京协和医学院,DOI: 10.1038/s41467-022-31659-9)——由马竞直播提供空间蛋白组学服务。
过去十年,单细胞技术蓬勃发展,各种方法可以越来越详细地表征 DNA、RNA 和蛋白质。基于质谱的单细胞蛋白质组学在生物学研究中具有巨大潜力。上述三种研究策略(细胞注释、发育轨迹和空间映射)均涉及权衡问题,除非 SCP 的细胞通量能大幅提高。在细胞注释中,包括所需捕获的细胞数量,以及如何设置实验以使批次效应不会掩盖本身的差异。在发育轨迹中,包括构建轨迹需要的细胞数量,以及生物学重复的数量。在空间映射中,包括在样本分辨率和所需样本数量之间进行权衡。
参考文献:
[1] Nitz AA, Giraldez Chavez JH, Eliason ZG, Payne SH. Are We There Yet? Assessing the Readiness of Single-Cell Proteomics to Answer Biological Hypotheses. J Proteome Res. 2024 Jul 9.
[2] Schwanh?usser B, Busse D, Li N, et al. Global quantification of mammalian gene expression control. Nature. 2011 May 19;473(7347):337-42.
[3] Gray GK, Li CM, Rosenbluth JM, et al. A human breast atlas integrating single-cell proteomics and transcriptomics. Dev Cell. 2022 Jun 6;57(11):1400-1420.e7.