深度学习在抗体开发中的应用

目录

应用于抗体开发的深度学习正处于早期阶段。低数据量和生物平台差异使得开发监督模型用来预测工艺开发中的抗体行为具有挑战性。但是蛋白质模拟的成功以及先前抗体的模型也说明了存在这种可能性因为抗体具备一些普遍的特征,比如所有的抗体都以类似的方法折叠。同时,新的数据收集方法和生成模型以及掩码语言模型之类的无监督学习和自监督学习的深度学习模型的开发,为更好的监督学习模型的开发提供了丰富而又深度的数据集和深度学习架构。以上的突破一起推动行业朝着提高可开发性、降低成本和更广泛地获得生物治疗药物的方向发展。

简介

在开发治疗性单克隆抗体(mAb)的过程中,有许多步骤都会增加将生物药物开发的总体成本和时间。这些步骤被认为与其他深度学习已经广泛应用的领域一样都适合深度学习的应用,但是局限于没有足够的高质量的数据可用。在具有这些数据的实验方面,深度学习已经可以帮助指导抗体发现、设计和生产。尽管其他方面对于深度学习也具有吸引力,然而整个行业还是需要突破自己,敢于提供这些数据,才能应用到这些方法。

基于抗体的治疗方法,注意力都集中在具有生物学活性的抗体序列上。抗体是否与相关抗原结合、是否特异、是否是功能性表位?这些数据能够带来预期的反应?深度学习在这个领域可以发挥重要作用,但拥有候选序列只是药物产品的第一个障碍。

基于抗体文库的抗体发现通常在噬菌体或酵母展示平台上进行。使用瞬转的材料进行实验的体内实验例如动物免疫或者人类单B细胞淘选等过程并不是重复开发的。大部分抗体药物的商业化生产都使用CHO细胞,但是这些细胞以及工艺也都有巨大的差异。

理论上,可获得的数据包括序列和稳定细胞转染到药物产品这整个过程,见图1,同时也量化了典型的生物药开发过程的数据量。

AI

在稳转之前的开发中,供深度学习的数据量很大。因为后续工艺的成本提高,数据量急剧下降,这大大减少了深度学习的个数从而限制了深度学习对这些步骤的支持。然而,这些正是工艺开发的关键步骤,了解所面临的挑战以及深度学习需要解决的问题才能勾画出深度学习在药物开发中的蓝图。

通过酵母展示可以获取了成千上万条抗体序列,目前正在研究蛋白序列和生物物理性质的相关性比如稳定性和溶解度等。开发这些模型仍然具有挑战因为抗体序列上特异位点上的特异氨基酸与抗体的行为之间并不是线性关系。作为简化步骤,我们可以预测分子的化学和物理性质(通过计算机模拟)然后通过这些数据与抗体行为联系起来。在这方面,深度学习可以发挥一定作用。

虽然可以从大型酵母表达数据集中估计表达水平,但这些估计对于哺乳动物细胞系中的预期表达水平只是模糊的“方向性”。毕竟哺乳动物细胞和酵母细胞的机制差异太大。另外,表达水平也与整合位点(稳转细胞一般都是随机整合)、拷贝数、甚至细胞相关。看上去只有不能正确折叠或者表达量极低的序列才能通过酵母预测在CHO的表达情况。然而,在酵母中的尝试至少回答了需要多少数据才能实现通过酵母表达水平评估CHO细胞表达水平的模型。

即使人们可以训练可靠的机器学习预测抗体在特定溶剂中的溶解度或分子分子相互作用的程度等行为,更大的挑战是将这些行为映射到抗体工艺开发或其体内活性的任务。在这方面,几乎没有信息从工艺返回到理化特性、结构或者抗体序列。对于这些关系,关键的数据尚不存在的主要原因是筛选的偏向性,只有成药性较好的分子和体内活性可接受的分子才可能进入工艺开发和制剂开发,更不用说全面的体内表征。

深度学习可以提供最大便利的地方,也是最终的挑战即跨越以下纬度进行数据设计。

  • Germ lines.  

  • CDR diversity.  

  • Antibody formats (e.g., scFv, full length, Fab, Fc-fusion, multispecifics).  

  • Specific sequence liabilities (e.g., deamidation, isomerization, glycosylation sites).  

  • In vivo immunogenicity and clearance likelihood.

鉴于真正多样化的数据集,在很大程度上表现出这些特性的分子应该提供抗体序列,从中可以收集更有价值的数据。

这篇文献讨论了使用监督学习用来进行抗体设计和识别序列可靠性,使用非监督学习和自监督学习生成不同的抗体集用来筛选以及抗体表征。

抗体开发中的监督学习

在抗体开发中,预测抗体模型是最常用的方法是监督学习,通过这种方法可以从抗体的序列或者结构获取一些抗体的分子特性以及行为。这类模型的价值是具备略过昂贵费时低通量的体内外实验。通过精准的模型,分子设计可以快速进行甚至自动化。虽然机器学习经常使用,由于数据集的获取难度深度学习才开始收到关注。

从分子特征预测分子行为的方式主要有两种;最常用的是通过建模获取抗体结构的表征,再通过已有的数据集作为输入;第二种方法是从深度学习获得的灵感,直接从抗体序列进行预测,为每个氨基酸进行OHE编码。第三种较新的方法是使用transformer模型,它采用OHE数据,并使用预先训练好的自监督的深度学习模型,将每个残基的编码转换为一组可能捕获结构和化学信息的值。虽然这种方法太新了,无法与其他方法进行比较,来判断它是否更有效,但它使用深度学习来推导类似第一性原理的特性是很有趣的。

使用分子建模作为从序列到分子行为的中间步骤,来减少输入特征的非线性是有一的。这中简化使传统的机器学习方法得以使用并且允许使用更小的数据集进行建模-目前抗体可开发性的数据集包含的抗体少于300个。不幸的是,这种方法在模型上留下了人类和第一原则的偏见。模拟的力场和工艺中的人为选择都阻碍机器学习的模型开发。建模方法的准确度也受到随机噪声和系统偏差的影响,最终的分析结果也会加入选择特征的偏见。

这些限制基本上阻止了这种方法成为处理这些问题的最优方案,因为将蛋白质序列和结构与生物物理特性联系起来的物理现象是复杂的。随着更多数据的出现,深度学习应该可以减少对第一性原理特征选择的需求。

从序列开始预测的挑战在于任何类似的模型都需要获得足够的来自抗体结构的非线性行为才能够去评估候选抗体的特性。所以这些方法都很却少数据。但是获取了足够的数据后它们又会技术性的剔除一些数据:比如翻译后修饰因为抗体的行为都是由氨基酸序列决定。

例如,AlphaFold已经预测出大量的静态的蛋白结构,显示出此类任务所需的数据规模和架构复杂性。不过这些所谓的模型在抗体开发领域并不是特别有用。抗体行为预测的关键于隐藏在小尺度距离以及相互作用中,所以AlphaFold模型在这个领域可能难堪大用。

另一方面,与Alphafold模型处理的广义蛋白质问题不同,抗体序列和结构的很大一部分非常保守,以至于同源性建模能够提供非常合理的预测结构。这种高程度的序列保守还允许使用基于结构的比对方法,这大大降低了必须从序列推断的潜在空间的复杂性。事实上,许多抗体和类似抗体的序列可以转换为固定长度的输入向量,允许深度学习模型专注于推断残基之间的潜在关系,而无需不断变化的框架。

即使考虑到这些限制,在抗体设计的某些领域已有的数据集,使现代深度学习方法立即可行。文章描述了当前用于蛋白质特性预测的机器学习方法,并分享了对哪些技术应该应用于抗体设计以及哪些不应该应用于抗体设计的评估。

生物物理性质

生物物理特性预测是短期内监督深度学习最有前途的应用领域。候选分子的生物物理特性(包括溶解度、疏水性、热力学稳定性和胶体稳定性)会影响工艺开发的难易程度和最终药物产品的稳定性。对于给定分子,这些特性相对容易计算,并且可能适用于高通量计算(许多序列,一种或几种条件)。

大型蛋白质溶解度数据集(超过10万个蛋白质序列)的可用性最近为深度学习溶解度预测打开了大门。据报道,有几种深度学习算法直接从蛋白质序列中将蛋白质分类为可溶性或不溶性。DeepSol算法使用卷积神经网络(CNN),该算法将氨基酸序列作为输入,并输出相关蛋白质溶解度的可能性。SKADE算法使用基于注意力的深度学习模型处理同一任务。虽然这些模型不能立即适用于抗体工程—可溶性与不溶性分类数据集不太可能编码与少量突变相关的微小溶解度变化的模式—但它们证明从一级序列可以预测溶解度。将深度学习算法应用于预测数千种不同抗体序列的溶解度数据将为溶解度调校提供有价值的预测因子。这样的数据集不是公开的,但学术实验室和生物制药公司可以创建一个类似的数据集。

一个模型还报道了预测抗体疏水性,该模型经过了5000多个抗体抗原结合片段(Fabs)疏水作用色谱保留时间(HIC RT)的训练,Jain et al.使用此数据集创建两个传统的机器学习模型来预测抗体序列的SASA和HIC RT分类。这些方法被用来预测一个Fab是否在一个参照品前后被洗脱而不是给定一个具体的HIC RT。具有超过5000个特异的抗体测量数据,HIC RT的数据集已经接近深度学习算法的使用。

产品质量属性

产品质量属性 (PQA),尤其是脱酰胺、异构化和糖基化等翻译后修饰,是有吸引力的预测建模目标。对PQA的控制确保了均一,有效的药品。PQA只能从序列和结构上部分预测,表达系统和培养条件等外部过程因素也会影响PQA。每个 PQA 数据点也相对资源密集,在某些情况下需要依靠先进的质谱技术进行准确定量。PQA数据集在很大程度上仍然局限于数据匮乏的状态,在这些方面现代深度学习方法不可行,但是有一些监督预测PQA的例子。

最近一篇关于机器学习用于脱酰胺预测的出版物为PQA中监督学习的现状提供了一个说明性的例子。作者使用了序列和结构特征的组合(根据基于序列的同源模型计算)使用随机森林模型进行分类和回归,预测天冬酰胺脱酰胺概率。这个模型使用来自不到50 单抗上数百个天冬酰胺脱酰胺位点半衰期数据进行了训练,这些数据是通过液相色谱串联质谱法计算出每种抗体在40°c和pH 8.0下孵育4周的过程中的托酰胺速率。虽然稳定与不稳定天冬酰胺位点的分类显然可以推广到不同的蛋白质类型和环境条件,回归模型不太可能在数量上与在单抗生产过程中经历的各种环境条件下观察到的相同单抗的脱酰胺率一致。尽管如此,这种统计模型对于在药物开发早期阶段对分子进行初步计算机筛选应该是有用的。

也有使用机器学习预测CHO细胞中mAb糖型分布的例子,最近使用人工神经网络。Kotidis和Kontoravdi训练了能够在各种培养条件下预测特定抗体的糖基化的神经网络。蛋白质序列和细胞培养条件之间可能存在复杂的非线性相互作用。预测一种蛋白质的位点特异性糖基化谱的神经网络无法推广到其他mAb,限制了它们在药物开发活动的候选筛选阶段的实际应用。随着时间和不同抗体的糖型数据的增加,此方法的用途将得到改善。

虽然有希望,但这些数据还需要对应细胞类型、转染方法、培养基组成甚至生产模式(批量灌注与连续灌注),因为这些都会对PQA产生影响。特定生产用细胞系的数据可能是必要的。如果行业趋同于一些标准流程方法,这些模型应该更容易转移。

工艺中的表现

抗体设计中监督学习的圣杯是预测抗体在工艺开发中的表现。预测给定分子在工艺开发过程的每个步骤中的最佳性能,并确定突变以提高该性能,可以大大减少工艺开发中的实验工作。然而,生物反应过程的动态性意味着分子特征的任何指标也将取决于工艺操作条件,工艺路线或生产规模的操作(例如,生物反应器细胞培养和纯化)既昂贵又耗时。在实验室规模上收集足够的实验数据来训练深度学习模型来理解分子和工艺自由度之间的复杂相互作用是不可能的。幸运的是,创造性地使用高通量“缩小模型”(在多孔板中进行数十值数千规模的实验)和混合计算机建模方法为工艺表现预测建模提供了一线希望。缩小模型以更低的成本提供更高的通量,有助于更广泛地覆盖可能影响给定分子性能的工艺自由度。按比例缩小模型为深度学习所需的海量数据集提供了一条经济可行的路径。

给工艺开发带来可预测可能性的两个方面分别是使用ml级别的反应器收集表达数据以及进行小规模的纯化实验。Gagliardi et al.给出了使用小规模表达系统用来预测表达的方法,通过模拟流加的方式使用高通量的表达,可以同时操作24-48个10-15ml的反应器(感觉是摇管?)用来预测细胞克隆在10L发酵罐中的表现。这种转变提高了细胞的筛选以及工艺优化的通量。同样小体积纯化也有类似的报道,通过机械臂操作孔板和小型纯化柱进行纯化实验可以同时筛选更多的填料、缓冲液体系而且对样品的需求量极少。而然这种高通量的方案也是需要一些成本的,需要模型来计算不同规模下各个参数的相关性。这与深度学习有一定的契合度。

在这个领域,细胞培养和纯化过程的机理模型可用于通过数值模拟创建大型计算机数据集。该方法已用于预测CHO中的生长和表达,色谱建模以及预测工艺表现。这些作为数据源可能是有效的,但重要的是要注意,数据中的任何假设都会嵌入到从它们训练的深度学习模型中。如果不引入实验数据,就不可能回避这些假设带来的偏差。摆脱第一性思维陷阱和避免无法训练监督学习模型的可行方法是使用生成的无监督模型来产生更好的数据集。

抗体开发中的无监督学习

监督学习的挑战是没有足够的数据供训练,无监督方法只需要处理单个数据模块-通常是抗体序列或者抗体结构-因此不会受限于有限的数据集。结合获取的人类基因谱系测序结果,使用无监督和自监督模型已经变成了比较合理的方法。虽然这些方法不能明确将抗体的特性与表达关联起来(例如抗体的保留时间只跟序列相关),但是它们也提供了更有价值的视角来理解抗体的行为,同时还提供了生成用于监督学习的大数据集的关键方法。

对于抗体组学的非监督模型,例如生成对抗网络(GAN)和自动编码都已经被用来创建大型、多样化的抗体库用来进行抗体发现以及抗体理性改造。这类生成模型的目的主要就是为了创建多样性、更天然的候选分子。经过筛选标注的人类组学数据库OAS,提供了大量的人类抗体序列。通过人类抗体组学的学习,生成模型可以获得多样性的文库来生成与人类抗体一样的但是序列不同的抗体序列。这种抗体库生成的方法可以使用迁移学习控制文库中抗体的特性。

还有一些应用模型来生成结合某个抗原的抗体。变分推断已经被用来协调高斯混合模型(Gaussian Mixture Models)针对特定靶标的抗体CDR的空间聚类。该模型允许用户在潜在的聚类空间进行优化以获得结合抗原的新抗体。这种方法可以看作是在计算机中进行CDR亲和力成熟的一种手段,以筛选后的序列作为输入,输出亲和力提高的序列。

最后,对抗体开发具有重大意义的深度学习方法是自监督学习。这是一种无监督学习方式,使用这种方法模型被要求完成自我监督学习。这些最近已被用于蛋白质组,以学习捕获蛋白质结构和行为的表征。预训练任务通常采用掩蔽语言建模(MLM),如掩蔽蛋白质序列中的一个或多个残基,并让模型在剩下的序列中预测该残基的氨基酸。

在抗体开发中,这种模型可以用来学习抗体框架区突变的意义,以帮助完成抗体的设计、分类、聚类以及分析。基于Transformer的模型,例如BERT和GPT,也可以使用掩蔽语言建模和注意力机制(attention mechanisms)捕获序列数据中的前后关系。这些模型可能在抗体领域中有一定作用,因为抗体有相对较长的序列和复杂的结构。

最后一点,根据前文所说,许多生成蛋白序列的任务都需要学习大量的结构和相互作用数据才能了解序列在其中的意义。相反,抗体模型可以利用大量保守的抗体序列和结构获取。许多抗体的结构是保守的即使是不同种属的抗体也具有类似的特性,例如驼类的VHH和人类的VH结构域。

Transformer 模型显示这些新流行的模型架构可用于获取残基之间的进化模式和概率,包括容易忽略的潜在的关系。使用这种学习可以评估序列与数据集之间的差异,包括残基替换的概率。

无监督学习和自监督学习的转换

虽然 GAN 和 MLM 模型是强大的生成和定性评估工具,但使用迁移学习(transfer learning)可以进一步优化这些模型的能力并发挥这些方法最大的效应。借助具有大量抗体数据的训练模型,我们可以应用迁移学习将这些模型集中到抗体类型的子集上。这使生成或评估模型生成或寻找具有某些特征的抗体,例如低清除率 (PK)、较高热稳定性和可开发性的抗体。

事实上,这就是无监督和自监督模型契合的地方,如果我们能从有监督的模型中获取与分子的可开发性相关的特征,那么我们就可以利用这些数据训练无监督和自监督的模型,以避免或者引入类似的特征或者特性。同样,在没有监督模型的情况下,我们可以很好的表征抗体,并且使用迁移学习生成这些抗体的特征。所有的这一切都不要具有第一性思维模型,只需要了解转移学习使用的数据集的特征。

众所周知,迁移学习是从抗体数据通过粗略计算训练出来的,训练的数据不能代表所有抗体的行为。但是即使是这种粗略的近似值,例如高溶解度、高稳定性、低粘度或者更长的半衰期这些都对成本、可及行以及治疗效果产生较大影响。

这些模型的迁移学习方式不仅为监督学习生成多样性训练集以及后续优化模型预测的可靠性提供了保障也为我们对抗体性质的理解提供。除了可以依靠体内实验获取抗体,还可以通过迁移学习获取更多的具有特殊特性的抗体序列。这也为生成具有高可开发性的抗体提供理论支持。

结论

深度学习在抗体开发领域发挥着重要的作用。从抗体序列到理化特性到工艺优化再到最终药物的整个过程都是非线性的关系,这对传统的机器学习来说是一个巨大的挑战。但是深度学习为抗体开发科学家提供了一项新的选择,但是深度学习对于数据量的要求较高,开发者必须找到搜集数据的方法或者在计算机上生成可靠数据的方法。

在抗体可开发性方面虽然目前使用少量数据训练的机器学习模型还有很多不足,但是仍具有很好的前景。需要实验室持续进行高通量的表达和数据收集。相信随着深度学习不断的深入抗体开发,我们将会完全的利用这些体外数据。

最后,需要关注药物发现直到药物用于患者的每一个过程。深度学习在这些过程中都可以发挥巨大的作用,尽管前路很长。相信深度学习最终可以帮助提高抗体质量和减少成本。