通过可解释的机器学习优化治疗性抗体

目录

抗体的脱靶结合和聚集倾向是抗体成药行评估中的重要一环,目前对抗体的脱靶以及自交联的预测仍具有较大的挑战。今天分享的这篇文章使用机器学习,利用抗体可变区的结构特征,根据80个临床阶段单克隆抗体的实验数据进行训练,训练的模型可以识别在常见生理溶液条件下具有低脱靶结合同时在常见抗体制剂条件下具有低自交联倾向的抗体。最后通过预测和实验来证明其实用性,改造后的抗体可以降低非特异性并保持高亲和力。

alt text

背景

抗体药物的成药性包括高亲和力、特异性、稳定性、溶解度、活性以及长半衰期和低免疫原性。尽管目前抗体开发已经是流程化的工作,对于不同抗体成药性的特性之间进行权衡是很常见的操作,例如亲和力和稳定性、特异性、自交联、溶解度、黏度或者药代动力学之间的权衡等。事实上对于抗体的成药性而言主要由抗体的可变区控制,可变区的富含带电何以及疏水的氨基酸残基CDR区域介导抗体与抗原间的特异性结合,同时这些带电何以及疏水氨基酸残基也会带来自交联或者脱靶结合倾向。

结果

1.根据非特异性相互作用对临床阶段抗体进行分类

作者使用80个临床阶段的抗体,将它们合成到IgG1恒定区,通过实验检测了它们自交联(CS-SINS)[2]以及脱靶结合(PSP)[3]倾向。根据检测的结果将抗体分成4类,第一类占26%这类抗体以trastumab为代表自交联以及脱靶结合的倾向较小;第二类占29%这类抗体以omalizumab为代表,主要体现为较高的自交联倾向,制剂中的表现为高黏度;第三类抗体占比为31%,以bococizumab为代表,表现为较高的非特异性和免疫源性;最后一类抗体同时展现出较高的自交联和非特异性。80个抗体中有26个获批上市,其中属于第四类的抗体没有一个上市,从这些上市抗体的制剂来看第二三类的抗体使用离子添加剂的比例也更高,说明这些抗体的成药性确实差于第一类的抗体。

alt text

其中25个抗体报道了人体的清除率,第一类也显示出较低的清除率。分析全部80个抗体的Fv区等电点发现,第一类抗体的等电点分布在相对较窄的pH范围内,第二类抗体的等电点分布在较低的pH,第三类抗体倾向分布在较高的pH,最后一类抗体的等电点分布则比较广。这些抗体大部分来源于小鼠,不同类别的占比也比较类似(64-83%),不过66%源于噬菌体展示的抗体被分在第三类,也就是非特异性结合比较高,相反使用其他方法的抗体仅25%归在此类。从抗体使用的胚系基因来看分布比较一致,大部分一类的抗体使用的胚系基因为VH3和VK1。

alt text

2.使用可解释的机器学习预测抗体非亲和力相互作用

这些实验数据集提供了一个独特的机会来开发预测抗体的自交联和脱靶结合倾向的模型。许多机器学习方法都擅长处理这类复杂的数据,不过这些模型通常是不可解释的,被认为是“黑匣子”,可以学习特征之间的复杂关系并进行准确的预测。虽然这些模型在预测方面可能很有用,但想通过这些不可解释的模型倒推回来理性设计抗体却比较困难,所以作者开发了分类模型来预测抗体的自交联和脱靶结合倾向。

对于抗体特征,使用MOE为每种抗体生成了5个Fv同源模型,并提取了33个基于结构的特征,这些特征描述了Fv区域,并且也方便优化时在抗体上引入突变对这些特征进行修改。为了保持模型的简单性,模型在迭代过程中使用减少特征的子集进行训练,同时也观察到与使用所有特征的训练相比性能也得到了提高。最终模型如图所示,自关联(CS-SINS)分类准确度为88%,非特异性结合(PSP)分类准确度为78%,这些模型还表现出相对较高的准确度。

CS-SINS模型显示,抗体Fv电荷是自交联的关键决定因素,自交联程度较低的抗体通常携带中到高Fv电荷(pH 7.4)。另外the largest ionic patch area与number of positive patches的比率也提供了高低自交联抗体之间的一些额外区分。PSP模型揭示了对另外三个Fv特征与脱靶结合之间的显著联系,具有高hydrophobic moment和低或高apparent charge与hydrophobic patch百分比的抗体被预测具有高非特异性结合。

alt text

3.预测模型对抗体改造的指导

接下来作者通过实验评估了模型预测突变的作用,通过突变优化二-四类抗体的特性,并将其转化为一类抗体而不影响亲和力。选择的抗体分别为panitumumab(II),gantenerumab(III)和cinpanemab(IV),这些抗体的特性不仅与模型的预测结果一致同时这些抗体也就解析的结构。对于突变的位点主要考虑到三点,1)抗体中野生型残基不高度保守的Fv位点,以避免选择对抗体结构和折叠很重要的残基,2)抗体中每个Fv位点相对常见的突变(频率>5%),3)远离结合抗原的位点(α碳之间>5 Å)以维持亲和力相互作用。优化的过程分两步,1)对抗体进行单体突变,2)对优选的单位点进行组合,在每一步都使用同源模型生成抗体的特征进行模型预测,直到预测的突变体的表现是最佳的。

alt text

通过迭代,cinpanemab获得了7个突变体、gantenerumab获得了4个突变体以及panitumumab获得了6个突变体,最后这17个突变体的实验结果表明,所有设计的变体均表达良好。值得注意的是,所有变体都显示出脱靶结合的减少,另如二类抗体panitumumab中引入的突变减少了自交联,对非特异性结合影响较小,即使P5和P6变体的非特异性结合的轻微增加也远低于非特异性结合阈值。三类抗体gantenerumab和四类cinpanemab抗体的变体基本也表现出脱靶结合作用的减少。除了帕尼单抗的三个变体之外,其余抗体的亲和力都与野生型相似。总体而言,17个设计的突变体中有12个符合一类抗体的实验标准,再排除掉3个亲和力降低的突变体,每种抗体至少有两种变体符合一类抗体的标准且保持野生型亲和力。

alt text

讨论

这篇文章报告了一种使用结构建模和可解释的机器学习模型来预测和改善临床阶段抗体的非特异性相互作用的方法。先前报道的一些模型是在大型蛋白质序列数据集上进行训练的,这依赖于抗体库的生成、筛选和深度测序,不过这种方法非常耗时并且对于同时优化几种重要的抗体生物物理特性来说是不可能的。利用文章的模型可以较快的筛选具有高非特异性的抗体,不过文章中CS-SINS和PSP测定相对于其他抗体可开发性测定的异同也值得进一步考虑。另外这班人还发了另一篇文章用机器学习来预测并减低黏度的模型[4],不过一直不理解的地方是我认为抗体的自交联的体现就是高黏度,但是两篇文献对于同样的现象给出的模型并不一致。

参考文献

  1. Optimization of therapeutic antibodies for reduced self-association and non-specific binding via interpretable machine learning

  2. Ultradilute measurements of self-association for the identification of antibodies with favorable high-concentration solution properties

  3. Highly sensitive detection of antibody nonspecific interactions using flow cytometry

  4. Reduction of monoclonal antibody viscosity using interpretable machine learning