基于深度学习优化抗体
抗体的优化需要大量时间和资源,这主要是因为在哺乳动物细胞中表达全长抗体的通量比较低很难进行高通量筛选,为了解决哺乳动物细胞表达在抗体优化中的局限,作者开发了一种基于深度学习的方法,能够高通量的识别具有抗原特异性结合的抗体序列;然后通过计算机预测最具可开发性的抗体分子,从而大大节省时间和成本,并大幅降低下游临床开发的风险。
简介
在第一部分,为了生成用于训练神经网络的数据,他们使用CRISPR-Cas9技术对表达曲妥珠单抗的细胞株进行两轮点突变,第一轮是单点突变,根据单点突变的结果又进行了第二轮组合突变,然后对文库进行分选并获得表达抗体的细胞,再将这群细胞标记为抗原结合和非抗原结合的子文库,对这两个文库进行深度测序并用来训练神经网络,最后使用经过训练的神经网络来筛选大约1×108个曲妥株单抗突变体的序列空间,预测出所有能够特异性结合HER2的序列。预测结束后从中随机挑选30条克隆进行表达纯化,发现所有的抗体都能特异性结合HER2。第二部分是从上一步筛选的所有结合HER2的序列中筛选出成药性更好的抗体序列,对这个子集的抗体序列进行粘度、清除率、溶解度和免疫原性的虚拟筛选最后产生了数千个高度优化的先导候选物。
结果
- 首先对抗体的CDR3进行单位点氨基酸扫面,然后对文库进行分选,将分选后的表达抗体的文库分为两个文库(抗原结合,非抗原结合)并进行深度测序;深度测序的结果对CDR3的每个位点进行分析,发现其中6个位点可以适应广泛的突变,而另外三个位点只能接受有限的突变,尽管102D、103G、104F和105Y是与HER2直接接触的氨基酸 ,但105Y是唯一完全固定的残基;将DMS获得的结果用于指导组合突变文库的合理设计,根据每个位点氨基酸频率为每个位置选择简并密码子;该文库的理论库容为7.17x108,对此文库进行两轮富集,再对分选的序列进行深度测序,分别获得了11300和27539个抗原结合和非抗原结合抗体序列。
这些序列只占到理论序列的0.0054%。不过在序列水平上区分组合文库中的抗原结合序列和非结合序列具有很大的挑战,这两个文库之间每个位置的氨基酸使用情况相对相似,因此很难开发任何类型的启发式规则或破译可观察的模式来识别结合序列。
- 训练深度神经网络根据抗体序列对抗原特异性进行分类,使用独热编码(one-hot encoding)将氨基酸序列转换成输入矩阵,这样每个10个氨基酸的CDR3将会获得一个10x20的矩阵。首先对各种模型进行评估,比较它们根据测序数据对抗原结合和非抗原结合分类的准确性和精度。原始数据集的70%用于训练模型,其余30%为测试数据集和验证数据集用于模型评估。深度学习模型CNN比其他的模型表现更好,因此后续主要对这个模型进行优化。卷积神经网络将可学习的过滤器应用于输入数据,使它们能够有效地识别与给定输出相关的空间依赖关系,经过训练最终的模型可以准确的将未见的测试数据分类。随机从抗原结合和非抗原结合数据集中各挑选了9条序列进行表达,检测与HER2的结合,抗原结合数据集中的抗体都能跟HER2结合但是非抗原结合数据集中有3条抗体可以跟HER2结合,这说明这个数据集可能不是很准确最终也会导致训练模型的预测准确度。
- 根据DMS的组合文库的理论库容生成7.2x107个抗体序列,并预测它们与HER2抗原结合的可能性,训练后的CNN模型预测到10.6x106个潜在结合序列。为了验证模型的精度,随机选择并测试了30个抗原结合序列和12个非抗原结合序列进行验证,检测结果显示所有30个预测的抗原结合序列(100%) 都能结合HER2,12个预测的非抗原结合序列中有11个没有显示出结合活性。虽然模型能够比较准确的预测序列是否与HER2结合,但是与亲和的高低并没有直接的相关性。
- 通过计算机过滤深度学习预测结合的序列的可开发性,首先通过计算LD来研究它们与原始曲妥珠单抗序列的序列相似性,大多数序列显示编辑距离LD>4;过滤的第一步是计算净电荷和疏水性指数(HI)来排除掉潜在的高粘度和快清除率的抗体,过滤的参数为FvCSP<6.61或者Fv静电荷>6.2以及HI(LC1+LC3+HC3)>4、HI(LC1+LC3+HC3)<0;然后使用CamSol计算HCDR3的溶解度评分来预测抗体的溶解度,分数低于0.5(曲妥珠单抗)的序列将被过滤掉;最后一步通过NetMHCIIpan预测HCDR3序列与MHC II分子的结合亲和力,排除掉高亲和的序列从而剩下免疫原性较低的序列。经过以上筛选最后剩余7919个抗体,它们所包含的可开发性打分等于或优于原始曲妥珠单抗序列。而通过湿实验分选获得的序列经过同样的过滤后仅剩下9个抗体,这说明通过深度学习可以获得比湿实验更多的抗体序列,不过湿实验和深度学习更像相辅相成的关系,就像这篇文章展示的通过湿实验获得数据训练的模型可以进一步扩大筛选的范围 。
- 通过实验表征经过优化的抗体,根据可开发性的排序选择了前100的序列进行验证,最终获得的55个抗体有13%的序列保持了亚纳摩水平的结合,然后对亲和力排在前10的抗体进行表达水平、热稳定性和免疫原性的评估,其中有5个与曲妥珠单抗保持一致,所有10个抗体表现出与曲妥珠单抗相当或更好的热稳定性,通过T细胞增殖测定评估抗体的免疫源性发现突变体1所有指标均未显示潜在的免疫原性。
讨论
这篇文章的第一部分做了大量的工作为训练神经网络提供数据,这也从另一方面反映了深度学习的特点需要大量高质量的训练数据,模型能解决的问题取决于数据的质量和范围,例如本文使用曲妥株的序列突变体的结合数据来训练模型,再用来预测曲妥株的所有突变序列空间能否结合HER2,试想如果你加如一条帕妥株的序列,模型会输出什么结果?
文章的第二部分是筛选高成药性的序列,无论是Fv净电荷、LC1+LC3+HC3疏水性指数、HCDR3溶解度评分和HCDR3免疫原性都是基于序列,除了Fv净电荷以外其余都是通过部分CDR3的序列来预测抗体的成药性,所以这种筛选方法的局限性比较大,只适合类似于本文的情况所有的序列只有HCDR3有所区别,或者就像一些AI公司宣称的那样用来做亲和力成熟以及成药性优化。
参考文献
- Optimization of therapeutic antibodies by predicting antigen specificity from antibody sequence via deep learning