预测纳米抗体的多反应性

目录

今天分享的是22年的一片文章“An in silico method to assess antibody fragment polyreactivity”。关于纳米抗体的介绍就不多少了懂的都懂,优点很明显,缺点也很突出。很多时候筛到一条个方面都很优秀的纳米抗体,但是纳米抗体的非特异性结合较强同时在动物体内的PK很差。改过抗体序列的朋友都懂面对一堆只能定性的实验数据靠着各种理论把所有的可能性都遍历一遍到头来非特异性没改好反而找到了结合抗原最关键的氨基酸是一件多么苦涩的事情。曾经从噬菌体文库筛选的候选分子是多反应性的重灾区,主要因为这些合成抗体文库里面的抗体没有经历过体内对脱靶反应的筛选。随着全人噬菌体文库或者合成文库的热度退去,现在纳米抗体成了多反应性的主角。

背景

检测抗体多反应性的方法对提高抗体的可开发性至关重要,目前已经有很多评估抗体多反应性的实验方法,这些方法都需要将筛选好的抗体表达出来。如果从序列或者结构特征来了解多反应性为基于标准数据集定量评估抗体多反应性提供有效途径,之前的研究也总结出很多影响抗体多反应性的因素包括:特定的J基因、V基因、高等电点、较长的CDR3、富集了含有精氨酸、甘氨酸、缬氨酸和色氨酸的基序以及谷氨酰胺残基等。作者希望基于高/低多反应性纳米抗体的习得特征,开发出通用性强的软件,可以根据序列量化纳米抗体的多反应性,同时能设计特定突变位点以降低多反应性。

结果

作者先从合成纳米抗体文库中筛选表现出高和低多反应性的纳米抗体然后使用抗体的序列特征来训练机器学习模型。下面是大概的流程。

流程图

这个抗体文库他们之前介绍过,是一个llama 纳米抗体的合成文库,框架区是llama的基因,可变区的突变是根据RCSB文库中纳米抗体的序列多样性分析而来。

酵母文库

根据文章中提供的一些纳米抗体序列到IMGT数据库中比对可知这些抗体与llama、alpaca和camel的相似度挺高。这里的序列跟一些alpaca筛选到的序列相似度也比较高,这也说明这个文章中的模型可以用到咱们筛选到的纳米抗体上。

比对

高多反应性的抗体是通过PSR来富集的,这个一般用来检测抗体的多反应性,除了PSR检测多反应性的方法还包括:溶菌酶,dsDNA,ssDNA,insulin,LPS和裸平板。从筛选出来的抗体的检测结果来看通过PSR富集到的抗体表现与dsDNA,ssDNA,insulin,LPS和裸平板的相关性都是比较高的,这也说明通过PSR染色筛选可以反映出纳米抗多反应性特性特征。

alt text

接下来基于流式分选的序列数据,开发了可区分高/低多反应性纳米抗体的计算模型。通过构建监督式判别模型的集成组合,实现了对高、低多反应性序列的有效区分。对比不同的模型,独热编码逻辑回归、k-mer逻辑回归及循环神经网络(RNN)模型在区分纳米抗体的高/低多反应性方面表现优异,其曲线下面积(AUC)分别达到0.85、0.83和0.84。抗体的疏水性和CDR3长度对评价多反应性的相关性则是最差的,下面一张图的e使用这些模型比较它们预测高/低多反应性的效果。

模型

逻辑回归方法所识别的序列特征还具有高度可解释性,它能够直观呈现纳米抗体CDR序列中各氨基酸位点对多反应性的贡献。CDR中的酸性残基是低多反应性克隆的特征性标志,而精氨酸残基在所有CDR中普遍存在,以及CDR3区域中赖氨酸、色氨酸或酪氨酸的特异性富集,这些均被证实会显著促进多反应性水平的升高。k-mer逻辑回归模型也揭示了多反应性克隆中一些基序特征。含有谷氨酸、天冬氨酸等带负电荷残基的k-mer基序与低多反应性序列高度相关,而精氨酸、赖氨酸等带正电荷残基被预测会促进多反应性,这与独热编码逻辑回归模型的预测结果一致。

alt text

为了让模型可以量化多反应性因此通过PSR染色强弱从文库中筛选了48条纳米抗体,构建了具有明确多反应性水平的标准序列克隆集,将它们的多反应性强度划分为三组:低(浅灰)、中(灰)、高(深灰),定量模型预测结果与PSR实验结合评分间呈现高度吻合的相关性——达到理论最大相关性的85%;通过网页输入抗体序列可以预测出抗体的多反应性并且给出量化评分,同时它还支持预测可降低多反应性的高分值突变位点;ce是通过独热编码逻辑回归、k-mer逻辑回归实现对多反应性的定量预测与PSR结合强度的相关性测试;df是对这些纳米抗体进行双位点扫描突变,采用独热编码与k-mer逻辑回归模型对预测多反应性进行评分,并从中筛选出覆盖各CDR及降低多反应性的高分突变组合。

alt text

基于模型的表现,选择了高多反应性克隆E10和中等多反应性克隆D06进行优化,对这两个克隆的序列进行单位点和双位点突变并对这些突变分别打分排序,最后根据打分选了每个CDR排名前三的单位点突变、每个CDR排名前三的双位点突变和分布在两个不同CDR的双位点突变。对D06克隆,预测的21个突变体中有18个降低了多反应性,11个突变体的多反应性降低了两倍,从这里可以看出CDR3对多反应性的影响最大。对于E10克隆,16个突变体中有15个突变体降低了多反应性,9个突变体的多反应性降低了一半。

alt text

这个模型是基于PSR筛选出来的抗体进行训练,接下来测试这个模型对具有功能的纳米抗体的优化结果。AT118i4h32也是从同样的文库中筛选出来的靶向AT1R抗体,然后对这个抗体进行了人源化使用的人VH3-23,这个抗体对PSR的结合较高,pI也达到了9.6,抗体表面分布较大的正电荷区域以及较多的正电荷和疏水氨基酸。

alt text

模型优化后的突变体都降低了对PSR的结合,引入负电荷氨基酸中和R30,R31和R99的正电荷区域可以降低抗体对PSR的结合不过同时也降低了对AT1R的结合。其中有两个突变体G26D和T57I降低了多反应性并且保留了对AT1R的结合,将这两位点组合后将多反应性降低到原来的20%同时也保留了AT1R的结合能力并且保持了对受体的抑制和阻断AngII的激活。

alt text

对突变体G26D T57I的结构研究发现T57I与相邻氨基酸I51和I65的疏水作用对保持抗原结合具有重要的作用,T57D突变提与抗原的结合降低到一半。G26D突变后与N76形成了一对氢键使CDR的结构更加稳定,增加了抗体的稳定性从而也增加了抗体的产量。虽然这两个位点单独突变并不能解决保持活性的同时降低多反应性,但是组合后可以。

讨论

从本文的结果来看某些位点的突变对降低多反应性具有普遍性,但是有些位点的突变在不同的抗体中呈现相反的效果,这也进一步说明某个氨基酸对多反应性的影响依赖于所在的位置。文章开发的计算模型具备准确量化抗体多反应性的能力,也可以预测减少现有序列多反应性的能力。从实际的操作来看使用作者给的工具确实能在一定程度上减少纳米抗体的多反应性,不过活性的保持就有些困难了毕竟突变的位点都在CDR中,其中K、R或者W都是对亲和力贡献较大的氨基酸。另外对纳米抗体非特异性影响的氨基酸也不全在CDR中,有些时候嵌合抗体的特异性较好但是在人源化后突然就增强了,好多时候只能通过增加回复突变来减弱抗体的非特异结合。

参考文献

  1. An in silico method to assess antibody fragment polyreactivity

  2. Yeast surface display platform for rapid discovery of conformationally selective nanobodies

  3. Synthetic nanobodies as angiotensin receptor blockers