IgG单克隆抗体可开发特性预测模型的机器学习策略
作为可开发性评估的一部分,确定治疗性抗体药物的生物物理特性是临床前开发过程的关键部分。通过计算机预测此类特性和生物测定结果可以减少药物开发周期和成本,但目前该领域仍面临不小挑战。这篇文章,作者开发了一个自动化的机器学习工作流程,用来比较由流行的商业软件生成的理化特征集中与实际检测结果最相关的的特征。他们使用IgG分子的数据集对疏水性(HIC-RT)和多特异性(PSR)生成预测回归模型。
下图展示了大概的流程,首先使用ABodyBuilder2进行结构建模,然后通过商业化的CADD软件(MOE、Schrödinger和DS)对序列以及结构进行计算生成描述符;最后使用这些描述符,通过机器学习的工作流程比较特征集,本流程可以评估特定训练/验证/测试数据集的预测质量,先通过XGBoost回归模型对单个或多个特征集进行训练,通过XGBoost选择的考前的特征与训练集一起提交给PyCaret,在19个回归模型上进行训练,然后对前五个模型进行预测测试,并在十个随机种子的验证集上进行评分,最后通过对测试集的预测来确认验证数据上表现最佳的模型。
抗体HIC-RT
HIC-RT数据来源于770个IgG,训练、验证、测试数据集分别为555、116和99个。
首先通过使用机器学习库 XGBoost 比较不同的组合(总共 5 到 150 个特征)来探索最佳的潜在特征。
MOE的特征集,ASPmax、hyd_strength_cdr和hyd_idx是前三个average important的特征,表现最好的模型是K neignbors regressor model通过SFS识别的靠前的特征分别是pro_patch_cdr_hyd、HI和ASPmax。
Schrödinger的特征集,CDR_Hydrophobic_Patch_Energy_gt15、CDRH3 loop H3_Aggrecan_a4v_pos和H3_atomic_contact_energy是前三个average important的特征,表现最好的模型是gradient boosting regressor model,排名靠前的特征分别是CDR_Hydrophobic_Patch_Energy_gt15、CDR_Hydrophobic_Patch_Energy和Hydrophobicity_Hopp_Woods。
DS特征集,排名前三的特征分别为Aggr Score、ddGsolv和Solubility sore,单独使用DS特征集表现最好的模型是random forest regressor model,靠前的特征与XGBoost获得的保持一致另外还有偶极矩等。
通过MOE和Schrödinger特征集训练的模型彼此间相互印证,因为它们都依赖于相似的顶级特征,这些特征是 3D 疏水性表面斑块和基于序列的疏水氨基酸的组合。然而,HIC-RT 的整体最佳预测器仅使用 Schrödinger 和 MOE 特征集中的 54 个特征,并且优于使用所有三个特征集的顶级回归模型,性能最佳的模型是extra trees regressor model,当用于HIC-RT分类时,该模型可以正确识别测试集中99个分子中的87个,模型中最重要的特征是来自 MOE 特征集的 ASPmax ,其次是来自 Schrödinger 的 CDR_Hydrophobic_Patch_Energy_gt15、CDR_Hydrophobic_Patch_Energy 和 CDR_Aggrescan_a4v_pos。
本模型对先前报道的HIC数据的预测,尽管确切的 HIC 测定方案存在差异,但文献报道的值与来自表现最佳的extra trees regressor模型的预测 HICRT 之间存在良好的相关性,Pearson’s R=0.55。
抗体PSR
PSR数据来源于390个IgG,训练、验证、测试数据集分别为277、59和54个。
仅仅使用来自MOE的特征集,pro_cdr_net_charge、vsurf_ID3和vsurf_CW1是前三个重要的特征,仅使用MOE特征的性能最佳的预测PSR的模型是extreme gradient boosting regressor model,排名靠前的特征是vsa_acid、the van der Waals total acidic surface area和vsurf_ID1等。
来自Schrödinger的特征集,排名靠前的特征包括CDR_Zeta_Potential 、Max_Size_Pos_Patches和Sum_Size_Hyd_Patches,仅使用Schrödinger特征的性能最佳的模型是extra trees regressor model,排名靠前的特征是CDR_Zeta_Potential、CDR_Formal_Charge、CDR_Positive_Patch_Energy和H3_Aromatic_SASA等。
使用来自DS的特征集,pH-dependent relative folding energy、net charge、dipole moment 和 ddGsolv等等,仅使用DS特征的性能最佳的模型是idge regression model,重要的特征为SAP、net charge、dipole moment和positive QMAP score等。
使用来自MOE、Schrödinger和DS的特征集表现最优的预测PSR的模型为extra trees regressor model,该模型正确识别了测试集中 54 个分子中的 49 个。表现最佳的模型种中最重要的特征是 MOE中的pro_cdr_net_charge和Schrödinger的CDR_Zeta_Potential,这两个主要特征对回归量重要性具有巨大影响。不过与HIC-RT不同,PSR模型并不能预测来自Jain/Shehata dataset的抗体,主要的原因是他们使用的多特异性检测实验方法是不一样的,而且抗体的多特异性会随着检测试剂以及检测方法有所差异R=0.22。
如果仅仅使用来自MOE和Schrödinger的特征集训练的模型可以正确识别测试集中54个分子的46个。为了保证预测数据的精度,最后选择的是来自所有三个特征集的最优模型。
讨论
人工智能以及机器学习的发展至今已经可以生成精度较高的蛋白模型,尽管在从头蛋白质设计和结构预测领域取得了突破,但对抗体的可开发性预测目前仍处于刚起步的状态。主要的挑战是没有足够且准确的数据集,许多文献报道的关于抗体成药性的研究数据来自较小的数据集,使用的算法或者软件包也比较单一;另外一点不同来源的数据集采集方法也会有所差异比如本篇文章中检测PSR的方法与其他实验室的方法有些差异,虽然可能看出抗体的多特异性与电荷相关,但是训练出来的模型预测的数据与来自其他实验室的实验数据没有任何相关性。
参考文献
A machine learning strategy for the identification of key in silico descriptors and prediction models for IgG monoclonal antibody developability properties