今天给大家讲讲2024年12月发表在《核酸研究》上的一篇文章使用语言模型学习BCR序列的生物学意义品。 作者使用不同的嵌入方法提取BCR序列的表征,并评估了多个嵌入模型的性能,发现大多数嵌入方法都能有效地捕获BCR序列的特性和特异性。 在受体特异性在方面,immune2vec 模型提取了 BCR 特异性嵌入表征**,略优于一般蛋白质语言模型。 这可以看作是对抗体分析和发现的下游任务的洞察力。
B 细胞受体 (BCR)。它是一种位于B细胞表面的蛋白质结构,在免疫系统中起着关键作用。 免疫系统主要任务是识别和应对体内外的病原体,如细菌、病毒和其他病原微生物。 BCR在这个过程中起着重要作用。
整体BCR的功能是启动针对免疫系统中病原体的特异性防御反应。通过BCR的多样性和特异性,免疫系统能够识别和对抗各种不同类型的病原体,保护身体免受感染和疾病。 现存NLP 方法通过学习氨基酸的嵌入式表征,在下游任务中生成特定的表征。 这种类型的方法通过将每个B细胞受体(BCR)分解成更小的单元,即三个氨基酸的组合(3-MERS),然后将每个单元嵌入到固定长度的序列表示中。 然后对整个序列进行平均,为给定的 BCR 生成单个向量。
方法可以识别BCR序列中的模式,包括互补决定因素区域 (CDR) 的特定序列特征。 这是给你的**BCR与抗原的结合和其他功能特性关键。 然而,生物数据标记成本高昂,在某些情况下可能还不够。 这使得一些需要大量标记数据的深度学习方法在学习BCR序列时受到限制。
2.1 数据收集和预处理
作者来自十数据收集了 100 万个全长 BCR 序列,只有一条重链和轻链。 重链和轻链的中位长度分别为 122 个和 108 个氨基酸。 作者进一步利用immcantation对序列进行体细胞高突变频率和 CDR3 长度注释。 此外,从受体特异性**任务的数据集中获得了与 SARS-CoV-2 刺突蛋白标签相关的信息。 为平衡数据集,从以前的 COVID-19 数据集中随机选择每个供体的 1000 个序列作为特异性阴性样本**。
2.2**任务
在分类任务中,作者使用支持具有 RBF 内核函数的向量机分类器 (SVC)将数据分为:训练验证跟测试集。为了搜索模型的最优参数,它仍然在SVC中正则化参数进行网格搜索,根据验证集的加权平均F1分数选择最优参数。
在分类任务中,选择它带 LASSO 的线性模型在网格中搜索回归器的正则化参数,最后根据RMSE和验证集上的相关性评估模型的性能。
3.1 评估受体特异性**任务
作者提取了不同模型(ESM2、Prott5、Antiberty 等)的 BCR 嵌入表征分类跟回归分析了任务中的性能。 图1A说明了将BCR氨基酸序列编码到特定载体中的不同嵌入模型,通过监督式机器学习模型评估重链或轻链,或受体特异性**。 此外,嵌入表征被用作受体特异性**任务的一个例子(图1B)。交叉验证通过这种方式,选择了最佳模型参数。
图1 BCR氨基酸插层序列属性**和受体特异性**任务。
3.2 嵌入表征对 SARS-CoV-2 特异性的重要性
作者评估了不同 BCR 嵌入特征对 SARS-CoV-2 刺突蛋白受体特异性方面的影响。首先,从抗体数据库(CoV-Abdab)中检索与SARS-CoV-2野生型刺突蛋白结合信息的BCR序列,并随机选择每个供体的1000个序列作为非偶联物。 最后,基于15,538个序列评估了包埋方法**冠状病毒刺突蛋白特异性的能力。
作者的Immune2VEC 模型了解每个序列的特定嵌入表示,并将它们放置在不同的序列输入上UMAP可视化。(图 2a)。
图 2b 显示了 F1 评分的箱线图,用于评估五倍交叉验证在受体特异性任务中的作用。 先前关于 BCR 特异性**的研究通常集中在重链的 CDR3 区域。 由于单细胞技术的出现,可以在CDR3以外的区域引入更多结构,从而有助于引入更可靠的特异性**结果。 可以找到当使用全长序列时,BCR 特异性语言模型优于通用蛋白质语言模型 ESM2 和 PROTT5。为了了解immune2vec模型的潜在维度大小对受体特异性任务的影响,作者还进行了相应的实验(图2c),发现随着维度的增加,性能先增加后略有下降。 同样,对于信息较少的较短序列,性能下降在较高维度上更为明显。
图 2 使用 BCR 嵌入的受体特定任务的模型性能。
作者提出了一个Immune2VEC 模型用于:**SARS-CoV-2刺突蛋白的BCR序列特性和特异性。进一步测试了不同模型在学习BCR序列嵌入表示方面的性能。 在模型架构方面,尽管所有方法都编码了一些序列属性和特异性,但通过基于序列的上下文学习氨基酸的表示,基于蛋白质语言模型的嵌入表示会更好。 此外,在序列属性任务中,发现具有较高潜在维度的 immune2vec 模型从序列中学到更多,性能更好;然而,它不如特异性有效**。
通常语言模型优于传统的氨基酸编码在 SARS-CoV-2 刺突蛋白的特异性中,immune2vec 和 antiberty 等模型在一定程度上优于一般蛋白语言模型,并且全长和轻链序列的组合可以提高特异性**性能,这也为将 BCR 嵌入用于下游任务提供了独特的视角。
引用
ostrovsky-berman m., frankel b., polak p., yaari g. immune2vec: embedding b/t cell receptor sequences in ℝn using natural language processing. front. immunol. 2021; 12:680687.如果您发现任何侵犯版权或其他对发布内容的误解,请联系AIDD PRO(请添加***sixiali fox59)进行删除和修改。
本文为原创内容,未经授权禁止**,经授权**后,还需注明出处。 如果您有任何问题,请发送电子邮件至sixiali@stonewisecn