语言模型在B细胞受体特异性识别中的优异表现

小夏 健康 更新 2024-02-01

今天给大家讲讲2024年12月发表在《核酸研究》上的一篇文章使用语言模型学习BCR序列的生物学意义品。 作者使用不同的嵌入方法提取BCR序列的表征,并评估了多个嵌入模型的性能,发现大多数嵌入方法都能有效地捕获BCR序列的特性和特异性。 在受体特异性在方面,immune2vec 模型提取了 BCR 特异性嵌入表征**,略优于一般蛋白质语言模型。 这可以看作是对抗体分析和发现的下游任务的洞察力。

B 细胞受体 (BCR)。它是一种位于B细胞表面的蛋白质结构,在免疫系统中起着关键作用。 免疫系统主要任务是识别和应对体内外的病原体,如细菌、病毒和其他病原微生物。 BCR在这个过程中起着重要作用。

整体BCR的功能是启动针对免疫系统中病原体的特异性防御反应。通过BCR的多样性和特异性,免疫系统能够识别和对抗各种不同类型的病原体,保护身体免受感染和疾病。 现存NLP 方法通过学习氨基酸的嵌入式表征,在下游任务中生成特定的表征。 这种类型的方法通过将每个B细胞受体(BCR)分解成更小的单元,即三个氨基酸的组合(3-MERS),然后将每个单元嵌入到固定长度的序列表示中。 然后对整个序列进行平均,为给定的 BCR 生成单个向量。

方法可以识别BCR序列中的模式,包括互补决定因素区域 (CDR) 的特定序列特征。 这是给你的**BCR与抗原的结合和其他功能特性关键。 然而,生物数据标记成本高昂,在某些情况下可能还不够。 这使得一些需要大量标记数据的深度学习方法在学习BCR序列时受到限制。

2.1 数据收集和预处理

作者来自十数据收集了 100 万个全长 BCR 序列,只有一条重链和轻链。 重链和轻链的中位长度分别为 122 个和 108 个氨基酸。 作者进一步利用immcantation对序列进行体细胞高突变频率和 CDR3 长度注释。 此外,从受体特异性**任务的数据集中获得了与 SARS-CoV-2 刺突蛋白标签相关的信息。 为平衡数据集,从以前的 COVID-19 数据集中随机选择每个供体的 1000 个序列作为特异性阴性样本**。

2.2**任务

在分类任务中,作者使用支持具有 RBF 内核函数的向量机分类器 (SVC)将数据分为:训练验证测试集。为了搜索模型的最优参数,它仍然在SVC中正则化参数进行网格搜索,根据验证集的加权平均F1分数选择最优参数。

在分类任务中,选择它带 LASSO 的线性模型在网格中搜索回归器的正则化参数,最后根据RMSE和验证集上的相关性评估模型的性能。

3.1 评估受体特异性**任务

作者提取了不同模型(ESM2、Prott5、Antiberty 等)的 BCR 嵌入表征分类回归分析了任务中的性能。 图1A说明了将BCR氨基酸序列编码到特定载体中的不同嵌入模型,通过监督式机器学习模型评估重链或轻链,或受体特异性**。 此外,嵌入表征被用作受体特异性**任务的一个例子(图1B)。交叉验证通过这种方式,选择了最佳模型参数。

图1 BCR氨基酸插层序列属性**和受体特异性**任务。

3.2 嵌入表征对 SARS-CoV-2 特异性的重要性

作者评估了不同 BCR 嵌入特征对 SARS-CoV-2 刺突蛋白受体特异性方面的影响。首先,从抗体数据库(CoV-Abdab)中检索与SARS-CoV-2野生型刺突蛋白结合信息的BCR序列,并随机选择每个供体的1000个序列作为非偶联物。 最后,基于15,538个序列评估了包埋方法**冠状病毒刺突蛋白特异性的能力。

作者的Immune2VEC 模型了解每个序列的特定嵌入表示,并将它们放置在不同的序列输入上UMAP可视化。(图 2a)。

图 2b 显示了 F1 评分的箱线图,用于评估五倍交叉验证在受体特异性任务中的作用。 先前关于 BCR 特异性**的研究通常集中在重链的 CDR3 区域。 由于单细胞技术的出现,可以在CDR3以外的区域引入更多结构,从而有助于引入更可靠的特异性**结果。 可以找到当使用全长序列时,BCR 特异性语言模型优于通用蛋白质语言模型 ESM2 和 PROTT5。为了了解immune2vec模型的潜在维度大小对受体特异性任务的影响,作者还进行了相应的实验(图2c),发现随着维度的增加,性能先增加后略有下降。 同样,对于信息较少的较短序列,性能下降在较高维度上更为明显。

图 2 使用 BCR 嵌入的受体特定任务的模型性能。

作者提出了一个Immune2VEC 模型用于:**SARS-CoV-2刺突蛋白的BCR序列特性和特异性。进一步测试了不同模型在学习BCR序列嵌入表示方面的性能。 在模型架构方面,尽管所有方法都编码了一些序列属性和特异性,但通过基于序列的上下文学习氨基酸的表示,基于蛋白质语言模型的嵌入表示会更好。 此外,在序列属性任务中,发现具有较高潜在维度的 immune2vec 模型从序列中学到更多,性能更好;然而,它不如特异性有效**。

通常语言模型优于传统的氨基酸编码在 SARS-CoV-2 刺突蛋白的特异性中,immune2vec 和 antiberty 等模型在一定程度上优于一般蛋白语言模型,并且全长和轻链序列的组合可以提高特异性**性能,这也为将 BCR 嵌入用于下游任务提供了独特的视角。

引用

ostrovsky-berman m., frankel b., polak p., yaari g. immune2vec: embedding b/t cell receptor sequences in ℝn using natural language processing. front. immunol. 2021; 12:680687.如果您发现任何侵犯版权或其他对发布内容的误解,请联系AIDD PRO(请添加***sixiali fox59)进行删除和修改。

本文为原创内容,未经授权禁止**,经授权**后,还需注明出处。 如果您有任何问题,请发送电子邮件至sixiali@stonewisecn

相似文章

    Microsoft Small Language Model 2 7B 可以击败 Llama 2 70B!96 架 A100 在 14 天内训练了 Phi 2

    编辑 运行艾伦大模型现在真的越来越多了! 月,OpenAI 首先用 GPTS 改变了 GPT shell 的寿命,然后不惜牺牲董事会来对抗一波流量。谷歌被迫在年底前匆匆发布超大模型双子座,卷起多模态,甚至不惜伪造。就在今天,Microsoft正式宣布了 phi !它在 月的 Ignite 大会上进行...

    中文模型 AskBot 大模型助力企业提供智能服务

    随着人工智能技术的不断发展,越来越多的企业正在利用智能服务来提升工作效率和员工体验。其中,AskBot大模型作为集成了多个大语言模型的人工智能解决方案,已成为企业实现智能服务的重要工具。下面将从中文语言模型的角度出发,深化askbot大模型在企业智能服务中的应用和优势。.AskBot大模型介绍。As...

    在大型语言模型的浪潮下,我们离AI原生应用还有多远?

    随着人工智能大型语言模型如雨后春笋般涌现,人工智能时代已经悄然到来。就像蒸汽 电力 信息的时代一样,它以独特的方式席卷世界,正在一步步改变着人们的生活。但你可能会有这样一个疑问,如此先进的AI大语言模型到底给我们带来了什么?事实上,人工智能的发展可以追溯到多年前,在这个过程中,人工智能经历了许多起起...

    大型语言模型简介:基于 Amazon Bedrock 的概述

    本文介绍了基于 Bedrock 的大型语言模型,Bedrock 是亚马逊云科技推出的大型语言模型和生成式 AI 系列。大型语言模型是具有数十亿个参数 B 的预训练语言模型 例如 GPT Bloom Llama 该模型可用于各种自然语言处理任务,例如文本生成 机器翻译和自然语言理解。大型语言模型的这些...

    LLM大语言模型 AskBot大模型的深度分析与应用

    在当今的人工智能领域,大型语言模型 LLMs 已成为一个热门话题。通过深度学习和自然语言处理技术,LLM能够理解和生成更自然 更准确的文本内容。作为最好的模型之一,AskBot 模型将 LLM 的应用推向了一个新的高度。.LLM大型语言模型概述。LLM是一种基于深度学习的自然语言处理模型,其核心是在...