编辑 |卷心菜叶。
像AlphaFold这样的蛋白质结构搜索工具会用BLAST取代蛋白质序列搜索吗?德累斯顿工业大学的一个研究小组讨论了使用结构搜索进行远程同源性检测的前景,以及为什么蛋白质原始细胞应该努力将结构信息作为领先的序列搜索工具。
BLAST在分子生物学中被广泛用于搜索核苷酸和蛋白质序列。 在BLAST推出30年后,结构**有了重大突破,出现了Rosettafold和Alphafold等工具。
因此,主序列数据库中的每个蛋白质序列现在都带有一个 3D 折叠模型。 虽然这不会影响(非编码)核苷酸序列,但它提出了一个问题,即对3D蛋白质结构的搜索是否会取代对蛋白质序列的搜索。 蛋白质爆炸已成为过去吗?
虽然 Blast Search 是一个强大的功能工具,但其功能有限。 序列可以被处理成显着降解,但仍会折叠成执行相同或类似功能的类似 3D 结构。
不同的序列,相同的结构
这种蛋白质对的例子可以在藻类和细菌的粘附分子中找到,特别是在硅藻粘附蛋白 catrailin 4 和细菌冰结合蛋白 ffipp 中。 该对没有 BLAST 可检测到的序列相似性(e 值 0.)。30,其中 e 值为 > 0001 不被视为重要)。
事实上,即使是更精细的基于序列的工具,如hhblits,也无法建立关系。 然而,catrailin 4 的 ** 结构和已知的 ffibp 结构非常相似,因为两者都采用了螺旋折叠的拓扑特征,螺旋折叠由螺旋结合蛋白持有的两个单元组成。
图 1:FFIBP (A) Catrailin 4 (B) 和 RAD52 (D) Red (E) 的 E 值较差,约为 03。(*
这种结构相似性可以通过所谓的模板建模分数(TM-score)来衡量,该分数将RMSD(均方根偏差)和对齐长度组合为可解释的分数。 大于 0TM 评分为 5 意味着这两种结构可能采用相同的折叠并在进化上相关。 Catrailin 4 和 FFIBP 的 TM 评分为 06(高于 0。5 截止)。因此,结构比较可以揭示这种惊人的相似性,这对于BLAST和其他基于序列的工具(如hhblits)来说仍然难以捉摸。
另一个例子涉及DNA重组,这是单链退火蛋白(SSAP)起核心作用的基本复制过程。 二十多年来,关于 RECT RED、ERF 和 RAD52 是否形成三个不同的超家族,或者只是一个超家族,一直存在怀疑和争议的讨论。 序列分析支持前一种观点,序列分析显示 RECT RED、ERF 和 RAD52 之间没有显著的相似性。 事实上,rad52 和 red 没有通过爆炸检测到的相似性(e 值 0.38)。
考虑结构会改变情况。 Al-Fatlawi团队将RECT RED、ERF和RAD52的代表性结构并列,结果表明,尽管缺乏序列相似性,但这些结构包含一个核心结构元件。 它是齐聚反应的核心,因为它分别产生环状和螺旋状结构。 因此,它在 RECT RED、ERF 和 RAD52 中非常保守,并且可以通过结构相似性(TM 评分为 0.)来识别。5)检测到,尽管缺乏任何序列相似性(见图1D-F)。
结构**来救援
这些例子表明,alphafold 可能能够干预 BLAST 无法找到显着相似性的领域。 因此,问题出现了:如何系统地实现这一目标?为此,出现了 Foldseek、DALI 和 3D-AF-Surfer 等工具,它们分别使用自动编码器、距离矩阵对齐和专用指纹来扫描和比较结构。
虽然这些工具已经存在,但它们仍然需要更广泛、更简单,才能与序列数据库上的BLAST搜索竞争。 需要协同作用将它们整合到经典的爆炸序列搜索中。 最近,一项研究比较了倒数第二个最佳BLAST命中与倒数第二个最佳结构命中,并通过对序列的机器-习嵌入执行最近邻搜索,朝着这个方向迈出了第一步。
为了探索这种先进工具的潜力,研究人员希望了解同一超家族中的成员标准如何与序列和结构相似性相关联。 结果,科学家们从Scope数据库中获得了11,211个具有超家族的域名。 它们形成了 62,278,380 个域对,其中 225,931 (0..)36%)属于同一超家族,因此可以被认为是同源物。
这些同源对中有多少可以分别通过序列和结构直接找到?e值临界值为0在001时,BLAST从7对中回收了225,931对(16,300对)。 将阈值扩大到 1,该数字增加到 25,634 (11%)。 但即使e值<10,也不会超过15%。 如果考虑更灵敏的基于序列的方法(例如隐马尔可夫模型),这些数字将大大改善。 事实上,HHBLITS 在最佳条件下能够检索到 175,682 对 (78%),这甚至优于结构比较(TM 评分 > 0.5) 找到的 164,468 对 (73%) 更好。
但是,不属于同一超家族的 62,052,449 对呢?在这些对中,有 0、9,053 和 72,329 对的 e 值分别小于和 10。 HHBLIT 在这 25% 中被识别出来,而结构对齐的错误检测仅限于 2% 以下。 HHBLITS 的 AUC 为 77%,结构比较为 95%,而 BLAST 为 44%。 较高的 AUC 分数表明,与其他超家族中的蛋白质相比,分类器在正确地为正确超家族中的蛋白质分配更高分数方面更有效。
尽管结构比较的 95% AUC 可能令人鼓舞,但高质量结构的可用性可能是一个限制。 据估计,30% 的真核蛋白含有 50 个或更多连续氨基酸的无序区域,预计 3D 结构的质量会很差**。 这些区域适用于使用BLAST进行序列搜索,但不适用于直接结构搜索。
为了评估如何将如此大的百分比扩展到整个 AlphaFold 数据库,研究人员计算了所有 AlphaFold 构建体的平均置信度分数。 研究人员发现,80%的α折叠结构的PLDDT置信度得分为70%或更高,这意味着它们可以很好地建模,并具有整体良好的骨架**。 这意味着有大量质量合适的结构数据。
BLAST,即将发生的事情
BLAST完美地满足了生物医学研究人员的许多需求,例如检测变异和密切相关的序列。 然而,对于纯序列搜索来说,远程同源性检测的具体问题很难。
在这里,结构可以比顺序更进一步。 研究人员通过对数百万对结构域的演示分析来评估序列和结构相似性的这种关系。 总而言之,分析表明,具有严格e值的BLAST在寻找同系物方面非常精确,但并不全面。 隐马尔可夫模型更敏感,但特异性有限。 该结构平衡了这两个极端。 如果爆炸搜索包含结构数据,则可以在不影响结果质量的情况下扩大具有相似**结构的命中数量,并且可能是候选同源物。
如何将结构数据集成到序列搜索中尚不清楚,但一种似乎可行的方法是不直接使用结构数据,而是通过所谓的嵌入间接使用,嵌入是由神经网络生成的中间序列表示,构成了神经网络结构的基础**。
然而,基于嵌入式和结构数据的同源检测只有在以易于使用的方式提供并被社区广泛采用的情况下,才能帮助改变分子生物学。 NCBI、EBI 和 RIKEN 等知名机构现在应该努力采用 Foldseek 中实现的快速结构搜索,或者使用嵌入来扩展经典的基于 BLAST 的蛋白质序列搜索,以便 Protein Blast 继续成为未来的趋势。
*链接: