加快打造原始创新策源地,加快突破关键核心技术,努力抢占科技制高点,为把我国建设成为世界科技强国作出新的更大的贡献。

——习近平总书记在致中国科学院建院70周年贺信中作出的“两加快一努力”重要指示要求

面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,率先实现科学技术跨越发展,率先建成国家创新人才高地,率先建成国家高水平科技智库,率先建设国际一流科研机构。

——中国科学院办院方针

首页 > 每日科学

DNA搜索引擎MetaGraph研发成功

2025-10-11 科技日报 刘霞
【字体:

语音播报

瑞士苏黎世联邦理工学院科学家在最新一期《自然》杂志上发表论文称,他们开发出一款名为MetaGraph的DNA搜索引擎,能快速、高效地检索公共生物学数据库中的海量信息,为研究生命科学提供了强大的专业工具。

MetaGraph的研发,源于科学界对日益庞大的基因测序数据“用不好、找不着”的现实困境。过去几十年来,各类生物学数据库规模呈爆炸式增长,然而原始测序数据往往碎片化、噪声多、体量庞大,科学家难以直接从中高效提取有用信息。

MetaGraph的核心突破在于采用数学中的“图结构”,将相互重叠的DNA片段智能联结。其原理类似于图书索引中将含有相同关键词的句子关联起来,形成知识网络。研究团队整合了7个公共资助数据库,构建出一个跨越病毒、细菌、真菌、植物、动物乃至人类的生命全谱系索引。该索引共涵盖1880万个独特的DNA与RNA序列集,以及2100亿个氨基酸序列集。

基于这一庞大索引,团队开发出了可直接通过文本提示检索原始数据档案的搜索引擎。团队表示,这是一种与生物学数据交互的全新方式——数据被高度压缩,却可随时调取。MetaGraph使研究人员能直接对“序列读取档案”(SRA)等存储库提出生物学问题,该数据库本身包含超过1亿个DNA字母。

为验证其实用性,团队利用MetaGraph扫描了24万多个人类肠道微生物组样本,搜寻抗生素耐药性的遗传标记。仅用一台高性能计算机,约一小时便得出结果,展现出强大的分析效率。

法国巴斯德研究所生物计算专家拉扬·希基评价称,这是一项“重大突破”,为分析DNA、RNA及蛋白质序列等原始生物学数据设立了新标准。

打印 责任编辑:曹旸

扫一扫在手机打开当前页

© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

  • © 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864

    电话: 86 10 68597114(总机) 86 10 68597289(总值班室)

  • © 1996 - 中国科学院 版权所有
    京ICP备05002857号-1
    京公网安备110402500047号
    网站标识码bm48000002

    地址:北京市西城区三里河路52号 邮编:100864
    电话:86 10 68597114(总机)
       86 10 68597289(总值班室)