合成生物学和生物工程依靠“设计-构建-验证-学习(Design-Build-Test-Learn,DBTL)”循环,旨在解决医学、制造业和农业问题。然而,DBTL 流程中存在诸多挑战。
【资料图】
其中,最大的挑战在于“学习”步骤缺乏对生物系统行为的预测能力,且步骤速度慢,先进的机器学习,特别是基于 AI 的一些方法无法在该步骤使用。而造成这种现状的核心原因,是传统的方法不能为 DBTL 循环提供足够大的数据,以用于机器学习的算法。
即便现有手段中有很多高通量的方法,也不能满足机器学习算法动辄以万计的数据需求,而传统方法不能解决数据问题的原因在于两个方面。
一方面,传统方法中每个基因型都需要单独地构建,构建能力以及过高的构建成本造成没有足够的样本用于测试产生数据;另一方面,传统的测试方法的速度低、成本高,想要获得足够大的数据,时间成本和价格成本都无法接受。
图丨上海交通大学生命科学技术学院研究员陶飞研究团队,后排左一为陶飞;后排左二为孟宣霖(来源:陶飞)
近期,上海交通大学团队开发了一种适合于微生物的单细胞代谢组数据采集的新方法,名为“RespectM”。该方法在不依赖基因型构建的前提下,就可以获取单细胞水平的大数据。
并且,通过该方法可低成本进行数据采集,解决了学习步骤的数据输入问题,为学习步骤引入机器学习的算法,特别是为深度神经网络的使用提供了前提。
此外,研究人员还基于这个新方法, 建立了首个基于单细胞大数据和深度学习的细胞代谢模型,用于预测和优化微生物的代谢网络。 该方法有效地解决了 DBTL 流程中“学习”环节的挑战,重塑了传统 DBTL 循环。
最重要的是,研究团队首次把细胞异质性、单细胞代谢组和深度神经网络结合在一起,验证了基于异质性的代谢模型用于计算和预测代谢网络的可行性。
另外,单细胞的多组学技术正蓬勃发展。例如,新一代免标记质谱流式细胞仪技术(label-free mass cytometry,CyESI-MS)、高分辨基质辅助激光解吸离子化质谱成像技术(Matrix Associated Laser Desorption ionization mass spectrometry imaging,MALDI-MSI)和单细胞拉曼技术等都在快速地发展,并在性能上各有千秋。
该论文通讯作者、上海交通大学陶飞研究员表示:“这是一项具有前瞻性、充满挑战但也充满希望的工作,基于该研究思路,有望整合多维度的单细胞代谢大数据,从而构建一个多模态模型,对于合成生物学的高效理性设计将具有重要意义。”
审稿人对该研究评价称,“该技术将在未来工业、医疗等需要快速鉴别的领域发挥极其重要的作用。有趣的是,异型性驱动的学习模型(Heterogeneity-powered learning,HPL)证明了深度学习在大规模代谢组学中的高度适用性,HPL 策略应将会革新理性设计并重塑 DBTL 循环。”
值得关注的是,代谢异质性是天然代谢波动造成的,它普遍存在,不仅存在于小分子代谢物层面,在转录层面、蛋白层面也同样存在。这其中蕴藏着一个包罗万象的代谢知识宝库。“只要我们对它充分地发掘,再结合强大的 AI 技术,我们离代谢网络的理性设计和控制就不远了。”陶飞说道。
图丨相关论文(来源:iScience)
近日,相关论文以《RespectM 揭示了代谢异质性能力驱动的深度学习重塑 DBTL 循环》(RespectM revealed metabolic heterogeneity powers deep learning for reshaping the DBTL cycle)为题发表在 Cell 旗下刊物 iScience 上[1]。上海交通大学博士研究生孟宣霖为该论文第一作者,陶飞研究员为论文的通讯作者。
首次建立基于代谢异质性的细胞代谢模型
德国哲学家、数学家戈特弗里德·威廉·莱布尼茨(Gottfried Wilhelm Leibniz)曾说过,世界上没有两片完全相同的叶子。与此类似,在微生物工程中,也没有两个完全相同的细胞。
即便是同一种细菌分裂之后形成的细胞群,其中的每一个细胞都有其独特的代谢状态,这就是微生物细胞的异质性。它是因细胞代谢的自然波动造成的,在一个小小的培养瓶中含有数以百亿计的细胞,每个细胞都有自己的代谢状态。
图丨RespectM 方法的工作流程和验证(来源:iScience)
基于对微生物细胞的异质性的理解。陶飞与团队联想到,如果能够对这些细胞进行单个检测,对其代谢的波动进行高效测量和捕捉,就可以高效地获得细胞代谢的大数据,而且基本不需要依靠复杂的细胞构建工作。
陶飞团队长期致力于解决生物工程中 DBTL 流程中的关键挑战,该研究基于数据驱动的理性设计方案,是研究团队开发的智能代谢重编程平台的一部分。智能代谢重编程平台的相关研究从 2014 年便已开始,而数据驱动是该平台最难的部分。
该研究中的核心挑战,是如何有效地采集、处理和学习大量的单细胞数据。“在单细胞水平代谢数据采集方面,我们一开始受限于传统仪器,无法获得足够多的质荷比以供注释。最终,通过使用傅里叶变换离子回旋共振质谱仪(SolariX 7.0T)解决了这个问题。”陶飞表示。
在大量单细胞数据分析方面,他们发现深度学习技术在处理大数据和学习复杂模式方面有显著的优势,通过这种方式,研究人员更好地捕捉和学习了单细胞的代谢异质性,并获取了可用于预测和计算的代谢模型。
谈及在研究过程中印象深刻的时刻,陶飞坦言,孟宣霖博士在解决信号响应问题时,尝试了很多种仪器设备,在解决细胞的定位问题尝试了各种各样的方法等,正是这些扎实和细致的工作,使研究难题逐渐被顺利地解决。
有望提供高效理性的设计方案
该方法将对领域内产生怎样的影响呢?短期来看,该方法产生最大的影响是在使能技术开发领域。该研究首次证明使用单细胞技术进行代谢异质性的测量可以产出代谢大数据,并用于代谢模型的建立。
基于此,研究人员可以使用其他的各种单细胞技术对异质性进行结合并建立代谢模型,也可以对使用不同的算法进行代谢模型建立,提高代谢模型的精度。
长期来看,该方法最终是为了服务于代谢设计。陶飞指出,“随着单细胞方法的进步和模型算法的不断改进,这种代谢模型的预测能力会越来越强,最终会在细胞工厂的设计方面广泛应用,提供高效理性的设计方案。”
图丨微生物单细胞代谢组学数据的拟时序分析(来源:iScience)
据悉,下一步该团队计划与业内同行共同对该方法进一步开发,主要围绕三个方面:第一,利用已经建立的方法进行细胞工厂的设计;第二,进一步提高方法的性能,主要是代谢物多样性、定量精度、采集速度、数据规模和数据成本;第三,把方法扩展到多组学层次,类似于现在 AI 领域的多模态。据悉,该研究得到国家重点研发计划和上海交通大学 2030 计划的支持。
陶飞表示:“我们期待该方法最终能够帮助研究人员建立一个多模态的、准确预测细胞代谢行为的细胞数字模型,从而为合成生物学理性设计和微生物工程的发展提供新思路和有力的技术支持。我们将继续努力,以期在这个领域取得更多的进展。”
参考资料:
1. Meng et al., RespectM revealed metabolic heterogeneity powers deep learning for reshaping the DBTL cycle, iScience (2023). https://doi.org/10.1016/j.isci.2023.107069
关键词: