用于预测基因调控未来演变的DNA预言机

研究人员设计了一种神经网络模型,能够预测酵母中非编码 DNA 序列的变化如何影响基因表达和生殖适应性。该模型创建了称为健身景观的地图,此处显示并以化石鸟类和鱼类的形状呈现。这些高阶生物是由于非编码 DNA 序列的进化变化而进化的,就像健康景观中描绘的那样。

DNA 遗传健身景观

研究人员设计了一种神经网络模型,能够预测酵母中非编码 DNA 序列的变化如何影响基因表达和生殖适应性。该模型创建了称为健身景观的地图,此处显示并以化石鸟类和鱼类的形状呈现。这些高阶生物是由于非编码 DNA 序列的进化变化而进化的,就像健康景观中描绘的那样。来源:马丁·克日温斯基

研究人员创建了一个数学框架来检查基因组并检测自然选择的特征,破译非编码DNA的进化过去和未来。

尽管每个人类细胞都包含大量基因,但这些所谓的“编码”DNA序列仅占我们整个基因组的 1%。剩下的 99% 由“非编码”DNA 组成——与编码 DNA 不同,它不携带构建蛋白质的指令。

这种非编码 DNA(也称为“调节性”DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的制造量(如果有的话)。随着时间的推移,随着细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。许多这些突变是微不足道的,有些甚至是有益的。但有时,它们可能与常见疾病(如 2 型糖尿病)或更危及生命的疾病(包括癌症)的风险增加有关。

为了更好地了解这些突变的影响,研究人员一直在努力研究数学图谱,使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。这些被称为适应度景观的地图大约在一个世纪前被概念化,以了解基因构成如何影响一种常见的有机体适应度,特别是:繁殖成功率。早期的适应环境非常简单,通常只关注有限数量的突变。现在可以获得更丰富的数据集,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地理解个体基因如何随着时间的推移而进化,

在 2022 年 3 月 9 日发表在《自然》杂志上的一项新研究中,一组科学家开发了一个框架,用于研究调控 DNA 的适应性景观。他们创建了一个神经网络模型,当对数亿次实验测量进行训练时,该模型能够预测酵母中这些非编码序列的变化如何影响基因表达。他们还设计了一种以二维方式表示景观的独特方式,使其易于理解过去并预测酵母以外的生物中非编码序列的未来演变——甚至为基因治疗和工业应用设计定制的基因表达模式。

KD-3368AM
KD-3368AM 全自动电脑智能组织切片机

“我们现在有一个‘神谕’,可以询问:如果我们尝试了这个序列的所有可能突变怎么办?或者,我们应该设计什么样的新序列来给我们想要的表达?” 麻省理工学院生物学教授(休假)、哈佛大学布罗德研究所和麻省理工学院的核心成员(休假)、基因泰克研究和早期开发负责人、该研究的资深作者 Aviv Regev 说。“科学家们现在可以使用该模型解决他们自己的进化问题或场景,以及其他问题,例如制作以所需方式控制基因表达的序列。我也对对可解释性感兴趣的机器学习研究人员的可能性感到兴奋。他们可以反过来问他们的问题,以更好地了解潜在的生物学。”

在这项研究之前,许多研究人员只是简单地针对自然界中存在的已知突变(或其轻微变化)训练他们的模型。然而,Regev 的团队希望更进一步,创建他们自己的无偏模型,该模型能够基于任何可能的 DNA 序列——甚至是他们以前从未见过的序列,预测生物体的适应性和基因表达。这也将使研究人员能够使用这些模型来设计用于制药目的的细胞,包括癌症和自身免疫性疾病的新疗法。

为了实现这一目标,麻省理工学院的研究生、共同第一作者、现任不列颠哥伦比亚大学助理教授卡尔·德布尔 (Carl de Boer) 和他们的同事创建了一个神经网络模型来预测基因表达。他们在通过将数百万个完全随机的非编码 DNA 序列插入酵母中生成的数据集上对其进行训练,并观察每个随机序列如何影响基因表达。他们专注于一个特定的非编码 DNA 序列子集,称为启动子,它作为蛋白质的结合位点,可以打开或关闭附近的基因。

“这项工作强调了当我们设计新的实验来生成正确的数据来训练模型时会带来哪些可能性,”Regev 说。“从更广泛的意义上说,我相信这些方法对于许多问题都很重要——比如了解调节区域中赋予人类基因组疾病风险的遗传变异,以及预测突变组合的影响,或设计新分子。”

研究 光学显微镜200倍/400倍下可以看到直径多大的颗粒物?

Regev、Vaishnav、de Boer 和他们的合著者继续以各种方式测试他们模型的预测能力,以展示它如何帮助揭开某些推动者的进化过去和可能的未来的神秘面纱。“创建一个准确的模型当然是一项成就,但对我来说,这实际上只是一个起点,”Vaishnav 解释说。

首先,为了确定他们的模型是否有助于合成生物学应用,例如生产抗生素、酶和食品,研究人员练习使用它来设计可以为任何感兴趣的基因产生所需表达水平的启动子。然后,他们搜索了其他科学论文,以确定基本的进化问题,以查看他们的模型是否可以帮助回答这些问题。该团队甚至为他们的模型提供了来自一项现有研究的真实世界人口数据集,其中包含来自世界各地酵母菌株的遗传信息。通过这样做,他们能够描绘出数千年来塑造当今酵母基因组的过去选择压力。

但是,为了创建一个可以探测任何基因组的强大工具,研究人员知道他们需要找到一种方法来预测非编码序列的进化,即使没有如此全面的人口数据集。为了实现这一目标,Vaishnav 和他的同事设计了一种计算技术,使他们能够将框架中的预测绘制到二维图上。这帮助他们以非常简单的方式展示了任何非编码 DNA 序列将如何影响基因表达和适应性,而无需在实验室工作台上进行任何耗时的实验。

“健身景观中一个未解决的问题是,我们没有一种方法可以将它们可视化,从而有意义地捕捉序列的进化特性,”Vaishnav 解释说。“我真的很想找到一种方法来填补这一空白,并为创建完整健身景观的长期愿景做出贡献。”

未参与这项研究的爱丁堡大学医学研究委员会人类遗传学部门遗传学教授马丁泰勒表示,这项研究表明,人工智能不仅可以预测调控 DNA 变化的影响,还可以揭示潜在的原理。支配着数百万年的进化。

尽管该模型仅在少数生长条件下对一小部分酵母调节 DNA 进行了训练,但他印象深刻的是,它能够对哺乳动物基因调控的进化做出如此有用的预测。

“有明显的近期应用,例如在酿造、烘焙和生物技术中为酵母定制调控 DNA,”他解释道。“但这项工作的扩展还可以帮助识别人类调节 DNA 中的疾病突变,这些突变目前在临床上很难找到并且在很大程度上被忽视了。这项工作表明,在更丰富、更复杂、更多样化的数据集上训练的基因调控人工智能模型有着光明的未来。”

甚至在该研究正式发表之前,Vaishnav 就开始收到其他研究人员的询问,希望使用该模型设计用于基因治疗的非编码 DNA 序列。

“几十年来,人们一直在研究监管演变和健康状况,”Vaishnav 说。“我认为我们的框架将在回答有关基因调控 DNA 的进化和可进化性的基本、开放性问题方面大有帮助——甚至可以帮助我们设计用于令人兴奋的新应用的生物序列。”

参考:

Eeshit Dhaval Vaishnav、Carl G. de Boer、Jennifer Molinet、Moran Yassour、Lin Fan、Xian Adiconis、Dawn A. Thompson、Joshua Z. Levin、Francisco A. Cubillos 和 Aviv Regev,2022 年 3 月 9 日,《自然》
DOI: 10.1038/s41586-022-04506-6


类似内容推荐

版权属于:景通仪器 - 国内领先的显微镜显微数字成像解决方案供应商
转载时必须以链接形式注明作者和原始出处及本声明。
本文地址:http://www.sipmv.com/blog/3289/