开源数据的未来对药物发现有何意义?

 CDD库 洞察徽标
十一月12,2018
开源数据的未来&药物发现。  埃尔恩 合作药物发现(CDD)

开源数据的未来& Drug Discovery

根据与 阿什莉·法利 , 来自 比尔和梅琳达·盖茨基金会开放获取小组, 安德鲁·里奇 来自[chEMBL]的提供商EMBL-EBI, 埃文·博尔顿 来自 美国国立卫生研究院的MCBI / NLM,PubChem的提供者,以及CDD的Frank Cole。

这是我们关于开放源数据及其对药物发现的影响的2部分系列的第2部分。阅读第1部分, 为什么公开数据很重要,以及如何使用? to learn more.

开源数据的广泛性是药物发现中的一个相对较新的发展。

近几十年来,数据量不断增加,并改变了研究人员寻找信息的方式。但是,这也为协作方法的开发提出了新的挑战。

研究发表于 计算机辅助分子设计杂志 讨论了未来的主要挑战将是数据库和软件方法如何处理从高吞吐量筛选中累积的大量数据,并使用户能够得出见解,进行预测并推动项目前进。

当有大量可用数据时,如何访问该数据并将其提供给可以从中受益的研究人员就成为一个大问题。

如果您在PubChem成立之前回想一下,只有几个不同的资源可以公开使用。

美国国家癌症研究所分布式治疗方案,其化学结构约为百万分之一。

在2004年之前,此NCI数据库是您真正拥有的全部数据库。

也有 Maybridge系列,其中约有80,000种化学品要出售。

否则,您只需订阅 可用化学目录或其他某种类型的收费服务,以了解附近有哪些化学品可供您购买。

现在,快进。

我们到了。

大约有1亿个独特的小分子可用。

您有非常大的项目-大数据类型的项目-您可以在其中购买几乎任何可能可合成的分子。

有大型的虚拟化学药品库,您只需要在其中索取化学药品,就会有人帮您制作。它与过去截然不同,因此带来了独特的挑战和潜在的利益。

根据发表在 化学信息学杂志,开放数据最重要和最直接的受益者之一将是化学算法,该算法能够吸收大量数据,并使用它向工作的化学家提供简明的见解,其规模是传统出版方法无法实现的。 。

但是,要使该目标切实可行,就需要改变科学家将其数据转换为数字形式的方式,因为大多数现代数据输入方法都是为呈现给人类而设计的,而不是由机器学习算法消耗的。

科学家有更多的可用空间,研究可以更快地进行。

但是,这种开源数据的未来是什么样的?

这些公共数据存储库对社会的长期价值是什么?

我们如何才能使开放源数据的未来比现在更好?

在这里,我们探索了3个与开源数据的未来有关的有趣领域以及我们今天为确保开源数据的未来需要做的事情...

  • "1"CDD Vault  埃尔恩 博客文章的列表图标

    需要什么来确保开源数据的长期价值?

    目前尚不清楚将来如何获取或使用信息。

    那么,我们如何准备确保长期 开源数据的价值?或者,我们如何从当今可用的开源数据中获得最大价值?

    好吧,首先是数据科学。

    数据科学需要大量的信息才能运行,因此存储库需要越来越多的信息来收集和分发此信息内容。

    还需要高质量的信息,这突出了策展的必要性。

    内容可以根据科学进行策划,也可以根据时间进行策划。例如,如果您想到的是1980年代的一项实验,您是否会信任该实验,还是今天重做一次?

    科学在不断发展,因此提供高质量的信息将有助于确保开源数据在未来的价值。

    仍然需要完全实现的开源数据的主要价值是可以将所发生的一切都提供给您,从而可以以比以往更快的速度推动发现。

    这将非常非常有帮助-但是,我们需要适当的元数据。

    我们需要该过程的高质量信息。

    我们需要生物固化来实现这一目标,并且我们需要将其整合在一起。

  • "2"CDD Vault  埃尔恩 博客文章的列表图标

    即将进行哪些更改以改善数据使用率?

    chEMBL的 现在几个月的关键项目是一个完全 新设计的Web界面更适合用户.

    除了重新设计界面之外,还存在许多与数据设置方式有关的后台更改。

    然后,从更广泛的角度看,对于可以合并到chEMBL中的不同类型的数据存在疑问。

    例如,最近的探索正在研究如何从专利中提取生物活性数据并将其添加到chEMBL数据库中。

    此外,随着实验平台改变数据类型和生成数据的规模,存储和发现数据的方式也将发生变化。

    所有这些都可能导致将这些数据馈入数据库的新方式,包括AI和机器学习的应用。

    如果您考虑一下围绕Web技术及其他方面的数据科学正在发生的动态变化,那么这确实是一个非常非常有趣的时期,而未来3-5年将变得更加有趣。

    在PubChem中,经常有成千上万或成千上万的文献链接到一种化学品。找出如何最好地汇总这些大量信息是PubChem未来变化的重点之一。

    为了解决这一问题,PubChem正在实施一项近期变更,目的是引入一项 视图称为 同现,在这里您可以找到其他化学品 相对于另一种化学品经常被提及。

    还可以查看与某种化学物质有关的疾病(治疗或病因),从而使您对与某种化学物质通常相关的疾病类型有所了解。并且,类似的共现视图也可用于基因和蛋白质。

    这里的想法是,研究人员可以提出与特定疾病相关的问题,并找出我们相对于PubChem有关该疾病的信息类型。

    然后,该人将能够调查与该疾病相关的生物活性,与该疾病相关的其他基因和靶标,可能治疗该疾病或可能导致该疾病的化学物质以及所有支持此信息的文章。

    想法是将所有可用数据及其来源的结构和生态系统缝合在一起。

    当您开始考虑化学家,生物学家,药物发现科学家,药理学家,毒理学家和环境科学家都关心的生态系统时,下一步就是将它们打包在一起,然后可以访问和下载。

    将来,将有更多的人从分析型工具转移到数据视图和预先计算的信息,这些信息与用户希望或试图找出的内容相符,因为它们内容太多了以便人类再解决这个问题。而且,使用数据科学类型的方法可以使交互用户更清楚一些。

    未来看起来乐观。随着越来越多的信息可用和更多的元数据变得可用,每个人都会取胜。这些和其他更改将使研究人员可以访问该内容并对其进行更多处理。

    只要研究人员能够找到他们需要的东西,我们都会取胜,因为我们更快,更好,越来越快地发现更多的发现。

  • "3"CDD Vault  埃尔恩 博客文章的列表图标

    开源数据将如何使药物发现的未来比现在更好?

    真正发挥关键作用的一项发展是,可以采用一种更加无缝的方式来使数据可以通过开放资源可见和访问。

    创建这些资源是一个非常耗时的过程,需要从多个方面进行努力,但这并不是一个无法解决的问题。

    这既是技术上的文化问题,又是技术上的问题,因此可以预见这是可以实现的。

    另一个出色的开发将是一个程序,该程序可以针对出现的每篇新文章告诉您, 什么信息是新的,什么信息是旧的.

    这将使您能够确定您是否在支持较早的信息,或者是否与旧的信息发生冲突。

    这将使研究人员可以更好地了解科学状况,并了解科学家同意和反对的地方。

    下一步可以是一台计算机,它将开始告诉您解决可用数据中某些类型的冲突所需的实验类型。

    想象一下,如果一个AI程序可以说:“嘿,由于数据中的空白,有人需要运行此实验。”

    填补这些知识空白将使您有能力提前计划并开始进行更明智的实验,从而以更快的速度取得进展。

  • 概要

    随着技术的进步和科学家能够以越来越快的速度生成越来越多的数据,这些数据的可访问性变得至关重要。关键问题是关于维持开源数据的未来需要什么以及如何改善数据的可用性。

该博客由CDD Vault社区的成员创作。 CDD库 是托管的 药物发现信息学 安全管理私人和外部生化数据的平台。它提供了核心功能,包括 化学注册结构活动关系化学品库存 和  电子实验室笔记本 capabilities.

协作药物发现(CDD)保险柜徽标