当心研究人员!导航商业和公共数据库的挑战

2014年12月16日

在CDD的服务台上,SSO Sean Ekins,M.Sc.,Ph.D.,D.Sc.

药物开发项目的每个阶段都直接受到相关数据的质量和可用性的影响。毫无疑问,精心设计的化学结构和相关的生物活性数据使药物开发项目成为可能。无论是管理单个组织,在组之间共享还是浏览所有可公开访问的数据,都是如此。这是我们所做的一切的核心 CDD.

在过去的十年中,尤其是在最近的几年中,商业和公共数据库(包括PubChem和ChEMBL)中可用的化学信息激增。曾经依赖于商业数据库CAS SciFinder的情况已不再如此。在搜索必要的信息并进行药物化学尽职调查时,这带来了许多挑战。提出相对简单的问题并非易事,例如:

    • “已经有与此分子有关的生物学数据了吗?”
  • “这种含铅化合物理想吗?”
  • “这是复合小说吗?”

信息超载

例如,一个数据库不会给您答案。您必须搜索很多才能找到分辨率。

从我们最近的努力到 收藏评估 与克里斯托弗·利平斯基(Christopher Lipinski)博士进行的NIH探针以及与克里斯·索南(Chris Southan)博士,安东尼·威廉姆斯(Antony Williams)博士和亚历克斯·克拉克(Alex Clark)博士的合作,我们已经能够描述一些明显的极端困难, 浏览公共和商业数据库。当扩展专利的文本抽象并遇到没有实验数据的预言化合物时,就会出现问题。从未完成的按需制造虚拟化合物的供应商处分,以及不同数据库之间缺乏交集,增加了进行尽职调查时遇到的一些困难。最后要注意的问题是,生物测定数据的描述缺乏标准化,使得直接比较具有挑战性,这是我们以前遇到的一个问题 讨论过的。总体而言,整体大于各部分的总和。我们可能会处理一个问题的地方,相反,我们不知所措。因此,如果确实可以识别出适当的数据,那么从法律和科学的角度来看,很难理解从这些大型数据库中检索到的数据。我们最近的出版物刊登在Derek Lowe的“在管道中”博客中:我们杂乱无章的化学信息堆。 (链接不可用,已删除4/2018,DGR)

解决这些重大问题将采取社区的行动,加强协作和沟通。我们很可能只发现了冰山一角。我们很想知道您在浏览商业和公共数据库时还面临哪些其他挑战,我们可能会提供解决方案。我们对此的兴趣来自一次偶然的讨论,并且已经扩展到最终的论文中。我们很高兴成为对话的一部分,有助于引起人们对这些重要问题的关注,并提供一些潜在的解决方案。让我们知道您是否希望在安全范围内与您的私人数据一起挖掘高质量的公共数据集 CDD库。我们渴望听到您的想法。请 联系我们。

如果您还不熟悉, CDD库 是用于安全管理和共享化学和生物数据的托管数据库。它使您可以通过易于使用的Web界面与内部或外部合作伙伴进行协作。 CDD也有大量的 上市 您可以与自己的私有数据并排挖掘的数据。


该博客由CDD Vault社区的成员创作。 CDD库是托管的 药物发现信息学 安全管理私人和外部生化数据的平台。它提供了核心功能,包括 化学注册, 结构活动关系, 化学品库存电子实验室笔记本 能力!

CDD库:您的整个项目团队都会使用的药物发现信息学!