生物测定快递:查找化验(并对其进行处理)

2016年10月4日

CDD’■BioAssay Express软件可让您将人类可读的生物测定法转换成机器可读的标记文本。该技术已经在3500多个标准上进行了测试“best of Pubchem”MLPCN分析。在广泛共享的内容中可以看到新的见解和模式“probe”化合物以进一步验证该方法的实用性。有了通用检测模板,我们’我们试图就影响生物测定的最重要参数发出良好的主观评价,同时保持最少的类别数量。但是,值得强调的是,基础技术可以与任何模板,术语和本体(即您的本体)一起使用。我们’ve决定将这项新技术重点放在生物测定上。与我们完善的专业CDD Vault平台相比,Bioassay Express仍然是一项相对较新的技术,但显然它确实有效。请发送电子邮件至Frank Cole([电子邮件 protected]) 如果你’d希望尝试通过自己的协议(在防火墙后,Bioassay Express中在线或可能与CDD Vault集成)使用该技术。


亚历克斯·克拉克(Alex Clark)和巴里·布宁(Barry Bunin);摘自最初出现在 化学信息学2.0

生物测定快递:查找化验(并对其进行处理)

生物测定快递 该项目一直在稳步推进:已添加或改进了一些重要的新功能以定位化验和检查它们,并着眼于执行一些复杂的分析和模型构建。这是因为我们拥有 策划了很多分析 (〜3,500),这是开始投入实际精力弄清楚我们实际能做什么的充分理由 高质量的专业注释数据。

作为对未曾关注该故事的任何人的简短回顾,生物测定快递 该项目是,如果幸运的话,用于评估小分子的生物测定规程以纯文本形式描述;并采用数字化文档格式(如果您更幸运的话)。这对机器算法没有多大作用,为此, 生物测定本体 (BAO)的发明,是为了方便使用语义网络术语使这些实验与开放链接数据世界兼容。意识到这种词汇的潜力很慢,这就是为什么我们发明了一个模式数据结构以将我们的“语法”作为一个额外的层(使用我们的 通用检测模板 最初,并跟随其他人)。从注解页面开始,它已被实施和部署并可供全世界使用,该页面旨在将相关的语义注解选为 快速而无痛.

为了改善和调试注释过程,我们提取了存储在 PubChem,并在可用信息,可用本体的状态以及我们对如何使用它们的理解的基础上,尽可能地对它们进行注释。尽管我们需要对这些测定法进行一点质量控制(可以方便地查看),但这确实使我们处于一个良好的位置:我们拥有一定程度的机器可读注释,远远超出了任何可公开获得的信息关于化验。因此,下一步是利用以下事实: PubChem 也与化合物和测量相关 较早描述)。通过将结构,活动和检测方法详细信息配对,我们可以开始提出一些相当有趣的问题。

通过将易于使用的查询与有效的方法可视化结果相结合,最好地询问有关数据的问题,这是最近的工作重点。目前,有两种主要的方法可以通过从人们希望找到的东西的广义概念入手来进行分析: 搜索 and探索。的 搜索 本页提供了一种搜索与给定限制条件相似的化验的方法,并且可以类似于对分子结构进行相似性搜索的方式使用。的 浏览 另一方面,页面更具交互性,并允许用户定义一系列层,每层都缩小了数据库范围,以交互方式显示结果。

在下面的示例中,为 目标 分配类别,包括所有嵌套在“ 聚合酶链反应 层次结构:

bae_find01

bae_find02

随着术语的开启或关闭,合格检测的列表将在下面更新:

bae_find03

此功能已经使用了一段时间,但是最近进行了一些修改。其中一个是附加的列,它显示每个测定与多少种化合物相关联,这是一个非常重要的细节,因为来源含量往往包括许多高通量的一级测定和许多低通量的二级测定。各种。这些通常适用于完全不同的研究,并且通过此界面,通常可以使用适当的注释字段将它们过滤掉(分析运动阶段),但也可以通过单击左侧的复选框来明确选择它们。

合格化验列表的下方是最特别新的可视化功能-属性网格:

bae_find04

您可能需要单击图像并放大一点,因为网格中塞满了大量信息。

该显示的目的是为了显示 什么 实际上是在结果集中选择的。带有文本描述第一行的测定列表非常好,但是出于许多目的,必须对实际情况进行概述 条款 存储在每个结果中。因此,此网格将化验结果绘制为列,并以行的形式使用所有术语的层次结构(仅限于至少出现在其中一个结果中的那些术语,否则可能会太大)。如果使用了术语,则每个单元格都有一个完整的蓝色正方形 明确地,或者一个窄矩形(如果该术语是原先的祖先)。

如果将每个术语视为离散断言,则该视图实质上显示了 分析指纹 对于每个结果。将术语视为指纹的想法与基于结构的指纹非常相似,后者是化学信息学的核心概念,可启用许多功能(搜索,相似性排名,聚类,贝叶斯模型等)。我们已经展示了一种类似指纹的注释用法( 正在搜寻 功能),并且正在研究通过使用此内容作为输入来构建模型的方法。例如,通过混合分析创建贝叶斯模型&构建指纹以预测活动,以及寻找可预测/反预测的模式;或释放最新潮流 深度学习 尝试使此类模型的准确性最大化的技术。

为了便于进行更多的初步探索,还有一个附加的切换开关,其目的并不完全是不言而喻的, 询问:

bae_find05

激活此选项后,将显示一个行符号查询,以查询用于选择化验列表的术语(作为查询本身,或通过ID号列表来实现相同的效果,该术语会更新以反映已进行的化验选中)。目前,此功能已与API(目前尚未公开)结合在一起,该API可以将化验+化合物以可输入异类建模工具的形式从数据库中远程拖出。

与选定测定相关的实际化合物也可以通过按 显示化合物 按钮:

bae_find06

此工作流程已在 最近贴文:这是查找和加入SAR数据以进行感兴趣的分析的有效方法,可以轻松地将整个内容下载为SD文件以供后续使用。

最重要的是,用于浏览,选择和从我们策划的化验中获取数据的工具正在成形,并且所沉积的分子和活性测量值正在形成并且变得非常强大。我们正在积极地将它们用于我们自己的探索,实验和合作,但也有兴趣使用这些工具和数据的人可以使用它们。要了解更多信息,请随时与Frank Cole联系,探索未来的可能性([电子邮件 protected])。