BioAssay Express(BAE),使非结构化协议数据结构化的新工具:分析信息学用例

2017年8月1日

1.引言

药物发现生物测定规程以《科学英语》的多种样式记录在案,描述了这些实验的生物学意义。因此,传统上,该信息不能轻易通过计算和“大数据”技术直接利用以提取其内在价值。的 BioAssay Express(BAE) 平台提供了两种主要工具来应对这一挑战-专利的半自动标记工具和新颖的Analysis&可视化工具。

以下是主要的用例 专利的半自动标记工具新颖的分析& 可视化 tools 具有以下特定优势:

2.1)使用元数据进行分析注释,

2.2)改进分析,以及

2.3)促进协作。

2.按地区划分的BAE用例

2.1。使用元数据进行分析注释:启用数据挖掘

目的

  • 编码标准的语义/计算机可读术语–元数据–基于您的测定方案说明
  • 标记,保护和利用您组织今天所拥有的大量科学信息
  • 准备进行后续的科学分析,协作,业务获利活动。

好处

  • 为您的组织解锁当前无法使用计算机分析的数十年的数据
  • 每次注释一次-从中永远获得价值

价值实现时间

  • 1-2季度项目

2.1.1。历史性的(‘Legacy’) Assay Migration & Curation

在Curlew Research进行的市场采访中,大多数公司都描述了他们面临的挑战,即如何将捕获的受控生物术语用于其检测方法以及正在注册的新方法或经过修改的方法。他们的传统检测库在某些情况下超过20,000个方案。以下是Curlew Research采访的十大制药公司的高级信息学家的一些话:

  • “在生物测定领域,如果描述得不到很好的把握,–公司知识会消失”
  • “有了更好的化验注释,您可以放心地重用数据,而不必重新测试”

CDD拥有独特的BioAssay Express专利技术和经过验证的服务(适用于3500“强大的POC和独特的公开注释数据资源,是Pubchem MLPCN分析的最佳选择)。联系 [电子邮件 protected] BAE报价。

2.1.2。新检测注册

在2017年初,由营销公司Curlew Research采访的十家大型制药公司中有九家发现迫切需要升级其内部生物测定注册系统,以包括具有受控术语的编码以利用元数据并从内部筛选活动中获得更多价值–但是他们正在努力决定如何有效地完成这项任务。再次,这是大型制药公司顶级信息专家的直接报价(当然是匿名的),突出了在没有Bioassay Express技术帮助的情况下标记数据的疼痛严重程度:

  • “让科学家注册他们的化验,而不威胁如果不遵守就解雇他们。”
  • “如果我们要了解我们正在运行的日益复杂的测定方法,我们将需要更多的元数据”
  • “一致的化验元数据将释放许多未开发的收益和价值”

2.1.3。将带注释的分析转换为文本(针对BAE 2.0计划)

我们的“ BAE 2.0”路线图包括将模板从摘要信息扩展到详细步骤,还包括开发此“注释到文本”功能。目标是通过将注释翻译回具有受控术语和适当术语的自然语言文本(英语),从而以标准化格式(例如,科学出版物,在线数据沉积的编码描述符或化验项目工作流程模式)生成方法部分。可选)格式。

2.2。改善分析

好处

  • 提出新问题的机会增加,以前无法执行查询
  • 已改善 在计算机上 模型节省了SAR活动中的时间和资源
  • 标记可能是实验产物的命中(也称为“频繁击中”)可以节省时间和资源
  • 轻松搜索并找到相似的化验可避免不必要的化验重复并提高可重复性

2.2.1。使所有分析易于发现

简而言之,用语义术语注释化验协议可以使组织的所有成员都可以访问,使用和从已经积累的大量机构知识中学习。

2.2.2。建立更好的SAR模型

一旦组织使用BAE策展工具生成了一组注释良好的化验,则BAE分析和可视化工具将提供新颖的方法来分析结构-活性关系(SAR)。搜索化验包括指定一组注释并开始搜索,该检索将检索以相似度从高到低排序的化验列表。

本体相似度搜索方案

可以细化细节,并将相关化验可视化为x轴上化验的网格(请参见右侧的示例),并在y轴上化验化验属性(注释项)。同样,大型制药公司的几位资深科学家引述了为什么这很关键:

  • “更好的决定是最明智的决定;您对检测方法了解得越多,它就可以帮助您做出决定”
  • “拥有有关化验的更多数据,您可以提出不同的问题”

2.2.3。频繁的击球分析

ACS最近的社论(Aldrich 等。 化验干扰化合物的狂喜和痛苦. ACS中央科学 2017. 3:143)强调了源自实验伪影的初始筛选命中率很高(80-100%)。显然是在组织中’识别此类伪像的兴趣(或‘frequent hitters’)尽早在药物发现过程中,避免在这些死胡同上浪费宝贵的资源。阿斯利康(Zander)发表的一项研究 等。 使用BioAssay本体分析高通量筛选数据. J生物分子筛 2015. 20:402)通过对以BioAssay Ontology(BAO)术语标注的分析进行分析,证明了检测此类伪影的好处。

BAE分析工具可用于通过多种方法直接快速识别频繁的击球手。由于每个月都无法确定频繁的击球手,因此不仅浪费了大量的资源在这些文物上,而且资源经常没有集中在潜力最大的化合物上。保守估计的潜在节省成本是每个化合物每个较早检测到的月份可节省1 FTE月。

2.2.4。减少重复并提高重现性

很多时候,我们听到过这样的评论:“除非我自己做,否则重复进行测定通常要比在数据库中找到测定容易得多”。拜耳报告说,只有25%的已发表临床前研究可以得到验证,而且已发表的研究结果与公司自身结果之间的不一致导致了大约2/3个项目的延迟或取消(Prinz 等。 信不信由你:我们可以在多大程度上依赖已发布的潜在药物靶点数据? 性质 Rev. Drug Disc。 2011. 10:712)。安进(Amgen)报告说,在53项具有里程碑意义的研究中,只有11%可以证实科学发现(贝格利& Ellis, 药物开发:提高临床前癌症研究的标准. 性质 2012. 483:531)。最近报告的复制工作(eLife 2017; 6:e23693由劳拉(Laura)和约翰·阿诺德(John Arnold)基金会提供200万美元的资助,进行了五项癌症生物学研究,结果发现有2项重复进行,有1项失败,有2项无法解释。临床前研究的不可重复性已引起广泛关注。

改善可重复性的好处包括:

  1. 标记密切相关的分析之间的差异
  2. 将协议差异与结果差异相关联
  3. 提高在不同实验室进行的实验的可重复性
  4. 找出分歧的根本原因

2.3。促进合作

好处

  • 只需合并来自两个不同机构的数据集(例如,内部由CRO或M的另一家公司&A)
  • 可以导入公开注释的数据,并与私人内容混合

2.3.1。外部比较

越来越多的将早期药物开发流程外包的趋势给整合和比较这些外部数据与内部生成的数据提出了新的挑战。正如排名前10位的制药公司的高级化学信息学家告诉市场研究公司Curlew Research一样,“现在我们最大的挑战之一是内部和外部分析之间的差距”.

BAE使研究人员能够智能,高效地搜索所有带注释的测定。

2.3.2。协作,公共/私人研究的测定信息学

围绕早期药物发现,尤其是被忽视的疾病(例如,结核病联盟,疟疾风险医学(MMV),CARB-X),公私合作关系有所增加。这些协作需要在站点,国家和学科之间共享数据和资源的最佳实践,以增强发现并减少重复。

CDD’这些全球性财团已经使用了CDD Vault的核心产品CDD Vault来管理其筛查数据,因此CDD的定位合理,并积极鼓励这些群体采用BAE进行化验注释。由于诸如PubChem和ChEMBL之类的公共存储库也非常希望与CDD合作以扩展沉积测定的语义注释,因此势头明显。 BAE的早期采用者不仅将从能够将这些公共或协作数据纳入其分析中受益,而且还可以在这一新的领域中发挥领导作用‘assay informatics’.

2.3.3。并购(M&A)

任何制药企业都面临的一项众所周知的挑战&A正在整合较小的公司’的测定数据进入更大(或相等大小)的组织’的数据管理系统。尽管进行了充分的尽职调查以建立测定数据的价值和可靠性(并因此证明了数百万美元的投资是合理的),但这些工作还是单独评估了这些数据,而不考虑集成的可行性或后勤性。通常,双方的科学家都需要查找,阅读和评估测定方案,并与信息学专家一起辛苦地工作,以真正了解背景数据。

相反,如果制药公司使用BAE进行内部测定,则他们已经建立了明确的流程来捕获关键的测定元数据。合并/收购后,他们可以立即使用BAE分配注释,导入化合物,读数和注释。对于传统检测,CDD可通过提供1次策展服务来帮助加快这一过程。

使用BAE帮助集成所获取的数据资产不仅可以节省组织时间(任务可以在几天到几周内完成,而不是几个月到几年内完成),并且可以提高那些现在可发现的药物发现资产的价值。


该博客由CDD Vault社区的成员创作。 CDD库是托管的 药物发现信息学 安全管理私人和外部生化数据的平台。它提供了核心功能,包括 化学注册, 结构活动关系, 化学品库存电子实验室笔记本 能力。

CDD库:整个项目团队都将使用的药物发现信息学