来自Idorsia Pharmaceuticals的Thomas Sander博士的焦点访谈

七月24,2018

Thomas Sander heads the 药物发现信息学 德partment at Idorsia Pharmaceuticals Ltd. and leads the team behind 数据战士 和the OpenMolecule platform.

Thomas Sander博士Idorsia制药

数据战士 * 创建OpenMolecule.org套件是为了为合成化学和药用化学家提供化学信息学工具的实用平台。桑德博士谨此同意在瑞士巴塞尔的Idorsia总部接受我们的采访。

来自CDD的问题是Neil Chapman和Mariana Vaschetto。

1. Thomas before we start to talk about 数据战士 tell me a little bit about your career to date.

通过教育我是有机化学家。在学校的第七年,我们开始上化学课,不久我就下定决心学习化学。四年后,还在上学的时候,我有机会进入当地大学’s Tectronix图形计算机。我对计算机世界很感兴趣,并开始学习一些编程。很快我就拥有了自己的简单8位计算机,这些计算机对于像我这样的人来说才开始变得负担得起。两年后,我开始在马尔堡学习化学,在接下来的几年里,我从未对计算机编程失去兴趣。后来,当我从事有机化学专业的文凭工作时,我和一个朋友成立了国际象棋数据库软件公司。在接下来的三年中,我的注意力集中在化学和软件开发之间。在完成有机化学博士学位论文后,我想将软件工程与化学相结合。我离开了公司,在美国马萨诸塞州沃尔瑟姆市布兰代斯大学的J.B. Hendrickson教授呆了一个博士后,在那里我开发了一个快速,交互式的反应搜索系统。然后,在1993年,我加入了位于巴塞尔罗氏(Roche)的一个小团队,开发用于药物发现的软件。五年后,我离开罗氏,加入了刚成立的新兴公司Actelion,建立了药物发现信息学环境。当Actelion被Johnson接管时&约翰逊,2017年,Actelion’该公司的前药物开发部门以及一些临床开发和服务人员被拆分为一家资金充足的新公司:Idorsia Pharmaceuticals。

2.您在Idorsia Pharmaceuticals中扮演什么角色?

目前,我正在领导‘Scientific Computing’药物发现小组的成员,该小组开发算法和软件,以利用与药物发现有关的大量内部和外部数据。

3. Idorsia Pharmaceuticals是一家相对较新的公司,基本上在2017年上半年从Actelion Pharmaceuticals拆分出来。请告诉我一些有关它以及它是否改变了您团队中的软件开发。

在Actelion,我们有12人组成的团队,其中9人正在积极开发涵盖大多数药物发现过程的科学软件。大致上,该软件分为以下几类:设备管理,生物样品管理,化合物管理,化学和生物数据采集,电子笔记本,分析,高通量筛选,自动化图像分析,化学和生物信息学,数据可视化等等。我们还维护了驱动软件发展的大多数数据库和应用服务器。合并后的Idorsia ’的药物发现部门继续像Actelion一样运作。但是,对于我们的团队来说,发生了一些细微的变化:为了释放我们的一些资源来专注于更科学的方面,我们将日常应用程序开发和维护的职责移交给了全球IT部门的同事。这涉及我们大约一半的生产系统。

4. Can you tell me about the background to 数据战士 ? Why was 它 德veloped, how was 它 德veloped?

数据战士 的故事始于2002年,那时Actelion还是一个非常年轻的公司。我们已经建立了一个基于Oracle的药物发现数据库,其中包含实验内部数据,包括化学结构,批次信息,研究项目,生物学分析及其结果。我们还安装了每晚运行的流程,该流程会将每个科学项目的所有相关化学结构和生物学结果提取到特定于项目的ChemFinder数据库中。这些使项目成员能够将结构特征与化验结果相关联。但是,我们错过了结合化学信息学算法的适当数据可视化功能。为了提供此类功能,我们首先将Spotfire作为一种潜在的解决方案。但是,当时的价格过高,对Windows的局限性以及使用化学信息学功能进行扩展的技术难题最终使我们陷入了另一种困境。我们决定使用Java编程语言开发自己的解决方案。在四个星期内,我们有了一个具有可缩放的笛卡尔2D和3D视图,结构网格视图以及字母数字单元格和化学结构上的行过滤器的原型。由于我们已经用Java开发了一种化学信息学工具包,该工具包提供了子结构和基于描述符的相似性搜索,因此可以如此快地完成。 3D视图基于JMol 3D图形引擎构建。

5. 数据战士 is available as a free download. What drove the 德cision to provide 它 at no cost?

数据战士 is closely connected to the underlying cheminformatics toolkit, which we earlier had released as the open-source project ‘OpenChemLib’。此发布是出于短期和长期原因。我们与大学合作开展各种合作,我们的工具包’的源代码提供了化学信息学的基础,因此开放源代码平台通常是我们学术合作伙伴的先决条件。一个示例是对所有Wikipedia分子进行化学结构搜索,这是一项涉及Peter Ertl(Novartis),Luc Patiny(EPFL)和我们自己的联合活动。

的 long-term goal I consider as even more important. During the last two 德cades a couple of open-source cheminformatics platforms were established and had gained momentum from the support of the growing community. It would only be a matter of time before some open platform would outpace any Actelion-internal 德velopment activities on our proprietary platform. By then we would be forced to replace our then outdated 恩gine. Effectively, that would mean replacing any chemistry software built on the original platform. In order to prevent such a scenario, our only hope could be to establish one of multiple standards with our toolkit and to get external people into the boat. Since we were already late, when we released OpenChemLib, we needed a way to advertise 它. We considered 数据战士 to be our best option for advertising 它s underlying cheminformatics toolkit.

还有另一个答案。我们是制药公司,而不是软件公司。提供专业支持和运行软件销售队伍不是我们的业务。此外,成为Idorsia的一部分’在科学的药物发现社区,我们被要求发布并提高公司的声誉。对于软件工程师,发布意味着发布源代码。 Idorsia内部建立了许多科学应用程序,因此发布开放源代码项目可以传达这一信息,并有助于吸引顶尖的科学软件工程师。

6. 数据战士 is a very popular program and 它 is able to interface with a number of databases, including CDD库. Tell me a little about the interfacing.

数据战士 ’s access to the ChEMBL database and to the Crystallography Open Database (COD) are solved through pure HTTP access of the respective server 恩gines. All query options, which include substructure and similarity queries are 恩coded as text strings and sent to the server. Both servers are pure Java based HTTP servers built on top of the SimpleFramework, which provides a multithreaded communication 恩gine as a lean JAr file. Both servers keep their 恩tire databases in memory and handle any structure search request distributed to all cores of the server hardware. When returning chemical structures as result these are 恩coded as OpenChemLib ID codes, minimising the network traffic. Retrieving the Wikipedia compounds is much simpler. Once a day the server generates a complete new list of all chemical structures known to Wikipedia. 数据战士 then downloads the 恩tire list also as ID codes. 的 source code to access ChEMBL, COD and Wikipedia are part of the 数据战士 source code and this functionality is part of the public 数据战士 installation.
CDD库访问 is done in a different way. In order to simplify the 德velopment of additional modules for accessing any alphanumerical or structural databases, 数据战士 has a plugin interface. Independently of the 数据战士 source code this interface allows 德velopment of a plugin that opens a dialog to 德fine alphanumerical and structural query conditions. 的se can then be sent to some kind of database and the returned result may then be processed to populate a new 数据战士 table. All Java code that makes up a plugin is compiled into an independent JAr file and put into the plugin folder of the 数据战士 installation. When 数据战士 is started, 它 checks for files in this folder and displays a menu 它em for every plugin. When the user selects that 它em, 数据战士 relinquishes the control to the plugin until 它 creates and populates a new 数据战士 window. 的 CDD vault plug-in uses this mechanism to retrieve and display the result of a CDD query. 的 CDD vault plug-in is an open-source project on Github and maintained by CDD staff.

7. Data Warrior的当前状况如何,是否有计划进一步改进?

Certainly. I am fully committed to extend 数据战士 functionality to meet upcoming needs. Some of the ideas include access to a commercial chemicals database, bioisostere replacement functionality with force field minimisation and consideration of synthetic feasibility, better reaction support, more graphical view options, more flexible macro support with branching and variables. Unfortunately, our resources are very limited so we need to compromise. In the past I often had to postpone bigger ideas for the sake of implementing small issues or to streamline existing functionality.

8.您是否计划开发其他软件程序供外部使用?

实际上,我们还有另外两个开源软件项目,“Orbit Image Analysis” and “Spirit Biobank”。另外,我们考虑在下一代测序领域发布一个新项目。

9.您的软件可以问哪些有趣的科学问题?他们提供了哪些历史见解?将来该软件可以应用于哪些新类型的问题?

我认为这个问题是针对我们内部构建的药物发现软件。老实说,我相信对药物发现过程的最大影响是使许多简单和更复杂的工具能够使工作流程顺畅。例如,一个用于在NMR上保留时隙的小型工具,自动在SAP系统中下订单的化学品清单,具有嵌入式NMR查看器的化学品笔记本以及与化学品清单的无缝连接。软件平台的价值不仅取决于可用的功能,还取决于使用这些功能的难易程度以及它们的集成程度。例如,浏览生物测定结果时,相关的 IC50 curves or HCS-images or all compounds in the same experiment should be available with a mouse click. 数据战士 ’宏功能也被证明非常有用,借助它,专家用户可以定义复杂的工作流程,经验不足的人员可以重复使用更新的数据。

但是您要的是我们软件更令人兴奋的科学功能,可能是大数据和机器学习领域的功能。例如,我们运行的服务器内存中大约有十亿分之一的化合物,可以在几秒钟内进行子结构或相似性搜索。我们还将其用于通过药效基团搜索进行虚拟筛选。我们对PubMed摘要进行自然语言处理,以了解基因疾病的关系。我们进一步将基因与据报道在各自靶标中具有活性的化合物相关。我们还使用先进的成像平台来处理,导航,分类和处理图像内容。我们使用计算网格进行药效团搜索,图像处理和配体蛋白对接。对于未来,我们只是在确定优先事项。人们对合成计划,生物等排体置换以及可能在增强现实中的浓厚兴趣,以支持围绕配体和靶标结构的讨论。

10.化学信息学面临哪些突出的技术挑战,这些挑战如能解决将对药物发现产生最大的影响?

如果能可靠地直接从其化学结构预测化合物的生物学活性,毒性和药理特性,那么这无疑将彻底改变药物开发过程。但是,尽管对机器学习进行了大肆宣传,但我个人并不’相信我们将在这一领域看到快速的进步。我们不’由于培训数据很多,化学结构不是这些方法的正确输入格式,我们对所涉及的生化过程的了解仍然有限。

对我而言,一个亟待解决的挑战是改进分子建模的基础概念。 30年来,基于分子力学的力场变化不大,而计算性能却提高了大约一百万倍。 Adrian Roitberg或Anatole von Lilienfeld的最新论文似乎表明,应该有可能使用机器学习技术来计算分子能级和分子水平上的力。这些方法有望达到可与量子力学方法相媲美的精度,但是它们几乎与常规力场一样快。如果我们还能解决水的影响,我们将向前迈出一大步。

*数据战士 is a free cheminformatics program for data visualization and analysis. It combines dynamic graphical views and interactive row filtering with chemical intelligence. Scatter plots, box plots, bar charts and pie charts are used to visualize numerical and categorical data, and 德monstrate trends across multiple scaffolds and compound substitution patterns.

数据战士 is currently used in over one hundred countries with a user base that is growing by approximately one thousand users per month

For more 德tails or to download 数据战士 go to www.openmolecules.org.

请拜访 我们的博客文章 for the 数据战士 和CDD Vault integration.


该博客由CDD Vault社区的成员创作。 CDD库是托管的 药物发现信息学 安全管理私人和外部生化数据的平台。它提供了核心功能,包括 化学注册, 结构活动关系, 化学品库存电子实验室笔记本 能力。

CDD库:您的整个项目团队都会使用的药物发现信息学!