现代化学数据库的起源

2017年5月23日

 –CDD倡导者Nigel R. A. Beeley博士的办公桌–

今天的化学数据库与几条历史线索有着千丝万缕的联系,而并非全部都是化学历史线索,这些历史线索早于现代计算世界出现之前就已经开始了。了解这些来源可以使您对现代化学数据库有更深入的了解,并可以了解将我们带到这里的途径。

化学数据库来源化学结构

库线程始于1876年,不受任何化学特定因素的影响,使用了杜威十进制分类法,以及使用卡索引(1),这无疑使其他人开始思考如何最好地组织和分类数据。直到今天,它在仍然有书籍和论文的其余图书馆设施中可以生存。科学全部在500个类别中(540:化学,570:生物学)(2)。当时,化学家已经在发表论文,其中载有有关大量分子的信息,并且管理和管理这种信息的重要性已经发生在几个人身上了。 Beilstein的《有机化学手册》(3)于1881年开始使用,并于1970年代后期开始计算,如今已成为一个完全可搜索的软件包,称为Reaxys。化学文摘服务(CAS)始于1907年(4),也于1970年代开始计算,如今由两个完全可搜索的软件包SciFinder和STN组成。 Derwent世界专利索引(DWPI)于1963年以Farmdoc的形式诞生(5),与Pharmaceutical Research在全球的扩张相吻合,并且是当时唯一考虑过如何处理经常出现的结构属的组织。在化学专利文献中,可以搜索到的所谓“马库什”化学结构。美国专利1506316是第一个包含相关化学结构类的专利,该专利的发明者Eugene A Markush(6)继而被称为“ Markush”结构。 DWPI的历史说明了当这些组织从纸张世界过渡到计算世界时,与手动摘要和记录保留的遗产兼容的重要性。因此,在1987年,他们最初的提取方法必须使用“ Markush TOPFRAG”软件进行补充,以将用户绘制的可变结构自动转换为正确的化学代码搜索策略(7)。为了更好地利用关系数据库中的发展,Derwent于1988年引入了完全可搜索的DWPIM,但未包含任何历史数据。因此,根据当时至少17年的专利寿命,这两个数据库一直作为有效专利文件的来源并存至2005年(8)。 CAS还于1988年引入了自己的Markush结构计算数据库MARPAT(9)。还应该指出的是,在计算时代之前,要跟踪数据并跟上文献的工作是一项艰巨的任务,涉及CAS,Beilstein,数百种已出版的期刊和手工填充的卡片索引,对于科学家而言,花费并不少见与实际实验相比,在图书馆中花费的时间更多,甚至不包括为支持服务而聘用的专业图书馆搜索人员,专利专家和术语专家等大军。

我们今天非常熟悉的骨架化学公式线程始于Kekulé(10)及其对苯结构的理论描述,随后是Wilhelm van Hoffman提出了分子模型,尽管以2D形式表示了结构(11)。然后范’t Hoff和Le Bel(12)独立地提出有机分子表示可以是三维的。分子模型开始呈现出现代的外观,并开始认真地将有机分子描述为可以手工绘制在纸上的“铁丝网”。如今,IUPAC有绘制化学结构的规则和约定(13)。

西尔维亚·恩斯特(Sylvia Ernst)

年轻而热心的同事(现任CDD的Sylvia Ernst位于中心),在Beilstein的计算前时代手动整理化学反应数据(照片由Sylvia Ernst提供)。

化学结构的计算机表示是重要的线索。考虑到传统纸质数据库组织的背景和目标各不相同,并且他们倾向于做自己的事情(CAS和IUPAC至今仍使用不同的命名约定)(14)化学结构的计算描述方法存在差异。晶体学家是第一个参与其中的人。晶体学的理论原理已在1800年代后期进行了描述(15),但是直到获得合适波长的X射线形式的电磁辐射源之后,才可以简化为实践。 1913年,威廉·劳伦斯·布拉格(25岁那年最年轻的诺贝尔物理学奖获得者)通过使用X射线晶体学解决氯化钠和金刚石的结构,引入了现代晶体学时代(16)。从X射线晶体学实验得出的晶体坐标和相关的笛卡尔坐标成为表示3维空间中化学结构的重要数据集。蛋白质结晶学家对此进行了扩展。晶体学家在阴极射线管上显示蛋白质结构的首次尝试(17),1969年蛋白质数据库的首次迭代(18)和1970年代早期的ORTEP绘图仪(19)都使用了笛卡尔坐标。分子力学专家加入了晶体学专家组,他们开始使用IBM打孔卡对分子进行理论计算,其中输入和输出是一组笛卡尔坐标(20)。笛卡尔坐标还具有的优势是,图论中埋藏着标准的数学解决方案,可以将一组坐标与另一组坐标进行比较(21)。因此,毫不奇怪,当MDL在70年代后期突然出现时,它们的标准molfile看起来像是一组带有连接表和其他简短说明(例如原子类型和连接性)的二维笛卡尔坐标。如今,它已演变为仍广泛使用的sd文件格式,用于化合物的集合和库(22)。

但是一切都不好。这些笛卡尔坐标文件不容易搜索,不能缩放到数百万个化合物,而且不容易适应关系数据库技术(例如Oracle),这些技术迅速成为通用可搜索数据库的黄金标准。那些我们回想起Pharmaceutical R的人&在1980年代,D会记得MDL的MACCS系统在处理化学结构以外的任何类型数据方面的表现如何。因此,以行/字符串符号线程的形式出现了新的表示形式,或者复兴了不太新的表示形式。这些始于1949年的Wisswesser线符号(WLN)(23)。这是ICI有限公司的基础’的CROSSBOW数据库系统于1960年代后期开发(24),它也是用于开发CAOCI(商业有机化学中间体)数据库的工具,Biovias是该数据库的数据文件’开发了ACD文件(25)。 BARK信息服务仍在广泛使用WLN。它起源于研究人员不了解“用户友好”一词的时期,并且对化学家而言并不直观。 1988年,David Wieninger提出了对化学家更友好的Smiles琴弦(26),大约是在组合化学开始发展的同时,真正合成和测试全套“ Markush”结构的前景也就变成了现实(27)。微笑的变体随后出现,包括SMARTS(28),Tripos Inc.的SLN(29)和Beilstein的ROSDAL(30)。甚至IUPAC也在2006年与InChi一起参与了比赛(31)。 Open SMILES成立于2007年,也许是对InChi(32)的回应。

所有这些行/字符串符号提供了将化学数据库与其他数据源集成的工具,但实际上并没有完成这项工作。最后一个话题是Oracle盒式磁带(33)的引入,它提供了生成结构化查询语言(SQL)来查询以行符号格式保存的化学结构以及其他字母数字数据(如测试结果)所需的接口,并且可以接受给编写合适的“墨盒”软件的人们。还需要注意的是,各种线符号提供了执行子结构和相似性(Tanimoto系数)搜索的简便方法(34),以及分配关键参数(例如可旋转键的数量)的方法(对于Lipinski的5律很重要) )(35)。

即使在今天,这也是一个持续的过程,但是已经取得了很大的进步。有用的数据库的现代体系结构是一系列计算层。顶部是图形用户界面,通常是基于Web的图形用户界面,它允许输入化学结构和子结构用于搜索查询,以及带有布尔逻辑某些元素的常规文本和数字查询。然后是用于将结构查询和文本查询转换为适合关系数据库查询的某种软件的层,通常以Oracle或MySQL的结构化查询语言(SQL)的形式出现。然后以关系方式查询数据库,答案返回到中间层软件再次处理,这些中间层又在不到一秒钟的时间内将化学结构和文本答案显示给科学家。

尽管追溯化学数据库起源的历史令人着迷,但有关如何进行工作,实践药物R的细节也令人着迷&如今,D科学家对此几乎一无所知,可以专注于使用CDD Vault(36)等软件和数据库管理服务,即刻询问数据库问题并立即获得答案,而不是像过去那样花数周时间埋藏在纸质文件和图书馆中前几代研究人员。对生产力的影响确实是惊人的。合成途径的调查,合成和测试化合物的数量,结果和SAR的分析,可专利性,数据整理,报告撰写以及FDA文件的准备都可以在很短的时间内完成,与之相比,支持人员要少得多“化学信息学”之前的世界(37)。

参考文献:

1)      //en.wikipedia.org/wiki/Dewey_Decimal_Classification
2)      //en.wikipedia.org/wiki/List_of_Dewey_Decimal_classes
3)      //en.m.wikipedia.org/wiki/Beilstein_database
4)      //www.cas.org/
//en.m.wikipedia.org/wiki/Chemical_Abstracts_Service
5)      //en.m.wikipedia.org/wiki/Derwent_World_Patents_Index
6)      //en.m.wikipedia.org/wiki/Markush_structure
US 1506316(1924)“吡唑啉酮 染料及其制造方法”。尤金·马库什(Eugene A Markush)
7)      http://www.stn-international.com/uploads/tx_ptgsarelatedfiles/piug1.pdf
完整的Markush结构搜索:不可能完成的任务? (2001年)
8)      http://www.stn-international.de/uploads/tx_ptgsarelatedfiles/DCR_and_DWPIM_seminar_20160519_01.pdf
在STN上使用DCR和DWPIM进行全面的DWPISM结构搜索(2016)
9)      http://www.cas.org/content/markush
10)   //en.wikipedia.org/wiki/August_Kekul%C3%A9
11)   //en.wikipedia.org/wiki/August_Wilhelm_von_Hofmann#Molecular_models
12)   //en.wikipedia.org/wiki/Jacobus_Henricus_van_%27t_Hoff
//en.wikipedia.org/wiki/Joseph_Achille_Le_Bel
//en.wikipedia.org/wiki/Le_Bel%E2%80%93van%27t_Hoff_rule
13)乔纳森·布雷彻(Jonathan Brecher(2006)“立体化学构型的图形表示 (IUPAC 2006年建议)” 纯应用化学, 78 (10):1897–1970年
14)   //en.wikipedia.org/wiki/IUPAC_nomenclature_of_organic_chemistry
化学文摘中化学物质的命名和索引(2007)
15)   //en.wikipedia.org/wiki/X-ray_crystallography
16)   //en.wikipedia.org/wiki/William_Lawrence_Bragg
17)通常归因于Leventhal和Langridge(1966)Eric Francoeur(2002)“赛勒斯·莱文萨(Cyrus Levinthal),克鲁格(Kluge)和互动分子图形学的起源. 奋斗 26 (4)127-1312002
18)   //en.wikipedia.org/wiki/Protein_Data_Bank#History
19)   //en.wikipedia.org/wiki/Molecular_graphics
20)   //en.wikipedia.org/wiki/Cartesian_coordinate_system
21)   //en.wikipedia.org/wiki/Graph_theory
22)   //en.wikipedia.org/wiki/Chemical_table_file#SDF
23)威廉·J·威斯瑟(William J.Wiswesser)(1982)。“WLN始于1949年,1999年可能会如何“。 J.化学Inf。计算科学 22 (2):88–93
24)   //en.wikipedia.org/wiki/Wiswesser_line_notation
25)   //en.wikipedia.org/wiki/Accelrys
26)   //en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system
温宁格(Weininger D)(1988)。“SMILES,一种化学语言和信息系统。 1.方法论和编码规则简介”. 化学信息与建模杂志. 28 (1):31–6。
27)   //en.wikipedia.org/wiki/Combinatorial_chemistry
28)   http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html
29)   //en.wikipedia.org/wiki/SYBYL_line_notation
30)   //books.google.com/books?id=ZV_yCAAAQBAJ&pg=PA179
31)   //en.wikipedia.org/wiki/International_Chemical_Identifier
32)   http://opensmiles.org/
33)   //en.wikipedia.org/wiki/SQL
//docs.oracle.com/cd/B19306_01/appdev.102/b14289/dciwhatis.htm
34)   //en.wikipedia.org/wiki/Jaccard_index
35)   //en.wikipedia.org/wiki/Lipinski’s_rule_of_five
36)   //www.collaborativedrug.com
37)   //en.wikipedia.org/wiki/Cheminformatics
布朗(1998)。“第三十五章 化学信息学:它是什么及其如何影响药物发现“. 药物化学年度报告 33:375-384

进一步阅读:
1)David Wild(2013)引入化学信息学。可以作为Kindle电子书从亚马逊购买,价格为9.95美元
//www.amazon.com/Introducing-Cheminformatics-David-Wild-ebook/dp/B00G5TS7B4/