第七章 化学物质结构式的线型表示法与计算机绘制
description
Transcript of 第七章 化学物质结构式的线型表示法与计算机绘制
第七章 化学物质结构式的线型表示法与计算第七章 化学物质结构式的线型表示法与计算机绘制机绘制
§7-1 化学物质结构式的表示法 为了适应计算机检索的要求,有关科学工作者正在大力研究和设计化学物质结构信息的表示方法.这里所说的结构信息,是指组成化学物质的原子以及原子间的结合关系,而不是键长和键角等细节,也不包括光谱数据及其物性.现在国际上化学物质结构的编码方法很多,有的就是在早期手工检索用的化合物结构代码基础上改革的。
化合物结构代码,就它们的编码方式而言,大体上可以分成 3种类型:
( 1)分类式代码.即根据化合物的类属来区分的.如杂环的、芳香族的、环烷属的.从代码本身可以看出化学含义.但这种代码很粗糙.实际上在电子计算机检索中没有推广使用这种代码。
( 2)片断式代码.这种代码大都采用线型标记法,它比较详细,能表明原子团的价键,如— NH2 ,— COOH ,— N=N—NH—. WLN 法和 IUPAC 法属于这一类。
( 3)拓扑代码(亦可称解剖式代码).这种代码更为详细,它能描述分子中所含的每一个原子和连接价键.这种代码可分成两种形式,一种是从代码形式上可以看出化合物的化学含义,如 MCC 拓扑代码;另一种是从代码形式上看不出化学含义,如 CAS 代码和 DARC 代码。
目前比较普遍采用的是 WLN 法, IUPAC 法和 CAS 法。
一、 WLN 法 WLN 法是威氏化学分子式线型标记法( Wiswesser Line Notation )的简称.它属于片断式代码.该方法是 1954 年由 Wiswesser 首先提出的,故以他的名字命名.他著有“ Line-for- mula Chemical Notation” ( N.Y., Crowell , 1954 出版)一书.后来 E. G. Smith 对此法作了修订.并著有“ The WiswesserLine-formula Chemical Notation” ( McCraw-Hill , N .Y., 1968 出版)一书.日本出版了此书的日文译本.书名是“ WLN 化学构造の线型表记法”( 1975 ),以上书籍我国已有收藏。
1. 现在采用 WLN 法的有:( 1) . 美国科学情报研究所编的《现期化学文摘和化合物索引》( current abstracts of chemistry and index chemicus ),自 1968起采用 WLN 法出版 ICRS磁带版( index chemicus re- gistry System );
( 2) . 有机化合物光谱数据和物理常数手册( CRC atlas of spec- tral data & physical constants for organic compounds );
( 3) . CA 的“母体化合物手册”。( 4) . 英国帝国化学工业公司和英国其它一些化学公司出版的磁带版;
( 5) . 荷兰 Excerpta Medica 出版的 drugdoc磁带。
WLN 法就是利用英文打字机字盘上的 26个大写字母, 10个数字,三个符号:“—”、“&”、“/”和一个空格来表示化合物的结构式。
2 . WLN 编码和检索规则 • A——表示泛指的烷基;• B——硼原子;• C——a. 表示以一个单键和一个叁键与其它原子相连的碳
• 原子; b. 表示以 2个双键与其它原子相连的碳原子;• D——螯合键的符号,螯合标志的起始符号 ;• E——溴原子; • F——氟原子…… ..
3. 元素表示法( 1) .从上面符号含义可以看出,除少数元素外,大多数元素仍用其原来的元素符号表示,两个字母的元素符号前后要加连字符号“ -” 。例如:铁用 -FE-表示,钙用 -CA- 表示,镁用 -MG- 表示,钠用 -NA- 表示。
( 2) .规定只有 7种元素用与原来元素符号不同的字母表示。如:溴用 E表示,铀用 -UR 表示,钾用 -KA表示,钒用 -VA 表示,钇用 -YT 表示,氯用 G表示,钨用 -WO- 表示。
4. 链和环的编码规则( 1) .用数字表示链长:“1, 2, 3…”表示单键碳链的碳原子数。如果碳与碳间有双键或叁键则必须标明。例如— CH=CH2 ,不能用“ 2”表示,而应用“ 1U1”表示;
—C≡C—用“ -1UU-”表示,这里“ U”表示双键,“ UU”表示叁键;带有支键的化合物,则以“&”表示。
( 2) .环的标志符号:R表示苯环;L——J表示苯以外的碳环的起止符号;T——J表示杂环的起止符号;环的大小在环的符号中间用数字表示;环上的官能团位置应在环标志符号后空一格;再接着用字母 A , B, C, D等表示,并排在各官能团符号之前。
二、 IUPAC 编码法 • IUPAC 编码法是在 1965 年由英国 Shell公司开始应用的计算机编码 .所用的计算机为通用 9300型。
• IUPAC 编码原则与 WLN 法很相似,属片断式编码,例如:
三、 Skolnik 片断编码法 片断编码法是 Skolnik在 1970年提出的,该法的特点是采用线型编码法所用的 25个大写字母(“ O”不用),再加几个特殊符号来标志化合物结构,所谓片断( fragment )就是指分子中的各个组成部分和官能团 。
对于电子计算机检索用的代码,每个片断之间用一斜线符号“ /”隔开。
作为计算机代码则改为 A/B2/C/QH/(即 CH3—/CH=CH—/CH2—/OH ),这种代码顺序跟分子式书写顺序一样。
1. 片断编码法所用符号
* 除碳外的其它稠合或桥头原子# 离子型
@ 稠环部分的符号
& 标明用原子符号表示的原子
2. 2. 编码方法举例编码方法举例
• 2-乙酰基 -4-氯苯甲酰甲基氯化合物有下列 7个重要片断:
①
三位⑦与苯环连接的氯— Cl L
把以上代码组配起来即为:·B2DBD2/K/C/L/K/A/L/
3. 官能团和自由基编码示例
分子式 代码 分子式 代码 — COC1 KL — ONO2 QZW — OH QH — CN VZ — CONH2 KMH — NH MH — NO2 ZW — COOH KQH — NO ZQ — O— Q =NOH ZQH — NHNH2 MMH 或 M2 — O— QQ 或 Q2 =NNH2 ZMH — OSO2OH QSWQH — OOH QQH 或 Q2H — SO2NH2 SWMH — NHOH MQH — SO2 — SW =NH M — SO2OH SWQH — NCO — SO— SQZK — NC ZV — SCN SVZ — NCS ZXS — CO— K
4. 分子中环部分编码举例 分子式 代码
·C2Y/
·C3Y/
·B4R2 @ B3D/
5. 带有烷、烯和炔基的化合物编码举例
CH2=CH2 E2/CH≡CH U2/CH2CH=CH2 A/EB/CH3C≡CH A/UV/CH2=CHCH=CH2 EB , 2/ (CH3)2CHOH A2Y/QH/
6. 带双键和叁键碳的自由基编码举例
四、 GREMAS 系统• GREMAS 系统由 R.Fugmann 等人研制,已成功应用于德国、荷兰、奥地利等十几家公司联合开发的 IDC 国际化学数据库 . 它是属于片段编码法,具有唯一性,但不具备单义性,因此特别适于化学结构的分类处理,其描述对象主要是有机物,也可描述聚合物。
• GREMAS 代码由语义和语句两部分组成,前者是由三个字母联合组成的所谓“三字项”( threecharacter terms ),后者是以 Y成 Z 开头的字符串。
1. 语义——三字项• 在 GREMAS 系统中,主要是看碳原子与什么原子相联和怎样相联的 .当某碳原子只与碳或氢相联时,则定义其“杂向度”( degree of beteroorientation )为零 .当 C 原子与 C , H以外的原子有键联时,则分4种情况定义其杂向度:
• 只有 1个键与杂原子相联,杂向度为Ⅰ; 有 2个键与杂原子相联,其杂向度为Ⅱ; 依次推之,当 C 的 4个键都与杂原子相联时,则定其杂向度Ⅳ。
• GREMAS 法以三字项的第一个字母表示杂向度,并称该字母为“类字”( genus ) ;
• 具有同等杂向度的碳原子,要根据与其联结的杂原子情况进一步分组,用三字项的第二个字母表示, GREMAS系统称其为“种字”( species ),根据这个字母,可进一步指明同类化合物的不同衍生物 ;
• 三字项的第三个字母称为“亚种”( subspecies ),它用来描述该碳原子是如何嵌入这个分子中的,指示该碳原子是与脂链、脂环、芳环还是与杂环相联,是碳链的一部分还是某个环的取代基
2. 语句— Y 和 Z 不同的化合物,有可能编出完全一致的三字项编码 .为此, GREMAS定义了语句项 Y 字和 Z字,来确定分子的某种区段 . 该系统可以区别 4 种类型的分子区段:
YR——表示脂碳链(包括支链)YS——脂环YT——芳环YU——杂环
五、 CAS 法 CAS 法是美国《化学文摘》社采用编码方法 [7]. 该方法也叫原子相连系统法( atomby atom connectivity systems ),就是将分子中的每个原子,按连接顺序逐一列出,排成一个序列,并标明每个原子的键数和相承接的原子的位置号 . 每一个分子都能排出一张连接表格 . 这种表格称为原子键连接表( atom-bond conne-ction tables ),这种方法属于拓扑系统法。
六、 DARC 编码法• DARC 法是法国化学情报中心, 1974 年正式开始采用的一种化学情报处理方法 [13,4],它的全称为“ tescription acquisitionretrieval correlation”. 这种方法属于拓扑编码法。
• DARC 法能处理任何标志的色图资料,所谓色图是用各种颜色来区别连接点和边界的图象 . 化合物的结构式以黑色表示,各种结构参数(如键和原子性质)用主要颜色表示,电荷、反常质量或反常价键用次要颜色表示,化合物用 DARC 代码或外围层增长字码( DEL )表示。
这种编码方法的基本特点是将化合物分成核心原子和外围层原子两部分,核心以 FO 表示,外围层以 ε表示。
七、 MCC 拓扑法• MCC 拓扑法( Mechanical Chemical Code Topological Sc-reen System )是 1967 年研究成功的 [14]. 后来由美国石油研究院和 Esso试用,并进行了修正。据称 MCC 拓扑法比 WLN 法容易编码和检索。
八、 Crossbow 代码转换法 Crossbow 法是英国 ICI* 公司研究成功的,它专门用来处理 CAS 法和 WLN 法代码的互相转换。 Crossbow为 compu-terized retrieval of organic structure system based on theWLN 的缩写。因为买来的磁带资料有的是 WLN 代码,有的是 CAS 代码,不一定适合各自的计算机程序,所以必须将磁带代码加以转换方能进行检索。 Crossbow 代码转换法对从事计算机检索研究人员,有一定的参考价值。
§7-2 化学物质结构的检索• 检索化学物质的情报,用什么样的表示式来写检索提问,现在大致有以下几种:用物质名称、用化学式、用化合物登记号,也有用物质结构本身。
• 关于化学物质结构的检索可以考虑分成: 1.全结构检索:用于检出某一特定的化合物,要求从检索文档中检出与其有关的记录(情报);
2. 子结构检索后者只是检出一部分化学结构,要求从检索文档中检出含有该部分结构的所有化合物。因此子结构检索也称类属检索,检出的化合物,有的可能是提问者事先未想到的,正是由于这一点,子结构检索在化学和药学上受到了重视。
一、片断码检索 • 线型标记( linear notation )可以把所有化学结构以一维的字符串表示,并明确地表示某一特定的化学结构,因而用于全结构检索是十分合适的。只要提问结构用同样的线型标记,就能从文档中检出与之完全一致的结构。
• 用线型码进行子结构检索,遇到子结构复杂时,就很困难,在这种情况下,用拓扑码。
二、拓扑码检索• 拓扑码有各种不同的表示方法,我们前面介绍的 CAS 编码法、法国化学情报中心的 DARC 编码法、 MCC 拓扑法均属拓扑系统编码法。其中最具有代表性的是 CAS 法,拓扑码的特点是将分子中的所有原子、原子键数目和承接原子的位置号都记录下来,每个分子都可以排出一张连接表(见 424页)。所以比较容易理解和使用,但在实际文档中,存贮形式则略有不同。
• 拓扑码的检索一般采用原子连接检索法 .这种检索方法是将检索提问结构与从文档中检出的分子结构的组成原子逐个对应起来,以组成原子、键数作为线索,查找提问结构是否包含在文档的存贮结构中。
这种方法对任何结构都能适用,而且“子结构检索”可以按一定的逻辑结构进行,所以程序化后,用户只要把提问结构作为数据处理便可以了。这种方法使用起来是不难的,但是处理时间太长了一些。