1
一、 基因的概念 1. 基因的生物学意义 1 ) 1865 年 Mendel (孟德尔) 在《植物的杂交试验》中提 出一个遗传因子决定生物 体一个性状。
第二节 基因
2
2 ) 1926 年 Morgen (摩尔根)在 《 基因论》中提出了遗传因子是 特定在染色体上,基因是直线 排列在染色体上遗传颗粒。一 个基因控制一个性状。
3
3 ) 1941 年 Beadle 和 Tatum 提出了 “ 一个基因一个酶” 学说 1950’s Linus 和 Pauling
通过镰状细胞贫血的研究后 , 提出一个 基因一个蛋白质 ; 由于 有的蛋白质由多 个亚基组成 , 提出一个基因决定一种 多肽链。
Benzer 提出了“一个顺反子,一条 多肽链”
4
基因是合成有功能的蛋白多肽链或 RNA
所必需的全部核酸序列(通常是 DNA
序列)。即除了编码蛋白质或 RNA 的核酸序列,还包括转录所必须的调控序列, 5’ 端非翻译序列,内含子以及 3’ 端非翻译序列等所有的核酸序列。
** 用分子生物学的术语来给基因下定义 :
2. 基因的分子定义
5
二、 基因的分类与结构 1. 基因的分类: 1 ) 结构基因( structural gene) : 可转 录成 mRNA 并翻译成蛋白质多肽链的基因。 2 ) 调控基因 (regulatory gene) : 一些调 控结构基因表达的基因,其产物往往是反 式转录因子或 DNA 结合蛋白。
6
3) 管家基因( housekeeping gene ): 在绝大多数细胞中都表达为维持各种细 胞基本活动所必需的结构和功能蛋白质 编码的基因。 如:糖酵解中 3- 磷酸甘油醛脱氢酶 (glyceraldehyde 3-phosphate dehydrogenase, GPDH)
7
4) 奢侈基因 (luxury gene) : 对细胞自身生存并无影响,但这种基 因产物通常只在特化细胞类型中大量 合成。 如:红细胞中合成血红蛋白 浆细胞中合成免疫球蛋白
8
5 )假基因 (pseudo gene) :
在核苷酸序列上与有功能的基因相似, 但它们或者不能转录,或者转录后生 成无功能的基因产物。
9
2. 基因的结构 DNA 两条链,一个基因的序列或基因结 构往往用有意义链( sense chain) 来表示
有意义链
模板链
转录区域上游区域 下游区域
10
三、基因的大小与数量
哺乳动物基因的大小在 5~100 kb ,很少小于 2 kb 。基因的大小与 mRNA 长短无关,与外显子数量无关
11
基因的数量:生殖道支原体 470
嗜血流感菌 1,743
大肠杆菌 4,288
线虫 19,099
人类 30,000~ 40,000
12
第三节 基因组的结构与功能 基因组( genome):
是指导一个物种的结构与功能的所有 遗传信息的总和。 ** 人类基因组通常是指细胞核 23 对染色 体中的所有 DNA 。 ** 人线粒体基因组 (human mitochondria genome)
是人细胞线粒体中基因及 DNA 。
13
基因组学 (genomics) 定义 :
基因组学是研究基因组的结构与功能的科学。
14
二、 原核生物基因组
1. 大肠杆菌的 DNA 是环状双链 DNA 分子, 染色体密集的区域形成核质体 ( nucleiod ) 2. 原核生物绝大多数是单倍体
15
核质体中央超螺旋结构域
16
1 ) DNA 两条链上都有基因。功能上相 关的几个基因往往在一起组成操纵子 结构
3. 细菌基因组织的特点
17
2 )基因组中只有一个复制起始点 3 )没有内含子( intron )成分 , 转录后
不需要剪接加工。
4 )细菌的 DNA 绝大部分用于编码蛋白 质,只有小部分是非翻译区,其中包 含基因表达调控的 DNA 序列。 5 )细菌的结构基因极少有重迭现象。 6 )基因组中重复序列很少。
18
三、病毒和噬菌体基因组 1. 病毒颗粒( virion) 外壳蛋白 内部基因组 DNA 或 RNA
19
1) 在每种病毒中核酸成分只能是一种。
2. 病毒和噬菌体基因组的特点
*肝炎病毒( hepatitis virus):
甲肝病毒( HAV ) RNA病毒 乙肝病毒 ( HBV ) DNA病毒 丙肝病毒( HCV ) RNA病毒 丁肝病毒 ( HDV ) RNA病毒 戊肝病毒 ( HEV ) RNA病毒
20
2) 病毒核酸大小差别很大。 3) 大部分病毒核酸是一条单链或双链 分子,少数病毒由几个核酸片段组 成。 4) 病毒基因组也具有操纵子结构。 5) 噬菌体基因中无内含子,而感 染真核细胞病毒有内含子。
21
6) 有重迭基因存在。 ( overlapping genes )
22
四、真核生物基因组
23
(一 )真核生物基因组织的 C值矛盾 ( C-value paradox )
* 每种真核生物的单倍体基因组中 的全部 DNA 量称 C值
24
1. 有的同类生物 中 C值差别有10
倍以上。
25
各种生物的的基因数目与 DNA 量的比较
大肠杆菌
基因数
2350
DNA 分子大小4.2*106
编码序列占基因组 %
98 以上
5
酵母
果蝇
6100
8750
1.3 *107
1.4 *108
人 30000-35000 3.2 *109 2
70
2. DNA 的量远远大于编码蛋白质所需 要的量。
26
0.0013
1.9
630
27
快复性组分 中间复性组分 慢复性组分占基因组百分数 25 30 45
Cot1/2 0.0013 1.9 630
复杂性 bp3506*10
53*10
8
重复频率 500000 1Cot值范围 10
-4~2*10
-20.2~100 80~10000
340
功能
例子
能编码仅能转录不能转录
血红蛋白rRNA,tRNA, 组蛋白基因 (能编码 )
卫星 DNA
28
(二) 高度重复顺序 * 复性极快,由寡核苷酸串联、重复 排列而成的 DNA 序列 * 长度从几个 bp到几百 bp 个或更长 * 重复次数 105~ 106 ,在基因组DNA
中约占 25% 。
29
* 高度重复序列具有的特点是: ⅰ. 重复顺序中一部分常以“祖先序列片 段” 形式出现,进化上是原始的,趋 向保守。另一部分则以新进化的家 族形式出现。
30
ⅱ . 不同家族常源于同一个“祖先重复 序列” , 故结构很相似,但同一家 族中各个体成员间存在个体突变。 ⅲ. 新的高度重复序列家族,往往是在 新的物种衍化时或在进化中,通过 一定机制形成,随基因扩大而被扩 大。
31
1. 卫星 DNA ( Statellite DNA ) 1 )卫星 DNA 的概念: 真核生物 DNA 剪切后离心,显示一个 主峰和小峰。真核生物大部分 DNA 的 G-C 含量在 30% ~ 50% 形成一个主峰 另外有些 DNA 的 G-C 含量高于或低于 30%~ 50%会出现小峰,称卫星 DNA 。
32
33
2 )卫星 DNA 的产生与 C-G 含量有关3 ) 卫星 DNA 序列非常简单,重复性极高
34
父亲
母亲
孩子
…GTCGTACGTGACACACACACACACACACACAGTACGATACGT…
…GTCGTACGTGACACACACACACACACACACAGTACGATACGT…
…GTCGTACGTGACACACACACACACACACACACAGTACGATACGT…
…GTCGTACGTGACACACACACACACACACAGTACGATACGT…
…GTCGTACGTGACACACACACACACACACACAGTACGATACGT…
…GTCGTACGTGACACACACACACACACACAGTACGATACGT…
父亲 母亲 孩子46bp
42bp
40bp
42bp
42bp
46bp
40bp
42bp
40bp
PCR 结果的凝胶电泳:
图:某个 CA2 核苷酸重复的微卫星在一个家系中的 PCR检测结果示意图
35
2.反向重复顺序( inverted repeats ) 1 )概念:具有方向相反、序列相同的 DNA 区域称反向重复顺序 2 ) 邻近( adjacent ) 反向重复顺序 也称回文结构 (palindrome) 。 … GGTACC…
…CCATGG…
3 ) 分隔( Separated )反向重复顺序。 … GGTNNNNACC…
… CCANNNNTGG…
36
4 ) 在基因组约含 5% 。 5 ) 常见于基因组调控区中 , 可能与 复制和转录调控有关。
37
(三)中度重复序列 ( intermediate repeat , moderately repetitive DNA,
middle repetitive sequence )
1. 在基因组 DNA 中约占 30% ,重复 出现几十次到几千次 。2. 重复单位序列相似,散在分布在基 因组中 , 序列的长度和拷贝数非常 不均一。
38
1. Alu 家族 ( 短片段间隔型) ⅰ占人类基因组 3 % ~ 10% 重复 30万 ~50万次 , Alu 序列高度同源, 大部分序列有限制性内切酶 AluⅠ
酶切位点。ⅱ. 人 Alu 顺序长 300bp ,由两个 130bp
的重复 序列中间有 31bp 间隔序列 ,
两端各有一段 7~ 21bp正向重复序列。
39
ⅲ . 在人类基因组中,大约 5kbDNA 中就 有一个 Alu 序列ⅳ. Alu 序列可能是在 300~ 500万年 前起源于 7SL RNA 基因Ⅴ. Alu 序列有部分序列与感染哺乳动物 的 DNA病毒的复制起始序列同 源 , 提 示 Alu 序列可能与 DNA 的复制有关。
40
2. 可转移的 DNA 元件( mobile DNA elements )
也称转位因子( transposable element )、
* 40 年代 B. McClintock 首先在玉米的 遗传学研究中发现 * 1968 年 Jordan 分子水平证实了在大肠 杆菌存在 , 引起重视 .
* 现在认为所有的生物体内都存在
41
** 插入序列( insertion sequences , IS)
是一类较小的转移元件 * IS 两端有反向重复顺序和正向重复顺 序,重复序列之间只有编码与转位有 关的蛋白质基因,如转位酶( transposase)
* IS已发现很多种,每种 IS元件都有 不同序列。
42
** 转座子( transposon , Tn )除了带有转座有关基因外还带有其他基因。 如抗药基因
tnpA tnpR ampr 反向重复序列
38bp 3086bp 558bp 861bp 38bp
tnpA 转座酶基因 ( 转座酶基因作用于原有转座子末端 )tnpR 解体酶基因 (作用于复制拷贝 )ampr 抗氨苄青酶素的 ampr 基因
Tn3
43
44
**真核生物中的转座子 逆转录转座子( retroposon ) 先转录成 RNA然后逆转录成 cDNA , 再整合到基因组中。 ⅰ)非病毒样反转录转座子
ⅱ)病毒样逆转录转座子
45
ⅰ)非病毒样反转录转座子
46
ⅱ)病毒样逆转录转座子
47
4 )转位的遗传效应 Ⅰ. 基因重排 Ⅱ. 基因突变Ⅲ. 插入位点引入新基因Ⅳ. 转移 DNA元件可通过增强子的 组合与分布来影响基因的表达
48
piggyBac ( PB ) 转座子在哺乳动物细胞和小鼠中的高效转座 ( Cell No.122 2005)
丁昇 许田 吴晓晖
49
发现携带多个基因的 PB 因子不仅能在人和小鼠的细胞中,而且能在小鼠体内高效转座。 PB
允许所携 基因的表达。 PB 因子在生殖细胞中转座时能从原始插入位点精确切离,并转座到小鼠基因组的不同位点,尤其是基因区。这些数据为在小鼠和其他脊椎动物中建立一个可作为转基因和插入突变等遗传操作工具的高效转座系统迈出了关键性的第一步。
50
4. 多基因家族( multigene family ) 也称基因家族( gene family )
1 ) 概念 多基因家族是指一组具有类似功能, 核苷酸序列又有同源性的基因。多基 因家族是真核生物基因组织中最显著 的特征之一。它的家族成员在核酸上 的同源性提示它们是由同一个祖先基 因进化而来的。
51
2 ) 多基因家族的分类Ⅰ. 按基因的终产物分类 ⑴ 编码 RNA 的多基因家族 如:编码 snRNA 、 tRNA 、 rRNA 等 基因
⑵ 编码蛋白质的多基因家族 如:组蛋白、干扰素、珠蛋白 生长激素等基因
52
Ⅱ. 按在基因组中的分布不同分类 ⑴基因串联排列在一起,形成基因簇 (gene cluster) ,也叫串联重复基因 (tandemly repeated genes) 。 如: rRNA 、 tRNA 、组蛋白等基因
53
① rRNA
真核生物 rRNA 转录单位 (18S 、 5.8S 、 28S) ,分布在 13 、 14 、 15 、 21 和 22号 染色体上。人类基因组约含 280 个拷贝。 5SRNA 基因约有 2000拷贝数 (1q42-1q43)
②tRNA
人类约有 1300 个 tRNA 基因,每种 tRNA 有 10到几百个基因拷贝,同种 tRNA串联形成基因族( 7q32~q36 )
54
55
③ 组蛋白( 7q32~q36 ) ⅰ )人类拷贝数为 30~40 ,基因中没有 内含子转录后 mRNA 无 polyA尾巴。 ⅱ)组蛋白基因家族有 5 个成员: 即 H1 、 H2A 、 H2B 、 H13 、 H4 5 个成员 的基因串联排列在一起构成一个重复 单位,各种生物中这 5 个基因的排列 顺序有所不同
56
57
① 干扰素 INF - α 白细胞产生 至少 10 个基因 9 p21 INF - β 成纤维细胞产生 1 个基因 9 p21 INF - r 淋巴细胞产生 1 个基因 12q24.1
⑵. 分散在染色体不同的部位。 如:干扰素,珠蛋白,生长激素等等。
58
α 类 16p12② 珠蛋白 β 类 11p15
α 类基因 5’ - ζ - ζ - a1 - a2 - a1 - 3’
β 类基因 5’ - ε - Gr - Ar - β - δ - β - 3’
59
③ 生长激素 人生长激素 ( hGH ) 17q 包括 3 种基因 人胎盘促乳素( hCS ) 17q 催乳素 6号染色体
hGH-N hCS-L hCS-A hGH-V hCS-B
正常表达 假基因 正常表达 未发现表 正常表达 达产物
60
Ⅲ. 假基因( pseudogene ) ⑴. 概念: 假基因在核苷酸顺序上与有功能基因 相似,它们或者不能转录,或者转录 后生成无功能基因产物。假基因常用 符号来表示 。
61
⑵ 假基因有两类①有内含子的假基因 这种类型的假基因保留原来基因的外显子和内含子,但失去起始转录信号,或外显子 - 内含子连接处不能剪接或翻译不能终止 , 细菌与真核生物中都有发现。
62
②无内含子的假基因 仅含有亲本基因的外显子,常常 有 3’ 端 polyA尾巴,并随机分布于基 因组中。这种假基因是源于 mRNA
并通过逆转录而重新整合进基因组。只在真核生物中被发现。
63
64
(四)超基因家族( Supergene family ) 1. 概念: 超基因家族指一组由多基因家族及单基 因组成的更大基因家族。它们在结构上 有程度不等的同源,可能起源于相同的 祖先基因,但功能并不相同 2. 最经典的超基因家族 免疫球蛋白超基因家族 (免疫球蛋白样的结构域)
65
表 5-3 免疫球蛋白超基因家族主要成员分类表
类 别 人类染色体定位 类 别 人类染色体定位
免疫球蛋白 T 细胞表面分子 重链 14q32 一 q33 CD2 1p13 轻链 2p12 CD4 12pter- p12 CD8(A) 2p12
CD8(B) 2p12 轻链 22q11 . 1 一 q11 . 2 CD58(LFA—3) 1p13 Thy-l 11q22 . 3-q23 主要组织相容性复合物 神经组织分子 I类 α链 6p21 . 3 NCAM(CD56) 11q23-q24 β2m 15q21 一 q22 MAG 19q13 . 1 II 类 α链 6p21 . 3 MRC ox--2 3q12-q13 β链 6p21 . 3 Po 蛋白 未定· T 细胞抗原受体复合物 肿瘤抗原 TCR α 链 14q11 . 2 CEA(癌胚抗原 ) 19q13.1 一 ql3.2 生长因子受体 β链 7q35 PDGFRA 4q11 一 q12 γ 链 7ql5 PDGFRB 5q33 一 q35 链 14q11 . 2 CSFlR 5Q33 一 q35 CD3 非细胞表面分子 链 1lq23 αl—BGP 19q13.2 . 链 11q23 基底膜连接蛋白 未定 链 11q23免疫球蛋白受体 LNIR 1
66
67
新的与免疫球蛋白超基因家族有关分子: CD7 , CD28 , IgE受体 α 亚基,BLAST-l ,原癌基因 c-kit , 神经粘附分子L1 ,细胞间粘附分子 -1 、 -2 、 -3 ,血管细胞粘附分子 -1 ,血小板内皮细胞粘附分子 ,
IL-1 和 IL-6 的受体及 EB病毒编码的两种糖蛋白 (QQBE48 及 QQBE4L) 等。
68
3. 原来的多基因家族成为超基因家族 如:丝氨酸蛋白酶超基因家族 (功能区中丝氨酸是活性中心的关 键氨基酸残基)
69
它的家族成员如下: 单纯蛋白酶:胰蛋白酶,糜蛋白酶, 弹性蛋白酶,激肽释放酶 凝血系统:凝血因子Ⅸ、 X ,凝血酶原, 凝血酶原转变加速因子前体 纤溶系统:血纤溶酶原,组织纤溶酶原 激活物,尿激酶 其他:触珠蛋白,载脂蛋白 LP(a)
70
(五)单一序列( unique sequence ) * 占人类基因组 DNA 45 % * 大多数转录开放的结构基因是单 一顺序
71
(六)“自私” DNA ( Selfish DNA ) 指真核生物基因中大量的非编码 序列,包括分散的高度、中度重 复序列、内含子和间隔序列。
72
第四节 人类基因组计划与后基因组计划 一、 人类基因组计划 ( Human Genome Project ,HGP )
73
(一)人类基因组计划初步研究结果表明,人类基因组由31.647亿个碱基对组成,共有3万至 3.5万个基因 , 发现与蛋白质合成有关的基因只占整个基因组的2%
74
(二) 人类基因组的研究要完成全部 基因组 DNA 的测序和分析,就必须制 作四张图谱,即遗传图谱、物理图谱、 序列图谱和转录图谱。
二、后基因组计划三、人类基因组计划的重要意义