一、基因的概念 - [Download PPT Powerpoint]

1

一、基因的概念 1. 基因的生物学意义 1 ） 1865 年 Mendel （孟德尔）在《植物的杂交试验》中提出一个遗传因子决定生物体一个性状。

第二节基因

2

2 ） 1926 年 Morgen （摩尔根）在《基因论》中提出了遗传因子是特定在染色体上，基因是直线排列在染色体上遗传颗粒。一个基因控制一个性状。

3

3 ） 1941 年 Beadle 和 Tatum 提出了 “ 一个基因一个酶” 学说 1950’s Linus 和 Pauling

通过镰状细胞贫血的研究后 , 提出一个基因一个蛋白质 ; 由于有的蛋白质由多个亚基组成 , 提出一个基因决定一种多肽链。

Benzer 提出了“一个顺反子，一条多肽链”

4

基因是合成有功能的蛋白多肽链或 RNA

所必需的全部核酸序列（通常是 DNA

序列）。即除了编码蛋白质或 RNA 的核酸序列，还包括转录所必须的调控序列， 5’ 端非翻译序列，内含子以及 3’ 端非翻译序列等所有的核酸序列。

** 用分子生物学的术语来给基因下定义 :

2. 基因的分子定义

5

二、基因的分类与结构 1. 基因的分类： 1 ）结构基因（ structural gene) ：可转录成 mRNA 并翻译成蛋白质多肽链的基因。 2 ）调控基因 (regulatory gene) ：一些调控结构基因表达的基因，其产物往往是反式转录因子或 DNA 结合蛋白。

6

3) 管家基因（ housekeeping gene ）：在绝大多数细胞中都表达为维持各种细胞基本活动所必需的结构和功能蛋白质编码的基因。如：糖酵解中 3- 磷酸甘油醛脱氢酶 (glyceraldehyde 3-phosphate dehydrogenase, GPDH)

7

4) 奢侈基因 (luxury gene) ：对细胞自身生存并无影响，但这种基因产物通常只在特化细胞类型中大量合成。如：红细胞中合成血红蛋白浆细胞中合成免疫球蛋白

8

5 ）假基因 (pseudo gene) :

在核苷酸序列上与有功能的基因相似，但它们或者不能转录，或者转录后生成无功能的基因产物。

9

2. 基因的结构 DNA 两条链，一个基因的序列或基因结构往往用有意义链（ sense chain) 来表示

有意义链

模板链

转录区域上游区域下游区域

10

三、基因的大小与数量

哺乳动物基因的大小在 5~100 kb ，很少小于 2 kb 。基因的大小与 mRNA 长短无关，与外显子数量无关

11

基因的数量：生殖道支原体 470

嗜血流感菌 1,743

大肠杆菌 4,288

线虫 19,099

人类 30,000~ 40,000

12

第三节基因组的结构与功能基因组（ genome):

是指导一个物种的结构与功能的所有遗传信息的总和。 ** 人类基因组通常是指细胞核 23 对染色体中的所有 DNA 。 ** 人线粒体基因组 (human mitochondria genome)

是人细胞线粒体中基因及 DNA 。

13

基因组学 (genomics) 定义 :

基因组学是研究基因组的结构与功能的科学。

14

二、原核生物基因组

1. 大肠杆菌的 DNA 是环状双链 DNA 分子，染色体密集的区域形成核质体（ nucleiod ） 2. 原核生物绝大多数是单倍体

15

核质体中央超螺旋结构域

16

1 ） DNA 两条链上都有基因。功能上相关的几个基因往往在一起组成操纵子结构

3. 细菌基因组织的特点

17

2 ）基因组中只有一个复制起始点 3 ）没有内含子（ intron ）成分 , 转录后

不需要剪接加工。

4 ）细菌的 DNA 绝大部分用于编码蛋白质，只有小部分是非翻译区，其中包含基因表达调控的 DNA 序列。 5 ）细菌的结构基因极少有重迭现象。 6 ）基因组中重复序列很少。

18

三、病毒和噬菌体基因组 1. 病毒颗粒（ virion) 外壳蛋白内部基因组 DNA 或 RNA

19

1) 在每种病毒中核酸成分只能是一种。

2. 病毒和噬菌体基因组的特点

*肝炎病毒（ hepatitis virus):

甲肝病毒（ HAV ) RNA病毒乙肝病毒（ HBV ） DNA病毒丙肝病毒（ HCV ） RNA病毒丁肝病毒（ HDV ） RNA病毒戊肝病毒（ HEV ） RNA病毒

20

2) 病毒核酸大小差别很大。 3) 大部分病毒核酸是一条单链或双链分子，少数病毒由几个核酸片段组成。 4) 病毒基因组也具有操纵子结构。 5) 噬菌体基因中无内含子，而感染真核细胞病毒有内含子。

21

6) 有重迭基因存在。（ overlapping genes ）

22

四、真核生物基因组

23

（一）真核生物基因组织的 C值矛盾（ C-value paradox ）

* 每种真核生物的单倍体基因组中的全部 DNA 量称 C值

24

1. 有的同类生物中 C值差别有10

倍以上。

25

各种生物的的基因数目与 DNA 量的比较

大肠杆菌

基因数

2350

DNA 分子大小4.2*106

编码序列占基因组 %

98 以上

5

酵母

果蝇

6100

8750

1.3 *107

1.4 *108

人 30000-35000 3.2 *109 2

70

2. DNA 的量远远大于编码蛋白质所需要的量。

26

0.0013

1.9

630

27

快复性组分中间复性组分慢复性组分占基因组百分数 25 30 45

Cot1/2 0.0013 1.9 630

复杂性 bp3506*10

53*10

8

重复频率 500000 1Cot值范围 10

-4~2*10

-20.2~100 80~10000

340

功能

例子

能编码仅能转录不能转录

血红蛋白rRNA,tRNA, 组蛋白基因（能编码 )

卫星 DNA

28

（二）高度重复顺序 * 复性极快，由寡核苷酸串联、重复排列而成的 DNA 序列 * 长度从几个 bp到几百 bp 个或更长 * 重复次数 105～ 106 ，在基因组DNA

中约占 25% 。

29

* 高度重复序列具有的特点是： ⅰ. 重复顺序中一部分常以“祖先序列片段” 形式出现，进化上是原始的，趋向保守。另一部分则以新进化的家族形式出现。

30

ⅱ . 不同家族常源于同一个“祖先重复序列” , 故结构很相似，但同一家族中各个体成员间存在个体突变。 ⅲ. 新的高度重复序列家族，往往是在新的物种衍化时或在进化中，通过一定机制形成，随基因扩大而被扩大。

31

1. 卫星 DNA （ Statellite DNA ） 1 ）卫星 DNA 的概念：真核生物 DNA 剪切后离心，显示一个主峰和小峰。真核生物大部分 DNA 的 G-C 含量在 30% ～ 50% 形成一个主峰另外有些 DNA 的 G-C 含量高于或低于 30%～ 50%会出现小峰，称卫星 DNA 。

32

33

2 ）卫星 DNA 的产生与 C-G 含量有关3 ）卫星 DNA 序列非常简单，重复性极高

34

父亲

母亲

孩子

…GTCGTACGTGACACACACACACACACACACAGTACGATACGT…

…GTCGTACGTGACACACACACACACACACACACAGTACGATACGT…

…GTCGTACGTGACACACACACACACACACAGTACGATACGT…

…GTCGTACGTGACACACACACACACACACACAGTACGATACGT…

…GTCGTACGTGACACACACACACACACACAGTACGATACGT…

父亲母亲孩子46bp

42bp

40bp

42bp

46bp

40bp

42bp

40bp

PCR 结果的凝胶电泳：

图：某个 CA2 核苷酸重复的微卫星在一个家系中的 PCR检测结果示意图

35

2．反向重复顺序（ inverted repeats ） 1 ）概念：具有方向相反、序列相同的 DNA 区域称反向重复顺序 2 ）邻近（ adjacent ）反向重复顺序也称回文结构 (palindrome) 。 … GGTACC…

…CCATGG…

3 ）分隔（ Separated ）反向重复顺序。 … GGTNNNNACC…

… CCANNNNTGG…

36

4 ）在基因组约含 5% 。 5 ）常见于基因组调控区中 , 可能与复制和转录调控有关。

37

（三）中度重复序列（ intermediate repeat ， moderately repetitive DNA,

middle repetitive sequence ）

1. 在基因组 DNA 中约占 30% ，重复出现几十次到几千次。2. 重复单位序列相似，散在分布在基因组中 , 序列的长度和拷贝数非常不均一。

38

1. Alu 家族 ( 短片段间隔型） ⅰ占人类基因组 3 ％～ 10％重复 30万 ~50万次 , Alu 序列高度同源，大部分序列有限制性内切酶 AluⅠ

酶切位点。ⅱ. 人 Alu 顺序长 300bp ，由两个 130bp

的重复序列中间有 31bp 间隔序列 ,

两端各有一段 7～ 21bp正向重复序列。

39

ⅲ . 在人类基因组中，大约 5kbDNA 中就有一个 Alu 序列ⅳ. Alu 序列可能是在 300～ 500万年前起源于 7SL RNA 基因Ⅴ. Alu 序列有部分序列与感染哺乳动物的 DNA病毒的复制起始序列同源 , 提示 Alu 序列可能与 DNA 的复制有关。

40

2. 可转移的 DNA 元件（ mobile DNA elements ）

也称转位因子（ transposable element ）、

* 40 年代 B. McClintock 首先在玉米的遗传学研究中发现 * 1968 年 Jordan 分子水平证实了在大肠杆菌存在 , 引起重视 .

* 现在认为所有的生物体内都存在

41

** 插入序列（ insertion sequences ， IS)

是一类较小的转移元件 * IS 两端有反向重复顺序和正向重复顺序，重复序列之间只有编码与转位有关的蛋白质基因，如转位酶（ transposase)

* IS已发现很多种，每种 IS元件都有不同序列。

42

** 转座子（ transposon , Tn ）除了带有转座有关基因外还带有其他基因。如抗药基因

tnpA tnpR ampr 反向重复序列

38bp 3086bp 558bp 861bp 38bp

tnpA 转座酶基因 ( 转座酶基因作用于原有转座子末端 )tnpR 解体酶基因 (作用于复制拷贝 )ampr 抗氨苄青酶素的 ampr 基因

Tn3

43

44

**真核生物中的转座子逆转录转座子（ retroposon ）先转录成 RNA然后逆转录成 cDNA ，再整合到基因组中。 ⅰ）非病毒样反转录转座子

ⅱ）病毒样逆转录转座子

45

ⅰ）非病毒样反转录转座子

46

ⅱ）病毒样逆转录转座子

47

4 ）转位的遗传效应 Ⅰ. 基因重排 Ⅱ. 基因突变Ⅲ. 插入位点引入新基因Ⅳ. 转移 DNA元件可通过增强子的组合与分布来影响基因的表达

48

piggyBac ( PB ) 转座子在哺乳动物细胞和小鼠中的高效转座 ( Cell No.122 2005)

丁昇许田吴晓晖

49

发现携带多个基因的 PB 因子不仅能在人和小鼠的细胞中，而且能在小鼠体内高效转座。 PB

允许所携基因的表达。 PB 因子在生殖细胞中转座时能从原始插入位点精确切离，并转座到小鼠基因组的不同位点，尤其是基因区。这些数据为在小鼠和其他脊椎动物中建立一个可作为转基因和插入突变等遗传操作工具的高效转座系统迈出了关键性的第一步。

50

4. 多基因家族（ multigene family ）也称基因家族（ gene family )

1 ）概念多基因家族是指一组具有类似功能，核苷酸序列又有同源性的基因。多基因家族是真核生物基因组织中最显著的特征之一。它的家族成员在核酸上的同源性提示它们是由同一个祖先基因进化而来的。

51

2 ）多基因家族的分类Ⅰ. 按基因的终产物分类 ⑴ 编码 RNA 的多基因家族如：编码 snRNA 、 tRNA 、 rRNA 等基因

⑵ 编码蛋白质的多基因家族如：组蛋白、干扰素、珠蛋白生长激素等基因

52

Ⅱ. 按在基因组中的分布不同分类 ⑴基因串联排列在一起，形成基因簇 (gene cluster) ，也叫串联重复基因 (tandemly repeated genes) 。如： rRNA 、 tRNA 、组蛋白等基因

53

① rRNA

真核生物 rRNA 转录单位 (18S 、 5.8S 、 28S) ，分布在 13 、 14 、 15 、 21 和 22号染色体上。人类基因组约含 280 个拷贝。 5SRNA 基因约有 2000拷贝数 (1q42-1q43)

②tRNA

人类约有 1300 个 tRNA 基因，每种 tRNA 有 10到几百个基因拷贝，同种 tRNA串联形成基因族（ 7q32~q36 ）

54

55

③ 组蛋白（ 7q32~q36 ） ⅰ ）人类拷贝数为 30~40 ，基因中没有内含子转录后 mRNA 无 polyA尾巴。 ⅱ）组蛋白基因家族有 5 个成员：即 H1 、 H2A 、 H2B 、 H13 、 H4 5 个成员的基因串联排列在一起构成一个重复单位，各种生物中这 5 个基因的排列顺序有所不同

56

57

① 干扰素 INF － α 白细胞产生至少 10 个基因 9 p21 INF － β 成纤维细胞产生 1 个基因 9 p21 INF － r 淋巴细胞产生 1 个基因 12q24.1

⑵. 分散在染色体不同的部位。如：干扰素，珠蛋白，生长激素等等。

58

α 类 16p12② 珠蛋白 β 类 11p15

α 类基因 5’ － ζ － ζ － a1 － a2 － a1 － 3’

β 类基因 5’ － ε － Gr － Ar － β － δ － β － 3’

59

③ 生长激素人生长激素（ hGH ） 17q 包括 3 种基因人胎盘促乳素（ hCS ） 17q 催乳素 6号染色体

hGH-N hCS-L hCS-A hGH-V hCS-B

正常表达假基因正常表达未发现表正常表达达产物

60

Ⅲ. 假基因（ pseudogene ） ⑴. 概念：假基因在核苷酸顺序上与有功能基因相似，它们或者不能转录，或者转录后生成无功能基因产物。假基因常用符号来表示。

61

⑵ 假基因有两类①有内含子的假基因这种类型的假基因保留原来基因的外显子和内含子，但失去起始转录信号，或外显子 - 内含子连接处不能剪接或翻译不能终止 , 细菌与真核生物中都有发现。

62

②无内含子的假基因仅含有亲本基因的外显子，常常有 3’ 端 polyA尾巴，并随机分布于基因组中。这种假基因是源于 mRNA

并通过逆转录而重新整合进基因组。只在真核生物中被发现。

63

64

（四）超基因家族（ Supergene family ） 1. 概念：超基因家族指一组由多基因家族及单基因组成的更大基因家族。它们在结构上有程度不等的同源，可能起源于相同的祖先基因，但功能并不相同 2. 最经典的超基因家族免疫球蛋白超基因家族（免疫球蛋白样的结构域）

65

表 5-3 免疫球蛋白超基因家族主要成员分类表

类别人类染色体定位类别人类染色体定位

免疫球蛋白 T 细胞表面分子重链 14q32 一 q33 CD2 1p13 轻链 2p12 CD4 12pter- p12 CD8(A) 2p12

CD8(B) 2p12 轻链 22q11 ． 1 一 q11 ． 2 CD58(LFA—3) 1p13 Thy-l 11q22 ． 3-q23 主要组织相容性复合物神经组织分子 I类 α链 6p21 ． 3 NCAM(CD56) 11q23-q24 β2m 15q21 一 q22 MAG 19q13 ． 1 II 类 α链 6p21 ． 3 MRC ox--2 3q12-q13 β链 6p21 ． 3 Po 蛋白未定· T 细胞抗原受体复合物肿瘤抗原 TCR α 链 14q11 ． 2 CEA(癌胚抗原 ) 19q13.1 一 ql3.2 生长因子受体 β链 7q35 PDGFRA 4q11 一 q12 γ 链 7ql5 PDGFRB 5q33 一 q35 链 14q11 ． 2 CSFlR 5Q33 一 q35 CD3 非细胞表面分子链 1lq23 αl—BGP 19q13.2 ．链 11q23 基底膜连接蛋白未定链 11q23免疫球蛋白受体 LNIR 1