03 解读密码:DNA问世
早在艾弗里的实验让世人注意到DNA为“转化因子”之前,遗传学家就己经试图了解遗传物质——不论它究竟为何——如何能影响特定生物体的特征。换句话说,孟德尔的“因子”如何影响豆子的外形,使它们变皱或光滑?
第一个线索出现于19世纪和20世纪交替之际,就在世人重新发现孟德尔的研究之后。加罗德(Archibald Garrod)是一位英国医师,由于在医学院的学习进展缓慢,又欠缺对待病人的良好态度,因此无法在伦敦的圣巴多罗买医院(St. Bartholomew's Hospital)行医,只能朝研究方向发展。他对一类罕见的疾病特别感兴趣,这类疾病共同的显著症状是尿液的颜色很奇怪。其中有一种病症叫黑尿症(alkaptonuria),由于这种病的患者所排出的尿液在接触到空气后会变成黑色,因此得名,俗称“黑尿布症候群”(black diaper syndrome)。尽管黑尿看起来挺吓人,但黑尿症通常并不会致命,然而随着黑尿的色素在关节与脊柱逐渐累积后,年老时会出现类似关节炎的症状。当时医学界认为这些病患的尿液是因为肠道细菌所制造的物质而变黑的,但是加罗德却认为,肠道内没有细菌的新生儿也会出现黑尿,就表示这种物质是由人体本身所制造的。他推论问题在于人体化学机制的缺陷,以他的说法是“新陈代谢出了错”,也就是说,这可能是某条生化路径出现严重差错的结果。
在X光分析下,细胞的蛋白质工厂核糖体呈现出壮观的立体结构。(为了简化之便,这个由计算机产生的影像没有显示原子。)每个细胞里都有数百万个核糖体,DNA的编码信息就是在这里协助制造蛋白质,而蛋白质是生命分子剧本里的主角。核糖体包含由RNA构成的两个次单位(橘和黄),另有大约60个蛋白质(蓝与绿)覆在外面。图中的核糖体正在制造蛋白质。特化的小RNA分子(紫、白与红)将氨基酸运输至核糖体,以加入不断成长的蛋白质链。
加罗德进一步观察到,尽管黑尿症病患占总人口的比例很低,但显然比较常见于近亲通婚的子女身上。到了1902年,他终于可以用重新“出土”的孟德尔定律来解释这种现象。罕见隐性基因的遗传模式如下:如果一对堂兄妹各自从同一位祖父母遗传到黑尿症的一份基因,则他们结婚后生下的子女将有1/4的几率会得到纯合型(homozygous)基因(即同时拥有两个隐性基因),并在未来罹患黑尿症。加罗德在结合生化与遗传分析后,推论黑尿症是一种“先天的新陈代谢错误”。虽然当时没有人真的了解他的研究,加罗德仍是第一位在基因与其生理影响之间找出因果关系的人。基因以某种方式控制新陈代谢的过程,而基因出错(即突变)可能造成代谢路径发生缺陷。
一直到1941年,比德尔(George Beadle)与塔特姆(Ed Tatum)发表了一项热带面包霉的诱发突变研究时,重要进展才出现。比德尔在内布拉斯加州瓦胡(Wahoo)市郊长大,若不是高中科学老师鼓励他朝其他领域发展,他很可能接掌家族农场。1930年代,比德尔先和以果蝇研究闻名的摩根在加州理工学院共事,再转到巴黎生物理化研究院(Institut de Biologie Physico-Chimique),努力寻找基因如何发挥影响力,例如如何影响果蝇眼睛的颜色。他1937年来到斯坦福大学后,立即邀请塔特姆加入研究团队,而塔特姆不顾指导教授的忠告答应了他。塔特姆在威斯康辛大学完成大学与研究所的学业,以牛奶里的细菌为研究主题(在这个奶酪之州,这个研究对象倒是不虞匮乏)尽管与比德尔共事可能会在智慧上有挑战性,但塔特姆在威斯康辛的教授却希望他能到奶酪农业领域就业,在经济上比较有保障。对科学界而言,幸好塔特姆舍弃了奶油而选择了比德尔。
比德尔与塔特姆发觉,果蝇对他们的研究来说太过复杂,要在像果蝇这么复杂的生物身上找出单一突变所造成的影响,简直是海底捞针。因此他们决定研究在各方面都简单得多的红面包霉(Neurospora crassa,一种从热带国家的面包上长出的橘红色霉菌)。他们的计划很简单:釆取先前穆勒研究果蝇的做法,用X光照射红面包霉,造成突变,然后找出突变对霉菌的影响。他们追踪突变影响的方法如下。当时已经知道,正常(未突变)的红面包霉可以在含有最简单养分的基本培养基里存活,靠着这种基本食物,它们可以利用培养基里的简单分子,以生化方式合成生存所需的较大分子。比德尔与塔特姆推论,能破坏任意一种合成路径的突变,都会使经过X光照射的霉菌无法在基本培养基里生长;但是,如果提供它们“完整的”培养基,也就是其中包含了生存所需的所有分子,例如氨基酸与维生素,则它们应该能继续生长。换句话说,即使突变造成霉菌无法合成某种重要的养分,但是只要能从培养基中直接取得这种养分,突变就变得无害了。
比德尔与塔特姆照射了大约5000个样本,一一试验它们是否能在基本培养基中存活。第一个样本存活得很好,第二个也是,然后第三个……一直试到第299个,他们才找到无法在基本培养基中存活的菌株,不过如同预期,它能够在完整的培养基里生存。第299号菌株成为他们分析的第一个突变菌株,其后又分析了更多。下一步是找出这些突变种丧失的究竟是哪一种能力。或许第299号菌株无法生存,是因为无法合成必要的氨基酸。于是比德尔和塔特姆将氨基酸加入基本培养基,但是第299号仍旧无法生长。会不会是维生素呢?他们又将大量维生素加入基本培养基,这次第299号终于成功生长。接着他们开始缩小范围,每次只加入一种维生素,然后量测299号的生长反应。加入烟碱酸,没反应,核黄素也不管用,一直到加入维生素B6时,第299号才能在基本培养基中生存。X射线对第299号造成的突变,不知何故中断了制造B6的合成路径。但这究竟是如何造成的?比德尔与塔特姆知道,这类生化合成过程是由蛋白质酶所控制的,它们会催化合成路径中个别的化学反应,因此他们认为自己发现的每个突变都会破坏特定的酶。而既然突变发生在基因上,酶肯定是基因制造的。当他们在1941年发表研究结果时,形成了一句流行标语,而它也总结出对基因运作的理解:“一种基因,一种酶。”
由于当时认为所有的酶都是蛋白质,因此大家很快就开始问,基因是否也为不是酶的细胞蛋白质编码。率先提出基因可能把信息提供给所有蛋白质的,是泡令位于加州理工学院的实验室。他和学生板野(Harvey Itano)研究血红素(hemoglobin),这种红血球中的蛋白质负责将氧气从肺输送至新陈代谢活跃的需氧组织,例如肌肉。他们专攻镰形细胞症患者的血红素,这种病也称为镰形细胞贫血症(sickle-cell anemia),是非洲人常见的基因病变,因此在非洲裔美国人中也很常见。镰形细胞贫血症患者的红血球细胞往往变形,在显微镜下呈现独特的镰刀状,它们会造成微血管堵塞,使病人极为痛苦,甚至会致命。后来的研究为这种疾病常见于非洲人身上找到合理的进化解释:由于疟疾寄生虫的生命周期中有一部分是在红血球内度过,因此有镰形细胞血红素的人,在罹患疟疾时,症状较不严重。人类的进化似乎替一些热带地区居民签下了类似浮士德的魔鬼交易:以承受镰形细胞造成的痛苦,换取减轻疟疾之苦。
板野与泡令比较镰形细胞贫血症患者与正常人的血红素,发现这两种分子的差异在于电荷。当时正值1940年代晚期,遗传学家认为镰形细胞贫血,是以孟德尔典型的隐性性状来遗传的。于是他们推论,镰形细胞贫血必然是血红素基因发生突变所引起的,这种突变对血红素的化学组成造成影响。因此泡令重新修正加罗德所说的“先天的新陈代谢错误”,认为有些是“分子疾病”。镰形细胞贫血正是一种分子疾病。
1956年,英格拉姆(Vernon Ingram)在镰形细胞血红素的研究上有进一步的发现,他的研究地点就是我和克里克发现双螺旋的卡文迪什实验室。英格拉姆使用新近发展出来的、可以识别蛋白质组合链中特定氨基酸的方法,精确找出板野和泡令所谓对分子总电荷造成影响的分子差异。这个差异起因于一个氨基酸:英格拉姆发现,在正常蛋白质链上第六个位置的谷氨酸,在镰形细胞血红素中被缬氨酸所取代。这确切证明了基因突变(在基因的DNA密码A,T,G,C序列上的差异)可以直接“对应”到蛋白质上氨基酸序列的差异。蛋白质是生命的活跃分子,它们形成催化生化反应的酶,提供人体主要的构成要素,例如组成皮肤、头发与指甲的角质。DNA之所以能控制细胞、控制发育,乃至于整个生命,就是通过蛋白质。但是DNA内的编码信息(由A,T,G,C构成的分子链),如何转换至蛋白质(即氨基酸链)上?
我和克里克发表关于双螺旋的说明后不久,陆续收到俄罗斯出身的知名理论物理学家伽莫夫(George Gamow)的来信。他总是亲笔写信,还会加一些漫画和涂鸦,有些与内容有关,有些没多大关系。他在信上的署名总是一个简单的“Geo”(后来我们才发现它的发音是jo)。他对DNA产生兴趣,而且早在英格拉姆确切证明了DNA的碱基序列和蛋白质的氨基酸序列之间的关联时,就开始对DNA和蛋白质的关系感到好奇。伽莫夫体会到生物学终将成为一门精密科学,并且预言未来所有生物的遗传密码都能用一长串以1,2,3,4构成的数字来表示,这4个数字各自代表一个碱基(A,T,G,C)。起初我们以为他在说笑,完全忽视他的第一封信。不过几个月后,当克里克在纽约市碰到他时,清楚地看出他惊人的才能,而我们也立即欢迎他登上DNA的列车,成为最早上车的乘客之一。
突变的重击:人类β血红素基因上的DNA序列里有一个碱基发生变化,造成进入蛋白质链的是缬氨酸,而非谷氨酸。这个差异造成镰形细胞贫血症,红血球扭曲成独特的镰刀状。
伽莫夫在1934年离开苏联来到美国。在1948年的一篇论文中,他解释宇宙中有大量不同的化学元素,跟在大爆炸(Big Bang)早期阶段发生的热核过程有关。这个研究是由伽莫夫和他指导的研究生阿尔法(Ralph Alpher)所作的,所以署名应该是“阿尔法与伽莫夫”,但是伽莫夫却决定将他朋友贝特(Hans Bethe)的名字加上去,贝特无疑是位极为出色的物理学家,但是对这项研究丝毫没有贡献。生性爱开玩笑的伽莫夫对于这篇论文能署名为“Alpher, Bethe, and Gamow”(读音极似希腊字母α、β和γ),又刚好在4月1日愚人节发表,感到非常高兴。至今,宇宙学家仍将这篇论文称为αβγ(Alpha-Beta-Gamma)论文。
等到1954年我和伽莫夫首次见面时,他已想出一套理论。根据他的说法,DNA碱基的重叠三联体可以“指定”特定的氨基酸。他的理论基础在于他认为每个碱基对的表面都有一个空洞,而这个空洞的形状刚好跟氨基酸表面一部分的形状互补。我告诉伽莫夫,我对这一点感到怀疑,氨基酸在连结成链(称为多肽链)之前,不可能直接以DNA为其排序的模板。伽莫夫是物理学家,我想他可能没看过相关论文——一些科学论文曾指出,蛋白质合成作用不可能发生于DNA所在位置(即细胞核)。事实上,科学家曾观察到,移走细胞内的细胞核,并不会立即影响蛋白质的制造速度。今日我们已经知道氨基酸是在核糖体(ribosome)内组合成蛋白质,核糖体是包含RNA这第二种形式的核酸的细胞内小粒子。
当时对于RNA在生命的生化谜团中所扮演的角色还不是很清楚。在有些病毒中,例如烟草花叶病毒,RNA所扮演的角色跟其他物种的DNA类似,能为该生物体特有的蛋白质编码。而在细胞中,RNA必定有参与蛋白质的合成,因为制造众多蛋白质的细胞通常都富含RNA。即使在我们发现双螺旋之前,我就认为染色体DNA的遗传信息,有可能用于制造由互补序列构成的RNA链。然后这些RNA链可以作为模板,用于指定氨基酸在各自蛋白质中的顺序。若是如此,RNA就是DNA与蛋白质之间的中间物。后来克里克将这种DNA→RNA→蛋白质的信息流向称为“中心法则”(central dogma)。1959年,RNA聚合酶(polymerase)的发现很快成为这种观点的佐证。几乎在所有的细胞中,聚合肽都能催化由双股DNA模板制造单股RNA链的过程。
要找到蛋白质制造过程的重要线索,似乎应该进一步研究RNA,而不是DNA。为了鼓励大家“破解密码”,也就是解开DNA序列和蛋白质上氨基酸序列的谜样关系,我和伽莫夫创立了“RNA领带俱乐部”(RNA Tie Club)。由于只有20种氨基酸,所以俱乐部成员人数限制在20人,各代表一个氨基酸。伽莫夫设计了俱乐部的领带,并且委托工厂制造代表特定氨基酸的领带夹,作为职位徽章。每个领带夹上都有特定氨基酸的三个字母缩写,配戴有哪种氨基酸缩写的领带夹,就负责研究哪种氨基酸。我拿的是脯氨酸(proline, PRO),伽莫夫的是丙氨酸(alanine, ALA)。在那个年代,领带夹上的字母通常是姓名的缩写,伽莫夫也乐得用他的ALA领带夹来迷惑别人。结果他反而整到自己,有次一位眼尖的旅馆收银员就拒收他的支票,因为支票上的名字和他领带夹上的缩写完全无关。
当时对编码计划感兴趣的科学家大半可以挤入这个限制在20人的俱乐部,可见那时的DNA-RNA学界真的很小。伽莫夫轻易就替非生物学家的好友、物理学家特勒(Edward Teller)找到一个位置,由他负责研究亮氨酸(leucine, LEU),我则引介费曼(Richard Feynman)来研究甘氨酸(glycine, GLY)。费曼任职于加州理工学院,是极富创意的物理学家,他在研究原子力遇到挫折时,经常到生物大楼来找我。
伽莫夫1954年提出的理论中有一项假设具有可以测试的优点,因为它牵涉到重叠的DNA三联体。伽莫夫推测,事实上许多对氨基酸在蛋白质中永远不可能相邻排列。因此他热切地等待更多的蛋白质序列出炉。令他失望的是,愈来愈多氨基酸被发现时是彼此相邻的,他的假设愈来愈站不住脚。1956年,负责研究缬氨酸(valine, VAL)的布雷纳(Sidney Brenner)在分析当时已经发现的所有氨基酸序列之后,终于给了伽莫夫所设想的编码方式致命性的一击。
布雷纳从小在南非约翰内斯堡外的小镇长大,住家就是父亲那间补鞋店后面的两个房间。虽然来自立陶宛的移民老布雷纳并不识字,但他早熟的儿子在4岁时就爱上读书,后来在一本名为《生命科学》(The Science of Life)的教科书影响下,这股热情转向生物学。布雷纳日后承认他从公共图书馆偷走了这本书,但盗窃和贫穷都不能阻碍布雷纳发展。他14岁便进入威特沃特斯兰德大学(University of Witwatersrand),专攻医学课程。他在我们发现双螺旋一个月后来到剑桥时,正在牛津大学攻读博士学位。他回想起自己看到我们那个模型时的反应:“当时我一看到它便知道这就是了。在那一瞬间,你知道这是非常基础性的。”
伽莫夫并不是惟一一位在理论上栽跟头的科学家,我也有过挫败的时候。发现双螺旋后不久,我前往加州理工学院,想找出RNA的结构。但是负责精氨酸(arginine, ARG)的瑞奇(Alexander Rich)和我很快就发现,RNA的X光衍射图所产生的图案无法解释——这个分子的结构显然不像DNA那么规则。同样令人沮丧的是,在一封1955年初发给所有领带俱乐部会员的记录中,负责酪氨酸(tyrosine, TYR)的克里克预测,DNA→蛋白质的转型秘密并不是隐藏在RNA的结构中,这跟我想的不同。他认为氨基酸可能是由所谓的转接分子(adaptor molecule)带往合成蛋白质的实际位置的,而且每一种氨基酸都有特定的转接分子。他推测这些转接物本身可能是非常小的RNA分子。我拒绝接受他的推理达两年之久,后来一个极度意外的生化发现,证实了他的创新观点正中目标。
这个发现来自波士顿的马萨诸塞州总医院,在那里任职的查美尼克(Paul Zamecnik)花了数年时间发展研究蛋白质合成的“无细胞”(cell-free)系统。细胞是高度区隔化的物体,查美尼克正确地看出,若想研究细胞内部的现象,就有必要排除细胞内多种薄膜所形成的复杂情况。他和同事使用取自老鼠肝脏组织的物质,在试管里重建简化后的细胞环境(即“无细胞系统”),利用放射线标记追踪合成蛋白质的氨基酸。查美尼克以这种方法找出核糖体是蛋白质的合成地点,但起初伽莫夫并不接受这个结果。
不久,在同事霍格兰(Mahlon Hoagland)的协助下,查美尼克甚至有了更惊人的发现,那就是氨基酸在形成多肽链之前,是与小RNA分子相结合的。起初他们对这结果感到迷惑,直到听我说起克里克的转接分子理论才恍然大悟。接着他们很快证实了克里克的想法,亦即每一种氨基酸都有特定的RNA转接分子,称为转移RNA (transfer RNA,简称tRNA)。每一个转移RNA分子的表面都有特定的碱基序列,能连接至对应的RNA模板片段,从而在蛋白质合成时,依序排列氨基酸。
在发现转移RNA之前,一般认为所有的细胞RNA都具有模板的角色。现在我们发觉到,其实RNA有好几种不同的形式,只不过其中最重要的是组成核糖体的两条RNA主链。当时令人不解的是,根据观察,这两条RNA链的长度是固定的。如果这些链的确是合成蛋白质的真实模板,长度应该会随着要合成的蛋白质的不同尺寸而异。同样令人困惑的是,这些链的新陈代谢非常稳定,一旦合成后就不会崩解。然而巴黎巴斯德研究院(Institut Pasteur)的实验却指出,许多细菌的蛋白质合成模板都非常短命。更奇怪的是,这两个核糖体RNA链的碱基序列,似乎跟个别染色体DNA分子的碱基序列没有关联。
1960年,在发现第三种RNA,也就是信使RNA (messenger RNA,mRNA)之后,这些矛盾终于获得解决。信使RNA证实为蛋白质合成的模板。我在哈佛实验室,以及梅索森、雅各布(Francois Jacob)和布雷纳在加州理工学院及剑桥所做的实验,都显示核糖体是个分子工厂。信使RNA从两个核糖体次单位之间通过,就像送入老式计算机的卡片。各自带着氨基酸的转移RNA附着到核糖体内的信使RNA上,让氨基酸在以化学键形成多肽链前,先排好顺序。
不过当时遗传密码仍隐晦难解,我们不明白核酸的序列是根据什么规则转译为规律的多肽序列的。在RNA领带俱乐部1956年一份文件中,布雷纳提出了一些理论问题,要点如下:在只有4个DNA字母(A、T、G、C)的情况下,这套密码要如何指定由20个氨基酸中的哪一个接在某一点上来组成蛋白质链?一个核苷酸,因为只有4种变换身份的可能性,显然是不够的。即使两个核苷酸,也只有16(4×4)种可能,仍然不够用。因此,至少要三个核苷酸一组,形成三联体,才可能为每个氨基酸编码。但是这会造成令人不解的重复对应问题。以三联体来编码,有64种排列的方式(4×4×4),但是氨基酸只有20个,这是否代表大多数的氨基酸可以由一个以上的三联体来编码?若是如此,用“四联体”来编码,总共可以有256种(4×4×4×4)排列方式,原则上应该也适用,只不过这样的话,重复对应的情况会更多。
RNA领带俱乐部的第一封公函:信上列出20位会员随机分配到的氨基酸领带夹。这封信是伽莫夫发给沃森的,信末有伽莫夫亲笔字迹。信头底下印着俱乐部的箴言:“不成功便成仁,不然干脆啥也别做。”
1955年的RNA领带俱乐部聚会,有领带为证。左起依次为克里克、瑞奇、奥格尔(Leslie Orgel)以及沃森。
1961年,布雷纳与克里克在剑桥大学以决定性的实验证明,DNA密码是以三联体为基础。他们巧妙地使用化学诱变剂来删除或插入DNA碱基对,结果发现插入或删除单一一个碱基对都会造成破坏性的“移码”(frameshift)现象,因为在突变位置之外的所有编码都会因此而乱掉。现在假设有一个二个字母的密码JIM ATE THE FAT CAT(吉姆吃掉肥猫),把第一个T删掉后,如果还要保持三个字母的密码结构,则原句会变成JIM AET HEF ATC AT,被删除字母以后的部分全都变成胡言乱语。如果插入或删除两个字母,也会造成相同的情况:删除第一个T与E,得到的是JIM ATH EFA TCA T,这更混乱。如果删除(或插入)三个字母呢?移除第一个A,T与E,我们得到的是JIM THE FAT CAT,虽然失去一个“单字”ATE,但是至少保留了句子里其他的字义。即使删除的部分是分散在一个以上的单字中,例如删除第一个T与E,以及第二个T,我们仍然只是丧失两个单字,在它们前后的部分仍能保留:JIM AHE FAT CAT。DNA序列也是一样:插入或删除单一字母(一个碱基)会对蛋白质造成很大的破坏,因为移码效应会使插入或删除点以外的每一个氨基酸都发生改变,而插入或删除两个字母的情况也一样。但若沿着DNA分子插入或删除三个字母,不见得会造成灾难性的影响,这么做会加入或消除一个氨基酸,但不见得会阻断所有的生化活动。
有一天深夜,克里克和同事巴奈特(Leslie Barnett)一起到实验室查看三联体删除实验的最终结果,他立刻意识到这个结果的重要性,于是告诉巴奈特:“全球只有你和我知道,它是三联体编码!”克里克和我是最先窥见生命双螺旋秘密的人,现在他又成为最先确认这个秘密是以三字码撰写的人。
因此,遗传密码是以三个“字母”所写成(这个三联体被称为密码子[codon]),而DNA到蛋白质的连结则是以RNA作为中介物质。但是,我们仍然必须破解密码。例如,序列为ATA TAT或GGT CAT的DNA片段,指定的是哪一对氨基酸?关于这个问题的第一条线索,出现在1961年尼伦伯格(Marshall Nirenberg)于莫斯科国际生化会议上所发表的演说。
伽莫夫在他的实验室里
尼伦伯格在美国国家卫生研究院(National Institute of Health, NIH)服务,在听到关于信使RNA的发现后,他开始思索,如果要在无细胞系统中合成蛋白质,在试管内合成的RNA和自然产生的信使RNA,不知其效能是否相同。为了找出结果,他按照6年前法国生化学家格伦伯格-马纳戈(Marianne Grunberg-Manago)在纽约大学发展出的程序来制造RNA。格伦伯格-马纳戈发现一种能制造AAAAAA或GGGGGG等氨基酸链的RNA酶。此外,由于RNA与DNA之间一个重要的化学差异在于RNA有尿嘧啶(U),而没有DNA的胸腺嘧啶(T),因此这种酶也会制造UUUUUU,以生化术语来说,就是聚尿嘧啶(poly-U)。1961年5月22日,尼伦伯格和德国同事马特伊(Heinrich Matthaei)将聚尿嘧啶加入无细胞系统,结果非常惊人:核糖体开始产生一种简单的蛋白质,而且全是由同一种氨基酸“苯丙氨酸”(phenylalanine)所组成。他们发现聚尿嘧啶是为苯丙氨酸编码的,因此,指定苯丙氨酸的三字母遗传密码中,必定有一个是UUU。
1961年夏天的那场国际大会,聚集了分子生物界所有的重要人物,在当时默默无闻的年轻科学家尼伦伯格仅受邀演讲10分钟,而且几乎没有人到场聆听,包括我在内。但是当他的惊人发现传开后,克里克立即安插他在稍后的会议中,对着如今引颈以待的满座观众发表研究结果。那一刻真是非比寻常:一个无名小卒,安静谦逊的年轻人,在众多分子生物学泰斗面前,指出寻找完整基因密码之路。
实际上,尼伦伯格与马特伊只解决了1/64的问题,当时我们只知道UUU是为苯丙氨酸编码的密码子,还有63组三个字母的密码子尚待解开。接下来的数年,掀起一股研究热潮,大家都努力寻找其他密码子代表的是哪个氨基酸。当时的棘手问题在于如何合成RNA的各种排列组合。UUU(聚尿嘧啶)算是很单纯的,较易制造,但是AGG呢?许多巧妙的化学方法都是为了解决这些问题而设计出来的,其中有不少出自威斯康辛大学的霍拉纳(Gobind Khorana)之手。到了1966年,64个密码子各自指定哪一个氨基酸的秘密(即遗传密码本身)都已解开。1968年,霍拉纳与尼伦伯格荣获诺贝尔生理医学奖。
现在我们可以把整个故事串连起来,以血红素蛋白质为例,看看特定的蛋白质是如何制造的。红血球专门运输氧气:它们利用血红素,把氧气从肺输送至需要氧的组织。红血球是在骨髓中由干细胞(stem cell)制造出来的,速率惊人,大约每秒可以造出250万个红血球。
当需要制造血红素时,骨髓DNA的相关片段,即血红素基因,会像DNA复制时一样拉开双股,但不是两股都复制,而是只复制一股,以专业术语来说,就是转录(transcribe);而且在RNA聚合肽的协助下所制造的产品,不是全新的DNA股,而是新的单股信使RNA,对应血红素基因。这时,原先产生RNA的DNA,其两股会再度密合。
接着,信使RNA被输送到细胞核外,来到本身就是由RNA和蛋白质构成的核糖体。在这里,信使RNA序列中所携带的信息将用于制造新的蛋白质分子;这个过程即所谓的转译(translation)。氨基酸附着在转移RNA上被运至现场。在转移RNA的一端是一个特定的三联体(71页图例所示为CAA),它可以找出信使RNA上跟它相对应的三联体GUU。转移RNA另一端拖引着跟它结合的氨基酸,在此例为缬氨酸。由于接下来的DNA序列是TTC(赖氨酸的密码子),因此信使RNA的下一个三联体会对应到赖氨酸的转移RNA上。现在剩下来要做的就是以生化方法将两种氨基酸结合在一起。重复这个过程100次,就可以制造出有100个氨基酸长度的蛋白质链。这些氨基酸的顺序,是根据DNA上A,T,G,C的顺序决定的,而信使RNA正是由此DNA所产生。两种血红素链的长度分别为141与146个氨基酸。
遗传密码,显示了决定信使RNA序列的三联体序列。DNA与RNA之间有一个重要差异,即DNA使用胸腺嘧啶(T),RNA则使用尿嘧啶(U),如左图所示。这两个碱基都与腺嘌呤(A)互补。终止密码子的作用正如其名:它们表示基因编码的结束。
遗传密码 | |
---|---|
氨基酸 | RNA密码子 |
丙氨酸 | GCA GCC GCG GCU |
精氨酸 | AGA AGG CGA CGC CGG CGU |
天冬酰氨 | AAC AAU |
天冬氨酸 | GAC GAU |
半胱氨酸 | UGC UGU |
谷氨酸 | GAA CAG |
谷酰胺酸 | CAA CAG |
甘氨酸 | CAA CAG |
组氨酸 | CAC CAU |
异亮氨酸 | AUA AUC AUU |
…… | …… |
不过,蛋白质并非仅是线状的氨基酸链。一旦制造出氨基酸链后,蛋白质会折叠成复杂的构造,有时是自行折叠,有时则借助“辅助”分子。蛋白质必须形成这种结构后才会有活跃的生物作用。以血红素为例,它必须由四条链组成后才能发挥作用。其中两条链为同类型,另外两条是稍有不同的类型。在每条卷曲的链的中心,都载有传输氧气的重要关键,即铁原子。如今我们可以使用现代的分子生物学技术,重新审视早期遗传学的经典研究。对孟德尔而言,造成豌豆有皱皮与光滑之分的机制极为神秘,他只知道这些性状的遗传法则——也就是他研究出来的“孟德尔定律”。不过,现在我们已经了解到造成皱皮与光滑这种差异的分子细节。
1990年,英国科学家发现皱皮豌豆缺乏一种与处理淀粉有关的酶,淀粉是储存在豌豆中的碳水化合物。皱皮豌豆所以会形成,是因为处理淀粉的酶发生基因突变(有不相关的DNA插入基因中间)而不起作用。由于突变的结果,豌豆含有的淀粉较少、糖较多,因此在成熟过程中流失的水分较多。然而在水分流失且豆子体积随之减小时,豌豆外面的种皮没有跟着缩小,结果形成独特的皱皮:因为内含物太少,种皮撑不起来。
左起为翟拉纳、克里克及格伦伯格-马纳戈。尼伦伯格以格伦伯格-马纳戈的创新研究为基础,在有了初步的突破后,霍拉纳接续尼伦伯格,又解开许多遗传密码,后来两人共同获得诺贝尔奖。
加罗德的黑尿症也进入分子时代。1995年,研究真菌的西班牙科学家发现一种突变基因,其突变会导致加罗德在黑尿病患者的尿液中找到的物质发生累积。这个基因平常会制造一种酶,而这种酶是许多生命系统的基本配备,人类也有这种基因。比较人类与真菌的基因序列就有可能找出人类身上的这个基因,它所编码的酶称为尿黑酸加氧酶(homogentisate dioxy-genase)。下一步是比较正常人与黑尿病患者的基因,结果发现黑尿症患者的基因所以不起作用,是因为有一个碱基对发生突变。加罗德所说的“先天的新陈代谢错误”被证明是DNA序列中的一个差异造成的。
现在,再转回到过去。1966年在冷泉港举办的遗传密码会议中,弥漫着一股大功告成的气氛。密码已然破解,我们也大致知道DNA如何通过它所指定的蛋白质来控制生命的程序。有些老手认为应该开始研究基因以外的事物。克里克决定跨入神经生物学,他向来不畏艰难,而且对人类大脑的运作特别感兴趣。布雷纳转而研究发育生物学,选择钻研简单的线虫(Nematode worm),因为他相信科学家可以借由研究这种简单的生物,揭露基因与发育之间的关联。今日在我们这一行,线虫的确成为生物体如何形成的重要信息来源(我们叫它“虫子”,不必提全名,大家都知道指的是线虫)。2002年,诺贝尔奖委员会把生理医学奖颁给布雷纳和另两位长期研究线虫的科学家——剑桥大学的萨尔斯顿(John Sulston)与麻省理工学院的贺维兹(Bob Hervitz),肯定了线虫的功用。
然而,大多数DNA领域的先驱仍选择继续去研究基因功能的基本机制。为什么有些蛋白质特别多?许多基因只在特定的细胞或细胞生命的特定时间才会启动,这是怎么办到的?以肌细胞与肝细胞为例,二者无论是功能或是显微镜下的外观,都大不相同。基因在表现(发挥功能)上的变化,造成了细胞的多样性与分化。肌细胞与肝细胞最根本的差异是,它们制造不同的蛋白质,而要制造不同的蛋白质,最简单的方法是控制每个细胞里要转录哪些基因。因此,所有的细胞中都有所谓的“家务蛋白质”(housekeeping protein),它们对于细胞的运作相当重要,例如参与DNA的复制。此外,特定细胞内的某些基因会在特定时刻启动,以制造适当的蛋白质。我们也可以把“发育”这种从一个受精卵变为极度复杂的成熟个体的生长过程,视为一长串浩大的基因开关作用。随着在发育过程中产生各种细胞组织,一组基因必然会不断被开启和关闭。
在了解基因如何开启和关闭上,第一个重要进展来自20世纪60年代巴黎巴斯德研究院的雅各布与莫诺(Jacques Monod)所做的实验。莫诺在科学界起步较慢,这可怜的家伙因为在许多领域都很有天赋,反而无法专心致志。20世纪30年代时,他在加州理工学院的生物系师从果蝇遗传之父摩根,但是尽管天天与摩根那群早已不再年少的“孩子们”相处,也没能让他皈依果蝇研究。他反倒比较喜欢在大学和当地百万富翁的豪宅里指挥巴哈演奏会,后来校方还聘请他教授大学部的音乐欣赏课程。一直到1940年,他才在巴黎索邦大学(Sorbonne)完成博士学业,不过这时他已积极投入法国地下组织的反抗运动。莫诺曾把重要的秘密文件藏在实验室外长颈鹿标本中空的腿骨内,这是历史上罕见的利用生物学来从事的间谍活动。随着战争进展,他对反抗组织的重要性也与日俱增(也更容易遭纳粹搜捕)。到了诺曼底登陆时,他在协助盟军进攻与逼迫德军撤退上作出很大贡献。
从DNA到蛋白质:DNA在细胞核内转录成信使RNA,然后RNA输出至细胞质里,转译为蛋白质。转译发生在核糖体内,与信使RNA各个碱基对三联体密码子互补的转移RNA,把氨基酸带到核糖体,这些氨基酸会结合成蛋白质链。
雅各布也参战了,他逃往英国,加入戴高乐将军的自由法国军。他在北非服役,参与了诺曼底登陆。登陆不久,他就差点被炸死,从他身上一共取出20块炸弹碎片,但至今仍有80个弹片留在他身上。由于手臂受伤,他无法实现当外科医生的抱负,后来他跟我们这一代许多人一样,在薛定谔的《生命是什么?》影响下,转而研究生物学。不过,他想加入莫诺的研究团队,却屡次遭到拒绝。按照雅各布本人的说法,在尝试七八次后,1950年6月,莫诺的老板、微生物学家利沃夫(André Lwoff)终于同意让他加入:
利沃夫没再给我机会多谈谈我的希望、无知与热诚,他宣布说:“我们发现了原噬菌体的诱导现象!”(“原噬菌体的诱导现象”指如何启动已经整合入宿主细菌DNA中的噬菌体DNA。)
我回了一声“喔!”然后竭尽所能地赞美,心里却想着:“原噬菌体究竟是什么玩意啊?”
然后他问:“你对研究噬菌体有兴趣吗?”我结结巴巴地说这正是我想作的研究。“很好,那你就9月1日过来吧。”
雅各布、莫诺与利沃夫(左起)
雅各布在结束面谈后,立刻直接跑到书店找字典,查他刚才答应的研究主题究竟是什么。
尽管起头不顺,但雅各布与莫诺的合作仍缔造出最杰出的科学成就。他们干劲十足地研究大肠杆菌(E. Coli,一种常见的肠内细菌)的基因开关问题,主攻它利用乳糖(lactose)的能力。为了消化乳糖,大肠杆菌必须制造出β-半乳糖苷酶(bete-galactosidase),这种酶会将养分分解为两种次单位,也就是更简单的半乳糖与葡萄糖。当细菌培养基中没有乳糖时,细胞不会制造β-半乳糖苷酶,不过加入乳糖后,细胞就会开始制造这种酶。雅各布与莫诺认为乳糖的存在会诱导β-半乳糖苷酶的产生,于是着手研究这种诱导的发生过程。
在进行一连串的实验后,他们发现在缺乏乳糖的状况下,有一种叫做抑制子(repressor)的分子,会阻止β-半乳糖苷酶基因的转录。但是有乳糖存在时,乳糖会跟这种抑制子结合,使其无法阻止转录,因此乳糖的存在使基因得以转录。事实上,雅各布与莫诺发现乳糖的新陈代谢也同时受到控制,这不仅是某个基因在特定时间会被开启或关闭而已,其他基因也参与了消化乳糖的过程,而这个抑制子系统负责调节所有的基因。虽然就基因开关作用的研究而言,大肠杆菌的系统相对简单,但后续对更复杂的生物体(包括人类)所作的研究显示,相同的基本原则也同样适用。
雅各布与莫诺借由研究大肠杆菌的变种而得到这些结果。他们并未找到抑制子存在的直接证据,只是从基因调控之谜的解答中,根据逻辑推断出它的存在。一直到20世纪60年代晚期,哈佛大学的吉尔伯特(Walter Gilbert)与穆勒-希尔(Bernio Mǖller-Hill)实际分离出抑制子并进行分析,雅各布与莫诺的想法才在分子领域得到证实。他们仅预测它的存在,但吉尔伯特与穆勒-希尔却真的找到它。抑制子的数量通常极少,每个细胞只有少量而已,因此想收集到足够分析使用的数量就是一项技术挑战,但他们终究办到了。与此同时,在同层楼另一间实验室工作的普塔什尼(Mark Ptashne)也成功分离出另一个抑制子,并且找出其特性,这次是在噬菌体的基因开关系统找到的。原来抑制子是能与DNA结合的蛋白质。在大肠杆菌的例子中,缺乏乳糖时,β-半乳糖苷酶的抑制子会结合至大肠杆菌DNA上,也就是β-半乳糖苷酶基因的转录起始位置附近,让根据这个基因来制造信使RNA的酶无法发挥作用。不过在加入乳糖后,乳糖会与抑制子结合,使它无法占据DNA分子上靠近半乳糖苷酶基因的位置,如此一来,转录就可以自由进行了。
找出抑制子的分子特性后,让我们对支撑生命的分子作用过程有了完整的了解。我们原先已经知道DNA通过RNA来制造蛋白质,到了这时,我们也知道蛋白质可以通过和DNA结合,直接和DNA产生交互作用,进而调控基因的活动。
诺勒正在研究核糖体。他的实验可以证明,在生命起源时存在着—个RNA世界。
发现RNA在细胞内具有重要角色后,一个令人好奇的(也是长久以来未获得解答的)问题随之浮现:DNA的信息为什么要通过RNA这个中介,才能转译成多肽序列?在解开遗传密码后不久,克里克针对这个矛盾的问题提出一个解答:RNA比DNA早出现。他设想当生命是以RNA为基础时,RNA是第一个遗传分子,亦即在我们今日熟悉的“DNA世界”出现前,在数十亿年前,地球原本是一个“RNA世界”。克里克猜测,RNA不同的化学性质(它的骨干是核糖,DNA则是脱氧核糖)可能赋予它酶的性质,让它能催化本身的自我复制。
克里克极力主张,DNA必定是稍后的发展,DNA的“崛起”,原因可能在于RNA分子相对较不稳定,比DNA分子容易发生降解和突变。如果要有一个能够长期而且稳定地储存遗传数据的分子,DNA显然比RNA适合得多。
克里克所提出的在DNA世界之前有一个RNA世界的想法,原本几乎没人注意,一直到1983年,事情才改观。那时科罗拉多大学的切赫(Tom Cech)和耶鲁大学的奥特曼(Sidney Altman)分别证实,RNA分子的确具有催化性质,这项发现让他们贏得1989年的诺贝尔化学奖。10年后,又出现了一个更确凿的证据,证明在DNA之前的确是RNA世界。核糖体是蛋白质的合成地点,而已知跟核糖体有关的蛋白质有60种,但加州大学圣塔克鲁斯分校的诺勒(Harry Noller)却证明,在蛋白质内将氨基酸连结在一起的肽键(peptide bond),并不是在这60种蛋白质中的任意一个催化之下形成的,相反地,肽键的形成是由RNA所催化。诺勒去除核糖体所有的蛋白质,发现它仍能形成肽键,因而获得这个结论。其后,诺勒和其他人在对核糖体的立体结构进行精密的分析后,找到了原因:蛋白质散布在核糖体表面各处,远离核糖体中心的作用地点。
太初宇宙大爆炸后的生命进化。我们可能永远无法确定生命起源的精确时间,但是最早的生命形态很可能完全以RNA为基础。
这些发现无意间解决了生命起源中“先有鸡,还是先有蛋”的问题。许多人认为,最早的生命形式是由一个DNA分子所构成的,这个盛行的假设有一个无法避免的矛盾之处:DNA无法自行聚合,它需要蛋白质才能聚合。那么究竟是先有蛋白质,还是先有DNA?若是先有蛋白质,据我们所知,蛋白质却不具备复制信息的方法;若是先有DNA,DNA是可以复制信息,但必须要有蛋白质才行。这是个无解的问题。当时我们认为,要有DNA,就必须有蛋白质;而要有蛋白质,就必须有DNA。
但是RNA却可以提供答案,因为它的功能与DNA相当,能够储存与复制遗传信息,又与蛋白质相当,能够催化关键的化学反应。事实上,在RNA世界,“先有鸡,还是先有蛋”的问题根本不存在,因为RNA既是“鸡”,也是“蛋”。
RNA是珍贵的进化遗产。自然选择在解决了一个问题后,通常会继续沿用这个解决方案,自然选择的座右铭可以说是“没坏就别修”。换言之,在没有必须改变的自然选择压力时,细胞系统不会创新,所以会保留许多过去进化的痕迹。一个过程之所以釆取某种特定的方式,可能只因为它最初是那样进化的,而不是因为那是最好和效率最高的方式。
在发现双螺旋后的头20年,分子生物学已经有了长足的进展。我们了解生命基本的运作机器,甚至得以一窥基因的调控方式。但是在当时,我们所做的仍然只是观察;我们是分子博物学家,细胞就像一座雨林,而我们所能做的就是描述里面有什么。但是我们已经观察够了,现在到了该采取积极态度的时候:干预,也就是操控生物的渴望召唤着我们。重组DNA技术的出现,以及随之而来的“调整”DNA分子的能力,将使这一切有可能成真。