“干试验”生物学的未来

2013-10-26 10:52 医学教育网

爆炸式增长的测序数据、结构数据以及图像数据让从事生命科学研究的科研人员们未来有机会不用再做真实的试验（即我们常说的“湿试验”）。他们只需要通过对这些数据进行分析（即我们常说的“干试验”）就可以开展科学研究，获得最基础的科研发现。

大部分从事生命科学研究的科研人员一辈子可能也就会关注某一个物种，或者某一种疾病，甚至可能只是其中的某一条信号通路。因为学会养一种细胞或者某项实验技术至少都需要好几个月的时间。可Atul Butte却是一个例外，他不停地更换研究对象和方向，可是却总有新发现。今年只有44岁的Butte已经是美国斯坦福大学（Stanford University's School of Medicine in Palo Alto， California）的一名终身教师了，因为他在糖尿病、肥胖症、移植排斥反应以及新药发现（主要是发现治疗肺癌的新药，以及治疗其它一些疾病的新药）等方面都颇有建树。

Butte的实验室也和他本人一样与众不同，在Butte的实验室里看不到普通实验室里那些瓶瓶罐罐，他的实验室看起来更像是一间IT工作室或软件开发工作室。大部分时间他都在那台索尼笔记本电脑上工作，有时他也会去斯坦福大学的大型计算机中心，或者其他机构的超级计算机房工作，那主要是因为他需要做大量的数据运算工作。Butte和他实验室的学生、博士后们既不养细胞，也不做DNA测序，他们所做的就是搜集、使用并分析各个公开数据库里现有的信息，这些数据库包括人类基因组序列数据库（human genome sequences）、肿瘤基因组序列数据库（cancer genome readouts）、脑扫描成像数据库（brain imaging scans）以及糖尿病、阿尔茨海默病等多种疾病相应的生物标志物数据库（biomarkers）等。医学教育网`搜集整理

这种研究方式就是我们常说的“干试验（dry lab biology）”，因为传统的试验都是会用到各种试剂的“湿试验”。虽然没有人统计过这样的干试验科学家究竟有多少，但可以肯定他们只是一小部分人，不过他们的人数也在不断增长。而Butte就是其中的佼佼者。Butte等人在两年前曾经使用这些公开的数据，对患有100多种不同疾病的人群体内的一些基因，以及分别用市面上164种药物处理过的培养细胞中的这些基因的活性进行过分析。然后他们发现了一些新的、存在于这些基因之间的相互联络方式。 Butte等人通过比较患病或用药情况下基因表达的开启情况，发现在这些基因之间有很多新的联系渠道。比如他们就发现有一款用于治疗溃疡的药物也许能够用来治疗肺癌；还有一款抗癫痫的药物也许能够用来治疗两种炎症性肠病（in？ammatory bowel disease）。而且这两种观点都已经被后续的动物试验给证实了。就在上个月，Butte的团队又在《肿瘤发现》（Cancer Discovery）杂志上发表了一篇论文，他们又用这一套发现用抗抑郁药物丙咪嗪（imipramine）治疗常规化疗无效的小细胞肺癌（small- cell lung cancers）肯定会获得很好的治疗效果。已经有人根据这一发现启动了相关的临床试验工作。“现在就是做‘干试验’研究的黄金时期。” Butte总结道。

发现新药。Atul Butte的课题组通过对与药物和疾病相关的基因表达谱公共数据库里的大数据进行分析，发现了一些能够加重病情（图中紫色所示）或缓解病情（图中黄色所示）的药物。之后的研究也确证抗癫痫药物托吡酯的确能够治疗克罗恩病或溃疡性结肠炎等疾病。

这不仅仅是Butte一个人的黄金期，基因组序列、基因表达活性、蛋白质结构以及蛋白间相互作用的公共数据库越来越多，所以也为众多的生物学家们提供了一个新的研究领域。得益于计算机运算能力、数据存储能力、软件等IT产业的发展，干试验也能够在不需要用移液器、染细胞或解剖动物的情况下抽丝剥茧般地取得最基础的科研成果。比如美国科学基金会（National Science Foundation）就成立了一个iPlant项目（iPlant Collaborative），这就催生出了一大批从事数据分析工作的所谓“植物生物学家”，他们从来就没有亲自下过地，也没有浇灌过植物的种子。美国国立卫生研究院（National Institutes of Health， NIH）最近也宣布，他们计划投入9600万美元支撑大数据分析工作。美国加州大学洛杉矶分校（University of California， Los Angeles）的神经遗传学家Daniel Geschwind就认为，生物学界正在发生一场大变革。

数据发掘者。上图展示的就是最新的iPlant项目。科学家们通过该项目对植物和微生物的基因组进行深入的发掘，帮助全世界的植物学家们更好地认识最基础的生物学问题，也能够为植物育种工作提供帮助。

美国洛杉矶微软研究院（Microsoft Research in Los Angeles）的计算机专家David Heckerman也赞同地指出，现在干生物学研究真的可以不需要传统的‘湿式’实验室了。不过没有一位“干试验”生物学家们认为他们的数据分析工作能够取代传统的湿试验工作。他们反而认为现在是干试验与湿试验最为融洽，结合得最紧密的一个时期，这两个方向互相促进，共同发展。

“我就好像是一个进了糖果店的小孩子，好东西太多了，我完全看不过来。”——美国斯坦福大学医学院Atul Butte

数据为王

大数据其实并不是一个新鲜的概念，《科学》（Science）杂志曾在2011年的2月11日做过专题报道。欧洲粒子物理研究所（CERN）的大型强子对撞机（Large Hadron Collider）每年都能够产生15帕字节（petabytes）的数据。天文学界的斯隆数字巡天项目（Sloan Digital Sky Survey）每年也要产生好几TB（terabytes）的数据。大数据对生物学家们也并不是一个新鲜的事务。比如截止今年的8月底，在NIH运行了31年的基因序列数据库GenBank里已经收纳了1.67亿条基因序列，约合1540亿bp的数据。

而且这也不是计算科学与生物学的第一次结合。生物学家们多年以来也一直在收集大规模的生物学数据，我们熟知的基因组学、蛋白质组学、代谢组学等各种毫无新意的组学就是明证。生物学家们一直在对这些数据进行整理和梳理的工作，希望能够从中找到一些复杂的生物学网络，或者与疾病相关的信号通路等新成果。

不过之前开展的这一类工作都是由大批的科研人员共同参与来完成的，而且他们还都抢先了一步，在数据公布之前就开始了工作。不过现在这些数据已经全都公诸于众了，之前没有资格参加这些项目的科研人员现在也能够自由地获取这些数据，开展自己感兴趣的研究工作。美国康奈尔大学（Cornell University）的遗传学家，为农业部下属的农业调查研究项目（U.S. Department of Agriculture's Agricultural Research Service）工作的Ed Buckler是研究玉米的专家，他评价道：“现在这些数据全都公开了，也是我们这些人提出大数据问题的时候了。”

不过，要提出这些问题就需要专门的算法和软件，要能够处理大量的数据，而且这些软件还必须与时俱进，随着数据的增长不断地加以改进。Heckerman和他在微软研究院的同事们最近就做出了一款软件，利用该软件就能够方便地在遗传数据库里进行大规模的搜索，比如进行全基因组关联研究（genome- wide association studies， GWAS）这样的全基因组比对工作。通过对健康人群的基因组和患病人群的基因组进行比对就可以找出与疾病相关的遗传指纹（genetic fingerprints）。这些遗传指纹可以非常细小，因为大部分疾病都不像典型的孟德尔式遗传疾病那样具有典型的、单纯的性状（不像豆子颜色这种性状这么简单），每一个性状都不是与单个基因一一对应的。据Heckerman介绍，当人们第一次开始做GWAS分析时，他们会认为这项工作非常简单。可问题在于孟德尔的豆子只是一个例外，并不能代表大千世界里的万物。

其实绝大部分性状或糖尿病、前列腺癌等疾病背后的遗传基础都非常复杂，多个基因可能也只会带来很小的一点影响，这些基因的作用彼此之间还具有叠加效应。 “如果要发现这种微弱的信号，那就必须利用大数据。需要对上万，甚至是数十万的人进行比较才有可能发现一点有价值的线索。不过这里也有一个小窍门。当你对大量的数据进行分析时会有一些发现，比如发现每一个人都会有一些遗传相似点。但是在很多情况下，这些相似点其实只是代表了这两个人之间更加相似，而不是因为他们都携带了某种疾病相关基因。这会给我们的数据分析带来麻烦，我们会发现大量的可疑信号，可是当我们再仔细分析一番之后就会发现这些其实只是假阳性信号。” Heckerman介绍说。

线性混合模型（linear mixed model）就是一种能够有效解决上述问题的数据分析方法。该方法能够有效去除假阳性信号，但是需要强大的运算能力，是被分析数据量的三次方，如果被分析的数据增加10倍，那么运算能力需要增加1000倍。如果只需要分析几十个人的数据还没太大问题，但是如果要对上万人的基因组数据进行梳理那可就麻烦了。 “在这种情况下你最好忘记这种方法。” Heckerman这样说道。

Heckerman等人关注这个问题不久之后就想到了一个非常简单的解决办法，他们称之为“代数妙计（algebraic tricks）”，通过这种方法可以将上述问题转换成线性问题，这样就能够对大数据进行分析了。最终将这款软件命名为FaST-LMM，它大大减少了不可靠的结果，同时数据处理量也有所提高，从而增加了发现真实但微弱信号的机会。Heckerman的团队去年在微软的云计算机Azure上用这款FaST- LMM软件对Wellcome基金会（Wellcome Trust）数据库里数千人的基因组进行了比对。一共分析了63，524，915，020对遗传标志物（genetic markers），结果又新发现了很多与双相性精神障碍（bipolar disorder）、冠心病（coronary artery disease）、高血压病（hypertension）、炎症性肠病（in？ammatory bowel disease）、类风湿性关节炎（rheumatoid arthritis）、1、2型糖尿病（type 1 and type 2 diabetes）等疾病强相关的分子标志物，详见今年1月22日出版的《科学报道》（Scienti？c Reports）杂志。Heckerman等人将这些新发现的标志物毫无保留地全都共享到Windows Azure Marketplace上，我们可以到网上找到这些信息，对自己感兴趣的标志物进行更加深入的研究。

但是Butte也做出了提醒，很多时候，这些通过干试验发现的关联如果详加研究就会发现其实并不是真实的关联，但是他也非常欢迎软件工程师们加入到生物学研究的行列当中，他说道：“我们一直都有这种期望。”

干试验对生物医药行业的研究远远不止GWAS研究这一项工作。美国哥伦比亚大学（Columbia University）的Asa Abeliovich今年8月1日就在《自然》（Nature）杂志上发表了一篇文章，他们使用大数据分析的方法又发现了一个新的分子，该分子能够部分决定携带了APOE4这种常见基因的人是否会患上阿尔茨海默病。他们使用的也是公共数据库里的数据，这个数据库是一个基因表达数据库，里面收录的全都是迟发型阿尔茨海默病患者和正常人脑组织的基因表达数据。他们一共发现了两个基因，分别是SV2A和RNF219，这两个基因在患者体内的表达活性都非常低。

再结合之前对这些基因进行功能研究所得到的数据，最后发现这些基因其实都是一个调控网络的一份子，该调控网络主要对胞内淀粉样蛋白前体（amyloid precursor protein）的积聚进行调控。这些淀粉样蛋白聚集在阿尔茨海默病患者大脑里的致密斑（dense plaques）处，可能与患者发病有关。Abeliovich团队后来在实验室里用小鼠动物实验验证了这个结果，然后又继续对人进行了验证，不过还是开展干试验研究。这一次他们选择了公共的阿尔茨海默病患者脑扫描成像数据库，结果发现RNF219突变基因与淀粉样蛋白的积聚有关。

这一发现不仅为我们开发阿尔茨海默病新药提供了新的靶点，同时也可以帮助临床医生们对阿尔茨海默病患者进行分类和有针对性的治疗，就好像现在的肿瘤医生们那样。这种将数据发掘、实验室验证以及脑扫描成像验证相结合的工作也给Geschwind留下了极为深刻的印象，他评价道：“五年前根本就不敢想象开展这样的工作。”

除了生物医药领域之外的应用

随着经过全基因组测序的植物数量快速的增长，以及相关数据的不断公布，植物学家们也可以开展他们的干试验工作了。比如Buckler等人就在多个玉米品种间寻找抗病基因。他们最近发表了一篇论文，介绍了他们对103种不同的玉米进行全基因组比对的工作，他们一共对1000多个不同的DNA区域进行了比对，这些区域有的是位于基因内部的，也有位于基因编码区外的。然后将玉米的某些性状，比如抗病性和开花时间等性状与某些特殊的非编码DNA联系了起来。现在他们正在利用这些研究成果辅助育种工作，希望提高玉米的抗病性，或者添加一些其它性状。“大数据已经对我们的育种工作带来了切实可见的改变。” Buckler总结说。

这种工作还有助于回答一些与植物相关的更加神秘的问题。加拿大渥太华大学（University of Ottawa）的数学家David Sankoff已经对30多种开花植物的全基因组进行了分析，他试图重建出1.2亿年之前存在的，所有开花植物共同祖先的基因组结构，即找出所有开花植物的共有基因组结构，而不是简单的共有DNA序列。他们最近也取得了重大突破，该工作也已经被写成论文进行了发表。他们对现代真双子叶植物（eudicots，这是一种非常重要的开花类植物）里是否存在基因的双拷贝或三拷贝情况进行了分析和比较，最终推断出开花植物的祖先共有7条染色体，大约含有2万至3万个基因，这个基因组要比现在很多植物的基因组小得多。虽然这一发现可能不会对植物育种工作带来太大的影响，也不具有很大的商业利益，但是美国亚利桑那州立大学（University of Arizona）的植物遗传学家Eric Lyons认为，这也是一项非常有意思的遗传学研究工作。Sankoff等人使用的比对基因组数据库和用来分析数据的软件都是由Lyons开发的。

通力合作

干试验生物学研究也面临着很多的问题和困难。其中最大的挑战就是如何获得其他人的数据。很多时候，那些主要工作就是收集数据的科研人员是不愿意与其他人分享数据的。他们更愿意在别人利用自己的数据有所收获之前进行数据发掘的工作。另外这些数据也有可能非常粗糙，还需要进行进一步的分析或注释。“这些真的是很麻烦的问题。我们需要更好的方法来促进大家共享数据。” Butte这样说道。

缺乏统一的标准也是一个问题。每一个科研团体用来储存数据的软件可能都不一样，这些数据的格式也是千差万别的，很多时候连试验设计都不一样，所以所能得到的准确结果也有所差异。Butte等人认为处理这些不同格式的数据是最麻烦的，不过这也不是不能解决的问题。更大的困难在于如何对实验设计不同的实验所得到的数据进行比较和分析。

据Butte介绍，经过多年的标准化工作，对实验设计、数据分析，使用包括DNA或RNA芯片、以及蛋白质组质谱实验所得到的实验结果的解读所进行的标准化工作终于带来了回报。对此观点Heckerman也表示了赞同，他认为生物学数据正在走向标准化。

“进行生物学研究其实真的不需要传统意义上的生物学实验室。” ——美国微软研究院David Heckerman

随着公共数据库的规模的不断扩大，大家对遗传隐私（genetic privacy）的关注度也变得越来越高。遗传学家们已经证实了所谓的匿名数据是完全不可靠的，很容易就能够找出这些数据的来源，而且任何一点纰漏都会泄漏个体的隐私，比如他的健康状况，是否易患某种疾病以及家族史信息等。不过我们目前至少已经想出了一个解决方案。我们在开展GWAS研究，或者开发分子诊断芯片时往往都要将基因型与表型对应起来，这就需要进入美国国家生物技术信息中心的基因型及表型数据库（National Center for Biotechnology Information？s database of genotypes and phenotypes， dbGaP），但是要使用这个数据库就必须先登记，获得批准之后才可以使用这些数据。另外，所有这些使用申请都会被公布，谁出于什么目的使用了哪些数据全都会大白于天下。

为了解决这些问题，同时也为了能够更好地利用大数据与生物医药研究结合这个难得一见的科研良机，NIH在今年夏天宣布将启动一项名为“Big Data to Knowledge （BD2K）”的新项目。该项目主要有两个目的，在最初的4年里将共计投入约9600万美元，建立多个研究中心推动新算法、以及其他数据分析方法的开发。也会推动在NIH的各个研究所里建立多个课题组，攻克与数据标准化、数据库准入和遗传信息隐私等领域相关的难题。针对这些问题国际上也有所动作，比如有 40个国家的70多家科研机构在今年的6月共同参与组成了一个国际联盟，旨在推动数据尽早公开。

干试验生物学研究未来还会迎来一次大发展，因为美国已经要求所有的数据库全都像科研界公开。今年的2月22日，美国科技政策局（U.S. Of？ce of Science and Technology Policy， OSTP）局长John Holdren提交了一份备忘录，要求美国联邦政府各执行部门尽快拿出方案，鼓励并帮助大家使用由美国政府资助开展的科研工作所取得的成果和数据。该备忘录推出之后因为重点强调要免费获取科研论文而备受关注。但是大家都没有注意到，在这份备忘录里也同时提出，要促进由美国政府资助开展的科研工作所取得数据（非保密数据）早日进入公共数据库里。OSTP的官员们表示，他们已经拿出了初步的方案，正在进行修改。

Butte认为，虽然这对于从事生物数据发掘工作的科研人员们无疑是一个重大利好消息，但是这也会进一步加重数据标准化以及数据隐私等方面的问题。同时也会让数据持有者比较头疼。因为他们需要自己，或者让助手来管理这些数据，准备好录入数据库，这就增加了很大的工作量。同时也会占用他们一定的精力和科研经费，有可能会影响他们本来的研究工作。美国国立医学研究所生物医药技术生物信息学及计算生物学中心（Division of Biomedical Technology， Bioinformatics， and Computational Biology at the National Institute of General Medical Sciences in Bethesda， Maryland）的项目负责人Peter Lyster认为这对于小型实验室的影响更大，他说道：“从某些角度来看，这就是一场零和游戏（zero-sum game）。”

不过这场游戏里的输家只可能是从事传统生物学研究的“湿”实验室。对于“干”实验室而言，这些新工具、新政策和新的数据只是他们的新机遇，而不会是新负担。“我们已经准备好大干一场了。” Heckerman说道。

医师资格考试公众号