2015年,美国政府启动了一个“精确医学计划先导专项”,计划招募百万美国志愿者以组成研究队列,并进行至少10年时间的生物学大数据采集,然后再将这些大数据进行整合,构建为用于维护健康和抗击疾病的知识网络。这样一个庞大而复杂的研究计划,需要恰当地平衡好经费、效率和任务等各种关键要素之间的关系。否则就是一只耗钱、耗时而收益很低的”白象“。
术语“白象”(White Elephant)特指一种需要花费大量财力和物力去维护而经济效益却很低的资产。它源于一个古代的传说:暹罗(今泰国)的国王如果不喜欢某人,就会专门送一个珍稀的大白象给他,让其花大钱长期饲养这头昂贵的大白象,从而导致其破产。作为经费投入巨大的重大科学研究计划或项目,我们不仅要考虑其科学意义,也要考虑其实施过程的研究成本和研究成果的经济价值。这类项目一旦出现失误,将导致巨大的损失,至少是得不偿失。
2000年,美国国会曾提出一 个“国家儿童研究”(National Children’s Study, NCS)的重大研究项目,拟跟踪10万名健康的美国儿童,从他们出生直到21岁,分析一系列影响儿童发育和健康的因子。美国政府为此于2007年启动了一个名为“先锋研究”的NCS试点,招募了5000名儿童进行试点研究。在该项目筹备和“先锋研究”花费了13亿美元之后,美国国立卫生研究院(NIH)主任弗朗西斯·柯林斯(Francis Collins)在2014年12月宣布终止整个NCS项目,因为在该项目的设计、管理和花费等方面均发现了问题。有此前车之鉴,人们有必要在精确医学(Precision Medicine)启动之际,从经济学的角度思考一下该计划应该如何实施。
最近,笔者撰文详细介绍和分析了美国的精确医学计划,指出该计划注重从个体层次尽可能完整地获取数据,包括个体的微观层次(基因组、转录组、蛋白质组、代谢组等)、个体的宏观层次(分子影像、行为方式、电子健康档案等)、个体的外部层次(肠道菌群、物理环境、社会条件等);然后对这些不同层次的数据利用各种信息分析技术进行整合,形成一个各个信息层之间不同类型数据有着高度连接的疾病知识网络。
显然,如此规模化和完整地收集个体的相关大数据需要巨大的投入。在各种组学研究技术方面,核酸测序技术的成本下降最为明显,已经从2000年人类基因组计划大约一美元测1个碱基降至当前一美元测300万个碱基。也就是说,如果采用目前的高通量测序仪,检测人体基因组所拥有30亿个碱基序列需要大约1000美元。尽管现在的全基因组测序费用如此便宜,美国NIH的主任柯林斯依然强调说,只有“当经费允许时可进行全基因组测序”。我们知道,美国“精确医学先导专项” (The Precision Medicine Initiative,PMI)计划招募1百万个美国志愿者组成研究队列。假设每个人做一次全基因组测序,那么这100万人的测序费用按照1000美元1个人计算就需要10亿美元。
最新的核酸测序技术不仅成本明显下降,而且灵敏度也有了明显提高。过去要完成1个全基因组测序可能要用到上万甚至百万个细胞,而今天则可以实现单细胞的全基因组测序;当然后者的检测费用要超过前者。单细胞全基因组测序有助于人们理解个体发育等基础生物学过程,同时还有可能揭示肿瘤患者体内不同肿瘤细胞间的差异。因此,目前已经发表了许多利用单细胞基因组测序技术研究人体生理或者病理现象的研究成果。随着精确医学的兴起,有些研究者也希望能够对个体开展更为精准的单细胞基因组分析。但是,人体是由天文数字般的细胞所组成,一颗米粒大小的肿瘤组织通常拥有上百万个细胞。显然,即使不考虑技术方面的难度,在精确医学的研究中开展单细胞基因组测序工作的成本也是巨大的。
在美国“精确医学先导专项”的研究方案中,不仅计划对这些个体进行基因组序列分析,而且还计划开展转录组、蛋白质组和代谢组等各种类型生物分子的分析。需要强调的是,不同于恒定不变的基因组DNA序列、RNA和蛋白质及代谢小分子在体内不同组织或者不同条件下发生着不同的变化。即使研究者只限于对个体的血液样本中这些不同种类分子进行组学分析,其组学分析的费用肯定不会比测序便宜,1000美元是不够的。由于该先导专项预定对这百万人群至少要进行10年的追踪。即使每年对每一个体只进行一次各种组学的检测,10年下来1百亿美元都明显不够用。更何况一年一次的检测不能称为精确,最少也应该半年检测一次。此外,“精确医学先导专项”还计划采用可穿戴设备检测个体的生理变化和体能活动,并研究环境暴露是如何影响个体的健康。因此,不仅仅生物学方面的组学检测需要花费很大,在个体的行为分析和环境分析等方面也需要很大的投入。
美国政府计划花多少钱来开展这个“精确医学先导专项”?目前关于专项10年所需要的总经费还没有一个明确的说法。根据该专项2015年发布的工作报告,2016财政年度将由4个政府部门提供2.15亿美元的研究经费,其中NIH提供1.3亿,国立癌症研究所(NCI)提供7千万,美国食品药品管理局提供1千万,国家项目协调办公室提供5百万。笔者注意到,这些钱不仅用来支持百万人群队列研究,还用来支持了其它非队列的研究,如NIH的一部分经费和NCI的经费将被用来开展肿瘤治疗方面的研究。显然,用这样的一点小钱来做这样一个宏伟的研究计划肯定是不够的。事实上,针对招募百万志愿者作为研究队列这样一个“精确医学先导专项”的核心任务,项目的设计者就已经在想节约费用的招数了,比如在在招募志愿者时优先挑选已经拥有电子健康档案的美国人;这些人将主要来自保健服务组织(Healthcare Provider Organizations,HPOs),如凯萨医疗机构的健康研究项目和退伍军人健康管理局的百万老兵项目等。可以说,美国的精确医学计划目前只是处在一个“雷声大、雨点小”的阶段。
人类基因组计划最初设定的核心目标只是要认识人体基因组全部30亿个碱基序列的排列顺序。为此,研究者花了30亿美元和近15年的时间才完成了该计划。但是,目前的测序技术已今非昔比,当今世界最高通量的测序仪(Illumina公司的HiSeq X 10)1年可以完成超过1.8万人的基因组测序工作,而每个基因组的花费只不过是区区1000美元。在这样发达的测序技术支撑下,人类基因组计划进入到了个体基因组测序阶段,要揭示人群中不同个体的基因组序列差别。美国2008年牵头启动了“千人基因组计划”,英国2014年也启动了“十万人基因组计划”。在不到10年的时间里,生物学数据库储存的个人基因组序列已达到百万人级的规模。一个人的基因组有30亿个碱基对,对应于一个3GB(1 GB = 109 Byte)的数据集;因此,基因组测序工作的快速发展使得基因组数据量近几年以指数级的速度在增长;在2015年之后,基因组数据每7个月就能翻一番。
基因因组序列数据只是组学数据的一部分,转录组、蛋白质组和代谢组等各种组学研究都会产生大量的数据;例如,在一篇人类蛋白质组研究论文中,作者专门指出,该项研究需要用2 TB (1 TB = 1012 Byte)的内存和50 TB的硬盘作为数据分析的基本配置[4]。美国斯坦福大学科学家M.Snyder对自己进行了连续14个月的表型监测和血液样本分析,获得了表型组谱、基因组序列、转录组表达谱、蛋白质组表达谱和代谢组表达谱等单一个体的“多组学”数据,其数据量就已经达到了50 GB[5]。按照美国“精确医学先导专项”设计者的构想,该专项的核心任务就是收集1百万人群队列的生物学、行为学和社会学方面的数据;大家可以想像一下该项目的数据量将会有多大。事实上,仅仅2015年一年时间,生物医学研究产出的数据估计就已经高达500 PB(1 PB = 1015 Byte)。
生物学大数据的获取只是“万里长征迈出的第一步”;大数据的存储、管理、分析和共享等依然面临着诸多的挑战。“癌症基因组图集”(The Cancer Genome Atlas,TCGA)是NIH在2006年牵头启动国际癌症基因组项目,针对50种不同类型的肿瘤,每种肿瘤采集500份样品进行基因组测序研究。TCGA项目在2014年底宣告完成,共产生了20PB的肿瘤基因组数据。这个肿瘤基因组数据库如此之大,只有那些具有超级计算能力的研究机构才有可能“玩得转”。即使是具备了强大的计算能力的科研单位,仅仅下载这些数据就需要花上4个月的时间;而按照美国一所普通大学的网络能力,则需要15个月以上的时间才能够下载完这些数据。
早在1988年决定要启动人类基因组计划之际,美国政府就已经意识到,需要建立保存和处理生物学大数据的大科学设施,于是以NIH的基因库(GenBank)为基础建立了美国国家生物技术信息中心(NCBI);欧盟随后于1992年也在英国组建了欧洲生物信息研究所(EBI),它们与在此之前日本建立的DNA数据库(DDBJ),形成了三大国际生物学大数据中心,负责保存各国产生的相关数据并进行共享。随着生物学大数据的迅猛增长,原有的大数据设施已明显不够用,各发达国家正在计划建设新的生物学大数据设施;例如,欧盟2010年发表的《科学研究设施战略规划报告》提出,计划在5年时间内投入6亿欧元,建设一个欧洲生命科学研究生物信息基础设施(European Life-Science Infrastructure for Biological Information,ELIXIR)。
把生物学大数据的获取作为主要任务的“精确医学先导队列专项”,需要考虑如何处理海量的生物学大数据。 2015年发布的该专项实施计划书共有100多页,其中近三分之一的篇幅专门讨论了数据管理方面的内容,提出了源于所有队列参与者“核心数据集”的概念以及建立存储这些核心数据集的协调中心(Coordinating Center)。需要强调的是,该专项的设计者在报告中提出,“协调中心”不是一个实体,而是一个独特的单一数据使用界面;具体的数据存储和管理可以考虑采用“云计算环境”(Cloud Computing Environments);由此需要建立新型的“公共与私立”(Public-Private)关系以及“学术与商业”(Academic-Commercial)关系。在“千人基因组计划”中,NIH已经在探索这种数据管理的新模式,即让亚马逊公司旗下的云计算公司“亚马逊网络服务”负责存储该计划的全部数据(总量达200TB)并对公众开放。显然,这种策略的一个出发点就是调动民间的积极性,从而减轻政府的经费压力。但是,面对“精确医学先导队列专项”将产生的海量数据,如何进行管理依然是一个巨大的挑战。
这样宏大的任务要想顺利完成并达到预定目标,项目的领导人需要具有良好的全局意识,并能够恰当地平衡好经费、效率和任务等各种关键要素之间的关系。为此,NIH在考虑精确医学先导专项的负责人时,选择了一个通讯领域的工程师迪什曼(E.Dishman)。NIH主任柯林斯这样评价迪什曼:“一名社会科学家和研究者、一位企业家和商业领袖、一个患者和患者支持者、一名政策拥护者和思想领袖。”在其任命后的采访中,迪什曼也表现出他对“白象”陷阱的警惕:“如果精确医学先导队列项目想要满足所有人的想法、研究所有看到的疾病、或是去收集人们能够想象到的所有类型的数据,那么我们注定会在财政和智力上双重破产。”
《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想