点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
见习记者 田瑞颖
科学数据共享一直是学术界的期盼,但让科学家自愿把“攥”在手心的数据交出来太难了。
现在,美国国立卫生研究院(NIH)打算当这个“恶人”。据《自然》报道,2023年1月起,NIH将要求其每年资助的30万名研究人员和2500个机构中的大多数,在其拨款申请中添加“数据管理和共享”(DMS)计划,并最终公开研究数据。
由于NIH是全球生物医学研究领域最大的公共资助者,这项规定的影响远超美国国界;它也向全球科学家发出信号,应该如何进行生物医学研究。
研究人员在接受《自然》采访时对政策背后的开放科学原则表示赞赏。但也有人担心,由于要做大量数据收集工作,该政策或将加重青年科学家的负担,加剧科学基金领域的不平等。
可重复性危机
“只发表论文不公开研究数据,可能会导致科学研究成果无法复现,这不仅会降低论文可信度,还可能衍生学术不端等行为。”《中国科学数据》常务副主编黎建辉在接受《中国科学报》采访时曾表示。
此外,数据不共享还造成巨大的科研资源浪费。例如一项针对美国不可重复实验的研究评估,每年有100亿到500亿美元浪费在使用缺陷方法的研究上,导致研究难以重复。最终,这笔巨大的成本主要由公共资助机构买单。
2021年,一场耗资200万美元、历时8年,旨在重复“顶级”癌症研究的尝试就证实了这一问题的存在:超一半的研究重复操作失败。
这个项目名为“可重复性项目:癌症生物学”(RPCB),于2013年启动,计划重复53篇具有高影响力的癌症论文中的193个实验。其中不少研究都发表在《自然》《科学》《细胞》等“顶刊”。
结果,由于缺乏论文数据和细节等原因,研究团队不得不缩小项目规模,仅对23篇论文中的50项实验进行了重复,其中仅46%的重复结果与论文一致。
不仅如此,他们每重复一项研究就需要197周的时间,以及5.3万美元的成本,是预算的两倍。
解决科学研究的“可重复性危机”,正是NIH数据管理计划的目的之一。该计划包含分析数据所需的软件或工具的详细信息、原始数据发布的时间和地点,以及访问或分发数据时的任何特殊考虑。
NIH负责科学政策的代理副院长Lyric Jorgenson表示,不可重复的研究不仅浪费了纳税人的钱,还破坏了公众对科学的信任。“我们想确保国家的投资有所收获,并促进研究的透明度和问责制。”
钱从哪里来
但也有一些研究人员担心,该计划将带来更多的工作量。
芝加哥大学免疫学家Jenna Guthmiller证实了这种担忧。她是获得美国国家过敏症和传染病研究所(NIAID)项目资助的少数研究人员之一。该机构隶属于NIH,Guthmiller所承担的项目已经在执行与NIH新规类似的数据政策。
对Guthmiller而言,这意味着要为一个已经运行4年之久的项目溯源,找到那些消失很久的试剂和实验条件信息。这项工作花费了15个小时。“我很幸运,能和一名数据管理员一起工作。”
但绝大多数实验室没有专职的数据管理员。作为一个刚领导研究小组不到两年的科学家,马里兰大学医学院疫苗学家Lynda Coughlan对政策感到担忧,她认为这项政策可能会给处于职业生涯早期的科学家带来沉重负担。
此外,还有人担心数据管理计划会使资金紧缺的实验室“雪上加霜”。虽然政策指出研究人员可以在拟议预算中增加某些费用,以抵消这项任务的新增成本,但并未说明NIH批准这些请求的标准。
因此,Jorgenson认为NIH需要明确如何给予这些费用,尤其是给予年轻科学家和资金紧缺的机构,以防加剧研究界的不平等现象。目前,NIH正在评估合理成本,并希望提供更多的指导和信息。
共享数据范围仍模糊
实际上,NIH的数据共享政策还存在一些潜在问题。
该政策除了会造成重大法律、伦理或技术负担的数据,研究人员还必须共享“验证和重复研究结果”所需的全部“科学数据”,无论它们是否用于在学术期刊上发表论文。尽管最终由研究人员决定将数据上传到哪里,但NIH建议只在有信誉的存储库中共享数据。
由于“科学数据”的宽泛表述,研究人员对到底要分享哪些数据感到困惑。Coughlan认为,很难预测哪些数据对其他人有用,或是否能被任何人获取。
2020年,美国大学协会曾在针对该政策的早期草案中提出,NIH应该缩小“科学数据”的定义,并建议将其限制为只包括学术出版物的基础数据。
但Jorgenson认为,政策的模糊性也为研究人员提供了灵活性,他们可以确定哪些数据对重现研究结果真正有用。例如,实验不成功时收集的数据,虽然不用于出版,但对于其他研究者理解整个实验同样有帮助。
Jorgenson还表示,对于不执行该政策的研究人员或机构,其未来的资金奖励或将受到影响。