中国百万人群大队列,何去何从?

2022-04-06 星期三

中国在近些年也意识到了数据的重要性。在政策层面,2018年出台的《科学数据管理办法》(以下简称 “办法”)提出,大力推进科学数据资源的开放共享;2019年还发布了20个国家科学数据中心。

 

就人类遗传资源利用而言,2019年5月印发的《中华人民共和国人类遗传资源管理条例》,在划定 “五条红线” 的同时,也特别强调,要加强我国人类遗传资源包括保藏等基础平台建设,并要求促进数据的共享和利用。

 

不过,要建成向像UK Biobank 那样的体系,业内专家向《知识分子》表示,需要战略的定力,顶层的设计,创设良好的开放共享机制,破除医疗界和学术界的藩篱,吸引工业界、慈善机构等,最终实现可持续发展。

 

“CKB其实和 UK Biobank 是姊妹项目,课题的头十年,我们就准备好了什么结果都不出,就是这么一个战略定位。因为前瞻性的队列研究需要花5~6年创建,期间你不可能做特别大的事情,主要的精力放在保质保量的收集基线数据,建立良好的发病死亡的随访,人员的培训,样本库,数据库的建立等等。直到2015年我们才开始真正出一些比较重量级的研究成果。急功近利就像是沙滩上盖大厦,最后也扛不住。” 陈铮鸣说。

 

从 “精准医学” 专项里的队列课题看,很多实施的年限在四年,如果是全新的队列,如此短时间内出成果或者实现转化的可能性不大,但不妨碍有些团队已经发表了一些论文。

 

陈铮明还表示,做好顶层设计也很关键——

 

“一定要有一个好的顶层设计,国内的很多项目可能不是集中管理,层层分包,都过来领点任务,最后质量、标准化方面就不好保障。”

 

在美国有过科研经历的张力介绍说,只要是NIH资助的项目,都会指定送到纽约的一个测序中心去统一产生数据,如此才能保障数据的标准性、质量等,同时标准建立后也会经历不断的迭代,因此必须要有一支专业化的队伍,一个中心去统一这些标准。

 

张力还谈到,在美国做科研如果想拿样本、数据相对容易,流程上较为顺畅,但在国内却很困难。

 

“这里面有各种各样的原因,很多单位尤其是医院,对这些临床的信息把控比较严,共享比较困难,其实是我们面临的一个比较大的问题。” 中国科学院北京基因组研究所研究员鲍一明说。

 

多位研究人员向《知识分子》表示,现实中,临床和科研两张皮,医生群体和科研群体之间还缺乏有效的合作机制。

 

拿大型队列课题来说,主要牵头单位大多是医院,其中的道理也许很简单——人类遗传样本,尤其是涉及到一些专病的,产出的地方主要就在医院,可医院拿到这些样本和临床数据后,却很少共享。

 

随着越来越多队列研究的开展,生物样本库正在涌现。《知识分子》查到的信息显示,仅2021年全年和2022年迄今,获得保藏行政许可的单位有90家。


但它们的利用情况并不乐观。

 

“不少样本库,基本上都是人工管理的,没有实现自动化的,样本存在那,基本上没人用;反过来,搞基础科研的人因为做具体的研究,非常清楚自己想要怎么去处理这些样本,但他拿不到。” 张力说。

 

问题是,样本和临床的数据如果要产生价值,推动新药的研发,必须要流动利用起来。

 

一个比较现实的、可实施的途径,张力认为,可以先把信息打通,弄清楚全国范围内有哪些样本、大概的状况,在此基础之上国家有一个统筹,慢慢地把上游的医院和下游的基础研究对接起来,逐步实现样本的流转、处理的标准化。

 

“如果直接提数据共享,研究者会考虑竞争等很多因素,再加上国家顶层设计上没有特别清晰的规定,这事儿就不好办。可以先不谈共享,先把信息系统打通,这样至少大家知道在哪有什么样的数据,至少可以避免重复劳动,之后可以有的放矢地去谈合作,在这个过程当中把共享机制给建立起来。” 他说。

 

目前来看,对于 “精准医学” 专项里的大型队列,还没有见到一个统一的数据存储和共享平台。

 

而就共享而言,随着数据量的增长,目前传统的数据共享方式(如寄送硬盘或者下载到本地),都会变得不可持续,云存储和云计算将不可避免。

 

“一个人的全基因组数据也得100G,上万人的话,这个数据就很大了,任何一家单位要能承受同时好多人下载数据,光是去买商业网络带宽,都是天价,根本不可能的事儿。” 张力说。

 

看来要达到 UK Biobank 那样的水准,中国大型队列还有很长的路要走。

 

这条路并非没有路标,而是已有发达国家的先行者探索出的一条光明大道正在前方。我们现在已经有一定基础,需要做的是携手相关利益方,解放思想,踏出一条中国具有中国特色的路。一旦我们大量尘封的生物样本资源能得到利用,必将对我国以及世界的生物医药、人民健康带来翻天覆地的升级。” 郭天南说。

原文地址:点击