台北的刘女士(化名)怎么也没想到自己的人生会在短短几个月内经历几出悲喜剧。喜的是她腹中孕育着的新生命,忧的是越来越严重的身体不适,两次无创产前基因检测失败也让她烦恼不已。华大基因的研究团队没有漏掉这些线索,大数据分析鉴定出刘女士基因组的多个区域有扩增或缺失的迹象,这是典型的肿瘤基因组特征。这一发现提醒了她的主治医生,经过进一步的详细检查,刘女士被确诊为生殖细胞瘤。早期发现帮助医生制定了最合理的治疗与病程管理方案,宝宝平安降临后,刘女士马上进行了手术并开始治疗,病情得到了良好的控制,至今母子平安。
据了解,每1万名孕妇中,就有1人可能患有孕期肿瘤。但因为放射性、侵入性等原因,很多检测不适合在孕期进行。孕妇特殊的身体情况也常常掩盖了病情,很多案例确诊时已经是中晚期,错过了最佳的治疗阶段。无创产前基因检测本来用于唐氏综合征等胎儿染色体疾病的筛查,并不是为癌症检测设计,但得益于华大基因的大数据与AI技术,通过对百万样本及肿瘤基因特征进行分析,使得识别无创基因检测数据中的肿瘤信号成为可能。在华大基因,类似刘女士这样基于无创数据被早期发现的孕期肿瘤案例已经逾40例,几十个家庭因为疾病的早期发现而受益。
自AlphaGo击败李世石,AI技术火遍了各个领域。AI算法的部分领域取得突破是原因之一,但纵观AI发展史,今天的技术范式与几十年前相比并无颠覆性的革新,如今我们所看到的AI力量,更多是得益于高质量大数据的积累与计算能力的跃升。不同传统的数据获取方式,基因的数字化需要依赖专门的设备——基因测序仪。世界上只有两个国家、三家公司可以量产临床级的基因测序仪,华大基因是中国唯一一家。
除了领先的工业智造技术,AI技术也已经应用于华大基因的国产测序仪中。测序过程的限速步骤之一是荧光图像捕获与图像识别的速度,但在纳米级别、黑暗环境、微弱荧光、瞬时猝灭给图像捕获与识别带来了相当大的难度。华大基因的研发团队将AI技术应用于测序仪当中,显著提升了图像识别的效率和准确度,并借此提高基因序列、基因变异识别的速度与准确率,使其产量大幅提升,成本迅速降低。
强大的上游设备和下游应用使得高质量基因数据的指数级增长在华大成为可能。迄今华大基因已经完成了超过260万例无创产前基因检测、140万例新生儿耳聋基因检测、255万例宫颈癌HPV病毒等基因检测等,为数千万家庭带去了可及、平价的精准医学服务,也积累了海量的数据。孕期肿瘤检测只是华大将AI技术应用于基因大数据的方向之一,使用AI技术对脱敏数据进行深入分析,已开发出更精确的疾并表型预测模型,构建出更精细的人群遗传结构,并有望找到新的药物靶点。
除了不断积累数据,华大基因在计算能力方面也做了大量研究。通过与阿里云合作,华大基因也将其计算能力扩展了成千上万倍,其基因云计算平台BGI Online曾经在24小时内完成了千人基因数据分析,而普通方式需要数周时间。
精准医学的浪潮之下很多医院购买基因测序仪,但受限于跨领域的专业知识与技能,数据分析工作难以由临床医生完成。华大基因为此研发了基因计算一体机,通过AI技术将基因数据分析、处理、纠错过程智能化,节省分析时间的同时提高了分析的准确率,使医院和医生自主完成基因数据分析成为可能。
基因是上帝的语言,最聪明的人类大脑至今也难以完全理解其中的奥秘。虽然华大基因已经成为全球最大的基因数据中心之一,但董事长汪建还认为:”目前数据还远远不足,只有立足民生,持续积累全方位、全周期、全覆盖的生命大数据,并辅以合适的算法,才能产生影响人类未来的Real Intelligence真智能。“生命科学领域的大数据与真智能,必将成为人类科学发展史上的下一个爆点,为生优病少、人人活到120岁的美好未来带来无限可能。