NGS接龙丨安吉康尔CEO李阳:做基因智能的先行者
发布时间:2017-10-27

李阳博士

做基因智能的先行者

        近年来,随着基因组学的高速发展和各种检测手段的精进,大规模测序计划和基因组数据库开始建立,人工智能和医疗大数据的应用成为热点,“精准医学”的理念逐渐得到全世界的广泛认可,基因检测行业开始蓬勃发展。

        随着测序成本的不断下降,行业的瓶颈渐渐从获取数据转移到数据的分析和解读。特别是在遗传病的诊断领域,相较于无创产前和肿瘤等领域,由于其天然的异质性,病种多,涉及的基因多,临床表征复杂,英文中有个用来形容遗传病传统诊断痛点的短语叫Diagnostic Odyssey,即大多数遗传疾病患者需要经过漫长的确诊过程,导致治疗的延误并造成整个家庭严重的心理负担。安吉康尔以高通量测序和强大数据分析能力为支撑,致力于打造以基因组数据为基础,结合多种临床医疗数据的人工智能医疗平台,为遗传病患者和医生提供临床精准决策辅助。

       近日,安吉康尔CEO李阳博士接受了测序中国的专访,详细介绍了安吉康尔的核心团队及核心技术,并深入探讨了人工智能在精准医学临床应用的发展前景以及挑战,畅谈了安吉康尔的未来规划

基因检测临床应用:不能变成“手艺活”

        测序中国:李阳博士,您好!我们了解到您曾在美国学习、工作多年,并曾任职于美国遗传病基因测序龙头企业INVITAE,是什么让您选择回国创立安吉康尔?您是如何选择创业方向的?

        李阳博士:谈起创业方向的选择,还要先从我的科研经历说起。我本科毕业于北京大学理论力学和经济学专业,在导师北大理论生物学中心(现定量生物学中心)朱怀球教授课题组科研的过程中,对基因测序技术以及生物信息学算法产生了浓厚兴趣,于2010年全奖进入美国伊利诺伊大学香槟分校(UIUC)攻读生物信息学博士,期间开发并发表了一系列应用机器学习的生物信息学算法,两次入选生物信息学顶级会议RECOMB并被邀请做大会口头报告,2014年以四年时间博士毕业并获得当年国家优秀自费留学生奖学金。

        在美国学习期间,国内外已经有很多公司致力于开发基因测序技术的临床应用。但国内外在这一市场的形势却迥然不同,与国外公司大多专注“做好一件事情”相比,国内的情况十分复杂。在国内从事无创产前、肿瘤基因检测的公司众多,但专注于遗传性疾病的公司却很少。为了借鉴更多经验,毕业后,我加入美国第一家全面应用高通量测序技术进行遗传病基因检测的上市公司——INVITAE。

        在INVITAE任职的两年间,让人意外的是,作为基因检测公司的INVITAE大多数员工却是在软件部门做智能算法和自动化,这让我意识到,基因检测的临床应用并不是简单的买台测序仪然后堆人去看突变写报告,不应该变成“手艺活”。在INVITAE,我见证了测序技术的更新迭代,算法的不断优化,整个系统的高度自动化智能化,这一切带给基因检测的,是成本的降低,交付速度的加快,精准度的保障以及临床效益的提升,让每个人都可以通过合理的价格快速便捷地获取并受益于准确的基因信息。正是这种对技术的独到理解,才可以轻松支撑今年INVITAE接近二十万例的遗传病检测量。

        如今,国内基因检测技术持续取得新突破,临床应用市场不断拓展,基因检测和诊断服务也越来越受到临床的认可,但是遗传病的检测并未形成气候,无法满足庞大的遗传缺陷群体对高质量检测服务的需求。原因之一是无创产前诊断和肿瘤伴随诊断等领域对算法和解读的要求不高,美国甚至有很多本来用NGS的公司开始转回用芯片去做,而遗传病检测天然就需要高通量大规模的测序,对算法和结果解读的能力要求很高。这正是我选择于2017年初回国创立安吉康尔的初衷,我们专注于遗传性疾病的基因检测和诊断,以领先的技术和强大的解读能力,造福广大遗传病患者。 

做遗传疾病患者的守护神

        测序中国:正如您说言,安吉康尔致力于以基因组数据为基础,为遗传性疾病患者和医生提供临床精准决策辅助。您能否介绍下目前安吉康尔的核心团队和核心技术?

        李阳博士:安吉康尔英译自AEGICARE,其中AEGI源自希腊语AEGIS,为宙斯和雅典娜所持神盾,CARE意为关怀和治疗,我们希望做遗传疾病患者的守护神。除我之外安吉康尔的联合创始人还有四位:CTO刘阳博士毕业于清华大学计算机系和军事医学科学院,曾在解放军三〇二医院担任临床研究管理中心研究员。COO吕佩涛毕业于北京大学生物医学工程系,有着丰富的微流体系统计算模拟和设计开发经验。首席科学顾问马坚为美国卡内基梅隆大学(CMU)计算机学院计算生物学系及机器学习系副教授。马教授是我的博士导师,他师承把生物信息学发展为一门独立学科的两位开山始祖Webb Miller和David Haussler,长期从事生物信息学算法研究、以及基因数据和人工智能在人类疾病中的应用。生物信息总监张洋博士毕业于UIUC和中国科学技术大学,曾任CMU计算机学院生物信息学科学家。

        安吉康尔致力于研发高精度全自动的遗传病测序数据分析系统和智能解读系统AEGIS™,安吉康尔的诸多业务也是围绕着此系统展开,其模式基本对标INVITAE,主要分为四个模块。

        第一个模块是生物信息学算法模块(WEAVER),与国内同行相比,我们特别关注于基因拷贝数变异(CNV)。去年,我和马坚教授合作开发了Weaver算法并发表在Cell系统生物学和计算生物学子刊Cell Systems。此前,CNV算法是线性一维的,而Weaver算法利用概率图模型(马尔科夫随机场),从一维升级到二维,将基因组看作一个无向图进行全部扫描,从而精确到单个位点并定量检测CNV。

        第二个模块是测序临床信息系统(HIVE),可为临床医生和科研人员提供基因组大数据管理。临床组学大数据的管理与数据挖掘是实现精准医疗的关键,随着NGS技术不断完善,全外显子组测序在遗传病诊断领域逐渐成为主流。全外显子测序数据庞大,而医生需要能看懂的临床报告,包括病人的临床表征、基因突变对应的综合症以及相应的检测和辅助确诊方案。为此,安吉康尔通过HIVE系统整合患者的外显子组测序数据、影像学数据、生化指标、家族遗传病史、环境和生活方式数据等各方面数据,制定个性化的精准诊断和治疗方案。

       第三个模块是基因突变数据库(SAKYA)。这一模块包括公共数据库的整合以及自有数据库的开发,也涉及到很多前后端的数据库设计,建立表型、疾病、基因、突变及药物之间的联系。

       第四个模块是临床决策辅助系统(COSMO)。现阶段的任务是通过整合生物信息学数据、临床数据和突变数据库半自动出具遗传病检测报告,遗传学家只需要进行简单的校对。在未来,COSMO系统将可以匹配患者的临床信息和基因组信息,智能推荐诊疗方案。

从科研到临床:三大壁垒仍需突破

        测序中国:国内外基因检测的临床应用在政策、行业发展等诸多方面有着很大的差异,您觉得在国内开展相关工作的难点有哪些?

        李阳博士:国内和美国工作的开展确实存在很大不同,我觉得主要存在三个难点。

        第一是监管问题。目前国内基因检测的临床应用正处于蓬勃发展的起步期,配套的相关监管政策还在摸索和形成中。而美国有比较成熟的实验室自建检测(LDT)标准。

        第二是收费问题。国内的基因检测费用偏高,甚至高于INVITAE在美国收费,而目前医保对基因检测项目覆盖度较低,许多有需求的患者无法负担。

        第三是行业认识问题。传统上很多时候遗传病检测并没有与其他疾病的基因检测清晰区分开,而事实上不同的疾病基因检测应用方向,从样本处理到生物信息分析再到临床解读和咨询,都有很大的区别。举个简单的例子,与遗传性疾病有关的PMS2MSH2SMN1/2等基因只用外显子测序常常会漏检或误检,需要专业的特殊方法来应对。另外遗传病检测天然的对解读要求很高,例如全外显子测序初步结果中每个人都会有六七万的突变位点,但真正有临床价值且与患者临床表征相符合的可能就一两个,这就需要一套专业的算法和遗传学家来筛选出真正有临床价值的结果。面对筛选测序结果这一技术难关,如果把一本包括所有突变位点、字典一样厚的检测报告交给医生,对患者、医生以及整个行业都是不负责任的。

人工智能医疗平台辅助诊疗

        测序中国:当前基因组大数据已经得到广泛应用,但人工智能的医疗实践还处于探索阶段,您认为人工智能在精准医学临床应用的发展前景是怎样的?

        李阳博士:近年来,人工智能得到了飞速的发展,这一技术最好的落地方向之一就是医疗,人工智能在医疗领域的应用前景是毋庸置疑的。具体到精准医疗和测序行业,举个例子,最近热映的电影《银翼杀手2049》中,主人公调出两份基因序列用肉眼扫描发现两个人的序列完全相同,这其实就是生物信息学最经典的一个问题——序列比对,其实这个问题二十年前就是用算法而不是人眼了。另外一个例子是CNV的分析,虽然听上去是生物问题,但是从测序仪器输出的测序数据转化成CNV的信息,我们用了概率图模型去实现,这也是人工智能的应用。

         生物信息学之上再进一步,对于临床医生而言,人工智能可以辅助医生更快、更准、甚至更有效的基于基因数据进行决策,方便后续诊疗方案的开展。但现在谈论人工智能何时会取代医生还为时尚早,就像自动驾驶也要分L1到L5不同的智能级别一步步推进,人工智能取代老司机的那天还远没有到来,而医学要解决的问题其复杂度比驾驶又高了一个量级。安吉康尔率先提出基因智能(Genomic Intelligence)的概念,现阶段将主要研发投入都放在应用人工智能,在现有数据库和临床指南的框架下使基因检测更全、更快、更准、更便宜。而下一阶段的目标是完善数据库和临床模型,通过积累中国病人的临床信息、基因组信息、诊疗方案和预后信息,为患者推荐个性化的方案,能够超出甚至修改现有指南。

        当然医疗数据的孤岛属性一直是限制这个领域发展的瓶颈,毕竟离开数据谈智能没有意义。但我是很乐观的,因为不同于传统的医疗数据,精准医疗和测序是前所未有的新技术,带来的数据规模和分析、解读、应用上的变革和挑战都远超以往,新数据维度的加入很可能成为医疗信息系统新改变的契机。另外遗传数据是属于个人而不是医疗机构的理念越来越为大众接受,我观察到,基因数据存在去中心化的趋势,虽然人类基因组计划已经完成了15年之久,目前人类对自己基因组的了解仍旧非常浅薄,唯有开放和共享才能加速这一进程,所以我相信破壁的一天很快就会来到,全体人类通过基因信息真正连接成为一个命运共同体。

以基因智能呵护健康

        测序中国:安吉康尔公司在未来有怎样的发展方向和规划?

        李阳博士:按照时间的先后以及智能程度的高低,安吉康尔有三个阶段性的目标:

第一阶段是做实做透遗传疾病在基因层面的确诊。我们深耕遗传病基因诊断领域,直击遗传病异质性导致的诊断困难问题,为临床提供基因组学证据。我们目前主要面向儿科代谢和神经发育类遗传病,心血管相关遗传病和家族遗传性的肿瘤。

        第二阶段是通过筛查手段达到对遗传疾病的一级预防,实现“治病于未病”。据统计我国每年新生儿遗传缺陷率在6%~8%,很多神经系统疾病在出现典型临床症状后已有不可逆的神经系统临床损害。如果能够通过筛查手段,在临床症状出现前早期诊断,就可以进行早期干预和治疗,避免损害的发生。最近我们将启动基于全外显子测序的新生儿筛查试点,我们将不断提升数据解读能力并推进成本下降,许万千遗传性疾病患者一个更好的未来。

        第三阶段是实现基于基因测序的临床决策辅助和健康管理。我们相信不久的将来每个人出生的时候都能免费做一次全基因组测序,而且电影《GATTACA》那种以基因来分贵贱的悲观未来不会出现,安吉康尔将应用基因智能,全方位的为大众提供健康呵护(Genomic Intelligence for Better Life)。