IDEA大会上,IDEA平台技术研究中心负责人谢育涛主持“AI+医疗”圆桌论坛,邀请到清华大学副教授俞声,大数医达创始人兼CEO邓侃,晶泰科技联合创始人温书豪,从AI生物制药、医疗信息化等领域切入,探讨在AI医疗发展过程中,创业者与研究者所面临的挑战与机会。
精彩摘录
俞声:“从医院信息口给我们的反馈,就目前这个时间段,信息化医院。如果绕开信息化,在基础的自然语言处理做得不是很好的时候可以做智能化,但是有天花板。医疗行业样本量小的情况会高度制约你所做模型的性能。”
温书豪:“以后的药物研发不应该主要靠人的经验、靠实验的试错,我认为应该有新的药物研发范式:通过很多准确的算法、调动巨大的计算资源进行计算、实现规模化、自动化甚至机器人做药物研发。”
邓侃:“医疗行业有着巨大的市场机遇,从业企业需要更加专业、更加专注。海量的真实临床病历数据同样是一片巨大的价值红海,这里面有学术价值,有社会价值,也有商业价值,就看企业如何围绕其构建一套具有前瞻性的商业模式。”
谢育涛(左一)、俞声(左二)
邓侃(右二)、温书豪(右一)
以下文字经大会现场分享内容整理而成:
医疗创业路上的思考
谢育涛:温总做制药的,请您讲讲人工智能对生物医药方面能起哪些作用?有没有发展性?
温书豪:我们做人工智能药物研发,人工智能对药物研发有两个很重要的作用:一、大大提升药物研发的效率,降低药物研发的成本;二、它可能想出一些人想不出来的药,做出人做不出来的药。我们认为以后的药物研发不应该主要靠人的经验,靠时间的试错,我们认为应该要有新的范式通过很多准确的算法——可以是物理,也可以是人工智能,用巨大的算力调动庞大的计算资源进行计算。通过规模化、自动化甚至机器人完成药物研发,这才是新的药物研发的范式。
谢育涛:请侃博讲讲数据对AI医疗有没有发展性?
邓侃:我创业之前负责国内主流搜索平台的搜索引擎,发现有关医疗类的搜索量占据平台差不多1/3以上的流量,这个量很大。当时,我也产生了一个困惑:一方面这个产品在社会上曾收到了那么多的负面评价,但另一方面大家仍然非常频繁的使用这个产品,这是为什么呢?我个人认为这个需求已经成为社会普遍的刚需。我国医疗领域存在着优质资源相对稀缺且分布不均的现象,AI能够学习真实世界的临床病历并分析大量临床数据,提高医疗效率及普惠性,为健康中国的建设赋能。
AI医疗研究信息化的思与辩
谢育涛:请俞博从AI医疗研究的角度讲讲,我们应该怎么思考信息化,包括落地的时候有什么需要注意的事情。
俞声:昨天沈向洋理事长提到医疗和其他行业的情况,总体来讲分两层,先是信息化,然后智能化。从医院信息口给我们的反馈,就目前这个时间段,信息化医院。这块信息化主要指患者专业的表型提取,Phenotyping,基本意思是提取患者的基本临床特征,把它作为机器学习的特征,还有像患者搜索等,这些我们一般统称为“病历结构化”的自然语言处理任务。
从研究角度也有这个问题,如果绕开信息化,在基础的自然语言处理做得不是很好的时候,你能不能直接做智能化?这个硬要做肯定可以做,但是有天花板,性能绝对有限制。原理非常简单,当没有提取比较高信息价值的基本特征,要从原始自由文本/噪声文本中提取一点信号,它要求你必须要消耗更多的样本。深度学习本来特别吃样本,医疗的样本相对很多行业又特别少,因此(消耗更多样本在原始信号提取)会高度制约你所做模型的性能。
另外,像医院的信息部门要部署的模型不只是一个,有几十甚至上百个,因为他做的不只是诊断,诊断也分不同的模型:简单的分类模型、罕见病的识别模型、强化模型,还有对于治疗推荐的各种各样模型。如果一百个模型在每个患者身上重复识别发热,如果我是信息科主任我是绝对不允许这样的系统上线,这会造成系统负担过重,导致落地十分困难。
现在说信息化做得不好,这对于中英两种语言原因不太一样。首先英语比中文难,英语缩写的随意性以及首字母缩写的一词多义现象极其严重,中文至少在构词上是远超越其他语言的。这是我在美国做了好几年电子病历处理以后的感受,我本能地不想碰英语病历。中文的困难和英语不一样,中文语言有天然优势,但是比美国缺少开放的医学术语系统,这里的关键词是“开放”。这是公共的基础设施,医院、学校、IT公司都需要从零基础自己建自己的数据系统,这是非常不现实的。这给我们造成非常大的困难。所以近些年回国以后,我把主要工作精力转移到建设开放的医学术语系统和知识图谱上,同时也非常有幸和IDEA合作建立这个公共的基础设施。
邓侃:我们处理过12.7亿份中文的真实临床电子病历数据。这些临床病历设计初衷是面向记录,而不是面向汇总研究和价值挖掘。中文病历文本内容相对于英文病历有着很大的不同,中文文本自身在识别上比英文难度更大,直接将病历中的中文信息放到计算机里无法进行任何形式的计算,所以首先要做的是结合医学术语和医疗标准规范实现数据标准化、结构化,这就需要强大的数据处理技术和AI技术能力。
谢育涛:提到信息化到智能化的过程,听上去信息化是非走不可的道路,这条路很多问题待解决。往智能化方向走有哪些不同的挑战?
邓侃:现如今,信息化已成为构建现代医疗的基础设施,而智能化则会为医疗业务带来更多的可能。我们首要思考的是在国内优质医疗资源不均衡的背景下,如何借助AI技术,为人们创造更便捷、更科学、更有价值的医疗服务模式。刚才讲到EricTopol,那就是我们正在做的事情。目前国内优质的医疗资源分布不均衡且医患之间存在着不信任,反而给国家带来突破的机会。患者越来越有意识的想知道他们所患的到底是什么病,要如何治疗。
我和大家说一个故事。国家卫健委在全国四个县做了四个试点,其中有一个叫山西永和县。我们去了之医院的楼盖得非常好,里面的医疗设备先进、齐全,但因为没有好医生,所以病人也不多,由于病人少,因此好医生留不住,整个现状就进入了非常快速的下旋状态。
当时有位专家给我提了一个建议,目前大家有两个共识:第一,所有永和医院的设备是好的;第二,医院的医疗水平是有点顾虑的。医院把自身化作为操作工,就是做化验、抽血、验尿,还有拍片等工作,拍片之后把客观数据上传,传输给北京、医院,由那边的权威专家给出诊断和治疗方案。我们做了一些类似的尝试,效果不错。
AlphaFold能否为制药领域带来真正突破?
谢育涛:DeepMind开源的AlphaFold现在很火,想请几位嘉宾谈谈AlphaFold是否有可发展性?
温书豪:我们还是用事实说话,以结果为导向,这次DeepMind做的AlphaFold对蛋白结构的预测达到很好的效果。虽然我认为这离最终通过AI把药物做出来还是有点距离的事,但是AlphaFold迈出了非常重要的一步。药、人,都是原子、电子组成的,药物要发挥作用,其实是药物分子和人体的蛋白发生作用,是物理学计算相互作用的范畴。AlphaFold也是一样的,它有基本的底层逻辑可循,有很多物理的模型来理解在怎么样的条件下,这个蛋白会处于稳定的状态和结构。它是数字化或者人工智能的基础,或者以后会以越来越准的基础跨过一个阈值。
这次DeepMind用了几百个TPU,算力也是达到了过去没有的状态,底层逻辑是清楚的。后续因为生命科学是人工智能领域里面大家最