■本报记者 李惠钰
对于以数据为基础食材的AI来说,没有什么比医学影像数据更好“咀嚼”的。图片来源:百度图片
春节长假刚过,一则消息就让人工智能(AI)圈振奋不已。在2月22日最新一期的《细胞》杂志上,广州市妇女儿童医疗中心张康团队的研究荣登杂志封面,他们所带来的成果是一款能精确诊断眼病和肺炎两大类疾病的AI系统。
在2月23日举办的新闻发布会上,研发团队介绍,新一代AI平台“本领强大”,既能读X光片和超声数据,又可以阅读CT(X射线断层扫描)和MR(磁共振)影像;可在30秒内诊断黄斑变性和糖尿病视网膜黄斑水肿这两种眼科疾病,还可在几秒内对儿童肺炎病原学类型进行差异性分析和判定,诊断的准确性和灵敏性均达到90%以上。
据了解,这不仅是中国研究团队首次在顶级生物医学杂志发表有关医学人工智能的研究成果,也是世界范围内首次使用如此庞大的标注好的高质量数据进行迁移学习,并取得高度精确的诊断结果,实现用AI精确推荐治疗手段的突破。
“未来我们将继续增加这个系统能够诊断的视网膜疾病,同时还将加入包括肿瘤等其他系统的疾病。”美国加州大学圣地亚哥分校人类基因组医学研究所所长、广州市妇女儿童医疗中心基因检测中心主任张康表示。
举一反三的迁移学习
在眼科治疗中,视网膜OCT(光学相干断层扫描)成像技术是最常用的诊断技术之一,通过获取视网膜组织的高分辨率图像,医生们能够精准地对年龄相关性黄斑变性和糖尿病性黄斑水肿等致盲性眼病作出诊断,并提供治疗方案。
基于OCT技术的普遍性,如果能让AI技术来处理这些图片,无疑将会大大增强诊断的效率和准确度。为此,张康团队获取了超过20万张OCT的图像,并使用其中来自近5000名患者的10万张图像,训练一款深度学习算法。在经历了大量迭代训练后,这款算法的准确率达到了目前的最优值。
“在学习了超过20万病例的OCT图像数据后,AI平台诊断黄斑变性、黄斑水肿的准确性达到96.6%,灵敏性达到97.8%,特异性达到97.4%。”据张康介绍,新一代AI平台既能基于OCT数据实现常见视网膜疾病的识别和严重性定量评估,也能基于胸部X光影像数据实现儿童肺炎病原学类型的差异性分析和快速准确判定。
那么,“学习训练”后的AI平台,诊断水平为什么会得到快速提高?这就是该研究应用算法的创新之处——迁移学习。
所谓“迁移学习”,就是把已训练好的模型参数迁移到新的模型来帮助新模型训练,也就是运用已有的知识来学习新的知识,找到已有知识和新知识之间的相似性。这实际上就相当于举一反三。
“比如你过去没有见过老虎,但当你见了三只老虎之后,再出现第四只你就认识了。”医学影像人工智能专家、汇医慧影CEO柴象飞对《中国科学报》记者解释,“当我们对一个事物建立了基本认知之后,再去学习新的事物就会相对容易,并且只需很少的样本就可以有一个知识的迁移,这就是迁移学习。”
相较于其他大多数学习模型的“从零开始”,迁移学习利用卷积神经网络(CNN)学习基于已有的训练好的源任务参数的基础上学习目标任务输入数据的特点,获得新的网络模型及其参数。以医学影像学习为例,该系统会识别目标系统中图像的特点,从研究人员导入的源系统的结构和参数从发,利用输入图像数据的相似性训练构建新的系统模型和参数。
华中科技大学
与技术学院教授薛宇表示,传统机器学习算法训练数据集大,特征提取比较困难,这样造成的结果是,数据集小预测不准,变大后预测准确率提高,但数据集再大就又不准了。深度学习的好处是,数据集越大准确性越高,特征提取能力也比传统机器学习算法强得多。
“CNN是深度学习算法里的一类方法,处理图像数据比较有优势。这项研究策略是先让机器学习1000类图片的特征然后建立模型,再针对需要研究的问题进行迁移学习,这样的话,训练集足够大准确性也高。”薛宇点评道,“理论上训练集不断增大,准确性可以完全超过任何顶级专家的诊断。”
首先要克服数据困境
对于以数据为基础食材的AI来说,没有什么比医学影像数据更需要“咀嚼”的。在医疗中,超过80%的数据来自于CT、X线、MR、超声等医学影像,AI可以借助这些海量数据生成算法模型,保证模型最大的包容性。
但在柴象飞看来,医疗领域还有一个显著特点,就是医疗数据没有办法像人脸、指纹、车牌等图像数据一样有一个丰富的来源。
“实际上,医疗影像的数据是很有限的,尤其单病种,我们每个人平均一年都拍不到一张片子,比如间质性肺炎或某一个部位的骨折,全国每年可能只有几万个患者,并且还分散在各个地区及各个医院,数据获取十分困难。”柴象飞说。
正如影像科医师需要阅读大量的临床医学图像一样,“喂食”病理图像数据也是AI系统最主要的学习方式。“喂食”的病理图像数据越充足,AI的分析能力才能越强大。
“能拿到非常好的数据,才能知道算法在什么地方存在哪些问题,通过AI反复计算来达到最好的效果。”张康同样指出,AI应用在医疗领域,数据获取是一个很大的挑战。“中国医院有大量病人的数据,但是如果没有经过纯化、没有高质量标注过,这样的数据直接输入计算机是不会获得预期结果的。”
另外,尽管大多数放射科已经完成过数百万次的影像检查,结构化程度也较高,但是大部分都没有医生的标注信息。医疗影像的专业性决定了它的特殊性,影像数据的标注大部分只能仰赖专业的、有经验的相关医学领域从业人员,很难像语音数据、文本数据或是自然图像一样将标注任务外包出去。
不仅如此,张康还指出,AI医疗领域一直是由几个大的IT公司垄断,如果形成对数据和技术的封锁,也会对AI在医疗行业的发展应用造成限制。
急需培养医工融合人才
目前,影像已然成为AI在医疗领域落地的主要突破口,然而柴象飞认为,这个口子并不容易突破,AI与医疗场景的结合还有很长的路要走,AI开发人员和工程化人员对医疗行业的陌生就是最大的挑战。
AI医学影像不同于只是单纯需要理论型人才或是应用型人才的其他领域,它需要的是大量医工结合的复合型人才。在美国有多年研究经历的柴象飞深刻感受到,国内外在该交叉领域的人才培养方面还存在较大差异。
“在美国,工科学生都有七八年的医院工作经验,从事联合性开发,再把成果交给器械厂商做商业化。但是国内有相关经验的人却非常少,大量医生有兴趣和意愿却往往工科背景不足,还有一部分医生很希望做产业化,但商业方面经验和能力也相对不足。”柴象飞说。
为了培养更多的复合型人才,汇医慧影启动了“优才计划”,将国内优秀的医学及计算机人才输送到美国斯坦福大学等全球顶级名校进行学习深造,提高我国医疗领域综合型人才在全球市场的竞争力。
广州市妇女儿童医疗中心主任夏慧敏表示,患者日益增长的优质医疗资源需要与专业医疗人员培养不足的矛盾,是医院面临的痛点之一。研究更好的技术手段和平台,既能在一定程度上解决医疗服务能力不足的问题,又能提高健康服务的公平性和可及性。
对于此番研究团队开发的这套AI系统,张康希望,未来能应用到包括初级保健、社区医疗、家庭医生、急诊室等领域,形成大范围的自动化分诊系统。
《中国科学报》 (2018-03-08 第6版 前沿)