深度学习模型优于人类医生?

前几天,德国和法国的几位研究人员在oxford academic上发表了一篇名为man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists的文章,这个长长长长的标题告诉我们,这又是一篇让人去跟机器比赛的故事,目的是看谁识别皮肤黑色素瘤的准确度更高。最终结果表明深度学习模型优于人类医生。
但今天,澳大利亚的医学博士、放射科医生luke oakden-rayner在推特上质疑论文的严谨性,认为结论过于草率,低估了人类表现。到底双方哪种说法更合理呢?我们先看看这篇论文到底讲了什么。
cnn vs 人类
过去几十年,黑色素瘤成为威胁公共安全的一大主要挑战,连续攀升的发病率以及死亡率,让早期发现及预防成为诊断的关键。多项分析表明,皮肤镜的应用大大提高了诊断准确率。然而,每位医师接受的训练不同,水平也参差不齐,目前黑色素瘤的平均诊断准确度还不到80%。
最近几年,一些自动计算机图像分析技术的出现,意在帮助提高医疗诊断准确率和效率。但这些方法都有限制,它们都使用人类规定的皮肤镜诊断标准进行的判断,例如是否有多色、特殊形态例如条纹状和结节状,或不规则血管结构。
2017年,esteva等人发表论文,宣布他们创建了一种基于卷积神经网络的深度学习模型,可以对图片进行分类,其中cnn无需被人类的标准所限制,它可以将数字图片分解成像素级水平,并最终进行诊断。这篇论文也被看作是革命性的作品。
而本次德国和法国的研究者目的是训练、验证并测试一个深度学习cnn,让它对皮肤镜成像进行诊断分类,判断是黑色素瘤还是良性的痣,并将结果和58位皮肤科医生相比较。
具体方法
谷歌的inception v4 cnn架构是用皮肤镜图像和对应的诊断结果训练并验证的。在横向的人类医生验证中有100张图片组成的测试集(其中第一步只用皮肤镜观察,第二步会加上诊断信息和图片)。对输出进行测量的标准主要有敏感性(sensitivity)、特异度(specificity)和cnn对病变处的诊断分类的roc曲线的auc值与读者研究中58名人类医生的对比。
次要评估指标包括皮肤科医生在管理决策时的诊断表现,以及在两个不同阶段上诊断的差异。除此之外,cnn的性能还会与2016年国际生物医学成像研讨会(isbi)挑战赛上排名前五的算法进行比较。
对比结果
在人类医生的第一阶段表现中,他们的得分较接近平均水平,在对病变的分类上,敏感性为86.6%(±9.3%),特异度为71.3%(±11.2%)。第二阶段增加了更多信息后,敏感性上升至88.9%(±9.6%,p=0.19),特异度升为75.7%(±11.7%,p<0.05)。
而cnn的roc曲线在第一阶段中,特异度就高于人类医生,为82.5%。而cnn的roc auc分数也比医生的平均roc面积要高,为0.86 vs 0.79,p<0.01。cnn的最终分数与2016 isbi挑战赛上前三的算法分数接近。
结论
在包括30名专家的58位皮肤科医生团队中,这是我们首次将cnn与人类进行对比。大多情况下,cnn的表现要优于人类医生。研究者并不否认医生的经验和努力,而是认为在cnn图像分类技术的帮助下,诊断率会更高。
ai赢了?
这篇论文发表后,获得了许多大v转发,其中就包括卷积网络之父yann lecun。
虽然只重复了一遍对比结果,lecun的转发也获得了300多点赞。
同时,华盛顿邮报、医学网站等媒体也纷纷报道了这一结果,声称“ai打败了人类”,但有人却针对其中的统计方法提出了质疑。
论文很好,但有瑕疵
今天,放射科专家、医学博士luke oakden-rayner在推特上表示:这篇论文有瑕疵!简单地说,他认为论文研究者低估了人类医生的表现。论智君将具体原因编译如下:
我认为,研究者们在对比人类和机器时用的是两种不同的指标!对机器用的是auc,对人类用的是“roc区域”得出的平均敏感性和特异度。除了指标不同,“roc区域”整体就比auc要低。实际上,皮肤科医生表现的越好,它就越偏离假设的auc。
根据论文数据,我们可以也计算一下模型的“roc区域”,结果如下,跟人类的分数一样都是79。
在特异度方面,对比的缺陷就更不易察觉了。专家医生分布在roc曲线上,所以平均敏感性和特异度把医生的平均值放在了曲线内,同时模型还是在曲线上测试的。再说一遍,人类被低估了。下面是roc曲线的其中一个例子,粉点是平均分。
另外,我不确定研究者是否选择了合适的操作点(op),在cnn和医生对比的过程中,研究人员似乎是基于测试数据进行选择的。在它们的roc中,一个合理选择的op大大降低了敏感性和特异度的值。下图中紫色的点是他们的op,黑色的点只是靠近op所在区域。
注意这个roc曲线看起来有点奇怪,因为前部支持的点很少,也就是说这个区域比上部更缺少数据支持。
最后,我不清楚他们是怎么计算p-value的。在给定操作点(平均医生的敏感性)的情况下,研究者认为特异度在小于0.01的p-value下更好,但是在roc数字表现在曲线上时置信区间竟然有68%!即使是图表解释的有问题,或者存在±2的标准差,95%的数值还是在曲线上的。我不知道这跟p-value<0.01有什么关系。
要说明的是,我并不全盘否定这篇论文,我认为这种讨论很有意义。只是其中有一些我认为不严谨的地方,希望我的建议有用。
结语
说到最后,其实是在对比方式上存在质疑。也许论文的研究者需要考虑一下他们的统计测试是否公平,因为只对医生们的检测敏感性和特异度取平均值说服力还是不够。这也给我们提了醒,在阅读论文时不要一味地迷信,要勤于思考,在发现论文闪光点的同时还要确保逻辑上的准确。

无线通信模块有哪些_无线通信模块优点
微雪电子PL2303 (mini) USB转UART介绍
BGA线路板及其CAM制作
新唐科技M0516ZDE控制器简介
STM32 GPIO实现与外部通讯、控制以及数据采集方案介绍
深度学习模型优于人类医生?
物联网应用于无线语音抄表系统,可做到每一个企业“电尽其用”
智能制造的发展历程、未来趋势和成功经验
防止黑客入侵刀片服务器的操作方法
如何减小变压器漏感
GDB RSP协议与USB通信进行调试信息交互的开发与实现方法
云台防抖智能安全帽
回顾2018最有影响力的10大网络安全收购案
三个小妙招教你挑选最潮的AMT LNG重卡
如何在ARM下实现高效C编程_10个关键点给你答案
浅谈云计算的可视化模型及3种服务
2018年手机显示技术发展路线图
以太网光纤通道(FCoE)技术问答
万向发布称获得通用汽车几乎所有类型电池业务定点供应商资格
Well Grounded, Digital Is Anal