医学影像是医生看病,及决策的最大的信息入口。而医生理解这些影像的本质,即是医生大脑经过长期的过程被大量数据训练出来的结果。一个客观事实是,高中低年资的医生在看同一张片子时候,得出的结论会有天壤之别,这也是为什么我们要去协和找“老大夫”看病的事实依据。国内病理科医生在册的有1万多人,但经过我们的访谈,认为国内需要大约6、7万的人才能满足需求。但病理医生的培养周期特别长,北京某著名医生的病理科主任曾跟我说过,他们医院45岁以下的病理科医生会诊时没有发言权。因为细胞本身的差异非常大,医生也就要经过大量的训练才行。
这是因为看病的效果和从医的年限高度相关,而从医的时间长短不同意味着所接受的信息量不同。那么如果一台机器学习了比人类医生多得多的案例或者图片,会不会超越人类呢?答案一定是肯定得。这也是应用深度学习技术训练计算机“看懂”医学影像的意义所在。
要完成这个事情,需要有两个必要条件。第一,适应于具体问题的算法;第二,高质量的标注数据。算法开发是一个难点,但相对比较容易搞定。高质量的小批量标注数据我们也已经获得,但是如何进行大批量数据的标注,以及标注质量控制确实是一个比较困难的问题。这涉及到最核心的资源,即高质量医生的时间与效率。除了时间,更重要的是如何做质量管控,比如同样一张图,标准及答案是什么,谁定义答案,由几个医生来标注,标注的是几个阶段,是盲标还是非盲标。这些都是要考虑的。