AI Conference 北京站
O'Reilly AI Conference 于 6 月 18 - 21 日在北京成功举办。整场会议干货满满,可谓技术盛宴。在第二天的 keynote 主题演讲环节,MIT 电气工程与计算机科学副教授 Tim Kraska 带来了 MIT 与布朗大学研究人员研发的最新成果——北极星交互式数据分析系统,该系统能够让无论专业还是非专业人士,都能更方便地分析复杂的数据问题。本文将对此做一详细介绍。
在电影《钢铁侠》中,托尼·斯塔克(Tony Stark)使用全息计算机,将三维数据投射到稀薄的空气中,然后用双手就能操纵它们,并找到能帮超级英雄们解决问题的办法。
《钢铁侠》中的黑科技,数据与图表触手可及
而现实中,麻省理工学院(MIT)和布朗大学(Brown University)的研究人员最近开发了一个交互式数据分析系统,可以在触摸屏上运行,让每个人都能解决现实世界的问题。
MIT 电气工程与计算机科学副教授 Tim Kraska
在触摸屏上进行演示
6 月 21 日, O'Reilly AI Conference 2019 北京站的第二天,MIT 电气工程和计算机科学副教授 Tim Kraska 就在 keynote 环节对这个系统作了介绍,他表示,这个系统允许非专业人员使用机器学习模型对医学研究、销售等进行预测,将会让数据科学变得民主化。
Tim Kraska 在keynote 的演讲题目为《Toward learned algorithms, data structures,and systems》
北极星交互式数据科学系统,使数据科学民主化
多年来,MIT 与布朗大学的研究人员一直在开发一种名为北极星(Northstar)的交互式数据科学系统,该系统在云端运行,其界面支持任何触摸屏设备,包括智能手机和大型交互式白板。
用户输入系统数据集之后,使用手指或数码笔在用户友好的界面上操作、组合和提取特征,以揭示趋势和模式(patterns)。
在触摸屏上,可以随意拖动各个数据集
在 ACM SIGMOD 会议上发表的一篇论文中,研究人员详细介绍了北极星的一个新组件,称为虚拟数据科学家(VDS,virtual data scientist),它可以立即生成机器学习模型,以便在数据集中运行预测任务。比如,医生可以使用该系统来帮助预测哪些病人更有可能患某些疾病,而企业老板则可能希望预测销售额。
如果使用交互式白板,每个人都可以实时协作。其目标就是通过使复杂分析变得简单、快速和准确,从而使数据科学民主化。
「即使是不了解数据科学的咖啡店老板,也能够预测在未来几周内他们的销售情况,以确定要购买多少咖啡。」Tim Kraska 说。他是论文的共同作者,也长期担任北极星项目的负责人。
他还表示,「在有数据科学家的公司里,数据科学家和非专家之间总是需要经常交流,所以我们也可以将他们聚到一个房间里一起做分析。」
VDS 基于一种越来越流行的人工智能技术——自动机器学习(AutoML),它使拥有有限数据科学知识的人能够训练 AI 模型,然后根据他们的数据集进行预测。
目前,该工具在 DARPA D3M 自动机器学习竞赛中领先(DARPA D3M 竞赛每六个月评选一次性能最佳的 AutoML 工具)。
用于分析一切复杂数据的「无界画布」
这项新工作建立在麻省理工学院和布朗研究员之间多年的 Northstar 合作基础之上。四年多来,研究人员发表了大量详细介绍 Northstar 组件的论文,包括交互式界面,多平台操作,加速结果以及用户行为研究。
Northstar 以空白的白色界面开始。用户将数据集上传到系统中,该数据集显示在左侧的「数据集」框中。任何数据标签都会自动填充下面的单独「属性」框。还有一个「运算符」框,其中包含各种算法,以及新的 AutoML 工具。所有数据都在云中存储和分析。
每个数据集的可视化图表可被单独查看
研究者也可以在任何数据集之间建立联系
研究人员通常倾向于在包含重症监护病房患者信息的公共数据集上演示该系统。我们可以设想一下,那些想要检查某些疾病在特定年龄群体中同时发生的医学研究人员,是如何利用这个系统的:
他们将一个模式检查算法拖放到界面中间,该算法最初显示为空白框。作为输入,他们将疾病特征标记为「血液」,「传染性」和「代谢」的数据集拖入方框。数据集中这些疾病的百分比便出现在框中。
然后,他们将「年龄」特征拖到界面中,该界面显示患者年龄分布的条形图。接着,在两个框之间画一条线将它们连接在一起。该算法通过圈出年龄范围,立即计算出这三种疾病在某个年龄范围内的共现情况。
「这就像一个大而无界的画布,你可以在这里展示你想要的一切,」作为Northstar 互动界面的主要发明者 Zgraggen 说,「然后,你可以将所有内容链接在一起,以创建有关数据的更复杂问题。」
最快的交互式 AutoML 工具
使用 VDS,用户现在还可以使模型自定义地适应他们的任务,来对该数据运行预测分析,比如数据预测,图像分类或分析复杂的图结构。
依然以上面医学研究人员为例,他们希望根据数据集中的所有特征,预测哪些患者可能患血液病。他们可以从算法列表中拖放「AutoML」,它首先会产生一个空白框,但是有一个「target」(目标)选项卡,在这个选项卡下,他们可以拖入「blood」(血液)特征。
系统将自动找到性能最佳的机器学习管道,以标签的形式显示,并不断更新准确率。用户可以随时停止该过程,改进搜索,并检查每个模型的错误率、结构、计算和其他内容。
根据研究人员的说法,VDS 是迄今为止最快的交互式 AutoML 工具,这部分归功于他们的定制「估算引擎」。该引擎利用自动创建数据集的几个代表性样本,这些样本可以逐步处理,以在几秒钟内生成高质量的结果。
Northstar 包括四个主要组成部分:vizdom,IDEA,
QUDE 和 Alpine Meadow
「我和我的合作者花了两年时间设计 VDS,来模仿数据科学家的思维方式。」论文第一作者 Shang 介绍道,这意味着它可以根据各种编码规则,立即确定哪些模型和预处理步骤应该(或不应该)在某些任务上运行。它首先会从大量可能的机器学习管道列表中进行选择,并在样本集中运行模拟。在此过程中,它会记住结果并改进其选择。在快速逼近结果后,系统会在后端细化结果。但最终数字通常非常接近第一个近似值。
「对于使用预测器,你不会希望等四个小时才能获得第一个结果。你一定希望能够看到正在发生的事情,如果发现错误,可以立即纠正。这在任何其他系统中通常是不可能的。」Tim Kraska 说,「事实上,研究人员之前的用户研究表明,当你延迟给予用户结果的那一刻,他们就开始与系统失去联系了。」
研究人员在 300 个真实数据集上对该工具进行了评估。与其他最先进的 AutoML 系统相比,VDS 的近似值很准确,但生成时间只需要几秒钟,这比其它工具快得多,其它的要在几分钟到几小时内运行。
接下来,研究人员希望增加一项功能,提醒用户注意潜在的数据偏差或错误。例如,为了保护病人的隐私,有时研究人员会在医疗数据集中标注 0 岁(如果他们不知道年龄)和 200 岁(如果病人超过 95 岁)的病人。但是新手可能没有意识到这样的错误,这可能会完全打乱他们的分析。
「如果你是一个新用户,可能会拿到一个结果,并认为这结果很棒,」 Tim Kraska说,「但我们会警告大家,事实上,数据集中可能存在一些异常值,这可能表明存在问题。」
因此,用户在使用该系统时,也需要对结果有一定自我判断力,及时发现问题并提出来,帮助系统改进得更完美,让越来越多的人可以触碰 AI 技术及其带来的便捷。