首先这个问题问的很广。做机器学习方向很多,有些公司更偏重于数据挖掘,而有些更倾向于深度学习。同理,相对应的岗位有些偏重理论也有些偏重实践。这些因素叠加造成了机器学习相关的岗位分布广,如数据分析师,算法工程师,机器学习科学家等,很难一概而论。
大概从实习生的时候就开始跟着老板招聘面试机器学习方向的候选人,到现在前前后后大概也参与了 20 个左右机器学习求职者的技术面试。其中有在读的研究生(实习生岗位),也有已经工作了多年或者学术背景深厚的名校博士(相对高级的“科学家”岗位)。
不谈具体岗位的前提下,我想回答以下几个问题: 1.为什么要避免学科性的偏见 2. 如何测试面试者的知识广度 3. 怎样测试面试者的知识深度 4. 为何需要确认基本的编程和数据分析能力 5. 怎么提高机器学习面试成功率
1. 避免学科间的偏见与歧视
机器学习作为一个交叉广度大,各学科融合深的学科,各种背景的面试者都有。我建议一定不要预设立场,无论是数学、统计、物理、计算机,或是其他学科的面试者都有独特的知识储备。比如机器学习其实和统计学习有很大部分是重叠的,甚至和优化(如运筹学)、数学(线代等)也有很多相关的地方。而不同领域的人对于同一件事情的描述可能是相似但不相同的,甚至连叫法都不同。举个简单的例子,统计学将变量叫做 predictors 而机器学习倾向于将其叫做 feature(特征)。我听说过很多面试官就因为对方不能完全的使用他能听懂的术语就拒掉了候选人,我觉得这个是愚蠢的。
以我们团队为例,我的老板是统计学博士和教授(偏计量),而我是纯粹的计算机科学出身。他喜欢用 R 来建模而我只擅长 Python 和 C++。但正是这种差异性让我们可以更好的合作,他在无监督学习中很喜欢用各种密度分析(density estimation)或者对分布直接进行拟合,而我可以给他介绍很多机器学习方向比较流行的算法,比如 Isolation Forests。同理,Python 和 R 都有各自擅长的领域,比如 Python 做时序分析的难度就远远大于 R,因为 R 有非常成熟的 package。
因此,我们不要因为领域不同,叫法不同,编程语言不同,或者模型的解释思路不同就轻易的否定一个面试者。长此以往,我们的思路会越来越窄,而一定程度的包容能拓展思路。
2. 通过广度测试划定面试者的知识面
机器学习的项目一般都牵扯数据处理,建模,评估,可视化,和部署上线等一系列流程,我们希望面试者对于每个步骤都有最基本的了解。因为其范围很广,我们希望首先在短时间内了解一个面试者的知识范围。有很多基本但经典的问题可以用于了解面试者的素质,给出一些例子:
- 数据处理:如何处理缺失数据(missing value)? 各种处理方法有什么利弊?
- 数据处理:如何将描述变量(categorical variables)转为连续变量(continuous variables)?
- 如何处理有序变量?
- 如何处理无序变量?
- 数据处理:如何进行选择特征选择?如何进行数据压缩?
- 特征选择:包裹式,过滤式,嵌入式
- 数据压缩:主成分分析,自编码等
- 模型解释: 试解释什么是欠拟合与过拟合?如何应对这两种情况?
- 模型解释: 什么是偏差与方差分解(Bias Variance Decomposition)?与欠拟合和过拟合有什么联系?
- 评估模型一般有什么手段?
- 分类模型评估方法?
- 回归问题评估方法?
- 数据不均衡的评估方法?
- 深度学习是否比其他学习模型都好?为什么?
以如何处理缺失数据为例,可能的回答有:1. 分析缺失比例决定是否移除 2. 用均值,众数,回归代替 3. 用 0 代替等。比如深度学习是否比别的模型好,我们就期待面试者能说“分情况讨论”,若是能提到“没有免费的午餐定理”更是加分。在这个阶段,我们不会深入追问,仅想对面试人的知识范围有一个了解。
这类问题的共性就是无论你是在校学生还是资深科学家都应该有一个基本的水准在,不过没有必要百分之百的回答正确,因为本身很多答案都没有标准答案。大部分时候,这个环节我们对于是否录用这个人就已经有了答案。如果面试者答错或者不知道其中百分之八十的概念,录取的概率就很低了。
3. 根据岗位和求职者背景进行深入挖掘
在经过上一阶段以后,我们已经对求职者的素养有了大概的判断,下一步就需要进行深入了解,一般根据两点进行追问:
- 面试者的背景: 如果有与岗位特别相关的工作经历,会深入询问。如果有高引用了的文章,也会让他讲一下他的研究。
- 所面试的岗位: 如果没有与岗位特别相关的经历,会根据岗位需求进行询问。
进入这个环节其实就已经没有模板了。假设我们现在要为保险公司招聘一个机器学习工程师来自动化”骗保检测”,我们的求职者是一位计算机系刚毕业的硕士生。那我们可能深入询问的话题包括:
- 在只有少量的有标签数据的情况下,如何构建一个反保险欺诈系统?
- 如果面试者回答先用监督学习来做,那么我们可能问:
- 这种情况下数据是不均衡的,你是采用过采样还是欠采样?如何调整代价函数和阈值?
- 有些人可能会提到使用 One-class SVM?那么我们可能会追问一下 SVM 相关的问题,比如什么是最大间隔分类器啊什么是 Kernel,如何选择 Kernel 等。
- 如果面试者回答用无监督学习,那我们可能会问:
- 为什么 K-Means 不适合异常值检测?K-Means 和 GMM 是什么关系?是否可以用 FMM 来直接拟合异常值。
- 如何可以得到无监督学习中的分类规则?
这一类问题的特点是随机应变,一般都是在一个方向上深入。比如其他答案提到的 L1 和 L2 正则化,我们可能希望面试者在白板上画图介绍为什么 L1 可以得到稀疏解,以及和嵌入式特征选择有什么联系。这一类问题我们不期待求职者完全答对或者讲得清楚无误,我们同时也想观察其在压力和追问下的心理素质。因为整个过程中肯定会有一些知识盲点,我们会尽量避免尴尬的气氛,所以作为求职者不必过分紧张。同时,通过和面试者一起了解他 / 她曾做过的项目,可以看出其对于这个专业的兴趣 — 兴趣是很难演出来的。
在这个环节,如果一个面试者可以有能力进入深入交谈,甚至提到一些我们从来没想过的思路,都是加分的表现。
4. 基本的编程能力和数据挖掘能力
机器学习岗位,不管你是统计出身还是计算机出身,都避不开建模的过程,因此基本的编程能力是必须的。一般对于数学或者统计学出身的面试者,我们会额外给出一个简单的小程序测试。这种小程序可能简单如将读取数据后并保存为矩阵。这倒不是因为我们喜欢没事找事,而是因为机器学习太容易成为纸上谈兵,而从业者缺乏最基本的编程能力。
相似的,我们也希望面试者谈谈从模型中可以得到什么结论。我们曾把 Kaggle 上泰坦尼克的那个数据集处理过以后,让面试者谈谈幸存率到底和什么有关,如何分析。同样的,我们不追求完美答案,只是希望看到求职者可以解释一些简单的模型结果,从中攫取商业价值。
5. 让面试者有所收获 & 如何准备机器学习面试
5.1. 真诚并且实事求是
大家都是理工科出身,行家一出手便知有没有。在这种技术性比较强的学科,完全没有必要假装自己了解一个知识点。同理心告诉我们,大部分人都有知识盲区,我们不期待完美的回答。当你真的不知道一个问题的答案时候,真诚的希望对方能讲得更明白或者承认自己不太了解。
如果你假装自己很了解一个不明白的领域,我们一般会问的更深入。你成功的引起了我的注意,那个时候就真的收不了场了。相似的,简历上请真的不要夸大其词的描述自己的经历。我见过很多人只用过 Naive Bayes 就在简历上号称自己是机器学习专家,我现在还记得他们被面试到面红耳赤的样子。在这个浮躁的年代,对于高薪的机器学习岗位,希望大家都能守住最起码的诚信底线。
5.2. 确保自己对基本的概念有所了解
再一次,保证对基本知识的了解(有基本的广度)是对面试者自己和面试官的尊重。什么程度就算基本了解呢?我的感受是:
- 对基本的数据处理方法有所了解
- 对基本的分类器模型有所了解并有所使用(调包),大概知道什么情况使用什么算法较好
- 对基本的评估方法有所掌握,知道常见评估方法的优劣势
- 有基本的编程能力,能够独立的完成简单的数据分析项目
- 有基本的数据挖掘能力,可以对模型进行调参并归纳发现
其中每一条都说来简单,但都是血与泪的过程,请勿操之过急。如何就能保证自己有了足够的基础知识呢?我觉得能基本看懂周志华老师《机器学习》的前十章,并相对熟练的使用 Sklearn 中基础的 API 进行建模就可以了。也请勿矫枉过正,如果你面试的岗位不是理论性科学家岗位,不要和数学推导死磕。
5.3. 享受面试
请不要把技术面试当做一场噩梦,或是一个难关。作为一个冉冉升起的新领域,我们大家都是这么一路摸爬滚打过来的,至少我自己是很理解这一路的不容易。
因为机器学习领域的人才稀缺,一般而言你的面试官的时间都是很宝贵的,即使你最终没有通过面试,请抓住机会从他们身上有所学习的机会。从我的角度来看,你不仅可以借此发现自己知识点上的缺失,也可以听到在特定领域的流行的算法和模型,这些都是从书上很难学到的。如果你为了准备面试还阅读了相关领域的论文和总结,那我想来面试这件事已经远远超过了你是否被录取的意义。