写在前面
- 学校情况:211本中9硕,本硕都是计算机科班,但研究方向并不是NLP,而是图表示学习
- 论文情况:1A(NeurIPS)+1B(ICDM)已发表,另有1A刊在投,除此之外,还有1A会撰写中,所有论文均为一作
- 实习情况:一段快手推荐算法实习
- 奖学金情况:本硕国家奖学金
一面
- 首先是一个自我介绍
- 让讲两个拿手的东西,第一个首先介绍了NeurIPS那篇论文
- 中间穿插着问了10多个问题,包括具体原理,数据集规模,下游任务等
- 第二讲了快手的实习,主要干了些什么,中间穿插着10来个问题,面试官显然也了解GNN,因此这两部分耽误的时间较久
- 问我主要是搞GNN这块的,是怎么接触到大模型的,我说本科搞时序预测的,比较相关,再加上比较感兴趣
接下来是大模型八股拷打
- 说一下Transformer的具体结构,以机器翻译为例,说了编码器和解码器的工作步骤,包括训练和测试
- BERT和GPT的区别在哪里?从结构上说了一些,然后从BERT的任务说了一些(MLM和NSP)
- GPT和其他常见的大模型,比如LLaMA还有ChatGLM的区别在哪里?从结构,激活函数,位置编码以及训练的任务四个角度说了一下
- 预训练微调了解吗,提了一嘴LoRA
- 说了一下LoRA的具体原理,以及具体是用在什么地方
- LLaMA-70B这样的模型,加载不进去,该怎么训练呢?我从模型并行说了一下,顺便讲了数据并行
- GNN和LLM有没有什么好的结合方式,思路是类似把节点当做token,然后把节点序列送入LLM,然后又讲了讲当出现新的节点时可能会怎么处理
- 算法题:一个数值不重复的序列,每次插入一个值,如果该值存在,则将其移动到末尾,否则插入到末尾,要求O(1)时间复杂度。这题类似于LRU,用了哈希+双向链表,哈希存储值和node的映射
- 能实习多久,什么时候到岗?
- 反问:实习生进去后主要做了些什么
二面
- 自我介绍
- 讲解NeurIPS论文,问了大概十几个问题,从动机,到细节,再到实验,让直接打开论文讲
讲解ICDM论文,问了大概十几个问题 - 讲一下对大模型的理解,从上个世纪的词频统计等方法,再到skip-gram,再到rnn,再到Transformer,再到BERT,再到GPT,再到一些有监督微调方法如LoRA,还有强化学习
- BERT和GPT有什么区别?
- 各有什么优势?
- 为什么BERT更适合做文本理解,GPT适合做生成任务
- 谈谈你对强化学习在LLM中的理解
- 图神经网络中一般用什么norm,whynorm的作用,各种,追问了很多,感觉回答得不是特别好
- 算法题:m * n的格子,从左上角到右下角有多少条路径,需要将格子中的障碍物避开,二维DP
- 反问:进去主要做些什么,面试官谈了大概十多分钟
- 问了offer的情况,以及能实习多久,大概多久来
三面/HR面
- 自我介绍
- 问有没有深造的打算
- 问到了职业规划
- 具体说了一下实习经历,包括做了什么
- 实习中具体是自己一个人在做吗?还有什么可以提升的地方吗?
- 你觉得自己的优缺点是什么?有什么的爱好和兴趣?优缺点描述完后问了MBTI
- 为什么会想到做公众号?一般做什么方向的?后续对这个公众号有更具体的规划吗
- 你一般通过什么来了解你这个领域的前沿技术?论文和学术交流
- 进去后具体想要做什么方向有规划吗?城市意向
- offer情况,什么时候能入职,入职后能待多久,能一直实习下去吗?
- 确认了一下个人信息
- 反问环节:具体进去做什么,HR说需要和mentor沟通,20分钟后收到了云证通知,状态也变成了录用评估中,告知下周给offer。
面试题展示
1、请解释一下BERT模型的原理和应用场景。
答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。
2、什么是序列到序列模型(Seq2Seq),并举例说明其在自然语言处理中的应用。
答案:Seq2Seq模型是一种将一个序列映射到另一个序列的模型,常用于机器翻译、对话生成等任务。例如,将英文句子翻译成法文句子。
3、请解释一下Transformer模型的原理和优势。
答案:Transformer是一种基于自注意力机制的模型,用于处理序列数据。它的优势在于能够并行计算,减少了训练时间,并且在很多自然语言处理任务中表现出色。
4、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。
答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。
5、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。
答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。
6、请解释一下生成对抗网络(GAN)的原理和应用。
答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。
7、请解释一下强化学习(Reinforcement Learning)的原理和应用。
答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。
8、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。
答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。
9、解释一下迁移学习(Transfer Learning)的原理和应用。
答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。
10、请解释一下模型蒸馏(Model Distillation)的原理和应用。
答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。
11、请解释一下LSTM(Long Short-Term Memory)模型的原理和应用场景。
答案:LSTM是一种特殊的循环神经网络结构,用于处理序列数据。它通过门控单元来学习长期依赖关系,常用于语言建模、时间序列预测等任务。
12、请解释一下BERT模型的原理和应用场景。
答案:BERT(Bidirectional Encoder Representations from Transformers)是一种预训练的语言模型,通过双向Transformer编码器来学习文本的表示。它在自然语言处理任务中取得了很好的效果,如文本分类、命名实体识别等。
13、什么是注意力机制(Attention Mechanism),并举例说明其在深度学习中的应用。
答案:注意力机制是一种机制,用于给予模型对不同部分输入的不同权重。在深度学习中,注意力机制常用于提升模型在处理长序列数据时的性能,如机器翻译、文本摘要等任务。
14、请解释一下生成对抗网络(GAN)的原理和应用。
答案:GAN是一种由生成器和判别器组成的对抗性网络结构,用于生成逼真的数据样本。它在图像生成、图像修复等任务中取得了很好的效果。
15、请解释一下卷积神经网络(CNN)在计算机视觉中的应用,并说明其优势。
答案:CNN是一种专门用于处理图像数据的神经网络结构,通过卷积层和池化层提取图像特征。它在计算机视觉任务中广泛应用,如图像分类、目标检测等,并且具有参数共享和平移不变性等优势。
16、请解释一下强化学习(Reinforcement Learning)的原理和应用。
答案:强化学习是一种通过与环境交互学习最优策略的机器学习方法。它在游戏领域、机器人控制等领域有广泛的应用。
17、请解释一下自监督学习(Self-Supervised Learning)的原理和优势。
答案:自监督学习是一种无需人工标注标签的学习方法,通过模型自动生成标签进行训练。它在数据标注困难的情况下有很大的优势。
18、请解释一下迁移学习(Transfer Learning)的原理和应用。
答案:迁移学习是一种将在一个任务上学到的知识迁移到另一个任务上的学习方法。它在数据稀缺或新任务数据量较小时有很好的效果。
19、请解释一下模型蒸馏(Model Distillation)的原理和应用。
答案:模型蒸馏是一种通过训练一个小模型来近似一个大模型的方法。它可以减少模型的计算和存储开销,并在移动端部署时有很大的优势。
20、请解释一下BERT中的Masked Language Model(MLM)任务及其作用。
答案:MLM是BERT预训练任务之一,通过在输入文本中随机mask掉一部分词汇,让模型预测这些被mask掉的词汇。