最新大模型面经+感受，4家大厂offer！

关注机器学习初学者

最新大模型面经+感受，4家大厂offer！

转载

机器学习初学者 2023-10-18 11:32:25

文章标签 强化学习机器学习数据 文章分类 Python 后端开发

硕士阶段的方向是强化学习，毕业后加入大厂做强化学习在游戏中的应用，已经有两年多了。这两年赶上了大厂很不好的光景，晋升被卡，涨薪变慢，真的是一言难尽。也算是openAI给饭吃，最近大火的大模型里用到了强化学习。因此想要尝试跳槽，换一份大模型方向的工作，做RLHF或者LLM-agents。

在boss上挂完简历，发现来聊的hr或者猎头倒是不少，可能是因为学历还有大厂光环暂时还有点作用。可是实际聊下来一圈以后，发现很多LLM岗位还是需要过往有NLP的经验，这个倒也是符合预期。对于阿里系（拆分后各个事业群独立招聘）、字节、百度等大厂，或者百川智能、360等比较头部有名气的中小公司，或许也能给到面试机会，但是在面试过程中一旦涉及到LLM具体的项目经验，像我这种完全空白的人来说只能尴尬地说没做过，背过的一些八股文也只能勉强应付。

面试一圈下来，拿了百度、美团、滴滴、快手这几家偏业务的算法岗位offer，但是跟大模型没啥关系，基本上都是各家业务的核心算法岗。感觉他们可能是因为这两年刚毕业一批人，空出一些hc，因为我这种强化学习背景的，只能说是业务算法的一个探索方向，不算是核心解决方案。大模型方向的offer，只拿到两个，打算选择其中一家。虽然现在大环境仍然不算好，跳槽有风险，尤其是创业公司，但是在大厂里温水煮青蛙也是困境。搏一搏，单车变摩托。

下面是面试过程中记录的一些关于大模型、强化学习的问题，仅供参考。

PPO算法中使用GAE的好处以及参数γ和λ的作用是什么？
PPO算法和DQN算法的区别是什么？
有哪些PPO算法的调参经验？
在线强化学习和离线强化学习在技术和应用场景上有什么区别？
强化学习和大模型之间的关联是什么？
如何评估大模型中数据集的质量？
目前国内一般选择基于哪些基座模型继续训练？
国内做大模型的主要工作是哪几个部分？
除了数据之外，还有哪些方向的工作可以进一步优化大模型的效果？
大语言模型是怎么输出的，观察过输出的概率值吗？
关于微调的方法有哪些？
如果让你训练一个模型，基座，数据，finetune的方法怎么选？
怎么解决大语言模型的幻觉问题，RLHF可以吗？
是否看好国内做基座模型工作的前景，为什么？
为什么模型越大，貌似更多地具备AGI的能力？这背后的逻辑是什么？
介绍下对transformer的了解，网络结构相比于lstm有什么不同？
transformer里用到的正则化方法有哪些？
chatgpt训练过程中，奖励模型有更新吗？
chatgpt强化学习训练阶段还有什么改进的空间和思路吗？
直接用训练reward model的数据精调模型，而不用强化学习，是否可行？为什么？
了解bert和gpt网络结构的细节及其差异吗？
假如reward model不太准，怎么办？
有做过大模型训练的实践吗，有哪些收获或者感悟？

坦白讲，这些问题对于有过大模型项目经验的人来说应该问题不大，尤其是有NLP背景的。但是如果目前工作内容和大模型无关，想要比较好的回答出上述问题还是有难度的。要准备好八股文，要对前沿的方向有了解，而且最好自己跑过大模型的训练，包括微调和对齐。

最新大模型面经+感受，4家大厂offer！_机器学习

赞
收藏
评论
分享
举报

上一篇：从致谢说起，看看我在中科院读研时工资多少

下一篇：【Python】值得收藏的30道Python练手题（附详解）

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册