原视频:https://www.bilibili.com/video/BV175WQeZE7Z
QA:https://www.bilibili.com/video/BV1XFsFegEkX
主要分为两个部分,第一部分是技术相关话题,讨论了LLM的现状和未来预测;第二部分主要是大神这些年来打工、PHD、创业的感悟。感悟部分尽量保留了原话,确实挺有意义。
1. 语言模型的现状、未来预测
算力
大模型不是特别有性价比的东西
- 带宽:让芯片靠的更近一些
- 英伟达推出的 GB200 使用了水冷散热,可以让算力密度更大,减少光纤带来的 ns 级别延迟
- GPU 和 CPU 之间 PCIE 的通信速度,每几年也会翻倍
- 内存:制约模型尺寸的一大因素
- 现在一块芯片可以封装192G内存,芯片内能划分给算力和内存的空间有限,要有工艺的突破才能打破这个限制
- 这方面 AMD 和 Google的 TPU 要比英伟达做的更好
- 算力:长期来看会越来越便宜
- 通过降低浮点数的精度,可以减小硬件,相应的,带宽也会降低
- 短期来看,由于英伟达的垄断,算力翻倍,价格可能会上涨1.4倍;长期来看,受摩尔定律和市场竞争的调节,算力翻倍价格不变
- 目前市场上,做模型推理的话多家芯片都够用,但是做模型训练最优解只有英伟达
- 由于算力受摩尔定律影响,意味着模型也是在不断贬值的,所以大模型不是特别有性价比的东西,长期要看模型提供的价值
算法
- 语言模型:100B~500B 是主流
- 预训练基本都是用 10T~50T 的token,开源模型基本在 10T 左右,更多的数据清洗之后考虑到多样性和质量,也基本在这个区间
- 超过 500B 可以训练,但是做 serving 很难
- 更大的模型可以通过 MoE 实现,但有效大小也就在 500B 左右的样子
- 语音模型:延迟更低,信息更丰富
- 之前的语音模型:先用 ASR 识别,语音转文本,交给 LLM,输出文本,TTS 转语音;
- 现在的语音模型:输入原始语音信号,输出语音信号
- 好处:
- 低延迟:从之前的 1s 大概降低到 300ms,能够中间打断,更像真人对话
- 信息丰富:输入信号中包含了情绪、语调、bgm等信息,可以由模型进一步发掘
- 能够通过文本,定制化输出声音
- 音乐模型:不是技术问题,而是商业问题
- 音乐是一种表达工具,一个人的交互,未来可能会有比较大的影响力
- 版权问题
- 图像模型
- AIGC 领域做的最早、效果最好的,生成的图越来越有神韵
- 视频模型:尚属早期
- 生成一张图容易,生成一串连贯的图片且抱持一致性很难
- video 数据特别难处理,视频模型的训练成本很有可能低于数据处理的成本
- 多模态模型:整合不同模态信息
- 借助强大的文本模型进行泛化整合,因为文本含有丰富的信息并且易于获取
- 通过文本来定制和控制其他模态的输出,比如用简单的文本指令控制图片、视频和声音的生成,而不再需要专业的编程技能或工具
- 可以通过文本去控制生成某个模块,这应该是未来可能的一个常态,用自然语言去做交互
应用
- 未来趋势:人机交互会有所改变
- 之前的交互方式是通过 UI 刷刷刷、点点点,最简单;LLM 出现之后,人们逐渐愿意通过更长的上下文来满足对细节的要求
- 用户习惯问题:长文本还是不如说话方便,同时更愿意通过语音处理更加复杂的和具体的任务,未来的 killer app 可能的方向
- 上一波的 killer app:Character.AI、Inflection、Adept 也都被卖了,还剩一个 Perplexity 搜索还在支撑着
- 对不同人群的影响
- 文科白领(white collar)
- 使用自然语言跟大模型交互,做一些 copilot 任务
- 工科白领(white collar)
- AI 短时间难以取代程序员
- 蓝领阶级(blue collar)
- 人数最多,做起来也是最难的,目前最成熟的是自动驾驶(路况相对封闭、稳定),其它最基本的都很难
- AI 理解蓝领的世界,包括和这个世界互动,可能需要至少 5 年时间,除非技术突破,否则就需要大量的数据作为辅助(在真实世界投放大量AI机器人采集数据很难)
- 对应用来讲,只要你能采集到足够多的数据,就可以被自动化。现在 AI 面临的困难是需要很多数据
创业一年的感悟
- 预训练是工程问题,后训练才是技术问题
- 对于后训练,高质量数据和改进的算法,能够极大地提升模型效果,而高质量数据一定是结构化的,并且与应用场景高度相关,以保证数据的多样性和实用性
- 例如 OpenAI 提出的 RLHF 尽管刚出来时评价很高,但是不同场景下由于数据不一样,算法效果可能也不太行(目标函数对这个结构化问题的假设不一定对应的上)
- 对于大语言模型的研究,可以不做预训练(工程问题,需要很多卡很多人力),只做后训练(算法上的创新,不同尺寸的模型微调参数可能不太通用)
- 预训练现在已经变成一个因为大而导致很多工程问题的困难,这其实还是算法上探索不够,得清楚如何改进算法
- 垂直模型也需要通用知识
- 通用模型的训练,所有维度都会提升,要解决垂直领域问题,需要指数级的数据,且模型会很大
- 即使一个很垂直的模型,通用能力也不差的
- 评估很难,但很重要
- 通过自然语言与模型进行交互,但自然语言有一定的二义性,自然语言很难评价其正确性、逻辑性和风格
- 通常不想让人来评估,因为比较昂贵,但使用模型评估会带来偏差
- 有一个好的评估可以解决 50% 的问题。因为一旦评估解决了,那你就能够进行优化,同时你也拥有了一些数据
- 数据决定了模型的上限,算法决定了模型的下限
- 目前的模型就是填鸭式状态,离 AGI 还很远
- 目前看 Claude 3.5 做的还不错,一个相对来说不那么大的模型,能在各种榜单上优于 GPT-4,他们花了大力气(70-80%的时间)做数据
- 算力
- 自建机房不会比租 GPU 便宜太多,利润大头都在英伟达(三年下来50%的成本在 GPU)
- 自建能够节约很多 CPU、存储、带宽的费用,数据增长很大的时候,自建是有意义的
2. 打卡式人生
经历
- 上海交通大学待了近七年,又在香港科技大学待了两年,后来去了 CMU 待了 5 年,在伯克利和斯坦福大学各待了 6 个月
- 在百度待了两年,在 Amazon 干了 7 年,这是我的第二个创业公司 bosonAI
感悟
- 最基本的目标
- 去大公司,是为了升职加薪;
- 读 PhD ,你要保证自己能毕业;
- 而创业的目标是要能推出产品,要么上市,要么卖掉
- 要干什么事情
- 大公司,你要解决问题。大家一定要想清楚:我要在公司干什么,公司今年准备干什么,最好两者保持一致。如果干的事情是自己喜欢的,但不是公司追求的,这就会让人很难受
- 创业公司面临很多问题,用户会付钱吗?投资人会付钱吗?要是都没人付钱就糟糕了
- 驱动力,即最小的动机
- 去大公司,你不要只想着家里没矿,找个班上赚点工资。你的动机得高一点,不仅仅是为了赚那点钱
- 成立创业公司的动机就要更高一点,不然你熬不下来
- 打工人:晚上不用做噩梦,但逐渐成为螺丝钉
- 好处
- 在一个相对简单的环境里学习各种从业知识,比如一个技术如何落地、产品怎么做出来、怎么设计、怎么运营、怎么管理
- 其次是干完被安排的任务后,晚上睡觉不用太担心其他,不会做噩梦
- 还有就是相对稳定的收入和空余时间。要知道,买房、教育小孩,照顾父母,都需要耗费时间,而打工人相对来讲时间较充裕,就算是 996,还是有一天可以休息,但其他两个赛道(创业和读 PhD)没有 996,它们是 7X24
- 坏处
- 停留在打工人或者职业经理人的思维
- 无论是公司还是学校,它们都创造了一个相对简单的环节。学校是一个非常简单的社会,公司也是如此,公司从最上层把整个复杂的世界抽象成简单的任务,待得越久,就越觉得自己是螺丝钉,当然螺丝钉的好处就是,只要找到一个螺母钉上去就行,不用管这个机器多么复杂,外面世界多么复杂,但你在一个简化的世界里干得越久,就会觉得很腻,学的也越少,这就导致你一直停留在一个打工人或者职业经理人的思维里,而不是站在一个更高更广的层次去思考
- PHD:要真心热爱研究,不然难以坚持
- 好处
- 在几年的时间里可以专心探索某一个领域,反正也没钱赚,也没有升职加薪的机会
- 等完成 PhD 后,你可以获得个人或者小团队研发的能力,不少人可以自己哐哐哐做出东西来,也有些人可以去带硕士生、本科生或者几个人一起完成研发
- PhD 有 50% 时间是花在写作和演讲上的,这种能力也很重要。
- 还有一个好处,很多公司的研发职位要求就是 PhD
- 坏处
- 很少有实验室能参与大项目的研发
- 要真的热爱研究,不然坚持不下去
- 创业:有生死一瞬间的刺激,也有三小时醒一次痛苦
- 好处
- 合法当海盗的方式,天天看市面上有什么东西,天天跟人聊有什么机会,你不 all in ,机会就没了,但 all in 了也可能会失败
- 直面这个复杂的社会,直接跟社会打交道,没有人帮你做抽象,没有人会帮你把事情想清楚,你得自己把这个社会理解清楚后,快速学习。越复杂的环境,越锻炼你的抽象能力,你要对这个世界做抽象,把一些很复杂的现象做简单
- 创业之后,你会发现,做别的事情都相对简单
- 坏处
- 婴儿般的睡眠,每三个小时醒一次,怀疑自己是不是快混不下去了
- 所有的困难都在你头上,没人帮你顶
- 为什么我之前说创业要求的动机要比 PhD 更高一点,PhD 的动机要比工作更高一点,核心原因就在于,你会有一个延迟享受,得到正反馈的时间越靠后越晚
- 强烈的动机来自欲望和恐惧
- 你要有一个强烈的动机,而强烈的动机要么来自很深沉、很底层的欲望,要么来自很深的恐惧
- 你用旁观者的角度来剖析一下自己,你最不愿意回忆或者分享的是什么,再去想一下这背后的动机,是想要什么还是怕什么?
- 欲望是越底层越好,名、利、权,都是底层的欲望,要直面自己的欲望,也要直面自己的恐惧,这种恐惧是可以让你抑郁的恐惧,也是让你感受到生死的恐惧
- 你需要把欲望和恐惧转变成积极向上的动机,这一点很重要,你的动机一定是正确的,符合价值观的,因为逃避、放纵满足不了欲望,也缓解不了恐惧,唯一克服它的办法是,把它变成一个积极向上、符合社会价值的一个动机
- 有了动机之后就得想,我要解决什么问题,你的问题可能就是你的动机本身。
- 如果这个问题有学术价值,你可以考虑去读 PhD;如果这个问题有商业价值,你可以考虑去创业;如果以上两种属性都不够强烈,但至少有成长价值,那先做做打工人也未尝不可。
- 举个例子,语言模型为什么能 work?没人知道,这是一个很有学术价值的东西。语言模型能不能孵化出新的应用?这是商业价值上的问题。实在不行的话,也可以思考语言模型在某个产品上如何落地。
- 一个持续提升自我的妙招
- 你用导师或者上级的角度去总结自己:你每周干了哪些事情?为什么这些目标没达成?
- 可能是因为懒,那么你得直面懒的问题。我怎么能让自己勤奋一点?找一个学习伙伴,每天在图书馆待着,要大家相互监督等。
- 还有可能是因为蠢,这就有两种解决方案。一种是换一个方向,去擅长的领域;一种是既然绕不开,那就花别人两倍的时间。
- 无论是因为懒还是蠢,你都得对自己狠,最后拼的就是你对自己有多狠。
- 你要形成一个习惯,定个闹钟,每周一晚上花 30 分钟对自己进行总结,每个季度要总结,翻看之前你的写的周记,看看这个季度的目标是否完成,下个季度要做什么。
- 选择比努力更重要,但选择的前提是搞清楚你的目标是什么。
- 此外,每年或者每五年你都得想一想自己的动机是什么?如果觉得去年不开心,没有做出什么成果,你就要思考一下,是不是你没有强烈的动机,或者时机不够成熟。要是因为时机不到,你就继续努力,如果是动机不对,那你就考虑换一个努力的方向。
写在最后
一点个人的感受。
我大概是从2023年下半年换工作之后才开始真正入门的,已经晚于 GPT出来一年的时间,期间花了一些精力研究能做些什么,从 function-call、agent 到 fine-tune、多模态、工作流都摸索着试一试。降低使用门槛、语音的交互是我相对对感兴趣的方向,自知没有太多的算力和人脉大搞一场,跟朋友偶尔聊天的时候会吹吹水。
不过这两年冒出来的应用,大都是基于语言模型、或者图片视频的工作流之类的,语音除了克隆声音和 gpt-4o 刚出来的时候打电话的场景,一直没有太多应用出来,确实是个挺有方向的点(听大佬说到这里可能会有 killer app 的时候,心动了一下)。
不过不能总当语言的巨人,马上一年了,除了搭了自己的网站,其它的都是在本地瞎玩,没有做过什么产品化的东西,这点觉得挺失败的。喝完鸡汤就要继续搬砖了,要抓紧搞起来了。