这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的…厨子。
每周日解读每周AI大事件。
欢迎关注同名公众号【陌北有棵树】,关注AI最新技术与资讯。
大厂动向
OpenAI首推语音引擎 用15秒音频复刻人声
OpenAI宣布推出语音引擎,输入文本和一个15秒的音频样本,即可生成与原始说话者非常相似的自然人声。这项工具尚未公开。OpenAI认为该技术可用于有声读物、翻译视频和播客内容、改善偏远地区的咨询服务、为有语言障碍的人士提供辅助甚至是帮助恢复声音。
阿里首次开源MoE架构大模型
根据社交平台X,阿里首次宣布开源MoE技术大模型Qwen1.5-MoE-A2.7B,这个模型以现有的Qwen-1.8B模型为基础。Qwen1.5-MoE-A2.7B激活参数为2.7亿,但在一系列基准评估中可以达到7B模型的性能。此外,与7B模型相比,它在训练成本和推理速度上具有显著优势。据官方评测显示,Qwen1.5-MoE-A2.7B在与最佳的7B模型相比取得了非常接近的性能。
GitHub地址:https://github.com/QwenLM/Qwen1.5
Hugging Face地址:https://huggingface.co/Qwen
苹果WWDC定档6月10日,将公布AI战略
苹果宣布全球开发者大会定于太平洋时间2024年6月10日-14日举办。彭博社记者马克·古尔曼(Mark Gurman)预计,苹果将推出iPhone、iPad、Mac、Vision Pro头显和智能手表的主要软件更新,其新的AI战略将成为计划中的iOS 18升级的前沿和重点。不过,他认为苹果并不打算在iOS 18升级中推出自己的聊天机器人。
字节提速AI:Flow部门下设四大业务线
据新浪科技报道,字节跳动近日上线的AI角色互动社交app“话炉”由字节跳动的Flow部门打造。新浪科技独家获悉,Flow部门隶属于字节跳动的产品研发与工程部(内部简称“PDI”),下设四大业务线,包括AI教育、国际化、社区和豆包。“话炉”属于社区业务线。
苹果与谷歌洽谈将Gemini引入iPhone
据彭博社报道,苹果已经与Alphabet旗下谷歌、OpenAI、Anthropic等外部AI合作伙伴就iOS 18服务进行了洽谈。在美国,最活跃的是与谷歌的洽谈,想法是让Gemini在苹果操作系统中为聊天机器人提供动力,而苹果自己的AI引擎将在整个新软件中处理更多的幕后任务。
创业 & 投融资
亚马逊完成对Anthropic 40亿美元投资
亚马逊宣布完成对Anthropic 40亿美元的投资,与Anthropic合作,旨在向全球客户提供最先进的生成式AI技术。Anthropic选择亚马逊云科技(AWS)作为其关键任务工作负载的主要云服务提供商,包括安全性研究及未来基础模型开发。Anthropic将利用Amazon Trainium和Amazon Inferentia芯片来构建、训练和部署未来的模型,并承诺为全球亚马逊云科技客户提供对其未来基础模型在Amazon Bedrock上的长期访问权限。
对话式AI创企Hume获5000万美元融资
据福布斯报道,总部位于纽约的Hume正在构建一种对话式AI,声称可以根据人们的声音解释情绪,近日以2.19亿美元的估值筹集了5000万美元的B轮融资。
AI视频生成创企HeyGen正进行6000万美元融资
据The Information援引知情人士消息,AI视频生成创企HeyGen正在融资6000万美元,早期风险投资公司Benchmark将领投这轮尚未结束的融资,其投资前估值为4.4亿美元,是4个月前估值的6倍。HeyGen利用AI为视频生成化身和语音。
产品 & 模型
Databricks推出开源通用大模型DBRX
根据美国数据智能公司Databricks官网,Databricks推出一个开源通用大模型DBRX。DBRX采用专家混合模型 (MoE) 架构,参数规模达132B,在12T文本和代码数据标记上预训练而成。通过一系列标准基准,DBRX测评超过了Llama2-70B、Grok-1、Mixtral等模型。此外,它为开放社区和企业提供了以前仅限于封闭模型的API功能。根据Databricks测试,DBRX超越了GPT-3.5,并且与Gemini 1.0 Pro表现相当。
中国10亿参数规模以上大模型数量超100个
中国发展高层论坛2024年年会落下帷幕。国家数据局局长刘烈宏称,生成式AI的快速发展对算力提出了更高、更迫切的需求,全国一体化算力体系建设的必要性愈益突出。刘烈宏谈道,我国数据生产量和存储量快速增长,为智慧城市建设运行、工业互联网利用等数智化应用提供了丰富的“原料”。以AI为例,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。
360智脑70亿参数模型将开源
据新浪财经报道,360创始人周鸿祎近日在直播中透露,即将开源360智脑70亿参数模型,支持360k即50万字长文本输入。据了解,360k在国内目前开源的长文本能力中最长。周鸿祎透露,360智脑长本文能力目前已入驻大模型产品“360AI浏览器”,认为小模型速度快,用户体验也好,并且单机单卡就能跑起来,性价比更高。360AI浏览器已向用户免费开放100万字长文本处理功能。
马斯克发布Grok-1.5 上下文128k硬刚GPT-4
马斯克的xAI公司在官网上正式发布Grok-1.5大语言模型。Grok-1.5在HumanEval基准上得分74.1%,一举超过GPT-4;在编码和数学推理任务方面,Grok-1.5在MATH基准上取得了50.6%的成绩,在GSM8K基准上取得了90%的成绩,提升显著。此外,该模型可以处理更长、更复杂的提示,支持上下文长度达128k tokens,看齐GPT-4。Grok-1.5将在未来几天内向早期测试人员和X平台上现有Grok用户提供服务。
腾讯开源“照片说话”视频生成框架
根据arXiv,腾讯团队在3月26日发表的论文中开源了音频和照片驱动的视频生成框架AniPortrait。该方法分为两个阶段,最初,团队从音频中提取3D中间表示并将其投影到一系列2D面部标识中。随后,团队采用鲁棒的扩散模型,结合运动模块,将标识序列转换为逼真且时间一致的肖像动画。实验结果证明了AniPortrait在面部自然度、姿势多样性和视觉质量方面表现优异,从而增强了感知体验。
论文地址:https://arxiv.org/abs/2403.17694
GitHub地址:https://github.com/Zejun-Yang/AniPortrait
讯飞星火大模型预计6月发4.0版本 对标GPT-4
36氪获悉,科大讯飞副总裁、研究院院长刘聪在博鳌2024年会现场表示,科大讯飞计划在今年6月正式发布对标GPT-4 (Turbo)当前能力的讯飞星火大模型V4.0版本。
阿里等发布基于3D的人物图片转视频模型Champ
3月22日,阿里、南京大学、复旦大学团队合作发布基于3D的人物图片转视频动画模型Champ,预训练模型已开源。该方法利用SMPL模型作为三维人体参数模型,建立统一的人体形状和姿势表示法。具体来说,作者将从SMPL序列中获取的渲染深度图像、法线映射和语义映射与基于骨骼的运动引导结合起来,用全面的三维形状和详细的姿势属性来丰富潜在扩散模型的条件。据悉,该项目成果是基于此前通义千问“全民舞王”底层技术AnimateAnyone构建。
项目地址:
https://fudan-generative-vision.github.io/champ/#/
论文地址:
https://arxiv.org/abs/2403.14781
Stability AI开源代码生成模型
AI创企Stability AI发布代码生成模型Stable Code Instruct 3B,它是基于Stable Code 3B的指令调整代码模型。通过自然语言提示,该模型可以处理各种任务,如代码生成、数学和其他与软件开发相关的查询。在软件工程相关任务方面,该模型在3B规模上提供了最先进的性能,超过了CodeLlama 7B Instruct等更大规模的模型,与StarChat 15B的性能不相上下。
阶跃星辰发布Step系列通用大模型
上海通用大模型创企阶跃星辰3月23日发布Step系列通用大模型,包括Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型,以及Step-2万亿参数MoE语言大模型的预览版,提供API接口给部分合作伙伴试用。基于Step-1和Step-1V千亿参数大模型的产品效率工具跃问和AI开放世界平台冒泡鸭已经全面开放。
如果觉得不错,随手点个赞、评论、转发吧。我是陌小北,一个正在研究硅基生命的、有趣的碳基生命。如果你想第一时间看到我的文章,欢迎关注。