Google 近日发布了 Gemini 2.5 Pro,这款升级版 AI 模型在推理能力、代码生成和多模态处理方面表现更强。该模型在 LMArena(衡量 AI 回答质量的人类偏好基准)中排名第一,并在数学、科学和逻辑推理等任务上取得了优异成绩。此外,Gemini 2.5 Pro 具备 100 万 token 的上下文窗口,并计划扩展至 200 万 token。相较于前代版本,Gemini 2.5
DeepSeek-R1 会推理,GPT-4o 会看。能否让1 LLM既能看又能推理?DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。1.1 DeepSeek模型发展自2024.12,DeepSeek已发布:DeepSeek-V3(2024.12):视觉语言模型(VLM),支持图像和文本输入,类似 GPT-4oDeepSeek-R1(2025.1):大规模推理模型(LRM),仅
1 你不需要写代码,只需要‘氛围感编程“我用了 2 小时做了一个 app。”“我 1 分钟内克隆了一个 Netflix。”整个社交媒体,尤其是某推,现在充斥这样的帖子。那么,这一切是谁带起来的?2 Karpathy 的推文如果说这话的是我,一个默默无闻的普通网友,你大可无视这条推文。但……但……但是,这可不是别人,而是 Andrej Karpathy 说的。他可是 特斯拉前 AI 负责人,也是 O
Java 24 版本拥有 20 多项涵盖了 Java 方方面面的新功能,包括新的 AI 和后量子密码功能,为开发人员提供了构建 AI 应用所需的工具。1 语言特性JEP 488: Primitive Types in Patterns, instanceof, and switch(第二预览版)— 通过使语言更加统一且更具表达能力,帮助开发人员提高 Java 编程的工作效率。此功能可帮助开发人员消
0 前言这个问题经常被问到。开发者通常先专注于让智能体正常运行,再关注速度和成本。优化过程,开发者常采取如下方法:找出延迟的来源优化用户体验,减少“感知”延迟减少 LLM 调用次数加快 LLM 调用速度并行执行 LLM 调用1 找出延迟的来源听起来简单,但优化方式完全取决于具体瓶颈。你的延迟主要来自:一次超长的 LLM 调用还是多个小调用累积的延迟在优化前,先弄清楚这问题很重要。LangSmith
1 构建⼈名分类器1.1 ⽬标了解有关⼈名分类问题和有关数据掌握使⽤ RNN 构建⼈名分类器实现过程1.2 ⼈名分类问题以⼀个⼈名为输⼊,使⽤模型帮助我们判断它最有可能是来⾃哪⼀个国家的⼈名,在某些国际化公司的业务中具有重要意义,在⽤户注册过程中 , 会根据⽤户填写的名字直接给他分配可能的国家或地区选项 , 以及该国家或地区的国旗 , 限制⼿机号码位数等。⼈名分类数据数据下载地址 : https:
1 简介GRU(Gated Recurrent Unit)也称门控循环单元结构,传统RNN的变体,同LSTM一样有效捕捉长序列之间的语义关联,缓解梯度消失或爆炸现象。但其结构和计算比LSTM更简单,核心结构可分两部分:更新门重置门2 内部结构2.1 示意图和计算公式2.2 更新门和重置门结构图:2.3 内部结构分析类似LSTM门控,先计算更新门和重置门的门值,分别是z(t)、r(t),用X(t)与
1 简介长短期记忆网络(Long Short-Term Memory)作为RNN的进阶架构,在序列建模领域具有里程碑意义。其核心突破在于通过智能门控系统,有效捕获跨越数百个时间步的语义关联,成功缓解了传统RNN存在的梯度消失/爆炸难题,在语音识别、金融预测等需要长程记忆的场景中表现卓越。结构更复杂,核心结构可分四部分:2 LSTM内部结构图结构解释图:2.1 遗忘门:智能记忆过滤器结构图和计算公式
1 啥是RNN模型?以序列数据为输入,通过网络内部的结构设计有效捕捉序列之间的关系特征,一般也以序列形式进行输出。一般单层神经网络结构:InputHiddenOutputRNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产生的结果,能作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响。2 R
1 回译增强的核心机理1.1 跨语言语义重构原理目前文本数据增强方面效果较好的增强方法。回译数据增强(Back-translation Augmentation)是基于神经机器翻译的文本再生技术,其核心运作流程包含三个关键阶段:语义编码阶段:源语言文本通过NMT模型编码为中间语义表示跨语言迁移阶段:语义表示解码为目标语言文本(建议选择阿尔巴尼亚语、斯瓦希里语等低资源语种)语义重构阶段:目标语言文本
1 特征工程的意义nlp任务中,原始文本经数值映射后形成的词向量序列,难充分表达语言深层语义特征。就需引入文本特征增强技术:语义信息补全:突破单词语义局限,捕获词序关联特征模型适配优化:构建符合算法输入规范的矩阵结构评估指标提升:通过特征增强直接影响模型准确率、召回率等核心KPI如电商评论情感分析场景,单纯用词频特征可能导致"这个手机质量差得惊人"和"这个手机质量惊人地差"被判定为相同语义,此时b
1 什么是Claude Code?Claude Code是由Anthropic开发并于2025年2月24日发布的AI编码助手。它是所谓的“受监督编码代理”的一个例子。这些工具可以在软件开发工作流程中执行相对复杂的任务,有时甚至可以自主完成。目前大多数知名的受监督编码代理都是通过IDE融入工作流程的,包括Cursor、Cline和Windsurf和GitHub Copilot。Claude Code
1 啥是文本张量表示?将一段文本使用张量表示,一般将词汇表示成向量,称作词向量,再由各个词向量按序组成矩阵形成文本表示,如:["人生", "该", "如何", "起头"]==># 每个词对应矩阵中的一个向量[[1.32, 4,32, 0,32, 5.2], [3.1, 5.43, 0.34, 3.2], [3.21, 5.32, 2, 4.32], [2.54, 7.32, 5.12, 9.
0 前言Fescar是阿里开源分布式事务中间件,以 高效 且对业务 0 侵入 方式,解决 微服务 下分布式事务问题。1 啥是微服务化带来的分布式事务问题?1.1 传统单体应用(Monolithic App)通过 3 个 Module,在同一数据源上更新数据来完成一项业务。整个业务过程的数据一致性很自然地由Spring本地事务管控开发即可。Monolithic-architecture:随业务需求和
0 前言LLMOps(Large Language Model Operations),管理和运维大语言模型 (LLM) 所涉及的实践和流程,涵盖了大型语言模型(如GPT系列)开发、部署、维护和优化的一整套实践和流程。1 目标确保高效、可扩展和安全地使用这些强大的 AI 模型来构建和运行实际应用程序。它涉及到模型训练、部署、监控、更新、安全性和合规性等方面。LLMOps(即大语言模型运维)是指。L
1 撰写文章标题指令提示词我想让您担任学术期刊编辑,我将向您提供一份手稿摘要,您将向我提供 5 个好的研究论文英文标题,并解释为什么这个标题是好的 。请将输出结果以 Markdown 表格的形式提供,表格有两列,标题为中文 。第一列给出英文标题, 第二列给出中文解释 。以下文本为摘要: 【指令后加上文章的摘要】 。2 中-英 、英-中互译指令我想让你充当一名科研类的英汉翻译, 我会向你提供一种语言
0 前言本专栏目标:能做什么?要怎么做?效果如何?本质: 多Agent实现从数据采集到可视化全流程AIGC数据应用:数据采集通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采集社交媒体数据、数据库内容、文本数据、接口数据等。数据处理通过数据清洗、数据集成、数据变换、特征工程等方式,实现数据结构、数据融合、格式转换、特征提取等。数据分析对数据进行诊断、预测、关联、聚类分析,常用于问题定位、
0 学习目标掌握使用PyTorch构建神经网络的基本流程和实现过程。PyTorch是一个强大的深度学习框架,其核心工具集中在torch.nn包中。这个包依赖于自动求导(autograd)机制来定义模型并计算梯度,省去了手动编写复杂数学公式的需求。对于Java开发者来说,PyTorch的神经网络构建类似于设计一个复杂的Java类系统:你需要定义类、方法和字段,并通过循环和算法优化来处理数据和学习。构
MEC(Mobile Edge Computing,移动边缘计算),一种网络架构和计算框架,旨在将计算能力和服务推送到接近数据生成源的网络边缘(如基站、路由器、接入点等),以减少延迟、提升数据处理速度,并优化网络资源的利用。通常应用于5G网络和物联网(IoT),为低延迟、高带宽的应用提供支持。1 MEC核心概念1.1 边缘计算不同于传统云计算,MEC将数据处理和存储功能移到网络的边缘节点,而非集中
0 前言第一期 ?AI发展之快令人难以置信,毕竟就在一年前,我们还在为生成正确数量的手指而苦恼 ?。过去几年,开源模型和艺术工具迎来了关键性进展,AI 创意工具的可及性前所未有地提升,而我们可能才刚刚触及冰山一角。一起回顾 2024 年 AI & 艺术领域的重要里程碑、工具和突破,同时展望 2025 年的发展趋势。1 2024 年重大发布重点介绍在图像和视频生成等艺术创意领域的重大突破,特
0 前言Dify的一个“应用”指基于LLM构建的实际场景应用。通过创建应用,可将智能 AI 技术应用于特定的需求。它既包含了开发 AI 应用的工程范式,也包含了具体的交付物。一个应用为开发者交付:封装友好的 API,可由后端或前端应用直接调用,通过 Token 鉴权开箱即用、美观且托管的 WebApp,你可以 WebApp 的模版进行二次开发一套包含提示词工程、上下文管理、日志分析和标注的易用界面
什么是分片(Sharding)?随着数据量增长,软件应用最终会遇到内存、存储或网络资源瓶颈,导致系统整体性能和可用性下降。当现有节点无法容纳全部数据时,必须将数据迁移到更大机器(单体机)或分割成块并分布到多台机器/分片(Sharding)。分片的目标是通过将数据均匀分布到足够多的分片上,避免资源限制对数据操作性能的影响。什么是热分片问题(Hot Shard Problem)?数据分片到多个节点后,
上班,其实就是各取所需,员工出卖体力和脑力,换取金钱和经验。企业支付工资,以获取更大利润。所以一切背离这些本
0 前言Dify 社区版即开源版本,可通过以下两种方式之一部署 Dify 社区版:[Docker Compose 部署][本地源码启动]在 GitHub 上查看 Dify 社区版。1 克隆 Dify 代码仓库克隆 Dify 源代码至本地环境。git clone https://github.com/langgenius/dify.git2 启动 Dify进入 Dify 源代码的 Docker 目录
0 为啥本地部署?在本地运行 AI 模型具有以下优势:隐私:你的数据保留在你的机器上 — — 不存在共享敏感信息的风险成本: DeepSeek R1 可免费使用,无需订阅费或使用费控制:无需外部依赖即可进行微调和实验1 使用Ollama1.1 下载并运行应用程序直达官网:1.2 选择你的平台MacOS、windows直接下载,找到对应操作系统的软件到本地:点击安装即可:1.3 命令行下载指定模型如
0 你的问题,我知道!光有硬技能远不够,很多研发硬技能不错,但发展有明显天花板。影响研发职业发展走多远的核心能力有啥?技术只是打底和起步,长期职业发展看综合能力,各种软技能组合。研发常忽视或理解片面的能力:1 沟通表达1.1 啥是沟通表达?不是口头“能说”,而是能把事简洁、结构化、逻辑清晰表达:不只包括面对面口头沟通或会议沟通还包括书面沟通,把自己思考形成清晰文档。毕竟大多场景需文字达到合作、说服
0 你的问题,我知道!本文深入T型图“竖线”的立足之本:专业技术 + 技术赋能业务能力。研发在学习投入精力最多,也误区最多。某粉丝感发展遇到瓶颈,项目都会做,但觉无提升,想跳槽。于是,梳理过往经历。他觉得业务小,阻其技术发展。但细问,这系统用户量百万级,一点不小,只是淡季、旺季明显。旺季时常卡死、提交延迟。你这核心系统主程,咋看待这问题,啥优化思路?他皱眉说不出。我看他还做过重构Q:系统为啥重构?
1 配置方式Sentinel提供如下的配置方式:JVM -D 参数方式properties 文件方式(1.7.0 版本开始支持)project.name 参数只能通过 JVM -D 参数方式配置(since 1.8.0 取消该限制),其它参数支持所有的配置方式。优先级顺序:JVM -D 参数的优先级最高。若 properties 和 JVM 参数中有相同项的配置,以 JVM 参数配置的为准。用户可
0 你的问题,我知道!总忙,效果却不好和他人合作不畅理解职场中的事,是为先看全景、先看环境,让忙碌有的放矢。而理解职场中的人,是因理解协作伙伴的角色和诉求,才能高效、和谐地推进合作。无论干啥,别急上手干,先看全景。1 职场那些事他,靠谱技术人,大厂跳槽到一家中型企,带10人团队。入职后发现很多问题,如:系统架构很多隐患员工工作效率不高沟通意识薄弱他就想逆转当下,很多时间处理系统问题,手把手带小伙伴
0 你的困惑,我知道!我现在职业发展到哪步了?再往前走,我还得往哪努力?如想转岗,有啥困难?技术飞速发展,经常岗位消失、岗位融合、轮岗调岗,咋办?慌张来源无法及时认清自己位置!本文跳进不同技术角色,看职业发展路径和能力要求差异。让你:对未来有更清晰认知减少迷茫在别人的路径中找到适合自己的路1 研发规划研发细分前端、客户端、后端、算法等。1.1 趋势都是:向上靠近产品、业务的业务研发向下沉,做专业技
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号