wx5e46005fc4d21的博客_从源代码学Python,Django-完美主义框架,Vue从入门到核心_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

论文精读：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

论文精读：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

大规模视觉-语言模型（Large Vision-Language Models，LVLMs）基本上使用得都是同一个视觉词表——CLIP，它也适用于大部分的视觉任务。但是，对于一些特殊的任务往往需要更密集和更细致的感知，比如文档OCR和图标理解，特别是对于非英语场景，CLIP的词表在分词时往往比较低效，并且还可能会遇到无法分词的问题。基于此问题，作者提出了Vary（法。

语言模型

人工智能

自然语言处理

数据集

编码器

原创 6月前 149 阅读

论文精读：InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

视觉基座模型还没有基于CNN的大模型CNN不具有长距离依赖性和自适应空间聚合能力改进了DCNv2一方面是模型做大之后效果怎么样，另一方面关注是否解决了长距离依赖性和自适应空间聚合能力。

InternImage

卷积

自适应

标量

原创精选 6月前 145 阅读

论文精读：Improving CLIP Training with Language Rewrites

论文精读：Improving CLIP Training with Language Rewrites

Summary: CLIP模型通过对比损失进行训练，这通常依赖于数据增强来防止过拟合，但是在CLIP的训练过程中，只对图像进行了数据增强

人工智能

大语言模型

数据增强

LLaMA

CLIP

原创 6月前 116 阅读

作为国产大模型之光的智谱AI，究竟推出了多少模型？一篇文章带你详细了解！

总的来说，还是挺期待未来可以有所突破的！！！但是我觉得这个大模型算是国内的很不错的大模型了，起码gpt49有的它都有，虽然

人工智能

多任务

编程语言

激活函数

原创 6月前 446 阅读

论文精读：VMamba Visual State Space Model

论文精读：VMamba Visual State Space Model

Institution: 中国科学院大学（UCAS）, 华为, 鹏城实验室Summary: CNNs和ViTs是视觉特征表示领域常用的两个基座

人工智能

复杂度

2d

计算复杂度

原创 6月前 1510 阅读

这应该是全网第一篇全面解读OpenAI Sora报告的文章，精读报告：Video generation models as world simulators

这应该是全网第一篇全面解读OpenAI Sora报告的文章，精读报告：Video generation models as world simulators

今天是2024年2月16号，大年初七，年还没过完，早晨起来朋友圈就被Sora刷屏了。本来以为没啥，都是公

人工智能

OpenAI

Sora

文生视频

数据

原创 6月前 41 阅读