visualGLM清华之前开源的预训练大语言模型chatglm-6B 已在国内被开发者熟知和广泛使用. 据其官网介绍该方案是联合了语言模型chatglm-6b和BLIP2-Qformer构建的视觉模型。开源项目地址:https://github.com/THUDM/VisualGLM-6BVisualGLM 体验demo地址: https://huggingface.co/spaces/lykev
论文地址:https://arxiv.org/pdf/2304.08485.pdfgithub地址:https://github.com/haotian-liu/LLaVALLaVA文章1. 基本思想简单来说是想借助GPT-4的能力,丰富image-text数据集中的文本信息,例如在一个数据集包含以下两种信息:从image caption的任务获取到caption的文本从目标检测或者分割的任务获取
微调技术LORA文章链接:arxiv.org/pdf/2106.09685.pdfLORA的思想:在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。训练的时候固定 PLM 的参数,只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变,输出时将BA与 PLM 的参数叠加。用随机高斯分布初始化
利用LLM(Large Language Model)做多模态任务大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此,现阶段,如何利用LLM做一些多模态任务还是有一定的研究价值的。下面是近几年基于LLM做vision
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号