Image2Paragraph

原创

qq6669490e54384 2024-07-31 11:34:45 博主文章分类：人工智能 ©著作权

文章标签 人工智能 Image 数据数据集 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者qq6669490e54384的原创作品，请联系作者获取转载授权，否则将追究法律责任

BLIP-2+SAM+ChatGPT，把图片变文本段落！ 8G显存即可

Image2Paragraph_人工智能

8G GPU显存即可以运行

Image2Paragraph_数据集_02

代码链接

https://github.com/showlab/Image2Paragraph

动机：

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show，and Tell 等 Image Caption和Dense Caption 等都是依赖大量的人工标注。首先依靠诸如亚马逊AMT（亚非拉大兄弟们）等标注平台给每张图一人写一段描述。其中添加了一系列规则，诸如名词数目，颜色等等。通常用一句简短的话来描述一张图。

然而，这种朴素的标记思路造成了严重的One-to-many问题。如一张图对应很多文本。由于图片和文本之间信息的不对称性，在这类数据上训练的结果很容易陷入平凡解。（Pretrain中也经常遇到的问题）

而LLM（大语言模型）尤其是ChatGPT展现出来的逻辑能力让人望尘莫及。我们惊讶发现，把Bounding Box 和 Object信息给到GPT4， GPT4很自然的能推理出物体之间的位置关系，甚至想像出物体之间的联系。

因此一个很自然的想法就是，用GPT4对每张图生成高信息量的段落，From One-to-many to one-to-one