一、引言yolov4、v5发布之后,在卷积上改进感觉也快达到一个顶峰了,在卷积神经网络的设计,在很多大佬的眼里估计都是一样的了,每一个新的改进或者检测框架的提出,可能都会看到之前框架的影子,也有人把在图像检测上的改进称之为“搭积木”;在这之后,可能在图像上的各大论文都将重心放在Transformer上了,Transformer在CV上的论文也是变得越来越多了,图像分割做为图像的一个领域            
                
         
            
            
            
            Swin Transformer详解一、Overall Architecture二、Swin Transformer1. Patch Partition & Linear Embedding2. Basic LayerSwin Transformer Block(1)first blockW-MSAMLP(2)second blockSW-MSAPatch Merging三、Supple            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-17 08:14:15
                            
                                297阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1. Model2. Encoder2.1 Position encoding2.2 Multi-Head AttentionAdd&NormFeed forward3. Decoder4. 源码解读(pytorch)5. 文本分类实战参考 1. Model在此之前,假定你已经了解了:RNN(LSTM),Sequence2Sequence模型以及注意力机制。Transformer通过            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-29 10:53:18
                            
                                195阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近Transformer在CV领域很火,Transformer是2017年Google发表的Attention Is All You Need中主要是针对自然语言处理领域提出的,后被拓展到各个领域。本系列文章介绍Transformer及其在各种领域引申出的应用。本文介绍的SegFormer: Simple and Efficient Design for Semantic Segmentatio            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-07 14:08:51
                            
                                61阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            &Summary作者单位:微软亚洲研究院代码:https://github.com/microsoft/Swin-Transformer
论文:https://arxiv.org/abs/2103.14030
目标检测刷到58.7 AP(目前第一)!实例分割刷到51.1 Mask AP(目前第一)!语义分割在ADE20K上刷到53.5 mIoU(目前第一)!性能优于DeiT、ViT和Ef            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-28 16:17:21
                            
                                123阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            新智元最近,谷歌AI团队受Transformer和DETR的启发提出了一种使用Mask Transformer进行全景分割的端到端解决方案。全称是end-to-end solution for panoptic segmentation with mask transformers,主要用于生成分割MaskTransformer架构的扩展。该解决方案采用像素路径(由卷积神经网络或视觉Transfo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-02 08:34:25
                            
                                129阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、实验目的和内容(一)实验目的    1、熟悉支持向量机SVM(Support Vector Machine)模型分类算法的使用。    2、用svm-train中提供的代码框架(填入SVM分类器代码)用train.data训练数据提供的矩阵来训练参数得到训练模型model,利用libsvm进行模型的训练,分类预测等。 &nb            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-23 16:24:53
                            
                                62阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            课程链接:https://edu.51cto.com/course/29945.htmlTransformer发轫于NLP(自然语言处理),并跨界应用到CV(计算机视觉)领域。 Swin Transformer是基于Transformer的计算机视觉骨干网,在图像分类、目标检测、实例分割、语义分割等多项下游CV应用中取得了SOTA的性能。该项工作也获得了ICCV 2021顶会最佳            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-01-06 13:23:12
                            
                                1558阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            论文读后感摘要针对现在遥感图像细弱目标分割任务所存在的分割精度低, 收到背景噪声干扰明显等问题, 提出了一种基于Dense-Unet网络和继承学习的改进语义分割的方法, 实现高分辨率遥感图像中细弱目标的分割方法。基本思想首先融合DenseNet思想和U-Net网络结构,提出一种新的Dense-Unet的网络结构,从而可以提取场景中的细小目标,其次为了增强学习能力,使用代价敏感重向量方法, 改进训练            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-28 13:54:26
                            
                                125阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            conv+bn融合主要是在推理阶段进行加速,BN在推理时无需更新参数,且推理过程满足Conv的计算公式,能合二为一。好处是加快了推理,在量化任务中,也提高了精度(在高精度先乘,相比转换为低精度再乘,减小了精度损失)。YOLOv5中使用了该技术。这是量化和推理优化模型中常用技术。 今天我们将试着理解如何使我们的模型在推理上更快一些。 大量的网络使用 BN 来提高网络的泛化能力 。但是在推理            
                
         
            
            
            
            paper: https://arxiv.org/abs/2103.14030code: https://github.com/microsoft/Swin-Transformer文章            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-06-27 17:07:47
                            
                                447阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            上面的常规的窗口虽然可以降低计算的复杂度,但是又产生了新问题,将图像分成多个窗口后,只能窗口内计算自注意力,窗口间没办            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                            精选
                                                        
                            2024-06-05 10:42:08
                            
                                189阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Swin Transformer; Shifted Windows MSA; Relative position bias
    论文链接:Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsIntroduction目前Transformer应用到图像领域主要有两大挑战:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-01 12:13:49
                            
                                167阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            输入图片尺寸 Batch_size*H*W送入SwinTransformer 
  PatchEmbedding【Parameter】 
    每个patch 分别进行EmbeddingBatch_size*H*W——>Batch_size,Patch_H*Patch_W,emb_dim每个图片加1,Patch_H*Patch*W,emb_dim大小的绝对位置embedding送入Basi            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-18 22:08:15
                            
                                140阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            yolact是第一个在COCO 数据集上做到实时的实例分割模型(大于30FPS),其将问题划分成两个平行的分支,一个分支由特征金字塔的P3层,经过Protonet预测mask,另一个分支通过P3-P7特征层预测类别、包围框以及mask的系数coefficient。另外还提出了比NMS更快的方法Fast NMS。PDF:https://arxiv.org/pdf/1912.06218.pdfCODE            
                
         
            
            
            
            标题:TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation作者:Yundong Zhang,乔治亚理工学院1. 引言❓ 论文的研究背景是什么?? 虽然卷积神经网络(CNN) 在众多医学图像分割任务中取得了无与伦比的性能,但是它在捕获全局上下文信息方面缺乏效率,现有工作通过生成非常大的感受野来获取全局信息,这需要            
                
         
            
            
            
            《Swin Transformer原理与代码实例讲解》关键词Swin TransformerTransformer模型图像处理深度学习代码实例            
                
         
            
            
            
            正如大家所知,在进行图像语义分割时,图像被编码成一系列补丁后往往很模糊,需要借助上下文信息才能被正确分割。因此上下文建模对图像语义分割的性能至关重要!而与以往基于卷积网络的方法不同,来自法国的一个研究团队另辟蹊径,提出了一种只使用Transformer的语义分割方法。该方法“效果拔群”,可以很好地捕捉图像全局上下文信息!要知道,就连取得了骄人成绩的FCN(完全卷积网络)都有“图像全局信息访问限制”            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-22 11:42:26
                            
                                166阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            于是Layer l+1的第2个窗口(从1开始计算)综合了layer l的第1个和第2个窗口的信息,Layer l+1的第5个窗口(从1开始计算)综合了layer            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-06-06 09:55:24
                            
                                144阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            近两年用trm做医图分割文章合集欢迎补充CoTr:基于CNN和Transformer进行3D医学图像分割UNETR: Transformers for 3D Medical Image SegmentationSwin-unet:用于医学图像分割的类UNET纯transformerTransBTS:基于transformer的多模式脑肿瘤分割TransUNet:变形金刚为医学图像分割提供强大的编            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-21 14:00:01
                            
                                608阅读
                            
                                                                             
                 
                
                                
                    