关联知识库:从CNN,RNN到Transformer架构 从CNN,RNN到Transformer架构[From DeepSeek-v3] Transformer发展的重大,核心事件 好的,Transformer 的发展历程是一部激动人心的 AI 进化史。从其诞生到引爆全球的 AI 浪潮,有几个不可 ...            
                
         
            
            
            
            从 RNN 到 GRU、LSTM 再到 Transformer,是神经网络在处理序列数据中的一个进化过程。每一种模型都在不同的层面上解决了传统 RNN 模型的不足,并推动了自然语言处理(NLP)和其他序列任务的进展。RNN(Recurrent Neural Network,循环神经网络)
RNN 是一种能够处理序列数据的神经网络,它通过循环连接在时间步之间传递信息,从而使得网络能够捕捉时间序列数据            
                
         
            
            
            
            详解 LSTM  今天的内容有:LSTM 思路LSTM 的前向计算LSTM 的反向传播关于调参LSTM长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,目前比较流行。长短时记忆网络的思路:原始 RNN 的隐藏层只有一个状态,即h,它对于短期的输入非常敏感。 再增加一个状态,即c,让它来            
                
         
            
            
            
            一、前言最近因为做对话机器人的原因,看了一下seq2seq。不禁感慨,自由对话机器人的水好深呀。查阅了一些市面上能看到资料,工业上的做法,普遍是 基础模板(例如 aiml)+IR闲聊库(例如 小黄鸡语料QA)+爬虫(百度、搜狗)+知识图谱(wiki百科)+对话生成模型。aiml模板就不说了,网上有很多的资料,效果上来说,比较智障。人工编写模板的工作量也大,也不能覆盖很多的回答。IR闲聊库的方法,理            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-03-28 21:58:21
                            
                                2001阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            从 RNN 到 GRU、LSTM 再到 Transformer            
                
         
            
            
            
            一、循环神经网络RNN
循环神经网络RNN(Recurrent Neural Network)是一种专门设计用于处理序列数据的神经网络模型,通过引入“循环结构”捕捉序列中的时间或顺序依赖关系,广泛应用于需要上下文信息的任务(如自然语言处理、视频分析、基于历史数据的股价预测)1.核心公式
(1)隐藏状态:(2) 输出:其中:————输入————输出————输入与输出的中间状态。如在翻译任务中起到联系            
                
         
            
            
            
            引言随着人工智能技术的飞速发展,AIGC(Artificial Intelligence Generated Content)已经成为了一个热门话题。AIGC的核心技术之一是自然语言处理(NLP),而NLP中的Transformer模型和GPT(Generative Pre-trained Transformer)系列模型则是当前最先进的架构。本文将深入探讨AIGC的底层技术,并通过详细的代码案例            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-10-09 08:28:21
                            
                                216阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            RNN-LSTM入门RNN-Recurrent Neural Network概念:序列数据:简而言之,序列数据就是后面的数据与前面的数据相关的数据,例如上下文、时间序列等。递归神经网络(RNN):在基础神经网络中加入了环形结构,让神经元的输出信号返回继续作为输入信号,目的是让t时刻的输出状态不仅与t时刻的输入相关联,还与t-1时刻的状态相关联。RNN结构图:左侧为折叠情况下的RNN网络结构图,右侧            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-25 15:16:58
                            
                                51阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!个人主页:有梦想的程序星空个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。如果文章对你有帮助,欢迎关注、点赞、收藏。1.简述通常,在自然语言生成任务(机器翻译            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-24 15:57:12
                            
                                50阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一文学习BERT模型。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-10-19 15:32:07
                            
                                155阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            卷积神经网络—不同层能够输出图像中不同层面上的细节特征;循环神经网络RNN传统RNN 全连接网络运用到NLP任务上,面临的问题:1、对于不同的输入样本,输入和输出可能有不同的长度,因此输入层和输出层的神经元数量无法固定;
2、从输入文本的不同位置学到的同一特征无法共享;
模型中的参数太多,计算量太大;1)解决办法—RNN网络结构----通过扫描数据输入的方式,使得每一个时间步的所有网络参数是共享的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-27 15:25:38
                            
                                54阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文主要介绍了RNN、LSTM和GRU相关公式以及区别。            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-09-23 17:05:49
                            
                                295阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            从哪里开始研究卷积神经网络也有一段时间了,因为其相对简单易学,实现也容易,所以偷懒就没有去深究其他的网络类型,但是处理一个语音信号处理相关的任务,循环神经网络有优势,那就是对过去(未来)状态的记忆,正如人脑思考的上下文一样,RNN能联系起来时间序列的记忆,以及由过去对未来的期许,最终目的是准确滴解决当下的问题参考Understanding LSTM NetworksRNN详解(Recurrent            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-27 07:15:06
                            
                                23阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            深度学习序列模型方面,我们熟知的必须是 RNN 和 Transformer,今天想和大家聊聊 RNN 和 Transformer,并且探讨它们语言)。RNN通...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-08 12:05:34
                            
                                434阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            今天我们来聊聊一个火热的话题:Transformer和RNN,这两个家伙在人工智能领域可是大名鼎鼎。你可能听说过,自从Transformer横空出            
                
         
            
            
            
            本文参考Wang Shusen老师的教学视频:https://www.youtube.com/watch?v=aJRsr39F4dI&list=PLvOO0btloRntpSWSxFbwPIjIum3Ub4GSC&index=2 1. Multi-Head (Self-)Attention Laye            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-05-27 20:50:47
                            
                                1399阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Transformer自下而上理解(5) 从Attention层到Transformer网络            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-07-26 15:32:09
                            
                                1076阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            这两篇文章已经非常详细的写了RNN的前向即反向传播吗。以及简单的实现代码  这里把我在学习过程中遇到的问题整理一下首先RNN的前向不用说了,非常简单,与传统全连接层相比只是多了一个隐藏层对隐藏层的权值反向传播的重点是要先计算出误差函数对输出层的偏导,以及误差函数对隐藏层的偏导  再用随机梯度下降来更新权值。  自己推导一下误差函数对W、U、V的导数就明白了顺便复习一下梯度下降,从随机的一个点开始            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-26 10:59:59
                            
                                35阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            近两年来,Bert模型非常受欢迎,大部分人都知道Bert,但却不明白具体是什么。一句话概括来讲:BERT的出现,彻底改变了预训练产生词向量和下游具体NLP任务的关系,提出龙骨级的训练词向量概念。想要了解Bert,那么可能你需要先从tranformer框架了解清楚。今天我们就从Transformer到Bert进行详细地讲解。Attention在学会Transformer和Bert之前,我们需要理解A            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-04-06 20:49:26
                            
                                963阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            论文标题:Pure Transformers are Powerful Graph Learners论文链接:https://arxiv.org/abs/2207.02505一、概述由于Transformer的完全注意力架构接收、处理和关联任意结构的输入和输出的能力,消除了将特定于数据和任务的归纳偏差融入网络架构的需要,这使得其在NLP、CV等诸多领域成为了通用架构。与大规模训练相结合,它为构建一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-18 16:03:25
                            
                                199阅读
                            
                                                                             
                 
                
                                
                    