1. 多层神经网络存在的问题    常用的神经网络模型, 一般只包含输入层, 输出层和一个隐藏层:         理论上来说, 隐藏层越多, 模型的表达能力应该越强。但是, 当隐藏层数多于一层时, 如果我们使用随机值来初始化权重, 使用梯度下降来优化参数就会出现许多问题[1]:如果初始权重值设置的过大, 则训练过程中权重值会落            
                
         
            
            
            
             首先说明:在caffe/include/caffe中的 filer.hpp文件中有它的源文件,如果想看,可以看看哦,反正我是不想看,代码细节吧,现在不想知道太多,有个宏观的idea就可以啦,如果想看代码的具体的话,可以看:,写的还是很不错的(不过有的地方的备注不对,不知道改过来了没)。 文件 filler.hpp提供了7种权值初始化的方法,分别为:常量初始化(constant)、高斯分布初始化(            
                
         
            
            
            
            基本语法:<input type="hidden" name="field_name" value="value">作用:1 隐藏域在页面中对于用户是不可见的,在表单中插入隐藏域的目的在于收集或发送信息,以利于被处理表单的程序所使用。浏览者单击发送按钮发送表单的时候,隐藏域的信息也被一起发送到服务器。       &            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-16 08:25:28
                            
                                26阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            *神经网络(深度学习算法): 一组神经元是一层,一层可以有一个或多个神经元;他们输入相同或相似的特征,然后又反向输出一些特征。 输入层 隐藏层 输出层 4个数字(激活值) 3个数字(激活值) 隐藏层可以访问每个功能,即从上一层到输出层的每个值。当某些特征无关重要时,可以通过设置适当的参数进行适当的忽略;隐藏层在训练集中是看不到的,训练集中只有x,y,即输入层,输出层 输出层输出的概率就是神经网络预            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-07 09:03:06
                            
                                95阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            参数的更新有许多方法;1.Vanilla update  最简单的更新形式。假定x是参数矢量,dx是梯度。更新形式为:# Vanilla update
x+=-leaning_rate*dx其中learning_rate是学习率。2Mumentum update  在深度网络中,通常能够得到更好的收敛速率。这种更新方法来源于优化问题的物理学上的观点。特别的,损失函数可以解释为山丘的高(也可以说成是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-30 09:44:55
                            
                                225阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            交叉熵的作用 通过神经网络解决分类问题时,最常用的一种方式就是在最后一层设置n个输出节点,无论在浅层神经网络还是在CNN中都是如此的,比如,在AlexNet中最后输出层有1000个节点。一般情况下,最后一个输出层的节点个数与分类认为的目标数相等。假设最后节点数为N,那么对于每一个样例,神经网络可以得到一个N维的数组作为输出结果,数组中的每一个维度对应一个类别,在理想的情况下,如果一个样本            
                
         
            
            
            
            Multilayer-perceptron1. mlp多层感知机在单层神经网络的基础上引入了一到多个隐藏层。多层感知机的隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接。1.1 隐藏层若对每个全连接层做仿射变换,无论添加多少隐藏层都仍然等价于仅含输出层的单层神经网络。具体来说,给定一个小批量样本\(\boldsymbol{X} \in \mathbb{R            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-25 13:15:24
                            
                                144阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            隐藏层:        多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer)。隐藏层位于输入层和输出层之间。如下图:                              &nb            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-25 16:01:28
                            
                                281阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            对于神经网络来讲,训练的过程是在更新网络权重和偏重的值,采取的方法有梯度下降、牛顿法等。由于深度学习通常有较多的网络层数,参数较多,而且二阶的优化算法本身就非常消耗内存,因此,实际应用中,梯度下降运用较多。梯度下降更新模型参数的公式: 式子中的代表网络中的某一个需要训练的权重参数,K代表第K次迭代,代表学习率/步长。注意,每一层网络的参数的学习率可以不同。表示损失函数对该权重的梯度。注意            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-21 09:31:02
                            
                                324阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             
    
    一、RNN基础知识 
     
    RNN的设计目的是尝试了解序列数据,比如你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。但对于普通神经网络,就只能从当前给定的这个词来判断,而RNN就可以结合之前提到的词汇,更科学地判断。 
      
      
    之所以能这么做,关键就是在于,RNN相对于一般的神经网络多了一个            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-17 11:54:09
                            
                                77阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录1 常规粒子滤波存在的问题1.1 重要性函数选择问题1.2 粒子退化问题1.3 计算效率问题2 粒子滤波的一些改进方法2.1 无迹粒子滤波方法2.2 进化粒子滤波方法2.3 辅助采样-重采样方法2.4 规则化采样方法2.5 自适应粒子滤波方法 1 常规粒子滤波存在的问题粒子滤波方法通过蒙特卡洛模拟实现递推贝叶斯公式。 核心思想:利用一系列随机样本的加权和来表示所需的后验概率密度,得到状态            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-29 22:00:52
                            
                                171阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            简介Adaboost算法是一种提升方法,将多个弱分类器,组合成强分类器。  AdaBoost,是英文”Adaptive Boosting“(自适应增强)的缩写,由Yoav Freund和Robert Schapire在1995年提出。  它的自适应在于:前一个弱分类器分错的样本的权值(样本对应的权值)会得到加强,权值更新后的样本再次被用来训练下一个新的弱分类器。在每轮训练中,用总体(样本总体)训练            
                
         
            
            
            
            神经网络的隐藏层的节点数越少网络的速度越快,那么神经网络的隐藏层的节点数是否有一个可以保证性能的极小值,本文用mnist数据集做了实验。首先制作一个784*n*2的神经网络,用于测试0-9中的任意两个数的隐藏层的极小值。后经实验证明0-9中任意两个数的784*n*2的神经网络的隐藏层的极小值都是2,也就是说784*2*2的神经网络可以区分从0-9的任意两个数的组合。比如这组数据,表明可以用784*            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-12 11:32:49
                            
                                113阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             文章目录相关介绍SGD: Stochastic Gradient DescentTG简单加入L1范数简单截断法梯度截断法FOBOS: Forward Backward Splitting[^4]RDA: Regularized dual averaging[^5]FTRL: Follow-the-Regularized-Leader总结 相关介绍SGD: Stochastic Gradient             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-26 10:45:58
                            
                                83阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            权重更新优化器总结在上吴恩达的深度学习课程时,学习了很多权重更新的方式,但当时学习的时候比较蒙,可能当时理解了,后面又忘了为什么这么用。这两天又看到一些资料,正好整理总结一下。 我们先计算一下反向传播的公式,具体详细过程就不再讲解了/ 以上图为例,现在我们更新权重,更新公式如下所示:在实际训练时数据集的量是非常庞大的,我们不能保证数据一次性全部载入内存,因此只能分批次训练。如果使用整个样本集进行训            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-26 08:05:27
                            
                                573阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Network in Network 这篇论文中 提出了 1*1卷积层,那么问题来了,为什么可以用1*1卷积层来代替全连接层假设当前输入张量维度为6×6×32,卷积核维度为1×1×32,取输入张量的某一个位置(如图黄色区域)与卷积核进行运算。实际上可以看到,如果把1×1×32卷积核看成是32个权重W,输入张量运算的1×1×32部分为输入x,那么每一个卷积操作相当于一个Wx过程,多个卷积核就是多个神            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-07 14:24:04
                            
                                62阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                  在06、07年的时候,我写过一些关于三层架构方面的东西(参见这里),现在看来,觉得有很多实用性的内容需要补充到里面去。我们还是先从架构图看起,然后一一解释,你就会发现相比于两年前,这个架构做了哪些变化和调整。一.三层架构图 二.系统各层次职责1.UI(User Interface)层的职责是数据的展现和采集,数据采集            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-31 22:12:03
                            
                                48阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             一、梯度法思想梯度法思想的三要素:下降出发点、下降方向、下降步长。机器学习中常用的权重更新表达式为: 这里的λ就是学习率,本文从这个式子出发来把机器学习中的各种"梯度"下降法阐释清楚。 机器学习目标函数,一般都是凸函数,什么叫凸函数?限于篇幅,我们不做很深的展开,在这儿我们做一个形象的比喻,凸函数求解问题,可以把目标损失函数想象成一口锅,来找到这个锅的锅底。非常直观的想法就是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-23 14:17:15
                            
                                239阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            
    粒子滤波(PF: Particle Filter)的思想基于蒙特卡洛方法(Monte Carlo methods),它是利用粒子集来表示概率,可以用在任何形式的状态空间模型上。其核心思想是通过从后验概率中抽取的随机状态粒子来表达其分布,是一种顺序重要性采样法(Sequential Importance Sampling)。简单来说,粒子滤波法是指通过寻找一组在状态空间传播的随机样本对概率            
                
         
            
            
            
            感知机1 概念感知机就相当于一仅有输入层和输出层的神经网络,每一个连接权都代表该属性的重要性程度,其中w0代表一个阈值。如果每个属性值与其对应权重相乘之和大于该阈值,那么根据sign函数,就可以做出分类。2 PLA算法(感知机学习算法)直观上:通过迭代的方式,每一次选择一条线,来更新权重向量,如果第t轮的线无法准确的预测结果,那就对权重向量做出改变,也就是对决策边界进行调整。当样本真实类别为1,但