Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下:    (1) 采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。    (2) 根据抽出的样本计算给定的统计            
                
         
            
            
            
            交叉检验核心思想是通过保留一部份训练集数据作为检验集来估计真实检验集的错误率与模型拟合效果。常用的有留一法、K折交叉验证。偏差方差权衡:使用的训练集数据越多,估计偏差越小,方差越大(相关性越高的方差越大)· 统计量:样本X1,…,Xn的函数g(X1,…,Xn)是一个统计量。所有对总体的估计都是用统计量作为估计量的。当我们用一个统计量作为某个参数的估计量时,为考察这个估计量的好坏程度...            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-13 09:39:48
                            
                                1278阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Bootstrap 介绍Bootstrap 概述 Bootstrap 是由Twitter 公司(全球最大的微博)的两名技术工程师研发的一个基于HTML、CSS、JavaScript 的开源框架。该框架代码简洁、视觉优美,可用于快速、简单地构建基于PC 及移动端设备的Web 页面需求。  2010 年6 月,Twitter 内部的工程师为了解决前端开发任务中的协作统一问题。经历各种方案后,Boots            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-15 01:55:33
                            
                                34阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             目录Boosting简介AdaBoost1. 基本思路2. 算法过程3. 算法解释3.1 加法模型3.2 指数损失函数3.3 前向分步算法3.4 推导证明3.4.1 优化 
           
            
             
              
              
                G 
               
                    
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-26 09:30:38
                            
                                276阅读
                            
                                                                             
                 
                
                             
         
            
            
            
                    该算法每次迭代改变的是样本的权重(re-weighting),如果无法接受带权样本的基学习算法,则可进行重采样法(re-sampling),获得重启动机会以避免训练过程过早停止;是一个将弱学习器提升的过程,通过不断的训练可以提高对数据的预测能力。                 
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-09 11:19:34
                            
                                123阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            · 交叉检验核心思想是通过保留一部份训练集数据作为检验集来估计真实检验集的错误率与模型拟合效果。常用的有留一法、K折交叉验证偏差方差权衡:使用的训练集数据越多,估计偏差越小,方差越大(相关性越高的方差越大) · 统计量:样本X1,…,Xn的函数g(X1,…,Xn)是一个统计量。所有对总体的估计都是用统计量作为估计量的。当我们用一个统计量作为某个参数的估计量时,为考察这个估计量的好坏程度,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-26 13:11:53
                            
                                27阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            深度学习重采样指的是在训练深度学习模型时对数据进行重新采样的过程,以提高模型的泛化能力和效果。该技术常用于解决样本不均衡、数据缺失以及提升小样本数据的表现等问题,能够有效提高模型对新数据的鲁棒性。
### 背景描述
在深度学习应用中,样本的质量和数量直接影响到模型的训练效果。使用不均衡或不足的样本可能导致模型偏向某一特定类别,进而导致性能下降。通过重采样技术,我们能够平衡样本分布,从而提高模型            
                
         
            
            
            
            若由本篇博文增加关注,就解封本篇博文的VIP权限哈,记得在下方留言哈 5. 重采样 为什么需要重采样? 因为在实际应用SIS的过程中,我们发现出现了粒子退化现象:即经过多次迭代后,假设100个粒子,其中有1的粒子的归一化权值为0.99,而另外的99个粒子之和才0.01,这将会造成目标跟踪的失败。解决办法有啥呢:1.选取好的重要性概率密度函数;2.重采样。 什么叫做重采样,重采样就是在已经采样的结果            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-30 22:42:56
                            
                                58阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            # 深度学习中的重采样技术入门
在深度学习中,重采样(Resampling)是一项重要的技术,特别是在处理不平衡数据集时。本文将通过表格和详细代码实现来教会你如何有效地进行深度学习中的重采样。
## 整体流程
重采样的流程通常如下:
| 步骤         | 说明                                             |
|--------------            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-10-28 06:54:34
                            
                                117阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            什么是PCA?变换数据集的坐标系,来消除数据间的相关性。具体流程:将数据变化为标准高斯分布。计算协方差矩阵,及其特征值与特征向量。选取前k大的特征值及其特征向量,将其定义为转换矩阵。原始数据集乘以转换矩阵,得提取了主成分后的矩阵。什么是LDA?在空间内找一条直线,使得当数据点投影到这条直线上时,各个类的类内距离最小,而类间距离最大。具体流程:计算类内散度矩阵Sw及类间散度矩阵Sb计算Sw-1 *             
                
         
            
            
            
            对于n个样本,如何均匀随机的取出m个样本?即n个样本中每个样本都能有m/n的概率被取中。 1.简单插入取样   这是最基本,最直观的方法。在一个初始为空的集合中插入1~n的随机整数,知道个数为m个为止。但这个方法有个弱点,就是要插入一个数时,判断集合中是否存在该数,如果其存在,则要继续取样直到取到一个不在原集合中的数,重复取样需要很大的开销,而且越到后来开销越大。&n            
                
         
            
            
            
            论文《Sampling matters in deep embedding learning》论文地址:https://arxiv.org/pdf/1706.07567.pdf 该论文为2017年6月上传至arxiv。主要研究的是深度嵌入学习(deep embedding learning)中的采样问题和损失函数的问题。作者分析了contrastive loss和triplet loss,提出了            
                
         
            
            
            
            在机器学习与随机采样的结合中,提升模型性能与泛化能力是技术人员持续关注的课题。针对“采样 随机 机器学习”所出现的问题,我记录了以下的复盘过程。
### 问题背景
在开发某分类模型的过程中,发现存在样本不均衡、特征冗余等问题,导致模型的准确率和召回率未能达到预期。具体症状如下:
- 模型在训练集上表现良好,准确率高达95%。
- 在测试集上,准确率仅为60%,召回率为55%。
- 尝试使用不            
                
         
            
            
            
            前言 疫情期间统计核酸检测情况在学校这种人数众多的情况下是非常常见的需求,这个demo实现了核酸检测情况的统计。我做这个demo也属于迫不得已了(果然,人被逼急了潜力就会被激发)。 详细代码可在github中查看GitHub地址心路历程 我在成都读大学,最近开学正好处于疫情管控时期,我们学校规定学生到校必须进行核酸检测,而且每个班都要统计核酸检测情况。我是班委,统计工作自然就落到了我的身上。但好巧            
                
         
            
            
            
            光谱重采样是遥感领域的一项重要技术,旨在通过深度学习对不同波段的光谱数据进行处理和重采样,从而提高数据的质量和应用价值。在这一过程中,我们将重点探讨如何构建一个完整的系统,以实现光谱重采样,并结合备份策略、恢复流程、灾难场景、工具链集成、验证方法以及扩展阅读等内容。
## 备份策略
为了确保光谱重采样过程中的数据安全,我们制定了一套完善的备份策略。
- 备份策略的思维导图如下:
```me            
                
         
            
            
            
            一、BootStrap简介 BootStrap是一个用来构建网站前段框架的一个插件。无论你是想构建应用程序、博客还是CMS网站,Bootstrap都特别的使用,只要你想得到,它就能行。Bootstrap把HTML、CSS和JavaScript组合起来为构建稳定的网站提供了基础设施,也能提高开发效率。基于默认的网络系统,布局变成了小菜一碟,按钮、导航和表格也都活脱脱地赏心悦目。十几个Jav            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-18 13:49:54
                            
                                71阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            重采样重采样的主要方法有残差重采样、多项式重采样、最优重采样、分层重采样和最优传输重采样等。
(说实话我还没搞清楚和信号处理那边差不多的上下重采样之类之间的关系)
这篇文章介绍的重采样是针对之前提到的蒙特卡罗序列采样时为了避免重要性权重过大导致小部分粒子占据大部分权重,选择用粒子数目来表示比例的一种想法。可以看做是权的另一种体现方式,以数目取胜!多项式重采样多项式重采样包含了多项分布的意思,给每个            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-13 01:22:33
                            
                                401阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            什么是Bootstrap抽样分布描述从总体的随机样本中获取统计量的每个可能值的可能性;换句话说,该大小的所有随机样本中有多大比率将得到该值。Bootstrap是一种通过抽取多个样本来估计抽样分布的方法,这些样本中包含单个随机样本的替换内容。这些重复样本称为重新采样的样本。每个重新采样样本的数量与原始样本相同。Bootstrap是非参数统计中一种重要的估计统计量,并可进行统计量区间估计的统计方法,也            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-11 12:38:24
                            
                                591阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            【压缩感知合集1】(背景知识)香农奈奎斯特采样定理的数学推导和图解分析【压缩感知合集2】(背景知识)信号稀疏表示的数学推导和解释理解【压缩感知合集3】压缩感知的背景与意义【压缩感知合集4】(背景知识)理想采样信号和随机采样信号两种采样信号的频谱分析,以及采样效果比较主要目标研究一下理想采样信号和随机采样信号两种采样信号的频谱,以及一些关联说明环境假设参数如下:采样信号的时域总共点数:1024针对所            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-28 00:12:28
                            
                                105阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            不平衡数据集是指类别分布严重偏斜的数据集,例如少数类与多数类的样本比例为 1:100 或 1:1000。训练集中的这种偏差会影响许多机器学习算法,甚至导致完全忽略少数类,容易导致模型过拟合,泛化能力差。所以,针对类别分布不均衡的数据集,一般会采取采样的方式,使得类别分布相对均衡,提升模型泛化能力。下面介绍几种常见的采样方法及其原理,均是基于imbalanced-learn的实现:1、朴素随机采样随            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-08 21:06:23
                            
                                66阅读
                            
                                                                             
                 
                
                                
                    