熵(entropy)指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。数据预处理数据预处理技术包括:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。属性的类型:标称(定性的)值仅仅是不同的名字,即只提供足够的信息以区分对象,如ID,性别。序数(定性的)值提供足够信息确定对象            
                
         
            
            
            
            1. 摘要本文主要讨论了推荐系统中小样本的问题,首先提出推荐系统中可能遇到小样本的问题,然后介绍了必要的数据知识——点估计和区间估计,之后结合具体案例解答“多少样本量算是小样本“和“小样本该如何处理”这两个问题。2. 应用场景推荐系统中,构建离线召回列表或利用模型进行pCTR或pCVR打分,就是利用最近一段时期的历史行为预估最近一段时期的未来行为,这里有两个基本假设: 1,历史行为和未来行为具有相            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-17 16:17:10
                            
                                255阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            第四章 过度拟合与模型调优4.4 Brodnjak-Vonina 等( 2005 )提出了一种在食品科学研究中检测样本油脂类别的方法。在此方法中,他们使用气象色谱仪(一个能够分离样本化学物质的仪器)测量了油脂中7 种不同的脂肪酸。这些测量将被用来预测食物样本中含有的油脂类型。他们使用了96 个含有七种油脂的样本进行建模 。这些数据可以在caret 包中输入data(oil)得到。油脂的类            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-09 21:43:39
                            
                                191阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            论文名称:Inverse is Better! Fast and Accurate Prompt for Few-shot Slot Tagging论文作者:侯宇泰,陈成,罗先镇,李博涵,车万翔出处:哈工大SCIR1. 简介在本文中,我们探索了如何更好的将提示学习(Prompt)方法运用到小样本槽位标注任务上。基于Prompt的方法将目标任务转化为语言模型建模任务,减少了预训练任务和目标任务之间的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-14 13:47:02
                            
                                151阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            什么是小样本学习?它与弱监督学习等问题有何差异?其核心问题是什么?来自港科大和第四范式的这篇综述论文提供了解答。数据是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本学习是其中一个解决方案。来自香港科技大学和第四范式的研究人员综述了该领域的研究发展,并提出了未来的研究方向。这篇综述论文已被 ACM Computing Surveys 接收,作者还建立了 GitHub repo,用于            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-12 19:04:51
                            
                                136阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文献及地址:赵凯琳,靳小龙,王元卓.小样本学习研究综述[J].软件学报,2021,32(02):349-369. 摘要: 近年来,在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为目前人们需要关注的问题.系统地梳理了            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-31 09:42:26
                            
                                222阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近在和大佬朋友们交流的时候,发现时间序列领域有一个很有潜力的新方向:大模型+时间序列。大模型可以处理不同类型的时间序列数据,例如文本、图像、音频等,也可以适应不同的时间序列数据的变化和异常情况,有助于提高时间序列预测的准确性和稳定性。另外,大模型还可以通过文本形式提供解释性的时间序列预测结果,从而帮助我们更好地理解时间序列数据的模式和趋势。为了方便想发论文的同学,我今天就来分享该领域的15篇必读            
                
         
            
            
            
            数据样例:   方案一:决策树处理方案1.Dealfeature函数:处理dataframe表,使用flatten 将压力特征event列的100*8降数据维成1*800.同时新建input0-799共800个新特征,将event压力特征点填入。2.Dealtarget函数:设置一个CategoricalDtype对象,类型为bkr。之后将数据集的class            
                
         
            
            
            
            目录 前言课题背景与意义课题实现一、数据集二、设计思路三、相关代码示例最后?前言    ?大四是整个大学期间最忙碌的时光,一边要忙着准备考研,考公,考教资或者实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和            
                
         
            
            
            
            这篇笔记动用了一个很长的标题,如果我们把这个标题拆解开看,就涵盖了这篇笔记所面向的基本场景和解决方案:使用场景:任务型对话系统(task-oriented dialog system),对这个东西不了解的人可以先看下面这篇笔记。荷戟彷徨:任务型对话系统简述与细节把捉m特点: 应用与 * 小样本 * 数据。所谓的小样本数据就是指的在一个特定的domain或者intent下,有标记的样本的数目非常少。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-29 13:26:00
                            
                                55阅读
                            
                                                                             
                 
                
                             
         
            
            
            
             1. 小样本学习背景        Few-Shot Learning,国外一般叫缩写FSL,国内翻译为小样本学习。但是我觉得翻译的并不是很好,并没有体现FSL的核心思想。我的理解FSL的核心是通过某种方法(现在通常是元学习的方法)利用通用数据得到泛化能力较强的预训练模型,然后在下游任务中根据预训练模型微调或者其他方法得到新模型。所以FSL其实是            
                
         
            
            
            
            0、前言        考虑到多变量输入时间序列预测场景多,但是并不是所有场景下都拥有足量的标记数据进行回归模型的训练。正所谓“巧妇难为无米之炊”,受限于数据量,由于过拟合问题,很多回归预测方法都不适应,例如深受大家喜爱的深度学习方法LSTM。那么怎么打破僵局呢?难道真的只能采用传统不受限于数据量的方法吗?(并不是片面认为常规简便方法不好!)或者说等几十年后            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-07 13:09:41
                            
                                181阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            感知机1.感知机模型2.感知机学习策略2.1数据集的线性可分性2.2感知机的学习策略3.感知机学习算法 1.感知机模型感知机是一种二分类的线性分类模型,是神经网络和支持向量机的基础,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值 感知机是通过划分一个超平面把不同类别的数据分开,可以理解为一条直线划分开一个二维平面中不同类型数据一样,属于线性模型,针对现实生活中很多复杂的非线形问题,单            
                
         
            
            
            
            前言小样本学习(Few-Shot Learning)是近几年兴起的一个研究领域,小样本学习旨在解决在数据有限的机器学习任务。 小样本学习存在的意义?近些年,以深度卷积神经网络为代表的深度学习方法在各类机器学习任务上取得了优异的成绩——很多任务上已经超越了人类表现。狂欢背后,危机四伏。因为这些深度学习方法work的关键之一是海量标注数据的支持。但是在工业界,很多时候难以获得海量的训练数据,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-14 14:38:06
                            
                                194阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、参考资料:https://zhuanlan.zhihu.com/p/61215293 https://www.zmonster.me/2019/12/08/few-shot-learning.html 二、论文:1、 Metric Based1.1《optimization as a model for few shot learning》 三、基本的概念epis            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-23 21:21:15
                            
                                181阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录:一、点估计  1、矩估计法  2、顺序统计量法  3、最大似然法  4、最小二乘法二、区间估计  1、一个总体参数的区间估计:总体均值的区间估计总体比例的区间估计总体方差的区间估计      2、两个总体参数的区间估计:两个总体均值之差的区间估计两个总体比例之差的区间估计两个总体方差比的区间估计  三、样本量的确定  1、估计总体均值时样本量的确定  2、估计总体比例时样本量的确定             
                
         
            
            
            
            Hierarchical compositional representations for few-shot action recognition      文章于2023年发表于CVPR会议上的一篇论文。该会议是计算机视觉任务中的TOP会议。 论文地址:https://arxiv.org/abs/2208.09424 开源地址:暂未开            
                
         
            
            
            
            近日,阿里云机器学习平台PAI与华东师范大学高明教授团队、达摩院机器智能技术NLP团队合作在自然语言处理顶级会议EMNLP2022上发表统一多NLP任务的预训练增强小样本学习算法UPT(Unified Prompt Tuning)。这是一种面向多种NLP任务的小样本学习算法,致力于利用多任务学习和预训练增强技术,在仅需要标注极少训练数据的情况下,提升大规模预训练语言模型在多种场景下的模型精度。论文            
                
         
            
            
            
            近日,Facebook 开源了一个新型库 Opacus,它支持使用差分隐私来训练 PyTorch 模型,扩展性优于目前的 SOTA 方法。同时,Opacus 库支持以最少代码更改来训练模型,且不会影响训练性能,并允许在线跟踪任意给定时刻的隐私预算。       Opacus 库开源地址:https://github.com/pytorch/opacusOpacus 库的目标受众主要为            
                
         
            
            
            
            一、Meta Learning 元学习综述 二、Few-shot Learning 小样本学习综述 三、生成对抗网络 GAN 综述 四、迁移学习综述 五、深度迁移学习综述 六、其他概念介绍:知识蒸馏、增量学习
    【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手]【再啰嗦一下】本来只想记一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-10 21:48:09
                            
                                181阅读
                            
                                                                             
                 
                
                                
                    