**文本处理** 深度学习模型不会接收原始文本作为输入,它只能处理数值张量。文本向量化(vectorize)是指将文本转换为数值张量的过程。它有多种实现方法。 将文本分解而成的单元(单词、字符或 n-gram)叫作标记(token),将文本分解成标记的过程叫作分(tokenization)。所有文本向量化过程都是应用某种分词方案,然后将数值向量与生成的标记相关联。将向量与标记相关联的方法有很多种。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-07 07:56:51
                            
                                66阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            余弦相似度损失(Cosine Similarity Loss)在深度学习中被广泛应用于测量向量之间的相似度。在一些自然语言处理和推荐系统的任务中,尤其重要。随着深度学习框架的发展,PyTorch 作为一个流行的框架,其实现余弦相似度损失的方式愈加受到关注。通过这篇文章,我将详细记录在 PyTorch 中解决“余弦相似度损失”的过程,以帮助读者准确理解其实现及运用。
## 协议背景
在数据科学和            
                
         
            
            
            
            几个理解loss的视角loss确定了函数的优化目标,在loss的指引下,模型参数优化的过程,就是让loss变小的过程,使得loss最小的模型参数,就是最优的模型参数loss确定了要优化的目标?怎么理解呢?拿DNN双塔来说,user特征和item特征代表的两个dnn塔,分别生成了user embedding和item embedding,但是user embedding和item embedding            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-27 14:34:39
                            
                                571阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余            
                
         
            
            
            
            一、余弦相似度:余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"二维向量的余弦相似度:多维向量的余弦相似度(类比) 协同过滤(Collaborative Filtering, 简称 CF):收集用户行为减噪与归一化处理减噪:用户行为数据是用户在使用应用过程中产生的,它可能存在大量的噪音和用户的误操作,我们可以通过经典的数据挖掘算法过滤掉行为数据中的噪音,这            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-07 00:01:57
                            
                                295阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1、定义2、优化思路2.1、传统方法2.2、优化方法3、数学原理4、实验程序(Java) 1、定义余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。2、优化思路2.1、传统方法首先,从海量的向量中提取出第1条高维向量,然后,计算出第1条向量与基准向量的余弦值,将该计算得到的余弦值作为最大余            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-21 14:35:10
                            
                                240阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            实验内容 将MIT室内场景数据库中卧室、浴室作为正负样本,利用留出法完成训练集与测试集的划分(比例1:2),并使用测量夹角余弦的方式进行二分类(0为负,1为正),最后给出分类错误率和准确率,并绘制ROC曲线。实验原理 【余弦距离】也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-03 06:58:30
                            
                                68阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            向量的点乘:a * b公式:a * b = |a| * |b| * cosθ点乘又叫向量的内积、数量积,是一个向量和它在另一个向量上的投影的长度的乘积;是标量。点乘反映着两个向量的“相似度”,两个向量越“相似”,它们的点乘越大。向量的叉乘:a ∧ ba ∧ b = |a| * |b| * sinθ向            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-11 14:07:19
                            
                                151阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            github:https://github.com/worry1613/csdn-blog-recommend数据集下载地址  https://pan.baidu.com/s/1qzJDmpzAMe1vmtvuCXSfIw数值型数据相似度计算可以用那些传统的算法,余弦,欧氏,Jaccard,曼哈顿,传统算法总共11种。这些算法都是处理数值型数据的,可现在是文本比较,没有数字,怎么用这样算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-23 19:47:39
                            
                                68阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            当需要搜索自由文本并且 Ctrl+F / Cmd+F 不再有效时,使用词法搜索引擎通常是你想到的下一个合理选择。 词汇搜索引擎擅长分析要搜索的文本并将其标记为可在搜索时匹配的术语,但在理解和理解被索引和搜索的文本的真正含义时通常会表现不佳。这正是向量搜索引擎的闪光点。 他们可以对同一文本进行索引,以便可以根据它所代表的含义及其与具有相似或相关含义的其他概念的关系来搜索该文本。在本博客中,我们将简要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-31 13:42:31
                            
                                35阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            向量的相似度计算常用方法相似度的计算简介   关于相似度的计算,现有的几种基本方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐的场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。下面我们详细介绍几种常用的相似度计            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-15 14:45:35
                            
                                89阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            方差公式:Var = E[(X-μ)²] = E[X²-2Xμ+μ²] = E(X²)-2μ²+μ² = E(X²)-μ² (*)最后推出方差就是平方的均值减去 均值的平方皮尔逊相关系数①协方差就是看两个变量是否正负相关,也就是数值上变化是否同或反向;②相关系数直接衡量的就是线性相关关系,取值就在+-1之间,体现的含义是X和Y多大程度在一条斜率存在且不为0的直线上;距离向量余弦距离,也称为余弦相似            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-21 06:48:05
                            
                                41阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录求向量余弦相似度的原理矩阵的余弦相似度相似度算法1代码演示场景应用相似度算法2代码演示思维扩展参考文献附: 求向量余弦相似度的原理余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性" 我们都学过向量的内积公式:其中  和  可以是高维的向量,例如 所以我们将向量  对应位置上的数值对应相乘            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-16 13:21:17
                            
                                323阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.面向对象特征之一:封装和隐藏          1.问题的引入:                当我们创建一个类的对象以后,我们可以通过            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-29 14:58:52
                            
                                23阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            看starspace的时候发现它实现了dot和cos两种similarity的度量方式,这里总结一下:余弦相似度衡量两个向量在方向上的相似性,而不care两个向量的实际长度,A和B的长度即使是一个超级短一个超级长的情况下,二者的余弦相似性也可能为1(即theta=0,此时两个向量重合);
  存在的问题[1]: 
 余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。 
  比如用户对内容评            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-13 12:29:37
                            
                                270阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. 摘要翻译本篇文章中,我们提出了一个新颖的损失函数,称之为LMCL,来给出loss函数的一种不同思路。更确切地说,我们用L2范数(欧几里得范数)归一化softmax损失函数的特征和权值向量,消除半径方差的影响,重构为余弦损失函数。基于此,提出了一个余弦边界项来更深地最大化角度空间地决策边界。结果是,通过正则化和余弦决策边界地最大化的优点,成功实现了类内间距的最小化和类之间距离的最大化。我们称自            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-29 07:58:13
                            
                                63阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            已计算出个文本间的余弦相似度值,怎么用kmeans聚类K-MEANS算法: k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较校聚类相似度是利用各聚类中对象的均值所获得一个“中心对象如何计算两个不同长度的向量的余弦相似度(1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-20 09:54:41
                            
                                128阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            K近邻算法(K-Nearest Neighbor, KNN)解决的问题:如何快速从数据集中找到和目标样本最接近的K个样本距离度量方法:欧式距离、余弦距离、曼哈顿距离、dot内积近似最近邻算法(Approximate Nearest Neighbor, ANN)ANN是一种通过牺牲精度来换取时间和空间的方式从大量样本中获取最近邻的方法,具有存储空间少、查找效率高等优点实现方法:二叉树结构(比如Ann            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-10-23 20:24:32
                            
                                25阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            这两者计算的都是文档和文本之间的相似度,如果是两个短文本貌似也可以。1、TF-IDF = TF * IDF      假设文本是“我怎么这么帅气”,4个词,第一个词“我”, 文档1中一共有10个词,“我”有2次,这个词的词频都是2,这就是TF      第一个词“我”,在所有文档中,有“我”这个词的文档数是m,文档总数是n,则IDF =            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-10 22:08:39
                            
                                220阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
              官方文档这直译也太拗口了,下面内容为阅读官方文档的总结,橙色文字为本人批注:内涵:difflib模块提供用于比较序列的类和函数。 例如,它可被用于比较文件,并可产生多种格式的不同文件差异信息,包括 HTML 和上下文以及统一的 diff 数据。 有关比较目录和文件,另请参阅 filecmp 模块。这个库有两个类,SequenceMatcher和Diffe