..语言学教程笔记语言学导论语言的定义特征: 从本质上将人类语言与动物语言区分开的人类语言的区别性特点。任意性:任意性是指语言符号的形式与所表示的意义没有天然的联系,任意性是语言的核心特征。例如,我们无法解释为什么一本书读作a /buk/,一支钢笔读作a /pen/。任意性具有不同层次:(1)语素音义关系的任意性。(2)句法层面上的任意性。(3)任意性和规约性。二层性:二层性是指拥有两层结构的这种            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-02 08:19:41
                            
                                40阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            【前沿重器】全新栏目,本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。往期回顾心法利器[2] | 统计语言模型使用反思心法利器[3] | tf.keras自学笔记心法利器[4] | tf.keras文本分类小例子心法利器[5] | 聊自己非计算机专业做程序员的经验心法利器[6] | python grpc实践除了我之前讲的命名实            
                
         
            
            
            
            1. 相似度模型的应用场景简单的说,相似度模型的应用场景就是,需要找到和某个实体相似的其他实体。比如:(1)商铺选址:某公司要在新城市开新的店铺,需要选址,可以使用相似度模型,找到和现有市场中表现好的商铺地址相似的地点;(2)广告宣传:其实和商铺选址类似,要选择一个好的宣传地点,可以使用相似度模型,找到和现有最好的宣传地点最相似的地点;(3)个性化推荐:这是现在互联网领域,尤其是电子商务领域应用很            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-25 11:07:11
                            
                                229阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            0.引言在建模的过程中,当需要整理出两两样本之间的联系时,通常会使用“相似性(similarity)”来描述这种联系。在一般语境中,我们通常会用“距离(distance)”来代表这种联系。一般来说,相似性和距离代表的含义是相同的。而对距离的正确建模能帮助模型更快的挖掘出隐含在数据分布之间的联系。1.两样本的相似度的衡量1.1 基本性质非负性:同一性:对称性:直递性:1.2 常用度量方式:以n维样本            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-23 12:51:44
                            
                                298阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            nlp 自然语言处理个体间的相似程度 一般用余弦相似度 个体间的相似程度 一般用余弦相似度表示cosA=a·b/|a|·|b|得到了文本相似度计算的处理流程是:– 找出两篇文章的关键词;– 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合中的词的词频– 生成两篇文章各自的词频向量;– 计算两个向量的余弦相似度,值越大就表示越相似。词频——TF(Term Frequency)•            
                
         
            
            
            
            1.背景介绍自然语言处理(NLP)是计算机科学与人工智能中的一个分支,研究如何让计算机理解、生成和处理人类语言。在过去的几年里,NLP 技术取得了巨大的进步,这主要归功于深度学习和大规模数据的应用。然而,在 NLP 领域中,文本相似性度量是一个基本 yet 重要的问题,它在许多任务中发挥着关键作用,例如文本检索、摘要生成、机器翻译、情感分析等。在本文中,我们将深入探讨文本相似性度量的核心概念、算法            
                
         
            
            
            
            论文介绍发表:2019,EMNLP论文题目:《Sentence-BERT:sentence embeddings using siaese BERT-networks》 论文地址:https://arxiv.org/abs/1908.10084 Github:https://github.com/UKPLab/sentence-transformers适用领域:句向量生成语义相似度计算语义搜索无监            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-24 21:03:23
                            
                                218阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            2013年数学建模拼接问题论文g(x,y)当g x,y 0时,图片为左边碎图片。2122边缘特征点的检测与配准,详细研究了基于边缘轮廓提取特征点和利用提取的特征点进行配准。特征点提取是基于边缘特征点图像配准方法的关键,相似性度量。相似性度量是指用哪种方法来确定待配准特征之间的相似性。它是以某种距离函数或代价函数的形式出现的。相似性度量与特征空间是紧密相连的,因为相似性度量是利用特征提取的信息,特征            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-17 22:54:02
                            
                                47阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            ##句子相似度计算的方法句子相似度指的是两个句子之间相似的程度。用于NLP中对话系统、文本分类、信息检索、语义分析等。句子相似度的计算方法主要分为基于统计的方法(莱文斯坦距离 | 编辑距离)和基于深度学习的方法。 基于统计的方法: BM25 TFIDF计算 TextRank算法中的句子相似性 基于深度学习的方法: 基于Word2Vec的余弦相似度 DSSM(Deep Structured Sema            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-31 14:39:14
                            
                                474阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1、simHash简介simHash算法是GoogleMoses Charikear于2007年发布的一篇论文《Detecting Near-duplicates for web crawling》中提出的, 专门用来解决亿万级别的网页去重任务。simHash是局部敏感哈希(locality sensitve hash)的一种,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-20 13:26:13
                            
                                40阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. 前言最近在学习文本相似度的计算,前面两篇文章分别介绍了文本的向量化和文本的距离度量,这两篇文章的思路主要在机器学习的框架下面,本文准备换一个思路,从深度学习的角度来处理文本相似度的问题。本文介绍DSSM(Deep Structured Semantic Models)深度学习架构。2. DSSM原理DSSM的原理很简单,通过搜索引擎里Query和Doc的海量的点击曝光日志,用DNN把Quer            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 02:30:02
                            
                                228阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在深度学习以及图像搜索中,经常要对特征值进行比对,得到特征的相似度,常见的特征值比对方法有汉明距离、余弦距离、欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离等,下面对各种比对方法分别进行介绍。目录1汉明距离2余弦相似度3欧式距离4曼哈顿距离5切比雪夫距离6闵可夫斯基距离7马氏距离1汉明距离汉明距离/Hamming Distance也能用来计算两个向量的相似度;即通过比较向量每一位是否            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 11:02:53
                            
                                194阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            短文本语义匹配/文本相似度框架(SimilarityNet, SimNet),基于bow_pairwise模式及框架原理介绍 一、简介短文本语义匹配(SimilarityNet, SimNet)是百度一个计算短文本相似度的框架,可以根据用户输入的两个文本,计算出相似度得分。1.1 示例句子1                句子2              相似度
车头 如何 放置 车牌	前 牌照            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-18 21:16:02
                            
                                130阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            向量余弦相似度余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,夹角等于0,即两个向量相等,这就叫"余弦相似性"。上图两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性,极端情况下,a和b向量完全重合。如下图:如上图二:可以认为a和b向量是相等的,也即a,b向量代表的文本是完全相似            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-05 16:48:37
                            
                                224阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录 定义:例子:python函数计算余弦相似性定义:余弦距离,也称为余弦相似度,是用向量空间中两个向量之间的夹角余弦值作为衡量两个个体之间的差异大小的度量。(不难理解,余弦相似度就是基于两个向量之间的夹角的大小进行一个相似度的判断。)余弦值越接近于1, 夹角之间的度数越接近0度,也就是两个向量越相似,这就叫做“余弦相似度”。举例说明:通过上图,我们能看出,将两张人脸图片通过卷积神经网路            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 10:39:02
                            
                                136阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            这里主要面向初学者介绍句子相似度目前主流的研究方向。从词到句子,这是目前中文相似度计算的主要思想。而由这个-思想引申出来的算法却非常多,这里面向初学者介绍比较容易实现的方法。这里要介绍的是二分法计算句子相似度。这个算法实现简单,思路清晰由此出现的技术分类变化万千,主要的变化是分组,也成为分集合。二分法的思想是:集合一和集合二是两个词的集合,集合一的每一个词与集合二的每一个词求相似度,找出最大的一个            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-10 16:56:25
                            
                                152阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            CNN卷积神经网络的核心当然是卷积存在着一个个填充着数字的小方格,他们被称之为卷积核词向量模型word2vec自然语言处理-词向量模型如何将文本向量化看词频和总体的个数和整体的关系改变顺序不应该改变词频让计算机更好的认识文本词相近应该再向量上的表达应该是相同的学习顺序先学习神经网络再了解词向量模型如何实现文本向量化相近的词应该表达的是相同的含义一些小点在描述一个东西的时候应该要考虑多重的因素应该从            
                
         
            
            
            
            DSSM (Deep Structured Semantic Models)用于文本相似度匹配场景,是为了平衡搜索的关键词,和被点击的文本标题之间的相关性。论文地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/cikm2013_DSSM_fullversion.pdf目录1、DSSM原理1.1、wordha            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-10 15:17:34
                            
                                214阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、概率图模型的特点及优势      概率图模型提供了一个描述框架,使我们能够将不同领域的知识抽象为概率模型,将各种应用中的问题都归结为计算概率模型里某些变量的概率分布,从而将知识表示和推理分离开来.模型的设计主要关心如何根据领域知识设计出反映问题本质的概率模型,同时兼顾有效推理的可行性,而推理算法的设计只需关心如何有效地在一般的或者特定的概率模型            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-22 13:59:42
                            
                                98阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            github:https://github.com/worry1613/csdn-blog-recommend数据集下载地址  https://pan.baidu.com/s/1qzJDmpzAMe1vmtvuCXSfIw数值型数据相似度计算可以用那些传统的算法,余弦,欧氏,Jaccard,曼哈顿,传统算法总共11种。这些算法都是处理数值型数据的,可现在是文本比较,没有数字,怎么用这样算            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-23 19:47:39
                            
                                68阅读
                            
                                                                             
                 
                
                                
                    