背景与原理:支持向量机是一种用来解决分类问题的算法,其原理大致可理解为:对于所有$n$维的数据点,我们希望能够找到一个$n$维的直线(平面,超平面),使得在这个超平面一侧的点属于同一类,另一侧的点属于另一类。而我们在寻找这个超平面的时候,我们只需要找到最接近划分超平面的点,而一个$n$维空间中的点等同于一个$n$维向量,所以这些点就可以被称为支持向量。在一个$n$维空间中,一个超平面可以用$0=w            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-23 17:31:54
                            
                                81阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.基于规则,对于要提取的分类维护一个dict,在dict里面保存需要提取的关键词,存在关键词的对应标记为分类;(缺点,不断的去维护词典) 2.基于机器学习:HMM(分词最常用的),CRF,SVM,LDA,CNN 3.词袋模型:bag of word :(one hot)一种是统计词频和位置,一种是只存储是否出现;(缺点很明显,只有词出现信息,对于词的重要度完全没有体现) 4.tf-idf:先考虑            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-25 00:04:38
                            
                                110阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一.比赛背景在本次Datawhale的竞赛当中,我们有一个具有20w条训练集,5w条测试集的数据集。整个数据集里面包含了各种分类不同的文本,每一个文本在训练集里都进行了标注label,这个label能够让我们知道训练集里面的句子是属于哪一个类别的数据。本次竞赛的文本分类一共有14个类别的数据,分别是:财经,彩票,房产,家居,教育,科技,社会,时尚,时政,体育,星座,游戏和娱乐。那么我们来看看数据集            
                
         
            
            
            
            如何把词转换为向量给定任何一个或者一组单词,我们都可以通过查询这个excel,实现把单词转换为向量的目的,这个查询和替换过程称之为Embedding Lookup。在实际场景中,我们需要把Embedding Lookup的过程转换为张量计算 如何让向量具有语义信息事实上,在自然语言处理领域,使用上下文描述一个词语或者元素的语义是一个常见且有效的做法。我们可以使用同样的方式训练词向量,让这            
                
         
            
            
            
            词向量词向量大白话解释:就是一个神经网络。针对一段文本,输入前面几个单词和后面几个单词。输出当前这个单词。然后用神经网络中间层的权重系数来表示输出的这个Y单词。 或者是输入当前这个词,输出它的上下文,我们取出中间层向量即词向量。 词向量是表示文本的一种方式,词汇表中的每个单词由高维空间的实值向量表示。具有相似含义的单词在向量空间中具有相似的表达能力(在向量空间中接近)。 有很多封装好的模块可以帮我            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-15 18:37:57
                            
                                54阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1. 词向量技术词向量(word2vec)是一种表示自然语言中单词的方法,即把每个词都表示为一个N维空间内的点,即一个高维空间内的向量,通过这种方法,把自然语言计算转换为向量计算。词向量的基本内容包括:问题引入基于统计方法的词向量基于语言模型的词向量2 问题引入2.1 向量空间分布的相似性在计算机中表示词语时,当词语转换为向量之后,应保持词语之间在空间中具有相似性。2.2 向量空间子结构和目标词语            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-02 10:13:09
                            
                                155阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近深度学习技术有了突飞猛进的发展,为语音识别、图像识别、自然语言处理(NLP)提供了强大的工具,为这些领域今后的快速发展提供了新的契机。  深度学习为自然语言处理带来的最令人兴奋的突破是词向量(word embedding)技术。词向量技术是将词转化成为稠密向量,并且对于相似的词,其对应的词向量也相近。  在自然语言处理应用中,词向量作为深度学习模型的特征进行输入。因此,最终模型的效果很大程度上            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-21 15:15:12
                            
                                263阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            什么是GloVeGloVe(Global Vectors for Word Representation)是一个基于全局词频统计(count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy            
                
         
            
            
            
            人工智能基础总目录 词向量模型一 One hot编码缺点PCA/SVD后的问题二 Word2vec1.1 目标函数2.1 主流计算方法1 Skip gram2 CBOW2.2 计算方面的优化方法1 Tree softmax2 Negative Sampling (NEG)三 Glove 模型四 句子向量  Word embedding 是自然语言处理中的重要环节,它是一种文本表示方法,并不具体指某            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-03 14:49:17
                            
                                105阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、词向量    词向量的表示方法:    1、one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0, 1 的位置对应该词在词典中的位置。但这种词表示有两个缺点:(1)容易受维数灾难的困扰,尤其是将其用于 Deep Learning 的一些算法时;(2            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-04 15:50:21
                            
                                252阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            中文词向量训练二1. Gensim工具训练中文词向量1.1 中文词向量过程源程序:train_word2vec_model.py执行方法:在命令行终端执行下列代码.python train_word2vec_model.py wiki.zh.text.seg wiki.zh.text.model wiki.zh.text.vectorwiki.zh.text.seg为输入文件,wiki.zh.te            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-18 21:24:50
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            一、概述词向量的学习对于自然语言处理的应用非常重要,词向量可以在空间上捕获词之间的语法和语义相似性。但是词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其是在形态丰富的语言中。但是这种形态和功能之间的关系有不是绝对的,为了学习这种关系,本文在字符嵌入上使用双向LSTM来捕捉这种关系。C2W模型能够很好地捕捉词之间的语法和语义相似度,并且            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-07 01:42:21
                            
                                135阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                 在前面几讲中笔者对 word2vec 词向量进行了相对详细的介绍,并在上一讲给出了 skip-gram 模型的训练示例。除了 word2vec 之外,常用的通过训练神经网络的方法得到词向量的方法还包括 Glove(Global Vectors for Word Representation)词向量、fasttext 词向量等等。本节笔者将对 Glo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-02 12:16:10
                            
                                102阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            最近做自然语言处理算法,需要根据词向量判断两个词汇的相似度。面临两个选择:欧氏距离和余弦相似度。选择哪一个好呢?一、概念图解为便于理解这个问题,假设词向量是二维的。我们分析一下这两种方法计算词向量相似度的方法的特点。假设两个词向量  和 :【欧氏距离】:【余弦相似度】:参见下图:其中,欧氏距离是线段 XY 的长度,余弦相似度是单位元弧长X’Y’对应角度的余弦。显而易见,我们也很容易定义一个单元圆(            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-14 16:47:05
                            
                                272阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            词向量:是一种表示自然语言中单词的方法,把每个词都表示为一个N维空间内的点,即一个高维空间内的向量。通过这种做法,把自然语言计算转换为向量计算。 有的时候词向量会写作:word2vec、word2vectors这里面的2并不是er,而是使用了英语读音的to。word to vectors 词转换为向量。分词对于人类的思维方式来说,人类喜欢将零零散散的词汇拼凑在一起形成一个语句或是一幅篇章。比如一首            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-14 11:33:12
                            
                                41阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            关键字:        文档 句子 词语        单词 上下文单词 上下文窗口        向量 相似性 类比性 欧几距离 余弦距离 余弦相似度 相似度            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-27 15:07:54
                            
                                74阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            词向量 几个概念 词嵌入(word embedding):把文本转换成数值形式,或者说——嵌入到一个数学空间里,而 词向量:一个单词所对应的向量,向量之间的数学关系可以表示单词之间的语义关系 词的离散式表示 ***one-hot *** Bag of Words(词袋模型) 没有表达单词在原来句子中 ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-04-14 08:53:00
                            
                                619阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            词向量            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-08-02 15:48:48
                            
                                403阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            为什么需要词向量?众所周知,不管是机器学习还是深度学习本质上都是对数字的数字,Word Embedding(词嵌入)做的事情就是将单词映射到向量空间里,并用向量来表示一个简单的对比One-hot Vector对应的词所在的位置设为1,其他为0;例如:King, Queen, Man and Woman这句里面Queen对应的向量就是\([0,1,0,0]\)不足:难以发现词之间的关系,以及难以捕捉            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-05 22:00:29
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            在读本文前默认读者已经懂得了词向量的基本常识。GloVe瞄准的是word2vec的缺点,我们知道word2vec进行训练词向量时只考虑了窗口内的单词,对于窗口外的词则没有考虑到,GloVe通过构建共现矩阵的方式使得训练词向量时考虑了全局信息,同时GloVe的训练没有采用神经网络,而是计算共现矩阵,使得训练的速度更快,适合大规模语料。GloVe模型分两步:1.构建共现矩阵;2.构建损失函数并训练直接            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-09 14:47:13
                            
                                129阅读