# 深入理解 NLP 中的词嵌入(Embedding)
自然语言处理(NLP)技术近年来发展迅速,其中一个关键的概念就是词嵌入(Word Embedding)。词嵌入是将词语映射到一个连续的向量空间中,使得具有相似意义的词在向量空间中也较为接近。本文将深入探讨词嵌入的原理、实现方式,以及相关示例代码,最后我们还会用序列图和类图来帮助理解。
## 词嵌入的原理
词嵌入的基本思想是使用向量表示词
原创
2024-10-23 06:47:12
67阅读
语料库(corpus)语料库(corpus)就是存放语言材料的仓库(语言数据库),基于语料库进行语言学研究–语料库语言学(corpus linguistics)。语料库语言学研究的内容语料库的建设与编纂语料库的加工和管理技术语料库的使用语料库的类型平衡语料库平衡语料库着重考虑语料的代表性与平衡性。语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还
转载
2023-09-22 17:03:46
98阅读
# 自然语言处理中的词表及其应用
自然语言处理(NLP)是计算机科学与语言学交叉的学科,它使得计算机能够理解、分析和生成人类语言。词表作为NLP中的基础组件之一,是将文本数据转换为可以进行计算的形式的重要工具。本文将介绍词表的概念、构建方法,并通过代码示例演示其应用,最后通过图示展示NLP项目的流程。
## 1. 什么是词表?
词表(Vocabulary)是一个包含文本中所有唯一词语的集合。
原创
2024-10-17 13:42:28
359阅读
1. 什么是word embedding通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间广义的word embedding包括所有密集词汇向量的表示方法,如之前学习的word2vec,即可认为是word embedding的一种狭义的word embedding是指在神经网络中加入embedding层,对整个网络进行训练时产生的embedding矩阵(embedding层的参数),这个e
转载
2024-06-04 15:07:08
56阅读
https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇
转载
2024-03-14 11:29:15
57阅读
搜索引擎的基本的术语1.tf/df/idftf是词频,就是某个词的出现的次数,表示的是一个词的局部信息。df是文档频率,就是指某个词的文档频率,这个词在多少个文档中出现。idf是逆文档频率,它是词重要性的一个很好的衡量。计算如下:在大量语料库中统计的,所以一般表示一个词的全局信息。2.pagerankpagerank用来衡量网页重要性的一个指标。核心思想是投票原则。如果指向某个网页的链接非常多且质
转载
2023-10-07 14:17:22
177阅读
Part A: 词频统计的需求分析一、系统简介。 词频统计是一个在线统计一篇英文文档中的单词总个数,每个单词出现的次数的这样的一个统计系统。二、主要功能。 1. 上传文档。 2. 统计所有单词数目。
1. 前言2018年最火的论文要属google的BERT,不过今天我们不介绍BERT的模型,而是要介绍BERT中的一个小模块WordPiece。2. WordPiece原理现在基本性能好一些的NLP模型,例如OpenAI GPT,google的BERT,在数据预处理的时候都会有WordPiece的过程。WordPiece字面理解是把word拆成piece一片一片,其实就是这个意思。WordPiec
任务目标:通过已有的训练数据,将每个单词的词性标记出来。知识储备: 1.计算语言模型 思路:假设每句话经过分词表示为 (w1,w2,w3,... wi ) 对应的每个单词的词性记为(z1,z2,z3,... zi) 求 则语言模型 z = P(w1,w2,w3,...
转载
2023-07-08 17:41:24
118阅读
# 如何实现“NLP 中文 词表 词典”
在自然语言处理(NLP)领域,构建中文词表和词典是非常重要的一步。词表就是将文本语料中出现的所有词汇进行汇总,而词典则包括了这些词汇的相关信息,例如词频、词义等。本文将详细介绍如何实现中文词表和词典的构建,适合刚入行的小白。
## 整体流程
下面是构建中文词表和词典的步骤。
| 步骤 | 描述
# NLP 中文词表:构建中文自然语言处理的基础
自然语言处理(NLP)是计算机科学与语言学交叉的领域,旨在使计算机理解、解析和生成人类语言。特别是在中文 NLP 的发展中,构建词表是一个核心步骤。本文将探讨中文词表的构建过程,并通过代码示例加深理解。
## 什么是中文词表?
中文词表是指一个包含各种汉字词汇的集合,常用于文本处理。这些词汇可以包括单字、词组、成语等。词表的构建过程不仅仅是对
# NLP 汉字词表的科普介绍与代码示例
自然语言处理(NLP)是计算机科学与语言学交叉的一门学科,旨在使计算机理解、分析和生成自然语言。随着中文在数字世界的重要性日益增加,针对汉字和词汇的处理逐渐成为研究的热点之一。本篇文章将介绍一种常用的汉字词表,并给出代码示例,帮助大家更好地理解其应用。
## 汉字词表的概念
在自然语言处理领域,汉字词表是对各种汉字及其组合形成的词汇的集合。词表的构建
# NLP中的词表
在自然语言处理(NLP)领域,词表(Vocabulary)是一个至关重要的概念。词表是一个已知词汇的集合,通常用于训练和评估机器学习模型。通过将文本数据映射到这一词汇,我们可以更好地理解和处理自然语言。
## 什么是词表?
词表通常是通过分析语料库中的文本来构建的。每当我们遇到一个新词时,便将其添加到词表中。对于一些特定的任务,比如情感分析或机器翻译,构建合适的词表至关重
花书十二章+NLP最近刚好轮到自己讲花书十二章,感觉goodfellow在NLP这块写的不是很全,所以就自己参考宗老师的《统计自然语言处理》来理了一下思路,现在整理一下。一.NLP前言1.主要研究领域机器翻译、自动文摘、信息检索、文档分类、问答系统、信息过滤、信息抽取、文本挖掘、舆情分析、光字符识别、说话人识别/验证、语音识别、语音合成(语音这块实际上也可以是单独的一个大类,毕竟深度学习应用的最好
转载
2023-10-13 23:11:24
121阅读
基本概念分/切词(Tokenization)基于词典的分词方法(最大匹配法、最短路径法、最大概率法),实际用的比较多的如下:基于条件随机场(CRF)的中文分词算法的开源系统。基于张华平NShort的中文分词算法的开源系统(结巴分词核心算法)。词性标注(POS Tagging)词性,也称为词类,是词汇的语法属性,是连接词汇到句法的桥梁。 词性标注(Part-of-Speech Tagging或POS
转载
2023-09-05 13:39:32
109阅读
大家好,我是对白。今天给大家介绍一个超强大的NLP标注工具Prodigy,不仅可以应用在实体关系抽取和文本分类等NLP任务上,还可以应用到CV和音视频任务中,来源:知乎@沉默的路人甲。一、Prodigy是什么Prodigy是一种款由Explosion AI开发的支持脚本编写的数据标注工具,用于为机器学习模型创建训练集和验证集,方便用户可以快速独立的迭代自己的机器学习模型。此外,Prodigy可以帮
转载
2024-01-04 19:31:35
54阅读
需求描述在某清单应用上,如果我们想要实现用户输入一段文本自动识别用户的时间功能,大部分人会觉得用正则做匹配即可,但其实用正则首先要考虑分词的语法规律,比如要实现:上周三5点一刻,但是用户如果输入上周三一刻5点,很明显这是违背语法规则的。对于通用的时间匹配确实可以用正则,首先我们要创建10级权重的关键字、9级权重的关键字...,每个关键词只能匹配更低权重的关键词,如果有更高的关键词我们可以继续累加。
转载
2024-07-02 20:41:38
39阅读
文章目录NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf2. Word2Vec2.1 Word Embedding2.2 Gaussian Embedding2.3 Contextual Embedding3. 文本特征工程 NLP基础——词表示和文本特征1. Word Representation: 独热编码,tf-idf词表示:0-1 on
转载
2024-05-16 10:15:52
88阅读
LAC是什么LAC全称Lexical Analysis of Chinese,是百度NLP(自然语言处理部)研发的一款词法分析工具,可实现中文分词、词性标注、专名识别等功能。LAC在分词、词性、专名识别的整体准确率超过90%,以专名识别为例,其效果要比同类词法分析工具提升10%以上。例如:我知道你不知道,百度开源词法LAC帮你更懂中文!LAC 2.0可以从语义合理性角度精确完成分词、词性标注和专名
1、NLP知识构成 (1)分词 分词常用的手段是基于字典的最长串匹配,基本可以解决85%的问题,但是歧义词很难。 (2)词性标注 词性一般是指动词、名词、形容词等。标注的目的是表证词的一种隐藏状态,隐藏状态的转移就构成了状态转移序列。 (3)命名实体识别(NER) 从文本中识别具有特定类别的实体 (4)句法分析 句法分析的目的是解析句子中各个成分的依赖关系,往往最终的生成结果是一棵句法分析树。可以
转载
2023-11-03 09:45:43
121阅读