NLP博客_原创博文第151页

nlp的通用指标

# 实现 NLP 的通用指标在自然语言处理（NLP）中，评估模型性能的通用指标至关重要。常见的指标有准确率、召回率、F1-score、BLEU、ROUGE 等。本文将带你一步步实现这些指标，并通过示例代码进行说明。 ## 流程概述以下是实现 NLP 通用指标的一些基本步骤： | 步骤 | 描述 |

数据

召回率

python

原创

mob64ca12e2ba6f

10月前

192阅读

nlp图数据抽取的开源框架

# NLP图数据抽取的开源框架随着自然语言处理（NLP）技术的发展，图数据抽取越来越受到研究人员和开发者的关注。图数据抽取的目标是从非结构化文本中提取有用的信息，并将其组织成图形数据结构，以便进一步的分析和处理。本文将介绍一些流行的开源框架，这些框架能够有效地进行图数据抽取，并提供一个简单的代码示例以帮助理解。 ## 开源框架概述在NLP图数据抽取的领域，常见的开源框架有： 1. **

开源框架

代码示例

加载

原创

mob64ca12e51ecb

10月前

26阅读

nlp注意力模块

# 教你实现NLP注意力模块在自然语言处理 (NLP) 中，注意力机制是一个重要的概念，它允许模型在处理输入序列时动态关注不同部分。本文将引导你实现一个基本的注意力模块，帮助你理解其中的原理和步骤。 ## 整体流程我们可以将实现注意力模块的流程分为以下几个步骤： | 步骤编号 | 步骤名称 | 描述

数据

tensorflow

权重

原创

mob649e81673fa5

10月前

46阅读

大数据 NLP

# 大数据与NLP：一场语言的旅行在信息爆炸的时代，大数据无处不在，如何从这些数据中提取有价值的信息成为研究热点。自然语言处理（NLP）作为人工智能的重要分支，致力于让计算机理解人类语言。在这篇文章中，我们将探讨NLP在大数据环境中的应用，并通过代码示例来帮助大家更好地理解。 ## 大数据与NLP的关系大数据技术可以处理海量数据，而NLP则提供了一种分析和理解这些数据的方式。二者结合，不

大数据

自然语言处理

数据

原创

mob64ca12f7e7cf

10月前

47阅读

nlp token什么东西

# 什么是 NLP Token？在自然语言处理（NLP）领域，"Token" 是一个非常重要的概念。Token 可以理解为一个文本中的基本单位，它可以是一个单词、一个标点符号或其他特定字符。Tokenization（分词）则是将一段文本切分成这些基本单位的过程。这一过程是许多 NLP 应用的基础，比如文本分类、情感分析和机器翻译等。 ## Tokenization 的必要性在机器学习和深

自然语言处理

ci

python

原创

mob649e815a6b81

10月前

90阅读

snownlp 文本匹配

# 使用 SnowNLP 进行文本匹配的教程在文本处理和自然语言处理的领域，文本匹配是一个常见的问题。大家可以通过使用轻量级的库，如 SnowNLP，来实现这项功能。本文将指导你如何使用 SnowNLP 来完成文本匹配的任务。 ## 一、整体流程我们可以通过以下步骤来实现文本匹配： | 步骤 | 描述 | |

数据

相似度

文本相似度

原创

mob64ca12d9081f

10月前

27阅读

什么是nlp上游任务

# 什么是 NLP 上游任务自然语言处理（NLP，Natural Language Processing）是人工智能的一部分，旨在使计算机能够理解、分析和生成人类语言。在 NLP 领域，有许多任务可以分为上下游任务，其中“上游任务”指的是一些基础的、通常是无监督的任务，它们为更复杂的下游任务提供支持。本文将介绍 NLP 上游任务的概念，具体任务，以及相关的代码示例。 ## NLP 上游任务的

语言模型

机器学习

加载

原创

mob64ca12dc88a3

10月前

55阅读

　　随着科学技术的发展，中文信息处理技术已经深入到了社会生活的各个方面。所谓“中文信息处理”，指的是用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。　　中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科，是自然语言信息处理的一个分支，需要以大量的语言知识、背景知识为依据，对中文信息的人脑处理过程进行模拟。

nlpir客户端安装教程

大数据

人工智能

数据库

中文信息处理

mob64ca13ff28f1

10月前

20阅读

自然语言处理召回

自然语言处理2——语言学基础文章目录自然语言处理2——语言学基础词性与词法短语结构语义和语用词性与词法词性分类：开放类（词汇类）：名词、动词、形容词封闭类（功能类）：介词、限定词等词法（构词过程）：变形：对词根进行系统的修改，加前后缀来指明语法结构的不同，如：单复数、时态、数目派生：缺乏系统化，通常导致语法类别及含义的根本变化，如：wide widely复合：两个以上的词构成一个新词短语结构定

自然语言处理召回

自然语言处理

人工智能

nlp

语义分析

幸福的地图

10月前

15阅读

n语言模型数据平滑头歌

平滑方法：1. Add-1 smoothing2. Add-k smoothing设m=1/V，则有从而每一项可以跟词汇表的大小相关3. Unigram prior smoothing将上式中的1/v换成unigram概率P(wi)，则有：其是插值的一种变体，其将某种unigram概率加入到bigram的计算中。4. Good-Turing Smoothing大部分平滑算法比

n语言模型数据平滑头歌

数据

数据集

正则化

云端小梦

10月前

72阅读

HanLP 分词加载自定义字典

本篇分享的依然是关于hanlp的分词使用，文章内容分享自 gladosAI 的博客，本篇文章中提出了一个问题，hanlp分词影响了实验判断结果。为何会如此，不妨一起学习一下 gladosAI 的这篇文章。学习内容在之前的实验中得到了不在词向量里的词与分词结果，结果有500多个词不在词向量里，解决方案就是重新分词，或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6

HanLP 分词加载自定义字典

java

人工智能

python

词向量

代码探险家

10月前

88阅读

自然语言处理内容的合法性是什么原则

作者：禅与计算机程序设计艺术《55. 基于文本分类和情感分析的自然语言处理技术及应用场景》引言55.1 背景介绍随着互联网的快速发展，自然语言处理（Natural Language Processing, NLP）技术在各领域取得了越来越广泛的应用，如智能客服、智能翻译、文本分类、信息抽取等。在工业4.0时代，NLP技术作为人工智能领域的核心技术之一，对于提升企业竞争力具有重要意义。55.2 文

自然语言处理内容的合法性是什么原则

自然语言处理

人工智能

语言模型

编程实践

IT智行者

10月前

22阅读

自然语言处理中文分词实验报告心得

　　　在语言理解中，词是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步，只有跨越了这一步，计算机才能准确的进行短语划分、实体识别、概念抽取、文本摘要等基本的自然语言理解任务。　　尽管，现在用jieba python库就能够比较方便的获得较好的分词结果，但是分词的基本原理和发展历史，是每一个NLP工作者都应该掌握的。 1分词简介？　　词的概

自然语言处理中文分词实验报告心得

人工智能

python

加载

条件概率

mob64ca1411e411

10月前

62阅读

自然语言处理项目实战有哪些

自然语言处理学习自然语言处理是计算机科学领域与人工智能领域的中的一个重要方向。它研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法，涉及所有用计算机对自然语言进行的操作基于《python自然语言处理》一书的学习过程分享，我想更精简的提取出书中有用的东西，使其能快速上手使用。特此放到GitHub上不断更新。按照书中的顺序1. 语言处理的基础2. 结构化程序设计3. 语言处理的基本原理（标注

自然语言处理项目实战有哪些

自然语言

自然语言处理

python

ghpsyn

10月前

28阅读

大语言模型面试问题

简介：回顾20世纪晚期--准确地说是1997年，OMG组织(Object management Group对象管理组织)发布了统一建模语言(Unified Modeling Language，UML)。UML的目标之一就是为开发团队提供标准通用的设计语言开发和构建计算机应用。UML的目标之一就是为开发团队提供标准通用的设计语言来开发和构建计算机应用。UML提供了一套IT专业人员期待多年的统一的标准

大语言模型面试问题

系统架构

UML

类图

用例

mob64ca13f8eecb

10月前

36阅读

nlpcclatex模板

1 简介CLUE：A Chinese Language Understanding Evaluation Benchmark。中文语言理解测评基准英语有GLUE、SuperGLUE，各种预训练模型，如BERT，在其上进行评估；CLUE类比GLUE，应该是中文第一个大规模的语言评估基准。CLUE：（1）该评估基准覆盖了9种句子分类、机器阅读理解任务，不同的困难水平、不同的大小和形式；（2）提供了一个

nlpcclatex模板

数据集

基准测试

Text

daleiwang

10月前

21阅读

大语言模型代码生成器代码翻译原理

们编写的源代码是人类语言，我们自己能够轻松理解；但是对于计算机硬件(CPU)，源代码就是天书，根本无法执行，计算机只能识别某些特定的二进制指令，在程序真正运行之前必须将源代码转换成二进制指令。所谓的二进制指令，也就是机器码，是 CPU 能够识别的硬件层面的“代码”，简陋的硬件(比如古老的单片机)只能使用几十个指令，强大的硬件(PC 和智能手机)能使用成百上千个指令。然而，究竟在什么时候将源代码转换

大语言模型代码生成器代码翻译原理

c语言代码大全表解释

跨平台

解释型语言

编译型语言

Python数据分析

10月前

33阅读

nlp命名实体识别纠错怎么写

HMM（隐马尔可夫模型）是用来描述隐含未知参数的统计模型，举一个经典的例子：一个东京的朋友每天根据天气{下雨，天晴}决定当天的活动{公园散步,购物,清理房间}中的一种，我每天只能在twitter上看到她发的推“啊，我前天公园散步、昨天购物、今天清理房间了！”，那么我可以根据她发的推特推断东京这三天的天气。在这个例子里，显状态是活动，隐状态是天气。 2014年11月23日更新：我已利用HMM角色

nlp命名实体识别纠错怎么写

维特比算法

最短路径

词性

云端梦想实现家

10月前

19阅读

用于大批量地址匹配的nlp模型

本文参考： 1. 2. 《算法导论》模式匹配：子串在主串中的定位设S为目标串（主串），P为模式串（子串），且不妨设：S="s0s1s2...sn-1" P="t0t1t2...tm-1"1. 暴力匹配算法串的匹配实际上是对合法位置0<=i<=n-m依次将目标串中的子串S[0…m-1]和模式串P[0…m-1]进行比较：若S[0…m-1]=P[0…m-1]，则称从位置i开始的匹配成功

用于大批量地址匹配的nlp模型

算法

字符匹配

i++

后缀

mob64ca1404ed65

10月前

13阅读

nlp 聚类实现demo

AP(affinity propagation)聚类算法引言AP(affinity propagation)聚类算法是用来解决什么问题的AP(affinity propagation)聚类算法具体是怎么实现的AP(affinity propagation)聚类算法的问题与改进AP(affinity propagation)聚类算法是用来解决什么问题的聚类(Clustering)是按照某个特定标准(

nlp 聚类实现demo

算法

机器学习

聚类

数据

编程梦想家

10月前

26阅读

AhoCorasickDoubleArrayTrie hannlp与DFA算法区别

敏感词算法的对比现在社区内敏感词算法大致实现有两种：DFA(Deterministic Finite Automaton 确定有穷自动机)算法和AC(Aho-Corasick自动机)算法，在掘金社区找到比较有代表性的两篇文章：《js实现敏感词过滤算法》和《开源了一个 JavaScript 版敏感词过滤库》二者代码我都看了一下，从我角度上来做一个简单对比(其中DFA算法是在原作者基础上的一些改动之后

sed

敏感词

浮点数

mob64ca1407216b

10月前

124阅读

nlp地址标准化根据不规则地址输出对应的省份和地级市

很多人在建模前看到一组变量，都会有这样的一个问题，这些变量需要标准化吗？然后转身问了下身边的同事、教授。哦！原来要做标准化的，接着把所有变量转化成平均数为0，标准差为1的变量，开开心心地开始建模了。多数人觉得标准化变量是建模的固定步骤，其实他们也不清楚标准化的作用到底是什么，他们认为做总是比没做好。那么标准化究竟解决了什么，如果不做的话，会产生怎么样的结果呢？今天我们一步一步的来详细

标准化算法

建模

最优解

标准差

mob64ca140e4022

10月前

34阅读

snowNLP算法设计

理解分布式ID生成算法SnowFlake：送给爱折腾的你分布式ID生成算法的有很多种，常用的有UUID、数据库自增ID、Redis等。今天为大家介绍Twitter的SnowFlake算法，雪花算法（SnowFlake）是Twitter公司内部分布式项目采用的ID生成算法，开源后广受国内大厂的好评，在该算法影响下各大公司相继开发出各具特色的分布式生成器。概述SnowFlake算法(简称雪花算法)生成

snowNLP算法设计

分布式计算

分布式存储

序列号

数据中心

技术领航探索者

10月前

51阅读

词嵌入bert

　　人工智能专栏打折中　　（此处已添加圈子卡片，请到今日头条客户端查看）词向量　　在nlp领域，我们需要使用一个向量来表示一个词语，常用的就是one-hot向量，但是这样的向量表示有一定的问题，这个问题就是具有相同意思的词语在向量上并不能体现出相似的感觉，我们需要的是对于这种词性相近的词，我们需要他们的向量表示也能够相近。　　如何训练？　　那么我们如何才能够训练出这样的词向量呢？我们可以训练一个R

词嵌入bert

人工智能

深度学习

自然语言处理

词向量

技术领航者之声

10月前

15阅读

flask框架聊天机器人数据

伴随着自然语言技术和机器学习技术的发展，越来越多的有意思的自然语言小项目呈现在大家的眼前，聊天机器人就是其中最典型的应用，今天小编就带领大家用不到20行代码，运用两种方式搭建属于自己的聊天机器人。01神器wxpy库首先，小编先向大家介绍一下本次运用到的python库，本次项目主要运用到的库有wxpy和chatterbot。wxpy是在 itchat库的基础上，通过大量接口优化，让模块变得简单易用

flask框架聊天机器人数据

python智能对话机器人

聊天机器人

图灵机器人

机器学习

mob64ca140e76c8

10月前

36阅读