热门 最新 精选 话题 上榜
# 实现 NLP 的通用指标 在自然语言处理(NLP)中,评估模型性能的通用指标至关重要。常见的指标有准确率、召回率、F1-score、BLEU、ROUGE 等。本文将带你一步步实现这些指标,并通过示例代码进行说明。 ## 流程概述 以下是实现 NLP 通用指标的一些基本步骤: | 步骤 | 描述 |
原创 10月前
192阅读
# NLP图数据抽取的开源框架 随着自然语言处理(NLP)技术的发展,图数据抽取越来越受到研究人员和开发者的关注。图数据抽取的目标是从非结构化文本中提取有用的信息,并将其组织成图形数据结构,以便进一步的分析和处理。本文将介绍一些流行的开源框架,这些框架能够有效地进行图数据抽取,并提供一个简单的代码示例以帮助理解。 ## 开源框架概述 在NLP图数据抽取的领域,常见的开源框架有: 1. **
原创 10月前
26阅读
# 教你实现NLP注意力模块 在自然语言处理 (NLP) 中,注意力机制是一个重要的概念,它允许模型在处理输入序列时动态关注不同部分。本文将引导你实现一个基本的注意力模块,帮助你理解其中的原理和步骤。 ## 整体流程 我们可以将实现注意力模块的流程分为以下几个步骤: | 步骤编号 | 步骤名称 | 描述
原创 10月前
46阅读
# 大数据与NLP:一场语言的旅行 在信息爆炸的时代,大数据无处不在,如何从这些数据中提取有价值的信息成为研究热点。自然语言处理(NLP)作为人工智能的重要分支,致力于让计算机理解人类语言。在这篇文章中,我们将探讨NLP在大数据环境中的应用,并通过代码示例来帮助大家更好地理解。 ## 大数据与NLP的关系 大数据技术可以处理海量数据,而NLP则提供了一种分析和理解这些数据的方式。二者结合,不
# 推荐算法和NLP算法之间的关系 在数据科学和机器学习的领域,推荐算法和自然语言处理(NLP)算法都承担着重要的角色。进入这两个领域的人可能会对它们的相似性和差异性感到困惑。在这里,我将帮助你理解它们的关系,以及如何实现一个简单的推荐算法。我们将通过分步演示,并有代码示例进行说明。 ## 流程步骤 首先,让我们概述一下实现推荐算法的基本流程。以下是一个简单的推荐系统的工作流程。 | 步骤
原创 10月前
88阅读
# 什么是 NLP Token? 在自然语言处理(NLP)领域,"Token" 是一个非常重要的概念。Token 可以理解为一个文本中的基本单位,它可以是一个单词、一个标点符号或其他特定字符。Tokenization(分词)则是将一段文本切分成这些基本单位的过程。这一过程是许多 NLP 应用的基础,比如文本分类、情感分析和机器翻译等。 ## Tokenization 的必要性 在机器学习和深
原创 10月前
90阅读
# 使用 SnowNLP 进行文本匹配的教程 在文本处理和自然语言处理的领域,文本匹配是一个常见的问题。大家可以通过使用轻量级的库,如 SnowNLP,来实现这项功能。本文将指导你如何使用 SnowNLP 来完成文本匹配的任务。 ## 一、整体流程 我们可以通过以下步骤来实现文本匹配: | 步骤 | 描述 | |
原创 10月前
27阅读
# 什么是 NLP 上游任务 自然语言处理(NLP,Natural Language Processing)是人工智能的一部分,旨在使计算机能够理解、分析和生成人类语言。在 NLP 领域,有许多任务可以分为上下游任务,其中“上游任务”指的是一些基础的、通常是无监督的任务,它们为更复杂的下游任务提供支持。本文将介绍 NLP 上游任务的概念,具体任务,以及相关的代码示例。 ## NLP 上游任务的
原创 10月前
55阅读
  随着科学技术的发展,中文信息处理技术已经深入到了社会生活的各个方面。所谓“中文信息处理”,指的是用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。  中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。
自然语言处理2——语言学基础 文章目录自然语言处理2——语言学基础词性与词法短语结构语义和语用 词性与词法词性分类:开放类(词汇类):名词、动词、形容词封闭类(功能类):介词、限定词等词法(构词过程):变形:对词根进行系统的修改,加前后缀来指明语法结构的不同,如:单复数、时态、数目派生:缺乏系统化,通常导致语法类别及含义的根本变化,如:wide widely复合:两个以上的词构成一个新词短语结构定
平滑方法:1. Add-1 smoothing2. Add-k smoothing设m=1/V,则有 从而每一项可以跟词汇表的大小相关3. Unigram prior smoothing将上式中的1/v换成unigram概率P(wi),则有:其是插值的一种变体,其将某种unigram概率加入到bigram的计算中。4. Good-Turing Smoothing大部分平滑算法比
本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。学习内容在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6
作者:禅与计算机程序设计艺术 《55. 基于文本分类和情感分析的自然语言处理技术及应用场景》引言55.1 背景介绍随着互联网的快速发展,自然语言处理(Natural Language Processing, NLP)技术在各领域取得了越来越广泛的应用,如智能客服、智能翻译、文本分类、信息抽取等。在工业4.0时代,NLP技术作为人工智能领域的核心技术之一,对于提升企业竞争力具有重要意义。55.2 文
   在语言理解中,词是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,计算机才能准确的进行短语划分、实体识别、概念抽取、文本摘要等基本的自然语言理解任务。   尽管,现在用jieba python库就能够比较方便的获得较好的分词结果,但是分词的基本原理和发展历史,是每一个NLP工作者都应该掌握的。 1分词简介?   词的概
自然语言处理学习自然语言处理是计算机科学领域与人工智能领域的中的一个重要方向。它研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及所有用计算机对自然语言进行的操作基于《python自然语言处理》一书的学习过程分享,我想更精简的提取出书中有用的东西,使其能快速上手使用。特此放到GitHub上不断更新。按照书中的顺序1. 语言处理的基础2. 结构化程序设计3. 语言处理的基本原理(标注
简介:回顾20世纪晚期--准确地说是1997年,OMG组织(Object management Group对象管理组织)发布了统一建模语言(Unified Modeling Language,UML)。UML的目标之一就是为开发团队提供标准通用的设计语言开发和构建计算机应用。UML的目标之一就是为开发团队提供标准通用的设计语言来开发和构建计算机应用。UML提供了一套IT专业人员期待多年的统一的标准
1 简介CLUE:A Chinese Language Understanding Evaluation Benchmark。中文语言理解测评基准英语有GLUE、SuperGLUE,各种预训练模型,如BERT,在其上进行评估;CLUE类比GLUE,应该是中文第一个大规模的语言评估基准。CLUE:(1)该评估基准覆盖了9种句子分类、机器阅读理解任务,不同的困难水平、不同的大小和形式;(2)提供了一个
们编写的源代码是人类语言,我们自己能够轻松理解;但是对于计算机硬件(CPU),源代码就是天书,根本无法执行,计算机只能识别某些特定的二进制指令,在程序真正运行之前必须将源代码转换成二进制指令。所谓的二进制指令,也就是机器码,是 CPU 能够识别的硬件层面的“代码”,简陋的硬件(比如古老的单片机)只能使用几十个指令,强大的硬件(PC 和智能手机)能使用成百上千个指令。然而,究竟在什么时候将源代码转换
HMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{公园散步,购物,清理房间}中的一种,我每天只能在twitter上看到她发的推“啊,我前天公园散步、昨天购物、今天清理房间了!”,那么我可以根据她发的推特推断东京这三天的天气。在这个例子里,显状态是活动,隐状态是天气。 2014年11月23日更新: 我已利用HMM角色
本文参考: 1. 2. 《算法导论》模式匹配:子串在主串中的定位设S为目标串(主串),P为模式串(子串),且不妨设:S="s0s1s2...sn-1" P="t0t1t2...tm-1"1. 暴力匹配算法串的匹配实际上是对合法位置0<=i<=n-m依次将目标串中的子串S[0…m-1]和模式串P[0…m-1]进行比较:若S[0…m-1]=P[0…m-1],则称从位置i开始的匹配成功
AP(affinity propagation)聚类算法引言AP(affinity propagation)聚类算法是用来解决什么问题的AP(affinity propagation)聚类算法具体是怎么实现的AP(affinity propagation)聚类算法的问题与改进AP(affinity propagation)聚类算法是用来解决什么问题的聚类(Clustering)是按照某个特定标准(
敏感词算法的对比现在社区内敏感词算法大致实现有两种:DFA(Deterministic Finite Automaton 确定有穷自动机)算法和AC(Aho-Corasick自动机)算法,在掘金社区找到比较有代表性的两篇文章:《js实现敏感词过滤算法》和《开源了一个 JavaScript 版敏感词过滤库》二者代码我都看了一下,从我角度上来做一个简单对比(其中DFA算法是在原作者基础上的一些改动之后
10月前
124阅读
很多人在建模前看到一组变量,都会有这样的一个问题,这些变量需要标准化吗?然后转身问了下身边的同事、教授。哦!原来要做标准化的,接着把所有变量转化成平均数为0,标准差为1的变量,开开心心地开始建模了。多数人觉得标准化变量是建模的固定步骤,其实他们也不清楚标准化的作用到底是什么,他们认为做总是比没做好。那么标准化究竟解决了什么,如果不做的话,会产生怎么样的结果呢?今天我们一步一步的来详细
理解分布式ID生成算法SnowFlake:送给爱折腾的你分布式ID生成算法的有很多种,常用的有UUID、数据库自增ID、Redis等。今天为大家介绍Twitter的SnowFlake算法,雪花算法(SnowFlake)是Twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。概述SnowFlake算法(简称雪花算法)生成
  人工智能专栏打折中  (此处已添加圈子卡片,请到今日头条客户端查看)词向量  在nlp领域,我们需要使用一个向量来表示一个词语,常用的就是one-hot向量,但是这样的向量表示有一定的问题,这个问题就是具有相同意思的词语在向量上并不能体现出相似的感觉,我们需要的是对于这种词性相近的词,我们需要他们的向量表示也能够相近。  如何训练?  那么我们如何才能够训练出这样的词向量呢?我们可以训练一个R
伴随着自然语言技术和机器学习技术的发展,越来越多的有意思的自然语言小项目呈现在大家的眼前,聊天机器人就是其中最典型的应用,今天小编就带领大家用不到20行代码,运用两种方式搭建属于自己的聊天机器人。01神器wxpy库首先,小编先向大家介绍一下本次运用到的python库,本次项目主要运用到的库有wxpy和chatterbot。wxpy是在 itchat库 的基础上,通过大量接口优化,让模块变得简单易用
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。