目录前言1. \__init\__()2. encode()2. decode()3. linear projection4. 代码地址 前言 这篇博客是对transformer源码的解析,这个源码并非官方的,但是比官方代码更容易理解。 采用TensorFlow框架,下面的解析过程只针对模型构建过程,其训练/测试等其他代码忽略。 解读顺序按照model.py中函数顺序解读。 文末会
转载
2023-08-21 23:59:21
103阅读
一些实用的NLP开源项目1. 综合型开源工具(1)Natural Language Toolkit (NLTK)
NLTK是用于构建Python程序以处理人类语言数据的领先平台。它为超过50个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库,用于工业强度NLP库的包装器,以及一个活跃的讨论论坛。由于介绍了编程基础知识
转载
2023-05-26 01:53:35
608阅读
大家好,我是对白。在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。NLP库以下是顶级库的列表,排序方式是在GitHub上的星数倒序。 1. Hugging Face Transformers57.1k
转载
2024-02-27 12:51:21
81阅读
1.funNLP地址: https://github.com/fighting41love/funNLP涉及内容包括: 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、手机号抽取、名字推断性别、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库
转载
2023-12-28 14:28:31
100阅读
一、豆瓣多轮对话数据集1、简介:测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大多数标签被视为最终决定。2、数据格式:标签 \t 对话话语(由 \t 分割)\t 响应3、下载https://github.com/MarkWuNLP/MultiTurnResponseSelection二、KdC
转载
2023-09-11 16:49:13
599阅读
1、背景 随着 BERT、Megatron、GPT-3 等预训练模型在 NLP 领域获得前瞻的成果,许多多团队也进入超大规模训练中,使得训练模型从亿级别发展到了千亿甚至万亿的规模。首先,模型参数量过大使得训练和推理速度过慢且部署成本极高;其次在很多实际场景中数据量不足的问题仍然制约着大模型在小样本场景中的
转载
2024-01-02 22:10:04
111阅读
整理 | AI 科技大本营(ID:rgznai100)自然语言处理(NLP)被誉为 AI 皇冠上的明珠,传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用。预训练语言模型是 NLP 领域的研究热点之一,“预训练+精调”已成为NLP任务的新范式,当前预训练语言模型正在改变局面,有望让语言 AI 走向入可规模化复制的工业时代。今日,阿里巴巴达摩院正式开源预训练语言模型体系 Alice
转载
2023-07-26 14:09:51
244阅读
前言随着BERT、ERNIE、XLNet等预训练模型的流行,解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。众所周知,无论训练还是推理,预训练模型都会消耗大量的算力,且高度依赖GPU计算资源。然而,有很多的NLP问题实际上仅仅靠字典+规则就可以做到够用,那么这时候强行上笨重的模型无异于高射炮打蚊子,性价比是非常低的。于是小夕就从一个比较疯狂的github repo里为大
转载
2023-12-06 23:41:09
261阅读
Apache OpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注、固有实体提取(指在句子中辨认出专有名词,例如:人名)、浅层分析(句字分块)、语法分析及指代。http://opennlp.apache.org/index.html FudanNLP主要是为中文自然语言处理而开发的工具包,也包含
转载
2023-05-28 15:18:18
199阅读
《PHP如何调用百度AI开放平台中NLP语言处理基础技术的“依存句法分析”等接口?》要点:本文介绍了PHP如何调用百度AI开放平台中NLP语言处理基础技术的“依存句法分析”等接口?,希望对您有用。如果有疑问,可以联系我们。相关主题:PHP开发在百度AI开放平台中,PHP如何调用NLP语言处理基础技术等接口?有两种模式:一种是使用百度的SDK,参http://ai.baidu.com/docs#/N
转载
2024-08-07 11:51:02
33阅读
词向量SDK【中文】词向量/词嵌入(Word embedding)是自然语言处理(NLP)中语言模型与表征学习技术的统称。 概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中, 每个单词或词组被映射为实数域上的向量。词向量SDK功能:词向量提取相似度计算:余弦相似度内积SDK包含9个模型数据:WordEncoderExample1 (w2v_wiki_dim3
转载
2024-01-17 09:03:54
24阅读
开源自然语言处理(NLP)工具包的出现推动了研究人类语言的计算方法的快速发展。然而现有的NLP工具包,例如CoreNLP 、Flair、spaCy 和UDPipe等本身都存在一些缺陷:首先,现有工具包通常仅支持几种主要语言。这极大地限制了处理多语言文本的能力;其次,广泛使用的工具有时会针对准确性进行优化,可能会误导下游应用程序;第三,他们有时会假设输入文本已使用其他工具进行了标记或注释,但缺乏使用
转载
2023-10-31 10:36:39
186阅读
接触NLP也有好长一段时间了,但是对NLP限于知道,但是对整体没有一个很好的认识。特整理了一下思绪,总结记录下:一、NLP的定义 还是按照常规的逻辑来看下定义:NLP(Natural Languange Processing,自然语言处理),方法是应用计算机来处理,理解和应用人类语言,目的是达到人机之间进行交流。分成自然语言理解和自然语言生成两部分。引用一个表来概括下:二、
转载
2023-08-21 10:26:12
96阅读
# 如何在 Java 中实现开源 NLP
Natural Language Processing (NLP) 是计算机科学、人工智能和语言学的交叉学科,它使计算机能够理解、解释和生成人类语言。在 Java 中实现开源 NLP,可以使用各种库和工具。本篇文章将指导你如何完整地搭建一个简单的 NLP 项目。
## 流程概述
下面是实现开源 NLP 项目的基本流程:
| 步骤 | 描述
# NLP开源技术科普
自然语言处理(Natural Language Processing,NLP)是计算机科学、人工智能和语言学交叉的一个领域,旨在使计算机能够理解、解析和生成人类语言。近年来,NLP的快速发展推动了众多开源技术的涌现,辅助开发者和研究人员在各种应用场景中提升人机交互的效率。
## 1. 开源NLP库概述
在开源社区,多个优秀的NLP库应运而生,其中最为知名的包括:
-
### 如何使用NLP开源模型
#### 1. 整体流程
| 步骤 | 描述 |
| --- | --- |
| 1 | 确定需求 |
| 2 | 选择合适的NLP开源模型 |
| 3 | 下载和安装模型 |
| 4 | 准备数据 |
| 5 | 运行模型 |
| 6 | 分析结果 |
| 7 | 调优和优化 |
#### 2. 每一步的具体操作和代码
##### 步骤 1:确定需求
在
原创
2023-08-10 13:43:53
116阅读
百度首创地提出了语言与视觉一体的预训练方法 UNIMO,提供了一种新的统一模态学习范式,打破了文本、图像和图文对等数据间的边界,让机器可以像人一样利用大规模异构模态数据,学习语言知识与视觉知识并相互增强,从而实现感知与认知一体的通用 AI 能力。百度在 2021 年深度学习开发者峰会 WAVE SUMMIT 上开源了语言与视觉一体的预训练模型 ERNIE-UNIMO,其核心方法 UNIMO 已经被
本文主要会阅读bert源码(https://github.com/google-research/bert )中的create_pretraining_data.py文件,已完成modeling.py、optimization.py、run_pretraining.py、tokenization.py文件的源码阅读,后续会陆续阅读bert的特征抽取、下游任务训练等源码。本文大体以深度
1.IKAnalyzerIK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始,IK Analyzer已经推出了多个版本,当前最新版本为2012 u6,最初基于Luence,从3.0开始成为面向Java的公用分词组件,独立于Luence,下载地址为:http://code.google.com/p/ik-analyzer/。IK支持细粒
转载
2024-01-08 21:35:37
75阅读
在 上一篇 里,我们对基于 NLP 技术构建的服务做了整体性的构建。我们看到 NLP 的实战决不仅仅是单纯的算法或模型问题,立足于算法/模型,但整体性的工程构建工作也需要持续更新,同时模型和算法相关的实际开发也不仅仅是某个单一模型或者某个超大预训练模型就能解决问题,更多地,我们总是需要系统的解决方案。微服务上一篇我们讨论了项目的统一命令行设计和项目目录结构的整体设计。实际上这是两个自底向上的基建工