之前介绍的模型都是基于词向量的, 那么能不能换一个角度来表示语言。说英文的时候, 每个单词都是由音节构成的, 而人们听到了连续的音节就可以理解其中的含义, 而音节显然比词粒度更细。首先,来梳理下word-level存在的几个问题:需要系统需要极大的词汇量;如果遇到了不正式的拼写, 系统很难进行处理;做翻译问题时, 音译姓名比较难做到。为了解决这些问题, 一开始想到的是采用character级别的模
原创 2021-02-04 20:42:58
745阅读
x
原创 2022-10-19 17:17:45
169阅读
一只小狐狸带你解锁NLP/ML
转载 2023-07-25 20:02:14
242阅读
一、 实验目的深入理解汉语分词的基本概念。掌握并实现前向最大匹配算法、后向最大匹配算法和最少分词法。掌握分词的评价指标,学会计算正确率、召回率和F-测度值。二、 实验内容利用人民日报语料库或自己构建的语料库(30词以上)作为词典,任选五个句子,并基于正向最大匹配算法和最短路径法分别对这五个句子进行分词,并分别计算分词结果的正确率,召回率和F-测度值。输出句子,基于两种算法的分词结果和其对应的评价指
代码github 几个简单的NLP数据增强示例:random delete wordrandom delete charrandom delete symbolrandom swag wordrandom back translate by google (需要能访问谷歌)random synonym substitutionrandom back translate by youdao(免费,有
转载 2023-05-19 09:51:24
109阅读
开源NLP自然语言处理工具集锦现状首先看看目前常用的分词系统:NoNameFeature1BosonNLPhttp://bosonnlp.com/2IKAnalyzer3NLPIRhttp://ictclas.nlpir.org/4SCWShttp://www.xunsearch.com/scws/5结巴分词6盘古分词http://pangusegment.codeplex.com/7庖丁解牛ht
前言在聊NLP领域的语言模型的时候,我们究竟在聊什么?这就涉及nlp语言模型的定义。语言模型发展至今,其实可以简单的分为传统意义上的语言模型和现代的语言模型,传统语言模型主要是指利用统计学计算语料序列的概率分布,对于一个给定长度为m的序列,它可以为整个序列产生一个概率 P(w_1,w_2,…,w_m) 。其实就是想办法找到一个概率分布,它可以表示任意一个句子或序列出现的概率。现代的语言模型,则是指
一、常用到的第三发工具NLP常用基本工具 • jieba: • https://github.com/fxsjy/jieba • HanLP: • http://hanlp.com/ • https://github.com/hankcs/pyhanlp • snowNLP: • http://gi
源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com)一、字符串处理这里是一些自然语言中常用的python字符串操作,python内置无需安装1.1 strip函数:去掉首尾特定字符示例:text = " abcdef125s wr2258abcd " print("base", text) print("strip:", text.strip(
接触NLP也有好长一段时间了,但是对NLP限于知道,但是对整体没有一个很好的认识。特整理了一下思绪,总结记录下:一、NLP的定义   还是按照常规的逻辑来看下定义:NLP(Natural Languange Processing,自然语言处理),方法是应用计算机来处理,理解和应用人类语言,目的是达到人机之间进行交流。分成自然语言理解和自然语言生成两部分。引用一个表来概括下:二、
分词与NLP关系:分词是中文自然语言处理的基础,没有中文分词,我们对语言很难量化,进而很能运用数学的知识去解决问题。对于拉丁语系是不需要分词的。拉丁语系与亚系语言区别拉丁语言系不需要分词,因为他们的词语之间有空格分割,可以根据空格就可以把单词分开。比如英语、法语等。亚系语言中间没有空格,比如中文、韩文及日文等。因此需要 分词。什么是中文分词:中文分词(Chinese Word Segmentati
© 作者|任瑞阳机构|中国人民大学高瓴人工智能学院本文梳理并介绍了自然语言处理顶会EMNLP 2022(主会长文)中信息检索领域的12篇论文,速览信息检索领域最新的研究进展,重点关注一阶段检索(召回)阶段相关的研究工作。1、DuReader: A Large-scale Chinese Benchmark for Passage Retrieval from Web Search Engine作者
转载 2023-11-12 23:20:27
90阅读
编辑: ShuYini 校稿: ShuYini 时间: 2020-1-3引言    如何判定训练出来的模型好与坏呢?关键是要有一个比较好的模型评估方法,那么今天作者就给大家汇总一下自然语言生成(NLG)中经常见到的无监督自评估方法(BLEU、METEOR、ROUGE、CIDEr)(含评估代码)。BLEU评估法(机器翻译)    Bleu 全称为 Bilingual Evaluation Unde
翻译自官网手册:NLP From Scratch: Translation with a Sequence to Sequence Network and AttentionAuthor: Sean Robertson原文github代码 这是NLP从零开始三个教程的第三个。教程中编写了自己的类和函数预处理数据来完成NLP建模任务。希望完成本教程的学习后你可以通过后续的三个教程,继续学习使用tor
一、马尔可夫链马尔可夫链是满足马尔可夫性质的随机过程(马尔可夫性质是无记忆性)>>>>这一刻的时刻,受前一时刻的影响,不受更往前时刻状态的影响隐马尔可夫链>>>>隐藏状态序列二、隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model)是统计模型,处理的问题具有以下特征:问题基于序列,像时间序列或者状态序列问题中有两类数据,一类序列数据是
转载 2024-06-08 13:41:58
32阅读
探索NLP-China/nlp-lang:一款强大的自然语言处理工具项目简介NLP-China/nlp-lang 是一个开源的自然语言处理(NLP)库,专注于为中文文本提供高效、易用的处理工具。该项目旨在帮助开发者和研究人员更便捷地进行中文信息提取、文本分类、情感分析等各种NLP任务,极大地推动了中文自然语言处理技术的发展。技术分析模块化设计:nlp-lang采用了模块化的架构,使得各个功能组件可
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词、词性标注、文本分类、依存句法分析等功能。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分词工具探
摘要:总结一些经典的NLP面试题 ,会陆续更新。 如果有谬误,欢迎批评指正~ :)笔者明天就有一个面试,然而觉得自己还是一个NLP小白,所以今天加急整理一下知识点。Q为面试管 A为面试者 模拟面试word2vecQ: word2vec有两种经典的训练方式 A: skip-gram 和 CBOWQ: 介绍一下这两种训练方式 A: skip-gram:给定中心词预测上下文, (in, out)对形式为
作者 |  Thomas Delteil 翻译 | 孙稚昊2 深度学习的NLP工具 为什么最新的模型结果这么难以复现?为什么去年可以工作的代码和最新发布的深度学习框架不适配?为什么一个很直白的基线这么难以建立?在今天的世界中,这些都是自然语言处理(NLP)的研究员遇到的问题。 我们来看一个假想的博士学生。我们叫它亚历山大,他刚开始机械翻译(NMT)的研究。有一天
中文词法分析 THULAC:一个高效的中文词法分析工具包 包括中文分词、词性标注功能。已经提供C++、Java、Python版本。 中文文本分类 THUCTC: 一个高效的中文文本分类工具 提供高效的中文文本特征提取、分类训练和测试功能。 THUTag: 关键词抽取与社会标签推荐工具包 GitHub - YeDeming/THUTag:
转载 2024-01-25 06:10:47
55阅读
  • 1
  • 2
  • 3
  • 4
  • 5