自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理。书本上对于自然语言处理的定义或者是描述太多专业化。换一个通俗的说法,自然语言处理就是把我们人类的语言通过一些方式或者技术翻译成机器可以读懂的语言。人类的语言太多,计算机技术起源于外国,所以一直以来自然语言处理基本都是围
引言在实际开发中,经常会定义一些公共的组件,提供给各个项目团队使用。而在SpringBoot项目中,一般会将这些公共组件封装成SpringBoot的starter。如果想要自定义starter的话,就要先了解自动配置原理。1 自动配置原理1.1 什么是自动配置?遵循约定大于配置的原则,在boot程序启动后,起步依赖中的一些bean对象会自动注入到ios容器中。先引入一个例子:假设现在有一个自己写的
文章目录前言一、什么是deeplabv3+二、LabVIEW调用DeepLabv3+实现图像语义分割1、模型获取及转换2、LabVIEW 调用基于 Pascal VOC2012训练的deeplabv3+实现图像语义分割 (deeplabv3+_onnx.vi)3、LabVIEW Pascal VOC2012上的分割结果(deeplabv3+_onnx.vi)4、LabVIEW 调用基于 City
本篇分享的依然是关于hanlp分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果。为何会如此,不妨一起学习一下 gladosAI 的这篇文章。学习内容在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词向量里。但后者相对麻烦且目前样本量不大。我跟据词向量的作者[6
1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。官方安装配置说明:https://gradle.org/install/3、按本地elasticsear
前言自然数据处理里很重要的一环节就是中文分词,它指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。而中文分词算法大致分为基于词典规则与基于机器学习这两大派。什么是词在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。 根据 齐夫定律:一个单词的词频与它的词频排名成反比。 即二八原理,20%的词用于80%的场景中,所以词典分词还是可行的。切分算法常见的基于词典的分词
以前写的例子,都是基于用空格分割的单词,英文文本本身就是用空格分割,识别相对容易,但是中文之间是没有空格的,严格地说,中文没有可识别的分隔符,能够识别中文词汇来自于中文语法规则,计算机哪里会?所以必须基于一些词库来识别。所以很多大数据处理框架都提供了使用中文分词器的功能。这里我们是用一款叫做结巴分词器的工具,来对输入源的中文进行分词。一、添加结巴分词器的pom依赖库。<dependency&
Elasticsearch 实战项目中势必会用到中文分词,而中文分词器的选型包含但不限于如下开源分词器: 还有华为的未开源的:泊松分词器;阿里未开源的:达摩院定制的分词器。但,不论选择何种分词器,尤其选型开源分词器,到头来都会遇到:已有词库词典数据无法满足定制化项目需求的情况。那么,实战中如何解决词典扩展问题呢?本文给出实战思路。1 认知前提 1.1 分词器选型 本文验证使用的 IK 分词器,其他
转载 2024-01-26 10:29:32
73阅读
1. 分词(Word Cut)英文:单词组成句子,单词之间由空格隔开中文:字、词、句、段、篇词:有意义的字组合分词:将不同的词分隔开,将句子分解为词和标点符号英文分词:根据空格 中文分词:三类算法中文分词难点:歧义识别、未登录词 中文分词的好坏:歧义词识别和未登录词的识别准确率分词工具:Jieba,SnowNLP,NlPIR,LTP,NLTK。2. 词性标注(POS Tag)词性也称为词类或词汇
一、WhitespaceAnalyzer以空格作为切词标准,不对语汇单元进行其他规范化处理。很明显这个实用英文,单词之间用空格。package bond.lucene.analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.core.WhitespaceAnalyzer;
对于词典,直接加载文本会很慢,所以HanLP对于文本文件做了一些预处理,生成了后缀名为.txt.bin的二进制文件。 这些二进制文件相当于缓存,避免了每次加载去读取多个文件。 通过这种txt和bin结合的方式,HanLP一方面方便用户编辑查看词典,另一方面bin方便加载,这种方式可谓是兼二者之长,设计上堪称典范。打开hanlp的data目录data\dictionary\custom,删除所有的.
import java.io.BufferedReader; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Cal
之前总是在看前沿文章,真正落实到工业级任务还是需要实打实的硬核基础,我司选用了HANLP作为分词组件,在使用的过程中才感受到自己基础的薄弱,决定最近好好把分词的底层算法梳理一下。1. 简介NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,可以说既简单又复杂。说简单是因为分词的算法研究已经很成熟了,大部分的准确率都可以达到
# Java自定义分词的实现步骤 ## 1. 确定分词算法 在开始实现自定义分词之前,我们需要先确定使用的分词算法。常见的分词算法有基于规则的分词、基于统计的分词和基于机器学习的分词等。根据实际需求和场景选择适合的分词算法。 ## 2. 构建词典 分词的基本单位是词语,因此我们需要构建一个词典来存储词语和对应的词频等信息。词典可以使用HashMap等数据结构来实现,其中键表示词语,值表示词频。
原创 2023-11-17 04:35:21
91阅读
简述elasticsearch hanlp插件自定义分词配置,涉及停用词,专有名词
原创 精选 2024-06-18 17:30:50
260阅读
在使用 Java HanLP 进行自然语言处理时,自定义单词是一个常见的需求。HanLP 是一款优秀的自然语言处理工具,而在某些业务场景中,我们可能会遇到特定领域的单词,这些单词需要被识别。本文将深入探讨如何在 Java HanLP自定义单词,并详细记录这一过程。 ### 背景描述 在许多应用场景中,尤其是在行业特定的领域,自然语言处理模型的词汇可能无法满足需求。例如,在金融、医疗等专业领
原创 5月前
17阅读
HanLP用户自定义词典源码分析1. 官方文档及参考链接关于词典问题Issue,首先参考:FAQ自定义词典其实是基于规则的分词,它的用法参考这个issue如果有些数量词、字母词需要分词,可参考:P2P和C2C这种词没有分出来,希望加到主词库关于词性标注:可参考词性标注2. 源码解析分析 com.hankcs.demo包下的DemoCustomDictionary.java 基于自定义词典使用标准分
转载 2023-10-31 13:17:09
78阅读
# HanLP 自定义词典使用指南 ## 前言 在自然语言处理(NLP)中,分词是基础且重要的步骤之一。对于中文文本,准确的分词依赖于对特殊词汇的识别,如人名、地名、行业术语等。为此,HanLP作为一个优秀的中文NLP工具,允许用户通过自定义字典来提高分词精度。本文将详细介绍如何使用HanLP自定义字典,并提供代码示例和可视化关系图,以及使用饼状图对自定义字典的重要性进行分析。 ## Ha
原创 2024-08-06 06:30:31
186阅读
# 自定义 HanLP NER(命名实体识别)指南 HanLP 是一个优秀的自然语言处理库,具备强大的命名实体识别(NER)能力。如果你是一名刚入行的小白,想要自定义 HanLP 的 NER 模型,本篇文章将为你详细讲解这个流程,并配以示例代码。 ## 流程概述 下面是整个自定义 HanLP NER 的步骤。可以参考以下表格了解具体流程: | 步骤 | 描述
原创 2024-10-03 07:12:41
71阅读
# Spring Boot整合HanLP自定义 --- ## 导言 在开发过程中,我们经常需要使用一些自然语言处理(NLP)工具来进行文本分析、情感分析等任务。HanLP是一款非常优秀的中文NLP工具库,它提供了丰富的功能和易于使用的API,可以方便地进行中文文本处理。 在本文中,我们将探讨如何在Spring Boot项目中使用HanLP,并自定义一些功能来满足具体的需求。 ## 整体流程
原创 2023-09-17 16:45:20
380阅读
  • 1
  • 2
  • 3
  • 4
  • 5