NLP博客_原创博文第53页

nLp 地名识别

01、卫星影像(卫星地图)是什么?专业术语解释:卫星影像是遥感卫星在太空中，探测地球地表物体对电磁波的反射、及其发射的电磁波，从而提取该物体信息，完成远距离识别物体。将这些电磁波转换、识别得到可视图像，即为卫星影像，俗称“卫图(卫星地图)”。通俗简单解释:就是卫星在空中给地面拍的照片。地面长什么样，它就拍出什么样。如Google Earth(谷歌地球）是我们能用到的卫星影像最丰富的电脑软件，对绝大

nLp 地名识别

卫星地图

数据

离线

技术领航员

5月前

3阅读

怎么把语言模型文件封装成单个文件

前一段时间，看到有一个SR资源制作工具出来，不过这个工具有一个限制就是导入资源文件要注册。仿照这个工具制作了一个类似的程序，此程序生成标准的resx文件，生成的文件在VS中，可以直接进行编辑，同时在VS编辑后的文件，也可以导入到程序中，方便在VS和此工具程序中的同步修改，本来是想制作一个VS插件的，但是对插件编写不是很了解，就做成一个工具算了。工具下载 &n

资源文件

程序生成

图片资源

jacksky

5月前

5阅读

地址识别 nlp 开源

长期以来用户一直需要从各地访问重要资源，例如虚拟专用网络（VPN），Web应用程序和邮件服务器。尽管从任何地方访问资源对于员工来说都是必不可少的，但攻击者经常利用被盗取的凭证来访问系统和数据。对于大量的远程访问连接，很难区分合法登录和恶意登录。今天，我们发布GeoLogonalyzer，帮助企业分析日志，根据地理位置识别恶意登录;例如，在13:00从纽约连接到VPN的用户不太可能在5分钟后合法地从

地址识别 nlp 开源

python

数据库

运维

IP

coolfengsy

5月前

5阅读

BERT机器翻译实战

机器翻译（MT）是一项极具挑战性的任务，其研究如何使用计算机将文本或是语音从一种语言翻译成另一种语言。本文借助 Keras 从最基本的文本加载与数据预处理开始，并讨论了在循环神经网络与编码器解码器框架下如何才能构建一个可接受的神经翻译系统，本教程所有的代码已在 GitHub 开源。传统意义上来说，机器翻译一般使用高度复杂的语言知识开发出的大型统计模型，但是近来很多研究使用深度模型直接

BERT机器翻译实战

人工智能

python

移动开发

git

数据探索家

5月前

42阅读

snownlp 摘要

snownlp 是一个用 Python 编写的中文文本处理库，特别适合进行自然语言处理任务，比如摘要生成。不过，在使用 snownlp 进行摘要生成时，我们也可能遇到一些问题。为此，我整理了一些解决此类问题的实用步骤和方法，这里分享一下。 ### 环境配置为确保 snownlp 正常工作，我们需要安装正确版本的依赖库。下面是我们需要的依赖版本表： | 依赖包 | 版本

基准测试

调优

2d

原创

mob64ca12f3bbc7

5月前

2阅读

语音识别训练数据质量要求

最近在看Speech Representation预训练相关的论文，NLP的Bert模型大杀四方后，语音领域也开始涌现一些优秀的预训练模型，比如：Mockingjay，Wav2Vec，PASE，DeCoAR系列。《Probing acoustic representations for phonetic properties》对比了4种预训练语音表征模型的效果，包括mockingjay，wav2v

语音识别训练数据质量要求

sed

卷积

Self

bingfeng

5月前

13阅读

孤立词语音识别系统

（1）采用动态规划（Dynamic Programming）的方法。这是一种运算量较大，但技术上较简单，正识率也较高的方法。其中的失真测度可以用欧氏距离(适于短时谱或倒谱参数)，也可以用对数似然比距离(适于LPC参数)．决策方法可用最近邻域准则．（2）采用矢量量化（Vector　Quantization）的方法．它既可用于语音通信中的波形或参数的压缩，也可用于语音识别．尤

孤立词语音识别系统

人工智能

python

c/c++

语音识别

jimoshalengzhou

5月前

12阅读

edge浏览器打开jnlp

在现代网络环境下，JNLP（Java Network Launch Protocol）文件用于启动 Java 应用程序，而 Edge 浏览器并不直接支持此类文件。用户在尝试通过 Edge 打开 JNLP 文件时，通常面临无法启动程序的局面。这种情况引发了关于浏览器技术的广泛讨论，尤其在如何实现与传统 Java 应用程序的兼容性方面。 ### 背景定位随着互联网的发展，Java 技术在构建跨平

Java

Web

应用程序

原创

mob64ca12e98e58

5月前

38阅读

hanlp java 使用

在这篇博文中，我将与大家共同探讨如何在 Java 项目中使用 HanLP 进行中文自然语言处理。HanLP 是一个强大的 NLP 库，可以有效地处理许多中文处理任务。借助这个工具，我们能够轻松实现分词、词性标注、命名实体识别等功能。接下来，我将从多个方面进行阐述，包括背景描述、技术原理、架构解析、源码分析、性能优化以及应用场景。 ## 背景描述在中文处理的领域，HanLP 在社区中的地位举足

词性标注

自然语言处理

性能优化

原创

mob649e8168b406

5月前

91阅读

paddlenlp二分类

对于新建的模型，如何评价其好坏，以及自身的泛化能力，是机器学习中一个关键性问题。对于二分类模型，因原始数据可能是非平衡的，因此仅通过最后的预测准确率并不能评价模型的效果，对于机器学习中的分类与回归两大类模型，需采用不同的模型评价指标。一､分类模型 1．混淆矩阵、P-R曲线及F1分数混淆矩阵（confusion matrix

paddlenlp二分类

正例

拟合

反例

风华正茂的AI

5月前

27阅读

nlp 地址 ncr

主要记录一下Transformer中的Position Encoding，一些理解来自下面大佬的回答。这里https://www.zhihu.com/question/347678607/answer/864217252Transformer中的Position Encodeing：思考：首先一点，模型中引入位置信息是有必要的，在NLP领域，词序乃至句序稍微的发生改变，整个含义就会发生改变，这种改

nlp 地址 ncr

自然语言处理

三角函数

代码实现

归一化

JAVA小侠影

5月前

13阅读

paddlenlp 代码安装

在这篇博文中，我们将详细讨论如何解决“paddlenlp 代码安装”相关的问题，这对于想要在自然语言处理任务中使用 PaddleNLP 的开发者来说至关重要。本文结构清晰，涵盖了环境准备、分步指南、配置详解、验证测试、优化技巧和排错指南等多个方面，确保您可以高效安装和配置 PaddleNLP。 ## 环境准备在安装 PaddleNLP 之前，需要确保系统环境符合要求。这包括 Python 版

User

ci

paddle

原创

mob64ca12d2a342

5月前

20阅读

paddlenlp筛选身份证号

针对“paddlenlp筛选身份证号”的问题，我在此记录下我的解决过程，以便后续参考。在数据处理及自然语言处理（NLP）领域，身份证信息的筛选是一个常见需求。这项技术不仅对个人信息的处理至关重要，也对数据合规性、用户体验提升和信息安全有显著影响。假设我们的应用中有10w条用户信息需要进行身份证号码的筛选和验证，目标是从这10w条记录中检测出有效的身份证号码。为了更好地理解这一过程，让我们设

System

paddle

错误信息

原创

mob64ca12f09e0c

5月前

17阅读

Transformer在大语言模型中的应用特点

论文：Neural Speech Synthesis with Transformer Network摘要：1.在训练和推理过程的低效率，2. 难以使用当前的递归神经网络（RNN）对长期依赖性进行建模。于是引用transformer中的多头注意力机制代替RNN,Transformer的语音合成模型比tacotron2快4.25倍，而在评分上只与tacotron2相差0.048引言： &

机器学习

语音合成

Transformer

依赖关系

神经网络

网络安全守护神

5月前

58阅读

360加载jnlp

360加载jnlp的过程中，用户可能会遇到一些加载异常和错误提示，造成无法正常使用某些依赖Java Web Start的功能。从业务的角度来看，这可能导致用户无法访问必要的应用程序，从而影响业务的持续进行。在本文中，我们将深入探讨这一问题，包括其背景，错误现象，根因分析，解决方案，验证测试以及预防优化等方面。 ### 问题背景随着互联网的发展，Java Web Start技术被广泛用于分发和

加载

Java

java

原创

mob64ca12f463e6

5月前

14阅读

CoreNLP 实体识别

CoreNLP 实体识别是一个强大的自然语言处理工具，广泛应用于信息提取、文本分析和理解用户意图等场景。在现代信息社会中，如何高效地从海量文本中提取出关键实体（如人名、地点名和机构名）成为了企业和研究者关注的焦点。在这篇博文中，我们将深入探讨如何解决 CoreNLP 实体识别问题的过程，从背景定位到故障复盘，逐步分析各个环节的技术细节，以便为读者提供一个完整的解决方案。 ### 背景定位在商

架构设计

ci

Database

原创

mob649e815c3b9e

5月前

21阅读

hanlp jiava 训练

在处理“hanlp jiava 训练”相关任务时，确保有良好的备份和恢复策略是至关重要的，这不仅能保护模型数据，还能确保训练过程中的技术细节不会丢失。以下是经过复盘记录的一系列解决方案，包括备份策略、恢复流程、灾难场景处理、工具链集成、日志分析及预防措施。 ### 备份策略为了有效地备份“hanlp jiava 训练”的数据和模型，我们制定了如下策略：支持周度和月度的定期备份，通过甘特图

bash

工具链

日志分析

原创

mob64ca12d9e536

5月前

3阅读

hanlp文本分类语料库格式

在感谢复旦语料库整理人员辛勤劳动的同时，也要指出其工作上的瑕疵。采用了gbk编码而不是UTF-8，这导致大多Linux用户不能直接使用。语料库包含训练集和测试集，分别包含9000多个文档，却分别有近1500个文档是重复的。训练集和测试集中的C35-Law中的部分文件是已经经过分词处理了的（分词结果很差），且部分又不是采用的GBK编码（这给编码转换工作带来麻烦）。有些文章只有文章头部，而没有实际的内

hanlp文本分类语料库格式

java

换行符

写入文件

mob64ca140761a4

5月前

22阅读

ASR与TTS 大语言模型

***** 语音交互过程：声音采集(sensor)、前端信号处理(FESP)、语音唤醒(wake up)、语音识别(ASR)、语义理解(NLU)、智能对话/对话管理(DM)、资源调用(API)、回复内容生成/自然语言生成(NLG)、动作执行(action)、合成音播报(TTS) 项目依赖的资源和能力说明对应语音技术声音采集基于硬件支持或使用环境的依赖则需要硬件支持声音信号的采集、处理、

ASR与TTS 大语言模型

语音识别

人工智能

使用场景

离线

mob64ca14082604

5月前

338阅读

HANLP的句子词性包含哪些

前言：什么是词性和句子成分呢？我们在上学的时候肯定听语文和英语老师讲过动词、名词、形容词....，主语、谓语、宾语、宾语补足语...这些字眼。此时不论您的性别，我假设读者您是一位先生，你是别的儿子、是别人的男同学、是别人的男朋友、是别的丈夫、是别人的父亲、是别人的爷爷。如果把您本人比作1个单词，男性就是你的的词性，儿子、男朋友.....以上提到的种种角色就是你在特定场景下，可以充当的不同句子成分

HANLP的句子词性包含哪些

ci

词性

sed

云端筑梦者

5月前

9阅读

信息检索查询系统设计

智能信息检索课程设计这是一个课程设计，具体的课设要求如下：根据自己从网上下载的任意文档集，采用python程序设计语言，进行分词，再去掉停用词和标点符号等，生成文档的词典，接着根据词典和文档内容生成词项的倒排记录表（含位置信息），然后根据搜索关键字（多个词项），对文档集进行短语查询，符合检索条件的文档计算余弦相似度，按从大到小的顺序显示，然后进行查询扩展。1.读取文档数据选用的文档，是那种一小段就

信息检索查询系统设计

课程设计

python

java

余弦相似度

AI大梦想家

5月前

3阅读

nlp 段落

TextCNNTextCNN模型的结构比较简单，由输入表征 --> 卷积层 --> 最大池化 --> 全连接层 --> 输出softmax组成我们从某电商网站中拿到了50000条评论数据，这些数据中好评和差评数据各占25000条，其中的一条好评数据是“质量好，做工也不错，而且尺码标准。”。拿到这些数据后，我们进行的第一步处理是数据预处理过程，即对这50000条数据中的每一条

nlp 段落

自然语言处理

深度学习

人工智能

词向量

智能探索者

5月前

14阅读

用LSTM实现机器翻译

循环神经网络（RNN）我们每时每刻的思想，我们的语言并不是片面孤立的，也就是我们此刻的想法其实是跟前面的有联系，我们句子里面的当前的词语实际上是与前面出现过的词是保持着联系的。举个最通俗的例子，我们都做过英语的完形填空，知道第三人称单数的名字后面的动词要加‘s’，这就是一个语境的问题，动词的形式跟前面的有关。循环神经网络就是这样一个用途：它把“读”过的文字记下来，比如它读到了“Peter”

用LSTM实现机器翻译

lstm原文

权重

神经网络

循环神经网络

mob64ca13feda16

5月前

14阅读

ollama 词嵌入

5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~吴恩达老师课程原地址2.1词汇表征 Word representation原先都是使用词汇表来表示词汇，并且使用1-hot编码的方式来表示词汇表中的词汇。这种表示方法最大的缺点是它把每个词孤立起来，这样使得算法对相关词的泛化能力不强例如：对于已知句子“I want a glass of orange ___ ” 很可能猜出下一个词是"juic

ollama 词嵌入

word embedding

deeplearningAI

词嵌入

Apple

jacksky

5月前

27阅读

多尺度特征融合可以应用到nlp任务上吗

1.定义2.常用架构2.1多尺度输入网络2.2 多尺度特征融合网络(1) 并行多分支结构(2) 串行多分支结构2.3 多尺度特征预测融合2.4 多尺度特征和预测融合3.具体方法3.1 SNIP3.2 SNIPER（SNIP的改进）3.3 SSD3.4 TridentNet（三叉戟网络）3.5 FPN3.6 PANet3.7 其他ThunderNetLibra R-CNN1.定

多尺度特征融合可以应用到nlp任务上吗

计算机视觉

卷积

ide

目标检测

mob64ca14157da7

5月前

12阅读

dify 问答系统的语料输入

目录Emotional First Aid Dataset数据集介绍数据示例话题标签S1 烦恼类型S2 心理疾病S3 SOS聊天标签安装使用Python其它语言 Emotional First Aid Dataset心理咨询问答语料库，仅限研究用途。https://github.com/chatopera/efaqa-corpus-zh数据集介绍心理咨询问答语料库（以下也称为“数据集”，“语料库

dify 问答系统的语料输入

语料库

数据集

自然语言理解

心理咨询

Aceryt

5月前

106阅读

allennlp 精确率

1.什么是分类准确率?评价分类器性能的指标一般是分类准确率（Accuracy），其定义是：对于给定的测试数据集，分类器正确分类的样本数和总样本数之比。对于二分类问题常见的评价指标是精确率（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，四种情况出现的总数分别记作： TP ——将正类预测为正类数（True Positi

allennlp 精确率

机器学习

准确率

精确度

召回率

archangle

5月前

11阅读

NLP Agent开发

！个体间的相似程度一般用余弦相似度个体间的相似程度一般用余弦相似度表示cosA=a·b/|a|·|b|得到了文本相似度计算的处理流程是:– 找出两篇文章的关键词；– 每篇文章各取出若干个关键词，合并成一个集合，计算每篇文章对于这个集合中的词的词频– 生成两篇文章各自的词频向量；– 计算两个向量的余弦相似度，值越大就表示越相似。词频——TF（Term Frequency）• ：一个词在文章中出

NLP Agent开发

大数据

面试

学习

词频

mob64ca13f8b166

5月前

10阅读

NLP思维逻辑

文章目录前言第一课论文导读BLEU介绍BLEU实例BLEU改进机器翻译简介机器翻译相关方法前期知识储备第二课论文精读论文整体框架传统/经典算法模型1.Encoder-Decoder(见导读)2.基于attention的机器翻译本文模型Tricks应用实验和结果数据集实验结果讨论和总结讨论总结（主要创新点）参考论文代码复现代码结构数据集数据处理模型构建训练和测试作业前言本课程来自深度之眼de

NLP思维逻辑

机器翻译

数据集

神经网络

mob64ca140c3859

5月前

34阅读

微信语音识别接口文档

QQ和微信这两款都是非常受人喜欢的聊天交友软件！可能大家平时没有留意到，也或者是大家可能很少用微信，或者很少用QQ吧！所以可能没有留意这些小细节！就是QQ上面发的语音消息是可以直接文字识别的，但是微信为什么没有呢？是因为技术太难实现吗？这个很简单啊！今天给大家介绍一下语音转文字的原理！想要获得更多python学习资料私信回复“002”获取截图是没发现微信的语音识别在哪里！可能是小编微信玩少了吧，一

微信语音识别接口文档

python

微信

语音识别

pycharm

云端行者

5月前

18阅读