热门 最新 精选 话题 上榜
Task08 word2vec;词嵌入进阶;文本分类 学习笔记word2vec词嵌入基础 我们在“循环神经网络的从零开始实现”一节中使用 one-hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one-hot 词向量无法准确表达不同词之间的相似度,如我们常常使用的余弦相似度。Word2Vec 词嵌入工具的提出正是为了解决上面这个问题,它将每个词表示成一个定长
1.工具1.1 Jiagu 自然语言处理工具 Jiagu使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现、情感分析、文本聚类等常用自然语言处理功能。Jiagu 详细内容参考:https://github.com/ownthink/Jiagu1.2 Neo4jubuntu 安装 neo4j安装服务端wget -O - http
试题说明 基于THUCNews数据集的文本分类, THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,参赛者需要根据新闻标题的内容用算法来判断该新闻属于哪一类别。 数据说明 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新
在前两篇文章里,我们已经介绍了如何在本地运行Ollama以及如何通过提供外部数据库的方式微调模型的答案。本篇文章将继续探索如何使用“函数调用(function-calling)”功能以扩展模型能力,使其在“智能”的道路上越走越远。function-calling介绍根据OpenAI官方文档,function-calling是使得大型语言模型具备可以连接到外部工具的能力。简而言之,开发者事先给模型提
写在前面 文本分类是自然语言处理(NLP)领域中较为基础的问题,情感分类、QA问答、自然语言推理、阅读理解等任务都可以看作是文本分类。在这些文本分类任务中,只要有一定量的标注数据,常见的算法能够达到很好的效果,这使得文本分类不是什么难题。近年来,随着基于深度学习的语言模型不断迭代,在同等标注数据量的情况下,一些模型也总是优于另一些模型。下面我们一起来看一下论文《Deep Learning Base
DeepSeek-AI 开源的 FlashMLA 是一个优化多层注意力机制的解码内核,显著提升大语言模型的长序列处理和推理效率。 本文介绍了如何在 PAI 平台上安装并使用 FlashMLA 部署 DeepSeek-V2-Lite-Chat 模型。
背景介绍360浏览器有两种类型,即"360安全浏览器"和"360极速浏览器"。360极速浏览器有两种内核模式,即"极速模式"和"兼容模式"。注意:浏览器对IP默认使用IE模式,对域名默认使用极速模式极速模式     “极速模式”是以Blink(Webkit)为内核的浏览模式,Blink内核具有更高的网页浏览速度和更好网页渲染效果。但由于少部分网银、政府、税务、办公系统等网
为解决大语言模型在资源有限环境下的高计算成本和复杂性问题,阿里云推出了基于 Qwen2.5 的轻量化模型系列 DistilQwen2.5。该模型通过双层蒸馏框架、数据优化策略及参数融合技术,在保留性能的同时显著降低计算资源消耗。
你管这叫操作系统源码之八如果让你来设计进程调度整体流程设计上下文环境运行时间信息优先级进程状态从一次定时器滴答来看进程调度定时器进程小结 如果让你来设计进程调度本篇本应讲fork,但这个是创建新进程的过程,是一个很能体现操作系统设计的地方,所以我们先别急着看代码,就先头脑风暴下,如果让你来设计整个进程调度,你会怎么搞?别告诉我你先设计锁、设计 volatile 啥的,这都不是进程调度本身需要关心
第一章:先驱破冰·基础奠定第一节:神经符篆·智能之源公元1943年,芝加哥大学密室战火纷飞的年代,麦卡洛克与皮茨两位奇才在芝加哥大学的一间昏暗实验室里埋首苦研。窗外是第二次世界大战的隆隆炮声,而他们却在构筑一种全新的智慧形式。"沃伦,你看这个连接方式,是否更接近人类神经元的工作原理?"皮茨指着黑板上密密麻麻的公式问道。麦卡洛克揉了揉疲惫的双眼,突然灵光一闪:"如果我们将这些节点按照'与或非'逻辑排
本文涉及的jupter notebook在篇章4代码库中。建议直接使用google colab notebook打开本教程,可以快速下载相关数据集和模型。 如果您正在google的colab中打开这个notebook,您可能需要安装Transformers和?Datasets库。将以下命令取消注释即可安装。# ! pip install datasets transformers # -i ht
# 国内NLP实验室排名及其相关技术科普 在自然语言处理(Natural Language Processing, NLP)领域,国内越来越多的实验室涌现出来,推动了这一领域的快速发展。本文将介绍当前一些知名的国内NLP实验室,并通过示例代码和可视化内容来展示NLP的基本应用。 ## 国内NLP实验室排名 根据2023年的评估,以下是一些在NLP领域内具有显著影响力的国内实验室。这些实验室在
一、标题  标题要求:1.阐述具体、用语简介,一般不超过20个字。2.文题相称、确切鲜明,标题体现内容,内容说明标题。3.重点突出、主题明确,突出论文主题,高度概括 ,一目了然。不足以概括论文内容时,可加副标题。 SCI/SSCI翻译润色、论文期刊发表咨询与指导   二、摘要  1摘要内容和格式 一般格式:(1)目的(objective):说明论文要解决的问题及其起源、由来。 (2)方法
# 吴老师家的NLP专项:深入自然语言处理的世界 自然语言处理(NLP)是计算机科学和人工智能领域的重要分支,旨在让计算机理解、解析和生成人类语言。吴老师家的NLP专项,致力于探索NLP的应用与技术,帮助学生们掌握这一热门领域。本文将介绍NLP的基本概念、应用实例以及一些简单的代码示例,以便读者更好地理解这一技术。 ## 什么是自然语言处理? 自然语言处理包含多个技术领域,其中主要包括:
# 中文NLP地址要素解析比赛指南 在现代自然语言处理(NLP)领域,地址要素解析是一个重要的任务。它指的是从中文地址中提取出省、市、区、街道、门牌号等要素。对于初入门的小白,这看起来可能既复杂又困难,但只要我们理清思路,并一步步执行,就能轻松实现。 ## 流程概述 解决问题的过程可以分为以下几个步骤: | 步骤 | 描述 | |------|------| | 1. 数据收集 | 收集含
原创 8月前
160阅读
# 使用 PaddleNLP 实现主题建模 主题建模是一种自然语言处理技术,能够帮助我们从文本中提取出潜在的主题信息。PaddleNLP 是一个强大的工具,它在文本处理和模型训练方面提供了许多功能。在这篇文章中,我将带你一步一步实现 PaddleNLP 主题建模。我们将通过一系列步骤和必要的代码示例来理解整个过程。 ## 步骤概览 为了实现主题建模,首先我们需要完成以下步骤: | 步骤 |
原创 8月前
34阅读
# PaddleNLP 下载教程 在自然语言处理(NLP)的快速发展的今天,PaddleNLP作为一个高效且易于使用的自然语言处理框架,越来越受到研究者和开发者的青睐。本文将详细介绍如何下载和安装PaddleNLP,并给出示例代码以帮助您快速入门。 ## 什么是PaddleNLP? PaddleNLP是由百度推出的一个基于PaddlePaddle的自然语言处理框架。它不仅支持主流的NLP任务
原创 8月前
134阅读
# 如何实现 NLP 模型 (nlpm) 作为一名刚入行的小白,学习如何实现自然语言处理(NLP)模型可能一开始会感到有些棘手,但别担心!在这篇文章中,我将逐步引导你完成这一过程。我们将讨论实现 NLP 模型的整体流程,所需工具,以及每一步的代码示例与解释。让我们开始吧! ## 整体流程 首先,让我们看一下实现 NLP 模型的整体流程。以下是我们将要遵循的步骤: | 步骤 | 描述
原创 8月前
13阅读
# 项目方案:使用 JNLP 及 Java 独享 BMC 文件 ## 引言 随着信息技术的快速发展,用户对于系统的安全性、易用性和高效性提出了更高的要求。在特定的企业和组织环境中,常常需要通过 Java Web Start(JNLP)来快速启动 Java 应用程序,同时独享 BMC(Business Model Canvas)文件为用户提供可视化的业务模型。在本方案中,我们将探讨如何使用 JN
原创 8月前
35阅读
# NLP 实战推荐项目指南 自然语言处理(NLP)在推荐系统中的应用越来越普及,尤其是在信息过载的时代,能够为用户提供精准而个性化的推荐显得尤为重要。对一名刚入行的小白来说,这个领域可能看起来有些复杂,但通过分步走的方法,我们可以把这个过程理清楚。本文将介绍如何实现一个简单的 NLP 推荐系统,我们将分为几个步骤,并为每一步提供必要的代码示例及其注释。 ## 流程概述 下面是实现 NLP
原创 8月前
14阅读
# 使用 SnowNLP 制作分词训练文件的实用指南 随着自然语言处理(NLP)技术的发展,中文分词作为一项基础技术,越来越受到重视。SnowNLP 是一个非常流行的 Python 库,它能够实现中文文本的分词、情感分析、文本分类等功能。本文将以“如何制作分词训练文件”为主题,详细介绍相关操作,并通过示例帮助用户更好地理解和使用。 ## 一、分词训练文件的作用 分词训练文件是用于训练分词模型
原创 8月前
49阅读
# 实现18年前NLP中典型的预训练模型 在自然语言处理(NLP)领域,预训练模型的诞生为文本处理带来了革命性的变化。虽然技术在不断演进,但18年前的一些模型,如Word2Vec和GloVe,仍然具有重要的学术价值和实际应用。本文将引导你了解实现这些模型的基本流程,以Word2Vec模型为例,详细说明每一步的实现。 ## 实现步骤概览 以下是实现NLP预训练模型的步骤概览: | 步骤 |
原创 8月前
77阅读
# NLPIR在Python中的应用 ## 引言 NLPIR(自然语言处理与信息检索)是一个中文自然语言处理工具,广泛应用于分词、词性标注、信息检索、情感分析等任务。随着Python的普及,越来越多的开发者希望在Python环境中使用NLPIR。本文将深入探讨如何在Python中使用NLPIR,提供相关的代码示例,以及类图和流程图来补充说明。 ## 1. NLPIR概述 NLPIR工具包由
# Hugging Face中的中文实体识别预训练模型使用指南 自然语言处理(NLP)是计算机科学与人工智能领域的重要分支。实体识别(NER, Named Entity Recognition)是NLP中的一个关键任务,旨在从文本中识别出特定的实体(如人名、地名、组织名等)。Hugging Face是一个广受欢迎的开源库,提供了多种预训练的模型,可以方便地用于NLP任务,包括中文实体识别。 #
# 光大银行科技研发中心NLP关键信息抽取模型 ## 引言 随着大数据时代的到来,信息的快速增长使得从海量数据中提取有价值的信息成为了一项重要的任务。自然语言处理(NLP)作为人工智能的一个重要分支,正是在这一背景下崛起的。光大银行科技研发中心开发的NLP关键信息抽取模型针对金融领域的多样化需求,致力于实现高效的信息提取。 ## 关键信息抽取概述 关键信息抽取是指从非结构化文本中提取出结构
原创 8月前
75阅读
项目说明业务背景 随着城市化进程的不断推进,中国汽车的保有量一直保持上升态势,截止至2022年3月底,全国汽车保有量达3.07亿,汽车保有量的不断上升。不同车辆类型的分类在智能交通系统、公共安全等领域扮演着重要角色,例如高速收费口的车辆类型识别、停车场收费口的车辆类型识别、日常交通监控中的车辆类型识别等。业务难点 以收费口管理场景为例,依据不同的车辆类型具有不同的收费标准,依靠人工判断并计算费用效
正则表达式   jieba中文处理和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 1.基本分词函数与用法   jieba.cu
目标        使用医疗领域预训练模型ERNIE-Health进行Fine-tune完成中文医疗文本分类        通过该案例掌握PaddleNLP的Transformer 、Tokenizer、Dataset 等API 的使用   &nbs
       句法分析的基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。    句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure
DeepSeek团队开源DeepEP,专为MoE和EP设计的高效通信库,优化GPU间通信,实现高吞吐量和低延迟,加速大规模模型训练和推理,适用于实时推理场景,已获4.1K star。