热门 最新 精选 话题 上榜
语言模型开源项目:Wenet - 实时语音识别与合成的新里程碑 wenet项目地址:https://gitcode.com/gh_mirrors/wen/wenet 项目简介是由 Mobvoi 公司开源的一个轻量级、高性能的实时语音识别和合成框架。该项目致力于为开发者提供易于上手且功能强大的工具,以实现各种语音应用场景,如智能助手、智能家居、在线教育等。技术分析架构设计Wenet 采用模块化设计,
Gensim目的:从文档中有效的自动抽取语义主题。 处理原始的、非结构化的文本。gensim 中的算法有LSA、LDA、RP、TF-IDF、word2vec,通过在一个训练文档语料库中,检查词汇统计联合出现模式,发掘文档语义结构,这些算法属于 非监督 学习,无需人工输入,自己只需要提供一个语料库即可。语料:原始文本集合,用于无监督的训练文本主题的隐层结构。语料中不用 人工标注 附加信息。在 Gen
使用Anaxi掌握您的GitHub项目 每个大公司都是一家软件公司-世界被软件吞噬了。 几乎每个软件公司现在都在使用Git。 当您将GitHub视为Git回购的领导者时,难怪平台上有210万个组织 ! 但是,GitHub在项目管理功能和界面方面存在一些缺陷,这是对129家公司进行的净促进者分数(NPS)调查所建议的,评估了他们对工程组织处理项目和优先级的方式的满意度。 GitHu
有些可以直接用但是在之前还是要注意下项目中声明的 License也就是开源协议当你去 GitHub 创建一个开源项目的时候可以看到有这么一个选项这些常见的协议都怎么用的呢?那么接下里就是学习 License 的正确姿势 总有一些人会认为开源就是不要钱直接拿来用就可以了如果你总是直接复制别人的代码不管不顾的使用可能会出问题哦因为有些项目是声明了协议的不一样的协议有不同的
作者:李航编译:李梅、黄楠编辑:陈彩娴从俄国数学家 Andrey Markov (安德烈·马尔可夫)提出著名的「马尔科夫链」以来,语言建模的研究已经有了 100 多年的历史。近年来,自然语言处理(NLP)发生了革命性的变化。2001年,Yoshua Bengio 用神经网络进行参数化的神经语言模型,开启了语言建模的新时代。其后,预训练语言模型如 BERT 和 GPT 的出现再次将 NLP 提高到一
       大语言模型如此火爆,查了些资料整理一下,做个初步的了解。        语言模型的发展从开始的统计方法到使用神经网络,再到现在通过使用Transformer架构的模型训练大量数据,理解文本规则和模式,同时随着训练数据和模型的扩大,语言模型的能力提升显著,此时大语言模
3个月前,JayJay介绍了 HuggingFace的多任务Prompt模型,一直在等中文NLP社区的动静,试想一下:多任务Prompt统一建模如果能显著提升zero-shot&few-shot性能,这将是NLP落地的一个有效途径。不过,JayJay终于等到了!前几天,XLNet作者杨植麟团队发布了首个中文多任务Prompt统一模型:ZeroPrompt,共收集了1000个中文任
一 序   本文属于贪心NLP 学习笔记系列。今天开始,明显的数学概念多了起来。二 unigram不考虑单词之间的顺序,依赖于马尔科夫假设。假设w1,w2,...wn是相互独立的:一个事件的发生与否,不会影响另外一个事件的发生。而P(w1)、P(w2).....P(wn)的计算方法如下:统计语料库中某个单词出现的次数,再除以语料库的总词数。缺点: 单词相互独立,所以语
问题介绍自BERT出现之后,基于Transformer[1]架构的语言模型在各项NLP任务上取得了统治性的表现。原始的Transformer架构可以分为编码器和解码器两端,如图所示。在底层输入中,作者使用了位置编码(positional embedding)以注入序列的顺序信息;在每层单元中,都使用了多头注意力机制、残差连接和层归一化的组成单元。在解码时,解码器的注意力头可以同时看见解码端之前的输
24年3月CMU和上海交大的论文“What Are Tools Anyway? A Survey from the Language Model Perspective”。到底什么是工具? 接下来,工具在哪里以及如何帮助语言模型? 在综述中,对语言模型使用的外部程序工具进行了统一定义,并对语言模型工具场景和方法进行了系统回顾。 测量各种基准上所需的计算和性能增益,以及该领域的挑战和潜在的未来研究,
1. CTR 模型建模在讲 CTR 模型之前,我们首先要清楚 CTR 模型是什么,用来解决什么问题。所以我们先描述 CTR 问题,并对其进行数学建模。一个典型的推荐系统架构如下图所示:一般会划分为召回和排序两层。召回负责从百万级物品中粗选出千级数量物品,常用算法有协同过滤、用户画像等,有时候也叫粗排层;排序负责对召回层召回的千级物品进行精细排序,也叫精排层;CTR,Click-Through-Ra
踏上人工智能的演变之旅和自然语言处理(NLP) 领域取得的惊人进步。一眨眼的功夫,人工智能已经崛起,塑造了我们的世界。训练大型语言模型的巨大影响彻底改变了 NLP,彻底改变了我们的技术交互。时间回到 2017 年,这是一个以“注意力就是你所需要的”为标志的关键时刻,开创性的“Transformer”架构诞生了。该架构现在构成了 NLP 的基石,是每个大型语言模型配方中不可替代的成分 - 包括著名的
这会是 Google 未来主要关注的方向。 文 | Rachel Transformer 可谓是近年 NLP 领域关注度颇高的模型之一。2017 年,Google 发表题为“Attention Is All You Need”的论文,提出了完全基于注意力机制(attention mechanism)的网络框架 Transformer。2018 年,Google 开源了基于 Tr
概念引入命名实体识别命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。定义命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文
条件随机场:是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,特点是输出随机变量构成马尔科夫随机场。线性链条件随机场,由输入序列对输出序列预测的判别模型,形式为对数线性模型,学习方法为极大似然估计或正则化的极大似然估计。线性链条件随机场应用于标注问题命名实体识别(named entity recognize)NER1 在通用领域中,分为人名、地名、组织机构名、日期时间和专用名词2
  随着数据技术的飞速发展以及广泛应用,许多企业和部门建立了自身的数据管理系统,经过长年努力,已经积累了越来越多的数据。于是,人们开始渴望通过对这些庞大的数据分析得到更多的有助于决策的信息。虽然,目前的数据系统可以高效率地实现数据的录入、查询、统计等功能,但由于数据量庞大以及数据库系统中分析方法的严重缺乏,使得它无法发现数据中隐藏的相互联系,更无法根据当前和历史的数据去预测未来的发展趋势。因此,出
使用pyaudio内录声卡声音及相关问题解决 目录使用pyaudio内录声卡声音及相关问题解决1 实现代码1.1 Recorder类:1.2 调用方法2 问题一:选择设备实现内录/外录(解决报错:OSError: [Errno -9999] Unanticipated host error)3 问题二:运行内录代码时,必须要扬声器外放才能录到声音,插入耳机则没有声音 1 实现代码 使用上述连接中的
论文题目                     A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION摘要        讲了近些年来,端到端语音识别性能
译者:飞龙协议:CC BY-NC-SA 4.0一、理解大型语言模型本章包括大型语言模型(LLM)背后的基本概念的高层次解释探索 ChatGPT 类 LLM 源自的 Transformer 架构的深层次解释从零开始构建 LLM 的计划像 ChatGPT 这样的大型语言模型(LLM)是在过去几年中开发的深度神经网络模型。它们引领了自然语言处理(NLP)的新时代。在大型语言模型出现之前,传统方法擅长于分
在这个信息爆炸的时代,人工智能技术正以前所未有的速度渗透到我们生活的方方面面。从智能手机上的语音助手到自动驾驶汽车,AI的应用无处不在。而在这些令人惊叹的技术背后,大语言模型(LLM)扮演着至关重要的角色。它们不仅能够理解和生成自然语言,还能在多种场景下提供智能决策支持。然而,对于许多对AI感兴趣的新手来说,大语言模型的训练和应用似乎是一件高不可攀的事情。复杂的技术术语、晦涩的理论知识,以及高昂的
文章目录前言0 摘要1 Introduction2 相关工作2.1 文本对话回复生成2.2 Text-to-Image 生成3 Problem Formailzation4 Approach4.1 多模态 Tokenization4.1.1 文本 Tokenization4.1.2 图像 Tokenization4.2 低资源学习模型4.2.1 文本对话回复生成器 (Textual Dialog
字节跳动 Xinsong Zhang、李航两位研究者在细粒度和粗粒度标记化的基础上,提出了一种新的预训练语言模型,他们称之为 AMBERT(一种多粒度 BERT)。在构成上,AMBERT 具有两个编码器。预训练语言模型如BERT在自然语言理解(NLU)的许多任务中表现出色。模型中的tokens通常是细粒度的,像英语是单词或sub-words或者是像中文字符。在英语中,例如,有多词表达形式的自然词汇
具体的网络结构可以参照我的前一篇博客基于RNN的文本分类模型(Tensorflow)考虑到在实际应用场景中,数据有可能后续增加,另外,类别也有可能重新分配,比如银行业务中的[取款两万以下]和[取款两万以上]后续可能合并为一类[取款],而重新训练模型会浪费大量时间,因此我们考虑使用迁移学习来缩短训练时间。即保留LSTM层的各权值变量,然后重新构建全连接层,即图中的Softmax层。  &n
# NLP模型训练搭建指南 自然语言处理(NLP)是计算机科学和人工智能的一个重要领域,它涉及到计算机与人类语言的互动。如今,随着深度学习技术的发展,越来越多的研究和实际应用都离不开NLP模型的训练与搭建。本文将引导你了解如何搭建一个NLP模型,并提供相应的代码示例。 ## 1. 环境准备 在进行NLP模型训练之前,我们需要准备好相关的环境。我们将使用Python和一些流行的库,如Tenso
原创 9月前
235阅读
PCB文件中显示引脚号:键盘上按ALT+CTRL+C,弹出设置颜色对话框,然后把Pin Num下面的勾选上就OK了 敷铜pads中,敷铜使用如下操作:最后敷铜铜的样子如下:    显示网络名pads默认情况下是不显示网络名的,因为网络名默认情况是黑色的,这样修改: 高亮网络: 选择完整个网络----再按CTRL+H
## 如何使浏览器直接运行 JNLP 文件 在这篇文章中,我们将详细介绍如何使浏览器支持 JNLP (Java Network Launch Protocol) 文件的直接运行。JNLP 文件通常用于启动 Java Web Start 应用程序。虽然现代浏览器因为安全和性能原因已经减少了对 Java Applet 和 Java Web Start 的支持,但可以通过一些配置和代码编写来实现我们的
原创 9月前
919阅读
# NLP模板匹配技术科普 自然语言处理(NLP)是计算机科学和人工智能的一个子领域,专注于使计算机理解和处理人类语言。在众多NLP技术中,模板匹配技术是一种简单而有效的方法,用于处理特定模式的文本数据。本文将详细介绍模板匹配技术的基本概念、应用场景以及示例代码。 ## 什么是模板匹配 模板匹配是一种基于模式识别的技术,通常用于寻找某种特定结构或格式的文本。例如,在聊天机器人和客服系统中,用
# NLP初学者入门指南:探索GitHub资源 自然语言处理(NLP)是人工智能的一个重要分支,旨在使计算机能够理解和处理人类语言。对于NLP初学者,GitHub是一个宝贵的资源库,提供了众多开源项目、工具和库。本文将为您介绍一些基本的NLP概念,代码示例,以及如何利用GitHub中的资源来快速上手。 ## 基本概念 在开始编写代码之前,我们需要了解一些基本的NLP术语: - **分词**
原创 9月前
26阅读
# 如何实现NLP数据集与榜单 作为一名刚入行的小白,理解和实现NLP(自然语言处理)数据集与榜单的功能可以是一个复杂的任务,但只要你掌握了正确的步骤和工具,就一定能做到。本文将为你详细介绍整个实现流程,并提供具体的代码示例。 ## 实现流程概览 我们可以将整个过程拆分为以下几个步骤: | 步骤 | 描述 | |------|-------------
# 北京语言大学的自然语言处理(NLP) 自然语言处理(NLP)是计算机科学与语言学交叉的一门重要学科,旨在使计算机能够理解和生成人类的语言。随着互联网的发展和大数据的兴起,NLP的应用愈加广泛,包括文本分析、机器翻译、情感分析等。作为国内具有代表性的高校之一,北京语言大学在NLP领域有着突出的贡献。 ## 自然语言处理的基本概念 在深入探讨北京语言大学的NLP研究之前,让我们先了解一些基本