【火炉炼AI】机器学习042-NLP文本的主题建模(本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, matplotlib 2.2, NLTK 3.3)文本的主题建模时用NLP来识别文本文档中隐藏的某种模式的过程,可以发现该文档的隐藏主题,以便对文档进行分析。主题建模的实现过程是,识别出某文本文档中最有意义,最能表征主题的词
转载
2024-01-05 23:31:20
16阅读
# NLP 笔试代码题解析
自然语言处理(NLP)是计算机科学与语言学交叉的一个领域,其目的是让计算机能够理解、解释与生成自然语言。随着NLP技术在各个行业的深入应用,相关的笔试与面试题目也愈加丰富。本文将通过几个常见的NLP笔试代码题,帮助大家更好地理解NLP的基本概念和实现。
## 基础概念梳理
在深入代码之前,先了解几个基本概念:
1. **分词**:将一个句子切分成词语。
2. *
原创
2024-10-24 04:24:17
124阅读
1. 自我介绍在自我介绍环节,我清晰地阐述了个人基本信息、教育背景、工作经历和技能特长,展示了自信和沟通能力。2. 技术问题2.1 讲lora的原理LoRA的基本原理是冻结预训练的模型参数,然后在Transfomer的每一层中加入一个可训练的旁路矩阵(低秩可分离矩阵),接着将旁路输出与初始路径输出相加输入到网络当中,并只训练这些新增的旁路矩阵参数。其中,低秩可分离矩阵由两个矩阵组成,第一个矩阵负责
目录1. 编程语言基础该文件夹下主要记录 python 和 c++ 的一些语言细节, 毕竟这两大语言是主流,基本是都要会的,目前还在查缺补漏中。C++面试题Python 面试题2. 数学基础该文件夹下主要记录一些数学相关的知识,包括高数,线性代数,概率论与信息论, 老宋亲身经历,会问到, 目前尚在查缺补漏中。概率论高等数学线性代数信息论3. 计算机基础理论知识这部分内容一般不怎么考,因此,没有把重
目录 什么是正则化?解释一下度量两个分布的距离的方法LSTM比普通RNN优势在哪数据降维的办法过拟合是什么,如何处理传统语音增强算法接触过哪些?反向传播推导softmax、sigmoid和ReLU的优劣梯度消失问题和损失函数有关吗?衡量两个字符串之间距离的方法给定一个query和一个doc,能想到哪些衡量相关性的方法判断一个整数是不是回文数什么是正则化?解释一下正则化是为了防止过拟合,
本文以QA形式对NLP/AI中的高频问题进行总结,均为自己在真实面试中所遇到的问题(持续更新中)。部分问题答案已经写入可参见:学习NLP/AI,必须深入理解“神经网络及其优化问题”nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert一、AI算法基础
1、样本不平衡的解决方法?
2、交叉熵函数系列问题?与最大似然函数的关系和区别
转载
2023-11-11 17:13:12
220阅读
当天早上来到白玉兰大厦,还是很高大上的。来到6楼,练习了HR后就被带到会议室等着,等了 15min,一面小哥来了,先让介绍项目,然后有如下问题:(比较久远,写个大概)一面(技术):(大概)1.画下LSTM的结构图(就网上的LSTM小绿图)2.算法题:3*3的二维矩阵,[[1,2,3], [[3,6,9],
[4,5,6],
转载
2024-06-08 13:31:19
80阅读
作者 | 我爱雪糕
整理 | NewBeeNLP
写在前面先说下感受吧。本人在今年3月1号(周日)投递简历,隔天周一hr就约了周四的面试,结果那天是2面视频技术面+hr面直接走完了,周五内推的学长就告诉我过了,紧接着就是offer call。整体投递+面试+发录用通知函的时间不到一周,而且面试官都是和简历对口的,整体体验非
一、 实验目的 编制一个词法分析程序。 二、 实验内容和要求实验内容:对字符串表示的源程序从左到右进行扫描和分解根据词法规则:单词符号种别码单词符号种别码begin1:17i
一、NLP是什么自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语
转载
2023-05-24 14:53:53
213阅读
面试题整理21.sobel算子知道吗2.two stage RCNN—cascadeRcnn, one stage yolo—RFBnet,介绍一下去雾算法3.分水岭算法4.Densenet的缺点5.手推LR6.决策树7.条件随机场8.讲LR,面试官要求LR讲得特别仔细,就那种LR是什么假设,损失函数是怎么回事,怎样更新参数什么的9.从方差和偏差角度比较bagging和boosting10.离散
转载
2024-08-01 12:11:03
107阅读
题目比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information 题目求解的是什么将一篇文章归入到具体的类别中,一共有 这是一个文本分类任务,将文章分门别类的归入到具体的类别中;如果只是把文章归为一类却没有具体的类别(不关心类别),那就是文本聚类。文章的具体类别,也称为【标签】。每篇文章通常只有一个类别,
原创
2023-06-08 14:50:35
81阅读
分词:将输入的自然语言文本分成一个个离散的语言单元,通常是词或符号。词性标注:对分词后的语言单元赋予相应的语法和语义标签,例如名词、动词、形容词、代词等,以便进一步分析。句法分析:将分词和词性标注后的语言单元组织成一个句子结构,分析单词之间的语法关系,如主谓宾、定状补等。命名实体识别:识别文本中的特定实体,如人名、地名、时间、组织机构等。情感分析:对文本进行分类,判断文本的情感偏向,如正面、负面或
转载
2023-08-08 10:09:45
167阅读
BERT大火却不懂Transformer?读这一篇就够了一、Transformer(code)1.1 句子的 representation embedding with position = word embedding + Positional Embedding处理 nn.Embedding 权重矩阵有两种选择:使用 pre-trained 的 embeddings 并固化
转载
2023-12-07 07:26:27
138阅读
Ⅰ. NLP数据集整理中英文NLP数据集搜索平台,点击搜索一、情感分析ID标题更新日期数据集提供者说明关键字类别备注1weibo_senti_100k无无带情感标注新浪微博,正负向评论约各 5 万条微博二分类任务无2Weibo Emotion Corpus2016The Hong Kong Polytechnic University微博语料,标注了7类 emotions: like, disgu
转载
2024-03-14 11:28:57
111阅读
NLP入门学习(学习资料来自实验楼)
自然语言处理,简称:NLP,是指对人们平时日常使用的交流语言进行处理的一项技术。NLP 经过多年的发展,现今可以划分为两部分内容,即:自然语言的理解和自然语言的生成。本文将以文本分类为目标,介绍自然语言处理相关的基础操作和应用。(来自https://www.shiyanlou.com/courses/12
转载
2023-08-07 20:38:35
175阅读
个人总结: 一、NLP由于需要对上下文进行理解,因此具有记忆能力的循环神经网络是种很好的模型。 二、seq2seq框架由编码器和解码器构成,编码器将输入单词编码成context向量,解码器根据该向量解码出单词序列。 三、为了更关注与当前时刻词更加有关联性的其它词,需要对其它词对当前时刻的影响进行加权,因而出现了注意力机制Attention。 四、为了解决RNN只能按时间步递归计算问题,Transf
转载
2024-06-13 16:43:39
117阅读
1,概述任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品。通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下: 整个pipline由五个模块组成:语音识别;自然语言理解;对话管理;自然语言生成;语音合成。现在越来越多的产品还融入了知识库,主要是在对话管理模块引入。在这里除了语音识别和语音合成模块不属于自然语言处理范
转载
2023-07-08 17:33:00
339阅读
NLP 语种检测 API 数据接口180+ 语言检测,语种全称与缩写,返回置信度。1. 产品功能基于 NLP 分析文本的语种支持 180+ 多语种检测;语种缩写遵循 ISO 639-1 标准;包含检测到的语种置信度;毫秒级响应性能;数据持续更新与维护;全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);全面兼容 Apple ATS;全国多节点 CDN 部署;接口极
转载
2024-03-14 17:41:16
58阅读
1.正则表达式正则表达式在处理文本方面发挥着重要的作用 1.re.match() 从字符串开头匹配,匹配成功返回匹配结果,加上.group()可查看匹配到的具体的值,匹配不成功则返回Noneimport re
print(re.match(r'a','abc123').group()) #a
print(re.match(r'A','abc123',re.I).group())#a,加上re.I可
转载
2023-09-27 16:55:02
148阅读