学会分类是凸显人类智慧的技能之一. 如何使得机器也具备分类能力, 这便是时下机器学习的内容之一. 垃圾邮件识别, 动植物种类判断都属于分类任务. 常见的机器学习分类算法有朴素贝叶斯, 支持向量机, 决策树, 随机森林等. 如何定量地去度量一个算法的好坏呢? 为此, 我们需要引入一些分类的评价指标. 常见的评价指标有: 准确率, 精准率, 召回率, 灵敏度, 特异度,F1-score, AUC等.
在5月20日结束的2021深度学习开发者峰会WAVE SUMMIT上,百度文心ERNIE开源了四大预训练模型。本文对这四大开源预训练模型进行了详细的技术解读。2019年以来,NLP预训练模型在技术创新和工业应用上不断取得突破,但当前预训练模型仍有一些痛点困扰着开发者:仅考虑单一粒度语义建模,缺乏多粒度知识引入,语义理解能力受限;受限于Transformer结构的建模长度瓶颈,无法处理超长文本;聚焦
信用评分模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响,怎么理解这句话呢?我下面通过一个图标来进行说明。Woe公式如下:  Ag
信用评分模型是消费信贷管理中先进的技术手段,是现在金融行业常用的信用风险评估方法,本文从宏观上介绍评分模型的建模开发流程。1. 明确问题明确业务要解决的问题,确定时间窗口、标签的定义规则,以及模型的评价指标和数据来源。在定义标签的时候需要注意:要考虑到表现期的长短(有关表现期的定义可以参考观察期与表现期)要考虑到期终表现与期中表现要考虑到某些群体的不可确定性(假设3期以上为坏客户,如果有拖欠2期的
文章目录前言一、数据准备1.文章所使用的数据都是基于下面这两个网站:2.观察期和表现期二、数据处理1.缺失值和异常值2.筛选数据三、相关性检验四、特征工程1.特征变量五、模型构建1.随机森林模型2.决策树模型3.AHP分析总结 前言在传统的信用风险预测的模型中,主要依靠的是人的主观经验判断,不够客观,很容易形成一种情况,在这个金融机构评分高,但是去其他金融机构评分较低,差异性较大。这样就不利于对
@Datawhale|NLP集训学习笔记task1—赛题理解1.赛题内容赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。2.赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据
评分模型是对客群进行量化风控的重要工具,通过评分模型中风险水平的排序,我们可以将客群量化定级(A、B、C…等级)。常规上的风险评分模型可以分成申请评分模型、行为评分模型、催收评分模型、反欺诈评分模型。但在以上四大类别中,依旧可以深度拆分,比如贷前评分模型还可以分为准入评分模型与信用评分模型。同样的,评分模型后依旧对应的还有差异化的额度模型。本文来解决这些知识点。一: 常规的评分卡是在准入规则后,设
#简介 本文通过使用LendingClub的数据,采用卡方分箱(ChiMerge)、WOE编码、计算IV值、单变量和多变量(VIF)分析,然后使用逻辑回归模型进行训练,在变量筛选时也可尝试添加L1约束或通过随机森林筛选变量,最后进行模型评估。 ######关键词:卡方分箱,WOE,IV值,变量分析,逻辑回归####一、数据预处理 数据清洗:数据选择、格式转换、缺失值填补 由于贷款期限(term)
文章目录1. 评分模型基本思想2. 评分模型基本推导公式3. 评分模型代码4. 根据区间段进行重新评分6. 如何观察7. 计算每个月的ks 前言:终于开始写风控模型啦!评分卡入门看了好几天,然后实践了一下,现在梳理总结一下整个推导以及建模过程,以便记性不好的本人随时查看。 另外由于scorecardpy那个包我在分箱的时候总报错,所以直接参照领导自己写的评分模型进行分箱和建模。1. 评
语言模型(LM)的作用是估计不同语句在对话中出现的概率,并且LM适用于许多不同的自然语言处理应用程序(NLP)。 例如,聊天机器人的对话系统。在此文中,我们将首先正式定义LM,然后演示如何使用实际数据计算它们。 所有显示的方法在Kaggle notebook中有完整的代码展示。一、语言模型(LM)的定义概率语言建模的目标是计算单词序列的语句出现的概率:      &n
转载 2023-08-14 10:36:44
159阅读
评分模型基础,流程:​ 整个模型构建的过程,及其中涉及的一些数据处理方法:https://www.jianshu.com/p/c3fa53c54cca 
转载 2019-06-04 11:02:00
235阅读
2评论
Author:Liedra前言下面将利用随机森林算法对数据进行处理分析。随机森林介绍首先了解一下集成学习,集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起多个模型,取长补短,避免局限性。 集成时一般用到bootstrap方法(自助法,随机抽样),bagging方法(自助抽样集成,多个模型,使用投票或其他方法来整合模型,分类问题一般类似投票,回归问题一般
文章目录基础资料准备从0到1了解模型的优缺点BERT这个模型与其它两个不同的是:BERT模型具有以下两个特点:模型的输入参考资料: 在说内容之前先把,bert基本资料准备一下 从0到1了解模型的优缺点从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。从之前AI2的 ELMo,到 OpenAI的fine-tune transformer,再到Google的这个BERT
参考 https://www.zhihu.com/question/40309730  NLP通常包括两个关键问题: 1.选择什么样的语言模型? 2.选择什么样的分类算法? 第二个问题是机器学习领域的标准问题,各种针对不同数据类型、数据分布的算法和技巧,这里不再赘述。而在NLP当中,语言模型更加重要一些。 不同语言模型的区别,也就是对文本提取特征的不同。常用的模型
 随着 Google 推出的 BERT 模型在多种 NLP 任务上取得 SOTA,NLP 技术真正进入了大规模应用阶段,由此,我们展开了对 BERT 的探索。 训练模型 训练数据训练其他模型时我们已经标注了大量的训练数据,主要把相似句对分为三类来标注:不相似(0)、相关(0.5)、相似(1)所以,训练 BERT 模型时就可以“拿来主义”了。模型修改我们的主要应用点是相
陆:句法分析语言学的不同分支对应了不同的nlp基础技术,词法学对应于自动分词、词性标注等,而句法学对应的是句法分析。句法(Syntax): 研究语言的句子结构,针对语言学两个基本关系中的组合关系。一、句法分析概述概念句法分析:判断单词串是否属于某个语言,如果是,则给出其(树)结构。句法分析包含两个子问题,一是语言体系的形式化描述,二是语言结构的分析算法。 一般而言,语言结构分析算法的任务着重
BERT终于来了!今天,谷歌研究团队终于在GitHub上发布了万众期待的BERT。代码放出不到一天,就已经在GitHub上获得1500多星。项目地址:https://github.com/google-research/bert#fine-tuning-with-bert就在半个月前,谷歌才发布这个NLP预训练模型的论文(https://arxiv.org/abs/1810.04805)。BERT
目录引言1 FastText1.1 相关资料1.2 介绍2 TextCNN2.1 相关资料2.2 介绍3 DPCNN3.1 相关资料3.2 介绍4 TextRCNN4.1 相关资料4.2 介绍5 TextBiLSTM+Attention5.1 相关资料5.2 介绍6 HAN6.1 相关资料6.2 介绍7 Bert7.1 相关资料7.2 介绍8 封装的源码汇总 引言更多模型介绍基于深度学习的文本分
目录一、评分卡的分数转换(一)评分卡分数转换方式(二) offset 和 factor计算公式:(三)实际计算过程二、公式推导(一) 线性部分的含义(二) 通过设置odds确定Base和factor三、常用设置四、生产环境应用(1) 生成特征分数映射表(2) 累计特征得分本文讲解评分卡的分数转换公式,和转换公式的原理推导。具体实操例子和代码请参考:《评分卡实例:完整建模流程》《评分卡实例:完整建模
接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分系统。六、模型分析证据权重(Weight of Evidence,WOE)转换可以将Logistic回归模型转变为标准评分卡格式。引入WOE转换的目的并不是为了提高模型质量,只是一些变量不应该被纳入模型,这或者是因为它们不能增加模型值,或者是因为与其模型相关系数有关的误差较大,其实建立标准信用评分卡也可以不采用WOE转换。这种
转载 2023-07-06 14:48:11
114阅读
  • 1
  • 2
  • 3
  • 4
  • 5