记:二分类问题应该是应用最广泛的机器学习问题,电影评论分类是指根据电影评论的文字内容,将其划分为正面评论或者是负面评论,是一个二分类问题,我从头到尾学习了代码,并且进行了整理,有的内容是个人理解,如有错误还请指正。(本代码实在jupyter notebook上完成的)1、典型的keras工作流程    (1)定义训练数据:输入张量和目标张量    (2)定义            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-10 18:49:02
                            
                                62阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录具体参考:二分类指标汇总混淆矩阵精确率、召回率、F1准确率对数损失AUCGAUCks样本不平衡时的可用指标考虑负样本的F1SpecificityG-MeanMCC 具体参考:import numpy as np
from sklearn.metrics import f1_score, accuracy_score, roc_curve, precision_score, recall_            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-23 21:50:53
                            
                                63阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            所谓分类器,就是一种处理分类任务的模型。这个模型既可以是人工设定的某些规则的集合,也可以是通过机器学习得到的分类模型,根据类别多少,有二分类器和多分类器之别。有一些比较经典的应用场景,比如说:短视频、新闻、广告等个性化推荐; 投资、借贷等涉及到的风险管理场景; 垃圾邮件、垃圾短信的识别; 图像识别等那问题来了,怎么能够判断某分类器是否可以胜任一个业务场景,又如何比较分类器之间的优劣呢,这就引出本文            
                
         
            
            
            
            目录什么是 二分分类问题计算机如何表示图片一些符号的定义什么是 二分分类问题让我们来举例说明,假如有一副下图中含有两只小猫的图片,在二分分类中的问题中,我们的目标是训练出一个分类器(classifier)它以特征向量x作为输入预测出结果y是0还是1,也就是预测出图片中是否含有猫。计算机如何表示图片我们先来看一看图像在计算机里是怎么表示的,为了在计算机里保存一幅(彩色)图像,计算机要存储3个独立的矩            
                
         
            
            
            
            二分模板在使用二分查找时,要确保数据是有序的,并根据具体情况处理边界条件。在具体使用时,只需将nums替换为你的数组,target替换为你要查找的目标值,然后根据具体问题对找到目标值的情况和没找到目标值的情况进行相应的操作。注意条件的设置def binary_search(nums, target):
    left, right = 0, len(nums) - 1
    
    whil            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-07 17:41:07
                            
                                53阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
              二分类问题的预测结果可能正确,也可能不正确。结果正确存在两种可能:原本对的预测为对,原本错的预测为错;结果错误也存在两种可能:原本对的预测为错,原本错的预测为对。如何评价两个二分类模型的好坏呢?二分类模型的理想状态是什么呢?  首先回答第二个问题,理想的二分类模型能将原本是对的预测为对,原本是错的预测为错。一般情况下,我们很难收集到完备的“原本是对的,原本是错的”数据集,也就是说,通常情况下我            
                
         
            
            
            
            基础监督学习经典模型监督学习任务的基本架构和流程:  1.准备训练数据;  2.抽取所需特征,形成用于训练特征向量(Feature Vectors);  3.训练预测模型(Predictive Model);  4.抽取测试数据特征,得到用于测试的特征向量;  5.使用预测模型对待测试特征向量进行预测并得到结果(Label/Target)。分类学习  1.二分类(Binary Classifica            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 05:55:58
                            
                                147阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            机器学习-python实践
    分类问题项目流程:如何端到端的完成一个分类问题的模型如何通过数据转换提高模型的准确度如何通过调参提高模型的准确度如何通过算法集成提高模型的准确度问题定义 在这个项目中采用声纳、矿山和岩石数据集(http://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+%28            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-31 17:26:08
                            
                                88阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            向AI转型的程序员都关注了这个号????????????机器学习AI算法工程 公众号:datayxGBDT 的全称是 Gradient Boosting Decision Tree,梯度...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-10-25 10:44:37
                            
                                492阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            KNN算法简介 KNN(K-Nearest Neighbor)最邻近分类算法是数据挖掘分类(classification)技术中最简单的算法之一,其指导思想是”近朱者赤,近墨者黑“,即由你的邻居来推断出你的类别。KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-08 20:28:33
                            
                                70阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
                     上一篇文章讲了GBDT的回归篇,其实这一篇文章的原理的思想基本与回归相同,不同之处在于分类任务需用的损失函数一般为logloss、指数损失函数。          回顾下logistic regression有助于我们进一步的了解GBDT是如何进行分类的,线性模型是我们使            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-31 19:30:17
                            
                                86阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1.二分类(Binary Classification)问题二分类问题就是简单的“是否”、“有无”问题,例如判断一张图片中是否有猫。对机器来说,分辨这张图,需要读取这幅图的数字特征。计算机保存一张图片,要保存三个独立矩阵,分别对应红绿蓝三个颜色通道。我们可以定义一个特征向量x,把图片的所有像素值取出来放到这个特征向量里。如果这个图片是64x64的,那么这个特征向量的总维度n=64x64x3=1            
                
         
            
            
            
            最早类型的Adaboost是由Yoav Freund和Robert E.Schapire提出的,一种用于二分类的boosting集成学习方法。也是李航《统计学习方法》中所介绍的Adaboost。它将一系列弱分类器的线性组合,生成一个强分类器。需要注意的是这里的弱分类器的定义是学习的正确率仅比随机猜测略好的分类器。如果基分类器已经是强学习了,再用boosing的话可能提升的效果就不是很明显了。因为b            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-12 15:45:49
                            
                                157阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录一、相关概念1.logistic回归1.1前言1.2目的1.3流程1.4Sigmoid函数1.4.1公式1.4.2图像1.5优缺点2.最优化方法2.1梯度上升算法2.1.1梯度公式2.1.2例子2.1.3迭代公式2.1.4训练步骤2.2梯度下降算法2.2.1与梯度上升算法的区别2.2.2迭代公式2.2.3训练步骤2.3随机梯度上升算法2.3.1训练步骤3.分类3.1二分类3.2多分类3.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 09:46:36
                            
                                606阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本篇记录一下如何使用bert进行二分类。这里用到的库是pyotrch-pretrained-bert,原生的bert使用的是TensorFlow,这个则是pytorch版本。本篇文章主要参考了基于BERT fine-tuning的中文标题分类实战的代码以及如何用 Python 和 BERT 做中文文本二元分类?的数据。本文的github代码地址:https://github.com/sky9452            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-14 21:42:31
                            
                                135阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言最近在b站发现了一个非常好的 计算机视觉 + pytorch实战 的教程,相见恨晚,能让初学者少走很多弯路。 因此决定按着up给的教程路线:图像分类→目标检测→…一步步学习用 pytorch 实现深度学习在 cv 上的应用,并做笔记整理和总结。up主教程给出了pytorch和tensorflow两个版本的实现,我暂时只记录pytorch版本的笔记。pytorch官网入门demo——实现一个图像            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-25 19:01:04
                            
                                252阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            二分类-深度学习2.1-吴恩达老师课程介绍案例符号定义 仅作为个人学习记录介绍当实现一个神经网络的时候,我们需要知道一些非常重要的技术和技巧。例如有一个包含个样本的训练集,你很可能习惯于用一个for循环来遍历训练集中的每个样本,但是当实现一个神经网络的时候,我们通常不直接使用for循环来遍历整个训练集,所以在这周的课程中你将学会如何处理训练集。 另外在神经网络的计算中,通常先有一个叫做前向暂停(            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-10 00:23:40
                            
                                253阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            二分类问题可能是应用最广泛的机器学习问题,它指的是所有数据的标签就只有两种,正面或者负面。在这个例子中,我们学习根据电影评论的文字内容将其划分为正面或者负面。数据集介绍:本节使用IMDB数据集,它包含来自互联网电影数据库(IMDB)的50000条严重两极分化 的评论。数据集被分为用于训练的25000条评论和用于测试的25000条评论,训练集和测试集都包含50%的正面评论和50%的负面评论。为什么要            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-17 17:05:41
                            
                                0阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            目录1.CART回归树2.加法模型与前向分布算法3.回归问题的提升树4.GBDT算法5.GBDT用于二分类问题A.单个样本的损失(BCE损失)B.在第m步样本的损失的负梯度C.算法的第一步中, 模型的初始值D.每个节点区域的输出值的估计概述: GBDT算法可以看成是由M棵树CART回归树组成的加法模型, 该模型使用前向分布算法来学习, 在前向分布算法中,每一步只学习一个基函数(基模型)及其系数,逐            
                
         
            
            
            
            Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。经典的二分类算法,也可转换为多分类:机器学习算法选择:优先选用逻辑回归,性能比较差再使用深度学习算法。逻辑回归决策边界:可以为非线性1.算法原理:使用的函数模型:sigmoid将线性回归的输出作为逻辑回归的输入Z,输入sigmoid函数 **:线性回归面试三问:(关于线性回归原理的三个问题【            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-18 19:15:39
                            
                                177阅读
                            
                                                                             
                 
                
                                
                    