选自GitHub,机器之心编译。鉴于特征选择在机器学习过程中的重要性,数据科学家 William Koehrsen 近日在 GitHub 上公布了一个特征选择器 Python 类,帮助研究者更高效地完成特征选择。本文是 Koehrsen 写的项目介绍及案例演示文章。特征选择(feature selection)是查找和选择数据集中最有用特征的过程,是机器学习流程中的一大关键步骤。不必要的特征会降低            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-29 21:56:56
                            
                                74阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            注意:这章以后的算法不包含在opencv-python中,需要卸载opencv-python,安装opencv-contrib-python的3.4.2.16版本,过程如下:pip uninstall opencv-pythonpip install opencv-contrib-python==3.4.2.16目录简介SIFT算法特点与步骤Lowe将SIFT算法分解为如下四步:① 尺度空间极值检            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-17 12:41:15
                            
                                39阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            我想计算Haar特征,自己手动计算感觉挺麻烦(主要在取各个不同位置、不同scale的特征),而且可能速度不够。
 
OpenCV 的这个把所有东西都封装起来了,由于我的online-boosting和它的框架不一样,不能直接使用。我在源码中看了半天,发现里面又有 internal haar feature又有fast haar feature,还有什么Thaar feature。源码中注释比较少,            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-23 17:22:10
                            
                                57阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1 基本数值特征本文以bilibili上的学习视频为笔记,代码原图1.1 离散值处理np.unique()看一下有多少类别1.2 标签编码LabelEncoder将离散值映射为计算机可以识别的数据。例子是采用的LabelEncoder来实现,数值是从0开始。也可以自己手动写one-hot Encoding什么是one-hot编码,简单的说就是,假如有5个类别,“鸡,鸭,鹅,猫,狗”,转换为one-            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-24 21:09:47
                            
                                164阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            应用:图像拼接、图像匹配特征检测和提取算法:Harris(检测角点)SIFT(检测斑点blob)SURF(检测斑点)FAST(检测角点)BRIEF(检测斑点)ORB(带方向的FAST算法与具有旋转不变性的BRIEF算法)特征匹配算法:暴力匹配(Brute-Force)基于FLANN匹配。特征:特殊的图形区域、独特性和易于识别性--角点和高密度区域。大量重复区域和低密度区域不适合作为特征,边缘时很好            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-04 18:52:04
                            
                                87阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            Scikit-Learn是基于python的机器学习模块,基于BSD开源许可证。这个项目最早由DavidCournapeau 在2007年发起的,目前也是由社区自愿者进行维护。它的主要特点有操作简单、高效的数据挖掘和数据分析、无访问限制、在任何情况下可重新使用、建立在NumPy、SciPy和matplotlib基础上、使用商业开源协议--BSD许可证等。scikit-learn的基本功能主要被分为            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-06-06 21:43:12
                            
                                93阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            修改prototxt实现caffe在[1]讲到如何看一个图片的特征和分类结果,但是如何批量抽取特征呢?可以使用c++的版本点击打开链接,这里我们谈下如何用Python批量抽取特征。
首先,我们要注意caffe filter_visualization.ipynb的程序中deploy.prototxt中网络每一轮的图片batch是10, 这个数刚好和oversample=true的crop数量是一            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-27 12:38:34
                            
                                82阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本篇blog是利用Python进行文章特征提取的续篇,主要介绍构建带TF-IDF权重的文章特征向量。  
     In [1]: 
       #  带TF-IDF权重的扩展词库
# 在第一篇文档里 主要是利用词库模型简单判断单词是否在文档中出现。然而与单词的顺序、频率无关。然后词的频率对文档更有意义。因此本文将词频加入特征向量  
     In [2]:            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-23 22:51:20
                            
                                216阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            调用Python中的skimage库提取图像HOG特征的示例代码如下,代码摘自 图像特征工程 HOG特征描述子介绍:from skimage.io import imread, imshow
from skimage.transform import resize
from skimage.feature import hog
from skimage import exposure
i            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-04 21:09:39
                            
                                271阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            #中文分词
def cut_word(text):
     text=" ".join(list(jieba.cut(text)))
     return text
#中文文本的特征提取
def count_chinese_dome():
    data=["10艘中俄军舰穿过津轻海峡,这一举措合乎国际法,无可指摘,却引起日本国内“异样反应”。"
          "19日,日本内阁官房            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-19 10:21:08
                            
                                154阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文章目录一、提取特征二、保存特征点 一、提取特征傅里叶描述子特征点进行提取提取手部轮廓原理:加载图像(opencv,截图保存saveROI)肤色检测(YCrCb颜色空间的Cr分量+Otsu法阈值分割算法)图像去噪(numpy二值化处理)轮廓提取(canny检测,cv2.findContours->傅里叶描述子Laplacian)二次去噪(numpy二值化处理)绘制轮廓(cv2.drawCo            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-18 20:53:49
                            
                                2阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            sklearn.feature_extraction 
  模块可用于以机器学习算法支持的格式从原始数据集(如文本和图像)中提取特征。 
  **注意:**特征提取与 
  特征选择 
  有很大不同:前者是将任意数据(例如文本或图像)转换为可用于机器学习的数字特征。后者是一种应用在这些特征上的机器学习技术。 
  1. 从字典加载特征(Loading features from dict            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-30 09:05:30
                            
                                137阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            特征提取,简单来说是把一系列数据中转换为可用于机器学习的数字特征。sklearn.feature_extraction是scikit-learn特征提取的模块本文分别总结以下内容:Onehot编码DictVectorizer使用CountVectorizer使用TfidfVectorizer使用HashingVectorizer使用1.Onehot编码上面说过特征转化为机器学习的数字特征,其实就是            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-31 10:20:41
                            
                                128阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1.前言在深度学习出来之前,图像识别领域北有“Gabor帮主”,南有“SIFT慕容小哥”。目前,深度学习技术可以利用CNN网络和大数据样本搞事情,从而取替“Gabor帮主”和“SIFT慕容小哥”的江湖地位。但,在没有大数据和算力支撑的“乡村小镇”地带,或是对付“刁民小辈”,“Gabor帮主”可以大显身手,具有不可撼动的地位。IT武林中,有基于C++和OpenCV,或是基于matlab的Gabor图            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-01 07:36:22
                            
                                24阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            2.2 特征工程介绍2.2.1 为什么需要特征工程(Feature Engineering)2.2.2 什么是特征工程特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。 意义:会直接影响机器学习的效果。sklearn :特征工程 pandas:数据清洗、数据处理特征工程包含的内容:特征抽取/提取、特征预处理、特征降维2.3.1 特征抽取/提取:机器学习算法            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-18 22:14:32
                            
                                138阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            第1章 机器学习基础将机器学习定义成一种通过学习经验改善工作效果的程序研究与设计过程。其他章节都以这个定义为基础,后面每一章里介绍的机器学习模型都是按照这个思路解决任务,评估效果。第2章 线性回归介绍线性回归模型,一种解释变量和模型参数与连续的响应变量相关的模型。本章介绍成本函数的定义,通过最小二乘法求解模型参数获得最优模型。 第二章案例中的解释变量都是数值,比如匹萨的直径。而很多机器学            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-20 23:38:15
                            
                                45阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            图像特征,图像纹理,图像频域等多种角度提取图像的特征。 LBP,局部二值模式,局部特征描述算子,具有很强的纹理特征描述能力,具有光照不变性和旋转不变性。用python进行简单的LBP算法实验:1 from skimage import data,io
 2 import matplot.pyplot as plt
 3 import cv2
 4 from skimage.feature            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-24 14:34:07
                            
                                207阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            文本提取及文本向量化词频和所谓的Tf-idf是传统自然语言处理中常用的两个文本特征。以词频特征和Tf-idf特征为基础,可以将一段文本表示成一个向量。将多个文本向量化后,然后就可以运用向量距离计算方法来比较它们的相似性、用聚类算法来分析它们的自然分组。如果文本有标签,比如新闻类、军事类、财经类等等,那么还可以用它们来训练一个分类模型,用于对未知文本进行标签预测。词频将文本中每个词出现的次数按一定的            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-30 22:27:39
                            
                                10阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            记忆力不好,做个随笔,怕以后忘记。 
网上很多关于MFCC提取的文章,但本文纯粹我自己手码,本来不想写的,但这东西忘记的快,所以记录我自己看一个python demo并且自己本地debug的过程,在此把这个demo的步骤记下来,所以文章主要倾向说怎么做,而不是道理论述。由于python的matplotlib.pyplot库没有下载成功不会画图,文中大部分图片是我网上找的。必备基础知知识: 1. 对            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-02-28 12:29:35
                            
                                64阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录一、字典特征抽取二、文本特征数值的统计英文文本中文文本Tf-idf 一、字典特征抽取使用到的APIDictVectorizer(sparse=True)from sklearn.feature_extraction import DictVectorizersparse默认是True,返回一个稀疏矩阵。 该api作用是对数据生成一个one-hot编码. 下面用一个例子来看下api具体的用            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-02 14:34:01
                            
                                583阅读
                            
                                                                             
                 
                
                                
                    