卡方检验(chi-square,记为χ2检验)是统计学中常用来计数数据分析的方法,对于总体的分布不作任何假设,因此它属于非参数检验法中的一种。本博文从理论到实际应用去阐述卡方检验,最后用python语言去实现卡方分布的代码。1. 卡方分布卡方检验是基于卡方分布((chi-square distribution, χ2-distribution)的一种假设检验方法,理论证明,实际观察次数(fo)与理
转载
2024-01-30 22:20:25
201阅读
解决的问题:1、实现了二分类的卡方分箱;2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。1、自由度k,如何来确定,卡方阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展:1、卡方分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。2、需要实现更多分类的卡方分箱算法;具体代码如下:# -*- coding:
转载
2023-08-14 14:37:40
145阅读
one-hot 编码会将原始变量中的每个状态都做为作为一个新的特征,当原始特征状态较多时,数据经过one-hot编码之后特征数量会成倍的增加,同时新特征也会变得过于稀疏。在进行变量筛选的过程中,也会出现原始特征的一部分状态被筛选出来,另一部分状态未被筛选出来,造成特征的不完整。而WOE编码不仅可以解决以上这些问题,同时还可以将特征转化为线性。在建模中,需要对连续变量离散化,特征离散化后,模型会更稳
转载
2023-08-04 12:49:08
232阅读
# 使用卡方分箱进行数据分箱的Python实现
在数据分析和机器学习中,特征工程是至关重要的一步。卡方分箱(Chi-square Binning)是一种用于将数值型特征离散化的方法,可以帮助我们更好地理解数据并提高模型的预测能力。在这篇文章中,我将向你介绍如何利用Python进行卡方分箱的实现。我们将从整件事情的流程开始,逐步深入理解每一个步骤,并附上必要的代码和注释。
## 流程概述
以下
自由度为n-1的t分布 的平方等于自由度(1,n-1)F分布。自由度为m-1的卡方/n-m-1的卡方分布为(m-1,n-m-1)daoF分布。实际上32313133353236313431303231363533e78988e69d8331333433636131t分布就是 自由度 1的卡方/自由度为n-1的卡方分布。恩就是这样了,想象t检验的平方不就是( x平均-总体平均u)^2/标准误^2。标
转载
2023-12-22 21:10:45
160阅读
分布通过检验统计量来比较期望结果和实际结果之间的差别,然后得出观察结果发生的概率。其中O代表观察值,E代表期望值。这个检验统计量提供了一种期望值与观察值之间差异的度量办法。最后反映在数值的大小上。那么,当大到什么程度,差异才算显著呢?这要根据自由度,设定的显著性水平查找分布表来判定。对于卡方分布的具体使用,我认为其有三要素:一个公式,一张分布表,一张概率密度图。下左图中n代表自由度,纵轴为概率值,
转载
2023-08-06 19:24:16
16阅读
服从什么分布,就用什么区间估计方式,也就就用什么检验!比如:两个样本方差比服从F分布,区间估计就采用F分布计算临界值(从而得出置信区间),最终采用F检验。 建设检验的基本步骤: 前言 假设检验用到的Python工具包Statsmodels是Python中,用于实现统计建模和计量经济学的工具包,主要包括描述统计、统计模型估计和统计推断Scipy是一个数学、科学和工程计算Python工具包
转载
2024-08-20 15:50:48
66阅读
前些日子,星球里讨论风控建模面试中的一些问题,其中就提到了 “卡方分箱”。大家对卡方分箱都有或多或少的疑问,应星球朋友要求,最近整理了一下我对卡方分箱的理解,也借此分享给公众号的朋友们。什么是分箱?说到分箱,可能很多朋友都非常熟悉,它是数据科学中常用到的一个技巧,意思就是将连续型的数据分成几个数据段,即离散化。很好理解,举个例子,比如将原本连续的年龄特征离散化,结果可变为0-18,18-30, 3
转载
2023-11-23 13:10:49
121阅读
记得之前再写关于Python绘制统计图的时候就说过,准备写一篇关于数理统计的。一直都在忙论文,忙完后也比较懒散。就一直拖到了现在。虽然时隔的比较久远,但还是准备把这个总结出来了。所需要的Python库:pandas、numpy、plotly(可选,便于绘图)、scipy。所借助的平台依旧是Jupyter Notebook。我也记不得哪些是标准库哪些是第三方库了。Em...所以还得各位自己解决一下了
转载
2024-05-07 19:02:21
24阅读
我们都知道:卡方、best-ks、最优分箱等都是比较常用的有监督分箱,那么他们都是如何实现的呢?今天我们就先来学习一下卡方分箱吧,之后会再出其他分箱代码,期待一下吧~图片1.分箱逻辑: 将变量排序后,计算每一对相邻区间的卡方值,然后将卡方值最小的两个相邻区间进行合并,直至达到箱子上限数、或者卡方阈值2.核心思想: 如果两个区间合并,那么需要两个区间的样本分布相似,卡方值小,说明两个区间分布
转载
2023-12-20 17:14:15
338阅读
统计学,风控建模经常遇到卡方分箱算法ChiMerge。卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心,让分箱具有统计学意义(单调性)。卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。但很多建模人员搞不清楚卡方分箱原理。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。欢迎各位同学学习更多相关知识python金融风控评分卡模型和数据分析:一、卡方分布卡方分布(chi-squa
转载
2024-05-13 18:35:38
78阅读
import sys
import numpy as np
import pandas as pd
import math
import os
from tqdm import tqdm
pd.set_option('display.float_format', lambda x: '%.3f' % x)
"""
1.自定义缺失值处理函数
1.1 缺失值计算
"""
def
转载
2024-04-09 16:10:02
70阅读
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from statsmodels.stats.outliers_influence import variance_inflation_factor
import statsmodels.api as sm
from sklearn.model_sel
转载
2024-04-10 05:47:12
143阅读
# 卡方分箱及其在Python中的应用
卡方分箱是一种常用的特征离散化方法,它可以将连续型变量转化为离散型变量,并保留了原始变量的信息。这种方法适用于解决回归、分类和特征选择等问题。
## 什么是卡方分箱
卡方分箱是一种基于统计学原理的特征离散化方法,它通过将连续型变量划分为若干个离散的区间(或称为箱子),来减少变量的取值情况,并降低了变量的复杂度。卡方分箱的基本思想是:将连续型变量划分为K
原创
2023-07-18 09:29:32
826阅读
卡方分箱卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。这里需要注意初始化时需要对实例进行排序,在排序的基础上进行合并。卡方阈
转载
2024-08-07 11:20:39
76阅读
特征工程之特征分箱:决策树分箱、卡方分箱、bestks以及评价标准1.WOE和IV 2.无监督分箱 2.1等频分箱 2.2等距分箱 3.有监督分箱 3.1决策树分箱 3.2best-ks分箱 3.3卡方分箱前言:在做数据挖掘项目的时候,特征工程通常是其中非常重要的一个环节,但是难度也比较高,并且不同项目特征工程会有所差异,因此在做相关项目时可以多总结一些对结果提升比较明显的操作,近期做了一下天池上
特征工程之特征分箱:决策树分箱、卡方分箱、bestks以及评价标准1.WOE和IV2.无监督分箱2.1等频分箱2.2等距分箱3.有监督分箱3.1决策树分箱3.2best-ks分箱3.3卡方分箱 前言:在做数据挖掘项目的时候,特征工程通常是其中非常重要的一个环节,但是难度也比较高,并且不同项目特征工程会有所差异,因此在做相关项目时可以多总结一些对结果提升比较明显的操作,近期做了一下天池上面的入门
转载
2023-08-29 19:07:49
1125阅读
点赞
差异研究的目的在于比较两组数据或多组数据之间的差异,通常包括以下几类分析方法,分别是方差分析、T检验和卡方检验。三个方法的区别其实核心的区别在于:数据类型不一样。如果是定类和定类,此时应该使用卡方分析;如果是定类和定量,此时应该使用方差或者T检验。方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别比如男和女。如果X为3个类别比如本科以下,本科,本科以上;此时只能使用方差分析。进一步细分三
本文先从统计基础的卡方分布、卡方检验说起,之后再到卡方分箱的理解就比较容易,最后是利用Python如何实现卡方分箱。1.卡方分布定义: 设随机变量,,,…,相互独立,且(i=1,2,3,…,n)服从标准正态分布N(0,1),则他们的平方和服从自由度为n的分布。分布示意图如上图,df自由度越小,分布就越向左倾斜,随着自由度逐渐增大,分布趋近于正态分布。2.卡方统计量统计量:表示观测值频数,表示期望值
转载
2024-04-18 22:08:48
83阅读
## Python中卡方分箱实现教程
### 概述
在数据分析中,卡方分箱是一种常用的特征离散化方法,通过卡方检验来确定最优的分箱方式。在Python中,我们可以使用`pandas`和`scipy`库来实现卡方分箱的功能。下面我将详细介绍如何在Python中实现卡方分箱,希望能帮助你更好地理解和应用这一方法。
### 流程图
```mermaid
flowchart TD
A(准备数据
原创
2024-05-18 04:29:01
87阅读