《用十年学编程》(Teach Yourself Programming in Ten Years by Peter Norvig) 里说学习编程的最好方法就是实践,以任务为导向的学习往往更为高效。本文就是这样一个笔记,算不上教程,只不过是菜鸟在记录自己的脚步。如果你恰好不知道怎么做分析,不妨来看一看。什么是分析分析有两个常见的应用——适合度分析和独立性分析。这个笔记着重于适合度分析。从
转载 2023-12-08 12:59:46
31阅读
# 机器学习中的卡校验 在机器学习和统计学中,(Chi-Squared)检验是一种用于判断观察数据与预期数据之间是否存在显著差异的统计方法。检验主要用于分类变量的相关性分析,常见于决策树、特征选择等机器学习任务中。 ## 检验的基本概念 检验的核心目的是比较观察频数(实际数据)与期望频数(假设模型下的理论数据)之间的差异。通常我们可以使用以下公式计算统计量: \[ \
原创 10月前
91阅读
<此部分理论内容结合统计学教材学习>列联分析1. 收集样本数据产生二维或多维交叉列联表; 2. 对两个分类变量的相关性进行检验(假设检验)pandas.crosstab(index,columns,margins,normalize) - margins默认为False不带合计数据  - normalize=True频率列联表 salary_reform.
检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(更多参考:检验、分布) 不讲过多理论,主要使用 python 实现验证。之前对于元素/特征/属性 异常值的选择情况,可以使用直方图、箱型图、Z分数法等筛选。如&nbs
科普文章:AB实验和Java实验校验 # 引言 在软件开发领域,AB测试是一项常用的实验设计方法,用于比较两个或多个版本的软件或功能的效果。而在进行AB测试时,Java实验校验是一种常用的统计方法,用于确定两个版本之间是否存在显著差异。本文将介绍AB实验的概念、AB测试的流程以及Java实验校验的原理和实现。 # AB实验 ## 什么是AB实验? AB实验(A/B testing)
原创 2023-09-13 09:56:17
144阅读
1.检验概念1)检验是一种用途很广的计数资料的假设检验方法,由卡尔·皮尔逊提出。(1)它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。(2)其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。(3)值描述两个事件的独立性或者描述实际观察值与期望值的偏离程度。值越大,表名实际观察值与期望值偏离越大,也说明两个事件的相互独立
## Python实现流程 ### 1. 数据准备 首先需要准备好用来计算的数据。检验是用来检验两个分类变量之间的关联性的方法,因此需要两个分类变量的数据。 ### 2. 数据整理 对于检验,需要将数据整理成一个频数表。频数表是一个二维表格,行表示变量A的各个类别,列表示变量B的各个类别,每个单元格中记录了变量A和变量B同时出现的频数。 ### 3. 计算期望频数 计算期望频
原创 2023-12-29 09:50:24
41阅读
统计学第七周一.知识回顾上周已经学习过正态分布/分布/T分布等知识,但是如何选择那??正态分布?分布?T分布二.实践1.场景:泰坦尼克号数据,主要是age年龄,Fare价格即船票价格,Embark登船的港口,需要验证数据是否服从正态分布,T分布,分布?具体数据如下:IDAgeFareEmbarked1227.25S23871.2833C3267.925S43553.1S5358.05S
什么是检验检验是一种用途很广的基于分布的假设检验方法,其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。其主要应用于分类变量,根据样本数据推断总体分布与期望分布是否有显著差异或推断两个分类变量是否相关或相互独立。检验分类 检验步骤检验可以参照一般假设检验步骤:设置原假设与备择假设设置显著性水平根据问题选择具体的假设检验方式计算统计量
Last updated on 2020-3-12…本篇是上一篇《python特征工程篇》的一个子集,由于内容较多而单独出一篇。(»原文链接)特征选择特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。多维特征一面可能会导致维数灾难,另一面很容易导致过拟合,因此需要做降维处理,常见的降维方法有 PCA,t-SNE(计算复杂度很高)。比赛中使用PCA效果通常并不好,因为大多数特征含有缺
转自:概率分布之间的距离,顾名思义,度量两组样本分布之间的距离 。1、检验统计学上的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为  (i=1,2,3,…,k)Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi。
转载 2024-04-23 13:36:15
62阅读
检验(chi square test)能够是一种假设性检验的方法,它能够检验两个分类变量之间是否是独立无关的。它通过观察实际值和理论值的偏差来确定原假设是否成立,它按照以下步骤来检验两个分类变量是否是独立的。无关性假设假如,有了一些新闻文章,这些新闻的文章已经标好了类别,所以可以得到以下统计的信息。通过下面的表格的第一行和第二行可以得出,文章的内容是否包含“篮球”的确对文章是否是体育类别的有统
统计学,风控建模经常遇到分箱算法ChiMerge。分箱在金融信贷风控领域是逻辑回归评分的核心,让分箱具有统计学意义(单调性)。分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。但很多建模人员搞不清楚分箱原理。先给大家介绍一下经常被提到的卡分布和检验是什么。分类变量检验方法    分布绘图 如果多个符合正态分布
转载 2023-11-15 06:49:24
188阅读
解决的问题:1、实现了二分类的卡分箱;2、实现了最大分组限定停止条件,和最小阈值限定停止条件;问题,还不太清楚,后续补充。1、自由度k,如何来确定,阈值的自由度为 分箱数-1,显著性水平可以取10%,5%或1%算法扩展:1、分箱除了用阈值来做约束条件,还可以进一步的加入分箱数约束,以及最小箱占比,坏人率约束等。2、需要实现更多分类的卡分箱算法;具体代码如下:# -*- coding:
one-hot 编码会将原始变量中的每个状态都做为作为一个新的特征,当原始特征状态较多时,数据经过one-hot编码之后特征数量会成倍的增加,同时新特征也会变得过于稀疏。在进行变量筛选的过程中,也会出现原始特征的一部分状态被筛选出来,另一部分状态未被筛选出来,造成特征的不完整。而WOE编码不仅可以解决以上这些问题,同时还可以将特征转化为线性。在建模中,需要对连续变量离散化,特征离散化后,模型会更稳
转载 2023-08-04 12:49:08
232阅读
import sys import numpy as np import pandas as pd import math import os from tqdm import tqdm pd.set_option('display.float_format', lambda x: '%.3f' % x) """ 1.自定义缺失值处理函数 1.1 缺失值计算 """ def
分类数据的 拟合优度检验 独立性检验 分类数据的 拟合优度检验 前面我已经写了关于几种常见的假设检验内容,而 检验主要是测试样本分类数据的分布是否符合预期分布。相信大家如果学过高中生物,都知道孟德尔——遗传学之父,当时他根据颜色和形状把豌豆分为四类:黄圆、绿圆、黄皱和绿皱.孟德尔根据遗传学原理判断这四类的
转载 2024-04-14 00:24:26
64阅读
检验检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。检验的用途:1、检验某个连续变量的分布是否与某种理论分布相一致。例如是否符合正态分布,均匀分布,Poisson分布 2、检验某个分类变量的各类的概率是否等于指定概率 3、检验
转载 2023-06-16 15:05:48
491阅读
检验,或称x2检验。无关性假设: 假设我们有一堆新闻或者评论,需要判断内容中包含某个词(比如6得很)是否与该条新闻的情感归属(比如正向)是否有关,我们只需要简单统计就可以获得这样的一个四格表:组别 属于正向 不属于正向 合计 不包含6得很 19 24 43 包含6得很 34 10 44 合计 53 34 87通过这个四格表我们得到的第一个信息是:内容是否包含某
转载 2023-08-18 09:00:05
199阅读
  • 1
  • 2
  • 3
  • 4
  • 5