1.统计学习当人们提及机器学习时,往往指的是统计机器学习。统计学习的目的是对数据进行预测和分析。学习:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。统计学习关于数据的基本假设:同类数据具有一定的统计规律性。统计学习的方法:模型、策略、方法。统计学习包括:监督学习、非监督学习、半监督学习、强化学习。2.监督学习监督学习是从训练数据集中学习模型,对测试数据进行预测。输入变量X和输出变量Y有            
                
         
            
            
            
            应用统计学数据的概括性度量集中趋势Mode众数是唯一描述无序类别数据,由图可知众数便是图形中的峰。 对于类别变量,众数就是某一种类别。中位数和平均数都可能不是样本中的值。中位数不受极值影响,对于类别数据来说,中位数是某一类别(同mode),各变量值与中位数的离差绝对值之和最小,与均数不同。   平均数的求法,令函数等于各变量值与平均数的离差平方之和,该函数表            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-04-25 18:25:28
                            
                                350阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            1引言《概率论》是一门理工科大学生必修课程,学统计学的同学们更是绕不开这门课程以            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-06-07 14:03:10
                            
                                344阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具。第一节介绍数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式。它使用广泛,并且是众多应用的技术基础。本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具。近些年来,Python在开发以数据为中心的应用中被用的越来越多。感谢大型科学计算社区的支持以及大大丰富的数据分析函数库。尤其是,我们可以看到如何:• 导            
                
         
            
            
            
            1. central tendency
平均数:一些异常值(outliers)会严重影响均值,在精度要求较高的情形下,先要清除离群点。这也是裁判打分制的比赛,为什么要去掉一个最高分,去掉一个最低分的原因。中位数:如果偶数个(2n)元素,中间的两个元素(n,n+1)相等时,中位数就是这个数;众数:3、3、3、3、100
三者均可用于描述数据的中心趋势。只是方式的确定依赖,具体的数据分布情况。2. 随            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2016-08-11 19:35:00
                            
                                261阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            《赤裸裸的统计学》,作者[美]查尔斯·韦兰,2013年出版,豆瓣评分8.1分,可以作为统计学入门读物很好的一本书,知识点浅显易懂,对小白非常友好,有统计专业知识的人可能会觉得干货略少。总的来说,值得一读,推荐指数4颗星。文章末尾有关于这本书的知识图谱。一、统计学是大数据时代最炙手可热的学问第一章开头提出了几个有意思的问题:基尼系数是否是衡量社会分配公平程度最完美的指标?(描述性统计学)视频网站是如            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-01-19 21:47:09
                            
                                2341阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.小概率标准在概率论中我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件...一般            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-04-11 10:26:44
                            
                                7439阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.小概率标准在概率论中我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件...一般多采用0.01、0.05两个值即事件发生的概率在0.01以下或0.05以下的事件称为小概率事件这两个值称为小概率标准2、准确度和误差准确度:指分析结果接近真值的程度,用平均值的误差表示。误差:表示测定值与真值的差异。平均值的误差就是平均值与真值的误差,可用            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2021-05-20 22:21:07
                            
                                288阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            knitr::opts_chunk$set(echo = TRUE)总结统计学中基础知识,以原理叙述为主。  数据度量集中趋势的度量分类            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2022-08-04 17:31:36
                            
                                509阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录为什么要学习统计学图表的玄机被混淆的因果关系打破权威数据分析必备统计小百科概率和机会变量和常量断.            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2023-10-12 16:34:07
                            
                                0阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            ## Spark 统计学入门指南
作为一名刚入行的开发者,学习如何使用 Apache Spark 进行统计分析是一个非常重要的技能。本文将为你提供一个详细的流程,以及在每一步需要使用的代码示例和相关注释。我们将通过一个表格展示整个过程,并包含代码示例来帮助你理解。
### 整体流程
以下是进行 Spark 统计分析的基本流程:
| 步骤 | 描述            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2024-10-10 03:35:42
                            
                                107阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            本文用Python统计模拟的方法,介绍四种常用的统计分布,包括离散分布:二项分布和泊松分布,以及连续分布:指数分布和正态分布,最后查看人群的身高和体重数据所符合的分布 
# 导入相关模块import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns
%matplotlib inlin            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-06 10:27:46
                            
                                102阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            零、什么是统计学统计学是一门收集、整理和分析统计数据的方法科学,其目的是探索数据内在的数量规律,以达到对客观事物的科学认识。统计学研究的是随机对象,以推断为特征,“由部分推及全体”的思想贯穿始终。一、统计学分类描述统计学研究如何取得反应客观现象的数据,并通过图表的形式对所收集的数据进行加工处理和显示,进而通过综合概括和分析得出反应客观现象的规律性现象特征。推断统计学研究如何根据样本数据去推断总体数            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2018-08-27 14:28:44
                            
                                530阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            零、数据描述的数值方法集中趋势给出一组数据,具体向谁靠拢,分布在谁的附近具体指标:均值中位数众数离散程度数据的分布情况,是松散分布的,还是紧密分布的具体指标:极差方差分布的形状数据大概的形状具体指标:偏度蜂度一、集中趋势一组数据向其中心值靠拢的倾向和程度集中趋势测度:寻找数据的水平代表值或中心值具体指标均值是指在一组数据中所有数据之和再除以数据的个数,是反映数据集中趋势的一项指标数学表达式:1.p            
                
                    
                        
                                                            
                                                                        
                                                                                        原创
                                                                                    
                            2018-08-27 14:29:40
                            
                                1211阅读
                            
                                                                             
                 
                
                             
         
            
            
            
               一、何为统计学?统计学:  研究对象:统计学是通过数据认识客观现象,认识客观现象数量规律性的方法论科学。  分类:数理统计、经济统计、金融统计、生物统计、政府统计等  本质:关于不确定性数据的一种科学,既是科学,也是艺术。明天是否下雨,股市是否上涨。 数据:  数据(狭义上的数据):数字,比如人的身高,体重,温度,股市的指数,每天微信运动的步数等  数据(维基百科):数据            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-09-18 18:02:58
                            
                                61阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            目录:5.1 描述性统计分析(1)基本统计学概念(2)统计量(3)离散程度(4)点估计和区间估计5.2 假设检验(1)假设检验概念(2)假设检验基本步骤(3)显著性水平与拒绝域(4)单样本t检验(5)双样本t检验 5.1 描述性统计分析(1)基本统计学概念总体样本(2)统计量可以在一定程度上反应总体的特征,从样本数据中计算得到,常见统计量包括:均值标准差中位数分位数众数(3)离散程度统计量可以对            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-09 17:06:54
                            
                                167阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            Python统计分析描述性统计分析分类变量:性别、民族、居住城市、是否违约、(等级变量:教育、学历、客户满意度、年龄段)连续性变量:年龄,收入总体:对客观事物研究时,总体是包含所有研究个体的集合,比如研究中国人的身高,那么所有中国人的身高就是总体,某一个中国人的身高就是个体。样本:在总体里面抽样,经过抽样总体中的部分个体,就形成了样本,样本是总体的子集。统计量:均值、标准差、中位数、分位数、众数。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-18 22:04:57
                            
                                151阅读
                            
                                                                             
                 
                
                             
         
            
            
            
              这一篇介绍一些描述性统计的基本情况。  数据处理是描述性统计的第一步,对于搜集的数据,首先应先排序,将其按照一定的顺序整理。操作完成后要进行分组,以被研究事物的本质属性进行分组,分组的标准要明确,不能出现数据的交叉和重叠。      一、次数分布概况       次数分布一般            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-14 23:21:48
                            
                                121阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            文章目录1 基本配置1.1 基本模块1.2 绘图设置2 基本统计量3 基本分布3.1 离散型分布3.2 离散型分布示例3.2.1 伯努利分布3.2.2 二项分布3.2.3 泊松分布3.3 连续型分布3.4 连续型分布示例3.4.1 正态分布3.4.2 均匀分布3.4.3 指数分布3.4.4 t分布3.4.5 卡方分布3.4.6 F分布3.4.7 对数正态分布3.4.8 韦伯分布 1 基本配置1.            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-07-02 15:47:48
                            
                                256阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言 本科期间已经系统的学习过线性回归模型,奈何本菜鸡记性太差,每次用到还要重新找资料。。。近期,由于研究需要,又重新把线性回归模型学了一遍,也有了更深的理解,借此机会,系统性的总结一遍,免得用的时候又到处找资料。 文章目录一元线性回归模型模型及基本假设最小二乘法OLS估计量的性质残差项的正交性判定系数假设检验估计和预测多元线性回归模型模型及古典模型假设OLS估计量OLS的小样本性质小样本下的统计            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-29 16:24:49
                            
                                423阅读