一. 背景概述     提到图表,大家最熟悉的莫过于曲线图、柱状图、饼图等,但是对于图表的系统性认识及不同场景下的应用常常会有所欠缺,即就是做到我有什么数据,需要哪些图表进行信息表达。此次主要对于常用图表(分布类)做以梳理。二. 分布类图表1.箱形图2.散点图3.直方图4.气泡图5.热力图6.曲线图三. 图表说明1. 箱形图箱形图又称盒须图、盒式图或箱线图,是一种用作
R语言数据分析本系列主要介绍R语言在数据分析领域的应用包括: R语言编程基础、R语言可视化、R语言进行数据操作、R语言建模、R语言机器学习算法实现、R语言统计理论方法实现。 本系列会完成下去,请大家多多关注点赞支持,一起学习~参考资料: Data Analysis and Prediction Algorithms with R文章目录R语言数据分析R语言数据分析从入门到高级:(七)数据分布可视化
转载 2023-06-25 10:10:25
145阅读
帕累托图以Vilfredo Pareto命名的Pareto图表是一种同时包含条形图和折线图的图表,其中各个值按降序由条形表示,累计总数或者累计百分比由直线表示。问题定义:想了解各个产品的销售额,并找到营销销售额的关键产品。解决方案:针对这个问题,可以采用帕累托可视化分析,非常直观有效地解决这个问题。R语言绘制帕累托图。参考代码:library(pacman) # R包管理器 p_load(qcc)
转载 2023-05-23 12:27:07
433阅读
R语言中统计分布和模拟前言  很多应用都需要随机数。像interlink connection,密码系统、视频游戏、人工智能、优化、问题的初始条件,金融等都需要生成随机数。但实际上目前我们并没有“真正”的随机数生成器,尽管有一些伪随机数生成器也是非常有效的。目录 1. 概率统计分布概述 2. 随机函数模拟介绍 3. 密度函数模拟介绍 4. 分布函数模拟介绍 5. 分位数函数模拟介绍 6. 函数模拟
转载 2023-08-11 21:03:04
173阅读
这个问题涉及马蹄蟹研究的数据。研究中的每只雌性马蹄蟹都有一只雄性螃蟹贴在她的巢穴中。这项研究调查了影响雌蟹是否有其他男性居住在她附近的因素。被认为影响这一点的解释变量包括雌蟹的颜色(C),脊椎状况(S),体重(Wt)和甲壳宽度(W)。数据文件:crab.txt。我们将首先拟合仅具有一个自变量:宽度(W)的泊松回归模型 估计的模型是:$ log( hat { mu_i})$
有时候我们会用帕累托图(Pareto chart)来展现数据的两个指标(一个频数,一个率),这种情况就需要用双坐标来展示。ggplot2的作者Hardley似乎也不太认同双坐标的存在。那么,有时候回归基础包,也是另一种尝试。花了点时间用基础包画了下面这张帕类托图,左侧纵坐标代表病人例数,右侧表示死亡率,横坐标是一种疾病严重程度评分。那么我们来看一下这么一张图是怎么一步步画出来的吧。image.pn
# 生成Beta分布R语言示例 Beta分布是一个常用的概率分布,在统计学和机器学习中经常用来建模成功率、概率等随机变量。在R语言中,我们可以利用`rbeta()`函数来生成Beta分布。本文将介绍如何使用R语言生成Beta分布,并通过一个实际问题来说明其应用。 ## 实际问题 假设某医院进行了一项疫苗接种活动,为了评估接种成功率,随机抽取了1000位接种者进行了调查,其中有800人表示接
在数据分析中,了解数据的分布是非常重要的一步。这可以帮助我们识别数据的特征、寻找异常值,以及在后续分析中选择合适的统计方法和模型。在R语言中,大量的工具和函数可用于查看数据分布。本文将介绍几种常用的方法,包括直方图、密度图、箱线图以及Q-Q图,并提供相应的代码示例。 ### 1. 直方图 直方图是查看单变量分布的一种直观方法。它通过将数据分成若干个区间(bins),并显示每个区间的频数。 `
原创 2月前
73阅读
 在整个交易中只有一种确定性,那就是“趋势”,趋势有大小,但一定会出现。这就是交易盈利的根本之所在。所有的交易工作都是为了捕捉趋势。价格会延续。所有的交易模式都是基于趋势的前提,再去谈概率的问题。利物莫尔也说类似的话,“交易就是等待必然的涨与跌。”趋势线和拐点线是我们趋势交易法中确定趋势最有效的工具。确定趋势的方法也就是我们利用趋势线和拐点线,来排除上升趋势或下降趋势,以确定买卖方向。1
在我们的数理统计课程中,已经看到了大数定律(这在概率课程中已经被证明),证明给出一组i.i.d.随机变量  ,其中有为了直观地看到这种收敛性,我们可以使用> for(i in 1:20)B\[,i\]=mean_samples(i*10) > boxplot(B)也可以直观地看到边界  (用于中心极限定理,获得极限的非退化分布)。我们一直在讨论经
首先是试验设计5个人,发150次红包,每次50块,为了排除其他变量的干扰比如人品等因素,每抢30次调换一下顺序。然后对数据进行统计。第一步对数据可视化展示,观察数据的规律因为没有原始数据,看完整个视频后根据毕导总结的规律模拟数据 数据的基本规律是 第一个抢红包的金额符合0.01~20的均匀分布 第二个抢红包的金额符合0.01~24.99的均匀分布 第三个抢红包的金额符合0.01~33.32的均匀分
什么是正太分布检验? 判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。方法一 概率密度曲线比较法 看样本与正太分布概率密度曲线的拟合程度,R代码如下:norm_expression <- function(x) (1/sqrt(2*pi))*exp(-0.5*x^2) #curve(norm_expression, -4, 4, col="red") #标准正太分布概率密度曲
转载 2023-06-21 20:32:14
213阅读
    研究WSN空间覆盖能力的论文或多或少会假设随机部署的节点位置是服从柏松点过程(Possion Point Process,PPP)的,刚接触到这个概念也是挺懵了,之前学过随机过程、排队论都是讲的一维上的Possion Process,而二维平面上的PPP如何实现呢?在许多论坛上搜索后,终于找到实现二维PPP的代码实现,原来有个大牛Adrian Baddeley集结了一帮
转载 2023-08-31 16:20:12
67阅读
在这一期我们将要学习如何针对分类变量数据创建频率表和列联表,并且在此基础之上进行独立性检验、关联度测量以及相关数据的可视化。创建频率表和列联表R语言提供了许多方法来创建频率表和列联表,在这里我们主要介绍三种常用的函数,它们虽有各自的特点,但大同小异,大家在学习中能细细体会出来。1. 函数table() #首先自己创建训练数据(这里的数据是随手编写的,不具有科学性) #所有的数据都是分类变量(这里
正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。现今德国10马克的印有高斯头像的钞票,其上
目录0 R语言概述1 本次实战简介2 涉及的工具包2.1 ggplot2简介2.2 ggExtra简介2.3 ggpointdensity简介3 开始画图3.1 安装并载入3.2 导入数据3.3 二维散点核密度图3.4 修改横纵坐标轴和坐标轴名称3.4.1 不想要的部分:XXX=“none”3.4.2 修改背景(包括坐标轴)4.绘制边际图形0 R语言概述      &
R语言的各种统计分布函数1.二项分布Binomial distribution:binom二项分布指的是N重伯努利实验,记为X ~ b(n,p),E(x)=np,Var(x)=np(1-p)pbinom(q,size,prob), q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率dbinom(x,size,pr
目录0引言1、偏态分布的定义1.1正态分布1.2偏态分布2、偏态分布的数字特征2.1均值2.2方差3、不同偏态的偏态分布——R语言3.1 代码3.2不同lambda的偏态分布图参考文献 0引言偏态分布是A. Azzalini1在1985年提出的,本文主要介绍正态分布到偏正态分布的定义,主要展示偏正态分布常见数字特征均值方差的推导,以及使用R语言对不同偏态的概率密度函数进行展示。1、偏态分布的定义
明显此条件下的不吸烟概率会大得多。相应的迭代代码P = [0.5, 0.5;0.2,0.8]; days = 30; pi = zeros(days,2); pi(1,:) = [1,0]; for k = 2:days pi(k,:) = pi(k-1,:) * P; end figure, plot(1:days, pi(:,1), 'r', 1:days, pi(:,2), 'b'
01研究背景        在cox回归中,如何利用已经构建好的预测模型预测单个患者的生存概率呢?R中的pec包中predictSurvProb()函数可以利用cph()拟合的模型计算验证集中患者在不同时间节点的生存概率。其次该包还能在验证集中计算不同时间点C-index指数,绘制成图,比较验证集在不同模型中的C-index,通过交叉验证评估不同模型的区分度
  • 1
  • 2
  • 3
  • 4
  • 5