文章目录一、数据调用与预处理二、一元线性回归分析三、多元线性回归分析(一)解释变量的多重共线性检测(二)多元回归1. 多元最小二乘回归2. 逐步回归(三)回归诊断四、模型评价-常用的准则统计量 一、数据调用与预处理本文使用的数据为R语言自带数据集“iris”。iris数据集包含5个变量: 数值变量:Sepal.Length, Sepal.Width, Petal.Length, Petal.Wi
转载
2023-07-18 11:44:04
52阅读
相机模型数码相机图像拍摄的过程实际上是一个光学成像的过程。相机的成像过程涉及到四个坐标系:世界坐标系、相机坐标系、图像坐标系、像素坐标系以及这四个坐标系的转换。理想透视模型——针孔成像模型相机模型是光学成像模型的简化,目前有线性模型和非线性模型两种。实际的成像系统是透镜成像的非线性模型。最基本的透镜成像原理如图所示:其中 u 为物距, f 为焦距,v 为相距。三者满足关系式:相机的镜头是一组透镜,
转载
2024-10-14 08:25:23
160阅读
Spider系统是搜索引擎当中进行互联网上数据采集的一个核心子系统。在这个子系统当中,通常先种入一批种子Url,Spider对这些种子Url采集之后将链接提取入库,然后再对新入库的Url进行采集,并且负责对采集过的Url进行更新采集,如此循环。 随着各种垂直搜索引擎的不断发展,整个Spider在功能上又分为传统的收集互联网上所有数据的大Spider和服务于某个
转载
2024-10-25 11:26:00
13阅读
三、 Pandas使用注:本次操作是在ipython中进行1、导入pandas模块并使用别名,以及导入Series模块,以下使用基于本次导入。In [1]: from pandas import SeriesIn [2]: import pandas as pd2、SeriesSeries 就如同列表一样,一系列数据,每个数据对应一个索引值。Series 就是“竖起来”的 list:In [3]
转载
2024-01-22 23:20:57
70阅读
注: 本文是R语言sf包的核心开发者和维护者——来自德国明斯特大学的地理信息学教授:
Edzer Pebesma 的一篇关于sf包的简介,发表于2018年7月的R语言期刊,主要讲述了sf的定位、功能、开发现状及现存问题和今后展望,sf包是一个非常了不起的工具,在R语言中引入了空间数量分析领域通用的标准规范(simple feature),结合tidyverse工具箱组合
转载
2023-06-30 18:38:28
422阅读
1.单因素方差分析:适用于单因素A有两个水平或以上,研究个水平对因变量的影响正态假设条件:W检验shapiro.test():原假设为数据来自正态分布方差齐性条件:Bartlett检验(主要用于正态分布的数据) bartlett.test(x, g, ...)x是数据向量或列表(list);g是因子向量,如果x是列表则忽略g。 当使用数据集时,也可以通过formula调用函数&
转载
2023-06-25 20:40:28
273阅读
http://blog.sina.com.cn/s/blog_597fcb450100c3um.html 【转】R与SAS、SPSS的比较 (2009-03-05 20:29:40)
转载 标签: 教育分类: 学习R与SAS、SPSS的比较R语言 R是用于统计分析、绘图的语言和操作环境。R是
高级数据管理数值和字符处理函数数学函数函数描述np.abs(x)绝对值np.sqrt(x)平方根np.ceil(x)大于x的最小整数np.floor(x)小于x的最大整数np.trunc(x)向0截取x中的整数部分np.round(x, decimals=2)将x舍入为指定位的小数np.cos(x)/sin(x)/tan(x)余弦/正弦/正切np.arccos(x)/arcsin(x)/acrta
转载
2024-07-12 18:50:33
46阅读
R语言和集算器吸引人的地方之一在于,它们的代码风格都比较敏捷,用简短的代码就可以实现丰富的功能。比如都可以写出”Vector Computing”表达式,对判断语句都进行了简化,都可以把基础函数扩展成高级函数,都支持泛型。其中向量化计算的特点是用函数和运算符处理批量数据,避免循环语句。这将带来2个优点:使程序员可以轻松掌握,降低学习成本;方便实现计算,提高性能。下面用几个例子来比较一下R和集算器在
转载
2023-08-18 13:01:45
165阅读
加载可能用到的包library(xml2)
library(rvest)
library(reshape2)
library(ggplot2)
library(dplyr)读取数据打开数据来源的链接,鼠标点击右键检查,将内容复制到文本文件中,我这里命名为new1.txtpage"new1.txt")
JokicJokic[[9]]
list(Jokic)
df1colnames(df1)首先看一看
转载
2023-11-03 12:30:17
96阅读
(注明:以下文章均在Linux操作系统下执行)一、R语言简介R语言是用于统计分析,图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka和Robert Gentleman在新西兰奥克兰大学创建,目前由R语言开发核心团队开发。R语言的核心是解释计算机语言,其允许分支和循环以及使用函数的模块化编程。R语言允许与以C,C ++,.Net,Python或FORTRAN语言编写的过程集
转载
2023-07-23 20:22:52
309阅读
下面录入文法文件,运行ANTLRWorks点击“File– New”菜单新建文法文件,在新文件中将前面的文法录入。(我的网站中有本书所有示例源代码,但我建议您还是手工录入一遍。这样您会有更好的学习效果。)录入文法后点击“File – Save” 菜单文件名为“E.g”。然后点击“Generate–GenerateCode”,如果ANTLRWorks提示“The grammar has been s
转载
2023-12-25 13:47:17
41阅读
R语言︱情感分析—基于监督算法R语言实现笔记。可以与博客 R语言︱词典型情感分析文本操作技巧汇总(打标签、词典与数据匹配等)对着看。 词典型情感分析大致有以下几个步骤:训练数据集、neg/pos情感词典、分词+数据清洗清洗(一、二、三级清洗步骤)、计算情感得分、模型评价 ———————————————————————————————————————————— 
在R语言中,因子(factor)表示的是一个符号、一个编号或者一个等级,即,一个点。例如,人的个数可以是1,2,3,4......那么因子就包括,1,2,3,4.....还有统计量的水平的时候用到的高、中、低,也是因子,因为他是一个点。与之区别的向量,是一个连续性的值,例如,数值中有1,1.1,1.2......可以作为数值来计算,而因子则不可以。如果用我自己的理解,简单通俗来讲:因子是一个点,向
转载
2023-06-21 22:48:48
223阅读
R语言是为数学工作者设计的一种数学编程语言,主要用于统计分析。绘图、数据挖掘。R语言是一种解释型的面向数学理论工作者的语言,与C语言同样是出自贝尔实验室之手,但是C语言是面向计算机软件工程师设计的。R 语言的特点R语言属于GNU开源软件,兼容性好,使用免费语法十分有利于复杂的数学运算数据类型丰富,包括向量、矩阵、因子、数据集等常用数据结构代码风格好,可读性强R环境安装R语言的开发环境本身具备了图形
转载
2023-09-06 19:50:33
84阅读
回归分析是科学研究中十分重要的数据分析工具。随着现代统计技术发展,回归分析方法得到了极大改进。混合效应模型(Mixed effect model),或称多水平模型(Multilevel model)/分层模型(Hierarchical Model)/嵌套模型(Nested Model),无疑是现代回归分析中应用最为广泛的统计模型,代表了现代回归分析主流发展方向。混合效应模型形式灵活可以应对现代科学
转载
2023-07-11 09:45:08
167阅读
在既往文章中,我们已经介绍了R语言计算人年及可信区间的计算。但是计算的是总的人年发病率的比较情况,假如我们想知道分层发病率的情况呢?拿既往乳腺癌的数据为例子,我们已经知道了有淋巴结肿大和没有淋巴结肿大患者总的生存率的比较,但是如果我们想了解在每个年龄段有淋巴结肿大和没有淋巴结肿大患者生存率有无区别?如下图 我们以R语言survival包演示泊松回归年龄分层发病率统计,继续使用我们的乳腺癌数据(公众
转载
2023-08-30 19:55:00
143阅读
文本分词,就是对文本进行合理的分割,从而可以比较快捷地获取关键信息。例如,电商平台要想了解更多消费者的心声,就需要对消费者的文本评论数据进行内在信息的数据挖掘分析,而文本分词是文本挖掘的重要步骤。R语言中,对中文分词支持较好的包有RWordseg包和jiebaR包,这里学习jiebaR包。一、jiebaR包简介jiebaR 是中文分词的R语言版本,支持最大概率法(Maximum Probabili
转载
2022-05-21 11:46:00
477阅读
全面的回归分析包括对异常值的分析:离群点、高杠杆值点、强影响点。 离群点:模型效果不佳的观测点。 使用car包中的outlierTest()函数,可以求得最大标准化残差绝对值Bonferroni调整后的p值,若不显著,则说明数据集中没有离群点,若显著,则必须删除该离群点。 > library(car)
> outlierTest(fit)可见,在这个回归模
转载
2023-08-13 20:56:44
323阅读
plot(x, y, ...)
ylab, xlab: x轴与y轴名称设置参数子标题设置参数ylim, xlim: x轴与y轴数值界限设置参数
type:划线类型
col:划线颜色
lwd:线粗举个栗子:
plot(AvTemp,type="b",col=2,xlab="月份",ylab="平均温度",main="森林地区月平均温度时序折线图",sub = "子标题",lwd=2
转载
2023-08-31 13:52:51
159阅读